许多科学和技术问题与优化有关。其中,高维空间中的黑盒优化尤其具有挑战性。最近基于神经网络的黑盒优化研究表明了值得注意的成就。但是,它们在高维搜索空间中的能力仍然有限。这项研究提出了一种基于进化策略(ES)和生成神经网络(GNN)模型的黑盒优化方法。我们设计了该算法,使ES和GNN模型合作起作用。该混合模型可以对替代网络进行可靠的培训;它优化了多目标,高维和随机黑框函数。我们的方法优于本实验中的基线优化方法,包括ES和贝叶斯优化。
translated by 谷歌翻译
The network trained for domain adaptation is prone to bias toward the easy-to-transfer classes. Since the ground truth label on the target domain is unavailable during training, the bias problem leads to skewed predictions, forgetting to predict hard-to-transfer classes. To address this problem, we propose Cross-domain Moving Object Mixing (CMOM) that cuts several objects, including hard-to-transfer classes, in the source domain video clip and pastes them into the target domain video clip. Unlike image-level domain adaptation, the temporal context should be maintained to mix moving objects in two different videos. Therefore, we design CMOM to mix with consecutive video frames, so that unrealistic movements are not occurring. We additionally propose Feature Alignment with Temporal Context (FATC) to enhance target domain feature discriminability. FATC exploits the robust source domain features, which are trained with ground truth labels, to learn discriminative target domain features in an unsupervised manner by filtering unreliable predictions with temporal consensus. We demonstrate the effectiveness of the proposed approaches through extensive experiments. In particular, our model reaches mIoU of 53.81% on VIPER to Cityscapes-Seq benchmark and mIoU of 56.31% on SYNTHIA-Seq to Cityscapes-Seq benchmark, surpassing the state-of-the-art methods by large margins.
translated by 谷歌翻译
Neural networks trained with ERM (empirical risk minimization) sometimes learn unintended decision rules, in particular when their training data is biased, i.e., when training labels are strongly correlated with undesirable features. To prevent a network from learning such features, recent methods augment training data such that examples displaying spurious correlations (i.e., bias-aligned examples) become a minority, whereas the other, bias-conflicting examples become prevalent. However, these approaches are sometimes difficult to train and scale to real-world data because they rely on generative models or disentangled representations. We propose an alternative based on mixup, a popular augmentation that creates convex combinations of training examples. Our method, coined SelecMix, applies mixup to contradicting pairs of examples, defined as showing either (i) the same label but dissimilar biased features, or (ii) different labels but similar biased features. Identifying such pairs requires comparing examples with respect to unknown biased features. For this, we utilize an auxiliary contrastive model with the popular heuristic that biased features are learned preferentially during training. Experiments on standard benchmarks demonstrate the effectiveness of the method, in particular when label noise complicates the identification of bias-conflicting examples.
translated by 谷歌翻译
发现广泛使用的深度学习模型的稳健性差。几乎没有噪音可以欺骗最先进的模型来做出错误的预测。尽管有很多高性能攻击生成方法,但其中大多数直接在原始数据中添加了扰动,并使用L_P规范对其进行测量;这可能会破坏数据的主要结构,从而产生无效的攻击。在本文中,我们提出了一个黑框攻击,该攻击不是修改原始数据,而是修改由自动编码器提取的数据的潜在特征;然后,我们测量语义空间中的噪音以保护数据的语义。我们在MNIST和CIFAR-10数据集上训练了自动编码器,并使用遗传算法发现了最佳的对抗扰动。我们的方法在MNIST和CIFAR-10数据集的前100个数据上获得了100%的攻击成功率,而扰动率较小。
translated by 谷歌翻译
最近的研究通过将基于Trimap的图像垫子的成功扩展到视频域,在视频垫子上取得了长足进展。在本文中,我们将此任务推向了更实用的设置,并提出了仅使用一个用户宣传的Trimap来强制执行视频底表的单个TRIMAP视频效果网络(OTVM)。 OTVM的一个关键是Trimap传播和α预测的关节建模。从基线构架传播和α预测网络开始,我们的OTVM将两个网络与alpha-Trimap修补模块结合在一起,以促进信息流。我们还提出了一种端到端培训策略,以充分利用联合模型。与先前的解耦方法相比,我们的联合建模极大地提高了三张式传播的时间稳定性。我们在两个最新的视频底变基准测试中评估了我们的模型,深度视频垫子和视频图108,以及优于大量利润率的最先进(MSE改善分别为56.4%和56.7%)。源代码和模型可在线获得:https://github.com/hongje/otvm。
translated by 谷歌翻译
大型标记数据集的可用性是深度学习成功的关键组成部分。但是,大型数据集上的标签通常很耗时且昂贵。主动学习是一个研究领域,通过选择最重要的标签样本来解决昂贵的标签问题。基于多样性的采样算法被称为基于表示的主动学习方法的组成部分。在本文中,我们介绍了一种新的基于多样性的初始数据集选择算法,以选择有效学习环境中初始标记的最有用的样本集。自我监督的表示学习用于考虑初始数据集选择算法中样品的多样性。此外,我们提出了一种新型的主动学习查询策略,该策略使用基于多样性的基于一致性的嵌入方式采样。通过考虑基于一致性的嵌入方案中多样性的一致性信息,该方法可以在半监督的学习环境中选择更多信息的样本来标记。比较实验表明,通过利用未标记的数据的多样性,与先前的主动学习方法相比,该提出的方法在CIFAR-10和CALTECH-101数据集上取得了令人信服的结果。
translated by 谷歌翻译
基于生成对抗网络(GAN-IT)的图像翻译是在胸部X射线图像(AL-CXR)中精确定位异常区域的一种有前途的方法。但是,异质的未配对数据集破坏了现有的方法来提取关键特征并将正常与异常情况区分开,从而导致不准确和不稳定的Al-CXR。为了解决这个问题,我们提出了涉及注册和数据增强的两阶段gan-it的改进。对于第一阶段,我们引入了一种可逆的基于学习的注册技术,该技术实际上和合理地将未配对的数据转换为配对数据以进行学习注册图。这种新颖的方法可实现高注册性能。在第二阶段,我们将数据扩展应用于均匀注册框架上的左右肺区域来多样化异常位置,从而通过减轻显示左和右肺病变的数据分布的不平衡来进一步改善性能。我们的方法旨在应用于现有的GAN-IT模型,从而使现有的体系结构受益于翻译的关键功能。通过证明应用AL-CXR的性能在应用提出的方法时均匀提高,我们认为即使学习数据稀缺,也可以在临床环境中部署Al-CXR的GAN-IT。
translated by 谷歌翻译
图像文本匹配(ITM)是评估视觉和语言(VL)模型的常见任务。但是,现有的ITM基准有一个重大限制。他们有许多缺失的信件,源自数据构建过程本身。例如,标题仅与一个图像匹配,尽管标题可以与其他类似图像匹配,反之亦然。为了纠正大规模的虚假负面因素,我们通过提供与机器和人类注释者的缺失关联来构建扩展的可可验证(ECCV)标题数据集。我们在注释过程中采用五个具有不同属性的最先进的ITM模型。与原始的MS-Coco相比,我们的数据集提供了X3.6的X3.6积极图像到支撑关联和X8.5字幕到图像关联。我们还建议使用基于等级的公制映射@r,而不是流行的召回@k(r@k)。我们在现有和拟议的基准测试中重新评估了现有的25个VL模型。我们的发现是现有的基准测试,例如可可1K r@k,可可5k r@k,cxc r@1彼此高度相关,而当我们转移到eccv map@r时,排名会改变。最后,我们深入研究机器注释者选择引入的偏差的效果。源代码和数据集可从https://github.com/naver-ai/eccv-caption获得
translated by 谷歌翻译
无监督的视频对象分段(UVOS)是每个像素二进制标记问题,其目的在于在视频中的背景中分离前景对象而不使用前景对象的地面真理(GT)掩码。大多数以前的UVOS模型使用第一帧或整个视频作为参考帧来指定前景对象的掩码。我们的问题是为什么应该选择第一帧作为参考帧,或者为什么应使用整个视频来指定掩码。我们认为我们可以选择更好的参考帧来实现比仅使用第一帧或整个视频作为参考帧的更好的UVOS性能。在我们的论文中,我们提出了简单的框架选择器(EFS)。 EFS使我们能够选择“简单”参考帧,使后续VOS变得容易,从而提高VOS性能。此外,我们提出了一个名为迭代掩模预测(IMP)的新框架。在框架中,我们重复将EFS应用于给定视频,并从视频中选择“更容易”的参考帧,而不是先前的迭代,从而逐步增加VOS性能。该解压缩包括EFS,双向掩模预测(BMP)和时间信息更新(TIU)。从提出的框架,我们在三个UVOS基准集合中实现最先进的性能:Davis16,FBMS和Segtrack-V2。
translated by 谷歌翻译
尽管近年来3D人姿势和形状估计方法的性能显着提高,但是现有方法通常在相机或以人为本的坐标系中定义的3D姿势。这使得难以估计使用移动相机捕获的视频的世界坐标系中的人的纯姿势和运动。为了解决这个问题,本文提出了一种用于预测世界坐标系中定义的3D人姿势和网格的相机运动不可知论方法。所提出的方法的核心思想是估计不变选择坐标系的两个相邻的全局姿势(即全局运动)之间的差异,而不是耦合到相机运动的全局姿势。为此,我们提出了一种基于双向门控复发单元(GRUS)的网络,该单元从局部姿势序列预测全局运动序列,由称为全局运动回归(GMR)的关节相对旋转组成。我们使用3DPW和合成数据集,该数据集在移动相机环境中构建,进行评估。我们进行广泛的实验,并经验证明了提出的方法的有效性。代码和数据集可在https://github.com/seonghyunkim1212/gmr获得
translated by 谷歌翻译