Visual Question Answering (VQA) models often perform poorly on out-of-distribution data and struggle on domain generalization. Due to the multi-modal nature of this task, multiple factors of variation are intertwined, making generalization difficult to analyze. This motivates us to introduce a virtual benchmark, Super-CLEVR, where different factors in VQA domain shifts can be isolated in order that their effects can be studied independently. Four factors are considered: visual complexity, question redundancy, concept distribution and concept compositionality. With controllably generated data, Super-CLEVR enables us to test VQA methods in situations where the test data differs from the training data along each of these axes. We study four existing methods, including two neural symbolic methods NSCL and NSVQA, and two non-symbolic methods FiLM and mDETR; and our proposed method, probabilistic NSVQA (P-NSVQA), which extends NSVQA with uncertainty reasoning. P-NSVQA outperforms other methods on three of the four domain shift factors. Our results suggest that disentangling reasoning and perception, combined with probabilistic uncertainty, form a strong VQA model that is more robust to domain shifts. The dataset and code are released at https://github.com/Lizw14/Super-CLEVR.
translated by 谷歌翻译
我们考虑了单个RGB图像的类别级别6D姿势估计的问题。我们的方法代表对象类别作为Cuboid网格,并了解每个网格顶点的神经特征激活的生成模型,以通过可区分的渲染执行姿势估计。基于渲染的方法的一个常见问题是,它们依靠边界框建议,这些建议不会传达有关对象3D旋转的信息,并且当对象被部分遮挡时不可靠。取而代之的是,我们引入了一种粗到1的优化策略,该策略利用渲染过程来估算一组稀疏的6D对象建议集,随后通过基于梯度的优化进行了完善。实现我们方法融合的关键是一种神经特征表示,训练了使用对比度学习的尺度和旋转不变的训练。我们的实验表明,与先前的工作相比,尤其是在强烈的部分遮挡下,类别级别的6D姿势估计性能增强。
translated by 谷歌翻译
基于零件的对象理解有助于有效的组建学习和知识转移,鲁布利来阻塞,并且有可能提高一般识别和本地化任务的性能。然而,由于缺少具有部分注释的数据集,对基于零件的模型的研究受到阻碍,这是由图像中注释对象部件的极端难度和高成本引起的。在本文中,我们提出了PartimAgenet,具有零件分割注释的大型高质量数据集。它由来自ImageNet的158个类组成,具有大约24000张图像。 PartimAgenet是独一无二的,因为它在具有非刚性铰接物体的一般类上提供了部分级别注释,而与现有数据集相比,尺寸大的尺寸较大的级。它可以在多个视觉任务中使用,包括但不限于:部分发现,语义分割,几次拍摄学习。进行综合实验以在Partimagenet上设置一组基线,我们发现在复杂的变化期间,现有的工作作品并不总是产生令人满意的结果。下游任务的零件的利用也仍然不足。我们认为,我们的Partimagenet将极大地促进基于零件的模型及其应用的研究。数据集和脚本很快将在https://github.com/tacju/partimagenet发布。
translated by 谷歌翻译
增强了现实世界情景的稳健性已经被证明非常具有挑战性。一个原因是现有的鲁棒性基准是有限的,因为它们依赖于合成数据,或者它们只是将稳健性降低为数据集之间的概括,因此忽略各个滋扰因素的影响。在这项工作中,我们介绍了罗宾,是一个基准数据集,用于诊断视觉算法对现实世界中的个人滋扰的鲁棒性。罗宾在Pascal VOC 2012和Imagenet数据集中构建了10个刚性类别,并包括对象的分布示例3D姿势,形状,纹理,背景和天气状况。 Robin是丰富的注释,以实现图像分类,对象检测和3D姿势估计的基准模型。我们为许多流行的基线提供了结果,并进行了几个有趣的观察结果:1。与其他人相比,一些滋扰因素对性能有更强烈的负面影响。此外,对oodnuisance的负面影响取决于下游视觉任务。 2.利用强大数据增强的鲁棒性的目前的方法只有在现实世界的情况下只有边际效应,有时甚至会降低表现。 3.我们在鲁棒性方面,我们不会遵守卷积和变压器架构之间的任何显着差异。我们相信我们的数据集提供了丰富的试验台,以研究视觉算法的稳健性,并有助于大大推动该领域的前瞻性研究。
translated by 谷歌翻译
自从深度神经网络被广泛应用以来,计算病理学领域已经取得了巨大的进步。这些网络通常需要大量注释的数据来训练大量参数。但是,注释大型组织病理学数据集需要大量精力。我们引入了一个轻巧且可解释的模型,用于核检测和弱监督的分割。它仅需要在孤立的核上进行注释,而不是数据集中的所有核。此外,这是一个生成的组成模型,首先定位核的一部分,然后学习各部分的空间相关性,以进一步定位核。这个过程在预测中带来了可解释性。内部数据集的经验结果表明,在检测中,提出的方法比其深层网络对应物获得了可比性或更好的性能,尤其是在注释数据受到限制的情况下。它还优于流行的弱监督分割方法。提出的方法可能是深度学习方法渴望数据问题的替代解决方案。
translated by 谷歌翻译
在计算机视觉模型中自我关注已经普遍存在。灵感来自完全连接的条件随机字段(CRF),我们将自我关注分解为本地和上下文条款。它们对应于CRF中的一元和二进制术语,并通过带投影矩阵的注意机制来实现。我们观察到,即机构只能对产出作出小贡献,而且同时依赖于机智术语的标准CNNS在各种任务上实现了良好的表现。因此,我们提出了局部增强的自我关注(LESA),通过将其与卷曲掺入卷积来增强联合术语,并利用融合模块动态地耦合偶联和二进制操作。在我们的实验中,我们用Lesa取代自我关注模块。 Imagenet和Coco的结果显示了Lesa在卷积和自我关注基线的优越性,用于图像识别,对象检测和实例分割的任务。代码公开可用。
translated by 谷歌翻译
半监督学习(SSL)在标记数据稀缺时,在利用未标记数据的情况下表现出强大的能力。但是,大多数SSL算法在假设中,在培训和测试集中平衡类分布。在这项工作中,我们考虑到SSL对类别不平衡数据的问题,这更好地反映了现实世界的情况。特别是,我们将表示和分类器的训练分离,并系统地在培训包括分类器的整个网络以及仅微调特征提取器的整个网络时进行不同数据重新采样技术的影响。我们发现数据重新采样是重要的,以了解一个良好的分类器,因为它增加了伪标签的准确性,特别是对于未标记数据中的少数群体类别。有趣的是,我们发现准确的伪标签在训练特征提取器时无助于,相反,数据重新采样损害了特征提取器的训练。这一发现是针对错误的伪标签始终损害SSL中的模型性能的通用直觉。基于这些发现,我们建议重新思考具有单个数据重新采样策略的当前范式,并在类上不平衡数据上开发SSL的简单但高效的双采样(BIS)策略。 BIS实现了两种不同的重新采样策略,用于训练特征提取器和分类器,并将这种解耦培训集成到端到端框架中。具体地,BIS逐渐改变训练期间的数据分布,使得在开始时,特征提取器有效地训练,而朝向训练的结束时,数据被重新平衡,使得分类器可靠地训练。我们在广泛的数据集中广泛地基准了我们提出的双采样策略,实现了最先进的表演。
translated by 谷歌翻译
旨在识别来自子类别的对象的细粒度视觉分类(FGVC)是一个非常具有挑战性的任务,因为固有的微妙级别差异。大多数现有工程主要通过重用骨干网络来提取检测到的歧视区域的特征来解决这个问题。然而,该策略不可避免地使管道复杂化并推动所提出的区域,其中大多数物体的大多数部分未能定位真正重要的部分。最近,视觉变压器(VIT)在传统的分类任务中表现出其强大的表现。变压器的自我关注机制将每个补丁令牌链接到分类令牌。在这项工作中,我们首先评估vit框架在细粒度识别环境中的有效性。然后,由于注意力的强度,可以直观地被认为是令牌重要性的指标,我们进一步提出了一种新颖的部分选择模块,可以应用于我们整合变压器的所有原始注意力的变压器架构进入注意地图,用于指导网络以有效,准确地选择鉴别的图像斑块并计算它们的关系。应用对比损失来扩大混淆类的特征表示之间的距离。我们将基于增强的变压器的模型Transfg命名,并通过在我们实现最先进的绩效的五个流行的细粒度基准测试中进行实验来展示它的价值。提出了更好地理解模型的定性结果。
translated by 谷歌翻译
Few-shot image classification consists of two consecutive learning processes: 1) In the meta-learning stage, the model acquires a knowledge base from a set of training classes. 2) During meta-testing, the acquired knowledge is used to recognize unseen classes from very few examples. Inspired by the compositional representation of objects in humans, we train a neural network architecture that explicitly represents objects as a dictionary of shared components and their spatial composition. In particular, during meta-learning, we train a knowledge base that consists of a dictionary of component representations and a dictionary of component activation maps that encode common spatial activation patterns of components. The elements of both dictionaries are shared among the training classes. During meta-testing, the representation of unseen classes is learned using the component representations and the component activation maps from the knowledge base. Finally, an attention mechanism is used to strengthen those components that are most important for each category. We demonstrate the value of our interpretable compositional learning framework for a few-shot classification using miniImageNet, tieredImageNet, CIFAR-FS, and FC100, where we achieve comparable performance.
translated by 谷歌翻译
Amodal完成是人类轻松执行的可视任务,但计算机视觉算法很难。目的是分割那些被遮挡的对象边界,因此是不可见的。对于深度神经网络,此任务特别具有挑战性,因为数据难以获得和注释。因此,我们将Amodal分段标记为任务和分发外概括问题。具体而言,我们用神经网络特征的贝叶斯生成模型替换神经网络中的完全连接的分类器。该模型仅使用边界框注释和类标签从非遮挡图像培训,但应用于概括任务到对象分段,并概括分发到段封闭对象。我们展示这种贝叶斯模型在学习之前的培训任务标签之外,这些模型如何超出培训任务标签。此外,通过利用异常过程,贝叶斯模型可以进一步概括分配以分配部分闭塞物体并预测其散阳物体边界。我们的算法优于使用相同的监控的替代方法,甚至优于在训练期间使用注释的Amodal分段的方法,当闭塞量大时。代码在https://github.com/yihongsun/bayesian-amodal公开。
translated by 谷歌翻译