无监督模型转移有可能极大地提高深层模型对新域的可扩展性。然而,目前的文献认为将目标数据分离成不同的域称为先验。在本文中,我们提出了域不可知学习(DAL)的任务:如何将知识从标记的源域转移到未标记的数据到目标域?为了解决这个问题,我们设计了一种新颖的DeepAdversarial解缠绕自动编码器(DADA),能够从类身份中解开特定于域的特征。我们通过实验证明,当目标域标签未知时,DADA会在几个图像分类数据集上产生最先进的性能。
translated by 谷歌翻译
传统的无监督域自适应(UDA)假设训练数据是从单个域采样的。这忽略了从多个来源收集的更实际的场景训练数据,需要多源域适应。我们为解决这一问题做出了三大贡献。首先,我们提出了一种新的深度学习方法,即多源域自适应的时间匹配M3SDA,旨在通过动态调整其特征分布的时刻,将从多个标记源域学到的知识转移到未标记的目标域。其次,我们为多源域适应的矩相关误差界提供了合理的理论分析。第三,我们收集并注释了迄今为止最大的UDAdataset六个不同的域和大约60万个图像分布在345个类别中,解决了多源UDA研究中数据可用性的差距。进行了广泛的实验,以证明我们提出的模型的有效性,该模型大大优于现有的最先进的方法。
translated by 谷歌翻译
物体识别模型从合成数据到实数数据的无监督转移是许多潜在应用的重要问题。挑战在于如何“适应”在模拟图像上训练的模型,以便在没有任何额外监督的情况下在现实世界数据上表现良好。不幸的是,这个问题的当前基准测试在大小和任务多样性方面受到限制。在本文中,我们提出了一个名为Syn2Real的新的大规模基准测试,它包含一个从3D对象模型渲染的合成域和两个包含相同对象类别的真实图像域。我们在thisbenchmark上定义了三个相关的任务:闭集对象分类,开集对象分类和对象检测。我们对多种最先进方法的评估揭示了更简单的闭集分类任务与更难开放的设置和检测任务之间的适应性能差距。我们认为,开发适用于所有threetasks的适应方法对syn2real域转移提出了重大的未来挑战。
translated by 谷歌翻译
众包的3D CAD模型正在变得易于在线访问,并且可以为几乎任何对象类别潜在地生成无限数量的训练图像。我们表明,利用这样的合成数据来增强当代DeepConvolutional Neural Net(DCNN)模型的训练数据可以是有效的,尤其是在真实时训练数据有限或与目标领域不匹配。大多数免费提供的CAD模型捕获3D形状,但缺少其他低级别提示,例如逼真的对象纹理,姿势或背景。在详细的分析中,我们使用合成CAD渲染图像来探索DCNN在没有这些线索的情况下学习的能力,以及令人惊讶的发现。特别是,我们表明,当DCNN在目标检测任务上进行微调时,它对丢失的低级别节点表现出很大程度的不变性,但是,当在通用ImageNet分类上预训练时,它会在模拟低级别线索时学得更好。我们表明,我们的合成DCNN培训方法在少数镜头方案中学习时显着优于PASCAL VOC2007dataset上的先前方法,并且在Office基准测试中提高了adomain shift方案的性能。
translated by 谷歌翻译
Image feature extraction and matching is a fundamental but computation intensive task in machine vision. This paper proposes a novel FPGA-based embedded system to accelerate feature extraction and matching. It implements SURF feature point detection and BRIEF feature descriptor construction and matching. For binocular stereo vision, feature matching includes both tracking matching and stereo matching, which simultaneously provide feature point correspondences and parallax information. Our system is evaluated on a ZYNQ XC7Z045 FPGA. The result demonstrates that it can process binocular video data at a high frame rate (640 × 480 @ 162fps). Moreover, an extensive test proves our system has robustness for image compression, blurring and illumination.
translated by 谷歌翻译
视觉世界中的大多数物体都被部分遮挡,但人类可以毫无困难地识别它们。然而,仍然不知道卷积神经网络(CNN)等对象识别模型是否可以处理现实世界的遮挡。还有一个问题是,使这些模型对恒定掩模遮挡具有鲁棒性的努力是否对于真实世界的阻塞是有效的。我们测试了人类和上述计算模型在极端遮挡下对象识别的挑战性任务,其中目标对象被真实背景中的无关真实对象严重遮挡。我们的结果表明人类视觉对于极端遮挡是非常强大的,而CNN不是,即使经过修改以处理恒定的遮罩遮挡。这表明处理恒定掩模遮挡的能力并不意味着对现实世界遮挡的鲁棒性。作为比较,我们提出了另一种计算模型,该模型利用组合方式中的对象部分/子部分来构建对遮挡的鲁棒性。这在我们的任务上与基于CNN的模型相比具有与人类类似的错误模式。这些结果表明,极端遮挡下的测试可以更好地揭示视觉识别的稳健性,并且组成原则可以鼓励这种稳健性。
translated by 谷歌翻译
我们介绍了场景素描零射击学习(SSZSL)的一个新问题,这是一项具有挑战性的任务,因为(i)与照片不同,常见语义域(例如,词向量)和草图之间的差距太大,无法利用常见的语义知识作为知识转移的桥梁,以及(ii)与单一对象草图相比,需要更具表现力的特征表示,以适应其高水平的抽象和复杂性。为了克服这些挑战,我们提出了一种深嵌入模型forscene sketch zero-shot learning。特别地,我们提出增强语义向量通过融合多模态语义知识(例如,卡通图像,自然图像,文本描述)和采用基于注意的网络进行场景素描特征学习来进行域对齐。此外,我们提出了一种新的距离度量来改善测试期间的相似性度量。大量的实验和消融研究证明了我们的特定设计的好处。
translated by 谷歌翻译
理解物体之间的物理关系,尤其是它们的支撑关系,对机器人操纵至关重要。关于RGB-D图像中简单配置的支持关系和结构稳定性的研究已经有所进展。在本文中,我们提出了一种方法,从使用定性推理和直观物理模型从同一场景但来自不同视图的一组RGB-D图像中提取更详细的物理知识。我们的方法不是提供简单的接触关系图并且近似于凸形状的稳定性,而是能够提供基于体积表示的详细支持关系分析。具体来说,确定对象之间的真正支持关系(例如,如果一个对象通过触摸另一个对象来支持另一个对象,或者上面的对象有助于下面对象的稳定性)。我们将我们的方法应用于仓库中捕获的真实结构scenario并显示我们的方法按预期工作。
translated by 谷歌翻译
遮挡和姿势变化可以显着改变面部外观,是自动面部表情识别(FER)的两个主要障碍。尽管自动FER在过去几十年中取得了实质性进展,但FER的阻塞 - 稳健和姿势不变问题已经得到相对较少的关注,尤其是在真实场景中。本文通过三重贡献解决了真实世界的姿势和遮挡强大的FER问题。首先,为了激发FER在现实世界的遮挡和变异姿势的研究,我们为社区建立了几个带有手动注释的野外面部表情数据集。其次,我们提出了一种新颖的区域注意网络(RAN),以自适应地捕捉面部区域的重要性以进行遮挡和姿势变异FER。 RAN将骨干卷积神经网络产生的不同数量的区域特征聚合并嵌入到紧凑的固定长度表示中。最后,受面部表情主要由面部单位定义这一事实的启发,我们提出了一个区域偏见的损失,以鼓励对最重要区域的高度重视。我们在构建的测试数据集和四个流行数据集上验证了我们的RAN和区域偏差损失:FERPlus,AffectNet,RAF-DB和SFEW。大量实验表明,我们的RAN和区域偏差在很大程度上改善了FER的闭塞和变形性能。我们的方法还在FERPlus,AffectNet,RAF-DB和SFEW上实现了最先进的结果。代码和收集的测试数据将公开提供。
translated by 谷歌翻译
聚类旨在将观察到的数据分成不同的类别。流行的聚类模型的性能依赖于样本到样本的相似性。然而,成对相似性易于被噪声或异常值破坏,从而恶化随后的聚类。样本到样本之间的高阶关系可以详细说明数据的局部流形,从而提供补充信息来指导聚类。然而,很少有研究调查高阶相似性和通常的成对相似性之间的联系。为了填补这个空白,我们首先定义高阶张量相似性以利用样本到样本的亲和关系。然后我们建立张量相似性和空间相似性之间的联系,证明可分解张量相似性是通常成对相似性的Kronecker积,并且不可分解性相似性被推广以提供互补信息,其中相似性未能考虑。最后,通过享受其优点,将高阶张量相似度和成对相似度(IPS2)进行协同集成,以提高聚类性能。所提出的IPS2在合成和现实世界数据集中表现出优于或最具竞争力的最先进方法。大量实验表明,张量相似性能够提高经典聚类方法的性能。
translated by 谷歌翻译