多模式注意力网络是目前涉及真实图像的视觉问答(VQA)任务的最先进模型。虽然注意力集中在与问题相关的视觉内容上,但这种简单机制可能不足以模拟VQA或其他高级任务所需的复杂推理功能。在本文中,我们提出了MuRel,这是一种多模式关系网络,它通过端到端的方式来理解真实图像。我们的第一个贡献是介绍了MuRel单元,一个原子推理原语,通过丰富的矢量表示来表示问题和图像区域之间的交互,以及利用成对组合建模区域关系。其次,我们将细胞整合到一个完整的MuRel网络中,逐步细化视觉和问题交互,可以利用定义可视化方案比仅仅注意力图更精细。我们验证了我们的方法与各种消融研究的相关性,并展示了其在三个数据集上基于注意力的方法的优越性:VQA 2.0,VQA-CP v2和TDIUC。我们的最终MuRel网络在这一具有挑战性的环境中具有竞争力或超越最先进的结果。我们的代码可用:https://github.com/Cadene/murel.bootstrap.pytorch
translated by 谷歌翻译
多模式表征学习在深度学习社区中越来越受到关注。虽然双线性模型提供了一个有趣的框架来找到模态的微妙组合,但它们的参数数量与输入维度呈二次方式,使得它们在经典深度学习管道中的实际应用具有挑战性。在本文中,我们介绍了BLOCK,一种基于块 - 超对角张量分解的新型多模态融合。它利用了block-termranks的概念,它概括了已经用于多模态融合的张量的等级和模式等级的概念。它允许定义用于优化融合模型的表现力和复杂性之间的权衡的新方法,并且能够在保持强大的单模态表示的同时表示模态之间的非常精细的相互作用。我们通过将BLOCK用于两个具有挑战性的任务来展示我们融合模型的实用性:VisualQuestion Answering(VQA)和视觉关系检测(VRD),我们设计端到端可学习架构来表示模态之间的相关交互。通过大量实验,我们证明了BLOCK与VQA和VRD任务的最先进的多模态融合模型相比是有利的。我们的代码位于\ url {https://github.com/Cadene/block.bootstrap.pytorch}。
translated by 谷歌翻译
对象检测器往往在新的或开放的域中表现不佳,并且从完全标记的数据集中获得必要且昂贵的注释。我们的目标是从多个不同类别但没有附加标签的数据集中获益,不仅可以增加检测到的类别数量,还可以利用转移学习和增强域独立性。我们的数据集合并过程开始于在不同数据集上训练几个初始FasterR-CNN,同时考虑用于域适应的互补数据集的图像。与自我训练方法类似,这些初始检测器的预测减轻了互补数据集上的缺失注释。最后的OMNIA Faster R-CNN通过所有类别的预测来丰富数据集的联合。联合训练以一种称为SoftSigin的新分类损失来处理不安全的目标,这是一种轻度监督的方式。实验结果表明,在野外图像的时尚检测情况下,将Modanet与COCO合并后,最终性能从45.5%提高到57.4%。将我们的软蒸馏应用于Cityscapes上的domainshift检测任务,可以使现有技术达到5.3分。我们希望我们的方法可以在没有大量数据集的情况下为现实应用解锁对象检测。
translated by 谷歌翻译
Bilinear models provide an appealing framework for mixing and merginginformation in Visual Question Answering (VQA) tasks. They help to learn highlevel associations between question meaning and visual concepts in the image,but they suffer from huge dimensionality issues. We introduce MUTAN, amultimodal tensor-based Tucker decomposition to efficiently parametrizebilinear interactions between visual and textual representations. Additionallyto the Tucker framework, we design a low-rank matrix-based decomposition toexplicitly constrain the interaction rank. With MUTAN, we control thecomplexity of the merging scheme while keeping nice interpretable fusionrelations. We show how our MUTAN model generalizes some of the latest VQAarchitectures, providing state-of-the-art results.
translated by 谷歌翻译
提出了一种新的层次聚类方法。它结合了小树,一种特定的多尺度数据分解,以及对生成内核Hilbert空间的投影。所提出的方法,称为内核树(KT),有效地将内部使用的相关系数矩阵替换为从核函数有效构造的对称正半定矩阵。与要求数据集为数字的大多数聚类方法不同,KT可以应用于更一般的数据,并且直接在特征空间中对数据进行多分辨率的基础序列。通过一些例子说明了KT在聚类分析中的有效性和潜力。
translated by 谷歌翻译
考古学家迫切需要自动化物体重建方法。碎片重组很接近于拼图问题,这可以通过计算机视觉算法来解决。由于他们经常通过深度学习算法击败大多数图像相关的任务,我们研究了一种可以解决拼图游戏的分类方法。在本文中,我们专注于对相对位置进行分类:给定一些片段,我们计算它们的局部关系(例如ontop)。我们提出了几个关于该领域的现有技术的增强,其优于我们的方法25 \%。我们提出了一个由大都会艺术博物馆的图片组成的原始数据集。我们提出了一种基于预测相对位置的贪婪构造方法。
translated by 谷歌翻译