最近,越来越多的努力集中在弱监督的场景图(WSSGG)上。 WSSGG的主流解决方案通常遵循相同的管道:它们首先将文本实体与弱图像级别的监督(例如,未定位的关系三胞胎或字幕)相结合,然后用图像区域对齐,然后以完全固定的实例训练SGG模型 - 级别的“伪”标签。但是,我们认为大多数现有的WSSGG仅专注于对象一致性,这意味着接地区域应具有与文本实体相同的对象类别标签。尽管他们忽略了理想对齐的另一个基本要求:相互作用,这意味着接地区域对应具有与文本实体对相同的相互作用(即视觉关系)。因此,在本文中,我们建议通过使用对象感知和互动感知知识来增强简单的接地模块,以获取更可靠的伪标签。为了更好地利用这两种类型的知识,我们将它们视为两位老师,并融合其生成的目标,以指导我们接地模块的训练过程。具体而言,我们设计了两种不同的策略,可以通过评估每个培训样本的可靠性来适应不同的教师。广泛的实验表明,我们的方法始终在各种弱监督下提高WSSGG性能。
translated by 谷歌翻译
Existing object detection methods are bounded in a fixed-set vocabulary by costly labeled data. When dealing with novel categories, the model has to be retrained with more bounding box annotations. Natural language supervision is an attractive alternative for its annotation-free attributes and broader object concepts. However, learning open-vocabulary object detection from language is challenging since image-text pairs do not contain fine-grained object-language alignments. Previous solutions rely on either expensive grounding annotations or distilling classification-oriented vision models. In this paper, we propose a novel open-vocabulary object detection framework directly learning from image-text pair data. We formulate object-language alignment as a set matching problem between a set of image region features and a set of word embeddings. It enables us to train an open-vocabulary object detector on image-text pairs in a much simple and effective way. Extensive experiments on two benchmark datasets, COCO and LVIS, demonstrate our superior performance over the competing approaches on novel categories, e.g. achieving 32.0% mAP on COCO and 21.7% mask mAP on LVIS. Code is available at: https://github.com/clin1223/VLDet.
translated by 谷歌翻译
现有的开放式视频探测器通常通过利用不同形式的弱监督来扩大其词汇大小。这有助于推断出新的对象。开放式视频检测(OVD)中使用的两种流行形式的弱点,包括预审计的剪辑模型和图像级监督。我们注意到,这两种监督模式均未在检测任务中最佳地对齐:剪辑经过图像文本对培训,并且缺乏对象的精确定位,而图像级监督已与启发式方法一起使用,这些启发式方法无法准确指定本地对象区域。在这项工作中,我们建议通过从剪辑模型中执行以对象为中心的语言嵌入来解决此问题。此外,我们仅使用伪标记的过程来视觉上仅通过图像级监督对象,该过程提供高质量的对象建议,并有助于在训练过程中扩展词汇。我们通过新的重量转移函数在上述两个对象对准策略之间建立桥梁,该策略汇总了它们的免费强度。本质上,提出的模型试图最大程度地减少OVD设置中对象和以图像为中心表示之间的差距。在可可基准上,我们提出的方法在新颖类中实现了40.3 AP50,绝对11.9比以前的最佳性能获得了11.9的增长。对于LVIS,我们超过了5.0 Mask AP的最先进VILD模型,总体上有3.4个。 。代码:https://bit.ly/3byzoqp。
translated by 谷歌翻译
The prevailing framework for matching multimodal inputs is based on a two-stage process: 1) detecting proposals with an object detector and 2) matching text queries with proposals. Existing two-stage solutions mostly focus on the matching step. In this paper, we argue that these methods overlook an obvious \emph{mismatch} between the roles of proposals in the two stages: they generate proposals solely based on the detection confidence (i.e., query-agnostic), hoping that the proposals contain all instances mentioned in the text query (i.e., query-aware). Due to this mismatch, chances are that proposals relevant to the text query are suppressed during the filtering process, which in turn bounds the matching performance. To this end, we propose VL-NMS, which is the first method to yield query-aware proposals at the first stage. VL-NMS regards all mentioned instances as critical objects, and introduces a lightweight module to predict a score for aligning each proposal with a critical object. These scores can guide the NMS operation to filter out proposals irrelevant to the text query, increasing the recall of critical objects, resulting in a significantly improved matching performance. Since VL-NMS is agnostic to the matching step, it can be easily integrated into any state-of-the-art two-stage matching methods. We validate the effectiveness of VL-NMS on two multimodal matching tasks, namely referring expression grounding and image-text matching. Extensive ablation studies on several baselines and benchmarks consistently demonstrate the superiority of VL-NMS.
translated by 谷歌翻译
尽管对象检测方面取得了很大进展,但由于实例级边界盒注释所需的巨大人性化,大多数现有方法都仅限于一小一少量的对象类别。为了减轻问题,最近的开放词汇和零射击检测方法试图检测培训期间未见的对象类别。但是,这些方法仍然依赖于一组基类上手动提供的边界盒注释。我们提出了一个开放的词汇检测框架,可以在没有手动提供边界盒注释的情况下培训。我们的方法通过利用预先训练的视觉语言模型的本地化能力来实现这一目标,并产生可直接用于训练对象探测器的伪边界盒标签。 Coco,Pascal VOC,Objects365和LVIS的实验结果证明了我们方法的有效性。具体而言,我们的方法优于使用人类注释的边界箱训练的最先进(SOTA),即使我们的培训源未配备手动边界盒标签,也可以在COCO新型类别上用3%AP培训。在利用手动边界箱标签作为基线时,我们的方法主要超过8%的AP。
translated by 谷歌翻译
场景图生成(SGG)任务旨在在给定图像中检测所有对象及其成对的视觉关系。尽管SGG在过去几年中取得了显着的进展,但几乎所有现有的SGG模型都遵循相同的训练范式:他们将SGG中的对象和谓词分类视为单标签分类问题,而地面真实性是一个hot目标。标签。但是,这种普遍的训练范式忽略了当前SGG数据集的两个特征:1)对于正样本,某些特定的主题对象实例可能具有多个合理的谓词。 2)对于负样本,有许多缺失的注释。不管这两个特征如何,SGG模型都很容易被混淆并做出错误的预测。为此,我们为无偏SGG提出了一种新颖的模型不合命相的标签语义知识蒸馏(LS-KD)。具体而言,LS-KD通过将预测的标签语义分布(LSD)与其原始的单热目标标签融合来动态生成每个主题对象实例的软标签。 LSD反映了此实例和多个谓词类别之间的相关性。同时,我们提出了两种不同的策略来预测LSD:迭代自我KD和同步自我KD。大量的消融和对三项SGG任务的结果证明了我们所提出的LS-KD的优势和普遍性,这些LS-KD可以始终如一地实现不同谓词类别之间的不错的权衡绩效。
translated by 谷歌翻译
视频字幕定位目标将复杂的视觉内容解释为文本说明,这要求模型充分了解包括对象及其交互的视频场景。流行的方法采用现成的对象检测网络来提供对象建议,并使用注意机制来建模对象之间的关系。他们通常会错过一些预验证模型的不确定语义概念,并且无法识别对象之间的确切谓词关系。在本文中,我们研究了为给定视频生成文本描述的开放研究任务,并提出了带有元概念的跨模式图(CMG)。具体而言,为了涵盖视频字幕中有用的语义概念,我们弱地学习了文本描述的相应视觉区域,其中相关的视觉区域和文本单词被命名为跨模式元概念。我们通过学习的跨模式元概念动态地构建元概念图。我们还构建了整体视频级别和本地框架级视频图,并具有预测的谓词,以建模视频序列结构。我们通过广泛的实验来验证我们提出的技术的功效,并在两个公共数据集上实现最新结果。
translated by 谷歌翻译
在这项工作中,我们提出了一种开放式摄制对象检测方法,该方法基于图像映射对,学会了检测新颖对象类别以及给定的一组已知类别。这是一种两阶段的训练方法,首先使用位置引导的图像捕获匹配技术以弱监督的方式学习新颖和已知类别的类标签,第二个使用已知的类注释专用于对象检测任务的模型。我们表明,一个简单的语言模型比检测新对象的大型上下文化语言模型更适合。此外,我们引入了一种一致性调查技术,以更好地利用图像捕获对信息。我们的方法比较与现有的开放式检测方法相比,同时具有数据效率。源代码可从https://github.com/lmb-freiburg/locov获得。
translated by 谷歌翻译
今天的VIDSGG模型是基于建议的方法,即,它们首先生成众多配对的主题对象片段作为提案,然后对每个提案进行谓词分类。在本文中,我们认为这种普遍的基于建议的框架有三个固有的缺点:1)建议的地面真理谓词标签部分是正确的。 2)他们打破了相同主题对象对的不同谓词实例之间的高阶关系。 3)Vidsgg性能是由提案质量的大约。为此,我们向Vidsgg提出了一个新的分类 - 然后接地框架,可以避免所有三个被忽视的缺点。同时,在此框架下,我们将视频场景图形为临时二分形图形,其中实体和谓词是具有时隙的两种类型的节点,并且边缘在这些节点之间表示不同的语义角色。此配方充分利用了我们的新框架。因此,我们进一步提出了一种基于新的二分曲线图的SGG模型:大。具体而言,大由两部分组成:分类阶段和接地阶段,前者旨在对所有节点和边缘的类别进行分类,并且后者试图本地化每个关系实例的时间位置。两个Vidsgg数据集上的广泛消融已证明我们框架和大的有效性。
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译
我们建议对视觉模型预处理的基于利润的损失,以鼓励基于梯度的解释,这些解释与区域级注释一致。我们将该目标称为注意面罩的一致性(AMC),并证明它与依赖于区域级注释的模型相比,它产生了卓越的视觉接地性能,以显式训练对象检测器,例如更快的R-CNN。 AMC通过鼓励基于梯度的解释掩盖来工作,该掩盖的注意力分数主要集中在包含这种注释的图像的注释区域中。尤其是,在标准视觉建模目标之上接受AMC训练的模型在FlickR30K视觉接地基准中获得了86.59%的最新精度,与最佳先前模型相比,绝对改善了5.48%。我们的方法在既定的基准中都表现出表达理解,并通过设计基于梯度的解释来更好地与人类注释保持一致,从而提供了极大的表现。
translated by 谷歌翻译
开放世界对象检测是一个更具笼统和挑战性的目标,旨在识别和本地化由任意类别名称描述的对象。最近的工作GLIP通过将检测数据集的所有类别名称连接到句子中,从而将此问题作为接地问题,从而导致类别名称之间的效率低下的相互作用。本文介绍了Distclip,这是一种通过诉诸于设计概念词典的知识富集,是一种平行的视觉概念训练预训练方法,用于开放世界检测。为了提高学习效率,我们提出了一种新型的并行概念公式,该公式分别提取概念,以更好地利用异质数据集(即检测,接地和图像文本对)进行培训。我们进一步设计了来自各种在线资源和检测数据集的概念字典〜(带有描述),以提供每个概念的先验知识。通过用描述丰富这些概念,我们明确地建立了各种概念之间的关系,以促进开放域学习。所提出的概念词典进一步用于提供足够的负面概念,用于构建单词区域对齐损失\,并完成图像对文本对数据标题中缺少描述的对象的标签。所提出的框架显示出强烈的零射击性能性能,例如,在LVIS数据集上,我们的DETCLIP-T优于9.9%的地图GLIPT-T优于GLIP-T,并且与完全避免的型号相比,稀有类别的稀有类别提高了13.5%。作为我们的。
translated by 谷歌翻译
场景图是一个场景的结构化表示,可以清楚地表达场景中对象之间的对象,属性和关系。随着计算机视觉技术继续发展,只需检测和识别图像中的对象,人们不再满足。相反,人们期待着对视觉场景更高的理解和推理。例如,给定图像,我们希望不仅检测和识别图像中的对象,还要知道对象之间的关系(视觉关系检测),并基于图像内容生成文本描述(图像标题)。或者,我们可能希望机器告诉我们图像中的小女孩正在做什么(视觉问题应答(VQA)),甚至从图像中移除狗并找到类似的图像(图像编辑和检索)等。这些任务需要更高水平的图像视觉任务的理解和推理。场景图只是场景理解的强大工具。因此,场景图引起了大量研究人员的注意力,相关的研究往往是跨模型,复杂,快速发展的。然而,目前没有对场景图的相对系统的调查。为此,本调查对现行场景图研究进行了全面调查。更具体地说,我们首先总结了场景图的一般定义,随后对场景图(SGG)和SGG的发电方法进行了全面和系统的讨论,借助于先验知识。然后,我们调查了场景图的主要应用,并汇总了最常用的数据集。最后,我们对场景图的未来发展提供了一些见解。我们相信这将是未来研究场景图的一个非常有帮助的基础。
translated by 谷歌翻译
几乎所有现有的场景图(SGG)模型都忽略了主流SGG数据集的地面真相注释质量,即他们假设:1)所有手动注释的正样本都是同样正确的; 2)所有未注销的负样本绝对是背景。在本文中,我们认为这两个假设都不适用于SGG:有许多嘈杂的地面谓词标签破坏了这两个假设并损害了无偏SGG模型的训练。为此,我们提出了一种新颖的嘈杂标签校正和SGG:最佳的样本训练策略。具体而言,它包括两个部分:尼斯和NIST,它们分别通过产生高质量的样本和有效的培训策略来排除这些嘈杂的标签问题。 NICE首先检测到嘈杂的样品,然后将它们重新分配给它们更多高质量的软谓词标签。 NIST是一种基于多教老师知识蒸馏的培训策略,它使模型能够学习公正的融合知识。 NIST的动态权衡加权策略旨在惩罚不同教师的偏见。由于NICE和NIST的模型不足的性质,我们最好的最好的人可以无缝地纳入任何SGG架构中,以提高其在不同谓词类别上的性能。此外,为了更好地评估SGG模型的概括,我们通过重新组织普遍的VG数据集并故意使培训和测试集的谓词分布尽可能不同,进一步提出了一种新的基准VG-OOD。对象类别对。这种新的基准有助于解散基于对象类别类别的频率偏差的影响。大量消融和对不同的骨干和任务的结果证明了最佳组成部分的有效性和概括能力。
translated by 谷歌翻译
使用图像文本对的对比语言图像预测(剪辑)在零拍摄和传输学习设置中的图像分类中取得了令人印象深刻的结果。但是,我们表明,直接应用此类模型以识别对象检测的图像区域导致由于域移位导致的性能差:剪辑训练以与文本描述的整体匹配,而不捕获图像之间的细粒度对齐地区和文本跨度。为了缓解此问题,我们提出了一种称为RegionClip的新方法,可显着扩展剪辑以学习区域级视觉表示,从而在图像区域和文本概念之间实现细粒度对齐。我们的方法利用剪辑模型将图像区域与模板标题匹配,然后预先列出我们的模型以对准要素空间中的这些区域文本对。将预磨料模型转移到开放词汇对象检测任务时,我们的方法显着优于3.8 AP50和2.2 AP的最新技术,分别用于COCO和LVIS数据集的新型类别。更多,学习区域表示支持对象检测的零拍摄推断,显示了对COCO和LVIS数据集的有希望的结果。我们的代码可在https://github.com/microsoft/regionclip上获得。
translated by 谷歌翻译
以前的视觉语言预训练模型主要构建具有令牌和对象(像素)的多模式输入,然后在它们之间执行交叉模式相互作用。我们认为,只有令牌和对象的输入限制了诸如短语到区域接地之类的高级语义对齐。同时,多层次对齐本质上是一致的,并且能够协同促进表示形式学习。因此,在本文中,我们建议学习视觉预训练(MVPTR)的多级语义一致性。在MVPTR中,我们遵循两种方式的嵌套结构,以引入概念为高级语义。为了简化从多模式多级输入的学习,我们的框架分为两个阶段,第一阶段着重于模式内多级表示学习,第二阶段通过粗粒和细粒度跨模态强化了跨模式的交互语义对齐任务。除了常用的图像文本匹配和掩盖语言模型任务外,我们还引入了第一阶段蒙版概念恢复任务以增强概念表示学习,第二阶段的另外两个任务在第二阶段中,以明确鼓励跨跨层次的多层次对准方式。我们的代码可在https://github.com/junction4nako/mvp_pytorch上找到。
translated by 谷歌翻译
Learning descriptive 3D features is crucial for understanding 3D scenes with diverse objects and complex structures. However, it is usually unknown whether important geometric attributes and scene context obtain enough emphasis in an end-to-end trained 3D scene understanding network. To guide 3D feature learning toward important geometric attributes and scene context, we explore the help of textual scene descriptions. Given some free-form descriptions paired with 3D scenes, we extract the knowledge regarding the object relationships and object attributes. We then inject the knowledge to 3D feature learning through three classification-based auxiliary tasks. This language-assisted training can be combined with modern object detection and instance segmentation methods to promote 3D semantic scene understanding, especially in a label-deficient regime. Moreover, the 3D feature learned with language assistance is better aligned with the language features, which can benefit various 3D-language multimodal tasks. Experiments on several benchmarks of 3D-only and 3D-language tasks demonstrate the effectiveness of our language-assisted 3D feature learning. Code is available at https://github.com/Asterisci/Language-Assisted-3D.
translated by 谷歌翻译
Recent years have witnessed the resurgence of knowledge engineering which is featured by the fast growth of knowledge graphs. However, most of existing knowledge graphs are represented with pure symbols, which hurts the machine's capability to understand the real world. The multi-modalization of knowledge graphs is an inevitable key step towards the realization of human-level machine intelligence. The results of this endeavor are Multi-modal Knowledge Graphs (MMKGs). In this survey on MMKGs constructed by texts and images, we first give definitions of MMKGs, followed with the preliminaries on multi-modal tasks and techniques. We then systematically review the challenges, progresses and opportunities on the construction and application of MMKGs respectively, with detailed analyses of the strength and weakness of different solutions. We finalize this survey with open research problems relevant to MMKGs.
translated by 谷歌翻译
开放词汇实例分段旨在分割没有掩码注释的新型类。这是减少艰苦的人类监督的重要一步。大多数现有的作品首先返回覆盖许多小说类的标题图像模型,然后在带有掩模注释的有限基础类上的Finetune。然而,单独从标题预先预先估望中学到的高级文本信息无法有效地编码像素明智分割所需的细节。为解决此问题,我们提出了一种跨模型伪标签框架,它通过在标题中对齐单词语义来生成培训伪掩模,其中具有图像中的对象掩码的可视特征。因此,我们的框架能够通过他们的单词语义来标记新颖的类别来自动训练学生模型。为了考虑伪掩模中的噪声,我们设计了一种强大的学生模型,通过估计掩模噪声水平来选择性地蒸馏掩模知识,因此减轻了嘈杂的伪掩模的不利影响。通过广泛的实验,我们展示了我们框架的有效性,我们在MS-Coco上显着提高了地图得分4.5%,与最先进的大规模打开图像和概念标题数据集有5.1%。
translated by 谷歌翻译
自我监督的视觉和语言预处理(VLP)旨在从大规模的图像文本数据中学习可转移的多模式表示形式,并在填充后在广泛的视觉范围内实现强大的表现。以前的主流VLP方法通常采用依靠外部对象检测器来编码多模式变压器框架中的图像的两步策略,该框架遭受了限制性对象概念空间,有限的图像上下文和效率低下的计算。在本文中,我们提出了一个对象感知的端到端VLP框架,该框架将来自CNN的图像网格特征直接馈送到变压器中,并共同学习多模式表示。更重要的是,我们建议执行对象知识蒸馏,以促进在不同语义级别的学习跨模式对齐。为了实现这一目标,我们通过将对象特征及其来自外部检测器的语义标签作为监督来设计两个新颖的借口任务:1。)对象引导的蒙版视觉建模任务的重点是在多模式变压器中强制执行对象感知的表示的学习; 2.)短语区域对准任务旨在通过利用语言空间中名词短语和对象标签之间的相似性来改善跨模式对齐。对各种视觉语言任务进行的广泛实验证明了我们提出的框架的功效,并且我们在现有的预科策略中实现了竞争性或优越的表现。
translated by 谷歌翻译