在本文中,我们研究了如何使用现代视觉语言变形金刚实现更好的视觉接地,并为这项具有挑战性的任务提出了一种简单而强大的选择性训练(SIRI)机制。特别是,Siri传达了视觉接地研究的重要原则,即更好的初始视觉语言编码器将帮助该模型收敛到更好的局部最低限度,从而相应地提高性能。具体而言,随着训练的进行,我们不断更新编码器的参数,而定期重新定位的其余参数则可以根据增强的编码来更好地优化模型。 Siri在三个流行的基准测试中可以大大优于以前的方法。具体而言,我们的方法在Refcoco+ Testa上达到了83.04%的TOP1精度,超过了最先进的方法(从头开始训练)超过10.21%。此外,我们透露,即使培训数据有限,Siri也表现出色。我们还将其扩展到基于变压器的视觉接地模型和其他视觉语言任务,以验证有效性。
translated by 谷歌翻译
多模式变压器表现出高容量和灵活性,可将图像和文本对齐以进行视觉接地。然而,由于自我发挥操作的二次时间复杂性,仅编码的接地框架(例如,transvg)遭受了沉重的计算。为了解决这个问题,我们通过将整个接地过程解散为编码和解码阶段,提出了一种新的多模式变压器体系结构,以动态MDETR形成。关键观察是,图像中存在很高的空间冗余。因此,我们通过在加快视觉接地过程之前利用这种稀疏性来设计一种新的动态多模式变压器解码器。具体而言,我们的动态解码器由2D自适应采样模块和文本引导的解码模块组成。采样模块旨在通过预测参考点的偏移来选择这些信息补丁,而解码模块则可以通过在图像功能和文本功能之间执行交叉注意来提取接地对象信息。这两个模块也被堆叠起来,以逐渐弥合模态间隙,并迭代地完善接地对象的参考点,最终实现了视觉接地的目的。对五个基准测试的广泛实验表明,我们提出的动态MDETR实现了计算和准确性之间的竞争权衡。值得注意的是,在解码器中仅使用9%的特征点,我们可以降低〜44%的多模式变压器的GLOP,但仍然比仅编码器的对应物更高的精度。此外,为了验证其概括能力并扩展我们的动态MDETR,我们构建了第一个单级剪辑授权的视觉接地框架,并在这些基准测试中实现最先进的性能。
translated by 谷歌翻译
在本文中,我们提出了一个简单而通用的网络,该网络称为SEQTR,用于视觉接地任务,例如短语本地化,参考表达理解(REC)和分割(RES)。视觉接地的规范范例通常需要在设计网络体系结构和损失功能方面具有丰富的专业知识,从而使它们难以跨越跨任务进行推广。为了简化和统一建模,我们将视觉接地作为点预测问题在图像和文本输入上进行条件,其中边界框或二进制掩码表示为一系列离散坐标令牌。在此范式下,视觉接地任务是在我们的SEQTR网络中统一的,而没有特定于任务的分支或头部,例如RES的卷积蒙版解码器,这大大降低了多任务建模的复杂性。此外,SEQTR还具有简单的交叉渗透损失,共享所有任务的相同优化目标,从而进一步降低了部署手工制作的损失功能的复杂性。五个基准数据集的实验表明,所提出的SEQTR优于现有的最新技术(或与之相提并论),这证明了一种简单而通用的视觉接地方法确实是可行的。源代码可在https://github.com/sean-zhuh/seqtr上获得。
translated by 谷歌翻译
在这项工作中,我们探索了用于视觉接地的整洁而有效的基于变压器的框架。先前的方法通常解决了视觉接地的核心问题,即具有手动设计的机制,即多模式融合和推理。这样的启发式设计不仅复杂化,而且使模型容易过度拟合特定的数据分布。为了避免这种情况,我们首先提出了TransVG,该TransVG通过变压器建立了多模式的对应关系,并通过直接回归框坐标来定位引用区域。我们从经验上表明,复杂的融合模块可以用具有更高性能的变压器编码层的简单堆栈代替。但是,TransVG中的核心融合变压器是针对Uni-Modal编码器的独立性,因此应在有限的视觉接地数据上从头开始训练,这使得很难优化并导致次优性能。为此,我们进一步介绍了TransVG ++以进行两倍的改进。一方面,我们通过利用Vision Transformer(VIT)进行视觉功能编码来将框架升级到一个纯粹的基于变压器的框架。对于另一个人来说,我们设计了语言有条件的视觉变压器,以去除外部融合模块,并重用Uni-Modal vit进行中间层的视觉融合。我们对五个普遍数据集进行了广泛的实验,并报告一系列最先进的记录。
translated by 谷歌翻译
视觉接地是定位自然语言表达式指示的目标的任务。现有方法将通用对象检测框架扩展到此问题。它们将视觉接地基于预先生成的提案或锚点的特征,并将这些功能与文本嵌入融合,以找到文本提到的目标。但是,对这些预定义位置的视觉特征进行建模可能无法完全利用文本查询中的视觉上下文和属性信息,从而限制其性能。在本文中,我们提出了一个基于变压器的框架,以通过建立文本条件的判别特征和执行多阶段的跨模式推理来进行准确的视觉接地。具体而言,我们开发了一个视觉语言验证模块,以将视觉特征集中在与文本描述相关的区域上,同时抑制了无关区域。还设计了一种语言指导的特征编码器来汇总目标对象的视觉上下文,以提高对象的独特性。为了从编码的视觉特征中检索目标,我们进一步提出了一个多阶段的跨模式解码器,以迭代地推测图像和文本之间的相关性,以进行准确的目标定位。在五个广泛使用的数据集上进行的广泛实验验证了我们提出的组件的功效,并证明了最先进的性能。我们的代码在https://github.com/yangli18/vltvg上公开。
translated by 谷歌翻译
Referring image segmentation aims to segment the target object described by a given natural language expression. Typically, referring expressions contain complex relationships between the target and its surrounding objects. The main challenge of this task is to understand the visual and linguistic content simultaneously and to find the referred object accurately among all instances in the image. Currently, the most effective way to solve the above problem is to obtain aligned multi-modal features by computing the correlation between visual and linguistic feature modalities under the supervision of the ground-truth mask. However, existing paradigms have difficulty in thoroughly understanding visual and linguistic content due to the inability to perceive information directly about surrounding objects that refer to the target. This prevents them from learning aligned multi-modal features, which leads to inaccurate segmentation. To address this issue, we present a position-aware contrastive alignment network (PCAN) to enhance the alignment of multi-modal features by guiding the interaction between vision and language through prior position information. Our PCAN consists of two modules: 1) Position Aware Module (PAM), which provides position information of all objects related to natural language descriptions, and 2) Contrastive Language Understanding Module (CLUM), which enhances multi-modal alignment by comparing the features of the referred object with those of related objects. Extensive experiments on three benchmarks demonstrate our PCAN performs favorably against the state-of-the-art methods. Our code will be made publicly available.
translated by 谷歌翻译
我们提出了Findit,这是一个简单而多功能的框架,统一了各种视觉接地和本地化任务,包括引用表达理解,基于文本的本地化和对象检测。我们体系结构的关键是一个有效的多尺度融合模块,该模块统一了整个任务中不同的本地化要求。此外,我们发现标准对象检测器在统一这些任务的无需特定任务设计,损失或预计算检测方面非常有效。我们的端到端可训练框架灵活,准确地响应了零,一个或多个对象的广泛的参考表达,本地化或检测查询。在这些任务上进行了共同培训,发现在引用表达和基于文本的本地化方面,胜过最高的艺术状态,并在对象检测中表现出竞争性的性能。最后,与强大的单任务基准相比,Findit可以更好地推广到分布数据和新型类别。所有这些都是通过一个单一的,统一和有效的模型来完成的。代码将发布。
translated by 谷歌翻译
In this paper, we study the problem of visual grounding by considering both phrase extraction and grounding (PEG). In contrast to the previous phrase-known-at-test setting, PEG requires a model to extract phrases from text and locate objects from images simultaneously, which is a more practical setting in real applications. As phrase extraction can be regarded as a $1$D text segmentation problem, we formulate PEG as a dual detection problem and propose a novel DQ-DETR model, which introduces dual queries to probe different features from image and text for object prediction and phrase mask prediction. Each pair of dual queries is designed to have shared positional parts but different content parts. Such a design effectively alleviates the difficulty of modality alignment between image and text (in contrast to a single query design) and empowers Transformer decoder to leverage phrase mask-guided attention to improve performance. To evaluate the performance of PEG, we also propose a new metric CMAP (cross-modal average precision), analogous to the AP metric in object detection. The new metric overcomes the ambiguity of Recall@1 in many-box-to-one-phrase cases in phrase grounding. As a result, our PEG pre-trained DQ-DETR establishes new state-of-the-art results on all visual grounding benchmarks with a ResNet-101 backbone. For example, it achieves $91.04\%$ and $83.51\%$ in terms of recall rate on RefCOCO testA and testB with a ResNet-101 backbone. Code will be availabl at \url{https://github.com/IDEA-Research/DQ-DETR}.
translated by 谷歌翻译
The prevailing framework for matching multimodal inputs is based on a two-stage process: 1) detecting proposals with an object detector and 2) matching text queries with proposals. Existing two-stage solutions mostly focus on the matching step. In this paper, we argue that these methods overlook an obvious \emph{mismatch} between the roles of proposals in the two stages: they generate proposals solely based on the detection confidence (i.e., query-agnostic), hoping that the proposals contain all instances mentioned in the text query (i.e., query-aware). Due to this mismatch, chances are that proposals relevant to the text query are suppressed during the filtering process, which in turn bounds the matching performance. To this end, we propose VL-NMS, which is the first method to yield query-aware proposals at the first stage. VL-NMS regards all mentioned instances as critical objects, and introduces a lightweight module to predict a score for aligning each proposal with a critical object. These scores can guide the NMS operation to filter out proposals irrelevant to the text query, increasing the recall of critical objects, resulting in a significantly improved matching performance. Since VL-NMS is agnostic to the matching step, it can be easily integrated into any state-of-the-art two-stage matching methods. We validate the effectiveness of VL-NMS on two multimodal matching tasks, namely referring expression grounding and image-text matching. Extensive ablation studies on several baselines and benchmarks consistently demonstrate the superiority of VL-NMS.
translated by 谷歌翻译
参考表达理解(REC)是视觉推理中最重要的任务之一,该任务需要模型来检测自然语言表达式所引用的目标对象。在拟议的管道中,一阶段参考表达理解(OSREC)已成为主要趋势,因为它合并了区域建议和选择阶段。许多最先进的OSREC模型采用多跳的推理策略,因为单个表达式中经常提到一系列对象,该对象需要多跳的推理来分析语义关系。但是,这些模型的一个未解决的问题是,在推理之前需要预先定义和固定推理步骤的数量,而忽略了表达式的不同复杂性。在本文中,我们提出了一个动态的多步推理网络,该网络允许根据推理状态和表达复杂性动态调整推理步骤。具体而言,我们采用变压器模块来记住和处理推理状态和增强学习策略,以动态推断推理步骤。这项工作可在几个REC数据集上实现最新性能或重大改进,从具有短表达式的Refcoco(+,G)到具有长而复杂的组成表达式的数据集。
translated by 谷歌翻译
3D场景理解的最新进展探索了视觉接地(3DVG),以通过语言描述定位目标对象。但是,现有方法仅考虑整个句子和目标对象之间的依赖性,从而忽略了上下文与非目标之间的细粒度关系。在本文中,我们将3DVG扩展到更可靠和可解释的任务,称为3D短语意识接地(3DPAG)。 3DPAG任务旨在通过明确识别所有与短语相关的对象,然后根据上下文短语进行推理,旨在在3D场景中定位目标对象。为了解决这个问题,我们在可用的3DVG数据集中的170k句子中标记了大约400k短语级别的注释,即NR3D,SR3D和ScanRefer。通过利用这些开发的数据集,我们提出了一个新颖的框架,即Phraserefer,该框架通过短语对象对准优化以及短语特异性预训练来进行短语感知和对象级表示学习。在我们的环境中,我们将先前的3DVG方法扩展到短语感知方案,并提供指标以衡量3DPAG任务的解释性。广泛的结果证实,3DPAG有效地提高了3DVG,而Phraserefer分别在SR3D,NR3D和SCANREFER上分别达到三个数据集(即63.0%,54.4%和55.5%)的最先进。
translated by 谷歌翻译
视觉语言(VL)预训练最近受到了广泛的关注。但是,大多数现有的端到端预训练方法只旨在解决诸如图像文本检索,视觉询问答案(VQA)和图像字幕等VL任务,以测试对图像的高级了解,或者仅对目标区域进行测试 - 对诸如短语接地和对象检测等任务的水平理解。我们提出了Fiber(基于回避的变压器),这是一种新的VL模型体系结构,可以无缝处理这两种类型的任务。 Fiber没有将多模式融合到模型深处,而不是将融合后的专用变压器层用于融合,而是通过将交叉注意力插入图像和文本骨干杆中,从而在记忆和性能方面带来了增长。此外,与以前的工作不同,它要么仅在图像文本数据上进行训练,要么在带有框级注释的细粒度数据上进行培训,我们提出了一种两阶段的预训练策略,该策略有效地使用了这两种数据:(( i)基于图像文本数据的粗粒细化预训练;然后是(ii)基于图像文本框数据的细粒度预训练。我们对各种VL任务进行全面的实验,从VQA,图像字幕和检索到短语接地,参考表达理解和对象检测。使用深层多模式融合,结合两阶段的预训练,光纤可对所有任务的强基础进行一致的性能改进,通常使用幅度更优于更多数据的方法。代码可从https://github.com/microsoft/fiber获得。
translated by 谷歌翻译
Panoptic叙事接地(PNG)是一项新的任务,其目标是通过静止图像的密集叙事标题来分割事物和内容类别的视觉对象。先前的两阶段方法首先提取了通过现成的全盘分割模型提取分割区域的建议,然后进行粗糙的区域短语匹配,以将每个名词短语的候选区域接地。但是,两阶段的管道通常受到第一阶段低质量建议的性能限制,以及由区域特征池的损失以及为事物和东西类别设计的复杂策略引起的空间细节。为了减轻这些缺点,我们提出了一个单阶段的端到端像素匹配网络(PPMN),该网络将每个短语与其相应的像素直接匹配,而不是区域建议,并通过简单组合输出全段段。因此,我们的模型可以从密集注释的像素色素对的监督而不是稀疏的区域短语对中利用足够,更精细的跨模式语义对应关系。此外,我们还提出了与语言兼容的像素聚合(LCPA)模块,以进一步通过多轮修补剂增强短语特征的判别能力,该简化为每个短语选择最兼容的像素以适应相应的视觉上下文。广泛的实验表明,我们的方法在PNG基准测试中实现了新的最新性能,并具有4.0个绝对平均召回率增长。
translated by 谷歌翻译
参考图像分割(RIS)旨在通过输出给定文本描述的相应对象掩码连接图像和语言,这是一项基本的视觉语言任务。尽管RIS取得了很多进展,但在这项工作中,我们还是探索了一个基本问题:“如果描述是错误的或文本描述的误导怎么办?”。我们将这样的句子称为否定句子。但是,我们发现现有作品无法处理此类设置。为此,我们提出了一种新颖的RIS,称为Robust Robust Toemustring图像分割(R-RIS)。除了定期给出的文本输入外,它还考虑了否定句子输入。我们通过增加输入负面句子和一个新的指标来统一两种输入类型,提出三个不同的数据集。此外,我们设计了一个名为RefSegformer的新的基于变压器的模型,在其中引入了基于令牌的视觉和语言融合模块。通过添加额外的空白令牌,可以轻松地将此类模块扩展到我们的R-RIS设置。我们提出的RefSegormer在三个常规RIS数据集和三个R-RIS数据集上实现了新的最新结果,这是用于进一步研究的新基线。项目页面位于\ url {https://lxtgh.github.io/project/robust_ref_seg/}。
translated by 谷歌翻译
参考图像分割旨在通过自然语言表达段段。在文本和图像之间的不同数据属性中,对网络充满良好的对齐文本和像素级别特征是具有挑战性的。现有方法使用借预制模型来促进学习,但分别从预磨料模型转移语言/视觉知识,忽略多模态对应信息。灵感来自最近对比语言 - 图像预测(剪辑)的预先推进(剪辑),在本文中,我们提出了一个端到端的剪辑驱动的参考图像分割框架(CRIS)。有效地转移多模态知识,克里斯语言解码和对比学习来实现文本到像素对齐的对比学习。更具体地,我们设计了一种视觉语言解码器,以将微粒语义信息从文本表示传播到每个像素级激活,这促进了两个模态之间的一致性。此外,我们呈现文本到像素对比学学习,明确强制执行类似于相关像素级别特征的文本特征,并与无关相似。三个基准数据集的实验结果表明,我们的拟议框架显着优于现有的性能而无需任何后处理。代码将被释放。
translated by 谷歌翻译
时空视频接地(STVG)的重点是检索由自由形式的文本表达式描绘的特定物体的时空管。现有方法主要将这一复杂的任务视为平行框架的问题,因此遭受了两种类型的不一致缺点:特征对齐不一致和预测不一致。在本文中,我们提出了一个端到端的一阶段框架,称为时空的一致性变压器(STCAT),以减轻这些问题。特别是,我们引入了一个新颖的多模式模板,作为解决此任务的全球目标,该目标明确限制了接地区域并将所有视频框架之间的预测联系起来。此外,为了在足够的视频文本感知下生成上述模板,提出了一个编码器架构来进行有效的全局上下文建模。由于这些关键设计,STCAT享有更一致的跨模式特征对齐和管预测,而无需依赖任何预训练的对象探测器。广泛的实验表明,我们的方法在两个具有挑战性的视频基准(VIDSTG和HC-STVG)上胜过先前的最先进的,这说明了拟议框架的优越性,以更好地理解视觉与自然语言之间的关联。代码可在\ url {https://github.com/jy0205/stcat}上公开获得。
translated by 谷歌翻译
参照视频对象分割(R-VOS)是一个新兴的跨通道任务,其目的是分割目标对象中的所有的视频帧称为一个语言表达式。在这项工作中,我们提出了一个简单并在变压器建成统一的框架,称为ReferFormer。它认为在语言查询,并直接参加到视频帧中的最相关的区域。具体而言,我们引入一个小套空调的语言作为输入Transformer对象的查询。通过这种方式,所有的查询有义务仅发现指的对象。他们最终都转化为动态的内核,其捕捉的关键对象级信息,并发挥卷积过滤器的作用,生成特征地图分割口罩。对象跟踪通过连接在帧之间相应的查询自然实现。这种机制极大地简化了管道和终端到终端的框架是从以前的方法不同显著。在REF-YouTube的VOS,REF-DAVIS17大量的实验,A2D-句子和JHMDB-句显示ReferFormer的有效性。上REF-YouTube的VOS,参见-前达到55.6J&F与RESNET-50主链而不花哨,这超过了8.4点之前的状态的最先进的性能。此外,与强斯文 - 大型骨干,ReferFormer实现了所有现有的方法中最好的J&62.4 F。歼&F度量可以通过采用一个简单的后处理技术来进一步升压到63.3。此外,我们分别显示55.0地图和43.7地图上A2D-句andJHMDB-句令人印象深刻的结果,这显著优于大幅度以前的方法。代码是公开的,在https://github.com/wjn922/ReferFormer。
translated by 谷歌翻译
以前的视觉语言预训练模型主要构建具有令牌和对象(像素)的多模式输入,然后在它们之间执行交叉模式相互作用。我们认为,只有令牌和对象的输入限制了诸如短语到区域接地之类的高级语义对齐。同时,多层次对齐本质上是一致的,并且能够协同促进表示形式学习。因此,在本文中,我们建议学习视觉预训练(MVPTR)的多级语义一致性。在MVPTR中,我们遵循两种方式的嵌套结构,以引入概念为高级语义。为了简化从多模式多级输入的学习,我们的框架分为两个阶段,第一阶段着重于模式内多级表示学习,第二阶段通过粗粒和细粒度跨模态强化了跨模式的交互语义对齐任务。除了常用的图像文本匹配和掩盖语言模型任务外,我们还引入了第一阶段蒙版概念恢复任务以增强概念表示学习,第二阶段的另外两个任务在第二阶段中,以明确鼓励跨跨层次的多层次对准方式。我们的代码可在https://github.com/junction4nako/mvp_pytorch上找到。
translated by 谷歌翻译
引用图像分割是一种基本愿景 - 语言任务,旨在分割由图像中的自然语言表达式引用的对象。这项任务背后的一个关键挑战是利用引用表达式来突出显示图像中的相关位置。解决此问题的范例是利用强大的视觉语言(“跨模型”)解码器到从视觉编码器和语言编码器独立提取的保险丝特征。最近的方法通过利用变换器作为跨模型解码器,并将变换器在许多其他视觉语言任务中的压倒性成功的同时进行了显着的进步。在这项工作中采用不同的方法,我们表明,通过在视觉变压器编码器网络的中间层中的语言和视觉特征的早期融合,可以实现更好的跨模型对准。通过在视觉特征编码阶段进行跨模型特征融合,我们可以利用变压器编码器的良好相关建模功率,以便挖掘有用的多模态上下文。通过这种方式,用轻型掩模预测器容易地收获精确的分段结果。没有钟声和口哨,我们的方法超越了在Refcoco,Refcoco +和G-Ref上的先前最先进的方法。
translated by 谷歌翻译
自我监督的视觉和语言预处理(VLP)旨在从大规模的图像文本数据中学习可转移的多模式表示形式,并在填充后在广泛的视觉范围内实现强大的表现。以前的主流VLP方法通常采用依靠外部对象检测器来编码多模式变压器框架中的图像的两步策略,该框架遭受了限制性对象概念空间,有限的图像上下文和效率低下的计算。在本文中,我们提出了一个对象感知的端到端VLP框架,该框架将来自CNN的图像网格特征直接馈送到变压器中,并共同学习多模式表示。更重要的是,我们建议执行对象知识蒸馏,以促进在不同语义级别的学习跨模式对齐。为了实现这一目标,我们通过将对象特征及其来自外部检测器的语义标签作为监督来设计两个新颖的借口任务:1。)对象引导的蒙版视觉建模任务的重点是在多模式变压器中强制执行对象感知的表示的学习; 2.)短语区域对准任务旨在通过利用语言空间中名词短语和对象标签之间的相似性来改善跨模式对齐。对各种视觉语言任务进行的广泛实验证明了我们提出的框架的功效,并且我们在现有的预科策略中实现了竞争性或优越的表现。
translated by 谷歌翻译