多模式变压器表现出高容量和灵活性,可将图像和文本对齐以进行视觉接地。然而,由于自我发挥操作的二次时间复杂性,仅编码的接地框架(例如,transvg)遭受了沉重的计算。为了解决这个问题,我们通过将整个接地过程解散为编码和解码阶段,提出了一种新的多模式变压器体系结构,以动态MDETR形成。关键观察是,图像中存在很高的空间冗余。因此,我们通过在加快视觉接地过程之前利用这种稀疏性来设计一种新的动态多模式变压器解码器。具体而言,我们的动态解码器由2D自适应采样模块和文本引导的解码模块组成。采样模块旨在通过预测参考点的偏移来选择这些信息补丁,而解码模块则可以通过在图像功能和文本功能之间执行交叉注意来提取接地对象信息。这两个模块也被堆叠起来,以逐渐弥合模态间隙,并迭代地完善接地对象的参考点,最终实现了视觉接地的目的。对五个基准测试的广泛实验表明,我们提出的动态MDETR实现了计算和准确性之间的竞争权衡。值得注意的是,在解码器中仅使用9%的特征点,我们可以降低〜44%的多模式变压器的GLOP,但仍然比仅编码器的对应物更高的精度。此外,为了验证其概括能力并扩展我们的动态MDETR,我们构建了第一个单级剪辑授权的视觉接地框架,并在这些基准测试中实现最先进的性能。
translated by 谷歌翻译
在这项工作中,我们探索了用于视觉接地的整洁而有效的基于变压器的框架。先前的方法通常解决了视觉接地的核心问题,即具有手动设计的机制,即多模式融合和推理。这样的启发式设计不仅复杂化,而且使模型容易过度拟合特定的数据分布。为了避免这种情况,我们首先提出了TransVG,该TransVG通过变压器建立了多模式的对应关系,并通过直接回归框坐标来定位引用区域。我们从经验上表明,复杂的融合模块可以用具有更高性能的变压器编码层的简单堆栈代替。但是,TransVG中的核心融合变压器是针对Uni-Modal编码器的独立性,因此应在有限的视觉接地数据上从头开始训练,这使得很难优化并导致次优性能。为此,我们进一步介绍了TransVG ++以进行两倍的改进。一方面,我们通过利用Vision Transformer(VIT)进行视觉功能编码来将框架升级到一个纯粹的基于变压器的框架。对于另一个人来说,我们设计了语言有条件的视觉变压器,以去除外部融合模块,并重用Uni-Modal vit进行中间层的视觉融合。我们对五个普遍数据集进行了广泛的实验,并报告一系列最先进的记录。
translated by 谷歌翻译
视觉接地是定位自然语言表达式指示的目标的任务。现有方法将通用对象检测框架扩展到此问题。它们将视觉接地基于预先生成的提案或锚点的特征,并将这些功能与文本嵌入融合,以找到文本提到的目标。但是,对这些预定义位置的视觉特征进行建模可能无法完全利用文本查询中的视觉上下文和属性信息,从而限制其性能。在本文中,我们提出了一个基于变压器的框架,以通过建立文本条件的判别特征和执行多阶段的跨模式推理来进行准确的视觉接地。具体而言,我们开发了一个视觉语言验证模块,以将视觉特征集中在与文本描述相关的区域上,同时抑制了无关区域。还设计了一种语言指导的特征编码器来汇总目标对象的视觉上下文,以提高对象的独特性。为了从编码的视觉特征中检索目标,我们进一步提出了一个多阶段的跨模式解码器,以迭代地推测图像和文本之间的相关性,以进行准确的目标定位。在五个广泛使用的数据集上进行的广泛实验验证了我们提出的组件的功效,并证明了最先进的性能。我们的代码在https://github.com/yangli18/vltvg上公开。
translated by 谷歌翻译
在本文中,我们研究了如何使用现代视觉语言变形金刚实现更好的视觉接地,并为这项具有挑战性的任务提出了一种简单而强大的选择性训练(SIRI)机制。特别是,Siri传达了视觉接地研究的重要原则,即更好的初始视觉语言编码器将帮助该模型收敛到更好的局部最低限度,从而相应地提高性能。具体而言,随着训练的进行,我们不断更新编码器的参数,而定期重新定位的其余参数则可以根据增强的编码来更好地优化模型。 Siri在三个流行的基准测试中可以大大优于以前的方法。具体而言,我们的方法在Refcoco+ Testa上达到了83.04%的TOP1精度,超过了最先进的方法(从头开始训练)超过10.21%。此外,我们透露,即使培训数据有限,Siri也表现出色。我们还将其扩展到基于变压器的视觉接地模型和其他视觉语言任务,以验证有效性。
translated by 谷歌翻译
在本文中,我们提出了一个简单而通用的网络,该网络称为SEQTR,用于视觉接地任务,例如短语本地化,参考表达理解(REC)和分割(RES)。视觉接地的规范范例通常需要在设计网络体系结构和损失功能方面具有丰富的专业知识,从而使它们难以跨越跨任务进行推广。为了简化和统一建模,我们将视觉接地作为点预测问题在图像和文本输入上进行条件,其中边界框或二进制掩码表示为一系列离散坐标令牌。在此范式下,视觉接地任务是在我们的SEQTR网络中统一的,而没有特定于任务的分支或头部,例如RES的卷积蒙版解码器,这大大降低了多任务建模的复杂性。此外,SEQTR还具有简单的交叉渗透损失,共享所有任务的相同优化目标,从而进一步降低了部署手工制作的损失功能的复杂性。五个基准数据集的实验表明,所提出的SEQTR优于现有的最新技术(或与之相提并论),这证明了一种简单而通用的视觉接地方法确实是可行的。源代码可在https://github.com/sean-zhuh/seqtr上获得。
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
变压器是一种基于关注的编码器解码器架构,彻底改变了自然语言处理领域。灵感来自这一重大成就,最近在将变形式架构调整到计算机视觉(CV)领域的一些开创性作品,这已经证明了他们对各种简历任务的有效性。依靠竞争力的建模能力,与现代卷积神经网络相比在本文中,我们已经为三百不同的视觉变压器进行了全面的审查,用于三个基本的CV任务(分类,检测和分割),提出了根据其动机,结构和使用情况组织这些方法的分类。 。由于培训设置和面向任务的差异,我们还在不同的配置上进行了评估了这些方法,以便于易于和直观的比较而不是各种基准。此外,我们已经揭示了一系列必不可少的,但可能使变压器能够从众多架构中脱颖而出,例如松弛的高级语义嵌入,以弥合视觉和顺序变压器之间的差距。最后,提出了三个未来的未来研究方向进行进一步投资。
translated by 谷歌翻译
时空视频接地(STVG)的重点是检索由自由形式的文本表达式描绘的特定物体的时空管。现有方法主要将这一复杂的任务视为平行框架的问题,因此遭受了两种类型的不一致缺点:特征对齐不一致和预测不一致。在本文中,我们提出了一个端到端的一阶段框架,称为时空的一致性变压器(STCAT),以减轻这些问题。特别是,我们引入了一个新颖的多模式模板,作为解决此任务的全球目标,该目标明确限制了接地区域并将所有视频框架之间的预测联系起来。此外,为了在足够的视频文本感知下生成上述模板,提出了一个编码器架构来进行有效的全局上下文建模。由于这些关键设计,STCAT享有更一致的跨模式特征对齐和管预测,而无需依赖任何预训练的对象探测器。广泛的实验表明,我们的方法在两个具有挑战性的视频基准(VIDSTG和HC-STVG)上胜过先前的最先进的,这说明了拟议框架的优越性,以更好地理解视觉与自然语言之间的关联。代码可在\ url {https://github.com/jy0205/stcat}上公开获得。
translated by 谷歌翻译
Referring image segmentation aims to segment the target object described by a given natural language expression. Typically, referring expressions contain complex relationships between the target and its surrounding objects. The main challenge of this task is to understand the visual and linguistic content simultaneously and to find the referred object accurately among all instances in the image. Currently, the most effective way to solve the above problem is to obtain aligned multi-modal features by computing the correlation between visual and linguistic feature modalities under the supervision of the ground-truth mask. However, existing paradigms have difficulty in thoroughly understanding visual and linguistic content due to the inability to perceive information directly about surrounding objects that refer to the target. This prevents them from learning aligned multi-modal features, which leads to inaccurate segmentation. To address this issue, we present a position-aware contrastive alignment network (PCAN) to enhance the alignment of multi-modal features by guiding the interaction between vision and language through prior position information. Our PCAN consists of two modules: 1) Position Aware Module (PAM), which provides position information of all objects related to natural language descriptions, and 2) Contrastive Language Understanding Module (CLUM), which enhances multi-modal alignment by comparing the features of the referred object with those of related objects. Extensive experiments on three benchmarks demonstrate our PCAN performs favorably against the state-of-the-art methods. Our code will be made publicly available.
translated by 谷歌翻译
参考表达理解(REC)是视觉推理中最重要的任务之一,该任务需要模型来检测自然语言表达式所引用的目标对象。在拟议的管道中,一阶段参考表达理解(OSREC)已成为主要趋势,因为它合并了区域建议和选择阶段。许多最先进的OSREC模型采用多跳的推理策略,因为单个表达式中经常提到一系列对象,该对象需要多跳的推理来分析语义关系。但是,这些模型的一个未解决的问题是,在推理之前需要预先定义和固定推理步骤的数量,而忽略了表达式的不同复杂性。在本文中,我们提出了一个动态的多步推理网络,该网络允许根据推理状态和表达复杂性动态调整推理步骤。具体而言,我们采用变压器模块来记住和处理推理状态和增强学习策略,以动态推断推理步骤。这项工作可在几个REC数据集上实现最新性能或重大改进,从具有短表达式的Refcoco(+,G)到具有长而复杂的组成表达式的数据集。
translated by 谷歌翻译
Learning fine-grained interplay between vision and language allows to a more accurate understanding for VisionLanguage tasks. However, it remains challenging to extract key image regions according to the texts for semantic alignments. Most existing works are either limited by textagnostic and redundant regions obtained with the frozen detectors, or failing to scale further due to its heavy reliance on scarce grounding (gold) data to pre-train detectors. To solve these problems, we propose Self-Locator Aided Network (SLAN) for cross-modal understanding tasks without any extra gold data. SLAN consists of a region filter and a region adaptor to localize regions of interest conditioned on different texts. By aggregating cross-modal information, the region filter selects key regions and the region adaptor updates their coordinates with text guidance. With detailed region-word alignments, SLAN can be easily generalized to many downstream tasks. It achieves fairly competitive results on five cross-modal understanding tasks (e.g., 85.7% and 69.2% on COCO image-to-text and text-to-image retrieval, surpassing previous SOTA methods). SLAN also demonstrates strong zero-shot and fine-tuned transferability to two localization tasks.
translated by 谷歌翻译
视频接地旨在通过给定语言查询,本地化未经监控的视频中的相应视频时刻。现有方法通常以间接方式解决此任务,通过将其作为提案和匹配或融合和检测问题。解决这些替代问题通常需要在培训和手工制作的近重复结果中进行复杂的标签分配。同时,现有的作品通常专注于具有单句的稀疏视频接地,作为输入可能导致由于其不清晰的描述而产生模糊的本地化。在本文中,我们通过将段落作为输入同时定位多个时刻来解决密集视频接地的新问题。从视频接地的视角是语言条件回归,我们通过重新拟合变压器 - 相似的架构(PRVG)来提出端到端的并行解码范式。我们的PRVG中的关键设计是使用语言作为查询,并基于语言调制的可视表示直接回归矩界限。由于其简单设计,我们的PRVG框架可以应用于不同的测试方案(稀疏或密集的接地),并允许无需任何后处理技术的有效推理。此外,我们设计了强大的提案级注意力损失,以指导PRVG的培训,这不变于时刻持续时间,并有助于模型收敛。我们对ActivityNet标题和炸玉米饼的两个视频接地基准进行实验,展示了我们的PRVG可以显着优于以前的方法。我们还进行深入的研究,以研究并行回归范例对视频接地的有效性。
translated by 谷歌翻译
参考图像分割旨在通过自然语言表达段段。在文本和图像之间的不同数据属性中,对网络充满良好的对齐文本和像素级别特征是具有挑战性的。现有方法使用借预制模型来促进学习,但分别从预磨料模型转移语言/视觉知识,忽略多模态对应信息。灵感来自最近对比语言 - 图像预测(剪辑)的预先推进(剪辑),在本文中,我们提出了一个端到端的剪辑驱动的参考图像分割框架(CRIS)。有效地转移多模态知识,克里斯语言解码和对比学习来实现文本到像素对齐的对比学习。更具体地,我们设计了一种视觉语言解码器,以将微粒语义信息从文本表示传播到每个像素级激活,这促进了两个模态之间的一致性。此外,我们呈现文本到像素对比学学习,明确强制执行类似于相关像素级别特征的文本特征,并与无关相似。三个基准数据集的实验结果表明,我们的拟议框架显着优于现有的性能而无需任何后处理。代码将被释放。
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
参照视频对象分割(R-VOS)是一个新兴的跨通道任务,其目的是分割目标对象中的所有的视频帧称为一个语言表达式。在这项工作中,我们提出了一个简单并在变压器建成统一的框架,称为ReferFormer。它认为在语言查询,并直接参加到视频帧中的最相关的区域。具体而言,我们引入一个小套空调的语言作为输入Transformer对象的查询。通过这种方式,所有的查询有义务仅发现指的对象。他们最终都转化为动态的内核,其捕捉的关键对象级信息,并发挥卷积过滤器的作用,生成特征地图分割口罩。对象跟踪通过连接在帧之间相应的查询自然实现。这种机制极大地简化了管道和终端到终端的框架是从以前的方法不同显著。在REF-YouTube的VOS,REF-DAVIS17大量的实验,A2D-句子和JHMDB-句显示ReferFormer的有效性。上REF-YouTube的VOS,参见-前达到55.6J&F与RESNET-50主链而不花哨,这超过了8.4点之前的状态的最先进的性能。此外,与强斯文 - 大型骨干,ReferFormer实现了所有现有的方法中最好的J&62.4 F。歼&F度量可以通过采用一个简单的后处理技术来进一步升压到63.3。此外,我们分别显示55.0地图和43.7地图上A2D-句andJHMDB-句令人印象深刻的结果,这显著优于大幅度以前的方法。代码是公开的,在https://github.com/wjn922/ReferFormer。
translated by 谷歌翻译
视觉接地是一项旨在根据自然语言表达方式定位目标对象的任务。作为一项多模式任务,文本和视觉输入之间的特征相互作用至关重要。但是,先前的解决方案主要在将它们融合在一起之前独立处理每种模式,在提取视觉功能时,这并不能充分利用相关的文本信息。为了更好地利用视觉接地中的文本视觉关系,我们提出了一个查询条件的卷积模块(QCM),该模块(QCM)通过将查询信息纳入卷积内核的产生中来提取查询感知的视觉特征。借助我们提出的QCM,下游融合模块接收到更具歧视性的视觉特征,并专注于表达式中描述的所需对象,从而导致更准确的预测。在三个流行的视觉接地数据集上进行的广泛实验表明,我们的方法可以达到最新的性能。此外,当直接用于预测而无需进一步的多模式融合时,查询感知的视觉特征足以实现与最新方法可比的性能。
translated by 谷歌翻译
参考图像分割是典型的多模模式任务,其目的在于为给定语言表达式中描述的参考生成二进制掩码。现有技术采用双峰解决方案,以编码器 - 融合解码器管道内的两种方式采用图像和语言。但是,由于两个原因,该管道对目标任务进行了次优。首先,它们仅保险熔断由单模编码器产生的高级别功能,其妨碍了足够的跨模型学习。其次,UNI-Modal编码器是独立预先培训的,这在预训练的UNI-DOMAL任务和目标多模态任务之间带来不一致。此外,这种管道经常忽略或几乎没有使用直观有益的实例级别功能。为了减轻这些问题,我们提出了邮件,这是一个更简洁的编码器解码器管道,具有掩码图像语言Trimodal编码器。具体而言,邮件将Uni-Modal特征提取器及其融合模型统一到深度模态交互编码器中,促进了不同模式的足够的特征交互。同时,邮件直接避免了第二个限制,因为不再需要单模编码器。此外,我们第一次提出将实例掩码介绍为额外的模态,这明确加强了实例级别特征并促使更精细的分段结果。该邮件在所有常用的引用图像分割数据集中设置了一种新的最先进的,包括Refcoco,Refcoco +和G-Ref,具有显着的收益,与以前的最佳方法为3%-10%。代码即将发布。
translated by 谷歌翻译
视觉语言(VL)预训练最近受到了广泛的关注。但是,大多数现有的端到端预训练方法只旨在解决诸如图像文本检索,视觉询问答案(VQA)和图像字幕等VL任务,以测试对图像的高级了解,或者仅对目标区域进行测试 - 对诸如短语接地和对象检测等任务的水平理解。我们提出了Fiber(基于回避的变压器),这是一种新的VL模型体系结构,可以无缝处理这两种类型的任务。 Fiber没有将多模式融合到模型深处,而不是将融合后的专用变压器层用于融合,而是通过将交叉注意力插入图像和文本骨干杆中,从而在记忆和性能方面带来了增长。此外,与以前的工作不同,它要么仅在图像文本数据上进行训练,要么在带有框级注释的细粒度数据上进行培训,我们提出了一种两阶段的预训练策略,该策略有效地使用了这两种数据:(( i)基于图像文本数据的粗粒细化预训练;然后是(ii)基于图像文本框数据的细粒度预训练。我们对各种VL任务进行全面的实验,从VQA,图像字幕和检索到短语接地,参考表达理解和对象检测。使用深层多模式融合,结合两阶段的预训练,光纤可对所有任务的强基础进行一致的性能改进,通常使用幅度更优于更多数据的方法。代码可从https://github.com/microsoft/fiber获得。
translated by 谷歌翻译
我们考虑在与给定文本查询相对应的视频中定位时空管的问题。这是一项具有挑战性的任务,需要对时间,空间和多模式相互作用进行联合有效的建模。为了解决此任务,我们提出了TubedEtr,这是一种基于变压器的体系结构,灵感来自此类模型在文本条件条件的对象检测中的最新成功。我们的模型特别包括:(i)有效的视频和文本编码器,该视频和文本编码器对稀疏采样帧进行了空间多模式相互作用,以及(ii)共同执行时空定位的时空解码器。我们通过广泛的消融研究证明了我们提出的组件的优势。我们还在时空视频接地任务上评估了我们的完整方法,并在具有挑战性的VIDSTG和HC-STVG基准方面证明了对最新技术的改进。代码和训练有素的模型可在https://antoyang.github.io/tubedetr.html上公开获得。
translated by 谷歌翻译
The prevailing framework for matching multimodal inputs is based on a two-stage process: 1) detecting proposals with an object detector and 2) matching text queries with proposals. Existing two-stage solutions mostly focus on the matching step. In this paper, we argue that these methods overlook an obvious \emph{mismatch} between the roles of proposals in the two stages: they generate proposals solely based on the detection confidence (i.e., query-agnostic), hoping that the proposals contain all instances mentioned in the text query (i.e., query-aware). Due to this mismatch, chances are that proposals relevant to the text query are suppressed during the filtering process, which in turn bounds the matching performance. To this end, we propose VL-NMS, which is the first method to yield query-aware proposals at the first stage. VL-NMS regards all mentioned instances as critical objects, and introduces a lightweight module to predict a score for aligning each proposal with a critical object. These scores can guide the NMS operation to filter out proposals irrelevant to the text query, increasing the recall of critical objects, resulting in a significantly improved matching performance. Since VL-NMS is agnostic to the matching step, it can be easily integrated into any state-of-the-art two-stage matching methods. We validate the effectiveness of VL-NMS on two multimodal matching tasks, namely referring expression grounding and image-text matching. Extensive ablation studies on several baselines and benchmarks consistently demonstrate the superiority of VL-NMS.
translated by 谷歌翻译