引用视频对象细分旨在预测视频中自然语言表达式引用的对象的前景标签。先前的方法要么取决于3D convnet,要么将附加的2D转向器作为编码器,以提取混合时空特征。但是,由于在解码阶段发生的延迟和隐式时空相互作用,这些方法遭受了空间错位或虚假分散因素的影响。为了解决这些限制,我们提出了一个语言桥梁的双链传输(LBDT)模块,该模块将语言用作中间桥,以在编码阶段早期完成显式和适应性的时空交互。具体地,在时间编码器中进行了交叉模式的注意,将单词和空间编码器引用以汇总和传递与语言相关的运动和外观信息。此外,我们还提出了在解码阶段的双边通道激活(BCA)模块,以通过通道激活进一步降低并突出时空一致的特征。广泛的实验表明,我们的方法在四个流行的基准测试基准上获得了新的最新性能,分别在A2D句子和J-HMDB句子上获得了6.8%和6.9%的绝对AP收益,同时消耗了大约7倍的计算机开销。
translated by 谷歌翻译
引用视频对象细分旨在分割给定语言表达式所引用的对象。现有作品通常需要压缩视频bitstream在分割之前将其解码为RGB帧,从而增加了计算和存储要求,并最终减慢了推断。这可能会妨碍其在现实世界计算资源有限的场景中的应用,例如自动驾驶汽车和无人机。为了减轻此问题,在本文中,我们探讨了压缩视频的引用对象细分任务,即原始视频数据流。除了视频引用对象分割任务本身的固有难度外,从压缩视频中获得歧视性表示也很具有挑战性。为了解决这个问题,我们提出了一个多发网络,该网络由双路线双注意模块和一个基于查询的跨模式变压器模块组成。具体而言,双路线双意见模块旨在从三种模态的压缩数据中提取有效表示,即i框架,运动矢量和残留。基于查询的跨模式变压器首先对语言和视觉方式之间的相关性进行建模,然后使用融合的多模式特征来指导对象查询以生成内容感知的动态内核并预测最终的分割掩码。与以前的作品不同,我们建议只学习一个内核,因此,它可以删除现有方法的复杂后掩模匹配程序。在三个具有挑战性的数据集上进行的广泛有希望的实验结果表明,与几种用于处理RGB数据的最新方法相比,我们的方法的有效性。源代码可在以下网址获得:https://github.com/dexianghong/manet。
translated by 谷歌翻译
基于文本的视频细分旨在通过用文本查询指定演员及其表演动作来细分视频序列中的演员。由于\ emph {emph {语义不对称}的问题,以前的方法无法根据演员及其动作以细粒度的方式将视频内容与文本查询对齐。 \ emph {语义不对称}意味着在多模式融合过程中包含不同量的语义信息。为了减轻这个问题,我们提出了一个新颖的演员和动作模块化网络,该网络将演员及其动作分别定位在两个单独的模块中。具体来说,我们首先从视频和文本查询中学习与参与者相关的内容,然后以对称方式匹配它们以定位目标管。目标管包含所需的参与者和动作,然后将其送入完全卷积的网络,以预测演员的分割掩模。我们的方法还建立了对象的关联,使其与所提出的时间建议聚合机制交叉多个框架。这使我们的方法能够有效地细分视频并保持预测的时间一致性。整个模型允许联合学习参与者的匹配和细分,并在A2D句子和J-HMDB句子数据集上实现单帧细分和完整视频细分的最新性能。
translated by 谷歌翻译
参照视频对象分割(R-VOS)是一个新兴的跨通道任务,其目的是分割目标对象中的所有的视频帧称为一个语言表达式。在这项工作中,我们提出了一个简单并在变压器建成统一的框架,称为ReferFormer。它认为在语言查询,并直接参加到视频帧中的最相关的区域。具体而言,我们引入一个小套空调的语言作为输入Transformer对象的查询。通过这种方式,所有的查询有义务仅发现指的对象。他们最终都转化为动态的内核,其捕捉的关键对象级信息,并发挥卷积过滤器的作用,生成特征地图分割口罩。对象跟踪通过连接在帧之间相应的查询自然实现。这种机制极大地简化了管道和终端到终端的框架是从以前的方法不同显著。在REF-YouTube的VOS,REF-DAVIS17大量的实验,A2D-句子和JHMDB-句显示ReferFormer的有效性。上REF-YouTube的VOS,参见-前达到55.6J&F与RESNET-50主链而不花哨,这超过了8.4点之前的状态的最先进的性能。此外,与强斯文 - 大型骨干,ReferFormer实现了所有现有的方法中最好的J&62.4 F。歼&F度量可以通过采用一个简单的后处理技术来进一步升压到63.3。此外,我们分别显示55.0地图和43.7地图上A2D-句andJHMDB-句令人印象深刻的结果,这显著优于大幅度以前的方法。代码是公开的,在https://github.com/wjn922/ReferFormer。
translated by 谷歌翻译
参考图像分割旨在通过自然语言表达段段。在文本和图像之间的不同数据属性中,对网络充满良好的对齐文本和像素级别特征是具有挑战性的。现有方法使用借预制模型来促进学习,但分别从预磨料模型转移语言/视觉知识,忽略多模态对应信息。灵感来自最近对比语言 - 图像预测(剪辑)的预先推进(剪辑),在本文中,我们提出了一个端到端的剪辑驱动的参考图像分割框架(CRIS)。有效地转移多模态知识,克里斯语言解码和对比学习来实现文本到像素对齐的对比学习。更具体地,我们设计了一种视觉语言解码器,以将微粒语义信息从文本表示传播到每个像素级激活,这促进了两个模态之间的一致性。此外,我们呈现文本到像素对比学学习,明确强制执行类似于相关像素级别特征的文本特征,并与无关相似。三个基准数据集的实验结果表明,我们的拟议框架显着优于现有的性能而无需任何后处理。代码将被释放。
translated by 谷歌翻译
Panoptic叙事接地(PNG)是一项新的任务,其目标是通过静止图像的密集叙事标题来分割事物和内容类别的视觉对象。先前的两阶段方法首先提取了通过现成的全盘分割模型提取分割区域的建议,然后进行粗糙的区域短语匹配,以将每个名词短语的候选区域接地。但是,两阶段的管道通常受到第一阶段低质量建议的性能限制,以及由区域特征池的损失以及为事物和东西类别设计的复杂策略引起的空间细节。为了减轻这些缺点,我们提出了一个单阶段的端到端像素匹配网络(PPMN),该网络将每个短语与其相应的像素直接匹配,而不是区域建议,并通过简单组合输出全段段。因此,我们的模型可以从密集注释的像素色素对的监督而不是稀疏的区域短语对中利用足够,更精细的跨模式语义对应关系。此外,我们还提出了与语言兼容的像素聚合(LCPA)模块,以进一步通过多轮修补剂增强短语特征的判别能力,该简化为每个短语选择最兼容的像素以适应相应的视觉上下文。广泛的实验表明,我们的方法在PNG基准测试中实现了新的最新性能,并具有4.0个绝对平均召回率增长。
translated by 谷歌翻译
Referring image segmentation aims at localizing all pixels of the visual objects described by a natural language sentence. Previous works learn to straightforwardly align the sentence embedding and pixel-level embedding for highlighting the referred objects, but ignore the semantic consistency of pixels within the same object, leading to incomplete masks and localization errors in predictions. To tackle this problem, we propose CoupAlign, a simple yet effective multi-level visual-semantic alignment method, to couple sentence-mask alignment with word-pixel alignment to enforce object mask constraint for achieving more accurate localization and segmentation. Specifically, the Word-Pixel Alignment (WPA) module performs early fusion of linguistic and pixel-level features in intermediate layers of the vision and language encoders. Based on the word-pixel aligned embedding, a set of mask proposals are generated to hypothesize possible objects. Then in the Sentence-Mask Alignment (SMA) module, the masks are weighted by the sentence embedding to localize the referred object, and finally projected back to aggregate the pixels for the target. To further enhance the learning of the two alignment modules, an auxiliary loss is designed to contrast the foreground and background pixels. By hierarchically aligning pixels and masks with linguistic features, our CoupAlign captures the pixel coherence at both visual and semantic levels, thus generating more accurate predictions. Extensive experiments on popular datasets (e.g., RefCOCO and G-Ref) show that our method achieves consistent improvements over state-of-the-art methods, e.g., about 2% oIoU increase on the validation and testing set of RefCOCO. Especially, CoupAlign has remarkable ability in distinguishing the target from multiple objects of the same class.
translated by 谷歌翻译
我们研究了参考图像分割(RIS),该图像分割(RIS)输出与自然语言描述相对应的分割图。有效地解决RIS需要考虑发生\ emph {跨}视觉和语言模态以及每种模态的交互。现有方法受到限制,因为它们要么计算不同形式的交互作用\ emph {secentally}(导致错误传播)或\ emph {nighore}。我们通过通过同步多模式融合模块(SFM)执行所有三个交互\ emph {同时}来解决此限制。此外,为了产生精致的分割面膜,我们提出了一种新型的层次交叉模式聚合模块(HCAM),其中语言特征有助于在整个视觉层次结构上交换上下文信息。我们介绍了彻底的消融研究,并在四个基准数据集上验证方法的性能,显示出对现有最新方法(SOTA)方法的性能增长。
translated by 谷歌翻译
Referring image segmentation aims to segment the target object described by a given natural language expression. Typically, referring expressions contain complex relationships between the target and its surrounding objects. The main challenge of this task is to understand the visual and linguistic content simultaneously and to find the referred object accurately among all instances in the image. Currently, the most effective way to solve the above problem is to obtain aligned multi-modal features by computing the correlation between visual and linguistic feature modalities under the supervision of the ground-truth mask. However, existing paradigms have difficulty in thoroughly understanding visual and linguistic content due to the inability to perceive information directly about surrounding objects that refer to the target. This prevents them from learning aligned multi-modal features, which leads to inaccurate segmentation. To address this issue, we present a position-aware contrastive alignment network (PCAN) to enhance the alignment of multi-modal features by guiding the interaction between vision and language through prior position information. Our PCAN consists of two modules: 1) Position Aware Module (PAM), which provides position information of all objects related to natural language descriptions, and 2) Contrastive Language Understanding Module (CLUM), which enhances multi-modal alignment by comparing the features of the referred object with those of related objects. Extensive experiments on three benchmarks demonstrate our PCAN performs favorably against the state-of-the-art methods. Our code will be made publicly available.
translated by 谷歌翻译
时空视频接地(STVG)的重点是检索由自由形式的文本表达式描绘的特定物体的时空管。现有方法主要将这一复杂的任务视为平行框架的问题,因此遭受了两种类型的不一致缺点:特征对齐不一致和预测不一致。在本文中,我们提出了一个端到端的一阶段框架,称为时空的一致性变压器(STCAT),以减轻这些问题。特别是,我们引入了一个新颖的多模式模板,作为解决此任务的全球目标,该目标明确限制了接地区域并将所有视频框架之间的预测联系起来。此外,为了在足够的视频文本感知下生成上述模板,提出了一个编码器架构来进行有效的全局上下文建模。由于这些关键设计,STCAT享有更一致的跨模式特征对齐和管预测,而无需依赖任何预训练的对象探测器。广泛的实验表明,我们的方法在两个具有挑战性的视频基准(VIDSTG和HC-STVG)上胜过先前的最先进的,这说明了拟议框架的优越性,以更好地理解视觉与自然语言之间的关联。代码可在\ url {https://github.com/jy0205/stcat}上公开获得。
translated by 谷歌翻译
引用图像分割是一种基本愿景 - 语言任务,旨在分割由图像中的自然语言表达式引用的对象。这项任务背后的一个关键挑战是利用引用表达式来突出显示图像中的相关位置。解决此问题的范例是利用强大的视觉语言(“跨模型”)解码器到从视觉编码器和语言编码器独立提取的保险丝特征。最近的方法通过利用变换器作为跨模型解码器,并将变换器在许多其他视觉语言任务中的压倒性成功的同时进行了显着的进步。在这项工作中采用不同的方法,我们表明,通过在视觉变压器编码器网络的中间层中的语言和视觉特征的早期融合,可以实现更好的跨模型对准。通过在视觉特征编码阶段进行跨模型特征融合,我们可以利用变压器编码器的良好相关建模功率,以便挖掘有用的多模态上下文。通过这种方式,用轻型掩模预测器容易地收获精确的分段结果。没有钟声和口哨,我们的方法超越了在Refcoco,Refcoco +和G-Ref上的先前最先进的方法。
translated by 谷歌翻译
多模式变压器表现出高容量和灵活性,可将图像和文本对齐以进行视觉接地。然而,由于自我发挥操作的二次时间复杂性,仅编码的接地框架(例如,transvg)遭受了沉重的计算。为了解决这个问题,我们通过将整个接地过程解散为编码和解码阶段,提出了一种新的多模式变压器体系结构,以动态MDETR形成。关键观察是,图像中存在很高的空间冗余。因此,我们通过在加快视觉接地过程之前利用这种稀疏性来设计一种新的动态多模式变压器解码器。具体而言,我们的动态解码器由2D自适应采样模块和文本引导的解码模块组成。采样模块旨在通过预测参考点的偏移来选择这些信息补丁,而解码模块则可以通过在图像功能和文本功能之间执行交叉注意来提取接地对象信息。这两个模块也被堆叠起来,以逐渐弥合模态间隙,并迭代地完善接地对象的参考点,最终实现了视觉接地的目的。对五个基准测试的广泛实验表明,我们提出的动态MDETR实现了计算和准确性之间的竞争权衡。值得注意的是,在解码器中仅使用9%的特征点,我们可以降低〜44%的多模式变压器的GLOP,但仍然比仅编码器的对应物更高的精度。此外,为了验证其概括能力并扩展我们的动态MDETR,我们构建了第一个单级剪辑授权的视觉接地框架,并在这些基准测试中实现最先进的性能。
translated by 谷歌翻译
引用视频对象分割(R-VOS)旨在分割视频中的对象掩码,并给出将语言表达式转介到对象的情况下。这是最近引入的任务,吸引了不断增长的研究关注。但是,所有现有的作品都有很大的假设:表达式所描绘的对象必须存在于视频中,即表达式和视频必须具有对象级的语义共识。在现实世界中,通常会违反这种表达式的虚假视频,并且由于滥用假设,现有方法总是在此类错误查询中失败。在这项工作中,我们强调研究语义共识对于提高R-VOS的鲁棒性是必要的。因此,我们从没有语义共识假设的R-VOS构成了一个扩展任务,称为Robust R-VOS($ \ Mathrm {R}^2 $ -VOS)。 $ \ mathrm {r}^2 $ - VOS任务与主R-VOS任务的联合建模及其双重问题(文本重建)基本相关。我们接受这样的观察,即嵌入空间通过文本视频文本转换的周期具有关系一致性,该转换将主要问题和双重问题连接起来。我们利用周期一致性来区分语义共识,从而推进主要任务。通过引入早期接地介质,可以实现对主要问题和双重问题的平行优化。收集了一个新的评估数据集,$ \ mathrm {r}^2 $ -Youtube-vos,以测量R-VOS模型针对未配对的视频和表达式的稳健性。广泛的实验表明,我们的方法不仅可以识别出无关表达式和视频的负面对,而且还提高了具有出色歧义能力的正对的分割精度。我们的模型在Ref-Davis17,Ref-Youtube-Vos和Novel $ \ Mathrm {r}^2 $ -Youtube-vos数据集上实现了最先进的性能。
translated by 谷歌翻译
参考图像分割(RIS)旨在通过输出给定文本描述的相应对象掩码连接图像和语言,这是一项基本的视觉语言任务。尽管RIS取得了很多进展,但在这项工作中,我们还是探索了一个基本问题:“如果描述是错误的或文本描述的误导怎么办?”。我们将这样的句子称为否定句子。但是,我们发现现有作品无法处理此类设置。为此,我们提出了一种新颖的RIS,称为Robust Robust Toemustring图像分割(R-RIS)。除了定期给出的文本输入外,它还考虑了否定句子输入。我们通过增加输入负面句子和一个新的指标来统一两种输入类型,提出三个不同的数据集。此外,我们设计了一个名为RefSegformer的新的基于变压器的模型,在其中引入了基于令牌的视觉和语言融合模块。通过添加额外的空白令牌,可以轻松地将此类模块扩展到我们的R-RIS设置。我们提出的RefSegormer在三个常规RIS数据集和三个R-RIS数据集上实现了新的最新结果,这是用于进一步研究的新基线。项目页面位于\ url {https://lxtgh.github.io/project/robust_ref_seg/}。
translated by 谷歌翻译
视频实例细分(VIS)旨在在视频序列中对对象实例进行分类,分割和跟踪。最近基于变压器的神经网络证明了它们为VIS任务建模时空相关性的强大能力。依靠视频或剪辑级输入,它们的潜伏期和计算成本很高。我们提出了一个强大的上下文融合网络来以在线方式解决VIS,该网络可以预测实例通过前几个框架进行逐帧的细分框架。为了有效地获取每个帧的精确和时间一致的预测,关键思想是将有效和紧凑的上下文从参考框架融合到目标框架中。考虑到参考和目标框架对目标预测的不同影响,我们首先通过重要性感知的压缩总结上下文特征。采用变压器编码器来融合压缩上下文。然后,我们利用嵌入订单的实例来传达身份感知信息,并将身份与预测的实例掩码相对应。我们证明,我们强大的融合网络在现有的在线VIS方法中取得了最佳性能,并且比以前在YouTube-VIS 2019和2021基准上发布的剪辑级方法更好。此外,视觉对象通常具有声学签名,这些签名自然与它们在录音录像中自然同步。通过利用我们的上下文融合网络在多模式数据上的灵活性,我们进一步研究了音频对视频密集预测任务的影响,这在现有作品中从未讨论过。我们建立了一个视听实例分割数据集,并证明野外场景中的声学信号可以使VIS任务受益。
translated by 谷歌翻译
本文解决了颞句的接地。以前的作品通常通过学习帧级视频功能来解决此任务并将其与文本信息对齐。这些作品的一个主要限制是,由于帧级特征提取,它们未能利用具有微妙的外观差异的模糊视频帧。最近,一些方法采用更快的R-CNN来提取每帧中的详细物体特征来区分细粒的外观相似性。然而,由于对象检测模型缺乏时间建模,因此通过更快的R-CNN提取的对象级别特征遭受缺失的运动分析。为了解决这个问题,我们提出了一种新颖的运动外观推理网络(MARN),其包括动作感知和外观感知对象特征,以更好的原因对象关系来建立连续帧之间的活动。具体而言,我们首先介绍两个单独的视频编码器以将视频嵌入到相应的主导和外观 - 方面对象表示中。然后,我们开发单独的运动和外观分支,以分别学习运动引导和外观引导的对象关系。最后,来自两个分支的运动和外观信息都与用于最终接地的更多代表性的特征相关联。对两个具有挑战性的数据集(Chardes-Sta和Tacos)的广泛实验表明,我们提出的马恩在以前的最先进的方法中大大优于大幅度。
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
视觉接地是定位自然语言表达式指示的目标的任务。现有方法将通用对象检测框架扩展到此问题。它们将视觉接地基于预先生成的提案或锚点的特征,并将这些功能与文本嵌入融合,以找到文本提到的目标。但是,对这些预定义位置的视觉特征进行建模可能无法完全利用文本查询中的视觉上下文和属性信息,从而限制其性能。在本文中,我们提出了一个基于变压器的框架,以通过建立文本条件的判别特征和执行多阶段的跨模式推理来进行准确的视觉接地。具体而言,我们开发了一个视觉语言验证模块,以将视觉特征集中在与文本描述相关的区域上,同时抑制了无关区域。还设计了一种语言指导的特征编码器来汇总目标对象的视觉上下文,以提高对象的独特性。为了从编码的视觉特征中检索目标,我们进一步提出了一个多阶段的跨模式解码器,以迭代地推测图像和文本之间的相关性,以进行准确的目标定位。在五个广泛使用的数据集上进行的广泛实验验证了我们提出的组件的功效,并证明了最先进的性能。我们的代码在https://github.com/yangli18/vltvg上公开。
translated by 谷歌翻译
我们介绍了空间本地化叙述中的视频中的任务。我们的方法的关键是能够学会在与随附的叙述的视频中的大型视频中对自我监督进行空间地定位与自我监督的互动。为实现这一目标,我们提出了一种多层跨模型关注网络,可以在培训期间有效优化对比损失。我们介绍了一种分割的策略,可以通过视觉和自然语言方式计算和中间模态注意力之间的交替,这允许通过直接对比两种方式的表示来实现有效的培训。我们展示了我们对HOWTO100M教学数据集的自我训练的方法的有效性,并在YouCook2 DataSet中的本地化描述交互的新收集数据集上进行评估。我们展示了我们的方法优于替代基准,包括浅薄的共同关注和完全跨越的关注。我们还将我们的方法应用于在Flickr30k上的弱监管下的图像中的接地短语,并显示堆叠多个注意层是有效的,并且当与对区域丢失相结合时,在召回召回和指向时达到最先进的艺术状态手准确性。
translated by 谷歌翻译
参考图像分割是典型的多模模式任务,其目的在于为给定语言表达式中描述的参考生成二进制掩码。现有技术采用双峰解决方案,以编码器 - 融合解码器管道内的两种方式采用图像和语言。但是,由于两个原因,该管道对目标任务进行了次优。首先,它们仅保险熔断由单模编码器产生的高级别功能,其妨碍了足够的跨模型学习。其次,UNI-Modal编码器是独立预先培训的,这在预训练的UNI-DOMAL任务和目标多模态任务之间带来不一致。此外,这种管道经常忽略或几乎没有使用直观有益的实例级别功能。为了减轻这些问题,我们提出了邮件,这是一个更简洁的编码器解码器管道,具有掩码图像语言Trimodal编码器。具体而言,邮件将Uni-Modal特征提取器及其融合模型统一到深度模态交互编码器中,促进了不同模式的足够的特征交互。同时,邮件直接避免了第二个限制,因为不再需要单模编码器。此外,我们第一次提出将实例掩码介绍为额外的模态,这明确加强了实例级别特征并促使更精细的分段结果。该邮件在所有常用的引用图像分割数据集中设置了一种新的最先进的,包括Refcoco,Refcoco +和G-Ref,具有显着的收益,与以前的最佳方法为3%-10%。代码即将发布。
translated by 谷歌翻译