参照视频对象分割(R-VOS)是一个新兴的跨通道任务,其目的是分割目标对象中的所有的视频帧称为一个语言表达式。在这项工作中,我们提出了一个简单并在变压器建成统一的框架,称为ReferFormer。它认为在语言查询,并直接参加到视频帧中的最相关的区域。具体而言,我们引入一个小套空调的语言作为输入Transformer对象的查询。通过这种方式,所有的查询有义务仅发现指的对象。他们最终都转化为动态的内核,其捕捉的关键对象级信息,并发挥卷积过滤器的作用,生成特征地图分割口罩。对象跟踪通过连接在帧之间相应的查询自然实现。这种机制极大地简化了管道和终端到终端的框架是从以前的方法不同显著。在REF-YouTube的VOS,REF-DAVIS17大量的实验,A2D-句子和JHMDB-句显示ReferFormer的有效性。上REF-YouTube的VOS,参见-前达到55.6J&F与RESNET-50主链而不花哨,这超过了8.4点之前的状态的最先进的性能。此外,与强斯文 - 大型骨干,ReferFormer实现了所有现有的方法中最好的J&62.4 F。歼&F度量可以通过采用一个简单的后处理技术来进一步升压到63.3。此外,我们分别显示55.0地图和43.7地图上A2D-句andJHMDB-句令人印象深刻的结果,这显著优于大幅度以前的方法。代码是公开的,在https://github.com/wjn922/ReferFormer。
translated by 谷歌翻译
引用的视频对象分割任务(RVOS)涉及在给定视频的帧中分割文本引用的对象实例。由于这种多模式任务的复杂性,它结合了文本推理,视频理解,实例分割和跟踪,现有方法通常依赖于复杂的流水线以解决它。在本文中,我们提出了一种简单的基于变压器的RVO方法。我们的框架称为多模式跟踪变压器(MTTR),将RVOS任务模拟作为序列预测问题。在计算机视觉和自然语言处理的最新进步之后,MTTR基于实现视频和文本可以通过单个多峰变压器模型有效地处理视频和文本。 MTTR是端到端的培训,没有文本相关的电感偏置组件,不需要额外的面具细化后处理步骤。因此,与现有方法相比,它显着简化了RVOS管道。标准基准的评估表明,MTTR在多个度量标准中显着优于前面的艺术。特别是,MTTR分别显示A2D句子和JHMDB句子数据集的令人印象深刻的+5.7和+ 5.0映射增长,同时处理每秒76帧。此外,我们在公开验证集的推荐集上报告了强劲的结果,这是一个更具挑战性的RVOS数据集,该数据集尚未得到研究人员的注意。重现我们的实验的代码可在https://github.com/mttr2021/mttr中获得
translated by 谷歌翻译
在这项工作中,我们呈现SEQFormer,这是一个令人沮丧的视频实例分段模型。 SEQFormer遵循Vision变换器的原理,该方法模型视频帧之间的实例关系。然而,我们观察到一个独立的实例查询足以捕获视频中的时间序列,但应该独立地使用每个帧进行注意力机制。为此,SEQFormer在每个帧中定位一个实例,并聚合时间信息以学习视频级实例的强大表示,其用于动态地预测每个帧上的掩模序列。实例跟踪自然地实现而不进行跟踪分支或后处理。在YouTube-VIS数据集上,SEQFormer使用Reset-50个骨干和49.0 AP实现47.4个AP,其中Reset-101骨干,没有响铃和吹口哨。此类成果分别显着超过了以前的最先进的性能4.6和4.4。此外,与最近提出的Swin变压器集成,SEQFormer可以实现59.3的高得多。我们希望SEQFormer可能是一个强大的基线,促进了视频实例分段中的未来研究,同时使用更强大,准确,整洁的模型来实现该字段。代码和预先训练的型号在https://github.com/wjf5203/seqformer上公开使用。
translated by 谷歌翻译
The task of referring video object segmentation aims to segment the object in the frames of a given video to which the referring expressions refer. Previous methods adopt multi-stage approach and design complex pipelines to obtain promising results. Recently, the end-to-end method based on Transformer has proved its superiority. In this work, we draw on the advantages of the above methods to provide a simple and effective pipeline for RVOS. Firstly, We improve the state-of-the-art one-stage method ReferFormer to obtain mask sequences that are strongly correlated with language descriptions. Secondly, based on a reliable and high-quality keyframe, we leverage the superior performance of video object segmentation model to further enhance the quality and temporal consistency of the mask results. Our single model reaches 70.3 J &F on the Referring Youtube-VOS validation set and 63.0 on the test set. After ensemble, we achieve 64.1 on the final leaderboard, ranking 1st place on CVPR2022 Referring Youtube-VOS challenge. Code will be available at https://github.com/Zhiweihhh/cvpr2022-rvos-challenge.git.
translated by 谷歌翻译
speed among all existing VIS models, and achieves the best result among methods using single model on the YouTube-VIS dataset. For the first time, we demonstrate a much simpler and faster video instance segmentation framework built upon Transformers, achieving competitive accuracy. We hope that VisTR can motivate future research for more video understanding tasks.
translated by 谷歌翻译
引用视频对象细分旨在分割给定语言表达式所引用的对象。现有作品通常需要压缩视频bitstream在分割之前将其解码为RGB帧,从而增加了计算和存储要求,并最终减慢了推断。这可能会妨碍其在现实世界计算资源有限的场景中的应用,例如自动驾驶汽车和无人机。为了减轻此问题,在本文中,我们探讨了压缩视频的引用对象细分任务,即原始视频数据流。除了视频引用对象分割任务本身的固有难度外,从压缩视频中获得歧视性表示也很具有挑战性。为了解决这个问题,我们提出了一个多发网络,该网络由双路线双注意模块和一个基于查询的跨模式变压器模块组成。具体而言,双路线双意见模块旨在从三种模态的压缩数据中提取有效表示,即i框架,运动矢量和残留。基于查询的跨模式变压器首先对语言和视觉方式之间的相关性进行建模,然后使用融合的多模式特征来指导对象查询以生成内容感知的动态内核并预测最终的分割掩码。与以前的作品不同,我们建议只学习一个内核,因此,它可以删除现有方法的复杂后掩模匹配程序。在三个具有挑战性的数据集上进行的广泛有希望的实验结果表明,与几种用于处理RGB数据的最新方法相比,我们的方法的有效性。源代码可在以下网址获得:https://github.com/dexianghong/manet。
translated by 谷歌翻译
引用视频对象分割(R-VOS)旨在分割视频中的对象掩码,并给出将语言表达式转介到对象的情况下。这是最近引入的任务,吸引了不断增长的研究关注。但是,所有现有的作品都有很大的假设:表达式所描绘的对象必须存在于视频中,即表达式和视频必须具有对象级的语义共识。在现实世界中,通常会违反这种表达式的虚假视频,并且由于滥用假设,现有方法总是在此类错误查询中失败。在这项工作中,我们强调研究语义共识对于提高R-VOS的鲁棒性是必要的。因此,我们从没有语义共识假设的R-VOS构成了一个扩展任务,称为Robust R-VOS($ \ Mathrm {R}^2 $ -VOS)。 $ \ mathrm {r}^2 $ - VOS任务与主R-VOS任务的联合建模及其双重问题(文本重建)基本相关。我们接受这样的观察,即嵌入空间通过文本视频文本转换的周期具有关系一致性,该转换将主要问题和双重问题连接起来。我们利用周期一致性来区分语义共识,从而推进主要任务。通过引入早期接地介质,可以实现对主要问题和双重问题的平行优化。收集了一个新的评估数据集,$ \ mathrm {r}^2 $ -Youtube-vos,以测量R-VOS模型针对未配对的视频和表达式的稳健性。广泛的实验表明,我们的方法不仅可以识别出无关表达式和视频的负面对,而且还提高了具有出色歧义能力的正对的分割精度。我们的模型在Ref-Davis17,Ref-Youtube-Vos和Novel $ \ Mathrm {r}^2 $ -Youtube-vos数据集上实现了最先进的性能。
translated by 谷歌翻译
Referring image segmentation aims to segment the target object described by a given natural language expression. Typically, referring expressions contain complex relationships between the target and its surrounding objects. The main challenge of this task is to understand the visual and linguistic content simultaneously and to find the referred object accurately among all instances in the image. Currently, the most effective way to solve the above problem is to obtain aligned multi-modal features by computing the correlation between visual and linguistic feature modalities under the supervision of the ground-truth mask. However, existing paradigms have difficulty in thoroughly understanding visual and linguistic content due to the inability to perceive information directly about surrounding objects that refer to the target. This prevents them from learning aligned multi-modal features, which leads to inaccurate segmentation. To address this issue, we present a position-aware contrastive alignment network (PCAN) to enhance the alignment of multi-modal features by guiding the interaction between vision and language through prior position information. Our PCAN consists of two modules: 1) Position Aware Module (PAM), which provides position information of all objects related to natural language descriptions, and 2) Contrastive Language Understanding Module (CLUM), which enhances multi-modal alignment by comparing the features of the referred object with those of related objects. Extensive experiments on three benchmarks demonstrate our PCAN performs favorably against the state-of-the-art methods. Our code will be made publicly available.
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
视频实例分割旨在预测每个帧的对象分割掩码,并关联多个帧的实例。最近的端到端视频实例分割方法能够在直接并行序列解码/预测框架中共同执行对象分割和实例关联。尽管这些方法通常可以预测较高质量的对象分割掩码,但它们可能无法在具有挑战性的情况下与实例相关联,因为它们没有明确对相邻帧的时间实例一致性进行建模。我们提出了一个一致的端到端视频实例分割框架,并在框架间反复注意,以建模相邻帧的时间实例一致性和全局时间上下文。我们的广泛实验表明,框架间的重复注意显着提高了时间实例的一致性,同时保持对象分割掩模的质量。我们的模型在YouTubevis-2019(62.1 \%)和YouTubevis-2021(54.7 \%)数据集上都达到了最新的精度。此外,定量和定性结果表明,所提出的方法可以预测更具时间一致的实例分割掩码。
translated by 谷歌翻译
视频实例细分(VIS)旨在在视频序列中对对象实例进行分类,分割和跟踪。最近基于变压器的神经网络证明了它们为VIS任务建模时空相关性的强大能力。依靠视频或剪辑级输入,它们的潜伏期和计算成本很高。我们提出了一个强大的上下文融合网络来以在线方式解决VIS,该网络可以预测实例通过前几个框架进行逐帧的细分框架。为了有效地获取每个帧的精确和时间一致的预测,关键思想是将有效和紧凑的上下文从参考框架融合到目标框架中。考虑到参考和目标框架对目标预测的不同影响,我们首先通过重要性感知的压缩总结上下文特征。采用变压器编码器来融合压缩上下文。然后,我们利用嵌入订单的实例来传达身份感知信息,并将身份与预测的实例掩码相对应。我们证明,我们强大的融合网络在现有的在线VIS方法中取得了最佳性能,并且比以前在YouTube-VIS 2019和2021基准上发布的剪辑级方法更好。此外,视觉对象通常具有声学签名,这些签名自然与它们在录音录像中自然同步。通过利用我们的上下文融合网络在多模式数据上的灵活性,我们进一步研究了音频对视频密集预测任务的影响,这在现有作品中从未讨论过。我们建立了一个视听实例分割数据集,并证明野外场景中的声学信号可以使VIS任务受益。
translated by 谷歌翻译
视频实例分割(VIS)在视频序列中共同处理多对象检测,跟踪和分割。过去,VIS方法反映了这些子任务在其建筑设计中的碎片化,因此在关节溶液上错过了这些子任务。变形金刚最近允许将整个VIS任务作为单个设定预测问题进行。然而,现有基于变压器的方法的二次复杂性需要较长的训练时间,高内存需求和处理低音尺度特征地图的处理。可变形的注意力提供了更有效的替代方案,但尚未探索其对时间域或分段任务的应用。在这项工作中,我们提出了可变形的Vis(Devis),这是一种利用可变形变压器的效率和性能的VIS方法。为了在多个框架上共同考虑所有VIS子任务,我们使用实例感知对象查询表示时间尺度可变形。我们进一步介绍了带有多尺度功能的新图像和视频实例蒙版头,并通过多提示剪辑跟踪执行近乎对方的视频处理。 Devis减少了内存和训练时间要求,并在YouTube-Vis 2021以及具有挑战性的OVIS数据集上实现了最先进的结果。代码可在https://github.com/acaelles97/devis上找到。
translated by 谷歌翻译
时空视频接地(STVG)的重点是检索由自由形式的文本表达式描绘的特定物体的时空管。现有方法主要将这一复杂的任务视为平行框架的问题,因此遭受了两种类型的不一致缺点:特征对齐不一致和预测不一致。在本文中,我们提出了一个端到端的一阶段框架,称为时空的一致性变压器(STCAT),以减轻这些问题。特别是,我们引入了一个新颖的多模式模板,作为解决此任务的全球目标,该目标明确限制了接地区域并将所有视频框架之间的预测联系起来。此外,为了在足够的视频文本感知下生成上述模板,提出了一个编码器架构来进行有效的全局上下文建模。由于这些关键设计,STCAT享有更一致的跨模式特征对齐和管预测,而无需依赖任何预训练的对象探测器。广泛的实验表明,我们的方法在两个具有挑战性的视频基准(VIDSTG和HC-STVG)上胜过先前的最先进的,这说明了拟议框架的优越性,以更好地理解视觉与自然语言之间的关联。代码可在\ url {https://github.com/jy0205/stcat}上公开获得。
translated by 谷歌翻译
基于文本的视频细分旨在通过用文本查询指定演员及其表演动作来细分视频序列中的演员。由于\ emph {emph {语义不对称}的问题,以前的方法无法根据演员及其动作以细粒度的方式将视频内容与文本查询对齐。 \ emph {语义不对称}意味着在多模式融合过程中包含不同量的语义信息。为了减轻这个问题,我们提出了一个新颖的演员和动作模块化网络,该网络将演员及其动作分别定位在两个单独的模块中。具体来说,我们首先从视频和文本查询中学习与参与者相关的内容,然后以对称方式匹配它们以定位目标管。目标管包含所需的参与者和动作,然后将其送入完全卷积的网络,以预测演员的分割掩模。我们的方法还建立了对象的关联,使其与所提出的时间建议聚合机制交叉多个框架。这使我们的方法能够有效地细分视频并保持预测的时间一致性。整个模型允许联合学习参与者的匹配和细分,并在A2D句子和J-HMDB句子数据集上实现单帧细分和完整视频细分的最新性能。
translated by 谷歌翻译
视频实例细分(VIS)是一项在视频中同时需要分类,细分和实例关联的任务。最近的VIS方法依靠复杂的管道来实现此目标,包括与ROI相关的操作或3D卷积。相比之下,我们通过添加额外的跟踪头提出了基于实例分割方法Condinst的简单有效的单阶段VIS框架。为了提高实例关联精度,提出了一种新型的双向时空对比度学习策略,用于跟踪跨帧的嵌入。此外,利用实例的时间一致性方案来产生时间连贯的结果。在YouTube-VIS-2019,YouTube-Vis-2021和OVIS-2021数据集上进行的实验验证了所提出方法的有效性和效率。我们希望所提出的框架可以作为许多其他实例级视频关联任务的简单而强大的替代方案。
translated by 谷歌翻译
引用图像分割是一种基本愿景 - 语言任务,旨在分割由图像中的自然语言表达式引用的对象。这项任务背后的一个关键挑战是利用引用表达式来突出显示图像中的相关位置。解决此问题的范例是利用强大的视觉语言(“跨模型”)解码器到从视觉编码器和语言编码器独立提取的保险丝特征。最近的方法通过利用变换器作为跨模型解码器,并将变换器在许多其他视觉语言任务中的压倒性成功的同时进行了显着的进步。在这项工作中采用不同的方法,我们表明,通过在视觉变压器编码器网络的中间层中的语言和视觉特征的早期融合,可以实现更好的跨模型对准。通过在视觉特征编码阶段进行跨模型特征融合,我们可以利用变压器编码器的良好相关建模功率,以便挖掘有用的多模态上下文。通过这种方式,用轻型掩模预测器容易地收获精确的分段结果。没有钟声和口哨,我们的方法超越了在Refcoco,Refcoco +和G-Ref上的先前最先进的方法。
translated by 谷歌翻译
多模式变压器表现出高容量和灵活性,可将图像和文本对齐以进行视觉接地。然而,由于自我发挥操作的二次时间复杂性,仅编码的接地框架(例如,transvg)遭受了沉重的计算。为了解决这个问题,我们通过将整个接地过程解散为编码和解码阶段,提出了一种新的多模式变压器体系结构,以动态MDETR形成。关键观察是,图像中存在很高的空间冗余。因此,我们通过在加快视觉接地过程之前利用这种稀疏性来设计一种新的动态多模式变压器解码器。具体而言,我们的动态解码器由2D自适应采样模块和文本引导的解码模块组成。采样模块旨在通过预测参考点的偏移来选择这些信息补丁,而解码模块则可以通过在图像功能和文本功能之间执行交叉注意来提取接地对象信息。这两个模块也被堆叠起来,以逐渐弥合模态间隙,并迭代地完善接地对象的参考点,最终实现了视觉接地的目的。对五个基准测试的广泛实验表明,我们提出的动态MDETR实现了计算和准确性之间的竞争权衡。值得注意的是,在解码器中仅使用9%的特征点,我们可以降低〜44%的多模式变压器的GLOP,但仍然比仅编码器的对应物更高的精度。此外,为了验证其概括能力并扩展我们的动态MDETR,我们构建了第一个单级剪辑授权的视觉接地框架,并在这些基准测试中实现最先进的性能。
translated by 谷歌翻译
我们考虑在与给定文本查询相对应的视频中定位时空管的问题。这是一项具有挑战性的任务,需要对时间,空间和多模式相互作用进行联合有效的建模。为了解决此任务,我们提出了TubedEtr,这是一种基于变压器的体系结构,灵感来自此类模型在文本条件条件的对象检测中的最新成功。我们的模型特别包括:(i)有效的视频和文本编码器,该视频和文本编码器对稀疏采样帧进行了空间多模式相互作用,以及(ii)共同执行时空定位的时空解码器。我们通过广泛的消融研究证明了我们提出的组件的优势。我们还在时空视频接地任务上评估了我们的完整方法,并在具有挑战性的VIDSTG和HC-STVG基准方面证明了对最新技术的改进。代码和训练有素的模型可在https://antoyang.github.io/tubedetr.html上公开获得。
translated by 谷歌翻译
我们基于以下假设,即明确面向对象的信息可能是理解整个序列的上下文,我们介绍了一个新的范式用于离线视频实例分割(VIS)。为此,我们提出了Vita,这是一个简单的结构,建立在基于现成的变压器的图像实例分割模型之上。具体而言,我们使用图像对象检测器作为将特定于对象的上下文提炼为对象令牌的一种手段。 Vita通过在不使用时空主链功能的情况下关联框架级对象令牌来完成视频级别的理解。通过使用凝结信息在对象之间有效建立关系,Vita用Resnet-50骨架在VIS基准上实现了最新的关系:49.8 AP,45.7 AP在YouTube-VIS 2019和2021和2021和19.6 AP上的AP上的Ovis上。此外,由于其基于对象令牌的结构与骨干功能脱节,Vita显示了以前的离线VIS方法未探索的几个实际优势 - 使用常见的GPU处理长长和高分辨率的视频,并冻结框架级检测器在图像域进行训练。代码将在https://github.com/sukjunhwang/vita上提供。
translated by 谷歌翻译
视觉接地是定位自然语言表达式指示的目标的任务。现有方法将通用对象检测框架扩展到此问题。它们将视觉接地基于预先生成的提案或锚点的特征,并将这些功能与文本嵌入融合,以找到文本提到的目标。但是,对这些预定义位置的视觉特征进行建模可能无法完全利用文本查询中的视觉上下文和属性信息,从而限制其性能。在本文中,我们提出了一个基于变压器的框架,以通过建立文本条件的判别特征和执行多阶段的跨模式推理来进行准确的视觉接地。具体而言,我们开发了一个视觉语言验证模块,以将视觉特征集中在与文本描述相关的区域上,同时抑制了无关区域。还设计了一种语言指导的特征编码器来汇总目标对象的视觉上下文,以提高对象的独特性。为了从编码的视觉特征中检索目标,我们进一步提出了一个多阶段的跨模式解码器,以迭代地推测图像和文本之间的相关性,以进行准确的目标定位。在五个广泛使用的数据集上进行的广泛实验验证了我们提出的组件的功效,并证明了最先进的性能。我们的代码在https://github.com/yangli18/vltvg上公开。
translated by 谷歌翻译