视频实例分割旨在预测每个帧的对象分割掩码,并关联多个帧的实例。最近的端到端视频实例分割方法能够在直接并行序列解码/预测框架中共同执行对象分割和实例关联。尽管这些方法通常可以预测较高质量的对象分割掩码,但它们可能无法在具有挑战性的情况下与实例相关联,因为它们没有明确对相邻帧的时间实例一致性进行建模。我们提出了一个一致的端到端视频实例分割框架,并在框架间反复注意,以建模相邻帧的时间实例一致性和全局时间上下文。我们的广泛实验表明,框架间的重复注意显着提高了时间实例的一致性,同时保持对象分割掩模的质量。我们的模型在YouTubevis-2019(62.1 \%)和YouTubevis-2021(54.7 \%)数据集上都达到了最新的精度。此外,定量和定性结果表明,所提出的方法可以预测更具时间一致的实例分割掩码。
translated by 谷歌翻译
在这项工作中,我们呈现SEQFormer,这是一个令人沮丧的视频实例分段模型。 SEQFormer遵循Vision变换器的原理,该方法模型视频帧之间的实例关系。然而,我们观察到一个独立的实例查询足以捕获视频中的时间序列,但应该独立地使用每个帧进行注意力机制。为此,SEQFormer在每个帧中定位一个实例,并聚合时间信息以学习视频级实例的强大表示,其用于动态地预测每个帧上的掩模序列。实例跟踪自然地实现而不进行跟踪分支或后处理。在YouTube-VIS数据集上,SEQFormer使用Reset-50个骨干和49.0 AP实现47.4个AP,其中Reset-101骨干,没有响铃和吹口哨。此类成果分别显着超过了以前的最先进的性能4.6和4.4。此外,与最近提出的Swin变压器集成,SEQFormer可以实现59.3的高得多。我们希望SEQFormer可能是一个强大的基线,促进了视频实例分段中的未来研究,同时使用更强大,准确,整洁的模型来实现该字段。代码和预先训练的型号在https://github.com/wjf5203/seqformer上公开使用。
translated by 谷歌翻译
视频实例分割(VIS)在视频序列中共同处理多对象检测,跟踪和分割。过去,VIS方法反映了这些子任务在其建筑设计中的碎片化,因此在关节溶液上错过了这些子任务。变形金刚最近允许将整个VIS任务作为单个设定预测问题进行。然而,现有基于变压器的方法的二次复杂性需要较长的训练时间,高内存需求和处理低音尺度特征地图的处理。可变形的注意力提供了更有效的替代方案,但尚未探索其对时间域或分段任务的应用。在这项工作中,我们提出了可变形的Vis(Devis),这是一种利用可变形变压器的效率和性能的VIS方法。为了在多个框架上共同考虑所有VIS子任务,我们使用实例感知对象查询表示时间尺度可变形。我们进一步介绍了带有多尺度功能的新图像和视频实例蒙版头,并通过多提示剪辑跟踪执行近乎对方的视频处理。 Devis减少了内存和训练时间要求,并在YouTube-Vis 2021以及具有挑战性的OVIS数据集上实现了最先进的结果。代码可在https://github.com/acaelles97/devis上找到。
translated by 谷歌翻译
speed among all existing VIS models, and achieves the best result among methods using single model on the YouTube-VIS dataset. For the first time, we demonstrate a much simpler and faster video instance segmentation framework built upon Transformers, achieving competitive accuracy. We hope that VisTR can motivate future research for more video understanding tasks.
translated by 谷歌翻译
参照视频对象分割(R-VOS)是一个新兴的跨通道任务,其目的是分割目标对象中的所有的视频帧称为一个语言表达式。在这项工作中,我们提出了一个简单并在变压器建成统一的框架,称为ReferFormer。它认为在语言查询,并直接参加到视频帧中的最相关的区域。具体而言,我们引入一个小套空调的语言作为输入Transformer对象的查询。通过这种方式,所有的查询有义务仅发现指的对象。他们最终都转化为动态的内核,其捕捉的关键对象级信息,并发挥卷积过滤器的作用,生成特征地图分割口罩。对象跟踪通过连接在帧之间相应的查询自然实现。这种机制极大地简化了管道和终端到终端的框架是从以前的方法不同显著。在REF-YouTube的VOS,REF-DAVIS17大量的实验,A2D-句子和JHMDB-句显示ReferFormer的有效性。上REF-YouTube的VOS,参见-前达到55.6J&F与RESNET-50主链而不花哨,这超过了8.4点之前的状态的最先进的性能。此外,与强斯文 - 大型骨干,ReferFormer实现了所有现有的方法中最好的J&62.4 F。歼&F度量可以通过采用一个简单的后处理技术来进一步升压到63.3。此外,我们分别显示55.0地图和43.7地图上A2D-句andJHMDB-句令人印象深刻的结果,这显著优于大幅度以前的方法。代码是公开的,在https://github.com/wjn922/ReferFormer。
translated by 谷歌翻译
我们提出了Minvis,这是一个最小的视频实例细分(VIS)框架,该框架既可以通过基于视频的体系结构也不是培训程序来实现最先进的VIS性能。通过仅培训基于查询的图像实例分割模型,MINVIS在具有挑战性的VIS数据集上优于先前的最佳结果,超过10%的AP。由于Minvis将培训视频中的框架视为独立图像,因此我们可以在培训视频中大量示例带有带有任何修改的培训视频框架。 MINVIS只有1%的标签框架优于表现,或与YouTube-VIS 2019/2021上的完全监督的最新方法相媲美。我们的主要观察结果是,受过训练以歧视框架内对象实例的查询在时间上是一致的,可以用于跟踪实例,而无需任何手动设计的启发式方法。因此,MINVIS具有以下推理管道:我们首先将基于查询的图像实例分割应用于视频帧。然后,通过相应查询的两部分匹配来跟踪分段的实例。此推论是以在线方式完成的,无需立即处理整个视频。因此,MINVI具有降低标签成本和记忆要求的实际优势,同时又不牺牲VIS性能。代码可在以下网址找到:https://github.com/nvlabs/minvis
translated by 谷歌翻译
我们基于以下假设,即明确面向对象的信息可能是理解整个序列的上下文,我们介绍了一个新的范式用于离线视频实例分割(VIS)。为此,我们提出了Vita,这是一个简单的结构,建立在基于现成的变压器的图像实例分割模型之上。具体而言,我们使用图像对象检测器作为将特定于对象的上下文提炼为对象令牌的一种手段。 Vita通过在不使用时空主链功能的情况下关联框架级对象令牌来完成视频级别的理解。通过使用凝结信息在对象之间有效建立关系,Vita用Resnet-50骨架在VIS基准上实现了最新的关系:49.8 AP,45.7 AP在YouTube-VIS 2019和2021和2021和19.6 AP上的AP上的Ovis上。此外,由于其基于对象令牌的结构与骨干功能脱节,Vita显示了以前的离线VIS方法未探索的几个实际优势 - 使用常见的GPU处理长长和高分辨率的视频,并冻结框架级检测器在图像域进行训练。代码将在https://github.com/sukjunhwang/vita上提供。
translated by 谷歌翻译
在统一框架中为检测和跟踪建模的时间信息已被证明是视频实例分割(VIS)的有希望的解决方案。但是,如何有效地将时间信息纳入在线模型仍然是一个空旷的问题。在这项工作中,我们提出了一个名为Inspeacity(IAI)的新的在线Vis范式,该范式以有效的方式对检测和跟踪进行建模。详细说明,IAI采用了一个新颖的识别模块来明确预测跟踪实例的标识号。为了传递时间信息跨框架,IAI使用了结合当前特征和过去嵌入的关联模块。值得注意的是,IAI可以与不同的图像模型集成。我们对三个VIS基准进行了广泛的实验。 IAI在YouTube-VIS-2019(Resnet-101 41.9地图)和YouTube-VIS-2021(Resnet-50 37.7地图)上胜过所有在线竞争对手。令人惊讶的是,在更具挑战性的OVI上,IAI实现了SOTA性能(20.3地图)。代码可从https://github.com/zfonemore/iai获得
translated by 谷歌翻译
近年来,视频实例细分(VIS)在很大程度上是通过离线模型提出的,而在线模型由于其性能较低而逐渐吸引了关注。但是,在线方法在处理长期视频序列和正在进行的视频中具有固有的优势,而由于计算资源的限制,离线模型失败了。因此,如果在线模型可以比离线模型获得可比甚至更好的性能,那将是非常可取的。通过解剖当前的在线模型和离线模型,我们证明了性能差距的主要原因是由特征空间中不同实例之间相似外观引起的框架之间存在错误的关联。观察到这一点,我们提出了一个基于对比度学习的在线框架,该框架能够学习更多的歧视实例嵌入,以进行关联,并充分利用历史信息以达到稳定性。尽管它很简单,但我们的方法在三个基准测试上都优于在线和离线方法。具体来说,我们在YouTube-VIS 2019上实现了49.5 AP,比先前的在线和离线艺术分别取得了13.2 AP和2.1 AP的显着改善。此外,我们在OVIS上实现了30.2 AP,这是一个更具挑战性的数据集,具有大量的拥挤和遮挡,超过了14.8 AP的先前艺术。提出的方法在第四次大规模视频对象分割挑战(CVPR2022)的视频实例细分轨道中赢得了第一名。我们希望我们方法的简单性和有效性以及对当前方法的见解,可以阐明VIS模型的探索。
translated by 谷歌翻译
In this paper we present a new computer vision task, named video instance segmentation. The goal of this new task is simultaneous detection, segmentation and tracking of instances in videos. In words, it is the first time that the image instance segmentation problem is extended to the video domain. To facilitate research on this new task, we propose a large-scale benchmark called YouTube-VIS, which consists of 2,883 high-resolution YouTube videos, a 40-category label set and 131k high-quality instance masks.In addition, we propose a novel algorithm called Mask-Track R-CNN for this task. Our new method introduces a new tracking branch to Mask R-CNN to jointly perform the detection, segmentation and tracking tasks simultaneously. Finally, we evaluate the proposed method and several strong baselines on our new dataset. Experimental results clearly demonstrate the advantages of the proposed algorithm and reveal insight for future improvement. We believe the video instance segmentation task will motivate the community along the line of research for video understanding.
translated by 谷歌翻译
尽管视频实例细分(VIS)已经取得了迅速的进步,但当前的方法难以预测具有准确边界细节的高质量面具。此外,预测的分割经常会随着时间的流逝而波动,表明时间一致性线索被忽略或不充分利用。在本文中,我们着手解决这些问题,目的是实现VIS的高度详细且更具时间稳定的面具预测。我们首先提出了视频蒙版转换方法(VMT)方法,得益于高效的视频变压器结构,能够利用细粒度的高分辨率功能。我们的VMT检测和组在视频段中每个曲目的稀疏易用错误时空区域稀疏,然后使用局部和实例级别的提示对其进行完善。其次,我们确定流行的YouTube-VIS数据集的粗边界注释构成了一个主要限制因素。因此,根据我们的VMT体系结构,我们通过迭代培训和自我纠正设计了一种自动注释细化方法。为了基准VIS的高质量掩码预测,我们介绍了HQ-YTVIS数据集,该数据集由手动重新注销的测试集和我们的自动完善培训数据组成。我们将VMT与HQ-YTVI的最新最新方法以及YouTube-VIS,OVIS和BDD100K MOTS基准进行了比较。实验结果清楚地证明了我们方法通过捕获精确的细节来分割复杂和动态对象的功效和有效性。
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
最近的基于变压器的离线视频实例细分(VIS)方法取得了令人鼓舞的结果,并明显胜过在线方法。但是,它们对整个视频的依赖以及由全时空的注意力引起的巨大计算复杂性限制了它们在现实生活中的应用中,例如处理冗长的视频。在本文中,我们提出了一个基于单级变压器的高效在线VIS框架,名为InstanceFormer,该框架特别适合长期挑战性的视频。我们提出了三个新的组件来建模短期和长期依赖性和时间连贯性。首先,我们传播了对短期更改建模的先前实例的表示形式,位置和语义信息。其次,我们在解码器中提出了一种新颖的记忆交叉注意,该记忆使网络可以在某个时间窗口内研究早期实例。最后,我们采用时间对比度损失,在所有框架的实例表示中施加连贯性。记忆注意力和时间连贯性特别有益于远程依赖建模,包括诸如遮挡等挑战的情况。所提出的实例形式优于以前的在线基准方法在多个数据集上的较大边距。最重要的是,InstanceFormer超过了挑战和长数据集(例如YouTube-Vis-2021和OVIS)的离线方法。代码可从https://github.com/rajatkoner08/instanceformer获得。
translated by 谷歌翻译
引用的视频对象分割任务(RVOS)涉及在给定视频的帧中分割文本引用的对象实例。由于这种多模式任务的复杂性,它结合了文本推理,视频理解,实例分割和跟踪,现有方法通常依赖于复杂的流水线以解决它。在本文中,我们提出了一种简单的基于变压器的RVO方法。我们的框架称为多模式跟踪变压器(MTTR),将RVOS任务模拟作为序列预测问题。在计算机视觉和自然语言处理的最新进步之后,MTTR基于实现视频和文本可以通过单个多峰变压器模型有效地处理视频和文本。 MTTR是端到端的培训,没有文本相关的电感偏置组件,不需要额外的面具细化后处理步骤。因此,与现有方法相比,它显着简化了RVOS管道。标准基准的评估表明,MTTR在多个度量标准中显着优于前面的艺术。特别是,MTTR分别显示A2D句子和JHMDB句子数据集的令人印象深刻的+5.7和+ 5.0映射增长,同时处理每秒76帧。此外,我们在公开验证集的推荐集上报告了强劲的结果,这是一个更具挑战性的RVOS数据集,该数据集尚未得到研究人员的注意。重现我们的实验的代码可在https://github.com/mttr2021/mttr中获得
translated by 谷歌翻译
对于在线视频实例分段(VI),以有效的方式充分利用来自先前帧的信息对于实时应用是必不可少的。最先前的方法遵循一个两级方法,需要额外的计算,例如RPN和Roialign,并且在VI中的所有子任务中没有完全利用视频中的可用信息。在本文中,我们提出了一种基于网格结构特征表示构建的在线VI的新颖单级框架。基于网格的功能允许我们使用完全卷积的网络进行实时处理,并且还可以轻松地重用和共享不同组件内的功能。我们还介绍了从可用帧中聚合信息的协同操作模块,以便丰富VI中所有子任务的功能。我们的设计充分利用了以高效的方式为所有任务的网格形式提供了以前的信息,我们在YouTube上实现了新的最先进的准确性(38.6 AP和36.9 AP)和速度(40.0fps) - 2019年和2021年在线VIS方法之间的数据集。
translated by 谷歌翻译
视频实例细分(VIS)是一项在视频中同时需要分类,细分和实例关联的任务。最近的VIS方法依靠复杂的管道来实现此目标,包括与ROI相关的操作或3D卷积。相比之下,我们通过添加额外的跟踪头提出了基于实例分割方法Condinst的简单有效的单阶段VIS框架。为了提高实例关联精度,提出了一种新型的双向时空对比度学习策略,用于跟踪跨帧的嵌入。此外,利用实例的时间一致性方案来产生时间连贯的结果。在YouTube-VIS-2019,YouTube-Vis-2021和OVIS-2021数据集上进行的实验验证了所提出方法的有效性和效率。我们希望所提出的框架可以作为许多其他实例级视频关联任务的简单而强大的替代方案。
translated by 谷歌翻译
Panoptic semonation涉及联合语义分割和实例分割的组合,其中图像内容分为两种类型:事物和东西。我们展示了Panoptic SegFormer,是与变压器的Panoptic Semonation的一般框架。它包含三个创新组件:高效的深度监督掩模解码器,查询解耦策略以及改进的后处理方法。我们还使用可变形的DETR来有效地处理多尺度功能,这是一种快速高效的DETR版本。具体而言,我们以层式方式监督掩模解码器中的注意模块。这种深度监督策略让注意模块快速关注有意义的语义区域。与可变形的DETR相比,它可以提高性能并将所需培训纪元的数量减少一半。我们的查询解耦策略对查询集的职责解耦并避免了事物和东西之间的相互干扰。此外,我们的后处理策略通过联合考虑分类和分割质量来解决突出的面具重叠而没有额外成本的情况。我们的方法会在基线DETR模型上增加6.2 \%PQ。 Panoptic SegFormer通过56.2 \%PQ实现最先进的结果。它还显示出对现有方法的更强大的零射鲁布利。代码释放\ url {https://github.com/zhiqi-li/panoptic-segformer}。
translated by 谷歌翻译
多个对象跟踪和分段需要检测,跟踪和分割属于一组给定类的对象。大多数方法仅利用时间维度来解决关联问题,同时依赖于分段掩码本身的单帧预测。我们提出了原型的横向网络(PCAN),能够利用在线多个对象跟踪和分段的丰富的时空信息。 PCAN首先将时空内存蒸馏成一组原型,然后用横向从过去的框架中检索丰富的信息。要分段每个对象,PCAN采用原型外观模块来学习一组对比的前景和背景原型,然后随着时间的推移传播。广泛的实验表明,PCAN优于YouTube-VIS和BDD100K数据集的当前视频实例跟踪和分段竞争获奖者,并为单阶段和两级分割框架表示有效性。代码和视频资源有关http://vis.xyz/pub/pcan可用。
translated by 谷歌翻译
视频效果旨在通过给定的输入视频序列预测每个帧的α哑光。在过去的几年中,深度卷积神经网络(CNN)的最新解决方案一直由深度卷积神经网络(CNN)主导,这已成为学术界和工业的事实上的标准。但是,它们具有内置的局部归纳性偏见,并且由于基于CNN的架构而不会捕获图像的全局特征。在处理多个帧的特征图时,考虑到计算成本,他们还缺乏远程时间建模。在本文中,我们提出了VMFormer:一种基于变压器的端对端方法,用于视频垫子。它可以通过视频输入序列从可学习的查询中对每个帧的α哑光进行预测。具体而言,它利用自我发挥的层来建立特征序列的全局集成,并在连续帧上使用短距离的时间建模。我们进一步应用查询来通过在所有查询上使用远程时间建模的变压器解码器中的交叉注意来学习全局表示形式。在预测阶段,查询和相应的特征图均用于对Alpha Matte的最终预测。实验表明,VMFormer在合成基准测试上的表现优于先前基于CNN的视频效果方法。据我们所知,这是第一个基于完整视觉变压器建立的端到端视频底漆解决方案,并对可学习的查询进行预测。该项目在https://chrisjuniorli.github.io/project/project/vmformer/上开源
translated by 谷歌翻译
视频实例细分(VIS)旨在在视频序列中对对象实例进行分类,分割和跟踪。最近基于变压器的神经网络证明了它们为VIS任务建模时空相关性的强大能力。依靠视频或剪辑级输入,它们的潜伏期和计算成本很高。我们提出了一个强大的上下文融合网络来以在线方式解决VIS,该网络可以预测实例通过前几个框架进行逐帧的细分框架。为了有效地获取每个帧的精确和时间一致的预测,关键思想是将有效和紧凑的上下文从参考框架融合到目标框架中。考虑到参考和目标框架对目标预测的不同影响,我们首先通过重要性感知的压缩总结上下文特征。采用变压器编码器来融合压缩上下文。然后,我们利用嵌入订单的实例来传达身份感知信息,并将身份与预测的实例掩码相对应。我们证明,我们强大的融合网络在现有的在线VIS方法中取得了最佳性能,并且比以前在YouTube-VIS 2019和2021基准上发布的剪辑级方法更好。此外,视觉对象通常具有声学签名,这些签名自然与它们在录音录像中自然同步。通过利用我们的上下文融合网络在多模式数据上的灵活性,我们进一步研究了音频对视频密集预测任务的影响,这在现有作品中从未讨论过。我们建立了一个视听实例分割数据集,并证明野外场景中的声学信号可以使VIS任务受益。
translated by 谷歌翻译