当前的半监督视频对象分割(VOS)方法通常利用一个框架的整个功能来预测对象掩码和更新内存。这引入了重要的冗余计算。为了减少冗余,我们提出了一种区域意识到的视频对象细分(RAVOS)方法,该方法可预测感兴趣的区域(ROI),以进行有效的对象细分和内存存储。 Ravos包括一个快速对象运动跟踪器,可以在下一个帧中预测其ROI。为了有效的分割,根据ROI提取对象特征,并且对象解码器设计用于对象级分割。为了有效的内存存储,我们建议运动路径内存来通过记住两个帧之间对象的运动路径中的特征来滤除冗余上下文。除了Ravos,我们还提出了一个称为OVO的大型数据集,以基准在遮挡下基准VOS模型的性能。对戴维斯和YouTube-VOS基准和我们的新OVOS数据集的评估表明,我们的方法以更快的推理时间来实现最先进的性能,例如,戴维斯的42 fps的86.1 J&F在YouTube-in YouTube-in YouTube-in YouTube-in YouTube-23 fps上达到42 fps- VOS。
translated by 谷歌翻译
最近,基于内存的方法显示了半监督视频对象分割的有希望的结果。这些方法可以通过对先前掩码的经常更新的内存来预测对象蒙版逐帧。与这种人均推断不同,我们通过将视频对象分割视为夹子掩盖传播来研究替代角度。在此每次CLIP推断方案中,我们使用一个间隔更新内存,并同时处理内存更新之间的一组连续帧(即剪辑)。该方案提供了两个潜在的好处:通过剪辑级优化和效率增益的准确性增益,通过平行计算多个帧。为此,我们提出了一种针对人均推理量身定制的新方法。具体而言,我们首先引入夹具操作,以根据CLIP相关性来完善特征。此外,我们采用了一种渐进匹配机制来在剪辑中有效地通过信息通行。通过两个模块的协同作用和新提议的每盘培训,我们的网络在YouTube-Vos 2018/2019 Val(84.6%和84.6%)和Davis 2016/2017 Val(91.9 Val(91.9 %和86.1%)。此外,我们的模型在不同的内存更新间隔内显示出巨大的速度准确性权衡取舍,从而带来了巨大的灵活性。
translated by 谷歌翻译
半监督视频对象分割(VOS)的任务已经大大提升,最先进的性能是通过密集的基于匹配的方法进行的。最近的方法利用时空存储器(STM)网络并学习从所有可用源检索相关信息,其中使用对象掩模的过去帧形成外部存储器,并且使用存储器中的掩码信息分段为查询作为查询的当前帧进行分割。然而,当形成存储器并执行匹配时,这些方法仅在忽略运动信息的同时利用外观信息。在本文中,我们倡导\ emph {motion信息}的返回,并提出了一个用于半监督VOS的运动不确定性感知框架(MUMET)。首先,我们提出了一种隐含的方法来学习相邻帧之间的空间对应,构建相关成本卷。在构建密集的对应期间处理遮挡和纹理区域的挑战性案例,我们将不确定性纳入密集匹配并实现运动不确定性感知特征表示。其次,我们介绍了运动感知的空间注意模块,以有效地融合了语义特征的运动功能。关于具有挑战性的基准的综合实验表明,\ TextBF {\ Textit {使用少量数据并将其与强大的动作信息组合可以带来显着的性能Boost}}。我们只使用Davis17达到$ \ Mathcal {} $培训{76.5 \%} $ \ mathcal {f} $培训,这显着优于低数据协议下的\ texit {sota}方法。 \ textit {代码将被释放。}
translated by 谷歌翻译
We propose a novel solution for semi-supervised video object segmentation. By the nature of the problem, available cues (e.g. video frame(s) with object masks) become richer with the intermediate predictions. However, the existing methods are unable to fully exploit this rich source of information. We resolve the issue by leveraging memory networks and learn to read relevant information from all available sources. In our framework, the past frames with object masks form an external memory, and the current frame as the query is segmented using the mask information in the memory. Specifically, the query and the memory are densely matched in the feature space, covering all the space-time pixel locations in a feed-forward fashion. Contrast to the previous approaches, the abundant use of the guidance information allows us to better handle the challenges such as appearance changes and occlussions. We validate our method on the latest benchmark sets and achieved the state-of-the-art performance (overall score of 79.4 on Youtube-VOS val set,
translated by 谷歌翻译
半监督视频对象细分(VOS)旨在密集跟踪视频中的某些指定对象。该任务中的主要挑战之一是存在与目标对象相似的背景干扰物的存在。我们提出了三种抑制此类干扰因素的新型策略:1)一种时空多元化的模板构建方案,以获得目标对象的广义特性; 2)可学习的距离得分函数,可通过利用两个连续帧之间的时间一致性来排除空间距离的干扰因素; 3)交换和连接的扩展通过提供包含纠缠对象的训练样本来迫使每个对象具有独特的功能。在所有公共基准数据集中,即使是实时性能,我们的模型也与当代最先进的方法相当。定性结果还证明了我们的方法优于现有方法。我们认为,我们的方法将被广泛用于未来的VOS研究。
translated by 谷歌翻译
半监控视频对象分割(VOS)是指在近年来在第一帧中的注释中分割剩余帧中的目标对象,该帧近年来已经积极研究。关键挑战在于找到利用过去框架的时空上下文的有效方法来帮助学习当前帧的判别目标表示。在本文中,我们提出了一种具有专门设计的交互式变压器的新型暹罗网络,称为SITVOS,以实现从历史到当前帧的有效上下文传播。从技术上讲,我们使用变换器编码器和解码器单独处理过去的帧和当前帧,即,编码器从过去的帧中对目标对象的强大的时空上下文进行编码,而解码器将当前帧的特征嵌入为查询。从编码器输出检索目标。为了进一步增强目标表示,设计了一种特征交互模块(FIM)以促进编码器和解码器之间的信息流。此外,我们使用暹罗架构来提取过去和当前帧的骨干功能,它能够重用并且比现有方法更有效。三个挑战基准测试的实验结果验证了SITVOS在最先进的方法上的优越性。
translated by 谷歌翻译
最近,几种基于空间内存的方法已经验证了将中间框架及其面具作为内存有助于将视频中的目标对象细分目标对象。但是,它们主要集中于当前帧和内存框架之间的更好匹配,而无需明确关注内存质量。因此,较差的分割面罩的框架容易被记住,这导致了分割掩盖误差问题并进一步影响分割性能。此外,随着帧数的增长,内存框架的线性增加还限制了模型处理长视频的能力。为此,我们提出了一个质量感知的动态内存网络(QDMN)来评估每个帧的分割质量,从而使内存库可以选择性地存储准确的分段框架,以防止误差积累问题。然后,我们将细分质量与时间一致性相结合,以动态更新内存库以提高模型的实用性。我们的QDMN没有任何铃铛和哨子,在戴维斯和YouTube-Vos基准测试中都取得了新的最新性能。此外,广泛的实验表明,提议的质量评估模块(QAM)可以作为通用插件应用于基于内存的方法,并显着提高性能。我们的源代码可在https://github.com/workforai/qdmn上找到。
translated by 谷歌翻译
在统一框架中为检测和跟踪建模的时间信息已被证明是视频实例分割(VIS)的有希望的解决方案。但是,如何有效地将时间信息纳入在线模型仍然是一个空旷的问题。在这项工作中,我们提出了一个名为Inspeacity(IAI)的新的在线Vis范式,该范式以有效的方式对检测和跟踪进行建模。详细说明,IAI采用了一个新颖的识别模块来明确预测跟踪实例的标识号。为了传递时间信息跨框架,IAI使用了结合当前特征和过去嵌入的关联模块。值得注意的是,IAI可以与不同的图像模型集成。我们对三个VIS基准进行了广泛的实验。 IAI在YouTube-VIS-2019(Resnet-101 41.9地图)和YouTube-VIS-2021(Resnet-50 37.7地图)上胜过所有在线竞争对手。令人惊讶的是,在更具挑战性的OVI上,IAI实现了SOTA性能(20.3地图)。代码可从https://github.com/zfonemore/iai获得
translated by 谷歌翻译
半监控视频对象分段(VOS)旨在在视频序列中分段一些移动对象,其中通过注释第一帧来指定这些对象。已经考虑了许多现有的半监督VOS方法以提高分割精度的光学流程。然而,由于光学流量估计的高复杂性,光流基的半监控VOS方法不能实时运行。在该研究中提出了由特征提取网络(F),外观网络(A),运动网络(A)和集成网络(I)组成的FAMINET,以解决上述问题。外观网络基于对象的静态外观输出初始分割结果。运动网络通过很少的参数估计光学流量,这些参数通过在线记忆算法快速优化,该算法被称为松弛最陡血迹。集成网络使用光流来改进初始分割结果。广泛的实验表明,FAMINET在DAVIS和YOUTUBE-VOS基准上表现出其他最先进的半监督VOS方法,并且它在准确性和效率之间实现了良好的权衡。我们的代码可在https://github.com/liuziyang123/faminet获得。
translated by 谷歌翻译
视频分割,即将视频帧分组到多个段或对象中,在广泛的实际应用中扮演关键作用,例如电影中的视觉效果辅助,自主驾驶中的现场理解,以及视频会议中的虚拟背景创建,名称一些。最近,由于计算机愿景中的联系复兴,一直存在众多深度学习的方法,这一直专用于视频分割并提供引人注目的性能。在这项调查中,通过引入各自的任务设置,背景概念,感知需要,开发历史,以及开发历史,综合审查这一领域的两种基本研究,即在视频和视频语义分割中,即视频和视频语义分割中的通用对象分段(未知类别)。主要挑战。我们还提供关于两种方法和数据集的代表文学的详细概述。此外,我们在基准数据集中呈现了审查方法的定量性能比较。最后,我们指出了这一领域的一套未解决的开放问题,并提出了进一步研究的可能机会。
translated by 谷歌翻译
本文研究了如何实现更好,更有效的学习学习,以解决在有挑战性的多对象方案下应对半监督视频对象细分。最先进的方法学会用单个正对象解码特征,因此必须在多对象方案下分别匹配和分割每个目标,从而多次消耗计算资源。为了解决问题,我们提出了一个与变压器(AOT)方法的关联对象,以共同且协作匹配和解码多个对象。详细说明,AOT采用识别机制将多个目标关联到相同的高维嵌入空间中。因此,我们可以同时处理多个对象的匹配和分割解码,就像处理单个对象一样有效地解码。为了充分模型多对象关联,设计了长期的短期变压器(LSTT)来构建层次匹配和传播。基于AOT,我们进一步提出了一个更灵活,更健壮的框架,将对象与可扩展的变压器(AOST)相关联,其中LSTT的可扩展版本旨在实现准确性效率折衷的运行时间适应。此外,AOST引入了更好的层次方式,以使识别和视力嵌入。我们对多对象和单对象基准进行了广泛的实验,以检查AOT系列框架。与最先进的竞争对手相比,我们的方法可以保持运行时效率的时间和卓越的性能。值得注意的是,我们在三个受欢迎的基准测试(即YouTube-VOS(86.5%),Davis 2017 Val/Test/Test(87.0%/84.7%)和Davis 2016(93.0%)(93.0%)上,我们实现了新的最先进性能。项目页面:https://github.com/z-x-yang/aot。
translated by 谷歌翻译
视频对象细分(VOS)是视频理解的基础。基于变压器的方法在半监督VOS上显示出显着的性能改善。但是,现有的工作面临着挑战在彼此近距离接近视觉上类似对象的挑战。在本文中,我们提出了一种新型的双边注意力变压器,以进行半监督VO的运动出现空间(蝙蝠侠)。它通过新型的光流校准模块在视频中捕获对象运动,该模块将分割面膜与光流估计融合在一起,以改善对象内光流平滑度并减少物体边界处的噪声。然后在我们的新型双边注意力中采用了这种校准的光流,该流动流在相邻双边空间中的查询和参考帧之间的对应关系考虑,考虑到运动和外观。广泛的实验通过在所有四个流行的VOS基准上胜过所有现有最新的实验:YouTube-VOS 2019(85.0%),YouTube-VOS 2018(85.3%),Davis 2017VAL/TESTDEV(86.2.2 %/82.2%)和戴维斯(Davis)2016(92.5%)。
translated by 谷歌翻译
在本文中,我们介绍了Siammask,这是一个实时使用相同简单方法实时执行视觉对象跟踪和视频对象分割的框架。我们通过通过二进制细分任务来增强其损失,从而改善了流行的全面暹罗方法的离线培训程序。离线训练完成后,SiamMask只需要一个单个边界框来初始化,并且可以同时在高框架速率下进行视觉对象跟踪和分割。此外,我们表明可以通过简单地以级联的方式重新使用多任务模型来扩展框架以处理多个对象跟踪和细分。实验结果表明,我们的方法具有较高的处理效率,每秒约55帧。它可以在视觉对象跟踪基准测试中产生实时最新结果,同时以高速进行视频对象分割基准测试以高速显示竞争性能。
translated by 谷歌翻译
最近,基于模板的跟踪器已成为领先的跟踪算法,在效率和准确性方面具有希望的性能。然而,查询特征与给定模板之间的相关操作仅利用准确的目标本地化,导致状态估计误差,特别是当目标遭受严重可变形变化时。为了解决这个问题,已经提出了基于分段的跟踪器,以便使用每像素匹配来有效地提高可变形物体的跟踪性能。然而,大多数现有跟踪器仅指初始帧中的目标特征,从而缺乏处理具有挑战性因素的辨别能力,例如,类似的分心,背景杂乱,外观变化等。在此目的,我们提出了一种动态的紧凑型存储器嵌入以增强基于分段的可变形视觉跟踪方法的辨别。具体而言,我们初始化与第一帧中的目标功能嵌入的内存嵌入。在跟踪过程中,与现有内存具有高相关的当前目标特征被更新为在线嵌入的内存。为了进一步提高可变形对象的分割精度,我们采用了点对集的匹配策略来测量像素 - 方向查询特征和整个模板之间的相关性,以捕获更详细的变形信息。关于六个具有挑战性的跟踪基准的广泛评估,包括VOT2016,VOT2018,VOT2019,GOT-10K,TrackingNet和莱斯特展示了我们对近期近似追踪者的方法的优势。此外,我们的方法优于基于出色的基于分段的跟踪器,即DVIS2017基准测试。
translated by 谷歌翻译
In this paper we present a new computer vision task, named video instance segmentation. The goal of this new task is simultaneous detection, segmentation and tracking of instances in videos. In words, it is the first time that the image instance segmentation problem is extended to the video domain. To facilitate research on this new task, we propose a large-scale benchmark called YouTube-VIS, which consists of 2,883 high-resolution YouTube videos, a 40-category label set and 131k high-quality instance masks.In addition, we propose a novel algorithm called Mask-Track R-CNN for this task. Our new method introduces a new tracking branch to Mask R-CNN to jointly perform the detection, segmentation and tracking tasks simultaneously. Finally, we evaluate the proposed method and several strong baselines on our new dataset. Experimental results clearly demonstrate the advantages of the proposed algorithm and reveal insight for future improvement. We believe the video instance segmentation task will motivate the community along the line of research for video understanding.
translated by 谷歌翻译
基于匹配的方法,尤其是基于时空记忆的方法,在半监督视频对象分割(VOS)中明显领先于其他解决方案。但是,不断增长和冗余的模板特征导致推断效率低下。为了减轻这一点,我们提出了一个新型的顺序加权期望最大化(SWEM)网络,以大大降低记忆特征的冗余。与以前仅检测帧之间特征冗余的方法不同,Swem通过利用顺序加权EM算法来合并框架内和框架间的相似特征。此外,框架特征的自适应权重具有代表硬样品的灵活性,从而改善了模板的歧视。此外,该提出的方法在内存中保留了固定数量的模板特征,从而确保了VOS系统的稳定推理复杂性。对常用的戴维斯和YouTube-VOS数据集进行了广泛的实验,验证了SWEM的高效率(36 fps)和高性能(84.3 \%$ \ Mathcal {J} \&\ Mathcal {F} $代码可在以下网址获得:https://github.com/lmm077/swem。
translated by 谷歌翻译
我们的视频是否可以在场景中存在沉重的遮挡时感知对象?为了回答这个问题,我们收集一个名为OVIS的大型数据集,用于遮挡视频实例分段,即同时检测,段和跟踪遮挡场景中的实例。 OVIS由25个语义类别的296K高质量的掩码组成,通常发生对象遮挡。虽然我们的人类视觉系统可以通过语境推理和关联来理解那些被遮挡的情况,但我们的实验表明当前的视频理解系统不能。在ovis数据集上,最先进的算法实现的最高AP仅为16.3,这揭示了我们仍然处于创建对象,实例和视频中的新生阶段。我们还提出了一个简单的即插即用模块,执行时间特征校准,以补充闭塞引起的缺失对象线索。基于MaskTrack R-CNN和SIPMASK构建,我们在OVIS数据集中获得了显着的AP改进。 ovis数据集和项目代码可在http://songbai.site/ovis获得。
translated by 谷歌翻译
无监督的视频对象分割(VOS)旨在在像素级别的视频序列中检测最显着的对象。在无监督的VO中,大多数最先进的方法除了外观提示外,还利用从光流图获得的运动提示来利用与背景相比,显着物体通常具有独特运动的属性。但是,由于它们过于依赖运动提示,在某些情况下可能是不可靠的,因此它们无法实现稳定的预测。为了减少现有两流VOS方法的这种运动依赖性,我们提出了一个新型的运动 - 选项网络,该网络可选地利用运动提示。此外,为了充分利用并非总是需要运动网络的属性,我们引入了协作网络学习策略。在所有公共基准数据集中,我们提出的网络以实时推理速度提供最先进的性能。
translated by 谷歌翻译
在这项工作中,我们呈现SEQFormer,这是一个令人沮丧的视频实例分段模型。 SEQFormer遵循Vision变换器的原理,该方法模型视频帧之间的实例关系。然而,我们观察到一个独立的实例查询足以捕获视频中的时间序列,但应该独立地使用每个帧进行注意力机制。为此,SEQFormer在每个帧中定位一个实例,并聚合时间信息以学习视频级实例的强大表示,其用于动态地预测每个帧上的掩模序列。实例跟踪自然地实现而不进行跟踪分支或后处理。在YouTube-VIS数据集上,SEQFormer使用Reset-50个骨干和49.0 AP实现47.4个AP,其中Reset-101骨干,没有响铃和吹口哨。此类成果分别显着超过了以前的最先进的性能4.6和4.4。此外,与最近提出的Swin变压器集成,SEQFormer可以实现59.3的高得多。我们希望SEQFormer可能是一个强大的基线,促进了视频实例分段中的未来研究,同时使用更强大,准确,整洁的模型来实现该字段。代码和预先训练的型号在https://github.com/wjf5203/seqformer上公开使用。
translated by 谷歌翻译
Instance segmentation in videos, which aims to segment and track multiple objects in video frames, has garnered a flurry of research attention in recent years. In this paper, we present a novel weakly supervised framework with \textbf{S}patio-\textbf{T}emporal \textbf{C}ollaboration for instance \textbf{Seg}mentation in videos, namely \textbf{STC-Seg}. Concretely, STC-Seg demonstrates four contributions. First, we leverage the complementary representations from unsupervised depth estimation and optical flow to produce effective pseudo-labels for training deep networks and predicting high-quality instance masks. Second, to enhance the mask generation, we devise a puzzle loss, which enables end-to-end training using box-level annotations. Third, our tracking module jointly utilizes bounding-box diagonal points with spatio-temporal discrepancy to model movements, which largely improves the robustness to different object appearances. Finally, our framework is flexible and enables image-level instance segmentation methods to operate the video-level task. We conduct an extensive set of experiments on the KITTI MOTS and YT-VIS datasets. Experimental results demonstrate that our method achieves strong performance and even outperforms fully supervised TrackR-CNN and MaskTrack R-CNN. We believe that STC-Seg can be a valuable addition to the community, as it reflects the tip of an iceberg about the innovative opportunities in the weakly supervised paradigm for instance segmentation in videos.
translated by 谷歌翻译