Many of the recent successful methods for video object segmentation (VOS) are overly complicated, heavily rely on fine-tuning on the first frame, and/or are slow, and are hence of limited practical use. In this work, we propose FEELVOS as a simple and fast method which does not rely on fine-tuning. In order to segment a video, for each frame FEELVOS uses a semantic pixel-wise embedding together with a global and a local matching mechanism to transfer information from the first frame and from the previous frame of the video to the current frame. In contrast to previous work, our embedding is only used as an internal guidance of a convolutional network. Our novel dynamic segmentation head allows us to train the network, including the embedding, end-to-end for the multiple object segmentation task with a cross entropy loss. We achieve a new state of the art in video object segmentation without fine-tuning with a J &F measure of 71.5% on the DAVIS 2017 validation set. We make our code and models available at https://github.com/tensorflow/ models/tree/master/research/feelvos.
translated by 谷歌翻译
We propose a novel solution for semi-supervised video object segmentation. By the nature of the problem, available cues (e.g. video frame(s) with object masks) become richer with the intermediate predictions. However, the existing methods are unable to fully exploit this rich source of information. We resolve the issue by leveraging memory networks and learn to read relevant information from all available sources. In our framework, the past frames with object masks form an external memory, and the current frame as the query is segmented using the mask information in the memory. Specifically, the query and the memory are densely matched in the feature space, covering all the space-time pixel locations in a feed-forward fashion. Contrast to the previous approaches, the abundant use of the guidance information allows us to better handle the challenges such as appearance changes and occlussions. We validate our method on the latest benchmark sets and achieved the state-of-the-art performance (overall score of 79.4 on Youtube-VOS val set,
translated by 谷歌翻译
In this paper we illustrate how to perform both visual object tracking and semi-supervised video object segmentation, in real-time, with a single simple approach. Our method, dubbed SiamMask, improves the offline training procedure of popular fully-convolutional Siamese approaches for object tracking by augmenting their loss with a binary segmentation task. Once trained, SiamMask solely relies on a single bounding box initialisation and operates online, producing class-agnostic object segmentation masks and rotated bounding boxes at 55 frames per second. Despite its simplicity, versatility and fast speed, our strategy allows us to establish a new state of the art among real-time trackers on VOT-2018, while at the same time demonstrating competitive performance and the best speed for the semisupervised video object segmentation task on DAVIS-2016 and DAVIS-2017. The project website is http://www. robots.ox.ac.uk/ ˜qwang/SiamMask.
translated by 谷歌翻译
本文研究了如何实现更好,更有效的学习学习,以解决在有挑战性的多对象方案下应对半监督视频对象细分。最先进的方法学会用单个正对象解码特征,因此必须在多对象方案下分别匹配和分割每个目标,从而多次消耗计算资源。为了解决问题,我们提出了一个与变压器(AOT)方法的关联对象,以共同且协作匹配和解码多个对象。详细说明,AOT采用识别机制将多个目标关联到相同的高维嵌入空间中。因此,我们可以同时处理多个对象的匹配和分割解码,就像处理单个对象一样有效地解码。为了充分模型多对象关联,设计了长期的短期变压器(LSTT)来构建层次匹配和传播。基于AOT,我们进一步提出了一个更灵活,更健壮的框架,将对象与可扩展的变压器(AOST)相关联,其中LSTT的可扩展版本旨在实现准确性效率折衷的运行时间适应。此外,AOST引入了更好的层次方式,以使识别和视力嵌入。我们对多对象和单对象基准进行了广泛的实验,以检查AOT系列框架。与最先进的竞争对手相比,我们的方法可以保持运行时效率的时间和卓越的性能。值得注意的是,我们在三个受欢迎的基准测试(即YouTube-VOS(86.5%),Davis 2017 Val/Test/Test(87.0%/84.7%)和Davis 2016(93.0%)(93.0%)上,我们实现了新的最先进性能。项目页面:https://github.com/z-x-yang/aot。
translated by 谷歌翻译
在本文中,我们介绍了Siammask,这是一个实时使用相同简单方法实时执行视觉对象跟踪和视频对象分割的框架。我们通过通过二进制细分任务来增强其损失,从而改善了流行的全面暹罗方法的离线培训程序。离线训练完成后,SiamMask只需要一个单个边界框来初始化,并且可以同时在高框架速率下进行视觉对象跟踪和分割。此外,我们表明可以通过简单地以级联的方式重新使用多任务模型来扩展框架以处理多个对象跟踪和细分。实验结果表明,我们的方法具有较高的处理效率,每秒约55帧。它可以在视觉对象跟踪基准测试中产生实时最新结果,同时以高速进行视频对象分割基准测试以高速显示竞争性能。
translated by 谷歌翻译
半监督视频对象细分(VOS)旨在密集跟踪视频中的某些指定对象。该任务中的主要挑战之一是存在与目标对象相似的背景干扰物的存在。我们提出了三种抑制此类干扰因素的新型策略:1)一种时空多元化的模板构建方案,以获得目标对象的广义特性; 2)可学习的距离得分函数,可通过利用两个连续帧之间的时间一致性来排除空间距离的干扰因素; 3)交换和连接的扩展通过提供包含纠缠对象的训练样本来迫使每个对象具有独特的功能。在所有公共基准数据集中,即使是实时性能,我们的模型也与当代最先进的方法相当。定性结果还证明了我们的方法优于现有方法。我们认为,我们的方法将被广泛用于未来的VOS研究。
translated by 谷歌翻译
用于视频对象分割(VOS)的现有最先进方法(VOS)学习帧之间的低级像素到像素对应关系,以在视频中传播对象掩码。这需要大量的密集注释的视频数据,这是昂贵的注释,并且由于视频内的帧是高度相关的,因此由于视频内的帧具有很大冗余。鉴于此,我们提出了HODOR:一种新的方法,通过有效地利用被帮助的静态图像来理解对象外观和场景上下文来解决VOS的新方法。我们将来自图像帧的对象实例和场景信息编码为强大的高级描述符,然后可以用于重新划分不同帧中的这些对象。因此,与没有视频注释培训的现有方法相比,HODOR在DAVIS和YOUTUBE-VOS基准上实现了最先进的性能。如果没有任何架构修改,HODOR也可以通过利用循环一致性围绕单个注释的视频帧周围的视频上下文学习,而其他方法依赖于密集,则时间上一致的注释。
translated by 谷歌翻译
半监督视频对象分割(VOS)的任务已经大大提升,最先进的性能是通过密集的基于匹配的方法进行的。最近的方法利用时空存储器(STM)网络并学习从所有可用源检索相关信息,其中使用对象掩模的过去帧形成外部存储器,并且使用存储器中的掩码信息分段为查询作为查询的当前帧进行分割。然而,当形成存储器并执行匹配时,这些方法仅在忽略运动信息的同时利用外观信息。在本文中,我们倡导\ emph {motion信息}的返回,并提出了一个用于半监督VOS的运动不确定性感知框架(MUMET)。首先,我们提出了一种隐含的方法来学习相邻帧之间的空间对应,构建相关成本卷。在构建密集的对应期间处理遮挡和纹理区域的挑战性案例,我们将不确定性纳入密集匹配并实现运动不确定性感知特征表示。其次,我们介绍了运动感知的空间注意模块,以有效地融合了语义特征的运动功能。关于具有挑战性的基准的综合实验表明,\ TextBF {\ Textit {使用少量数据并将其与强大的动作信息组合可以带来显着的性能Boost}}。我们只使用Davis17达到$ \ Mathcal {} $培训{76.5 \%} $ \ mathcal {f} $培训,这显着优于低数据协议下的\ texit {sota}方法。 \ textit {代码将被释放。}
translated by 谷歌翻译
视频分割,即将视频帧分组到多个段或对象中,在广泛的实际应用中扮演关键作用,例如电影中的视觉效果辅助,自主驾驶中的现场理解,以及视频会议中的虚拟背景创建,名称一些。最近,由于计算机愿景中的联系复兴,一直存在众多深度学习的方法,这一直专用于视频分割并提供引人注目的性能。在这项调查中,通过引入各自的任务设置,背景概念,感知需要,开发历史,以及开发历史,综合审查这一领域的两种基本研究,即在视频和视频语义分割中,即视频和视频语义分割中的通用对象分段(未知类别)。主要挑战。我们还提供关于两种方法和数据集的代表文学的详细概述。此外,我们在基准数据集中呈现了审查方法的定量性能比较。最后,我们指出了这一领域的一套未解决的开放问题,并提出了进一步研究的可能机会。
translated by 谷歌翻译
最近,几种基于空间内存的方法已经验证了将中间框架及其面具作为内存有助于将视频中的目标对象细分目标对象。但是,它们主要集中于当前帧和内存框架之间的更好匹配,而无需明确关注内存质量。因此,较差的分割面罩的框架容易被记住,这导致了分割掩盖误差问题并进一步影响分割性能。此外,随着帧数的增长,内存框架的线性增加还限制了模型处理长视频的能力。为此,我们提出了一个质量感知的动态内存网络(QDMN)来评估每个帧的分割质量,从而使内存库可以选择性地存储准确的分段框架,以防止误差积累问题。然后,我们将细分质量与时间一致性相结合,以动态更新内存库以提高模型的实用性。我们的QDMN没有任何铃铛和哨子,在戴维斯和YouTube-Vos基准测试中都取得了新的最新性能。此外,广泛的实验表明,提议的质量评估模块(QAM)可以作为通用插件应用于基于内存的方法,并显着提高性能。我们的源代码可在https://github.com/workforai/qdmn上找到。
translated by 谷歌翻译
We pose video object segmentation as spectral graph clustering in space and time, with one graph node for each pixel and edges forming local space-time neighborhoods. We claim that the strongest cluster in this video graph represents the salient object. We start by introducing a novel and efficient method based on 3D filtering for approximating the spectral solution, as the principal eigenvector of the graph's adjacency matrix, without explicitly building the matrix. This key property allows us to have a fast parallel implementation on GPU, orders of magnitude faster than classical approaches for computing the eigenvector. Our motivation for a spectral space-time clustering approach, unique in video semantic segmentation literature, is that such clustering is dedicated to preserving object consistency over time, which we evaluate using our novel segmentation consistency measure. Further on, we show how to efficiently learn the solution over multiple input feature channels. Finally, we extend the formulation of our approach beyond the segmentation task, into the realm of object tracking. In extensive experiments we show significant improvements over top methods, as well as over powerful ensembles that combine them, achieving state-of-the-art on multiple benchmarks, both for tracking and segmentation.
translated by 谷歌翻译
半监控视频对象分割(VOS)是指在近年来在第一帧中的注释中分割剩余帧中的目标对象,该帧近年来已经积极研究。关键挑战在于找到利用过去框架的时空上下文的有效方法来帮助学习当前帧的判别目标表示。在本文中,我们提出了一种具有专门设计的交互式变压器的新型暹罗网络,称为SITVOS,以实现从历史到当前帧的有效上下文传播。从技术上讲,我们使用变换器编码器和解码器单独处理过去的帧和当前帧,即,编码器从过去的帧中对目标对象的强大的时空上下文进行编码,而解码器将当前帧的特征嵌入为查询。从编码器输出检索目标。为了进一步增强目标表示,设计了一种特征交互模块(FIM)以促进编码器和解码器之间的信息流。此外,我们使用暹罗架构来提取过去和当前帧的骨干功能,它能够重用并且比现有方法更有效。三个挑战基准测试的实验结果验证了SITVOS在最先进的方法上的优越性。
translated by 谷歌翻译
半监控视频对象分割(VOS)旨在跟踪像素级别的视频初始帧中存在的指定对象。为了充分利用对象的外观信息,像素级别匹配广泛用于VOS。传统的特征匹配以样式方式运行,即,仅考虑从查询帧到参考帧的最佳匹配。查询框中的每个位置是指参考帧中的最佳位置,而不管每个参考帧位置的频率如何。在大多数情况下,这效果很好,并且对快速外观变化是强大的,但是当查询框架包含看起来类似于目标对象的后台分散组时可能会导致严重错误。为了缓解这一问题,我们介绍了一种自由派匹配机制,找到从查询帧到参考帧的最佳匹配,反之亦然。在查找查询帧像素的最佳匹配之前,首先考虑用于参考帧像素的最佳匹配以防止每个参考帧像素被过度参考。由于该机制以严格的方式操作,即,如果才能彼此确定匹配,则连接像素,因此可以有效地消除背景干扰器。此外,我们提出了一个掩模嵌入模块,以改善现有的掩模传播方法。通过使用坐标信息嵌入多个历史掩模,可以有效地捕获目标对象的位置信息。
translated by 谷歌翻译
Exploring dense matching between the current frame and past frames for long-range context modeling, memory-based methods have demonstrated impressive results in video object segmentation (VOS) recently. Nevertheless, due to the lack of instance understanding ability, the above approaches are oftentimes brittle to large appearance variations or viewpoint changes resulted from the movement of objects and cameras. In this paper, we argue that instance understanding matters in VOS, and integrating it with memory-based matching can enjoy the synergy, which is intuitively sensible from the definition of VOS task, \ie, identifying and segmenting object instances within the video. Towards this goal, we present a two-branch network for VOS, where the query-based instance segmentation (IS) branch delves into the instance details of the current frame and the VOS branch performs spatial-temporal matching with the memory bank. We employ the well-learned object queries from IS branch to inject instance-specific information into the query key, with which the instance-augmented matching is further performed. In addition, we introduce a multi-path fusion block to effectively combine the memory readout with multi-scale features from the instance segmentation decoder, which incorporates high-resolution instance-aware features to produce final segmentation results. Our method achieves state-of-the-art performance on DAVIS 2016/2017 val (92.6% and 87.1%), DAVIS 2017 test-dev (82.8%), and YouTube-VOS 2018/2019 val (86.3% and 86.3%), outperforming alternative methods by clear margins.
translated by 谷歌翻译
现有的基于匹配的方法通过从像素级内存中检索支持功能执行视频对象细分(VOS),而某些像素可能会遭受内存中缺乏对应关系(即看不见),这不可避免地限制了他们的细分性能。在本文中,我们提出了一个两流网络(TSN)。我们的TSN包含(i)带有常规像素级内存的像素流,以根据其像素级内存检索分割可见像素。 (ii)一个看不见的像素的实例流,其中对实例的整体理解是在动态分割头上以基于目标实例的特征进行条件的。 (iii)一个像素划分模块生成路由图,将两个流的输出嵌入在一起融合在一起。紧凑的实例流有效地提高了看不见的像素的分割精度,同时将两个流与自适应路由图融合在一起,导致整体性能提升。通过广泛的实验,我们证明了我们提出的TSN的有效性,并且还报告了2018年YouTube-VOS的最先进性能为86.1%,在Davis-2017验证案例中为87.5%。
translated by 谷歌翻译
我们考虑半监督视频对象分段(VOS)的任务。我们的方法通过解决视觉翘曲的详细保存和时间一致性来减轻以前的VOS工作中的缺点。与使用完全光流的事先工作相比,我们介绍了一种新的前景目标视觉翘曲方法,了解来自VOS数据的流场。我们训练一个流模块,以使用两个弱监督损失捕获帧之间的详细运动。我们的对象翘曲前面的前景对象掩模在目标帧中的位置的术语方法使得具有快速运行时的详细掩模细化而不使用额外的流量监控。它也可以直接集成到最先进的分段网络中。在Davis17和Youtubevos基准测试中,我们优于不使用额外数据的最先进的脱机方法,以及使用额外数据的许多在线方法。定性地,我们还显示了我们的方法,以高细节和时间一致性产生分割。
translated by 谷歌翻译
In this paper we present a new computer vision task, named video instance segmentation. The goal of this new task is simultaneous detection, segmentation and tracking of instances in videos. In words, it is the first time that the image instance segmentation problem is extended to the video domain. To facilitate research on this new task, we propose a large-scale benchmark called YouTube-VIS, which consists of 2,883 high-resolution YouTube videos, a 40-category label set and 131k high-quality instance masks.In addition, we propose a novel algorithm called Mask-Track R-CNN for this task. Our new method introduces a new tracking branch to Mask R-CNN to jointly perform the detection, segmentation and tracking tasks simultaneously. Finally, we evaluate the proposed method and several strong baselines on our new dataset. Experimental results clearly demonstrate the advantages of the proposed algorithm and reveal insight for future improvement. We believe the video instance segmentation task will motivate the community along the line of research for video understanding.
translated by 谷歌翻译
现代视频对象分割(VOS)算法以顺序处理顺序实现了显着高的性能,而目前目前普遍的管道仍然表现出一些显而易见的不足,如累积误差,未知的鲁棒性或缺乏适当的解释工具。在本文中,我们将半监控视频对象分割问题放入循环工作流程中,并通过半监控VOS系统的固有循环属性来找到上面的缺陷。首先,循环机制包含在标准顺序流程中的循环机制可以产生更一致的像素 - 方识的表示。依赖于起始帧中的准确参考掩码,我们表明可以减轻错误传播问题。接下来,自然地将离线循环管道扩展到在线方式的简单梯度校正模块,可以突出显示结果的高频率和详细部分,以进一步提高分割质量,同时保持可行的计算成本。同时,这种校正可以保护网络免受干扰信号产生的严重性能下降。最后,我们基于梯度校正过程开发周期有效的接收领域(周期ERF),以提供新的视角,分析特定于对象的感兴趣区域。我们对Davis16,Davis17和Youtube-Vos有挑战性的基准进行全面的比较和详细分析,表明循环机制有助于提高分割质量,提高VOS系统的稳健性,并进一步提供不同VOS算法的定性比较和解释工作。该项目的代码可以在https://github.com/lyxok1/stm-trings找到
translated by 谷歌翻译
当前的半监督视频对象分割(VOS)方法通常利用一个框架的整个功能来预测对象掩码和更新内存。这引入了重要的冗余计算。为了减少冗余,我们提出了一种区域意识到的视频对象细分(RAVOS)方法,该方法可预测感兴趣的区域(ROI),以进行有效的对象细分和内存存储。 Ravos包括一个快速对象运动跟踪器,可以在下一个帧中预测其ROI。为了有效的分割,根据ROI提取对象特征,并且对象解码器设计用于对象级分割。为了有效的内存存储,我们建议运动路径内存来通过记住两个帧之间对象的运动路径中的特征来滤除冗余上下文。除了Ravos,我们还提出了一个称为OVO的大型数据集,以基准在遮挡下基准VOS模型的性能。对戴维斯和YouTube-VOS基准和我们的新OVOS数据集的评估表明,我们的方法以更快的推理时间来实现最先进的性能,例如,戴维斯的42 fps的86.1 J&F在YouTube-in YouTube-in YouTube-in YouTube-in YouTube-23 fps上达到42 fps- VOS。
translated by 谷歌翻译
在统一框架中为检测和跟踪建模的时间信息已被证明是视频实例分割(VIS)的有希望的解决方案。但是,如何有效地将时间信息纳入在线模型仍然是一个空旷的问题。在这项工作中,我们提出了一个名为Inspeacity(IAI)的新的在线Vis范式,该范式以有效的方式对检测和跟踪进行建模。详细说明,IAI采用了一个新颖的识别模块来明确预测跟踪实例的标识号。为了传递时间信息跨框架,IAI使用了结合当前特征和过去嵌入的关联模块。值得注意的是,IAI可以与不同的图像模型集成。我们对三个VIS基准进行了广泛的实验。 IAI在YouTube-VIS-2019(Resnet-101 41.9地图)和YouTube-VIS-2021(Resnet-50 37.7地图)上胜过所有在线竞争对手。令人惊讶的是,在更具挑战性的OVI上,IAI实现了SOTA性能(20.3地图)。代码可从https://github.com/zfonemore/iai获得
translated by 谷歌翻译