We propose a novel solution for semi-supervised video object segmentation. By the nature of the problem, available cues (e.g. video frame(s) with object masks) become richer with the intermediate predictions. However, the existing methods are unable to fully exploit this rich source of information. We resolve the issue by leveraging memory networks and learn to read relevant information from all available sources. In our framework, the past frames with object masks form an external memory, and the current frame as the query is segmented using the mask information in the memory. Specifically, the query and the memory are densely matched in the feature space, covering all the space-time pixel locations in a feed-forward fashion. Contrast to the previous approaches, the abundant use of the guidance information allows us to better handle the challenges such as appearance changes and occlussions. We validate our method on the latest benchmark sets and achieved the state-of-the-art performance (overall score of 79.4 on Youtube-VOS val set,
translated by 谷歌翻译
半监控视频对象分割(VOS)是指在近年来在第一帧中的注释中分割剩余帧中的目标对象,该帧近年来已经积极研究。关键挑战在于找到利用过去框架的时空上下文的有效方法来帮助学习当前帧的判别目标表示。在本文中,我们提出了一种具有专门设计的交互式变压器的新型暹罗网络,称为SITVOS,以实现从历史到当前帧的有效上下文传播。从技术上讲,我们使用变换器编码器和解码器单独处理过去的帧和当前帧,即,编码器从过去的帧中对目标对象的强大的时空上下文进行编码,而解码器将当前帧的特征嵌入为查询。从编码器输出检索目标。为了进一步增强目标表示,设计了一种特征交互模块(FIM)以促进编码器和解码器之间的信息流。此外,我们使用暹罗架构来提取过去和当前帧的骨干功能,它能够重用并且比现有方法更有效。三个挑战基准测试的实验结果验证了SITVOS在最先进的方法上的优越性。
translated by 谷歌翻译
半监控视频对象分割(VOS)旨在跟踪像素级别的视频初始帧中存在的指定对象。为了充分利用对象的外观信息,像素级别匹配广泛用于VOS。传统的特征匹配以样式方式运行,即,仅考虑从查询帧到参考帧的最佳匹配。查询框中的每个位置是指参考帧中的最佳位置,而不管每个参考帧位置的频率如何。在大多数情况下,这效果很好,并且对快速外观变化是强大的,但是当查询框架包含看起来类似于目标对象的后台分散组时可能会导致严重错误。为了缓解这一问题,我们介绍了一种自由派匹配机制,找到从查询帧到参考帧的最佳匹配,反之亦然。在查找查询帧像素的最佳匹配之前,首先考虑用于参考帧像素的最佳匹配以防止每个参考帧像素被过度参考。由于该机制以严格的方式操作,即,如果才能彼此确定匹配,则连接像素,因此可以有效地消除背景干扰器。此外,我们提出了一个掩模嵌入模块,以改善现有的掩模传播方法。通过使用坐标信息嵌入多个历史掩模,可以有效地捕获目标对象的位置信息。
translated by 谷歌翻译
半监督视频对象细分(VOS)旨在密集跟踪视频中的某些指定对象。该任务中的主要挑战之一是存在与目标对象相似的背景干扰物的存在。我们提出了三种抑制此类干扰因素的新型策略:1)一种时空多元化的模板构建方案,以获得目标对象的广义特性; 2)可学习的距离得分函数,可通过利用两个连续帧之间的时间一致性来排除空间距离的干扰因素; 3)交换和连接的扩展通过提供包含纠缠对象的训练样本来迫使每个对象具有独特的功能。在所有公共基准数据集中,即使是实时性能,我们的模型也与当代最先进的方法相当。定性结果还证明了我们的方法优于现有方法。我们认为,我们的方法将被广泛用于未来的VOS研究。
translated by 谷歌翻译
最近,基于内存的方法显示了半监督视频对象分割的有希望的结果。这些方法可以通过对先前掩码的经常更新的内存来预测对象蒙版逐帧。与这种人均推断不同,我们通过将视频对象分割视为夹子掩盖传播来研究替代角度。在此每次CLIP推断方案中,我们使用一个间隔更新内存,并同时处理内存更新之间的一组连续帧(即剪辑)。该方案提供了两个潜在的好处:通过剪辑级优化和效率增益的准确性增益,通过平行计算多个帧。为此,我们提出了一种针对人均推理量身定制的新方法。具体而言,我们首先引入夹具操作,以根据CLIP相关性来完善特征。此外,我们采用了一种渐进匹配机制来在剪辑中有效地通过信息通行。通过两个模块的协同作用和新提议的每盘培训,我们的网络在YouTube-Vos 2018/2019 Val(84.6%和84.6%)和Davis 2016/2017 Val(91.9 Val(91.9 %和86.1%)。此外,我们的模型在不同的内存更新间隔内显示出巨大的速度准确性权衡取舍,从而带来了巨大的灵活性。
translated by 谷歌翻译
最近,变形金刚在空间范围内的学习和推断方面很受欢迎。但是,他们的性能依赖于存储并将注意力应用于视频中每个帧的功能张量。因此,随着视频的长度的增长,它们的空间和时间复杂性会线性增加,这对于长视频而言可能非常昂贵。我们提出了一种新颖的视觉记忆网络架构,用于空间范围的学习和推理问题。我们在内存网络中维护了固定的内存插槽,并提出了基于Gumbel-SoftMax的算法,以学习一种自适应策略以更新此内存。最后,该体系结构在视频对象细分(VOS)和视频预测问题上进行了基准测试。我们证明,我们的内存体系结构可实现最新的结果,在视频预测上优于基于变压器的方法和其他最新方法,同时保持恒定的内存能力与序列长度无关。
translated by 谷歌翻译
对于在线视频实例分段(VI),以有效的方式充分利用来自先前帧的信息对于实时应用是必不可少的。最先前的方法遵循一个两级方法,需要额外的计算,例如RPN和Roialign,并且在VI中的所有子任务中没有完全利用视频中的可用信息。在本文中,我们提出了一种基于网格结构特征表示构建的在线VI的新颖单级框架。基于网格的功能允许我们使用完全卷积的网络进行实时处理,并且还可以轻松地重用和共享不同组件内的功能。我们还介绍了从可用帧中聚合信息的协同操作模块,以便丰富VI中所有子任务的功能。我们的设计充分利用了以高效的方式为所有任务的网格形式提供了以前的信息,我们在YouTube上实现了新的最先进的准确性(38.6 AP和36.9 AP)和速度(40.0fps) - 2019年和2021年在线VIS方法之间的数据集。
translated by 谷歌翻译
半监督视频对象分割(VOS)的任务已经大大提升,最先进的性能是通过密集的基于匹配的方法进行的。最近的方法利用时空存储器(STM)网络并学习从所有可用源检索相关信息,其中使用对象掩模的过去帧形成外部存储器,并且使用存储器中的掩码信息分段为查询作为查询的当前帧进行分割。然而,当形成存储器并执行匹配时,这些方法仅在忽略运动信息的同时利用外观信息。在本文中,我们倡导\ emph {motion信息}的返回,并提出了一个用于半监督VOS的运动不确定性感知框架(MUMET)。首先,我们提出了一种隐含的方法来学习相邻帧之间的空间对应,构建相关成本卷。在构建密集的对应期间处理遮挡和纹理区域的挑战性案例,我们将不确定性纳入密集匹配并实现运动不确定性感知特征表示。其次,我们介绍了运动感知的空间注意模块,以有效地融合了语义特征的运动功能。关于具有挑战性的基准的综合实验表明,\ TextBF {\ Textit {使用少量数据并将其与强大的动作信息组合可以带来显着的性能Boost}}。我们只使用Davis17达到$ \ Mathcal {} $培训{76.5 \%} $ \ mathcal {f} $培训,这显着优于低数据协议下的\ texit {sota}方法。 \ textit {代码将被释放。}
translated by 谷歌翻译
最近的研究通过将基于Trimap的图像垫子的成功扩展到视频域,在视频垫子上取得了长足进展。在本文中,我们将此任务推向了更实用的设置,并提出了仅使用一个用户宣传的Trimap来强制执行视频底表的单个TRIMAP视频效果网络(OTVM)。 OTVM的一个关键是Trimap传播和α预测的关节建模。从基线构架传播和α预测网络开始,我们的OTVM将两个网络与alpha-Trimap修补模块结合在一起,以促进信息流。我们还提出了一种端到端培训策略,以充分利用联合模型。与先前的解耦方法相比,我们的联合建模极大地提高了三张式传播的时间稳定性。我们在两个最新的视频底变基准测试中评估了我们的模型,深度视频垫子和视频图108,以及优于大量利润率的最先进(MSE改善分别为56.4%和56.7%)。源代码和模型可在线获得:https://github.com/hongje/otvm。
translated by 谷歌翻译
最近,几种基于空间内存的方法已经验证了将中间框架及其面具作为内存有助于将视频中的目标对象细分目标对象。但是,它们主要集中于当前帧和内存框架之间的更好匹配,而无需明确关注内存质量。因此,较差的分割面罩的框架容易被记住,这导致了分割掩盖误差问题并进一步影响分割性能。此外,随着帧数的增长,内存框架的线性增加还限制了模型处理长视频的能力。为此,我们提出了一个质量感知的动态内存网络(QDMN)来评估每个帧的分割质量,从而使内存库可以选择性地存储准确的分段框架,以防止误差积累问题。然后,我们将细分质量与时间一致性相结合,以动态更新内存库以提高模型的实用性。我们的QDMN没有任何铃铛和哨子,在戴维斯和YouTube-Vos基准测试中都取得了新的最新性能。此外,广泛的实验表明,提议的质量评估模块(QAM)可以作为通用插件应用于基于内存的方法,并显着提高性能。我们的源代码可在https://github.com/workforai/qdmn上找到。
translated by 谷歌翻译
特征相似性匹配将参考框架的信息传输到查询框架,是半监视视频对象分割中的关键组件。如果采用了汇总匹配,则背景干扰器很容易出现并降低性能。徒匹配机制试图通过限制要传输到查询框架的信息的量来防止这种情况,但是有两个局限性:1)由于在测试时转换为两种匹配,因此无法完全利用过滤匹配的匹配; 2)搜索最佳超参数需要测试时间手动调整。为了在确保可靠的信息传输的同时克服这些局限性,我们引入了均衡的匹配机制。为了防止参考框架信息过于引用,通过简单地将SoftMax操作与查询一起应用SoftMax操作,对查询框架的潜在贡献得到了均等。在公共基准数据集上,我们提出的方法与最先进的方法达到了可比的性能。
translated by 谷歌翻译
当前的半监督视频对象分割(VOS)方法通常利用一个框架的整个功能来预测对象掩码和更新内存。这引入了重要的冗余计算。为了减少冗余,我们提出了一种区域意识到的视频对象细分(RAVOS)方法,该方法可预测感兴趣的区域(ROI),以进行有效的对象细分和内存存储。 Ravos包括一个快速对象运动跟踪器,可以在下一个帧中预测其ROI。为了有效的分割,根据ROI提取对象特征,并且对象解码器设计用于对象级分割。为了有效的内存存储,我们建议运动路径内存来通过记住两个帧之间对象的运动路径中的特征来滤除冗余上下文。除了Ravos,我们还提出了一个称为OVO的大型数据集,以基准在遮挡下基准VOS模型的性能。对戴维斯和YouTube-VOS基准和我们的新OVOS数据集的评估表明,我们的方法以更快的推理时间来实现最先进的性能,例如,戴维斯的42 fps的86.1 J&F在YouTube-in YouTube-in YouTube-in YouTube-in YouTube-23 fps上达到42 fps- VOS。
translated by 谷歌翻译
视频对象细分(VOS)是视频理解的基础。基于变压器的方法在半监督VOS上显示出显着的性能改善。但是,现有的工作面临着挑战在彼此近距离接近视觉上类似对象的挑战。在本文中,我们提出了一种新型的双边注意力变压器,以进行半监督VO的运动出现空间(蝙蝠侠)。它通过新型的光流校准模块在视频中捕获对象运动,该模块将分割面膜与光流估计融合在一起,以改善对象内光流平滑度并减少物体边界处的噪声。然后在我们的新型双边注意力中采用了这种校准的光流,该流动流在相邻双边空间中的查询和参考帧之间的对应关系考虑,考虑到运动和外观。广泛的实验通过在所有四个流行的VOS基准上胜过所有现有最新的实验:YouTube-VOS 2019(85.0%),YouTube-VOS 2018(85.3%),Davis 2017VAL/TESTDEV(86.2.2 %/82.2%)和戴维斯(Davis)2016(92.5%)。
translated by 谷歌翻译
基于匹配的方法,尤其是基于时空记忆的方法,在半监督视频对象分割(VOS)中明显领先于其他解决方案。但是,不断增长和冗余的模板特征导致推断效率低下。为了减轻这一点,我们提出了一个新型的顺序加权期望最大化(SWEM)网络,以大大降低记忆特征的冗余。与以前仅检测帧之间特征冗余的方法不同,Swem通过利用顺序加权EM算法来合并框架内和框架间的相似特征。此外,框架特征的自适应权重具有代表硬样品的灵活性,从而改善了模板的歧视。此外,该提出的方法在内存中保留了固定数量的模板特征,从而确保了VOS系统的稳定推理复杂性。对常用的戴维斯和YouTube-VOS数据集进行了广泛的实验,验证了SWEM的高效率(36 fps)和高性能(84.3 \%$ \ Mathcal {J} \&\ Mathcal {F} $代码可在以下网址获得:https://github.com/lmm077/swem。
translated by 谷歌翻译
Recently, the joint learning framework (JOINT) integrates matching based transductive reasoning and online inductive learning to achieve accurate and robust semi-supervised video object segmentation (SVOS). However, using the mask embedding as the label to guide the generation of target features in the two branches may result in inadequate target representation and degrade the performance. Besides, how to reasonably fuse the target features in the two different branches rather than simply adding them together to avoid the adverse effect of one dominant branch has not been investigated. In this paper, we propose a novel framework that emphasizes Learning to Learn Better (LLB) target features for SVOS, termed LLB, where we design the discriminative label generation module (DLGM) and the adaptive fusion module to address these issues. Technically, the DLGM takes the background-filtered frame instead of the target mask as input and adopts a lightweight encoder to generate the target features, which serves as the label of the online few-shot learner and the value of the decoder in the transformer to guide the two branches to learn more discriminative target representation. The adaptive fusion module maintains a learnable gate for each branch, which reweighs the element-wise feature representation and allows an adaptive amount of target information in each branch flowing to the fused target feature, thus preventing one branch from being dominant and making the target feature more robust to distractor. Extensive experiments on public benchmarks show that our proposed LLB method achieves state-of-the-art performance.
translated by 谷歌翻译
现有的基于匹配的方法通过从像素级内存中检索支持功能执行视频对象细分(VOS),而某些像素可能会遭受内存中缺乏对应关系(即看不见),这不可避免地限制了他们的细分性能。在本文中,我们提出了一个两流网络(TSN)。我们的TSN包含(i)带有常规像素级内存的像素流,以根据其像素级内存检索分割可见像素。 (ii)一个看不见的像素的实例流,其中对实例的整体理解是在动态分割头上以基于目标实例的特征进行条件的。 (iii)一个像素划分模块生成路由图,将两个流的输出嵌入在一起融合在一起。紧凑的实例流有效地提高了看不见的像素的分割精度,同时将两个流与自适应路由图融合在一起,导致整体性能提升。通过广泛的实验,我们证明了我们提出的TSN的有效性,并且还报告了2018年YouTube-VOS的最先进性能为86.1%,在Davis-2017验证案例中为87.5%。
translated by 谷歌翻译
本文研究了如何实现更好,更有效的学习学习,以解决在有挑战性的多对象方案下应对半监督视频对象细分。最先进的方法学会用单个正对象解码特征,因此必须在多对象方案下分别匹配和分割每个目标,从而多次消耗计算资源。为了解决问题,我们提出了一个与变压器(AOT)方法的关联对象,以共同且协作匹配和解码多个对象。详细说明,AOT采用识别机制将多个目标关联到相同的高维嵌入空间中。因此,我们可以同时处理多个对象的匹配和分割解码,就像处理单个对象一样有效地解码。为了充分模型多对象关联,设计了长期的短期变压器(LSTT)来构建层次匹配和传播。基于AOT,我们进一步提出了一个更灵活,更健壮的框架,将对象与可扩展的变压器(AOST)相关联,其中LSTT的可扩展版本旨在实现准确性效率折衷的运行时间适应。此外,AOST引入了更好的层次方式,以使识别和视力嵌入。我们对多对象和单对象基准进行了广泛的实验,以检查AOT系列框架。与最先进的竞争对手相比,我们的方法可以保持运行时效率的时间和卓越的性能。值得注意的是,我们在三个受欢迎的基准测试(即YouTube-VOS(86.5%),Davis 2017 Val/Test/Test(87.0%/84.7%)和Davis 2016(93.0%)(93.0%)上,我们实现了新的最先进性能。项目页面:https://github.com/z-x-yang/aot。
translated by 谷歌翻译
多个对象跟踪和分段需要检测,跟踪和分割属于一组给定类的对象。大多数方法仅利用时间维度来解决关联问题,同时依赖于分段掩码本身的单帧预测。我们提出了原型的横向网络(PCAN),能够利用在线多个对象跟踪和分段的丰富的时空信息。 PCAN首先将时空内存蒸馏成一组原型,然后用横向从过去的框架中检索丰富的信息。要分段每个对象,PCAN采用原型外观模块来学习一组对比的前景和背景原型,然后随着时间的推移传播。广泛的实验表明,PCAN优于YouTube-VIS和BDD100K数据集的当前视频实例跟踪和分段竞争获奖者,并为单阶段和两级分割框架表示有效性。代码和视频资源有关http://vis.xyz/pub/pcan可用。
translated by 谷歌翻译
用于视频对象分割(VOS)的现有最先进方法(VOS)学习帧之间的低级像素到像素对应关系,以在视频中传播对象掩码。这需要大量的密集注释的视频数据,这是昂贵的注释,并且由于视频内的帧是高度相关的,因此由于视频内的帧具有很大冗余。鉴于此,我们提出了HODOR:一种新的方法,通过有效地利用被帮助的静态图像来理解对象外观和场景上下文来解决VOS的新方法。我们将来自图像帧的对象实例和场景信息编码为强大的高级描述符,然后可以用于重新划分不同帧中的这些对象。因此,与没有视频注释培训的现有方法相比,HODOR在DAVIS和YOUTUBE-VOS基准上实现了最先进的性能。如果没有任何架构修改,HODOR也可以通过利用循环一致性围绕单个注释的视频帧周围的视频上下文学习,而其他方法依赖于密集,则时间上一致的注释。
translated by 谷歌翻译
随着深度学习的兴起,视频对象细分(VOS)取得了重大进展。但是,仍然存在一些棘手的问题,例如,类似的对象很容易混淆,很难找到微小的对象。为了解决这些问题并进一步提高VOS的性能,我们为这项任务提出了一个简单而有效的解决方案。在解决方案中,我们首先分析YouTube-VOS数据集的分布,并通过引入公共静态和视频分割数据集来补充数据集。然后,我们改善了具有不同特征的三个网络体系结构,并训练多个网络以学习视频中对象的不同特征。之后,我们使用一种简单的方法来集成所有结果,以确保不同的模型相互补充。最后,进行了微妙的后处理,以确保具有精确边界的准确视频对象分割。 YouTube-VOS数据集的大量实验表明,该建议的解决方案在YouTube-VOS 2022测试集上以86.1%的总分达到了最先进的性能,这是YouTube视频对象细分的第五名-VOS挑战2022。
translated by 谷歌翻译