我们提出了一种端到端的学习框架,用于在图像和视频中分割通用对象。给定一个新颖的图像或视频,我们的方法为所有“类对象”区域生成像素级掩码 - 即使是在训练期间看到的对象类别。我们将任务表示为向每个像素分配对象/背景标签的结构化预测问题,使用深度完全卷积网络实现。当应用于视频时,我们的模式还包含一个运动流,网络学会结合运动和运动,并试图提取所有突出的物体,无论它们是否移动。除了核心模型之外,另外的第二个贡献是它如何利用不同的训练注释强度。像素级注释很难获得,但对于训练深度网络分割方法至关重要。因此,我们提出了利用弱标记数据来学习密集前景分割的方法。对于图像,weshow混合对象类别示例中的值与图像级标签一起与相对较少的具有边界级注释的图像。对于视频,我们将展示如何与网络训练一起引导弱带注释的视频以进行图像分割。通过对多个具有挑战性的图像和视频分割基准的实验,我们的方法提供了始终如一的强大结果,并改进了对通用(看不见)对象的全自动分割的最新技术。此外,我们还展示了我们的方法如何有利于图像检索和图像重定向,当我们获得高质量的前景图时,这两种方法都会蓬勃发展。代码,模型和视频都是:http://vision.cs.utexas.edu/projects/pixelobjectness/
translated by 谷歌翻译
Video Object Segmentation, and video processing in general, has been historically dominated by methods that rely on the temporal consistency and redundancy in consecutive video frames. When the temporal smoothness is suddenly broken, such as when an object is occluded, or some frames are missing in a sequence, the result of these methods can deteriorate significantly. This paper explores the orthogonal approach of processing each frame independently, i.e. disregarding the temporal information. In particular, it tackles the task of semi-supervised video object segmentation: the separation of an object from the background in a video, given its mask in the first frame. We present Semantic One-Shot Video Object Segmentation (OSVOS S), based on a fully-convolutional neural network architecture that is able to successively transfer generic semantic information, learned on ImageNet, to the task of foreground segmentation, and finally to learning the appearance of a single annotated object of the test sequence (hence one shot). We show that instance-level semantic information, when combined effectively, can dramatically improve the results of our previous method, OSVOS. We perform experiments on two recent single-object video segmentation databases, which show that OSVOS S is both the fastest and most accurate method in the state of the art. Experiments on multi-object video segmentation show that OSVOS S obtains competitive results.
translated by 谷歌翻译
We propose an end-to-end learning framework for segmenting generic objects invideos. Our method learns to combine appearance and motion information toproduce pixel level segmentation masks for all prominent objects in videos. Weformulate this task as a structured prediction problem and design a two-streamfully convolutional neural network which fuses together motion and appearancein a unified framework. Since large-scale video datasets with pixel levelsegmentations are problematic, we show how to bootstrap weakly annotated videostogether with existing image recognition datasets for training. Throughexperiments on three challenging video segmentation benchmarks, our methodsubstantially improves the state-of-the-art for segmenting generic (unseen)objects. Code and pre-trained models are available on the project website.
translated by 谷歌翻译
我们解决了视频对象分割的极具挑战性的问题。 Givenonly是初始掩码,任务是在后续帧中分割目标。为了有效地处理外观变化和类似的背景对象,需要强健的目标表示。以前的方法要么依赖于对第一帧上的分段网络进行微调,要么采用生成外观模型。虽然部分成功,但这些方法经常遭受不切实际的低帧速率或不令人满意的鲁棒性。我们提出了一种新颖的方法,基于专门的目标外观模型,该模型专门在线学习以区分目标和背景图像区域。重要的是,我们设计了专门的损失和定制优化技术,以实现高效的在线培训。我们的轻量级目标模型被集成到精心设计的分割网络中,离线培训以增强目标模型生成的预测。对三个数据集进行了大量实验。 Ourapproach在YouTube-VOS上的总体得分超过70,而每秒25帧。
translated by 谷歌翻译
We propose an end-to-end learning framework for segmenting generic objects in videos. Our method learns to combine appearance and motion information to produce pixel level segmentation masks for all prominent objects. We formulate the task as a structured prediction problem and design a two-stream fully convolutional neural network which fuses together motion and appearance in a unified framework. Since large-scale video datasets with pixel level segmentations are lacking, we show how to boot-strap weakly annotated videos together with existing image recognition datasets for training. Through experiments on three challenging video segmentation benchmarks, our method substantially improves the state-of-the-art results for segmenting generic (unseen) objects. Code and pre-trained models are available on the project website.
translated by 谷歌翻译
Recent advances in computer vision-in the form of deep neural networks-have made it possible to query increasing volumes of video data with high accuracy. However, neural network inference is computationally expensive at scale: applying a state-of-the-art object detector in real time (i.e., 30+ frames per second) to a single video requires a $4000 GPU. In response, we present NOSCOPE, a system for querying videos that can reduce the cost of neural network video analysis by up to three orders of magnitude via inference-optimized model search. Given a target video, object to detect, and reference neural network, NOSCOPE automatically searches for and trains a sequence, or cascade, of models that preserves the accuracy of the reference network but is specialized to the target video and are therefore far less computationally expensive. NOSCOPE cascades two types of models: specialized models that forego the full generality of the reference model but faithfully mimic its behavior for the target video and object; and difference detectors that highlight temporal differences across frames. We show that the optimal cascade architecture differs across videos and objects, so NOSCOPE uses an efficient cost-based optimizer to search across models and cascades. With this approach, NOSCOPE achieves two to three order of magnitude speed-ups (265-15,500× real-time) on binary classification tasks over fixed-angle webcam and surveillance video while maintaining accuracy within 1-5% of state-of-the-art neural networks.
translated by 谷歌翻译
视频对象分割中的一个主要技术是标记用于训练实例的对象掩模。因此,我们建议用视频对象分割训练的运动提示来准备廉价但高质量的伪地面实况。我们的方法使用实例分割网络进行语义分割,然后基于运动信息选择感兴趣的分割对象作为伪地面实况。然后,利用伪周围真值来微调预训练的对象网络,以便在视频的剩余帧中促进对象分割。我们证明伪基础事实可以有效地改善分割性能。这种直观的无监督视频对象分割方法比现有方法更有效。在DAVIS和FBMS上的实验结果表明,所提出的方法在各种基准数据集上优于最先进的无监督分割方法。类别不可知的基础事实具有扩展到多个任意对象跟踪的巨大潜力。
translated by 谷歌翻译
我们提出了一种使用最小人类注释在未看到的视频上快速引导对象检测的方法。我们通过使用边界框合和模型蒸馏结合两个互补的知识源(一个通用和另一个特定)来实现这一目标。使用新颖的边界框合并和置信重新加权方案从集合预训练对象检测器获得第一(通用)知识源。我们观察到,通过数据增强进行模型蒸馏可以训练出一个特殊的探测器,该探测器优于它所训练的噪声标签,并在集合探测上训练学生网络,获得比整体本身更高的mAP。第二(专业)知识源来自在视频的标记子集上训练检测器(其中我们使用监督标签),以在未标记部分上生成检测。我们在两个流行的车载数据集上展示了这些技术可以为帧中所有车辆发射边界框,其平均精度(mAP)高于所使用的任何参考网络,并且集合和人工标记的数据产生对象检测的组合优于任何一个。单独。
translated by 谷歌翻译
Inspired by recent advances of deep learning in instance segmentation andobject tracking, we introduce video object segmentation problem as a concept ofguided instance segmentation. Our model proceeds on a per-frame basis, guidedby the output of the previous frame towards the object of interest in the nextframe. We demonstrate that highly accurate object segmentation in videos can beenabled by using a convnet trained with static images only. The key ingredientof our approach is a combination of offline and online learning strategies,where the former serves to produce a refined mask from the previous frameestimate and the latter allows to capture the appearance of the specific objectinstance. Our method can handle different types of input annotations: boundingboxes and segments, as well as incorporate multiple annotated frames, makingthe system suitable for diverse applications. We obtain competitive results onthree different datasets, independently from the type of input annotation.
translated by 谷歌翻译
在本文中,我们将介绍如何使用一个简单的方法实时执行视觉对象跟踪和半监督视频对象分割。我们的方法,称为SiamMask,改进了流行的完全卷积暹罗方法的对象跟踪的离线训练过程,通过二进制分割任务来确定它们的损失。一旦经过训练,SiamMasksolely依赖于单个边界框初始化并在线操作,产生类别不可知的对象分割掩模和每秒35帧的旋转边界框。尽管它的简单性,多功能性和快速性,我们的策略使我们能够在VOT-2018上建立一个新的最先进的实时测试人员,同时展示竞争性能和半监督视频的最佳速度DAVIS-2016和DAVIS-2017上的objectsegmentation任务。项目网站是:http://www.robots.ox.ac.uk/~qwang/SiamMask。
translated by 谷歌翻译
在本文中,我们提出了一个新的计算机视觉任务,名为视频实例分割。此新任务的目标是同时检测,分割和跟踪视频中的实例。用语言来说,这是第一次将图像实例分割问题扩展到视频域。为了完成这项新任务的研究,我们提出了一个名为YouTube-VIS的大型基准测试,它包括2883个高分辨率YouTube视频,40个类别的标签集和131k高质量的实例掩码。此外,我们为此任务提出了一种名为MaskTrack R-CNN的新算法。我们的新方法引入了一个新的跟踪分支到Mask R-CNN,以同时共同执行检测,分割和跟踪任务。最后,我们对我们的新数据集评估了所提出的方法和几个强大的基线。实验结果清楚地证明了所提算法的优点,并揭示了对未来改进的洞察力。我们相信视频实例细分任务将激励社区沿着研究视频理解的路线。
translated by 谷歌翻译
预测未来事件是实现智能行为的重要前提。视频预测已经被研究作为实现这一目标的代理任务。最近的工作已经表明,为了预测未来帧的语义分割,在语义层面的预测比预测RGB帧然后分割这些帧更有效。在本文中,我们考虑未来实例分割的更具挑战性的问题,其另外分割出个体对象。为了处理每个图像的不同数量的输出标签,我们在Mask R-CNN实例分割模型的固定大小的卷积特征的空间中开发预测模型。我们将Mask R-CNN的“检测头”应用于预测的特征,以产生未来帧的实例分割。实验表明,这种方法在基于光流和重用实例分割架构的强基线上有显着改善。
translated by 谷歌翻译
在具有挑战性的密集预测任务中针对准确性进行优化的卷积网络在视频中的每个帧上运行速度极慢。然而,附近视频帧的空间相似性表明了重复计算的机会。现有工作已经探索了基于光流的基本特征重用和特征变形,但是已经遇到了使用这些技术可达到的速度限制。在本文中,我们提出了一个新的,两个部分的方法来加速视频推理。首先,我们提出了一种快速特征传播技术,该技术利用存在未压缩视频(例如H.264编解码器)的块运动矢量来从帧到帧廉价地传播特征。其次,我们开发了一种新颖的特征估计方案,称为特征插值,融合了从封闭关键帧传播的特征,即使在稀疏关键帧频率下也能进行精确的特征估计。我们在Cityscapes和CamVid数据集上评估我们的系统,与帧框架基线和相关工作进行比较。我们发现,我们能够基本上加速视频上的语义分割,实现超过两倍的平均推理速度,作为任何目标精度的先前工作。
translated by 谷歌翻译
我们提出了一种新颖的语义视频分割系统Accel,它通过结合两个网络分支的预测,以低推理成本实现高精度:(1)在参考关键帧上提取高细节特征的参考分支,并使用frame-to将这些特征向前扭曲 - 帧光学流估计,以及(2)更新分支,其计算当前帧上的可调质量的特征,在每个视频帧处执行时间更新。更新分支的模块性,可以插入不同层深度的特征子网(例如ResNet-18到ResNet-101),可以在新的,最先进的精度 - 吞吐量折衷频谱上进行操作。在此曲线上与最接近的可比较的单帧分割网络相比,Accel模型实现了更高的准确性和更快的推理时间。在一般情况下,Accel显着优于以前有效语义视频分割的工作,纠正了与复杂动态数据集相关的翘曲相关误差。 Accel是端到端的可训练和高度模块化的:可以根据应用需求独立地选择参考网络,光流网络和更新网络,然后进行联合细化。结果是一个强大的通用系统,可以对视频进行快速,高精度的语义分割。
translated by 谷歌翻译
深度卷积中性网络在图像识别任务上取得了巨大成功。然而,将最先进的图像识别网络转移到视频是非常重要的,因为每帧评估太慢且无法承受。我们提供深度特征流,快速准确的视频识别框架。它仅在稀疏关键帧上运行昂贵的卷积子网络,并通过流场将其深度特征映射传播到其他帧。由于流量计算相对较快,因此可实现显着的加速。整个架构的端到端培训显着提高了识别准确性。深度特征流程灵活且通用。它在最近的两个大型视频数据集上得到了验证。它使得大型实用的视频识别成为可能。
translated by 谷歌翻译
Figure 1. Example result of our technique: The segmentation of the first frame (red) is used to learn the model of the specific object to track, which is segmented in the rest of the frames independently (green). One every 20 frames shown of 90 in total. Abstract This paper tackles the task of semi-supervised video object segmentation, i.e., the separation of an object from the background in a video, given the mask of the first frame. We present One-Shot Video Object Segmentation (OSVOS), based on a fully-convolutional neural network architecture that is able to successively transfer generic semantic information , learned on ImageNet, to the task of foreground seg-mentation, and finally to learning the appearance of a single annotated object of the test sequence (hence one-shot). Although all frames are processed independently, the results are temporally coherent and stable. We perform experiments on two annotated video segmentation databases, which show that OSVOS is fast and improves the state of the art by a significant margin (79.8% vs 68.0%).
translated by 谷歌翻译
学习长期时空特征对于许多视频分析任务至关重要。然而,现有的视频分割方法主要依赖于静态图像分割技术,并且捕获分割的时间依赖性的方法必须依赖于预训练的光流模型,导致该问题的次优解决方案。用于探索视频分割的空间 - 时间特征的端到端顺序学习在很大程度上受限于可用视频分割数据集的规模,即,即使最大视频分割数据集也仅包含90个短视频剪辑。为了解决这个问题,我们建立了一个名为YouTube视频对象分割数据集(YouTube-VOS)的新的大规模视频对象分割数据集。我们的数据集包含3,252个YouTube视频剪辑和78个类别,包括常见对象和人类活动。这是迄今为止我们知识中最大的视频对象分割数据集,我们已经在https://youtube-vos.org上发布了它。基于该数据集,我们提出了一种新颖的序列到序列网络,以充分利用视频中的长期时空信息进行分割。我们证明我们的方法能够在我们的YouTube-VOS测试集上获得最佳结果,并且与当前最先进的方法相比,在DAVIS 2016上获得了可比较的结果。实验表明,大规模数据确实是我们模型成功的关键因素。
translated by 谷歌翻译
语义分割需要大量像素方式的注释,以容许准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过综合新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,以便预测未来的标签。还提出了联合传播策略以减少合成样品中的错误比对。我们证明了由合成样本增加的数据集上的训练分割模型导致准确性的显着改善。此外,我们引入了一种新颖的边界标签松弛技术,该技术使得对沿着对象边界的注释噪声和传播伪像具有鲁棒性。我们提出的方法在Cityscapes上实现了83.5%的最新技术,在CamVid上实现了82.9%。没有模型合奏的单一模型在KITTI语义分割测试集上达到了72.8%mIoU,超过了ROBchallenge 2018的获奖作品。我们的代码和视频可以在以下网址找到://nv-adlr.github.io/publication/2018 -分割。
translated by 谷歌翻译
视频分析是感知世界变化的任务。但是,通常情况下,世界上大多数国家并没有那么多改变:它很无聊。对于许多应用,例如动作检测或机器人交互,分割所有移动物体是至关重要的第一步。虽然这个问题已经在时空分割领域进行了研究,但实际上没有一个工作使用基于学习的方法,尽管单帧实例分割取得了显着进步。我们提出了第一个基于深度学习的视频实例分割方法。我们的双流模型的架构基于Mask R-CNN,但另外还将光流作为输入来识别移动物体。然后它结合了运动和外观提示错误的运动估计错误并捕获对象的全部范围。 Weshow对弗莱堡伯克利运动分段数据集的最新结果进行了广泛的研究。基于学习的方法的一个潜在担忧是它们可能过度适应他们已经接受的特定类型的对象。虽然目前的识别系统往往局限于训练它们的N个物体的“封闭世界”,但我们的模型看起来几乎是任何移动的部分。
translated by 谷歌翻译
无监督学习是当今计算机视觉中最困难的挑战之一。该任务在人工智能和新兴技术中具有许多应用具有巨大的实用价值,因为可以以相对低的成本收集大量标记的视频。在本文中,我们在检测单个图像中的主要前景对象的背景下,研究了无监督学习问题。我们培训学生深度网络,以预测执行无监督对象发现视频或大型图像集的教师路径的输出。我们的方法不同于已发表的关于无监督对象发现的方法。我们在训练期间移动无监督的学习阶段,然后在测试时我们沿着学生路径应用标准的前馈处理。该策略的好处是允许在训练期间增加泛化可能性,同时保持快速测试。我们的无监督学习算法可以绕过几代学生 - 教师培训。因此,在第一代训练的一组学生网络共同创建了下一代的教师。在实验中,我们的方法在三个当前数据集上实现了最佳结果,用于视频中的对象发现,无监督图像分割和显着性检测。在测试时,所提出的系统很快,比已发布的无监督方法快一个数量级。
translated by 谷歌翻译