我们解决了视频对象分割的极具挑战性的问题。 Givenonly是初始掩码,任务是在后续帧中分割目标。为了有效地处理外观变化和类似的背景对象,需要强健的目标表示。以前的方法要么依赖于对第一帧上的分段网络进行微调,要么采用生成外观模型。虽然部分成功,但这些方法经常遭受不切实际的低帧速率或不令人满意的鲁棒性。我们提出了一种新颖的方法,基于专门的目标外观模型,该模型专门在线学习以区分目标和背景图像区域。重要的是,我们设计了专门的损失和定制优化技术,以实现高效的在线培训。我们的轻量级目标模型被集成到精心设计的分割网络中,离线培训以增强目标模型生成的预测。对三个数据集进行了大量实验。 Ourapproach在YouTube-VOS上的总体得分超过70,而每秒25帧。
translated by 谷歌翻译
视频对象分割的基本挑战之一是找到目标和背景外观的有效表示。为实现这一目的,最佳执行方法需要对卷积神经网络进行广泛的微调。除了非常昂贵之外,由于在线微调程序没有集成到网络的离线培训中,因此这种策略不能真正地端到端地进行训练。为了解决这些问题,我们提出了一种网络架构,可以在单向传递中学习目标和背景外观的强大表示。引入的外观模块学习目标和背景特征分布的概率生成模型。给定一个新图像,它预测后验类概率,提供高度严格的提示,在后来的网络模块中处理。我们的外观模块的学习和预测阶段都是完全不同的,可以对整个分支管道进行真正的端到端培训。综合实验证明了所提出的方法对三个视频对象分割基准的有效性。我们接近基于DAVIS17在线微调的方法,同时在单个GPU上以15FPS运行。此外,我们的方法优于大型YouTube-VOS数据集上的所有已发布的方法。
translated by 谷歌翻译
虽然近年来视觉跟踪的稳健性有了惊人的改善,但跟踪精度的提高受到严重限制。由于重点是强大的分类器的开发,准确的目标状态估计问题在很大程度上被忽视了。相反,大多数方法采用简单的多尺度搜索来估计目标边界框。我们认为这种方法基本上是有限的,因为目标估计是一项复杂的任务,需要有关该对象的高级知识。因此,我们解决了跟踪中目标状态估计的问题。我们提出了一种新颖的跟踪架构,包括专用的目标估计和分类组件。由于目标估计的复杂性,我们提出了一个可以在大规模数据集上完全离线训练的组件。训练我们的目标估计组件以预测目标对象与估计的边界框之间的重叠。通过在预测中仔细整合特定于目标的信息,我们的方法可以实现以前看不见的边界框精度。此外,我们整合了在线培训的分类组件,以保证在干扰者存在的情况下具有高度的歧视能力。我们的最终跟踪框架由统一的多任务架构组成,在四个具有挑战性的基准测试中设置了最新的技术。在大型TrackingNetdataset上,我们的跟踪器ATOM实现了15%的相对增益,同时运行速度超过30 FPS。
translated by 谷歌翻译
通常,卷积神经网络(CNN)处理常规网格上的数据,例如,网格。普通相机生成的数据。为稀疏和规则间隔的输入数据设计CNN仍然是一个开放的研究问题,在自动驾驶,机器人和监视中有许多应用。在本文中,我们提出了一种具有高稀疏输入的CNN的代数约束归一化卷积层,与相关工作相比,其网络参数数量较少。我们提出了用于确定来自卷积运算的信心并将其传播到连续层的新策略。我们还提出了一个目标函数,它同时最小化数据误差,同时最大化输出置信度。为了整合结构信息,我们还研究了融合策略,以在我们的归一化卷积网络框架中结合深度和RGB信息。此外,我们引入输出置信度作为辅助信息来改善结果。我们的规范化卷积网络框架的功能针对场景深度完成的问题进行了演示。综合实验在KITTI-Depth基准测试中进行,结果清楚地表明所提出的方法实现了卓越的性能,而与最先进的方法相比,仅需要约5%的参数。
translated by 谷歌翻译
在大多数计算机视觉应用中,卷积神经网络(CNN)对普通相机产生的密集图像数据进行操作。在自动驾驶,机器人和监视中进行大量应用仍然是一个开放的问题,设计有源和不规则间隔输入数据的CNN。为了解决这个具有挑战性的问题,我们为具有稀疏输入的CNN引入了一个代数约束的卷积层,并展示了它对scenedepth完成任务的能力。我们提出了用于确定来自卷积运算的信心并将其传播到连续层的新策略。此外,我们提出了一个目标函数,它同时最小化数据错误,同时最大化输出置信度。全面的实验是在KITTI深度基准上进行的,结果清楚地表明所提出的方法实现了卓越的性能,同时比最先进的方法要求的参数少三倍。此外,我们的方法产生了一个连续的像素方面的置信度图,使信息融合,国家推理和决策支持。
translated by 谷歌翻译
近年来,点集注册的概率方法已经证明了竞争结果。这些技术估计了点云的概率分布模型。尽管这样的表示已经显示出来,但它对3D点密度的变化非常敏感。这种基本问题主要是由跨越点集的传感器位置的变化引起的。我们重新审视了概率注册范式的基础。与以前的工作相反,我们将thescene的基础结构建模为潜在概率分布,从而引起不变性的topoint集密度变化。通过最小化基于期望最大化的框架中的Kullback-Leiblerdivergence来推断场景的概率模型和注册参数。我们的密度自适应注册成功处理了地面激光雷达应用中常见的严重密度变化。我们在几个具有挑战性的真实世界激光雷达数据集上进行了广泛的实验。结果表明,我们的方法优于用于多视图注册的最先进的概率方法,而无需重新采样。代码可从以下网址获得://github.com/felja633/DARE。
translated by 谷歌翻译
近年来,基于判别相关滤波器(DCF)的方法显着提高了跟踪的最新技术水平。然而,在追求不断提高的追踪性能的过程中,它们的特征速度和实时性能逐渐消退。此外,具有大量可训练参数的日益复杂的模型引入了严重过度拟合的风险。在这项工作中,我们解决了计算复杂性和过度拟合问题背后的关键原因,目的是同时提高速度和性能。我们重新审视核心DCF公式,并介绍:(i)一个因子化卷积算子,它大大减少了模型中参数的数量; (ii)训练样本分布的紧凑生成模型,可显着降低记忆和时间复杂度,同时提供更好的样本分集; (iii)保守的模型更新策略,具有改进的鲁棒性和降低的复杂性。我们对四种基准进行了全面的实验:VOT2016,UAV123,OTB-2015和TempleColor。当使用昂贵的深度功能时,我们的跟踪器提供20倍的加速,并且与VOT2016挑战中排名靠前的方法相比,预期平均重叠的相对增益达到13.0%。此外,我们的快速变体采用手工制作的功能,在单个CPU上以60 Hz的频率运行,而在OTB-2015上获得65.0%的AUC。
translated by 谷歌翻译
Accurate scale estimation of a target is a challenging research problem invisual object tracking. Most state-of-the-art methods employ an exhaustivescale search to estimate the target size. The exhaustive search strategy iscomputationally expensive and struggles when encountered with large scalevariations. This paper investigates the problem of accurate and robust scaleestimation in a tracking-by-detection framework. We propose a novel scaleadaptive tracking approach by learning separate discriminative correlationfilters for translation and scale estimation. The explicit scale filter islearned online using the target appearance sampled at a set of differentscales. Contrary to standard approaches, our method directly learns theappearance change induced by variations in the target scale. Additionally, weinvestigate strategies to reduce the computational cost of our approach. Extensive experiments are performed on the OTB and the VOT2014 datasets.Compared to the standard exhaustive scale search, our approach achieves a gainof 2.5% in average overlap precision on the OTB dataset. Additionally, ourmethod is computationally efficient, operating at a 50% higher frame ratecompared to the exhaustive scale search. Our method obtains the top rank inperformance by outperforming 19 state-of-the-art trackers on OTB and 37state-of-the-art trackers on VOT2014.
translated by 谷歌翻译
Tracking-by-detection methods have demonstrated competitive performance inrecent years. In these approaches, the tracking model heavily relies on thequality of the training set. Due to the limited amount of labeled trainingdata, additional samples need to be extracted and labeled by the trackeritself. This often leads to the inclusion of corrupted training samples, due toocclusions, misalignments and other perturbations. Existingtracking-by-detection methods either ignore this problem, or employ a separatecomponent for managing the training set. We propose a novel generic approach for alleviating the problem of corruptedtraining samples in tracking-by-detection frameworks. Our approach dynamicallymanages the training set by estimating the quality of the samples. Contrary toexisting approaches, we propose a unified formulation by minimizing a singleloss over both the target appearance model and the sample quality weights. Thejoint formulation enables corrupted samples to be down-weighted whileincreasing the impact of correct ones. Experiments are performed on threebenchmarks: OTB-2015 with 100 videos, VOT-2015 with 60 videos, and Temple-Colorwith 128 videos. On the OTB-2015, our unified formulation significantlyimproves the baseline, with a gain of 3.8% in mean overlap precision. Finally,our method achieves state-of-the-art results on all three datasets. Code andsupplementary material are available athttp://www.cvl.isy.liu.se/research/objrec/visualtracking/decontrack/index.html .
translated by 谷歌翻译
强大而准确的视觉跟踪是最具挑战性的计算机视觉问题之一。由于固有缺乏训练数据,构建目标外观模型的稳健方法至关重要。最近,已成功应用有区别学习的相关滤波器(DCF)来解决该问题以进行跟踪。这些方法利用训练样本的周期性假设来有效地学习目标邻域中的所有分组上的分类器。然而,周期性假设也引入了不希望的边界效应,这严重降低了跟踪模型的质量。我们提出用于跟踪的空间正则化判别相关滤波器(SRDCF)。在学习中引入空间正则化分量以根据其空间分配惩罚相关滤波器系数。我们的SRDCF公式允许在非常大的负训练样本集上学习相关滤波器,而不会破坏正样本。我们进一步提出了一种基于Gauss-Seidel方法的优化策略,用于SRDCF的高效在线学习。实验在四个基准数据集上进行:OTB-2013,ALOV ++,OTB-2015和VOT2014。我们的方法在所有数据集上实现了最先进的结果。在OTB-2013和OTB-2015上,与现有的最佳测试者相比,我们获得的平均重叠精度分别为8.0%和8.2%。
translated by 谷歌翻译