广义零射击动作识别是一个具有挑战性的问题,其中任务是识别在训练阶段不可用的新动作类别,以及所见的动作类别。现有的方法从学习的分类器对看到的动作类别的固有偏差中解脱出来。因此,看不见的类别样本被错误地分类为属于所见的一个动作类别。在本文中,我们通过争论对广义零射击动作识别中看到和看不到的动作类别进行单独处理来解决这个问题。我们引入了一个分布式检测器,用于确定视频特征是属于看见或看不见的动作类别。为了训练分布式分布检测器,使用在看到的动作类别特征上训练的生成对抗网络来合成用于看不见的动作类别的视频特征。据我们所知,我们是第一个提出基于GZSL框架的分布式探测器,用于动作识别动画。在三个动作识别数据集上进行实验:OlympicSports,HMDB51和UCF101。对于广义零射击动作识别,我们提出的方法优于基线(f-CLSWGAN),其绝对增益(分类准确度)分别为7.0%,3.4%和4.9%。
translated by 谷歌翻译
我们解决了视频对象分割的极具挑战性的问题。 Givenonly是初始掩码,任务是在后续帧中分割目标。为了有效地处理外观变化和类似的背景对象,需要强健的目标表示。以前的方法要么依赖于对第一帧上的分段网络进行微调,要么采用生成外观模型。虽然部分成功,但这些方法经常遭受不切实际的低帧速率或不令人满意的鲁棒性。我们提出了一种新颖的方法,基于专门的目标外观模型,该模型专门在线学习以区分目标和背景图像区域。重要的是,我们设计了专门的损失和定制优化技术,以实现高效的在线培训。我们的轻量级目标模型被集成到精心设计的分割网络中,离线培训以增强目标模型生成的预测。对三个数据集进行了大量实验。 Ourapproach在YouTube-VOS上的总体得分超过70,而每秒25帧。
translated by 谷歌翻译
在自然场景中的共同对象计数是具有许多实际应用的计算机视觉中的挑战性问题。现有的图像级监督公共对象计数方法仅预测全局对象计数,并依赖于额外的实例级监督来确定对象位置。我们提出了一种图像级监督方法,通过构造对象类别密度图,提供全局对象计数和对象实例的空间分布。在心理研究的推动下,我们使用有限的对象计数信息(最多四个)进一步减少图像级监督。据我们所知,我们是第一个用于常见对象计算的顶级图像级监督密度图估计,并证明了其在图像级监督实例分割中的有效性。在PASCAL VOC和CSO数据集上进行综合实验。我们的方法优于现有方法,包括使用实例级监督的方法,用于共同对象计数的两个数据集。此外,我们的方法改进了最先进的图像级监督实例分割,平均最佳重叠率相对增益为17.8% ,在PASCAL VOC 2012数据集上。
translated by 谷歌翻译
视频对象分割的基本挑战之一是找到目标和背景外观的有效表示。为实现这一目的,最佳执行方法需要对卷积神经网络进行广泛的微调。除了非常昂贵之外,由于在线微调程序没有集成到网络的离线培训中,因此这种策略不能真正地端到端地进行训练。为了解决这些问题,我们提出了一种网络架构,可以在单向传递中学习目标和背景外观的强大表示。引入的外观模块学习目标和背景特征分布的概率生成模型。给定一个新图像,它预测后验类概率,提供高度严格的提示,在后来的网络模块中处理。我们的外观模块的学习和预测阶段都是完全不同的,可以对整个分支管道进行真正的端到端培训。综合实验证明了所提出的方法对三个视频对象分割基准的有效性。我们接近基于DAVIS17在线微调的方法,同时在单个GPU上以15FPS运行。此外,我们的方法优于大型YouTube-VOS数据集上的所有已发布的方法。
translated by 谷歌翻译
虽然近年来视觉跟踪的稳健性有了惊人的改善,但跟踪精度的提高受到严重限制。由于重点是强大的分类器的开发,准确的目标状态估计问题在很大程度上被忽视了。相反,大多数方法采用简单的多尺度搜索来估计目标边界框。我们认为这种方法基本上是有限的,因为目标估计是一项复杂的任务,需要有关该对象的高级知识。因此,我们解决了跟踪中目标状态估计的问题。我们提出了一种新颖的跟踪架构,包括专用的目标估计和分类组件。由于目标估计的复杂性,我们提出了一个可以在大规模数据集上完全离线训练的组件。训练我们的目标估计组件以预测目标对象与估计的边界框之间的重叠。通过在预测中仔细整合特定于目标的信息,我们的方法可以实现以前看不见的边界框精度。此外,我们整合了在线培训的分类组件,以保证在干扰者存在的情况下具有高度的歧视能力。我们的最终跟踪框架由统一的多任务架构组成,在四个具有挑战性的基准测试中设置了最新的技术。在大型TrackingNetdataset上,我们的跟踪器ATOM实现了15%的相对增益,同时运行速度超过30 FPS。
translated by 谷歌翻译
通常,卷积神经网络(CNN)处理常规网格上的数据,例如,网格。普通相机生成的数据。为稀疏和规则间隔的输入数据设计CNN仍然是一个开放的研究问题,在自动驾驶,机器人和监视中有许多应用。在本文中,我们提出了一种具有高稀疏输入的CNN的代数约束归一化卷积层,与相关工作相比,其网络参数数量较少。我们提出了用于确定来自卷积运算的信心并将其传播到连续层的新策略。我们还提出了一个目标函数,它同时最小化数据误差,同时最大化输出置信度。为了整合结构信息,我们还研究了融合策略,以在我们的归一化卷积网络框架中结合深度和RGB信息。此外,我们引入输出置信度作为辅助信息来改善结果。我们的规范化卷积网络框架的功能针对场景深度完成的问题进行了演示。综合实验在KITTI-Depth基准测试中进行,结果清楚地表明所提出的方法实现了卓越的性能,而与最先进的方法相比,仅需要约5%的参数。
translated by 谷歌翻译
在大多数计算机视觉应用中,卷积神经网络(CNN)对普通相机产生的密集图像数据进行操作。在自动驾驶,机器人和监视中进行大量应用仍然是一个开放的问题,设计有源和不规则间隔输入数据的CNN。为了解决这个具有挑战性的问题,我们为具有稀疏输入的CNN引入了一个代数约束的卷积层,并展示了它对scenedepth完成任务的能力。我们提出了用于确定来自卷积运算的信心并将其传播到连续层的新策略。此外,我们提出了一个目标函数,它同时最小化数据错误,同时最大化输出置信度。全面的实验是在KITTI深度基准上进行的,结果清楚地表明所提出的方法实现了卓越的性能,同时比最先进的方法要求的参数少三倍。此外,我们的方法产生了一个连续的像素方面的置信度图,使信息融合,国家推理和决策支持。
translated by 谷歌翻译
近年来,点集注册的概率方法已经证明了竞争结果。这些技术估计了点云的概率分布模型。尽管这样的表示已经显示出来,但它对3D点密度的变化非常敏感。这种基本问题主要是由跨越点集的传感器位置的变化引起的。我们重新审视了概率注册范式的基础。与以前的工作相反,我们将thescene的基础结构建模为潜在概率分布,从而引起不变性的topoint集密度变化。通过最小化基于期望最大化的框架中的Kullback-Leiblerdivergence来推断场景的概率模型和注册参数。我们的密度自适应注册成功处理了地面激光雷达应用中常见的严重密度变化。我们在几个具有挑战性的真实世界激光雷达数据集上进行了广泛的实验。结果表明,我们的方法优于用于多视图注册的最先进的概率方法,而无需重新采样。代码可从以下网址获得://github.com/felja633/DARE。
translated by 谷歌翻译
近年来,基于判别相关滤波器(DCF)的方法显着提高了跟踪的最新技术水平。然而,在追求不断提高的追踪性能的过程中,它们的特征速度和实时性能逐渐消退。此外,具有大量可训练参数的日益复杂的模型引入了严重过度拟合的风险。在这项工作中,我们解决了计算复杂性和过度拟合问题背后的关键原因,目的是同时提高速度和性能。我们重新审视核心DCF公式,并介绍:(i)一个因子化卷积算子,它大大减少了模型中参数的数量; (ii)训练样本分布的紧凑生成模型,可显着降低记忆和时间复杂度,同时提供更好的样本分集; (iii)保守的模型更新策略,具有改进的鲁棒性和降低的复杂性。我们对四种基准进行了全面的实验:VOT2016,UAV123,OTB-2015和TempleColor。当使用昂贵的深度功能时,我们的跟踪器提供20倍的加速,并且与VOT2016挑战中排名靠前的方法相比,预期平均重叠的相对增益达到13.0%。此外,我们的快速变体采用手工制作的功能,在单个CPU上以60 Hz的频率运行,而在OTB-2015上获得65.0%的AUC。
translated by 谷歌翻译
Accurate scale estimation of a target is a challenging research problem invisual object tracking. Most state-of-the-art methods employ an exhaustivescale search to estimate the target size. The exhaustive search strategy iscomputationally expensive and struggles when encountered with large scalevariations. This paper investigates the problem of accurate and robust scaleestimation in a tracking-by-detection framework. We propose a novel scaleadaptive tracking approach by learning separate discriminative correlationfilters for translation and scale estimation. The explicit scale filter islearned online using the target appearance sampled at a set of differentscales. Contrary to standard approaches, our method directly learns theappearance change induced by variations in the target scale. Additionally, weinvestigate strategies to reduce the computational cost of our approach. Extensive experiments are performed on the OTB and the VOT2014 datasets.Compared to the standard exhaustive scale search, our approach achieves a gainof 2.5% in average overlap precision on the OTB dataset. Additionally, ourmethod is computationally efficient, operating at a 50% higher frame ratecompared to the exhaustive scale search. Our method obtains the top rank inperformance by outperforming 19 state-of-the-art trackers on OTB and 37state-of-the-art trackers on VOT2014.
translated by 谷歌翻译