我们考虑用于表示车辆动力学的神经网络的在线适应问题。神经网络模型旨在由MPC控制法使用以自主地控制车辆。这个问题具有挑战性,因为输入和目标分布都是非平稳的,而在线适应的天真方法会导致灾难性的遗忘,从而导致控制器故障。我们提出了一种新颖的在线学习方法,它将伪排练方法与局部加权投影回归相结合。我们证明了在模拟中使用局部加权投影回归伪排练(LW-PR $ ^ 2 $)方法的有效性以及使用1/5比例自动驾驶车辆收集的大型真实世界数据集。
translated by 谷歌翻译
Localizing moments in untrimmed videos via language queries is a new and interesting task that requires the ability to accurately ground language into video. Previous works have approached this task by processing the entire video, often more than once, to localize relevant activities. In the real world applications that this task lends itself to, such as surveillance, efficiency a is pivotal trait of a system. In this paper, we present TripNet, an end-to-end system that uses a gated attention architecture to model fine-grained textual and visual representations in order to align text and video content. Furthermore, TripNet uses reinforcement learning to efficiently localize relevant activity clips in long videos, by learning how to intelligently skip around the video. In our evaluation over Charades-STA, ActivityNet Captions and the TACoS dataset, we find that TripNet achieves high accuracy and saves processing time by only looking at 32-41% of the entire video.
translated by 谷歌翻译
我们提出了一种合成数据生成的任务感知方法。我们的框架采用可训练的合成器网络,通过评估“目标”网络的优势和劣势,优化产生意义的训练样本。合成器和目标网络以对抗性方式进行训练,其中每个网络的更新目标是超越另一个。另外,我们通过将其与在真实世界图像上训练的鉴别器配对来确保合成器生成真实数据。此外,为了使目标分类器对于混合人工制品不变,我们将这些人工制品引入训练图像的背景区域,以使目标不会过度拟合。我们通过将其应用于不同的目标网络(包括AffNIST上的分类网络)和不同数据集上的两个物体检测网络(SSD,Faster-RCNN)来证明我们的方法的功效。在AffNISTbenchmark上,我们的方法能够超越基线结果,只需要一半的训练样例。在VOC人员检测基准测试中,由于我们的数据增加,我们显示了高达2.7%的改进。类似地,在GMU检测基准上,我们报告mAP在基线方法中的性能提升为3.5%,优于先前的技术方法,在特定类别上达到7.5%。
translated by 谷歌翻译
我们使用用于视频识别的深度模型来解决学习运动表示的挑战性问题。为此,我们利用注意力模块来学习突出视频中的区域和聚合功能以进行识别。具体而言,我们建议利用输出关注度图作为车辆,将学习的表示从运动(流)网络传输到RGB网络。我们系统地研究了注意模块的设计,并开发了一种新的注意蒸馏方法。我们的方法在主要行动基准上进行了评估,并且一直在显着提高基线RGB网络的性能。此外,我们证明了ourattention地图可以利用学习中的运动线索来识别视频帧中的动作位置。我们相信我们的方法为深度模型中的学习运动感知表示提供了一个步骤。
translated by 谷歌翻译
我们描述了一种新的用于动作的跨模态嵌入空间,名为Action2Vec,它将来自类标签的语言提示与来自视频剪辑的时空特征相结合。我们的方法使用分层循环网络来捕获视频特征的时间结构。我们使用联合损失来训练我们的嵌入,该联合损失将分类准确性与Word2Vec语义的相似性结合起来。我们通过执行零射击动作识别来评估动作2Vec,并获得三个标准数据集的theart结果的状态。此外,我们提出了两个novelanalogy测试,量化我们的联合嵌入捕获分布语义的程度。这是第一个关联合并动作视频的联合嵌入空间,也是第一个对其分布式语义进行全面评估的空间。
translated by 谷歌翻译
在本文中,我们提供了用于密集图像对齐的经典逆分解算法的现代综合。我们首先讨论这种成熟技术所做出的假设,然后通过将数据驱动的先验结合到这个模型中来提出放松这些假设。更具体地说,我们展开了逆组合算法的强大版本,并使用更多的表达模型替换了该算法的多个组成部分。我们的数据以端到端的方式从数据中进行训练。我们对几项具有挑战性的3D刚性运动估计任务进行了实验,证明了将优化与基于学习的技术相结合的优势,优于经典的逆向组合算法以及数据驱动的图像到 - 姿势回归方法。
translated by 谷歌翻译
在本文中,我们提出了一个框架,用于结合基于深度学习的道路检测,粒子滤波器和模型预测控制(MPC),只使用单目相机,IMU和车轮速度传感器。该框架使用结合LSTM的深度卷积神经网络来学习车辆前方轨道的本地成本图表示。 Aparticle过滤器使用此动态观察模型在原理图中进行定位,并使用MPC积极地使用此基于粒子过滤器的状态估计进行驱动。我们展示了广泛的真实世界测试结果,并证明了车辆在复杂的污垢轨道上的摩擦极限下的可靠运行。我们使用我们的1:5比例测试车,在长达105英尺(32米)的泥路上达到27英里/小时(12米/秒)以上的速度。
translated by 谷歌翻译
自动生成与视频内容时间对齐的文本视频描述是计算机视觉中的长期目标。由于难以弥合视觉和自然语言域之间的语义差异,这项任务具有挑战性。本文讨论了在一组指令和演示活动的第一人称视频之间自动生成对齐的任务。书面指令的稀疏描述和模糊性产生了重大的对齐挑战。 ourapproach的关键是使用自我中心线索来生成一组简明的动作提示,然后使用对象识别和计算语言技术将其与配方步骤相匹配。我们在扩展的GTEA Gaze +数据集和Bristol Egocentric Object InteractionsDataset上获得了有希望的结果。
translated by 谷歌翻译
从时间对图像中估计动态场景中的3D运动是许多场景理解问题中的核心任务。在现实世界的应用中,动态场景通常由移动摄像机捕获(即,平移,倾斜或手持),增加了任务复杂性,因为从不同视点观察场景。主要的挑战是从场景运动消除相机运动的歧义,即使成功估计2D图像对应,随着观察到的残骸量减少,这变得更加困难。与其他最先进的3D场景流估计方法相比,本文提出了从大量动态场景数据中以无监督的方式对场景的刚性进行“学习”,并直接从两个刚性掩模中提取刚性掩模。具有深度的连续图像。通过学到的网络,我们展示了如何使用计算的2D光流和推断的刚性掩模有效地估计相机运动和投射的流动。对刚性网络进行训练和测试,我们还提供了一个新的半合成动态场景数据集(具有真实背景的合成前景对象)和评估分割,它们考虑了观察到的非刚性像素的百分比。通过我们的评估,我们展示了所提出的框架优于现有的最先进的场景流量估计方法,具有挑战性的动态范围。
translated by 谷歌翻译
在本文中,我们提供了对固定预测和主要对象分割算法的广泛评估以及主要数据集的统计。我们的分析通过过分强调显着性的显式概念来识别现有显着对象基准的严重设计缺陷,称为数据集设计偏差。数据集设计偏差不仅会造成注视与显着对象分割之间的不适连接,还会误导算法设计。基于我们的分析,我们提出了一种新的高质量数据集,它提供了固定和显着对象分割的真实性。通过同时呈现固定和显着对象,我们能够弥合固定和物体之间的差距,并提出一种新的显着对象分割方法。最后,我们报告了三个现有的显着对象分割数据集的重要基准进展。
translated by 谷歌翻译