在本文中,我们解决了利用许多可移动物体进行视觉引导的重新布置规划的问题,即,找到一系列动作以将一组物体从初始布置移动到期望的布置,同时直接依赖于来自相机的视觉输入。我们引入了一种有效且可扩展的重排规划方法,解决了大多数现有方法的基本限制,这些方法不能很好地扩展对象的数量。这种提高的效率使我们能够在闭环中使用规划,通过可视工作空间分析来构建一个可以重现的强大重排框架从错误和外部扰动。这项工作的贡献有三个方面。首先,我们开发了类似AlphaGo的重排计划策略,使用重排计划示例训练的apolicy提高蒙特卡罗树搜索(MCTS)的效率。我们凭经验证明,所提出的方法可以很好地适应对象的数量。其次,为了展示计划器在真实机器人上的效率,我们采用了最先进的无校准视觉识别系统,该系统输出单个物体的位置并对其进行扩展以估计包含多个物体的工作空间的状态。第三,我们通过在真实的UR-5机器人手臂上进行几项实验来验证整个管道,解决了具有多个可移动物体的重排计划问题,并且仅需要几秒钟的计算来计算计划。我们还凭经验证明机器人可以成功地从工作空间中的错误和扰动中恢复。我们工作的源代码和预训练模型可以通过以下网址获得://github.com/ylabbe/rearrangement-planning
translated by 谷歌翻译
用于视觉相似性的度量学习主要采用二元监督来指示一对图像是否属于同一类。这样的二元指示符仅覆盖图像关系的有限子集,并且不足以表示由诸如对象姿势,图像标题和场景图形之类的连续和/或结构化标签描述的图像之间的语义相似性。受此启发,我们提出了一种使用连续标签进行深度metriclearning的新方法。首先,我们提出了一种新的三元组丢失,它允许在学习的度量空间中保留标签空间中的距离比率。因此,建议的损失使我们的模型能够学习相似程度而不仅仅是顺序。此外,我们设计了一个三重挖掘策略,适用于连续标签的度量学习。我们使用人体姿势,房间布局和图像标题的连续标签来解决三种不同的图像检索任务,并展示了与以前的方法相比,我们的方法的卓越性能。
translated by 谷歌翻译
估计手对象操作对于解释和模仿人类行为至关重要。以前的工作在孤立地重建手部姿势和物体形状方面取得了重大进展。然而,在操作期间重建手和物体是一个更具挑战性的任务,因为手和物体的显着闭塞。在呈现挑战时,操作也可以简化问题,因为接触物理限制了有效手对象配置的空间。例如,在操作过程中,手和物体应该接触但不能穿透。在这项工作中,我们通过操纵约束来规范手和物体的联合重建。我们提出了一种端到端的可学习模型,它利用了一种有利于物理上可信的对象星座的新型接触损失。我们的方法使用RGB图像作为输入,提高了基线的抓取质量指标。为了训练和评估模型,我们还提出了一个新的大型合成数据集ObMan,它具有手工操作。我们证明了ObMan训练模型对实际数据的可转移性。
translated by 谷歌翻译
在本文中,我们通过教学叙述的弱监督和有序的步骤列表来调查普通任务步骤的学习视觉模型,而不是通过时间注释进行强有力的监督。我们的方法的核心是观察到,如果一个模型在学习不同步骤的同时分享成分,那么弱监督学习可能更加困难:“倒蛋应该与其他涉及”倒“和”蛋“的任务共同训练。在用于识别步骤的组件模型中进行格式化,以及可以在叙述和步骤列表的时间约束下学习该模型的弱监督学习框架。过去的数据不允许系统地研究共享,因此我们还收集了一个新的数据集CrossTask,旨在评估跨任务共享。我们的实验表明,共享任务可以提高性能,尤其是在组件级别完成时,我们的组件模型可以通过其组合性解析以前看不见的任务。
translated by 谷歌翻译
我们试图检测三胞胎t =(主体,谓词,对象)形式的图像中的视觉关系,例如“人骑狗”,其中可以获得各个实体的训练样本,但是他们的组合在训练时是非常或看不见的。由于视觉关系的组合性质,这是一个重要的设置:为所有可能的三元组收集足够的训练数据将非常困难。这项工作的贡献是三倍。首先,我们学习的视觉关系thatcombines(I)为主体,客体和谓语个人的嵌入的表示togetherwith(II)的可视短语嵌入表示关系triplet.Second,我们学习如何可视化的嵌入语从existingtraining三胞胎到看不见的转移使用涉及类似对象的关系之间的类比来测试三元组。第三,我们表现出对涉及罕见的和看不见的关系2个有挑战性的数据集ourapproach的好处:onHICO-DET,我们的模型达到显著改善了强大的基础,我们确认在看不见的三胞胎检索这种改进的UnRelrare关系数据集。
translated by 谷歌翻译
视频中的对象检测对于许多应用程序至关重要与图像相比,视频提供了额外的线索,可以帮助消除检测问题的歧义。我们在本文中的目标是学习对象外观的时间演化的判别模型,并将这些模型用于物体检测。为了模拟时间演化,我们引入了与边界框的时间序列相对应的时空管。我们提出了两个CNN架构,分别用于生成和分类管。我们的管状网络(TPN)首先产生大量的时空性盆管,最大限度地提高了物体回忆率。然后,Tube-CNN在视频中实现了一个tube-levelobject检测器。我们的方法改进了用于视频中对象检测的两个大规模数据集的最新技术:HollywoodHeads和ImageNetVID。管模型在困难的动态场景中显示出特别的优势
translated by 谷歌翻译
面部形状的估计对于面部转移和动画起着重要作用。然而,准确的3D面部重建通常会采用迭代且昂贵的方法来阻止实时应用。在这项工作中,我们设计了紧凑而快速的CNN模型,可以在移动设备上进行实时面部重建。为此,我们首先研究更传统但缓慢的变形面模型,并使用它们自动为CNN训练注释大量图像。然后,我们研究了一类高效的MobileNet CNN,并根据形状回归的任务调整这些模型。我们对三个数据集的评估证明了我们模型的速度和大小的显着改进,同时保持了最先进的重建精度。
translated by 谷歌翻译
自动生成与视频内容时间对齐的文本视频描述是计算机视觉中的长期目标。由于难以弥合视觉和自然语言域之间的语义差异,这项任务具有挑战性。本文讨论了在一组指令和演示活动的第一人称视频之间自动生成对齐的任务。书面指令的稀疏描述和模糊性产生了重大的对齐挑战。 ourapproach的关键是使用自我中心线索来生成一组简明的动作提示,然后使用对象识别和计算语言技术将其与配方步骤相匹配。我们在扩展的GTEA Gaze +数据集和Bristol Egocentric Object InteractionsDataset上获得了有希望的结果。
translated by 谷歌翻译
视频中的时空动作检测通常在严格监督的设置中解决,其中每帧都需要手动注释训练视频。由于这种注释非常繁琐且禁止可用性,因此显然需要最小化手动监视的数量。在这项工作中,我们提出了一个统一的框架,可以处理和组合不同类型的要求较低的弱监督。我们的模型基于差异聚类,并集成了不同类型的监督作为优化的约束。我们研究这种模型的应用,其中包括从时间点或稀疏动作边界框上的视频级类标签到动作边界框的全帧注释的替代监督信号。对具有挑战性的URF101-24和DALY数据集的实验证明了我们方法的竞争性能,这是以前方法所使用的一小部分监督。我们模型的灵活性使得能够从具有不同注释水平的数据进行联合学习。实验结果通过向其他弱标记视频添加一些完全监督的示例而显示出显着的增益。
translated by 谷歌翻译
本文讨论了人类行为在视频中的时空定位。为了及时本地化行动,我们提出了一种经常性的本地化网络(RecLNet),旨在模拟人类轨道上的动作的时间结构。我们的模型经过训练,能够及时识别和定位动作类别,并且基于分别应用于两个流的两层门控循环单元(GRU),即外观和光流。当与最先进的人物检测和跟踪一起使用时,我们的模型被证明可以极大地改善视频中的时空动作本地化。显示增益主要是由于改进的时间定位。我们在最近的两个空间 - 时间定位数据集UCF101-24和DALY上评估了我们的方法,证明了现有技术的显着改进。
translated by 谷歌翻译