在家庭中运行的机器人可以观察到多个物体在几天或几周内移动时。这些物体可以被居民移动,但不是完全随机的。稍后可以要求机器人检索对象,并需要一个基于对象的内存才能知道如何找到它们。语义大满贯中现有的工作并不试图捕获对象运动的动态。在本文中,我们将用于数据缔合过滤的经典技术与现代化的神经网络相结合,以构建基于对象的内存系统,这些系统在高维观察和假设上运行。我们对标记的观察轨迹进行端到端学习,以学习过渡和观察模型。我们证明了系统在模拟环境和真实图像中动态变化对象的记忆方面的有效性,并证明了对经典结构化方法以及非结构化神经方法的改进。在项目网站上获得的其他信息:https://yilundu.github.io/obm/。
translated by 谷歌翻译
我们提出了多视图表演者(MVP) - 从一系列时间顺序的视图中完成3D形状完成的新体系结构。MVP通过使用称为表演者的线性注意变压器来完成此任务。我们的模型允许当前对场景的观察到以前的观察,以更准确地填充。过去观察的历史通过紧凑的关联内存来压缩,该记忆近似于现代连续的霍普菲尔德内存,但至关重要的是与历史长度无关。我们将模型与几个基线进行比较,以便随着时间的推移完成形状完成,这证明了MVP提供的概括。据我们所知,MVP是第一个多重视图体素重建方法,它不需要对多个深度视图进行注册,也需要第一个基于因果变压器的模型进行3D形状完成。
translated by 谷歌翻译
本文报告了一个动态语义映射框架,该框架将3D场景流量测量纳入封闭形式的贝叶斯推理模型中。环境中动态对象的存在可能会导致当前映射算法中的伪影和痕迹,从而导致后方地图不一致。我们利用深度学习利用最新的语义细分和3D流量估计,以提供MAP推断的测量。我们开发了一个贝叶斯模型,该模型以流量传播,并渗透3D连续(即可以在任意分辨率下查询)语义占用率图优于其静态对应物的语义占用图。使用公开数据集的广泛实验表明,所提出的框架对其前身和深度神经网络的输入测量有所改善。
translated by 谷歌翻译
抓握是通过在一组触点上施加力和扭矩来挑选对象的过程。深度学习方法的最新进展允许在机器人对象抓地力方面快速进步。我们在过去十年中系统地调查了出版物,特别感兴趣使用最终效果姿势的所有6度自由度抓住对象。我们的综述发现了四种用于机器人抓钩的常见方法:基于抽样的方法,直接回归,强化学习和示例方法。此外,我们发现了围绕抓握的两种“支持方法”,这些方法使用深入学习来支持抓握过程,形状近似和负担能力。我们已经将本系统评论(85篇论文)中发现的出版物提炼为十个关键要点,我们认为对未来的机器人抓握和操纵研究至关重要。该调查的在线版本可从https://rhys-newbury.github.io/projects/6dof/获得
translated by 谷歌翻译
保持最新的地图以反映现场的最新变化非常重要,尤其是在涉及在延长环境中操作的机器人重复遍历的情况。未发现的变化可能会导致地图质量恶化,导致本地化差,操作效率低下和机器人丢失。体积方法,例如截断的签名距离功能(TSDF),由于其实时生产致密而详细的地图,尽管在随着时间的推移随着时间的流逝而变化的地图更新仍然是一个挑战,但由于它们的实时生产而迅速获得了吸引力。我们提出了一个框架,该框架引入了一种新颖的概率对象状态表示,以跟踪对象在半静态场景中的姿势变化。该表示为每个对象共同对平稳性评分和TSDF变更度量进行建模。同时加入几何信息和语义信息的贝叶斯更新规则被得出以实现一致的在线地图维护。为了与最先进的方法一起广泛评估我们的方法,我们在仓库环境中发布了一个新颖的现实数据集。我们还评估了公共Toycar数据集。我们的方法优于半静态环境重建质量的最先进方法。
translated by 谷歌翻译
Recent 3D-based manipulation methods either directly predict the grasp pose using 3D neural networks, or solve the grasp pose using similar objects retrieved from shape databases. However, the former faces generalizability challenges when testing with new robot arms or unseen objects; and the latter assumes that similar objects exist in the databases. We hypothesize that recent 3D modeling methods provides a path towards building digital replica of the evaluation scene that affords physical simulation and supports robust manipulation algorithm learning. We propose to reconstruct high-quality meshes from real-world point clouds using state-of-the-art neural surface reconstruction method (the Real2Sim step). Because most simulators take meshes for fast simulation, the reconstructed meshes enable grasp pose labels generation without human efforts. The generated labels can train grasp network that performs robustly in the real evaluation scene (the Sim2Real step). In synthetic and real experiments, we show that the Real2Sim2Real pipeline performs better than baseline grasp networks trained with a large dataset and a grasp sampling method with retrieval-based reconstruction. The benefit of the Real2Sim2Real pipeline comes from 1) decoupling scene modeling and grasp sampling into sub-problems, and 2) both sub-problems can be solved with sufficiently high quality using recent 3D learning algorithms and mesh-based physical simulation techniques.
translated by 谷歌翻译
尽管在移动机器人技术中常用的2D占用图可以在室内环境中进行安全导航,但为了让机器人理解和与其环境互动及其代表3D几何和语义环境信息的居民。语义信息对于有效解释人类归因于空间不同部分的含义至关重要,而3D几何形状对于安全性和高级理解很重要。我们提出了一条管道,该管道可以生成用于机器人应用的室内环境的多层表示。提出的表示形式包括3D度量语义层,2D占用层和对象实例层,其中已知对象被通过新型模型匹配方法获得的近似模型代替。将度量层和对象实例层组合在一起以形成对环境的增强表示形式。实验表明,当任务完成场景中对象的一部分时,提出的形状匹配方法优于最先进的深度学习方法。如F1得分分析所示,管道性能从模拟到现实世界都很好,使用蒙版R-CNN作为主要瓶颈具有语义分割精度。最后,我们还在真正的机器人平台上演示了多层地图如何用于提高导航安全性。
translated by 谷歌翻译
主动同时定位和映射(SLAM)是规划和控制机器人运动以构建周围环境中最准确,最完整的模型的问题。自从三十多年前出现了积极感知的第一项基础工作以来,该领域在不同科学社区中受到了越来越多的关注。这带来了许多不同的方法和表述,并回顾了当前趋势,对于新的和经验丰富的研究人员来说都是非常有价值的。在这项工作中,我们在主动大满贯中调查了最先进的工作,并深入研究了仍然需要注意的公开挑战以满足现代应用程序的需求。为了实现现实世界的部署。在提供了历史观点之后,我们提出了一个统一的问题制定并审查经典解决方案方案,该方案将问题分解为三个阶段,以识别,选择和执行潜在的导航措施。然后,我们分析替代方法,包括基于深入强化学习的信念空间规划和现代技术,以及审查有关多机器人协调的相关工作。该手稿以讨论新的研究方向的讨论,解决可再现的研究,主动的空间感知和实际应用,以及其他主题。
translated by 谷歌翻译
当代掌握检测方法采用深度学习,实现传感器和物体模型不确定性的鲁棒性。这两个主导的方法设计了掌握质量评分或基于锚的掌握识别网络。本文通过将其视为图像空间中的关键点检测来掌握掌握检测的不同方法。深网络检测每个掌握候选者作为一对关键点,可转换为掌握代表= {x,y,w,{\ theta}} t,而不是转角点的三态或四重奏。通过将关键点分组成对来降低检测难度提高性能。为了促进捕获关键点之间的依赖关系,将非本地模块结合到网络设计中。基于离散和连续定向预测的最终过滤策略消除了错误的对应关系,并进一步提高了掌握检测性能。此处提出的方法GKNET在康奈尔和伸缩的提花数据集上的精度和速度之间实现了良好的平衡(在41.67和23.26 fps的96.9%和98.39%)之间。操纵器上的后续实验使用4种类型的抓取实验来评估GKNet,反映不同滋扰的速度:静态抓握,动态抓握,在各种相机角度抓住,夹住。 GKNet优于静态和动态掌握实验中的参考基线,同时表现出变化的相机观点和中度杂波的稳健性。结果证实了掌握关键点是深度掌握网络的有效输出表示的假设,为预期的滋扰因素提供鲁棒性。
translated by 谷歌翻译
在现实世界中操纵体积变形物体,例如毛绒玩具和披萨面团,由于无限形状的变化,非刚性运动和部分可观察性带来了重大挑战。我们引入酸,这是一种基于结构性隐式神经表示的容量变形物体的动作条件视觉动力学模型。酸整合了两种新技术:动作条件动力学和基于大地测量的对比度学习的隐式表示。为了代表部分RGB-D观测值的变形动力学,我们学习了占用和基于流动的正向动态的隐式表示。为了准确识别在大型非刚性变形下的状态变化,我们通过新的基于大地测量的对比损失来学习一个对应嵌入场。为了评估我们的方法,我们开发了一个模拟框架,用于在逼真的场景中操纵复杂的可变形形状和一个基准测试,其中包含17,000多种动作轨迹,这些轨迹具有六种类型的毛绒玩具和78种变体。我们的模型在现有方法上实现了几何,对应和动态预测的最佳性能。酸动力学模型已成功地用于目标条件可变形的操纵任务,从而使任务成功率比最强的基线提高了30%。此外,我们将模拟训练的酸模型直接应用于现实世界对象,并在将它们操纵为目标配置中显示成功。有关更多结果和信息,请访问https://b0ku1.github.io/acid/。
translated by 谷歌翻译
成功掌握对象的能力在机器人中是至关重要的,因为它可以实现多个交互式下游应用程序。为此,大多数方法要么计算兴趣对象的完整6D姿势,要么学习预测一组掌握点。虽然前一种方法对多个对象实例或类没有很好地扩展,但后者需要大的注释数据集,并且受到新几何形状的普遍性能力差的阻碍。为了克服这些缺点,我们建议教授一个机器人如何用简单而简短的人类示范掌握一个物体。因此,我们的方法既不需要许多注释图像,也不限于特定的几何形状。我们首先介绍了一个小型RGB-D图像,显示人对象交互。然后利用该序列来构建表示所描绘的交互的相关手和对象网格。随后,我们完成重建对象形状的缺失部分,并估计了场景中的重建和可见对象之间的相对变换。最后,我们从物体和人手之间的相对姿势转移a-prioriz知识,随着当前对象在场景中的估计到机器人的必要抓握指令。与丰田的人类支持机器人(HSR)在真实和合成环境中的详尽评估证明了我们所提出的方法的适用性及其优势与以前的方法相比。
translated by 谷歌翻译
多年来,运动规划,映射和人类轨迹预测的单独领域显着提出。然而,在提供能够使移动操纵器能够执行全身运动并考虑移动障碍物的预测运动时,文献在提供实际框架方面仍然稀疏。基于以前的优化的运动计划方法,使用距离字段遭受更新环境表示所需的高计算成本。我们证明,与从头划痕计算距离场相比,GPU加速预测的复合距离场显着降低计算时间。我们将该技术与完整的运动规划和感知框架集成,其占据动态环境中的人类的预测运动,从而实现了包含预测动作的反应性和先发制人的运动规划。为实现这一目标,我们提出并实施了一种新颖的人类轨迹预测方法,该方法结合了基于轨迹优化的运动规划的意图识别。我们在现实世界丰田人类支持机器人(HSR)上验证了我们的由Onboard Camera的现场RGB-D传感器数据验证了我们的结果框架。除了在公开的数据集提供分析外,我们还释放了牛津室内人类运动(牛津-IHM)数据集,并在人类轨迹预测中展示了最先进的性能。牛津-IHM数据集是一个人类轨迹预测数据集,人们在室内环境中的兴趣区域之间行走。静态和机器人安装的RGB-D相机都观察了用运动捕获系统跟踪的人员。
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译
对环境变化进行推理的能力对于长时间运行的机器人至关重要。期望代理在操作过程中捕获变化,以便可以采取行动以确保工作会议的平稳进展。但是,由于低观测重叠和漂移对象关联,不同的视角和累积的本地化错误使机器人可以轻松地检测周围世界的变化。在本文中,基于最近提出的类别级神经描述符字段(NDFS),我们开发了一种对象级在线变更检测方法,该方法可用于部分重叠观测和嘈杂的本地化结果。利用形状的完成功能和NDF的SE(3) - 均衡性,我们表示具有紧凑形状代码的对象,从部分观测中编码完整的对象形状。然后,基于从NDF恢复的对象中心以快速查询对象社区的对象中心,将对象组织在空间树结构中。通过通过形状代码相似性与对象关联并比较局部对象 - 邻居空间布局,我们提出的方法证明了对低观察重叠和本地化噪声的鲁棒性。与多种基线方法相比,我们对合成和现实世界序列进行实验,并获得改进的变化检测结果。项目网页:https://yilundu.github.io/ndf_change
translated by 谷歌翻译
为了帮助代理在其构建块方面的场景的原因,我们希望提取任何给定场景的组成结构(特别是包括场景的对象的配置和特征)。当需要推断出现在代理的位置/观点的同时需要推断场景结构时,这个问题特别困难,因为两个变量共同引起代理人的观察。我们提出了一个无监督的变分方法来解决这个问题。利用不同场景存在的共享结构,我们的模型学会从RGB视频输入推断出两组潜在表示:一组“对象”潜伏,对应于场景的时间不变,对象级内容,如以及一组“帧”潜伏,对应于全局时变元素,例如视点。这种潜水所的分解允许我们的模型Simone,以单独的方式表示对象属性,其不依赖于视点。此外,它允许我们解解对象动态,并将其轨迹总结为时间抽象的,查看 - 不变,每个对象属性。我们在三个程序生成的视频数据集中展示了这些功能,以及在查看合成和实例分段方面的模型的性能。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
我们提出了一种生成,预测和使用时空占用网格图(SOGM)的方法,该方法嵌入了真实动态场景的未来语义信息。我们提出了一个自动标记的过程,该过程从嘈杂的真实导航数据中创建SOGM。我们使用3D-2D馈电体系结构,经过训练,可以预测SOGM的未来时间步骤,并给定3D激光镜框架作为输入。我们的管道完全是自我监督的,从而为真正的机器人提供了终身学习。该网络由一个3D后端组成,该后端提取丰富的特征并实现了激光镜框架的语义分割,以及一个2D前端,可预测SOGM表示中嵌入的未来信息,从而有可能捕获房地产的复杂性和不确定性世界多代理,多未来的互动。我们还设计了一个导航系统,该导航系统在计划中使用这些预测的SOGM在计划中,之后它们已转变为时空风险图(SRMS)。我们验证导航系统在模拟中的能力,在真实的机器人上对其进行验证,在各种情况下对真实数据进行研究SOGM预测,并提供一种新型的室内3D LIDAR数据集,该数据集在我们的实验中收集,其中包括我们的自动注释。
translated by 谷歌翻译
形状通知如何将对象掌握,无论是如何以及如何。因此,本文介绍了一种基于分割的架构,用于将用深度摄像机进行分解为多个基本形状的对象,以及用于机器人抓握的后处理管道。分段采用深度网络,称为PS-CNN,在具有6个类的原始形状和使用模拟引擎生成的合成数据上培训。每个原始形状都设计有参数化掌握家族,允许管道识别每个形状区域的多个掌握候选者。掌握是排序的排名,选择用于执行的第一个可行的。对于无任务掌握单个对象,该方法达到94.2%的成功率将其放置在顶部执行掌握方法中,与自上而下和SE(3)基础相比。涉及变量观点和杂波的其他测试展示了设置的鲁棒性。对于面向任务的掌握,PS-CNN实现了93.0%的成功率。总体而言,结果支持该假设,即在抓地管道内明确地编码形状原语应该提高掌握性能,包括无任务和任务相关的掌握预测。
translated by 谷歌翻译
Point cloud completion is a generation and estimation issue derived from the partial point clouds, which plays a vital role in the applications in 3D computer vision. The progress of deep learning (DL) has impressively improved the capability and robustness of point cloud completion. However, the quality of completed point clouds is still needed to be further enhanced to meet the practical utilization. Therefore, this work aims to conduct a comprehensive survey on various methods, including point-based, convolution-based, graph-based, and generative model-based approaches, etc. And this survey summarizes the comparisons among these methods to provoke further research insights. Besides, this review sums up the commonly used datasets and illustrates the applications of point cloud completion. Eventually, we also discussed possible research trends in this promptly expanding field.
translated by 谷歌翻译
许多涉及某种形式的3D视觉感知的机器人任务极大地受益于对工作环境的完整知识。但是,机器人通常必须应对非结构化的环境,并且由于工作空间有限,混乱或对象自我划分,它们的车载视觉传感器只能提供不完整的信息。近年来,深度学习架构的形状完成架构已开始将牵引力作为从部分视觉数据中推断出完整的3D对象表示的有效手段。然而,大多数现有的最新方法都以体素电网形式提供了固定的输出分辨率,这与神经网络输出阶段的大小严格相关。尽管这足以完成某些任务,例如导航,抓握和操纵的障碍需要更精细的分辨率,并且简单地扩大神经网络输出在计算上是昂贵的。在本文中,我们通过基于隐式3D表示的对象形状完成方法来解决此限制,该方法为每个重建点提供了置信值。作为第二个贡献,我们提出了一种基于梯度的方法,用于在推理时在任意分辨率下有效地采样这种隐式函数。我们通过将重建的形状与地面真理进行比较,并通过在机器人握把管道中部署形状完成算法来实验验证我们的方法。在这两种情况下,我们将结果与最先进的形状完成方法进行了比较。
translated by 谷歌翻译