我们提出了一个机器人学习和计划框架,该框架以最少的共同努力生成有效的工具使用策略,能够处理不同于培训的物体。利用有限元方法(FEM)基于模拟器,该模拟器在观察到的刀具使用事件给定的细粒度,连续的视觉和物理效果中,通过提出的迭代迭代符号深化回归(IDSR)算法来识别促成效果的基本物理特性。我们进一步设计了一种基于最佳控制的运动计划方案,以整合机器人和特定于工具的运动学和动力学,以产生有效的轨迹,从而实现学习性能。在模拟中,我们证明了所提出的框架可以产生更有效的工具使用策略,这与在两个示例任务中观察到的框架截然不同。
translated by 谷歌翻译
学习灵巧的操纵技巧是计算机图形和机器人技术的长期挑战,尤其是当任务涉及手,工具和物体之间的复杂而微妙的互动时。在本文中,我们专注于基于筷子的对象搬迁任务,这些任务很常见却又要求。成功的筷子技巧的关键是稳定地抓住棍棒,这也支持精致的演习。我们会自动发现贝叶斯优化(BO)和深钢筋学习(DRL)的身体有效的筷子姿势,它适用于多种握把的样式和手工形态,而无需示例数据。作为输入,我们要移动发现的抓紧姿势和所需的对象,我们构建了基于物理的手部控制器,以在两个阶段完成重定位任务。首先,运动轨迹是为筷子合成的,并处于运动计划阶段。我们运动策划者的关键组件包括一个握把模型,以选择用于抓住对象的合适筷子配置,以及一个轨迹优化模块,以生成无碰撞的筷子轨迹。然后,我们再次通过DRL训练基于物理的手部控制器,以跟踪运动计划者产生的所需运动轨迹。我们通过重新定位各种形状和尺寸的对象,以多种诱人的样式和多种手工形态的位置来展示框架的功能。与试图学习基于筷子的技能的香草系统相比,我们的系统实现了更快的学习速度和更好的控制鲁棒性,而无需抓紧姿势优化模块和/或没有运动学运动计划者。
translated by 谷歌翻译
多步兵的操纵任务(例如打开推动的儿童瓶)需要机器人来做出各种计划选择,这些选择受到在任务期间施加力量的要求所影响的各种计划。机器人必须推荐与动作顺序相关的离散和连续选择,例如是否拾取对象以及每个动作的参数,例如如何掌握对象。为了实现计划和执行有力的操纵,我们通过限制了扭矩和摩擦限制,通过拟议的有力的运动链约束来增强现有的任务和运动计划者。在三个领域,打开一个防儿童瓶,扭动螺母并切割蔬菜,我们演示了系统如何从组合组合组合中进行选择。我们还展示了如何使用成本敏感的计划来查找强大的策略和参数物理参数的不确定性。
translated by 谷歌翻译
我们探索一种新的方法来感知和操纵3D铰接式物体,该物体可以概括地使机器人阐明看不见的对象。我们提出了一个基于视觉的系统,该系统学会预测各种铰接物体的各个部分的潜在运动,以指导系统的下游运动计划以表达对象。为了预测对象运动,我们训练一个神经网络,以输出一个密集的向量场,代表点云中点云中点的点运动方向。然后,我们根据该向量领域部署一个分析运动计划者,以实现产生最大发音的政策。我们完全在模拟中训练视觉系统,并演示了系统在模拟和现实世界中概括的对象实例和新颖类别的能力,并将我们的政策部署在没有任何填充的锯耶机器人上。结果表明,我们的系统在模拟和现实世界实验中都达到了最先进的性能。
translated by 谷歌翻译
我们描述了更改 - 联系机器人操作任务的框架,要求机器人与对象和表面打破触点。这种任务的不连续交互动态使得难以构建和使用单个动力学模型或控制策略,并且接触变化期间动态的高度非线性性质可能对机器人和物体造成损害。我们提出了一种自适应控制框架,使机器人能够逐步学习以预测更改联系人任务中的接触变化,从而了解了碎片连续系统的交互动态,并使用任务空间可变阻抗控制器提供平滑且精确的轨迹跟踪。我们通过实验比较我们框架的表现,以确定所需的代表性控制方法,以确定我们框架的自适应控制和增量学习组件需要在变化 - 联系机器人操纵任务中存在不连续动态的平稳控制。
translated by 谷歌翻译
在本次调查中,我们介绍了执行需要不同于环境的操作任务的机器人的当前状态,使得机器人必须隐含地或明确地控制与环境的接触力来完成任务。机器人可以执行越来越多的人体操作任务,并且在1)主题上具有越来越多的出版物,其执行始终需要联系的任务,并且通过利用完美的任务来减轻环境来缓解不确定性信息,可以在没有联系的情况下进行。最近的趋势已经看到机器人在留下的人类留给人类,例如按摩,以及诸如PEG孔的经典任务中,对其他类似任务的概率更有效,更好的误差容忍以及更快的规划或学习任务。因此,在本调查中,我们涵盖了执行此类任务的机器人的当前阶段,从调查开始所有不同的联系方式机器人可以执行,观察这些任务是如何控制和表示的,并且最终呈现所需技能的学习和规划完成这些任务。
translated by 谷歌翻译
尽管移动操作在工业和服务机器人技术方面都重要,但仍然是一个重大挑战,因为它需要将最终效应轨迹的无缝整合与导航技能以及对长匹马的推理。现有方法难以控制大型配置空间,并导航动态和未知环境。在先前的工作中,我们建议将移动操纵任务分解为任务空间中最终效果的简化运动生成器,并将移动设备分解为训练有素的强化学习代理,以说明移动基础的运动基础,以说明运动的运动可行性。在这项工作中,我们引入了移动操作的神经导航(n $^2 $ m $^2 $),该导航将这种分解扩展到复杂的障碍环境,并使其能够解决现实世界中的广泛任务。最终的方法可以在未探索的环境中执行看不见的长马任务,同时立即对动态障碍和环境变化做出反应。同时,它提供了一种定义新的移动操作任务的简单方法。我们证明了我们提出的方法在多个运动学上多样化的移动操纵器上进行的广泛模拟和现实实验的能力。代码和视频可在http://mobile-rl.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译
本文提出了一个层次结构框架,用于计划和控制涉及使用完全插入的多指机器人手的掌握变化的刚性对象的操纵。尽管该框架可以应用于一般的灵巧操作,但我们专注于对手持操作的更复杂的定义,在该目标下,目标姿势必须达到适合使用该对象作为工具的掌握。高级别的计划者确定对象轨迹以及掌握更改,即添加,卸下或滑动手指,由低级控制器执行。尽管基于学习的策略可以适应变化,但GRASP序列是在线计划的,但用于对象跟踪和接触力控制的轨迹规划师和低级控制器仅基于模型,以稳健地实现该计划。通过将有关问题的物理和低级控制器的知识注入GRASP规划师中,它将学会成功生成类似于基于模型的优化方法生成的grasps,从而消除了此类方法的高计算成本到该方法的高度计算成本到解释变化。通过在物理模拟中进行实验,以实现现实工具使用方案,我们将在不同的工具使用任务和灵活的手模型上展示了方法的成功。此外,我们表明,与基于模型的方法相比,这种混合方法为轨迹和任务变化提供了更大的鲁棒性。
translated by 谷歌翻译
机器人将机器人的无缝集成到人类环境需要机器人来学习如何使用现有的人类工具。学习工具操纵技能的目前方法主要依赖于目标机器人环境中提供的专家演示,例如,通过手动引导机器人操纵器或通过远程操作。在这项工作中,我们介绍了一种自动化方法,取代了一个专家演示,用YouTube视频来学习工具操纵策略。主要贡献是双重的。首先,我们设计一个对齐过程,使模拟环境与视频中观察到的真实世界。这是作为优化问题,找到刀具轨迹的空间对齐,以最大化环境给出的稀疏目标奖励。其次,我们描述了一种专注于工具的轨迹而不是人类的运动的模仿学习方法。为此,我们将加强学习与优化过程相结合,以基于对准环境中的工具运动来找到控制策略和机器人的放置。我们展示了仿真中的铲子,镰刀和锤子工具的建议方法,并展示了训练有素的政策对真正的弗兰卡·埃米卡熊猫机器人示范的卫生政策的有效性。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
本文对人机对象切换的文献进行了调查。切换是一种协作的关节动作,其中代理人,给予者,给予对象给另一代理,接收器。当接收器首先与给予者持有的对象并结束时,当给予者完全将物体释放到接收器时,物理交换开始。然而,重要的认知和物理过程在物理交换之前开始,包括在交换的位置和时间内启动隐含协议。从这个角度来看,我们将审核构成了上述事件界定的两个主要阶段:1)预切换阶段和2)物理交流。我们专注于两位演员(Giver和Receiver)的分析,并报告机器人推动者(机器人到人类切换)和机器人接收器(人到机器人切换)的状态。我们举报了常用于评估互动的全面的定性和定量度量列表。虽然将我们的认知水平(例如,预测,感知,运动规划,学习)和物理水平(例如,运动,抓握,抓取释放)的审查重点,但我们简要讨论了安全的概念,社会背景,和人体工程学。我们将在人对人物助手中显示的行为与机器人助手的最新进行比较,并确定机器人助剂的主要改善领域,以达到与人类相互作用相当的性能。最后,我们提出了一种应使用的最小度量标准,以便在方法之间进行公平比较。
translated by 谷歌翻译
在家庭环境中的机器人辅助喂养是具有挑战性的,因为它需要机器人来产生轨迹,从而有效地将不同形状的食物带入口腔,同时确保用户舒适。我们的主要洞察力是,为了解决这一挑战,机器人必须平衡喂食食品的效率,舒适的每一件咬。我们将舒适性和效率正式纳入运动规划。我们提出了一种基于启发式导向的双向探索随机树(H-BIRRT)的方法,可以使用我们发达的咬合效率和舒适启发式和学习的约束模型选择任意食品几何形状和形状的咬合转移轨迹。实际机器人评估表明,优化舒适性和效率显着优于基于固定姿势的方法,并且用户更优选我们的方法,比仅最大限度地提高用户舒适度的方法。视频和附录在我们的网站上找到:https://sites.google.com/view/comfortbitetransfer-icra22/home。
translated by 谷歌翻译
抓握是通过在一组触点上施加力和扭矩来挑选对象的过程。深度学习方法的最新进展允许在机器人对象抓地力方面快速进步。我们在过去十年中系统地调查了出版物,特别感兴趣使用最终效果姿势的所有6度自由度抓住对象。我们的综述发现了四种用于机器人抓钩的常见方法:基于抽样的方法,直接回归,强化学习和示例方法。此外,我们发现了围绕抓握的两种“支持方法”,这些方法使用深入学习来支持抓握过程,形状近似和负担能力。我们已经将本系统评论(85篇论文)中发现的出版物提炼为十个关键要点,我们认为对未来的机器人抓握和操纵研究至关重要。该调查的在线版本可从https://rhys-newbury.github.io/projects/6dof/获得
translated by 谷歌翻译
混乱环境中的机器人操纵通常需要多个对象的复杂和顺序重排,以实现目标对象的所需重新配置。由于在这种情况下涉及复杂的身体互动,基于重新安排的操作仍然仅限于一小部分任务,并且尤其容易受到物理不确定性和感知噪声的影响。本文提出了一个计划框架,该框架利用了基于抽样的计划方法的效率,并通过动态控制计划范围来关闭操作循环。我们的方法交织了计划和执行,以逐步实现操纵目标,同时纠正过程中的任何错误或路径偏差。同时,我们的框架允许在不需要明确的目标配置的情况下定义操纵目标,从而使机器人能够灵活地与所有对象进行交互以促进对目标的操纵。通过在模拟和真实机器人中进行广泛的实验,我们在混乱的环境中评估了三个操纵任务的框架:抓握,重新安置和分类。与两种基线方法相比,我们表明我们的框架可以显着提高计划效率,对身体不确定性的鲁棒性以及在有限时间预算下的任务成功率。
translated by 谷歌翻译
我们设计一个3D场景图表示,触点图+(CG+),以进行有效的顺序任务计划。此触点基于图形的表示,带有类似谓词的属性,带有简洁的几何信息和有效的机器人风格交互作用摘要场景布局。可以通过随机优化方法的遗传算法生成触点图上自然指定的目标配置。然后,通过计算初始触点图和目标配置之间的图形编辑距离(GED)来初始化任务计划,该图形配置生成了与可能的机器人操作相对应的图表编辑操作。我们通过强加约束来调节图形编辑操作的时间可行性,确保有效的任务和运动对应关系来最终确定任务计划。在一系列的模拟和实验中,机器人成功完成了使用常规规划语言(如计划域定义语言(PDDL))很难指定的复杂顺序重新安排任务,证明了机器人在接触图上的高可行性和潜力。
translated by 谷歌翻译
我们介绍了栖息地2.0(H2.0),这是一个模拟平台,用于培训交互式3D环境和复杂物理的场景中的虚拟机器人。我们为体现的AI堆栈 - 数据,仿真和基准任务做出了全面的贡献。具体来说,我们提出:(i)复制:一个由艺术家的,带注释的,可重新配置的3D公寓(匹配真实空间)与铰接对象(例如可以打开/关闭的橱柜和抽屉); (ii)H2.0:一个高性能物理学的3D模拟器,其速度超过8-GPU节点上的每秒25,000个模拟步骤(实时850x实时),代表先前工作的100倍加速;和(iii)家庭助理基准(HAB):一套辅助机器人(整理房屋,准备杂货,设置餐桌)的一套常见任务,以测试一系列移动操作功能。这些大规模的工程贡献使我们能够系统地比较长期结构化任务中的大规模加固学习(RL)和经典的感官平面操作(SPA)管道,并重点是对新对象,容器和布局的概括。 。我们发现(1)与层次结构相比,(1)平面RL政策在HAB上挣扎; (2)具有独立技能的层次结构遭受“交接问题”的困扰,(3)水疗管道比RL政策更脆。
translated by 谷歌翻译
最近在体现AI中的研究已经通过使用模拟环境来开发和培训机器人学习方法。然而,使用模拟已经引起了只需要机器人模拟器可以模拟的任务:运动和物理接触的任务。我们呈现IGIBSON 2.0,一个开源仿真环境,通过三个关键创新支持模拟更多样化的家庭任务。首先,IGIBSON 2.0支持对象状态,包括温度,湿度水平,清洁度和切割和切片状态,以涵盖更广泛的任务。其次,IGIBSON 2.0实现了一组谓词逻辑函数,该逻辑函数将模拟器状态映射到烹饪或浸泡等逻辑状态。另外,给定逻辑状态,IGIBSON 2.0可以对满足它的有效物理状态进行示例。此功能可以以最少的努力从用户生成潜在的无限实例。采样机制允许我们的场景在语义有意义的位置中的小对象更密集地填充。第三,IGIBSON 2.0包括虚拟现实(VR)界面,以将人类浸入其场景以收集示威操作。因此,我们可以从这些新型任务中收集人类的示威活动,并使用它们进行模仿学习。我们评估了IGIBSON 2.0的新功能,以实现新的任务的机器人学习,希望能够展示这一新模拟器的潜力来支持体现AI的新研究。 IGIBSON 2.0及其新数据集可在http://svl.stanford.edu/igibson/上公开提供。
translated by 谷歌翻译
本文提出了一种以非零速度的效果友好型捕捉对象的混合优化和学习方法。通过受约束的二次编程问题,该方法生成最佳轨迹,直至机器人和对象之间的接触点,以最小化其相对速度并减少初始影响力。接下来,生成的轨迹是由基于人类的捕捉演示的旋风动作原始词更新的,以确保围绕接口点的平稳过渡。此外,学习的人类可变刚度(HVS)被发送到机器人的笛卡尔阻抗控制器,以吸收后影响力并稳定捕获位置。进行了三个实验,以将我们的方法与固定位置阻抗控制器(FP-IC)进行比较。结果表明,所提出的方法的表现优于FP-IC,同时添加HVS可以更好地吸收影响后力。
translated by 谷歌翻译
在工厂或房屋等环境中协助我们的机器人必须学会使用对象作为执行任务的工具,例如使用托盘携带对象。我们考虑了学习常识性知识何时可能有用的问题,以及如何与其他工具一起使用其使用以完成由人类指示的高级任务。具体而言,我们引入了一种新型的神经模型,称为Tooltango,该模型首先预测要使用的下一个工具,然后使用此信息来预测下一项动作。我们表明,该联合模型可以告知学习精细的策略,从而使机器人可以顺序使用特定工具,并在使模型更加准确的情况下增加了重要价值。 Tooltango使用图神经网络编码世界状态,包括对象和它们之间的符号关系,并使用人类教师的演示进行了培训,这些演示是指导物理模拟器中的虚拟机器人的演示。该模型学会了使用目标和动作历史的知识来参加场景,最终将符号动作解码为执行。至关重要的是,我们解决了缺少一些已知工具的看不见的环境的概括,但是存在其他看不见的工具。我们表明,通过通过从知识库中得出的预训练的嵌入来增强环境的表示,该模型可以有效地将其推广到新的环境中。实验结果表明,在预测具有看不见对象的新型环境中模拟移动操纵器的成功符号计划时,至少48.8-58.1%的绝对改善对基准的绝对改善。这项工作朝着使机器人能够快速合成复杂任务的强大计划的方向,尤其是在新颖的环境中
translated by 谷歌翻译
在现实世界中,教授多指的灵巧机器人在现实世界中掌握物体,这是一个充满挑战的问题,由于其高维状态和动作空间。我们提出了一个机器人学习系统,该系统可以进行少量的人类示范,并学会掌握在某些被遮挡的观察结果的情况下掌握看不见的物体姿势。我们的系统利用了一个小型运动捕获数据集,并为多指的机器人抓手生成具有多种多样且成功的轨迹的大型数据集。通过添加域随机化,我们表明我们的数据集提供了可以将其转移到策略学习者的强大抓地力轨迹。我们训练一种灵活的抓紧策略,该策略将对象的点云作为输入,并预测连续的动作以从不同初始机器人状态掌握对象。我们在模拟中评估了系统对22多伏的浮动手的有效性,并在现实世界中带有kuka手臂的23多杆Allegro机器人手。从我们的数据集中汲取的政策可以很好地概括在模拟和现实世界中的看不见的对象姿势
translated by 谷歌翻译