使用单个参数化动态动作操纵可变形物体对蝇钓,宽毯和播放洗牌板等任务非常有用。此类任务作为输入所需的最终状态并输出一个参数化的开环动态机器人动作,它向最终状态产生轨迹。这对于具有涉及摩擦力的复杂动态的长地平轨迹尤其具有挑战性。本文探讨了平面机器人铸造的任务(PRC):其中握住电缆一端的机器人手腕的一个平面运动使另一端朝向所需的目标滑过平面。 PRC允许电缆达到机器人工作区以外的点,并在家庭,仓库和工厂中具有电缆管理的应用。为了有效地学习给定电缆的PRC策略,我们提出了Real2Sim2Real,一个自动收集物理轨迹示例的自我监督框架,以使用差分演进调谐动态模拟器的参数,生成许多模拟示例,然后使用加权学习策略模拟和物理数据的组合。我们使用三种模拟器,ISAAC健身房分段,ISAAC健身房 - 混合动力和Pybullet,两个功能近似器,高斯工艺和神经网络(NNS),以及具有不同刚度,扭转和摩擦的三个电缆。结果每条电缆的16个举出的测试目标表明,使用ISAAC健身房分段的NN PRC策略达到中位误差距离(电缆长度的百分比),范围为8%至14%,表现优于真实或仅培训的基线和政策。只有模拟的例子。 https://tinyurl.com/robotcast可以使用代码,数据和视频。
translated by 谷歌翻译
最近的工作表明,2臂“ Fling”运动对于服装平滑可能是有效的。我们考虑单臂弹性运动。与几乎不需要机器人轨迹参数调整的2臂fling运动不同,单臂fling运动对轨迹参数很敏感。我们考虑一个单一的6多机器人臂,该机器人臂学习跨越轨迹以实现高衣覆盖率。给定服装抓握点,机器人在物理实验中探索了不同的参数化fling轨迹。为了提高学习效率,我们提出了一种粗到精细的学习方法,该方法首先使用多军匪徒(MAB)框架有效地找到候选动作,然后通过连续优化方法来完善。此外,我们提出了基于Fling Fall结果不确定性的新颖培训和执行时间停止标准。与基线相比,我们表明所提出的方法显着加速学习。此外,由于通过自学人员收集的类似服装的先前经验,新服装的MAB学习时间最多减少了87%。我们评估了6种服装类型:毛巾,T恤,长袖衬衫,礼服,汗衫和牛仔裤。结果表明,使用先前的经验,机器人需要30分钟以下的时间才能为达到60-94%覆盖率的新型服装学习一项动作。
translated by 谷歌翻译
我们解决了使四足机器人能够使用强化学习在现实世界中执行精确的射击技巧的问题。开发算法使腿部机器人能够向给定的目标射击足球,这是一个具有挑战性的问题,它将机器人运动控制和计划结合到一项任务中。为了解决这个问题,我们需要考虑控制动态腿部机器人期间的动态限制和运动稳定性。此外,我们需要考虑运动计划,以在地面上射击难以模拟的可变形球,并不确定摩擦到所需的位置。在本文中,我们提出了一个层次结构框架,该框架利用深厚的强化学习来训练(a)强大的运动控制政策,可以跟踪任意动议,以及(b)一项计划政策,以决定所需的踢球运动将足球射击到目标。我们将提议的框架部署在A1四足动物机器人上,使其能够将球准确地射击到现实世界中的随机目标。
translated by 谷歌翻译
学习灵巧的操纵技巧是计算机图形和机器人技术的长期挑战,尤其是当任务涉及手,工具和物体之间的复杂而微妙的互动时。在本文中,我们专注于基于筷子的对象搬迁任务,这些任务很常见却又要求。成功的筷子技巧的关键是稳定地抓住棍棒,这也支持精致的演习。我们会自动发现贝叶斯优化(BO)和深钢筋学习(DRL)的身体有效的筷子姿势,它适用于多种握把的样式和手工形态,而无需示例数据。作为输入,我们要移动发现的抓紧姿势和所需的对象,我们构建了基于物理的手部控制器,以在两个阶段完成重定位任务。首先,运动轨迹是为筷子合成的,并处于运动计划阶段。我们运动策划者的关键组件包括一个握把模型,以选择用于抓住对象的合适筷子配置,以及一个轨迹优化模块,以生成无碰撞的筷子轨迹。然后,我们再次通过DRL训练基于物理的手部控制器,以跟踪运动计划者产生的所需运动轨迹。我们通过重新定位各种形状和尺寸的对象,以多种诱人的样式和多种手工形态的位置来展示框架的功能。与试图学习基于筷子的技能的香草系统相比,我们的系统实现了更快的学习速度和更好的控制鲁棒性,而无需抓紧姿势优化模块和/或没有运动学运动计划者。
translated by 谷歌翻译
可区分的仿真是用于基于快速梯度的策略优化和系统识别的有前途的工具包。但是,现有的可区分仿真方法在很大程度上已经解决了获得平滑梯度相对容易的方案,例如具有光滑动力学的系统。在这项工作中,我们研究了可区分的模拟所面临的挑战,当时单个下降不可行,这通常是全球最佳的,这通常是接触率丰富的方案中的问题。我们分析包含刚体和可变形物体的各种情况的优化景观。在具有高度可变形的物体和流体的动态环境中,可区分的模拟器在空间的某些地方生产具有有用梯度的坚固景观。我们提出了一种将贝叶斯优化与半本地“飞跃”相结合的方法,以获得可以有效使用梯度的全局搜索方法,同时还可以在具有嘈杂梯度的地区保持稳健的性能。我们表明,我们的方法在模拟中的一组实验集上优于几个基于梯度和无梯度的基线,并且还使用具有真实机器人和变形物的实验验证该方法。视频和补充材料可从https://tinyurl.com/globdiff获得
translated by 谷歌翻译
可变形的物体操纵在我们的日常生活中具有许多应用,例如烹饪和洗衣折叠。操纵弹性塑料对象(例如面团)特别具有挑战性,因为面团缺乏紧凑的状态表示,需要接触丰富的相互作用。我们考虑将面团从RGB-D图像中变成特定形状的任务。尽管该任务对于人类来说似乎是直观的,但对于诸如幼稚轨迹优化之类的常见方法,存在局部最佳选择。我们提出了一种新型的轨迹优化器,该优化器通过可区分的“重置”模块进行优化,将单阶段的固定定位轨迹转换为多阶段的多阶段多启动轨迹,其中所有阶段均已共同优化。然后,我们对轨迹优化器生成的演示进行训练闭环政策。我们的策略将部分点云作为输入,从而使从模拟到现实世界的转移易于转移。我们表明,我们的政策可以执行现实世界的面团操纵,将面团的球弄平到目标形状。
translated by 谷歌翻译
仿真最近已成为深度加强学习,以安全有效地从视觉和预防性投入获取一般和复杂的控制政策的关键。尽管它与环境互动直接关系,但通常认为触觉信息通常不会被认为。在这项工作中,我们展示了一套针对触觉机器人和加强学习量身定制的模拟环境。提供了一种简单且快速的模拟光学触觉传感器的方法,其中高分辨率接触几何形状表示为深度图像。近端策略优化(PPO)用于学习所有考虑任务的成功策略。数据驱动方法能够将实际触觉传感器的当前状态转换为对应的模拟深度图像。此策略在物理机器人上实时控制循环中实现,以演示零拍摄的SIM-TO-REAL策略转移,以触摸感的几个物理交互式任务。
translated by 谷歌翻译
紧张的机器人由刚性杆和柔性电缆组成,表现出高强度对重的比率和极端变形,使它们能够驾驭非结构化的地形,甚至可以在严酷的冲击力上生存。但是,由于其高维,复杂的动态和耦合体系结构,它们很难控制。基于物理学的仿真是制定运动策略的途径,然后可以将其转移到真实的机器人中,但是建模时态机器人是一项复杂的任务,因此模拟会经历大量的SIM2REAL间隙。为了解决这个问题,本文介绍了台词机器人的真实2SIM2REAL策略。该策略是基于差异物理引擎的,可以在真正的机器人(即离线测量和一个随机轨迹)中进行有限的数据进行训练,并达到足够高的精度以发现可转移的运动策略。除了整体管道之外,这项工作的主要贡献包括在接触点处计算非零梯度,损失函数和轨迹分割技术,该技术避免了训练期间梯度评估的冲突。在实际的3杆张力机器人上证明并评估了所提出的管道。
translated by 谷歌翻译
Figure 1: A five-fingered humanoid hand trained with reinforcement learning manipulating a block from an initial configuration to a goal configuration using vision for sensing.
translated by 谷歌翻译
由于配置空间的高维度以及受各种材料特性影响的动力学的复杂性,布料操纵是一项具有挑战性的任务。复杂动力学的效果甚至在动态折叠中更为明显,例如,当平方板通过单个操纵器将一块织物折叠为两种时。为了说明复杂性和不确定性,使用例如通常需要视觉。但是,构建动态布折叠的视觉反馈政策是一个开放的问题。在本文中,我们提出了一种解决方案,该解决方案可以使用强化学习(RL)学习模拟政策,并将学识渊博的政策直接转移到现实世界中。此外,要学习一种操纵多种材料的单一策略,我们将模拟中的材料属性随机化。我们评估了现实世界实验中视觉反馈和材料随机化的贡献。实验结果表明,所提出的解决方案可以使用现实世界中的动态操作成功地折叠不同的面料类型。代码,数据和视频可从https://sites.google.com/view/dynamic-cloth-folding获得
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译
我们探索一种新的方法来感知和操纵3D铰接式物体,该物体可以概括地使机器人阐明看不见的对象。我们提出了一个基于视觉的系统,该系统学会预测各种铰接物体的各个部分的潜在运动,以指导系统的下游运动计划以表达对象。为了预测对象运动,我们训练一个神经网络,以输出一个密集的向量场,代表点云中点云中点的点运动方向。然后,我们根据该向量领域部署一个分析运动计划者,以实现产生最大发音的政策。我们完全在模拟中训练视觉系统,并演示了系统在模拟和现实世界中概括的对象实例和新颖类别的能力,并将我们的政策部署在没有任何填充的锯耶机器人上。结果表明,我们的系统在模拟和现实世界实验中都达到了最先进的性能。
translated by 谷歌翻译
在现实世界中,教授多指的灵巧机器人在现实世界中掌握物体,这是一个充满挑战的问题,由于其高维状态和动作空间。我们提出了一个机器人学习系统,该系统可以进行少量的人类示范,并学会掌握在某些被遮挡的观察结果的情况下掌握看不见的物体姿势。我们的系统利用了一个小型运动捕获数据集,并为多指的机器人抓手生成具有多种多样且成功的轨迹的大型数据集。通过添加域随机化,我们表明我们的数据集提供了可以将其转移到策略学习者的强大抓地力轨迹。我们训练一种灵活的抓紧策略,该策略将对象的点云作为输入,并预测连续的动作以从不同初始机器人状态掌握对象。我们在模拟中评估了系统对22多伏的浮动手的有效性,并在现实世界中带有kuka手臂的23多杆Allegro机器人手。从我们的数据集中汲取的政策可以很好地概括在模拟和现实世界中的看不见的对象姿势
translated by 谷歌翻译
深度学习的兴起导致机器人研究中的范式转变,有利于需要大量数据的方法。在物理平台上生成这样的数据集是昂贵的。因此,最先进的方法在模拟中学习,其中数据生成快速以及廉价并随后将知识转移到真实机器人(SIM-to-Real)。尽管变得越来越真实,但所有模拟器都是基于模型的施工,因此不可避免地不完善。这提出了如何修改模拟器以促进学习机器人控制政策的问题,并克服模拟与现实之间的不匹配,通常称为“现实差距”。我们对机器人学的SIM-Teal研究提供了全面的审查,专注于名为“域随机化”的技术,这是一种从随机仿真学习的方法。
translated by 谷歌翻译
长期以来,可变形的物体操纵任务被视为具有挑战性的机器人问题。但是,直到最近,对这个主题的工作很少,大多数机器人操纵方法正在为刚性物体开发。可变形的对象更难建模和模拟,这限制了对模型的增强学习(RL)策略的使用,因为它们需要仅在模拟中满足的大量数据。本文提出了针对可变形线性对象(DLOS)的新形状控制任务。更值得注意的是,我们介绍了有关弹性塑性特性对这种类型问题的影响的第一个研究。在各种应用中发现具有弹性性的物体(例如金属线),并且由于其非线性行为而挑战。我们首先强调了从RL角度来解决此类操纵任务的挑战,尤其是在定义奖励时。然后,基于差异几何形状的概念,我们提出了使用离散曲率和扭转的固有形状表示。最后,我们通过一项实证研究表明,为了成功地使用深层确定性策略梯度(DDPG)成功解决所提出的任务,奖励需要包括有关DLO形状的内在信息。
translated by 谷歌翻译
鉴于存在复杂的动力学和大量DOF,由刚性杆和柔性电缆组成的紧张机器人难以准确地建模和控制。最近已经提出了可微分的物理发动机作为数据驱动的方法,用于模型识别此类复杂的机器人系统。这些发动机通常以高频执行以实现准确的模拟。但是,由于现实世界传感器的局限性,通常在如此高的频率下,通常无法在训练可区分发动机的地面真相轨迹。目前的工作着重于此频率不匹配,这会影响建模准确性。我们为紧张的机器人的可区分物理发动机提出了一个经常性结构,即使使用低频轨迹也可以有效地训练。为了以强大的方式训练这款新的经常性引擎,这项工作相对于先前的工作介绍:(i)一种新的隐式集成方案,(ii)渐进式培训管道,以及(iii)可区分的碰撞检查器。 NASA在Mujoco上的Icosahedron Superballbot的模型被用作收集培训数据的地面真实系统。模拟实验表明,一旦对Mujoco的低频轨迹进行了训练,对复发性可区分发动机进行了训练,它就可以匹配Mujoco系统的行为。成功的标准是,是否可以将使用可区分发动机的运动策略传递回地面真相系统,并导致类似的运动。值得注意的是,训练可区分发动机所需的地面真相数据数量,使该政策可以转移到地面真实系统中,是直接在地面真相系统上训练政策所需的数据的1%。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
抓握是通过在一组触点上施加力和扭矩来挑选对象的过程。深度学习方法的最新进展允许在机器人对象抓地力方面快速进步。我们在过去十年中系统地调查了出版物,特别感兴趣使用最终效果姿势的所有6度自由度抓住对象。我们的综述发现了四种用于机器人抓钩的常见方法:基于抽样的方法,直接回归,强化学习和示例方法。此外,我们发现了围绕抓握的两种“支持方法”,这些方法使用深入学习来支持抓握过程,形状近似和负担能力。我们已经将本系统评论(85篇论文)中发现的出版物提炼为十个关键要点,我们认为对未来的机器人抓握和操纵研究至关重要。该调查的在线版本可从https://rhys-newbury.github.io/projects/6dof/获得
translated by 谷歌翻译
模拟到现实的转移已成为一种流行且非常成功的方法,用于培训各种任务的机器人控制政策。但是,确定在模拟中训练的政策何时准备将其转移到物理世界通常是一个挑战。部署经过很少的模拟数据训练的策略可能会导致物理硬件的不可靠和危险行为。另一方面,模拟中的过度训练会导致策略过度拟合模拟器的视觉外观和动力学。在这项工作中,我们研究了自动确定在模拟中训练的策略何时可以可靠地转移到物理机器人的策略。我们在机器人织物操纵的背景下专门研究了这些思想,因为成功建模织物的动力学和视觉外观的困难,成功的SIM2Real转移尤其具有挑战性。导致织物平滑任务表明我们的切换标准与实际的性能很好地相关。特别是,我们基于信心的切换标准在培训总预算的55-60%之内达到了87.2-93.7%的平均最终面料覆盖率。有关代码和补充材料,请参见https://tinyurl.com/lsc-case。
translated by 谷歌翻译
虽然机器人提供了一个机会,为老年人和床上移动性损伤的人提供物理援助,但人们经常在床上休息,毯子覆盖着他们的大部分的毯子。为许多日常自我保健任务提供帮助,例如沐浴,敷料或守护,护理人员必须先从人体的一部分揭开毯子。在这项工作中,我们介绍了一个关于机器人床上用品操作的制定,其中一个机器人从目标身体部位揭开毯子,同时确保人体的其余部分仍然被覆盖。我们比较两种方法来优化提供具有掌握和释放点的机器人的策略,即揭示身体的目标部分:1)加强学习和2)通过优化来生成培训数据的自我监督学习。我们在物理模拟环境中培训并进行了评估,该政策包括覆盖床上模拟人类仰卧的可变形布网格。此外,我们还将模拟训练的政策转移到真正的移动操纵器,并证明它可以从躺在床上的人体模型的目标身体部位揭开毯子。源代码在线获取。
translated by 谷歌翻译