我们解决了目标定向布操纵问题,这是由于布的可变形性导致的具有挑战性的任务。我们的见解是,光流量,一种通常用于视频中运动估计的技术,还可以提供相应布在观察和目标图像上的相应布构成的有效表示。我们介绍了FabricFlowNet(FFN),布料操作策略,利用流量作为输入和作为提高性能的动作表示。 FabricFlownet也根据所需目标在Bimanual和单臂动作之间提供优雅的切换。我们表明,FabricFlownet明显优于拍摄图像输入的最先进的无模型和模型的布料操作策略。我们还在生效系统上呈现实际的实验,展示了有效的SIM-to-Real Transfer。最后,我们表明我们的方法在单个方形布上训练到其他布形时,如T恤和矩形布。视频和其他补充材料可用于:https://sites.google.com/view/fabricFlownet。
translated by 谷歌翻译
Fabric manipulation is a long-standing challenge in robotics due to the enormous state space and complex dynamics. Learning approaches stand out as promising for this domain as they allow us to learn behaviours directly from data. Most prior methods however rely heavily on simulation, which is still limited by the large sim-to-real gap of deformable objects or rely on large datasets. A promising alternative is to learn fabric manipulation directly from watching humans perform the task. In this work, we explore how demonstrations for fabric manipulation tasks can be collected directly by human hands, providing an extremely natural and fast data collection pipeline. Then, using only a handful of such demonstrations, we show how a sample-efficient pick-and-place policy can be learned and deployed on a real robot, without any robot data collection at all. We demonstrate our approach on a fabric folding task, showing that our policy can reliably reach folded states from crumpled initial configurations.
translated by 谷歌翻译
由于布料的复杂动态,缺乏低维状态表示和自闭合,机器人操纵布的机器人操纵对机器人来说仍然具有挑战性。与以前的基于模型的基于模型的方法形成对比,用于学习基于像素的动态模型或压缩潜伏的潜在载体动态,我们建议从部分点云观察中学习基于粒子的动力学模型。为了克服部分可观察性的挑战,我们推出在底层布料网上连接的可见点。然后,我们通过此可见连接图来学习动态模型。与以往的基于学习的方法相比,我们的模型与其基于粒子的表示具有强烈的感应偏差,用于学习底层布理物理学;它不变于视觉功能;并且预测可以更容易地可视化。我们表明我们的方法极大地优于以前的最先进的模型和无模型加强学习方法在模拟中。此外,我们展示了零拍摄的SIM-to-Real Transfer,在那里我们部署了在法兰卡臂上的模拟中培训的模型,并表明该模型可以从弄皱的配置中成功平滑不同类型的布料。视频可以在我们的项目网站上找到。
translated by 谷歌翻译
折叠服装可靠,有效地是由于服装的复杂动力学和高尺寸配置空间,在机器人操作中是一项漫长的挑战。一种直观的方法是最初在折叠之前将服装操纵到典型的平滑配置。在这项工作中,我们开发了一种可靠且高效的双人系统,将用户定义的指令视为折叠线,将最初弄皱的服装操纵为(1)平滑和(2)折叠配置。我们的主要贡献是一种新型的神经网络体系结构,能够预测成对的握把姿势,以参数化各种双人动作原始序列。在从4300次人类注销和自我监督的动作中学习后,机器人能够平均从120年代以下的随机初始配置折叠服装,成功率为93%。现实世界实验表明,该系统能够概括到不同颜色,形状和刚度的服装。虽然先前的工作每小时达到3-6倍(FPH),但SpeedFolding却达到30-40 FPH。
translated by 谷歌翻译
机器人操纵可以配制成诱导一系列空间位移:其中移动的空间可以包括物体,物体的一部分或末端执行器。在这项工作中,我们提出了一个简单的模型架构,它重新排列了深度功能,以从视觉输入推断出可视输入的空间位移 - 这可以参数化机器人操作。它没有对象的假设(例如规范姿势,模型或关键点),它利用空间对称性,并且比我们学习基于视觉的操纵任务的基准替代方案更高的样本效率,并且依赖于堆叠的金字塔用看不见的物体组装套件;从操纵可变形的绳索,以将堆积的小物体推动,具有闭环反馈。我们的方法可以表示复杂的多模态策略分布,并推广到多步顺序任务,以及6dof拾取器。 10个模拟任务的实验表明,它比各种端到端基线更快地学习并概括,包括使用地面真实对象姿势的政策。我们在现实世界中使用硬件验证我们的方法。实验视频和代码可在https://transporternets.github.io获得
translated by 谷歌翻译
自我咬合对于布料操纵而具有挑战性,因为这使得很难估计布的全部状态。理想情况下,试图展开弄皱或折叠的布的机器人应该能够对布的遮挡区域进行推理。我们利用姿势估计的最新进展来构建一种使用明确的遮挡推理来展开皱巴布的系统的系统。具体来说,我们首先学习一个模型来重建布的网格。但是,由于布构型的复杂性以及遮挡的歧义,该模型可能会出现错误。我们的主要见解是,我们可以通过进行自我监督的损失进行测试时间填充来进一步完善预测的重建。获得的重建网格使我们能够在推理遮挡的同时使用基于网格的动力学模型来计划。我们在布料上和布料规范化上评估了系统,其目的是将布操作成典型的姿势。我们的实验表明,我们的方法显着优于未明确解释闭塞或执行测试时间优化的先验方法。可以在我们的$ \ href {https://sites.google.com/view/occlusion-reason/home/home} {\ text {project {project {project}}}上找到视频和可视化。
translated by 谷歌翻译
我们探索一种新的方法来感知和操纵3D铰接式物体,该物体可以概括地使机器人阐明看不见的对象。我们提出了一个基于视觉的系统,该系统学会预测各种铰接物体的各个部分的潜在运动,以指导系统的下游运动计划以表达对象。为了预测对象运动,我们训练一个神经网络,以输出一个密集的向量场,代表点云中点云中点的点运动方向。然后,我们根据该向量领域部署一个分析运动计划者,以实现产生最大发音的政策。我们完全在模拟中训练视觉系统,并演示了系统在模拟和现实世界中概括的对象实例和新颖类别的能力,并将我们的政策部署在没有任何填充的锯耶机器人上。结果表明,我们的系统在模拟和现实世界实验中都达到了最先进的性能。
translated by 谷歌翻译
重新安排任务已被确定为智能机器人操纵的关键挑战,但是很少有方法可以精确构造看不见的结构。我们为挑选重排操作提供了视觉远见模型,该模型能够有效地学习。此外,我们开发了一个多模式的动作提案模块,该模块建立在目标条件转运者网络上,这是一种最新的模仿学习方法。我们基于图像的任务计划方法,具有视觉前瞻性的转运蛋白,只能从少数数据中学习,并以零拍的方式推广到多个看不见的任务。 TVF能够提高对模拟和真实机器人实验中看不见的任务的最先进模仿学习方法的性能。特别是,在模拟实验中,看不见的任务的平均成功率从55.4%提高到78.5%,而在实际机器人实验中,只有数十次专家示范。视频和代码可在我们的项目网站上找到:https://chirikjianlab.github.io/tvf/
translated by 谷歌翻译
非结构化环境中的多步操纵任务对于学习的机器人来说非常具有挑战性。这些任务相互作用,包括可以获得的预期状态,可以实现整体任务和低级推理,以确定哪些行动将产生这些国家。我们提出了一种无模型的深度加强学习方法来学习多步理操作任务。我们介绍了一个基于视觉的模型架构的机器人操纵网络(ROMANNET),以了解动作值函数并预测操纵操作候选。我们定义基于Gaussian(TPG)奖励函数的任务进度,基于导致成功的动作原语的行动和实现整体任务目标的进展来计算奖励。为了平衡探索/剥削的比率,我们介绍了一个损失调整后的探索(LAE)政策,根据亏损估计的Boltzmann分配来确定来自行动候选人的行动。我们通过培训ROMANNET来展示我们方法的有效性,以了解模拟和现实世界中的几个挑战的多步机械管理任务。实验结果表明,我们的方法优于现有的方法,并在成功率和行动效率方面实现了最先进的性能。消融研究表明,TPG和LAE对多个块堆叠的任务特别有益。代码可用:https://github.com/skumra/romannet
translated by 谷歌翻译
我们调查视觉跨实施的模仿设置,其中代理商学习来自其他代理的视频(例如人类)的策略,示范相同的任务,但在其实施例中具有缺点差异 - 形状,动作,终效应器动态等。在这项工作中,我们证明可以从对这些差异强大的跨实施例证视频自动发现和学习基于视觉的奖励功能。具体而言,我们介绍了一种用于跨实施的跨实施的自我监督方法(XIRL),它利用时间周期 - 一致性约束来学习深度视觉嵌入,从而从多个专家代理的示范的脱机视频中捕获任务进度,每个都执行相同的任务不同的原因是实施例差异。在我们的工作之前,从自我监督嵌入产生奖励通常需要与参考轨迹对齐,这可能难以根据STARK实施例的差异来获取。我们凭经验显示,如果嵌入式了解任务进度,则只需在学习的嵌入空间中占据当前状态和目标状态之间的负距离是有用的,作为培训与加强学习的培训政策的奖励。我们发现我们的学习奖励功能不仅适用于在训练期间看到的实施例,而且还概括为完全新的实施例。此外,在将现实世界的人类示范转移到模拟机器人时,我们发现XIRL比当前最佳方法更具样本。 https://x-irl.github.io提供定性结果,代码和数据集
translated by 谷歌翻译
由于配置空间的高维度以及受各种材料特性影响的动力学的复杂性,布料操纵是一项具有挑战性的任务。复杂动力学的效果甚至在动态折叠中更为明显,例如,当平方板通过单个操纵器将一块织物折叠为两种时。为了说明复杂性和不确定性,使用例如通常需要视觉。但是,构建动态布折叠的视觉反馈政策是一个开放的问题。在本文中,我们提出了一种解决方案,该解决方案可以使用强化学习(RL)学习模拟政策,并将学识渊博的政策直接转移到现实世界中。此外,要学习一种操纵多种材料的单一策略,我们将模拟中的材料属性随机化。我们评估了现实世界实验中视觉反馈和材料随机化的贡献。实验结果表明,所提出的解决方案可以使用现实世界中的动态操作成功地折叠不同的面料类型。代码,数据和视频可从https://sites.google.com/view/dynamic-cloth-folding获得
translated by 谷歌翻译
我们研究了复杂几何物体的机器人堆叠问题。我们提出了一个挑战和多样化的这些物体,这些物体被精心设计,以便要求超出简单的“拾取”解决方案之外的策略。我们的方法是加强学习(RL)方法与基于视觉的互动政策蒸馏和模拟到现实转移相结合。我们的学习政策可以有效地处理现实世界中的多个对象组合,并展示各种各样的堆叠技能。在一个大型的实验研究中,我们调查在模拟中学习这种基于视觉的基于视觉的代理的选择,以及对真实机器人的最佳转移产生了什么影响。然后,我们利用这些策略收集的数据并通过离线RL改善它们。我们工作的视频和博客文章作为补充材料提供。
translated by 谷歌翻译
在现实世界中操纵体积变形物体,例如毛绒玩具和披萨面团,由于无限形状的变化,非刚性运动和部分可观察性带来了重大挑战。我们引入酸,这是一种基于结构性隐式神经表示的容量变形物体的动作条件视觉动力学模型。酸整合了两种新技术:动作条件动力学和基于大地测量的对比度学习的隐式表示。为了代表部分RGB-D观测值的变形动力学,我们学习了占用和基于流动的正向动态的隐式表示。为了准确识别在大型非刚性变形下的状态变化,我们通过新的基于大地测量的对比损失来学习一个对应嵌入场。为了评估我们的方法,我们开发了一个模拟框架,用于在逼真的场景中操纵复杂的可变形形状和一个基准测试,其中包含17,000多种动作轨迹,这些轨迹具有六种类型的毛绒玩具和78种变体。我们的模型在现有方法上实现了几何,对应和动态预测的最佳性能。酸动力学模型已成功地用于目标条件可变形的操纵任务,从而使任务成功率比最强的基线提高了30%。此外,我们将模拟训练的酸模型直接应用于现实世界对象,并在将它们操纵为目标配置中显示成功。有关更多结果和信息,请访问https://b0ku1.github.io/acid/。
translated by 谷歌翻译
机器人的大多数对象操纵策略都是基于以下假设:对象是刚性(即具有固定几何形状),并且目标的细节已完全指定(例如,确切的目标姿势)。但是,有许多任务涉及人类环境中的空间关系,这些条件可能难以满足,例如弯曲和将电缆放入未知容器中。为了在非结构化的环境中开发先进的机器人操纵功能,以避免这些假设,我们提出了一个新颖的长马框架,该框架利用了对比计划来寻找有希望的协作行动。使用随机操作收集的仿真数据,我们以对比方式学习一个嵌入模型,该模型从成功的体验中编码时空信息,从而通过在潜在空间中的聚类来促进次目标计划。基于基于KePoint对应的操作参数化,我们为双臂之间的协作设计了领导者追随者控制方案。我们政策的所有模型均经过模拟自动培训,可以直接传输到现实世界环境中。为了验证所提出的框架,我们对模拟和真实环境中的环境和可及性约束,对复杂场景进行了详细的实验研究。
translated by 谷歌翻译
Cloth in the real world is often crumpled, self-occluded, or folded in on itself such that key regions, such as corners, are not directly graspable, making manipulation difficult. We propose a system that leverages visual and tactile perception to unfold the cloth via grasping and sliding on edges. By doing so, the robot is able to grasp two adjacent corners, enabling subsequent manipulation tasks like folding or hanging. As components of this system, we develop tactile perception networks that classify whether an edge is grasped and estimate the pose of the edge. We use the edge classification network to supervise a visuotactile edge grasp affordance network that can grasp edges with a 90% success rate. Once an edge is grasped, we demonstrate that the robot can slide along the cloth to the adjacent corner using tactile pose estimation/control in real time. See http://nehasunil.com/visuotactile/visuotactile.html for videos.
translated by 谷歌翻译
在现实世界中,教授多指的灵巧机器人在现实世界中掌握物体,这是一个充满挑战的问题,由于其高维状态和动作空间。我们提出了一个机器人学习系统,该系统可以进行少量的人类示范,并学会掌握在某些被遮挡的观察结果的情况下掌握看不见的物体姿势。我们的系统利用了一个小型运动捕获数据集,并为多指的机器人抓手生成具有多种多样且成功的轨迹的大型数据集。通过添加域随机化,我们表明我们的数据集提供了可以将其转移到策略学习者的强大抓地力轨迹。我们训练一种灵活的抓紧策略,该策略将对象的点云作为输入,并预测连续的动作以从不同初始机器人状态掌握对象。我们在模拟中评估了系统对22多伏的浮动手的有效性,并在现实世界中带有kuka手臂的23多杆Allegro机器人手。从我们的数据集中汲取的政策可以很好地概括在模拟和现实世界中的看不见的对象姿势
translated by 谷歌翻译
变形金刚用大型数据集的扩展能力彻底改变了视力和自然语言处理。但是在机器人的操作中,数据既有限又昂贵。我们仍然可以从具有正确的问题制定的变压器中受益吗?我们用Peract进行了调查,这是一种用于多任务6 DOF操纵的语言条件的行为结合剂。 Peract用感知器变压器编码语言目标和RGB-D Voxel观测值,并通过“检测下一个最佳素素动作”来输出离散的动作。与在2D图像上运行的框架不同,体素化的观察和动作空间为有效学习的6-DOF策略提供了强大的结构性先验。通过此公式,我们训练一个单个多任务变压器,用于18个RLBench任务(具有249个变体)和7个现实世界任务(具有18个变体),从每个任务仅几个演示。我们的结果表明,针对各种桌面任务,佩内的磨损明显优于非结构化图像到作用剂和3D Convnet基准。
translated by 谷歌翻译
虽然对理解计算机视觉中的手对象交互进行了重大进展,但机器人执行复杂的灵巧操纵仍然非常具有挑战性。在本文中,我们提出了一种新的平台和管道DEXMV(来自视频的Dexerous操纵)以进行模仿学习。我们设计了一个平台:(i)具有多指机器人手和(ii)计算机视觉系统的复杂灵巧操纵任务的仿真系统,以记录进行相同任务的人类手的大规模示范。在我们的小说管道中,我们从视频中提取3D手和对象姿势,并提出了一种新颖的演示翻译方法,将人类运动转换为机器人示范。然后,我们将多个仿制学习算法与演示进行应用。我们表明,示威活动确实可以通过大幅度提高机器人学习,并解决独自增强学习无法解决的复杂任务。具有视频的项目页面:https://yzqin.github.io/dexmv
translated by 谷歌翻译
长摩根和包括一系列隐性子任务的日常任务仍然在离线机器人控制中构成了重大挑战。尽管许多先前的方法旨在通过模仿和离线增强学习的变体来解决这种设置,但学习的行为通常是狭窄的,并且经常努力实现可配置的长匹配目标。由于这两个范式都具有互补的优势和劣势,因此我们提出了一种新型的层次结构方法,结合了两种方法的优势,以从高维相机观察中学习任务无关的长胜压策略。具体而言,我们结合了一项低级政策,该政策通过模仿学习和从离线强化学习中学到的高级政策学习潜在的技能,以促进潜在的行为先验。各种模拟和真实机器人控制任务的实验表明,我们的配方使以前看不见的技能组合能够通过“缝制”潜在技能通过目标链条,并在绩效上提高绩效的顺序,从而实现潜在的目标。艺术基线。我们甚至还学习了一个多任务视觉运动策略,用于现实世界中25个不同的操纵任务,这既优于模仿学习和离线强化学习技术。
translated by 谷歌翻译
尽管移动操作在工业和服务机器人技术方面都重要,但仍然是一个重大挑战,因为它需要将最终效应轨迹的无缝整合与导航技能以及对长匹马的推理。现有方法难以控制大型配置空间,并导航动态和未知环境。在先前的工作中,我们建议将移动操纵任务分解为任务空间中最终效果的简化运动生成器,并将移动设备分解为训练有素的强化学习代理,以说明移动基础的运动基础,以说明运动的运动可行性。在这项工作中,我们引入了移动操作的神经导航(n $^2 $ m $^2 $),该导航将这种分解扩展到复杂的障碍环境,并使其能够解决现实世界中的广泛任务。最终的方法可以在未探索的环境中执行看不见的长马任务,同时立即对动态障碍和环境变化做出反应。同时,它提供了一种定义新的移动操作任务的简单方法。我们证明了我们提出的方法在多个运动学上多样化的移动操纵器上进行的广泛模拟和现实实验的能力。代码和视频可在http://mobile-rl.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译