由于布料的复杂动态,缺乏低维状态表示和自闭合,机器人操纵布的机器人操纵对机器人来说仍然具有挑战性。与以前的基于模型的基于模型的方法形成对比,用于学习基于像素的动态模型或压缩潜伏的潜在载体动态,我们建议从部分点云观察中学习基于粒子的动力学模型。为了克服部分可观察性的挑战,我们推出在底层布料网上连接的可见点。然后,我们通过此可见连接图来学习动态模型。与以往的基于学习的方法相比,我们的模型与其基于粒子的表示具有强烈的感应偏差,用于学习底层布理物理学;它不变于视觉功能;并且预测可以更容易地可视化。我们表明我们的方法极大地优于以前的最先进的模型和无模型加强学习方法在模拟中。此外,我们展示了零拍摄的SIM-to-Real Transfer,在那里我们部署了在法兰卡臂上的模拟中培训的模型,并表明该模型可以从弄皱的配置中成功平滑不同类型的布料。视频可以在我们的项目网站上找到。
translated by 谷歌翻译
自我咬合对于布料操纵而具有挑战性,因为这使得很难估计布的全部状态。理想情况下,试图展开弄皱或折叠的布的机器人应该能够对布的遮挡区域进行推理。我们利用姿势估计的最新进展来构建一种使用明确的遮挡推理来展开皱巴布的系统的系统。具体来说,我们首先学习一个模型来重建布的网格。但是,由于布构型的复杂性以及遮挡的歧义,该模型可能会出现错误。我们的主要见解是,我们可以通过进行自我监督的损失进行测试时间填充来进一步完善预测的重建。获得的重建网格使我们能够在推理遮挡的同时使用基于网格的动力学模型来计划。我们在布料上和布料规范化上评估了系统,其目的是将布操作成典型的姿势。我们的实验表明,我们的方法显着优于未明确解释闭塞或执行测试时间优化的先验方法。可以在我们的$ \ href {https://sites.google.com/view/occlusion-reason/home/home} {\ text {project {project {project}}}上找到视频和可视化。
translated by 谷歌翻译
机器人对高度可变形的布的操纵提供了一个有前途的机会,可以帮助人们完成几项日常任务,例如洗碗;折叠洗衣;或针对患有严重运动障碍的人的敷料,沐浴和卫生援助。在这项工作中,我们介绍了一种公式,该公式使协作机器人能够用布做出视觉触觉推理,这是在物理互动过程中推断应用力的位置和大小的行为。我们提出了两种不同的模型表示,并在物理模拟中训练,它们仅使用视觉和机器人运动学观测来实现触觉推理。我们对这些模型进行了定量评估,以模拟机器人辅助的调味料,沐浴和洗碗任务,并证明训练有素的模型可以通过不同的相互作用,人体大小和物体形状跨越不同的任务。我们还通过现实世界中的移动操纵器提出了结果,该操作器使用我们的模拟训练模型来估计应用接触力,同时用布料执行物理辅助任务。可以在我们的项目网页上找到视频。
translated by 谷歌翻译
我们解决了目标定向布操纵问题,这是由于布的可变形性导致的具有挑战性的任务。我们的见解是,光流量,一种通常用于视频中运动估计的技术,还可以提供相应布在观察和目标图像上的相应布构成的有效表示。我们介绍了FabricFlowNet(FFN),布料操作策略,利用流量作为输入和作为提高性能的动作表示。 FabricFlownet也根据所需目标在Bimanual和单臂动作之间提供优雅的切换。我们表明,FabricFlownet明显优于拍摄图像输入的最先进的无模型和模型的布料操作策略。我们还在生效系统上呈现实际的实验,展示了有效的SIM-to-Real Transfer。最后,我们表明我们的方法在单个方形布上训练到其他布形时,如T恤和矩形布。视频和其他补充材料可用于:https://sites.google.com/view/fabricFlownet。
translated by 谷歌翻译
在现实世界中操纵体积变形物体,例如毛绒玩具和披萨面团,由于无限形状的变化,非刚性运动和部分可观察性带来了重大挑战。我们引入酸,这是一种基于结构性隐式神经表示的容量变形物体的动作条件视觉动力学模型。酸整合了两种新技术:动作条件动力学和基于大地测量的对比度学习的隐式表示。为了代表部分RGB-D观测值的变形动力学,我们学习了占用和基于流动的正向动态的隐式表示。为了准确识别在大型非刚性变形下的状态变化,我们通过新的基于大地测量的对比损失来学习一个对应嵌入场。为了评估我们的方法,我们开发了一个模拟框架,用于在逼真的场景中操纵复杂的可变形形状和一个基准测试,其中包含17,000多种动作轨迹,这些轨迹具有六种类型的毛绒玩具和78种变体。我们的模型在现有方法上实现了几何,对应和动态预测的最佳性能。酸动力学模型已成功地用于目标条件可变形的操纵任务,从而使任务成功率比最强的基线提高了30%。此外,我们将模拟训练的酸模型直接应用于现实世界对象,并在将它们操纵为目标配置中显示成功。有关更多结果和信息,请访问https://b0ku1.github.io/acid/。
translated by 谷歌翻译
由于难以建模彼此的材料颗粒,颗粒材料如沙子或水稻的操纵仍然是一个未解决的挑战。目前的方法倾向于简化材料动态并省略颗粒之间的相互作用。在本文中,我们建议使用基于图形的表示来模拟材料和刚体操纵它的刚体的相互作用动态。这允许规划操纵轨迹以达到材料的所需配置。我们使用图形神经网络(GNN)通过消息传递来模拟粒子交互。为了规划操纵轨迹,我们建议最小化粒状粒子分布和所需配置之间的Wasserstein距离。我们证明,在模拟和实际情况下,该方法能够将粒状材料倒入所需的配置中。
translated by 谷歌翻译
操纵任务,如装载洗碗机,可以被视为不同对象之间的空间约束和关系序列。我们的目标是通过将操纵作为图表构成操作来发现这些规则,其节点代表了对象和目标等任务相关实体,并呈现了从示范中解决此问题的图形神经网络(GNN)策略架构。在我们的实验中,使用20个专家演示的模仿学习(IL)培训的单个GNN策略可以解决块根,重排和洗碗机加载任务;一旦策略了解了空间结构,它就可以概括到更大数量的对象,目标配置,以及从模拟到现实世界。这些实验表明,图形IL可以解决复杂的长地平衡操作问题而不需要详细的任务描述。视频可以找到:https://youtu.be/poxatdaj7ay。
translated by 谷歌翻译
我们探索一种新的方法来感知和操纵3D铰接式物体,该物体可以概括地使机器人阐明看不见的对象。我们提出了一个基于视觉的系统,该系统学会预测各种铰接物体的各个部分的潜在运动,以指导系统的下游运动计划以表达对象。为了预测对象运动,我们训练一个神经网络,以输出一个密集的向量场,代表点云中点云中点的点运动方向。然后,我们根据该向量领域部署一个分析运动计划者,以实现产生最大发音的政策。我们完全在模拟中训练视觉系统,并演示了系统在模拟和现实世界中概括的对象实例和新颖类别的能力,并将我们的政策部署在没有任何填充的锯耶机器人上。结果表明,我们的系统在模拟和现实世界实验中都达到了最先进的性能。
translated by 谷歌翻译
由于高尺寸致动空间,并且手指与物体之间的接触状态频繁变化,在手中对象重新定向是机器人的一个具有挑战性的问题。我们提出了一个简单的无模型框架,可以学习使用向上和向下的手重新定位对象。我们展示了在两种情况下重新定位2000年几何不同物体的能力。学习的政策在新对象上显示了强烈的零射传动性能。我们提供了证据表明,这些政策通过蒸馏它们在现实世界中轻松获得的观察来使用观察来实现现实世界的操作。学习政策的视频可用于:https://taochenshh.github.io/projects/in-hand -reorientation。
translated by 谷歌翻译
物体很少在人类环境中孤立地坐着。因此,我们希望我们的机器人来推理多个对象如何相互关系,以及这些关系在机器人与世界互动时可能会发生变化。为此,我们提出了一个新型的图形神经网络框架,用于多对象操纵,以预测对机器人行动的影响如何变化。我们的模型在部分视图点云上运行,可以推理操作过程中动态交互的多个对象。通过在学习的潜在图嵌入空间中学习动态模型,我们的模型使多步规划可以达到目标目标关系。我们展示了我们的模型纯粹是在模拟中训练的,可以很好地传输到现实世界。我们的计划器使机器人能够使用推送和拾取和地点技能重新排列可变数量的对象。
translated by 谷歌翻译
可变形的物体操纵在我们的日常生活中具有许多应用,例如烹饪和洗衣折叠。操纵弹性塑料对象(例如面团)特别具有挑战性,因为面团缺乏紧凑的状态表示,需要接触丰富的相互作用。我们考虑将面团从RGB-D图像中变成特定形状的任务。尽管该任务对于人类来说似乎是直观的,但对于诸如幼稚轨迹优化之类的常见方法,存在局部最佳选择。我们提出了一种新型的轨迹优化器,该优化器通过可区分的“重置”模块进行优化,将单阶段的固定定位轨迹转换为多阶段的多阶段多启动轨迹,其中所有阶段均已共同优化。然后,我们对轨迹优化器生成的演示进行训练闭环政策。我们的策略将部分点云作为输入,从而使从模拟到现实世界的转移易于转移。我们表明,我们的政策可以执行现实世界的面团操纵,将面团的球弄平到目标形状。
translated by 谷歌翻译
在学识表的迅速推进的地区,几乎所有方法都训练了从输入状态直接预测未来状态的前进模型。然而,许多传统的仿真引擎使用基于约束的方法而不是直接预测。这里我们提出了一种基于约束的学习仿真的框架,其中标量约束函数被实现为神经网络,并且将来的预测被计算为在这些学习的约束下的优化问题的解决方案。我们使用图形神经网络作为约束函数和梯度下降作为约束求解器来实现我们的方法。架构可以通过标准的backprojagation培训。我们在各种具有挑战性的物理领域中测试模型,包括模拟绳索,弹跳球,碰撞不规则形状和飞溅液。我们的模型可实现更好或更具可比性的性能,以获得最佳学习的模拟器。我们模型的一个关键优势是能够在测试时间概括到更多求解器迭代,以提高模拟精度。我们还展示了如何在测试时间内添加手工制定的约束,以满足培训数据中不存在的目标,这是不可能的前进方法。我们的约束框架适用于使用前进学习模拟器的任何设置,并演示了学习的模拟器如何利用额外的归纳偏差以及来自数值方法领域的技术。
translated by 谷歌翻译
每个房屋都是不同的,每个人都喜欢以特殊方式完成的事情。因此,未来的家庭机器人需要既需要理由就日常任务的顺序性质,又要推广到用户的偏好。为此,我们提出了一个变压器任务计划者(TTP),该计划通过利用基于对象属性的表示来从演示中学习高级动作。TTP可以在多个偏好上进行预训练,并显示了使用单个演示作为模拟洗碗机加载任务中的提示的概括性的概括。此外,我们使用TTP与Franka Panda机器人臂一起展示了现实世界中的重排,并使用单一的人类示范引起了这种情况。
translated by 谷歌翻译
机器人操纵可以配制成诱导一系列空间位移:其中移动的空间可以包括物体,物体的一部分或末端执行器。在这项工作中,我们提出了一个简单的模型架构,它重新排列了深度功能,以从视觉输入推断出可视输入的空间位移 - 这可以参数化机器人操作。它没有对象的假设(例如规范姿势,模型或关键点),它利用空间对称性,并且比我们学习基于视觉的操纵任务的基准替代方案更高的样本效率,并且依赖于堆叠的金字塔用看不见的物体组装套件;从操纵可变形的绳索,以将堆积的小物体推动,具有闭环反馈。我们的方法可以表示复杂的多模态策略分布,并推广到多步顺序任务,以及6dof拾取器。 10个模拟任务的实验表明,它比各种端到端基线更快地学习并概括,包括使用地面真实对象姿势的政策。我们在现实世界中使用硬件验证我们的方法。实验视频和代码可在https://transporternets.github.io获得
translated by 谷歌翻译
我们提出了一种从基于隐式对象编码器,神经辐射字段(NERFS)和图神经网络的图像观测值中学习组成多对象动力学模型的方法。由于其强大的3D先验,NERF已成为代表场景的流行选择。但是,大多数NERF方法都在单个场景上进行了训练,以全球模型代表整个场景,从而对新型场景进行概括,其中包含不同数量的对象,具有挑战性。取而代之的是,我们提出了一个以对象为中心的自动编码器框架,该框架将场景的多个视图映射到一组分别表示每个对象的潜在向量。潜在矢量参数化可以从中重建场景的单个nerf。基于那些潜在向量,我们在潜在空间中训练图形神经网络动力学模型,以实现动力学预测的组成性。我们方法的一个关键特征是,潜在向量被迫通过NERF解码器编码3D信息,这使我们能够在学习动力学模型中纳入结构先验,从而使长期预测与多个基线相比更加稳定。模拟和现实世界的实验表明,我们的方法可以建模和学习构图场景的动态,包括刚性和可变形对象。视频:https://dannydriess.github.io/compnerfdyn/
translated by 谷歌翻译
动态状态表示学习是机器人学习中的重要任务。可以捕获动力学信息的潜在空间在加速模型的自由强化学习,缩小模拟到现实差距以及降低运动计划的复杂性等领域中具有广泛的应用。但是,当前的动态状态表示方法在复杂的动态系统(例如可变形对象)上的扩展很差,并且不能将良好定义的仿真函数直接嵌入到训练管道中。我们提出了DIFFSRL,这是一种动态状态表示学习管道,利用可区分的模拟可以将复杂的动力学模型嵌入到端到端训练的一部分。我们还将可区分的动态约束作为管道的一部分集成,这为潜在状态提供了意识到动态约束的激励措施。我们进一步建立了在软体体模拟系统PlastonElab上学习基准的国家表示基准,我们的模型在捕获长期动态和奖励预测方面表现出了卓越的性能。
translated by 谷歌翻译
我们认为机器人布操纵的开放目标规划问题。我们系统的核心是一个神经网络,被培训为在操纵下的布料行为的前向模型,通过BackProjagation进行规划。我们介绍了一种基于神经网络的例程,用于估计来自Voxel输入的网格表示,并在内部的网格格式执行规划。我们通过明确的认知不确定性信号解决规划不完全域知识的问题。该信号由前向模型网络的两个实例之间的预测发散计算,并用于避免在规划期间的认识性不确定性。最后,我们引入用于处理掌握点的限制到一个离散的候选者的逻辑,以适应机器人硬件施加的避免结构。我们评估系统的网格估计,预测和规划能力,用于模拟布,用于一到三个操纵的序列。比较实验证实,与基于体素的规划相比,基于估计网格的规划提高了准确性,并且这种认知不确定性避免在不完全域知识的条件下提高性能。规划时间成本是几秒钟。我们还在机器人硬件上呈现定性结果。
translated by 谷歌翻译
Here we present a machine learning framework and model implementation that can learn to simulate a wide variety of challenging physical domains, involving fluids, rigid solids, and deformable materials interacting with one another. Our framework-which we term "Graph Network-based Simulators" (GNS)-represents the state of a physical system with particles, expressed as nodes in a graph, and computes dynamics via learned message-passing. Our results show that our model can generalize from single-timestep predictions with thousands of particles during training, to different initial conditions, thousands of timesteps, and at least an order of magnitude more particles at test time. Our model was robust to hyperparameter choices across various evaluation metrics: the main determinants of long-term performance were the number of message-passing steps, and mitigating the accumulation of error by corrupting the training data with noise. Our GNS framework advances the state-of-the-art in learned physical simulation, and holds promise for solving a wide range of complex forward and inverse problems.
translated by 谷歌翻译
Cloth in the real world is often crumpled, self-occluded, or folded in on itself such that key regions, such as corners, are not directly graspable, making manipulation difficult. We propose a system that leverages visual and tactile perception to unfold the cloth via grasping and sliding on edges. By doing so, the robot is able to grasp two adjacent corners, enabling subsequent manipulation tasks like folding or hanging. As components of this system, we develop tactile perception networks that classify whether an edge is grasped and estimate the pose of the edge. We use the edge classification network to supervise a visuotactile edge grasp affordance network that can grasp edges with a 90% success rate. Once an edge is grasped, we demonstrate that the robot can slide along the cloth to the adjacent corner using tactile pose estimation/control in real time. See http://nehasunil.com/visuotactile/visuotactile.html for videos.
translated by 谷歌翻译
Simulating rigid collisions among arbitrary shapes is notoriously difficult due to complex geometry and the strong non-linearity of the interactions. While graph neural network (GNN)-based models are effective at learning to simulate complex physical dynamics, such as fluids, cloth and articulated bodies, they have been less effective and efficient on rigid-body physics, except with very simple shapes. Existing methods that model collisions through the meshes' nodes are often inaccurate because they struggle when collisions occur on faces far from nodes. Alternative approaches that represent the geometry densely with many particles are prohibitively expensive for complex shapes. Here we introduce the Face Interaction Graph Network (FIGNet) which extends beyond GNN-based methods, and computes interactions between mesh faces, rather than nodes. Compared to learned node- and particle-based methods, FIGNet is around 4x more accurate in simulating complex shape interactions, while also 8x more computationally efficient on sparse, rigid meshes. Moreover, FIGNet can learn frictional dynamics directly from real-world data, and can be more accurate than analytical solvers given modest amounts of training data. FIGNet represents a key step forward in one of the few remaining physical domains which have seen little competition from learned simulators, and offers allied fields such as robotics, graphics and mechanical design a new tool for simulation and model-based planning.
translated by 谷歌翻译