机器人需要能够从用户学习概念,以便将其功能调整到每个用户的唯一任务。但是当机器人在高维输入上运行时,如图像或点云,这是不切实际的:机器人需要一种不切实际的人类努力来学习新概念。为了解决这一挑战,我们提出了一种新方法,其中机器人学习概念的低维变体,并使用它来生成更大的数据集,用于在高维空间中学习概念。这使得只有在训练时间等地访问的语义上有意义的特权信息,如对象姿势和边界框,这允许更丰富的人类交互来加速学习。我们通过学习介词概念来评估我们的方法,这些概念描述了对象状态或多对象关系,如上面,近,近或对齐,这是用户规范任务目标和机器人的执行约束的关键。使用模拟人类,我们表明,与直接在高维空间中的学习概念相比,我们的方法可以提高样本复杂性。我们还展示了学习概念在7 DOF法兰卡熊猫机器人上的运动规划任务中的效用。
translated by 谷歌翻译
When robots learn reward functions using high capacity models that take raw state directly as input, they need to both learn a representation for what matters in the task -- the task ``features" -- as well as how to combine these features into a single objective. If they try to do both at once from input designed to teach the full reward function, it is easy to end up with a representation that contains spurious correlations in the data, which fails to generalize to new settings. Instead, our ultimate goal is to enable robots to identify and isolate the causal features that people actually care about and use when they represent states and behavior. Our idea is that we can tune into this representation by asking users what behaviors they consider similar: behaviors will be similar if the features that matter are similar, even if low-level behavior is different; conversely, behaviors will be different if even one of the features that matter differs. This, in turn, is what enables the robot to disambiguate between what needs to go into the representation versus what is spurious, as well as what aspects of behavior can be compressed together versus not. The notion of learning representations based on similarity has a nice parallel in contrastive learning, a self-supervised representation learning technique that maps visually similar data points to similar embeddings, where similarity is defined by a designer through data augmentation heuristics. By contrast, in order to learn the representations that people use, so we can learn their preferences and objectives, we use their definition of similarity. In simulation as well as in a user study, we show that learning through such similarity queries leads to representations that, while far from perfect, are indeed more generalizable than self-supervised and task-input alternatives.
translated by 谷歌翻译
我们呈现神经描述符字段(NDFS),对象表示,其通过类别级别描述符在对象和目标(例如用于悬挂的机器人夹具或用于悬挂的机架)之间进行编码和相对姿势。我们使用此表示进行对象操作,在这里,在给定任务演示时,我们要在同一类别中对新对象实例重复相同的任务。我们建议通过搜索(通过优化)来实现这一目标,为演示中观察到的描述符匹配的姿势。 NDFS通过不依赖于专家标记的关键点的3D自动编码任务,方便地以自我监督的方式培训。此外,NDFS是SE(3) - 保证在所有可能的3D对象翻译和旋转中推广的性能。我们展示了在仿真和真正的机器人上的少数(5-10)示范中的操纵任务的学习。我们的性能遍历两个对象实例和6-DOF对象姿势,并且显着优于最近依赖于2D描述符的基线。项目网站:https://yilundu.github.io/ndf/。
translated by 谷歌翻译
抓握是通过在一组触点上施加力和扭矩来挑选对象的过程。深度学习方法的最新进展允许在机器人对象抓地力方面快速进步。我们在过去十年中系统地调查了出版物,特别感兴趣使用最终效果姿势的所有6度自由度抓住对象。我们的综述发现了四种用于机器人抓钩的常见方法:基于抽样的方法,直接回归,强化学习和示例方法。此外,我们发现了围绕抓握的两种“支持方法”,这些方法使用深入学习来支持抓握过程,形状近似和负担能力。我们已经将本系统评论(85篇论文)中发现的出版物提炼为十个关键要点,我们认为对未来的机器人抓握和操纵研究至关重要。该调查的在线版本可从https://rhys-newbury.github.io/projects/6dof/获得
translated by 谷歌翻译
在现实世界中,教授多指的灵巧机器人在现实世界中掌握物体,这是一个充满挑战的问题,由于其高维状态和动作空间。我们提出了一个机器人学习系统,该系统可以进行少量的人类示范,并学会掌握在某些被遮挡的观察结果的情况下掌握看不见的物体姿势。我们的系统利用了一个小型运动捕获数据集,并为多指的机器人抓手生成具有多种多样且成功的轨迹的大型数据集。通过添加域随机化,我们表明我们的数据集提供了可以将其转移到策略学习者的强大抓地力轨迹。我们训练一种灵活的抓紧策略,该策略将对象的点云作为输入,并预测连续的动作以从不同初始机器人状态掌握对象。我们在模拟中评估了系统对22多伏的浮动手的有效性,并在现实世界中带有kuka手臂的23多杆Allegro机器人手。从我们的数据集中汲取的政策可以很好地概括在模拟和现实世界中的看不见的对象姿势
translated by 谷歌翻译
机器人需要在约束环境(例如架子和橱柜)中操纵物体,以帮助人类在房屋和办公室等日常设置中。这些限制因减少掌握能力而变得难以操纵,因此机器人需要使用非忽视策略来利用对象环境联系来执行操纵任务。为了应对在这种情况下规划和控制接触性富裕行为的挑战,该工作使用混合力量速度控制器(HFVC)作为技能表示和计划的技能序列,并使用学到的先决条件进行了计划。尽管HFVC自然能够实现稳健且合规的富裕行为,但合成它们的求解器传统上依赖于精确的对象模型和对物体姿势的闭环反馈,这些反馈因遮挡而在约束环境中很难获得。我们首先使用HFVC综合框架放松了HFVC对精确模型和反馈的需求,然后学习一个基于点云的前提函数,以对HFVC执行仍将成功地进行分类,尽管建模不正确。最后,我们在基于搜索的任务计划者中使用学到的前提来完成货架域中的接触式操纵任务。我们的方法达到了$ 73.2 \%$的任务成功率,表现优于基线实现的$ 51.5 \%$,而没有学习的先决条件。在模拟中训练了前提函数时,它也可以转移到现实世界中,而无需进行其他微调。
translated by 谷歌翻译
Robots operating in human environments must be able to rearrange objects into semantically-meaningful configurations, even if these objects are previously unseen. In this work, we focus on the problem of building physically-valid structures without step-by-step instructions. We propose StructDiffusion, which combines a diffusion model and an object-centric transformer to construct structures out of a single RGB-D image based on high-level language goals, such as "set the table." Our method shows how diffusion models can be used for complex multi-step 3D planning tasks. StructDiffusion improves success rate on assembling physically-valid structures out of unseen objects by on average 16% over an existing multi-modal transformer model, while allowing us to use one multi-task model to produce a wider range of different structures. We show experiments on held-out objects in both simulation and on real-world rearrangement tasks. For videos and additional results, check out our website: http://weiyuliu.com/StructDiffusion/.
translated by 谷歌翻译
机器人操纵可以配制成诱导一系列空间位移:其中移动的空间可以包括物体,物体的一部分或末端执行器。在这项工作中,我们提出了一个简单的模型架构,它重新排列了深度功能,以从视觉输入推断出可视输入的空间位移 - 这可以参数化机器人操作。它没有对象的假设(例如规范姿势,模型或关键点),它利用空间对称性,并且比我们学习基于视觉的操纵任务的基准替代方案更高的样本效率,并且依赖于堆叠的金字塔用看不见的物体组装套件;从操纵可变形的绳索,以将堆积的小物体推动,具有闭环反馈。我们的方法可以表示复杂的多模态策略分布,并推广到多步顺序任务,以及6dof拾取器。 10个模拟任务的实验表明,它比各种端到端基线更快地学习并概括,包括使用地面真实对象姿势的政策。我们在现实世界中使用硬件验证我们的方法。实验视频和代码可在https://transporternets.github.io获得
translated by 谷歌翻译
Generating grasp poses is a crucial component for any robot object manipulation task. In this work, we formulate the problem of grasp generation as sampling a set of grasps using a variational autoencoder and assess and refine the sampled grasps using a grasp evaluator model. Both Grasp Sampler and Grasp Refinement networks take 3D point clouds observed by a depth camera as input. We evaluate our approach in simulation and real-world robot experiments. Our approach achieves 88% success rate on various commonly used objects with diverse appearances, scales, and weights. Our model is trained purely in simulation and works in the real world without any extra steps. The video of our experiments can be found here.
translated by 谷歌翻译
在本文中,我们探讨了机器人是否可以学会重新应用一组多样的物体以实现各种所需的掌握姿势。只要机器人的当前掌握姿势未能执行所需的操作任务,需要重新扫描。具有这种能力的赋予机器人具有在许多领域中的应用,例如制造或国内服务。然而,由于日常物体中的几何形状和状态和行动空间的高维度,这是一个具有挑战性的任务。在本文中,我们提出了一种机器人系统,用于将物体的部分点云和支持环境作为输入,输出序列和放置操作的序列来转换到所需的对象掌握姿势。关键技术包括神经稳定放置预测器,并通过利用和改变周围环境来引发基于图形的解决方案。我们介绍了一个新的和具有挑战性的合成数据集,用于学习和评估所提出的方法。我们展示了我们提出的系统与模拟器和现实世界实验的有效性。我们的项目网页上有更多视频和可视化示例。
translated by 谷歌翻译
对于旨在提供家庭服务,搜索和救援,狭窄的检查和医疗援助的机器人来说,在未知,混乱的环境中进行积极的感测和计划是一个公开挑战。尽管存在许多主动感应方法,但它们通常考虑开放空间,假设已知设置,或者大多不概括为现实世界的场景。我们介绍了活跃的神经传感方法,该方法通过手持摄像头生成机器人操纵器的运动学可行视点序列,以收集重建基础环境所需的最小观测值。我们的框架积极收集视觉RGBD观测值,将它们汇总到场景表示中,并执行对象形状推断,以避免与环境的不必要的机器人相互作用。我们使用域随机化训练我们的合成数据方法,并通过SIM到实现的传递成功地执行了其成功执行,以重建狭窄,覆盖的,现实的机柜环境,这些环境杂乱无章。由于周围的障碍物和环境较低的照明条件,自然机柜场景对机器人运动和场景重建构成了重大挑战。然而,尽管设置不利,但就各种环境重建指标(包括计划速度,观点数量和整体场景覆盖)而言,我们的方法与基线相比表现出高性能。
translated by 谷歌翻译
Grasp learning has become an exciting and important topic in robotics. Just a few years ago, the problem of grasping novel objects from unstructured piles of clutter was considered a serious research challenge. Now, it is a capability that is quickly becoming incorporated into industrial supply chain automation. How did that happen? What is the current state of the art in robotic grasp learning, what are the different methodological approaches, and what machine learning models are used? This review attempts to give an overview of the current state of the art of grasp learning research.
translated by 谷歌翻译
One of the most successful paradigms for reward learning uses human feedback in the form of comparisons. Although these methods hold promise, human comparison labeling is expensive and time consuming, constituting a major bottleneck to their broader applicability. Our insight is that we can greatly improve how effectively human time is used in these approaches by batching comparisons together, rather than having the human label each comparison individually. To do so, we leverage data dimensionality-reduction and visualization techniques to provide the human with a interactive GUI displaying the state space, in which the user can label subportions of the state space. Across some simple Mujoco tasks, we show that this high-level approach holds promise and is able to greatly increase the performance of the resulting agents, provided the same amount of human labeling time.
translated by 谷歌翻译
由于高尺寸致动空间,并且手指与物体之间的接触状态频繁变化,在手中对象重新定向是机器人的一个具有挑战性的问题。我们提出了一个简单的无模型框架,可以学习使用向上和向下的手重新定位对象。我们展示了在两种情况下重新定位2000年几何不同物体的能力。学习的政策在新对象上显示了强烈的零射传动性能。我们提供了证据表明,这些政策通过蒸馏它们在现实世界中轻松获得的观察来使用观察来实现现实世界的操作。学习政策的视频可用于:https://taochenshh.github.io/projects/in-hand -reorientation。
translated by 谷歌翻译
每个房屋都是不同的,每个人都喜欢以特殊方式完成的事情。因此,未来的家庭机器人需要既需要理由就日常任务的顺序性质,又要推广到用户的偏好。为此,我们提出了一个变压器任务计划者(TTP),该计划通过利用基于对象属性的表示来从演示中学习高级动作。TTP可以在多个偏好上进行预训练,并显示了使用单个演示作为模拟洗碗机加载任务中的提示的概括性的概括。此外,我们使用TTP与Franka Panda机器人臂一起展示了现实世界中的重排,并使用单一的人类示范引起了这种情况。
translated by 谷歌翻译
在机器人技术中,以可扩展的方式构建各种操纵技巧的曲目仍然是一个未解决的挑战。解决这一挑战的一种方法是在非结构化的人类游戏中,人类在环境中自由运作以实现未指定的目标。游戏是一种简单且廉价的方法,用于收集各种用户演示,并在环境中进行广泛的状态和目标覆盖。由于这种不同的覆盖范围,现有的从游戏中学习的方法对离线数据分布的在线政策偏差更加牢固。但是,这些方法通常很难在场景变化和具有挑战性的操纵基础上学习,部分原因是将复杂的行为与他们引起的场景变化联系起来。我们的见解是,以对象数据为中心的观点可以帮助将人类的行为和所产生的环境变化联系起来,从而改善多任务策略学习。在这项工作中,我们构建了一个潜在空间来建模对象\ textit {proffances} - 在环境中定义其用途的对象的属性,然后学习实现所需负担的策略。通过对可变范围任务进行建模和预测所需的负担,我们的方法通过以对象为中心的游戏(PLATO)预测潜在的负担,在2D和3D对象操纵模拟和现实世界环境中,在复杂的操纵任务上的现有方法优于现有方法互动。可以在我们的网站上找到视频:https://tinyurl.com/4U23HWFV
translated by 谷歌翻译
3D视觉输入的对象操纵对构建可宽大的感知和政策模型构成了许多挑战。然而,现有基准中的3D资产主要缺乏与拓扑和几何中的现实世界内复杂的3D形状的多样性。在这里,我们提出了Sapien操纵技能基准(Manishill)以在全物理模拟器中的各种物体上基准操纵技巧。 Manishill中的3D资产包括大型课堂内拓扑和几何变化。仔细选择任务以涵盖不同类型的操纵挑战。 3D Vision的最新进展也使我们认为我们应该定制基准,以便挑战旨在邀请研究3D深入学习的研究人员。为此,我们模拟了一个移动的全景摄像头,返回以自我为中心的点云或RGB-D图像。此外,我们希望Manishill是为一个对操纵研究感兴趣的广泛研究人员提供服务。除了支持从互动的政策学习,我们还支持学习 - 从演示(LFD)方法,通过提供大量的高质量演示(〜36,000个成功的轨迹,总共〜1.5米点云/ RGB-D帧)。我们提供使用3D深度学习和LFD算法的基线。我们的基准(模拟器,环境,SDK和基线)的所有代码都是开放的,并且将基于基准举办跨学科研究人员面临的挑战。
translated by 谷歌翻译
学识渊博的视觉运动策略已取得了相当大的成功,作为用于机器人操纵的传统手工制作框架的替代方法。令人惊讶的是,这些方法向多视域域的扩展相对尚未探索。可以在移动操作平台上部署成功的多视策略,从而使机器人可以完成任务,无论其场景的看法如何。在这项工作中,我们证明可以通过从各种观点收集数据来通过模仿学习来找到多览策略。我们通过在模拟环境和真实的移动操纵平台上学习完成几个具有挑战性的多阶段和接触任务来说明该方法的一般适用性。此外,与从固定角度收集的数据相比,我们分析了我们的政策,以确定从多视图数据中学习的好处。我们表明,与使用等效量的固定视图数据相比,从多视图数据中学习对固定视图任务的惩罚很少(如果有的话)。最后,我们研究了多视图和固定视图策略所学的视觉特征。我们的结果表明,多视图策略隐含地学习识别与空间相关的特征。
translated by 谷歌翻译
在以人为本的环境中工作的机器人需要知道场景中存在哪种物体,以及如何掌握和操纵不同情况下的各种对象,以帮助人类在日常任务中。因此,对象识别和抓握是此类机器人的两个关键功能。最先进的解决物体识别并将其抓握为两个单独的问题,同时都使用可视输入。此外,在训练阶段之后,机器人的知识是固定的。在这种情况下,如果机器人面临新的对象类别,则必须从划痕中重新培训以结合新信息而无需灾难性干扰。为了解决这个问题,我们提出了一个深入的学习架构,具有增强的存储器能力来处理开放式对象识别和同时抓握。特别地,我们的方法将物体的多视图作为输入,并共同估计像素 - 方向掌握配置以及作为输出的深度和旋转不变表示。然后通过元主动学习技术使用所获得的表示用于开放式对象识别。我们展示了我们掌握从未见过的对象的方法的能力,并在模拟和现实世界中使用非常少数的例子在现场使用很少的例子快速学习新的对象类别。
translated by 谷歌翻译