在机器人技术中,以可扩展的方式构建各种操纵技巧的曲目仍然是一个未解决的挑战。解决这一挑战的一种方法是在非结构化的人类游戏中,人类在环境中自由运作以实现未指定的目标。游戏是一种简单且廉价的方法,用于收集各种用户演示,并在环境中进行广泛的状态和目标覆盖。由于这种不同的覆盖范围,现有的从游戏中学习的方法对离线数据分布的在线政策偏差更加牢固。但是,这些方法通常很难在场景变化和具有挑战性的操纵基础上学习,部分原因是将复杂的行为与他们引起的场景变化联系起来。我们的见解是,以对象数据为中心的观点可以帮助将人类的行为和所产生的环境变化联系起来,从而改善多任务策略学习。在这项工作中,我们构建了一个潜在空间来建模对象\ textit {proffances} - 在环境中定义其用途的对象的属性,然后学习实现所需负担的策略。通过对可变范围任务进行建模和预测所需的负担,我们的方法通过以对象为中心的游戏(PLATO)预测潜在的负担,在2D和3D对象操纵模拟和现实世界环境中,在复杂的操纵任务上的现有方法优于现有方法互动。可以在我们的网站上找到视频:https://tinyurl.com/4U23HWFV
translated by 谷歌翻译
长摩根和包括一系列隐性子任务的日常任务仍然在离线机器人控制中构成了重大挑战。尽管许多先前的方法旨在通过模仿和离线增强学习的变体来解决这种设置,但学习的行为通常是狭窄的,并且经常努力实现可配置的长匹配目标。由于这两个范式都具有互补的优势和劣势,因此我们提出了一种新型的层次结构方法,结合了两种方法的优势,以从高维相机观察中学习任务无关的长胜压策略。具体而言,我们结合了一项低级政策,该政策通过模仿学习和从离线强化学习中学到的高级政策学习潜在的技能,以促进潜在的行为先验。各种模拟和真实机器人控制任务的实验表明,我们的配方使以前看不见的技能组合能够通过“缝制”潜在技能通过目标链条,并在绩效上提高绩效的顺序,从而实现潜在的目标。艺术基线。我们甚至还学习了一个多任务视觉运动策略,用于现实世界中25个不同的操纵任务,这既优于模仿学习和离线强化学习技术。
translated by 谷歌翻译
与人类在环境中共存的通用机器人必须学会将人类语言与其在一系列日常任务中有用的看法和行动联系起来。此外,他们需要获取各种曲目的一般专用技能,允许通过遵循无约束语言指示来组成长地平任务。在本文中,我们呈现了凯文(从语言和愿景撰写的行动),是一个露天模拟基准,用于学习Long-Horizo​​ n语言条件的任务。我们的目的是使可以开发能够通过船上传感器解决许多机器人操纵任务的代理商,并且仅通过人类语言指定。 Calvin任务在序列长度,动作空间和语言方面更复杂,而不是现有的视觉和语言任务数据集,并支持灵活的传感器套件规范。我们评估零拍摄的代理商以新颖的语言指示以及新的环境和对象。我们表明,基于多语境模仿学习的基线模型在凯文中表现不佳,表明有很大的空间,用于开发创新代理,了解学习将人类语言与这款基准相关的世界模型。
translated by 谷歌翻译
机器人技术中的一个长期目标是建立可以从使用其板载传感器获得的感知中执行各种日常任务的机器人,并且仅通过自然语言指定。尽管最近通过利用从像素的端到端学习来实现了在语言驱动的机器人技术中的实质性进步,但由于设置的基本差异,没有明确且妥善理解的过程来做出各种设计选择。在本文中,我们对从离线自由模仿数据集中学习语言条件政策的最关键挑战进行了广泛的研究。我们进一步确定了改善性能的架构和算法技术,例如机器人控制学习的层次分解,多模式变压器编码器,离散的潜在计划以及与视频和语言表示一致的自我监视的对比损失。通过将调查的结果与改进的模型组件相结合,我们能够提出一种新颖的方法,该方法在具有挑战性的语言条件长的长摩托器机器人操纵Calvin基准上大大优于最新技术。我们已经开源的实施方式,以促进未来的研究,以学习自然语言连续指定的许多复杂的操纵技能。 http://hulc.cs.uni-freiburg.de可用代码库和训练有素的模型
translated by 谷歌翻译
在移动操作(MM)中,机器人可以在内部导航并与其环境进行交互,因此能够完成比仅能够导航或操纵的机器人的更多任务。在这项工作中,我们探讨如何应用模仿学习(IL)来学习MM任务的连续Visuo-Motor策略。许多事先工作表明,IL可以为操作或导航域训练Visuo-Motor策略,但很少有效应用IL到MM域。这样做是挑战的两个原因:在数据方面,当前的接口使得收集高质量的人类示范困难,在学习方面,有限数据培训的政策可能会在部署时遭受协变速转变。为了解决这些问题,我们首先提出了移动操作Roboturk(Momart),这是一种新颖的遥控框架,允许同时导航和操纵移动操纵器,并在现实的模拟厨房设置中收集一类大规模的大规模数据集。然后,我们提出了一个学习错误检测系统来解决通过检测代理处于潜在故障状态时的协变量转变。我们从该数据中培训表演者的IL政策和错误探测器,在专家数据培训时,在多个多级任务中达到超过45%的任务成功率和85%的错误检测成功率。 CodeBase,DataSets,Visualization,以及更多可用的https://sites.google.com/view/il-for-mm/home。
translated by 谷歌翻译
在工厂或房屋等环境中协助我们的机器人必须学会使用对象作为执行任务的工具,例如使用托盘携带对象。我们考虑了学习常识性知识何时可能有用的问题,以及如何与其他工具一起使用其使用以完成由人类指示的高级任务。具体而言,我们引入了一种新型的神经模型,称为Tooltango,该模型首先预测要使用的下一个工具,然后使用此信息来预测下一项动作。我们表明,该联合模型可以告知学习精细的策略,从而使机器人可以顺序使用特定工具,并在使模型更加准确的情况下增加了重要价值。 Tooltango使用图神经网络编码世界状态,包括对象和它们之间的符号关系,并使用人类教师的演示进行了培训,这些演示是指导物理模拟器中的虚拟机器人的演示。该模型学会了使用目标和动作历史的知识来参加场景,最终将符号动作解码为执行。至关重要的是,我们解决了缺少一些已知工具的看不见的环境的概括,但是存在其他看不见的工具。我们表明,通过通过从知识库中得出的预训练的嵌入来增强环境的表示,该模型可以有效地将其推广到新的环境中。实验结果表明,在预测具有看不见对象的新型环境中模拟移动操纵器的成功符号计划时,至少48.8-58.1%的绝对改善对基准的绝对改善。这项工作朝着使机器人能够快速合成复杂任务的强大计划的方向,尤其是在新颖的环境中
translated by 谷歌翻译
基于模型的增强学习(RL)是一种通过利用学习的单步动力学模型来计划想象中的动作来学习复杂行为的样本效率方法。但是,计划为长马操作计划的每项行动都是不切实际的,类似于每个肌肉运动的人类计划。相反,人类有效地计划具有高级技能来解决复杂的任务。从这种直觉中,我们提出了一个基于技能的RL框架(SKIMO),该框架能够使用技能动力学模型在技能空间中进行计划,该模型直接预测技能成果,而不是预测中级状态中的所有小细节,逐步。为了准确有效的长期计划,我们共同学习了先前经验的技能动力学模型和技能曲目。然后,我们利用学到的技能动力学模型准确模拟和计划技能空间中的长范围,这可以有效地学习长摩盛,稀疏的奖励任务。导航和操纵域中的实验结果表明,Skimo扩展了基于模型的方法的时间范围,并提高了基于模型的RL和基于技能的RL的样品效率。代码和视频可在\ url {https://clvrai.com/skimo}上找到
translated by 谷歌翻译
通过各种物体学习各种灵巧的操纵行为仍然是一个开放的巨大挑战。虽然政策学习方法为攻击此问题提供了强大的途径,但它们需要大量的每任务工程和算法调整。本文试图通过开发预先保证的灵巧操纵(PGDM)框架来逃避这些约束,从而在没有任何特定于任务的推理或超级参数调整的情况下会产生各种灵活的操纵行为。 PGD​​M的核心是一种众所周知的机器人构建体,即pre grasps(即用于对象相互作用的手工置序)。这种简单的原始性足以诱导有效的探索策略来获取复杂的灵巧操纵行为。为了详尽地验证这些主张,我们介绍了TCDM,这是根据多个对象和灵巧的操纵器定义的50个不同操纵任务的基准。 TCDM的任务是使用来自各种来源(动画师,人类行为等)的示例对象轨迹自动定义的,而无需任何执行任务工程和/或监督。我们的实验验证了PGDM的探索策略,该策略是由令人惊讶的简单成分(单个预抓姿势)引起的,与先前方法的性能相匹配,这些方法需要昂贵的每任意功能/奖励工程,专家监督和高参数调整。有关动画可视化,训练有素的策略和项目代码,请参阅:https://pregrasps.github.io/
translated by 谷歌翻译
我们通过在野外观看人类来解决学习问题。尽管在现实世界中学习的传统方法和强化学习对于学习是有希望的,但它们要么是效率低下的样本,要么被限制在实验室环境中。同时,处理被动的,非结构化的人类数据已经取得了很大的成功。我们建议通过有效的一声机器人学习算法解决此问题,该算法围绕第三人称的角度学习。我们称我们的方法旋转:野生人类模仿机器人学习。旋转对人类演示者的意图提取先前,并使用它来初始化代理商的策略。我们介绍了一种有效的现实世界政策学习方案,该方案可以使用交互作用进行改进。我们的主要贡献是一种简单的基于抽样的策略优化方法,这是一种对齐人和机器人视频的新型目标功能,以及一种提高样本效率的探索方法。我们在现实世界中展示了单一的概括和成功,其中包括野外的20个不同的操纵任务。视频并在https://human2robot.github.io上进行交谈
translated by 谷歌翻译
While large-scale sequence modeling from offline data has led to impressive performance gains in natural language and image generation, directly translating such ideas to robotics has been challenging. One critical reason for this is that uncurated robot demonstration data, i.e. play data, collected from non-expert human demonstrators are often noisy, diverse, and distributionally multi-modal. This makes extracting useful, task-centric behaviors from such data a difficult generative modeling problem. In this work, we present Conditional Behavior Transformers (C-BeT), a method that combines the multi-modal generation ability of Behavior Transformer with future-conditioned goal specification. On a suite of simulated benchmark tasks, we find that C-BeT improves upon prior state-of-the-art work in learning from play data by an average of 45.7%. Further, we demonstrate for the first time that useful task-centric behaviors can be learned on a real-world robot purely from play data without any task labels or reward information. Robot videos are best viewed on our project website: https://play-to-policy.github.io
translated by 谷歌翻译
我们研究了从机器人交互的大型离线数据集学习一系列基于视觉的操纵任务的问题。为了实现这一目标,人类需要简单有效地将任务指定给机器人。目标图像是一种流行的任务规范形式,因为它们已经在机器人的观察空间接地。然而,目标图像也有许多缺点:它们对人类提供的不方便,它们可以通过提供导致稀疏奖励信号的所需行为,或者在非目标达到任务的情况下指定任务信息。自然语言为任务规范提供了一种方便而灵活的替代方案,而是随着机器人观察空间的接地语言挑战。为了可扩展地学习此基础,我们建议利用具有人群源语言标签的离线机器人数据集(包括高度最佳,自主收集的数据)。使用此数据,我们学习一个简单的分类器,该分类器预测状态的更改是否完成了语言指令。这提供了一种语言调节奖励函数,然后可以用于离线多任务RL。在我们的实验中,我们发现,在语言条件的操作任务中,我们的方法优于目标 - 图像规格和语言条件仿制技术超过25%,并且能够从自然语言中执行Visuomotor任务,例如“打开右抽屉“和”移动订书机“,在弗兰卡·埃米卡熊猫机器人上。
translated by 谷歌翻译
Learning policies that effectively utilize language instructions in complex, multi-task environments is an important problem in sequential decision-making. While it is possible to condition on the entire language instruction directly, such an approach could suffer from generalization issues. In our work, we propose \emph{Learning Interpretable Skill Abstractions (LISA)}, a hierarchical imitation learning framework that can learn diverse, interpretable primitive behaviors or skills from language-conditioned demonstrations to better generalize to unseen instructions. LISA uses vector quantization to learn discrete skill codes that are highly correlated with language instructions and the behavior of the learned policy. In navigation and robotic manipulation environments, LISA outperforms a strong non-hierarchical Decision Transformer baseline in the low data regime and is able to compose learned skills to solve tasks containing unseen long-range instructions. Our method demonstrates a more natural way to condition on language in sequential decision-making problems and achieve interpretable and controllable behavior with the learned skills.
translated by 谷歌翻译
Developing robots that are capable of many skills and generalization to unseen scenarios requires progress on two fronts: efficient collection of large and diverse datasets, and training of high-capacity policies on the collected data. While large datasets have propelled progress in other fields like computer vision and natural language processing, collecting data of comparable scale is particularly challenging for physical systems like robotics. In this work, we propose a framework to bridge this gap and better scale up robot learning, under the lens of multi-task, multi-scene robot manipulation in kitchen environments. Our framework, named CACTI, has four stages that separately handle data collection, data augmentation, visual representation learning, and imitation policy training. In the CACTI framework, we highlight the benefit of adapting state-of-the-art models for image generation as part of the augmentation stage, and the significant improvement of training efficiency by using pretrained out-of-domain visual representations at the compression stage. Experimentally, we demonstrate that 1) on a real robot setup, CACTI enables efficient training of a single policy capable of 10 manipulation tasks involving kitchen objects, and robust to varying layouts of distractor objects; 2) in a simulated kitchen environment, CACTI trains a single policy on 18 semantic tasks across up to 50 layout variations per task. The simulation task benchmark and augmented datasets in both real and simulated environments will be released to facilitate future research.
translated by 谷歌翻译
By transferring knowledge from large, diverse, task-agnostic datasets, modern machine learning models can solve specific downstream tasks either zero-shot or with small task-specific datasets to a high level of performance. While this capability has been demonstrated in other fields such as computer vision, natural language processing or speech recognition, it remains to be shown in robotics, where the generalization capabilities of the models are particularly critical due to the difficulty of collecting real-world robotic data. We argue that one of the keys to the success of such general robotic models lies with open-ended task-agnostic training, combined with high-capacity architectures that can absorb all of the diverse, robotic data. In this paper, we present a model class, dubbed Robotics Transformer, that exhibits promising scalable model properties. We verify our conclusions in a study of different model classes and their ability to generalize as a function of the data size, model size, and data diversity based on a large-scale data collection on real robots performing real-world tasks. The project's website and videos can be found at robotics-transformer.github.io
translated by 谷歌翻译
学识渊博的视觉运动策略已取得了相当大的成功,作为用于机器人操纵的传统手工制作框架的替代方法。令人惊讶的是,这些方法向多视域域的扩展相对尚未探索。可以在移动操作平台上部署成功的多视策略,从而使机器人可以完成任务,无论其场景的看法如何。在这项工作中,我们证明可以通过从各种观点收集数据来通过模仿学习来找到多览策略。我们通过在模拟环境和真实的移动操纵平台上学习完成几个具有挑战性的多阶段和接触任务来说明该方法的一般适用性。此外,与从固定角度收集的数据相比,我们分析了我们的政策,以确定从多视图数据中学习的好处。我们表明,与使用等效量的固定视图数据相比,从多视图数据中学习对固定视图任务的惩罚很少(如果有的话)。最后,我们研究了多视图和固定视图策略所学的视觉特征。我们的结果表明,多视图策略隐含地学习识别与空间相关的特征。
translated by 谷歌翻译
强化学习可以培训有效执行复杂任务的政策。然而,对于长地平线任务,这些方法的性能与地平线脱落,通常需要推理和构成较低级别的技能。等级强化学习旨在通过为行动抽象提供一组低级技能来实现这一点。通过抽象空间状态,层次结构也可以进一步提高这一点。我们对适当的状态抽象应取决于可用的较低级别策略的功能。我们提出了价值函数空间:通过使用与每个较低级别的技能对应的值函数来产生这种表示的简单方法。这些价值函数捕获场景的可取性,从而形成了紧凑型摘要任务相关信息的表示,并强大地忽略了分散的人。迷宫解决和机器人操纵任务的实证评估表明,我们的方法提高了长地平的性能,并且能够比替代的无模型和基于模型的方法能够更好的零拍泛化。
translated by 谷歌翻译
我们调查视觉跨实施的模仿设置,其中代理商学习来自其他代理的视频(例如人类)的策略,示范相同的任务,但在其实施例中具有缺点差异 - 形状,动作,终效应器动态等。在这项工作中,我们证明可以从对这些差异强大的跨实施例证视频自动发现和学习基于视觉的奖励功能。具体而言,我们介绍了一种用于跨实施的跨实施的自我监督方法(XIRL),它利用时间周期 - 一致性约束来学习深度视觉嵌入,从而从多个专家代理的示范的脱机视频中捕获任务进度,每个都执行相同的任务不同的原因是实施例差异。在我们的工作之前,从自我监督嵌入产生奖励通常需要与参考轨迹对齐,这可能难以根据STARK实施例的差异来获取。我们凭经验显示,如果嵌入式了解任务进度,则只需在学习的嵌入空间中占据当前状态和目标状态之间的负距离是有用的,作为培训与加强学习的培训政策的奖励。我们发现我们的学习奖励功能不仅适用于在训练期间看到的实施例,而且还概括为完全新的实施例。此外,在将现实世界的人类示范转移到模拟机器人时,我们发现XIRL比当前最佳方法更具样本。 https://x-irl.github.io提供定性结果,代码和数据集
translated by 谷歌翻译
现实的操纵任务要求机器人与具有长时间运动动作序列的环境相互作用。尽管最近出现了深厚的强化学习方法,这是自动化操作行为的有希望的范式,但由于勘探负担,它们通常在长途任务中缺乏。这项工作介绍了操纵原始增强的强化学习(Maple),这是一个学习框架,可通过预定的行为原始库来增强标准强化学习算法。这些行为原始素是专门实现操纵目标(例如抓住和推动)的强大功能模块。为了使用这些异质原始素,我们制定了涉及原语的层次结构策略,并使用输入参数实例化执行。我们证明,枫树的表现优于基线方法,通过一系列模拟的操纵任务的大幅度。我们还量化了学习行为的组成结构,并突出了我们方法将策略转移到新任务变体和物理硬件的能力。视频和代码可从https://ut-aut-autin-rpl.github.io/maple获得
translated by 谷歌翻译
6D在杂乱的场景中抓住是机器人操纵中的长期存在。由于状态估计不准确,开环操作管道可能会失败,而大多数端到端的掌握方法尚未缩放到具有障碍物的复杂场景。在这项工作中,我们提出了一种新的杂乱场景掌握的最终学习方法。我们的分层框架基于部分点云观测学习无碰撞目标驱动的抓取性。我们学习嵌入空间来编码培训期间的专家掌握计划和一个变形式自动化器,以在测试时间上采样不同的抓握轨迹。此外,我们培训批评网络的计划选择和选项分类器,用于通过分层加强学习切换到实例掌握策略。我们评估我们的方法并与仿真中的几个基线进行比较,并证明我们的潜在规划可以概括为真实的杂乱场景掌握任务。我们的视频和代码可以在https://sites.google.com/view/latent-grasping中找到。
translated by 谷歌翻译
尽管移动操作在工业和服务机器人技术方面都重要,但仍然是一个重大挑战,因为它需要将最终效应轨迹的无缝整合与导航技能以及对长匹马的推理。现有方法难以控制大型配置空间,并导航动态和未知环境。在先前的工作中,我们建议将移动操纵任务分解为任务空间中最终效果的简化运动生成器,并将移动设备分解为训练有素的强化学习代理,以说明移动基础的运动基础,以说明运动的运动可行性。在这项工作中,我们引入了移动操作的神经导航(n $^2 $ m $^2 $),该导航将这种分解扩展到复杂的障碍环境,并使其能够解决现实世界中的广泛任务。最终的方法可以在未探索的环境中执行看不见的长马任务,同时立即对动态障碍和环境变化做出反应。同时,它提供了一种定义新的移动操作任务的简单方法。我们证明了我们提出的方法在多个运动学上多样化的移动操纵器上进行的广泛模拟和现实实验的能力。代码和视频可在http://mobile-rl.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译