可以通过组合单个机器人技能来有效地解决具有挑战性的操纵任务,该技巧必须用于具体的物理环境和手头的任务。对于人类程序员来说,这是耗时的,尤其是针对力控制的技能。为此,我们提出了阴影程序反演(SPI),这是一种直接从数据推断最佳技能参数的新方法。 SPI利用无监督的学习来训练辅助区分程序表示(“影子程序”),并通过基于梯度的模型反转实现参数推断。我们的方法使使用高效的一阶优化器可以推断出最初非差异技能的最佳参数,包括当前生产中使用的许多技能变体。 SPI零射击跨任务目标概括,这意味着不需要对阴影程序进行重新训练来推断不同任务变体的参数。我们在工业和家庭场景中评估了三个不同的机器人和技能框架的方法。代码和示例可在https://innolab.artiminds.com/icra2021上找到。
translated by 谷歌翻译
在工业和服务域中,使用机器人的主要好处是它们快速可靠地执行重复性任务的能力。但是,即使是相对简单的孔洞任务,通常也会受到随机变化的影响,需要搜索运动才能找到相关的功能,例如孔。尽管搜索提高了鲁棒性,但它以增加运行时的成本为代价:更详尽的搜索将最大化成功执行给定任务的可能性,但会大大延迟任何下游任务。根据简单的启发式方法,这种权衡通常由人类专家解决,这些启发式很少是最佳的。本文介绍了一种自动,数据驱动和无启发式方法,以优化机器人搜索策略。通过训练搜索策略的神经模型在一系列模拟随机环境上,在几个现实世界中的示例中进行调节并颠倒模型,我们可以推断出适应了基本概率分布的时间变化特征,同时需要很少的现实测量。在螺旋和探测器搜索电子组件的背景下,我们评估了对两个不同工业机器人的方法。
translated by 谷歌翻译
在本次调查中,我们介绍了执行需要不同于环境的操作任务的机器人的当前状态,使得机器人必须隐含地或明确地控制与环境的接触力来完成任务。机器人可以执行越来越多的人体操作任务,并且在1)主题上具有越来越多的出版物,其执行始终需要联系的任务,并且通过利用完美的任务来减轻环境来缓解不确定性信息,可以在没有联系的情况下进行。最近的趋势已经看到机器人在留下的人类留给人类,例如按摩,以及诸如PEG孔的经典任务中,对其他类似任务的概率更有效,更好的误差容忍以及更快的规划或学习任务。因此,在本调查中,我们涵盖了执行此类任务的机器人的当前阶段,从调查开始所有不同的联系方式机器人可以执行,观察这些任务是如何控制和表示的,并且最终呈现所需技能的学习和规划完成这些任务。
translated by 谷歌翻译
Learning generalizable insertion skills in a data-efficient manner has long been a challenge in the robot learning community. While the current state-of-the-art methods with reinforcement learning (RL) show promising performance in acquiring manipulation skills, the algorithms are data-hungry and hard to generalize. To overcome the issues, in this paper we present Prim-LAfD, a simple yet effective framework to learn and adapt primitive-based insertion skills from demonstrations. Prim-LAfD utilizes black-box function optimization to learn and adapt the primitive parameters leveraging prior experiences. Human demonstrations are modeled as dense rewards guiding parameter learning. We validate the effectiveness of the proposed method on eight peg-hole and connector-socket insertion tasks. The experimental results show that our proposed framework takes less than one hour to acquire the insertion skills and as few as fifteen minutes to adapt to an unseen insertion task on a physical robot.
translated by 谷歌翻译
机器人技能系统旨在减少机器人设置时间的新制造任务。但是,对于灵巧,接触术的任务,通常很难找到正确的技能参数。一种策略是通过允许机器人系统直接学习任务来学习这些参数。对于学习问题,机器人操作员通常可以指定参数值的类型和范围。然而,鉴于他们先前的经验,机器人操作员应该能够通过提供有关在参数空间中找到最佳解决方案的知识猜测,从而进一步帮助学习过程。有趣的是,当前的机器人学习框架中没有利用这种先验知识。我们介绍了一种结合用户先验和贝叶斯优化的方法,以便在机器人部署时间快速优化机器人工业任务。我们在模拟中学习的三个任务以及直接在真实机器人系统上学习的两个任务中学习了我们的方法。此外,我们通过自动从良好表现的配置中自动构造先验来从相应的仿真任务中转移知识,以在真实系统上学习。为了处理潜在的任务目标,任务被建模为多目标问题。我们的结果表明,操作员的先验是用户指定和转移的,大大加快了富丽堂皇的阵线的发现,并且通常产生的最终性能远远超过了拟议的基线。
translated by 谷歌翻译
在本文中,我们讨论了通过模仿教授双人操作任务的框架。为此,我们提出了一种从人类示范中学习合规和接触良好的机器人行为的系统和算法。提出的系统结合了入学控制和机器学习的见解,以提取控制政策,这些政策可以(a)从时空和空间中恢复并适应各种干扰,同时(b)有效利用与环境的物理接触。我们使用现实世界中的插入任务证明了方法的有效性,该任务涉及操纵对象和插入钉之间的多个同时接触。我们还研究了为这种双人设置收集培训数据的有效方法。为此,我们进行了人类受试者的研究,并分析用户报告的努力和精神需求。我们的实验表明,尽管很难提供,但在遥控演示中可用的其他力/扭矩信息对于阶段估计和任务成功至关重要。最终,力/扭矩数据大大提高了操纵鲁棒性,从而在多点插入任务中获得了90%的成功率。可以在https://bimanualmanipulation.com/上找到代码和视频
translated by 谷歌翻译
机器人需要在约束环境(例如架子和橱柜)中操纵物体,以帮助人类在房屋和办公室等日常设置中。这些限制因减少掌握能力而变得难以操纵,因此机器人需要使用非忽视策略来利用对象环境联系来执行操纵任务。为了应对在这种情况下规划和控制接触性富裕行为的挑战,该工作使用混合力量速度控制器(HFVC)作为技能表示和计划的技能序列,并使用学到的先决条件进行了计划。尽管HFVC自然能够实现稳健且合规的富裕行为,但合成它们的求解器传统上依赖于精确的对象模型和对物体姿势的闭环反馈,这些反馈因遮挡而在约束环境中很难获得。我们首先使用HFVC综合框架放松了HFVC对精确模型和反馈的需求,然后学习一个基于点云的前提函数,以对HFVC执行仍将成功地进行分类,尽管建模不正确。最后,我们在基于搜索的任务计划者中使用学到的前提来完成货架域中的接触式操纵任务。我们的方法达到了$ 73.2 \%$的任务成功率,表现优于基线实现的$ 51.5 \%$,而没有学习的先决条件。在模拟中训练了前提函数时,它也可以转移到现实世界中,而无需进行其他微调。
translated by 谷歌翻译
增强学习(RL)是一个强大的数学框架,可让机器人通过反复试验学习复杂的技能。尽管在许多应用中取得了许多成功,但RL算法仍然需要数千个试验才能融合到高性能的政策,可以在学习时产生危险的行为,并且优化的政策(通常为神经网络建模)几乎可以在无法执行的解释时给出零的解释。任务。由于这些原因,在工业环境中采用RL并不常见。另一方面,行为树(BTS)可以提供一个策略表示,a)支持模块化和可综合的技能,b)允许轻松解释机器人动作,c)提供了有利的低维参数空间。在本文中,我们提出了一种新颖的算法,该算法可以学习模拟中BT策略的参数,然后在没有任何其他培训的情况下将其推广到物理机器人。我们利用了使用数字化工作站的物理模拟器,并使用黑盒优化器优化相关参数。我们在包括避免障碍物和富含接触的插入(孔洞)的任务中,通过7道型kuka-iiwa操纵器展示了我们方法的功效,其中我们的方法优于基准。
translated by 谷歌翻译
One of today's goals for industrial robot systems is to allow fast and easy provisioning for new tasks. Skill-based systems that use planning and knowledge representation have long been one possible answer to this. However, especially with contact-rich robot tasks that need careful parameter settings, such reasoning techniques can fall short if the required knowledge not adequately modeled. We show an approach that provides a combination of task-level planning and reasoning with targeted learning of skill parameters for a task at hand. Starting from a task goal formulated in PDDL, the learnable parameters in the plan are identified and an operator can choose reward functions and parameters for the learning process. A tight integration with a knowledge framework allows to form a prior for learning and the usage of multi-objective Bayesian optimization eases to balance aspects such as safety and task performance that can often affect each other. We demonstrate the efficacy and versatility of our approach by learning skill parameters for two different contact-rich tasks and show their successful execution on a real 7-DOF KUKA-iiwa.
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
在现实世界中行为的自治工人的核心挑战是调整其曲目的技能来应对其嘈杂的感知和动态。为了将技能缩放到长地平线任务,机器人应该能够通过轨迹以结构化方式学习,然后在每次步骤中单独做出瞬间决策。为此,我们提出了软演员 - 评论家高斯混合模型(SAC-GMM),一种新型混合方法,通过动态系统学习机器人技巧,并通过与环境的互动来适应自己的轨迹分配空间中的学习技巧。我们的方法结合了经典的机器人技术与深度加强学习框架的演示和利用他们的互补性。我们表明,我们的方法仅在执行初步学习技能期间使用的传感器,以提取导致更快的技能细化的相关功能。模拟和现实世界环境的广泛评估展示了我们通过利用物理交互,高维感官数据和稀疏任务完成奖励来精炼机器人技能的方法的有效性。视频,代码和预先训练的模型可用于\ url {http://sac-gmm.cs.uni-freiburg.de}。
translated by 谷歌翻译
为了执行机器人操纵任务,核心问题是确定满足任务要求的合适轨迹。存在各种计算此类轨迹的方法,是学习和优化主要驾驶技术。我们的作品建立在从示范中学习(LFD)范式的基础上,专家展示了动作,机器人学会了模仿它们。但是,专家演示不足以捕获各种任务规格,例如掌握对象的时间。在本文中,我们提出了一种新方法,以考虑LFD技能中的正式任务规格。确切地说,我们利用了系统的时间属性的一种表达形式信号时间逻辑(STL),以制定任务规格并使用黑盒优化(BBO)来相应地调整LFD技能。我们使用多个任务展示了我们的方法如何使用STL和BBO来解决LFD限制。
translated by 谷歌翻译
在本文中,我们关注将基于能量的模型(EBM)作为运动优化的指导先验的问题。 EBM是一组神经网络,可以用合适的能量函数参数为参数的GIBBS分布来表示表达概率密度分布。由于其隐含性,它们可以轻松地作为优化因素或运动优化问题中的初始采样分布整合在一起,从而使它们成为良好的候选者,以将数据驱动的先验集成在运动优化问题中。在这项工作中,我们提出了一组所需的建模和算法选择,以使EBMS适应运动优化。我们调查了将其他正规化器在学习EBM中的好处,以将它们与基于梯度的优化器一起使用,并提供一组EBM架构,以学习用于操纵任务的可通用分布。我们提出了多种情况,可以将EBM集成以进行运动优化,并评估学到的EBM的性能,以指导模拟和真实机器人实验的指导先验。
translated by 谷歌翻译
Reinforcement learning can acquire complex behaviors from high-level specifications. However, defining a cost function that can be optimized effectively and encodes the correct task is challenging in practice. We explore how inverse optimal control (IOC) can be used to learn behaviors from demonstrations, with applications to torque control of high-dimensional robotic systems. Our method addresses two key challenges in inverse optimal control: first, the need for informative features and effective regularization to impose structure on the cost, and second, the difficulty of learning the cost function under unknown dynamics for high-dimensional continuous systems. To address the former challenge, we present an algorithm capable of learning arbitrary nonlinear cost functions, such as neural networks, without meticulous feature engineering. To address the latter challenge, we formulate an efficient sample-based approximation for MaxEnt IOC. We evaluate our method on a series of simulated tasks and real-world robotic manipulation problems, demonstrating substantial improvement over prior methods both in terms of task complexity and sample efficiency.
translated by 谷歌翻译
机器人将机器人的无缝集成到人类环境需要机器人来学习如何使用现有的人类工具。学习工具操纵技能的目前方法主要依赖于目标机器人环境中提供的专家演示,例如,通过手动引导机器人操纵器或通过远程操作。在这项工作中,我们介绍了一种自动化方法,取代了一个专家演示,用YouTube视频来学习工具操纵策略。主要贡献是双重的。首先,我们设计一个对齐过程,使模拟环境与视频中观察到的真实世界。这是作为优化问题,找到刀具轨迹的空间对齐,以最大化环境给出的稀疏目标奖励。其次,我们描述了一种专注于工具的轨迹而不是人类的运动的模仿学习方法。为此,我们将加强学习与优化过程相结合,以基于对准环境中的工具运动来找到控制策略和机器人的放置。我们展示了仿真中的铲子,镰刀和锤子工具的建议方法,并展示了训练有素的政策对真正的弗兰卡·埃米卡熊猫机器人示范的卫生政策的有效性。
translated by 谷歌翻译
Robots need to be able to adapt to unexpected changes in the environment such that they can autonomously succeed in their tasks. However, hand-designing feedback models for adaptation is tedious, if at all possible, making data-driven methods a promising alternative. In this paper we introduce a full framework for learning feedback models for reactive motion planning. Our pipeline starts by segmenting demonstrations of a complete task into motion primitives via a semi-automated segmentation algorithm. Then, given additional demonstrations of successful adaptation behaviors, we learn initial feedback models through learning from demonstrations. In the final phase, a sample-efficient reinforcement learning algorithm fine-tunes these feedback models for novel task settings through few real system interactions. We evaluate our approach on a real anthropomorphic robot in learning a tactile feedback task.
translated by 谷歌翻译
Policy search methods can allow robots to learn control policies for a wide range of tasks, but practical applications of policy search often require hand-engineered components for perception, state estimation, and low-level control. In this paper, we aim to answer the following question: does training the perception and control systems jointly end-toend provide better performance than training each component separately? To this end, we develop a method that can be used to learn policies that map raw image observations directly to torques at the robot's motors. The policies are represented by deep convolutional neural networks (CNNs) with 92,000 parameters, and are trained using a guided policy search method, which transforms policy search into supervised learning, with supervision provided by a simple trajectory-centric reinforcement learning method. We evaluate our method on a range of real-world manipulation tasks that require close coordination between vision and control, such as screwing a cap onto a bottle, and present simulated comparisons to a range of prior policy search methods.
translated by 谷歌翻译
机器人技术中最重要的挑战之一是产生准确的轨迹并控制其动态参数,以便机器人可以执行不同的任务。提供此类运动控制的能力与此类运动的编码方式密切相关。深度学习的进步在发展动态运动原语的新方法的发展方面产生了强烈的影响。在这项工作中,我们调查了与神经动态运动原始素有关的科学文献,以补充有关动态运动原语的现有调查。
translated by 谷歌翻译
在本文中,我们提出了一种数据驱动的技能学习方法,以完全从离线的远程播放数据数据完全求解高度动态的操纵任务。我们使用双边遥控系统连续收集一大批灵活而敏捷的操纵行为,通过向操作员提供直接的力反馈来实现。我们以目标条件条件的政策和技能条件状态过渡动态的形式共同学习国家条件潜在技能分布和技能解码器网络。这使人们可以在学习的技能空间中执行基于模型的在线计划和离线计划方法,以在测试时完成任何给定的下游任务。我们提供模拟和现实世界的双臂操纵实验,表明可以实时组成一系列力控制的动态操纵技能,以成功地将框配置为随机选择的目标位置和方向;请参阅补充视频,https://youtu.be/la5b236ilzm。
translated by 谷歌翻译