在本文中,我们讨论了通过模仿教授双人操作任务的框架。为此,我们提出了一种从人类示范中学习合规和接触良好的机器人行为的系统和算法。提出的系统结合了入学控制和机器学习的见解,以提取控制政策,这些政策可以(a)从时空和空间中恢复并适应各种干扰,同时(b)有效利用与环境的物理接触。我们使用现实世界中的插入任务证明了方法的有效性,该任务涉及操纵对象和插入钉之间的多个同时接触。我们还研究了为这种双人设置收集培训数据的有效方法。为此,我们进行了人类受试者的研究,并分析用户报告的努力和精神需求。我们的实验表明,尽管很难提供,但在遥控演示中可用的其他力/扭矩信息对于阶段估计和任务成功至关重要。最终,力/扭矩数据大大提高了操纵鲁棒性,从而在多点插入任务中获得了90%的成功率。可以在https://bimanualmanipulation.com/上找到代码和视频
translated by 谷歌翻译
在本次调查中,我们介绍了执行需要不同于环境的操作任务的机器人的当前状态,使得机器人必须隐含地或明确地控制与环境的接触力来完成任务。机器人可以执行越来越多的人体操作任务,并且在1)主题上具有越来越多的出版物,其执行始终需要联系的任务,并且通过利用完美的任务来减轻环境来缓解不确定性信息,可以在没有联系的情况下进行。最近的趋势已经看到机器人在留下的人类留给人类,例如按摩,以及诸如PEG孔的经典任务中,对其他类似任务的概率更有效,更好的误差容忍以及更快的规划或学习任务。因此,在本调查中,我们涵盖了执行此类任务的机器人的当前阶段,从调查开始所有不同的联系方式机器人可以执行,观察这些任务是如何控制和表示的,并且最终呈现所需技能的学习和规划完成这些任务。
translated by 谷歌翻译
Robots have been steadily increasing their presence in our daily lives, where they can work along with humans to provide assistance in various tasks on industry floors, in offices, and in homes. Automated assembly is one of the key applications of robots, and the next generation assembly systems could become much more efficient by creating collaborative human-robot systems. However, although collaborative robots have been around for decades, their application in truly collaborative systems has been limited. This is because a truly collaborative human-robot system needs to adjust its operation with respect to the uncertainty and imprecision in human actions, ensure safety during interaction, etc. In this paper, we present a system for human-robot collaborative assembly using learning from demonstration and pose estimation, so that the robot can adapt to the uncertainty caused by the operation of humans. Learning from demonstration is used to generate motion trajectories for the robot based on the pose estimate of different goal locations from a deep learning-based vision system. The proposed system is demonstrated using a physical 6 DoF manipulator in a collaborative human-robot assembly scenario. We show successful generalization of the system's operation to changes in the initial and final goal locations through various experiments.
translated by 谷歌翻译
人类仍在执行许多高精度(DIS)任务,而这是自动化的理想机会。本文提供了一个框架,该框架使非专家的人类操作员能够教机器人手臂执行复杂的精确任务。该框架使用可变的笛卡尔阻抗控制器来执行从动力学人类示范中学到的轨迹。可以给出反馈以进行交互重塑或加快原始演示。董事会本地化是通过对任务委员会位置的视觉估算来完成的,并通过触觉反馈进行了完善。我们的框架在机器人基准拆卸挑战上进行了测试,该机器人必须执行复杂的精确任务,例如关键插入。结果显示每个操纵子任务的成功率很高,包括盒子中新型姿势的情况。还进行了消融研究以评估框架的组成部分。
translated by 谷歌翻译
Humans demonstrate a variety of interesting behavioral characteristics when performing tasks, such as selecting between seemingly equivalent optimal actions, performing recovery actions when deviating from the optimal trajectory, or moderating actions in response to sensed risks. However, imitation learning, which attempts to teach robots to perform these same tasks from observations of human demonstrations, often fails to capture such behavior. Specifically, commonly used learning algorithms embody inherent contradictions between the learning assumptions (e.g., single optimal action) and actual human behavior (e.g., multiple optimal actions), thereby limiting robot generalizability, applicability, and demonstration feasibility. To address this, this paper proposes designing imitation learning algorithms with a focus on utilizing human behavioral characteristics, thereby embodying principles for capturing and exploiting actual demonstrator behavioral characteristics. This paper presents the first imitation learning framework, Bayesian Disturbance Injection (BDI), that typifies human behavioral characteristics by incorporating model flexibility, robustification, and risk sensitivity. Bayesian inference is used to learn flexible non-parametric multi-action policies, while simultaneously robustifying policies by injecting risk-sensitive disturbances to induce human recovery action and ensuring demonstration feasibility. Our method is evaluated through risk-sensitive simulations and real-robot experiments (e.g., table-sweep task, shaft-reach task and shaft-insertion task) using the UR5e 6-DOF robotic arm, to demonstrate the improved characterisation of behavior. Results show significant improvement in task performance, through improved flexibility, robustness as well as demonstration feasibility.
translated by 谷歌翻译
我们研究了复杂几何物体的机器人堆叠问题。我们提出了一个挑战和多样化的这些物体,这些物体被精心设计,以便要求超出简单的“拾取”解决方案之外的策略。我们的方法是加强学习(RL)方法与基于视觉的互动政策蒸馏和模拟到现实转移相结合。我们的学习政策可以有效地处理现实世界中的多个对象组合,并展示各种各样的堆叠技能。在一个大型的实验研究中,我们调查在模拟中学习这种基于视觉的基于视觉的代理的选择,以及对真实机器人的最佳转移产生了什么影响。然后,我们利用这些策略收集的数据并通过离线RL改善它们。我们工作的视频和博客文章作为补充材料提供。
translated by 谷歌翻译
在机器学习中使用大型数据集已导致出色的结果,在某些情况下,在机器上认为不可能的任务中的人数优于人类。但是,在处理身体上的互动任务时,实现人类水平的表现,例如,在接触良好的机器人操作中,仍然是一个巨大的挑战。众所周知,规范笛卡尔阻抗进行此类行动对于成功执行至关重要。加强学习(RL)之类的方法可能是解决此类问题的有希望的范式。更确切地说,在解决新任务具有巨大潜力时,使用任务不足的专家演示的方法可以利用大型数据集。但是,现有的数据收集系统是昂贵,复杂的,或者不允许进行阻抗调节。这项工作是朝着数据收集框架迈出的第一步,适合收集与使用新颖的动作空间的RL问题公式相容的基于阻抗的专家演示的大型数据集。该框架是根据对机器人操纵的可用数据收集框架进行广泛分析后根据要求设计的。结果是一个低成本且开放的远程阻抗框架,它使人类专家能够展示接触式任务。
translated by 谷歌翻译
即使是最强大的自主行为也可能失败。这项研究的目的是在自主任务执行期间恢复和从失败中收集数据,以便将来可以防止它们。我们建议对实时故障恢复和数据收集进行触觉干预。Elly是一个系统,可以在自主机器人行为和人类干预之间进行无缝过渡,同时从人类恢复策略中收集感觉信息。系统和我们的设计选择在单臂任务上进行了实验验证 - 在插座中安装灯泡 - 以及双层任务 - 拧上瓶盖的帽子 - 使用两个配备的4手指握把。在这些示例中,Elly在总共40次运行中实现了超过80%的任务完成。
translated by 谷歌翻译
Learning from demonstration (LfD) is a proven technique to teach robots new skills. Data quality and quantity play a critical role in LfD trained model performance. In this paper we analyze the effect of enhancing an existing teleoperation data collection system with real-time haptic feedback; we observe improvements in the collected data throughput and its quality for model training. Our experiment testbed was a mobile manipulator robot that opened doors with latch handles. Evaluation of teleoperated data collection on eight real world conference room doors found that adding the haptic feedback improved the data throughput by 6%. We additionally used the collected data to train six image-based deep imitation learning models, three with haptic feedback and three without it. These models were used to implement autonomous door-opening with the same type of robot used during data collection. Our results show that a policy from a behavior cloning model trained with haptic data performed on average 11% better than its counterpart with no haptic feedback data, indicating that haptic feedback resulted in collection of a higher quality dataset.
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
我们描述了更改 - 联系机器人操作任务的框架,要求机器人与对象和表面打破触点。这种任务的不连续交互动态使得难以构建和使用单个动力学模型或控制策略,并且接触变化期间动态的高度非线性性质可能对机器人和物体造成损害。我们提出了一种自适应控制框架,使机器人能够逐步学习以预测更改联系人任务中的接触变化,从而了解了碎片连续系统的交互动态,并使用任务空间可变阻抗控制器提供平滑且精确的轨迹跟踪。我们通过实验比较我们框架的表现,以确定所需的代表性控制方法,以确定我们框架的自适应控制和增量学习组件需要在变化 - 联系机器人操纵任务中存在不连续动态的平稳控制。
translated by 谷歌翻译
Robots need to be able to adapt to unexpected changes in the environment such that they can autonomously succeed in their tasks. However, hand-designing feedback models for adaptation is tedious, if at all possible, making data-driven methods a promising alternative. In this paper we introduce a full framework for learning feedback models for reactive motion planning. Our pipeline starts by segmenting demonstrations of a complete task into motion primitives via a semi-automated segmentation algorithm. Then, given additional demonstrations of successful adaptation behaviors, we learn initial feedback models through learning from demonstrations. In the final phase, a sample-efficient reinforcement learning algorithm fine-tunes these feedback models for novel task settings through few real system interactions. We evaluate our approach on a real anthropomorphic robot in learning a tactile feedback task.
translated by 谷歌翻译
我们介绍了基于学习的合规控制器,用于工业机器人的装配操作。我们提出了在从演示(LFD)中的一般环境中的一个解决方案,其中通过专家教师演示提供标称轨迹。这可以用于学习可以概括为组装中涉及的一个部件的新颖的技术的合适的表达,例如钉孔中的孔(PEG)插入任务。在期望中,在视觉或其他感测系统不完全准确地估计这种新颖的位置,机器人需要进一步修改产生的轨迹,以响应通过力 - 扭矩(F / T)传感器测量的力读数安装在机器人的手腕或另一个合适的位置。在组装期间遍历参考轨迹的恒定速度的假设,我们提出了一种新颖的容纳力控制器,其允许机器人安全地探索不同的接触配置。使用该控制器收集的数据用于训练高斯过程模型以预测栓地相对于目标孔的位置的未对准。我们表明所提出的基于学习的方法可以校正由PIH任务中组装部件之间的未对准引起的各种接触配置,在插入期间实现了高成功率。我们使用工业操纵器臂展示结果,并证明所提出的方法可以使用从培训的机器学习模型的力反馈来执行自适应插入。
translated by 谷歌翻译
Dexterous manipulation with anthropomorphic robot hands remains a challenging problem in robotics because of the high-dimensional state and action spaces and complex contacts. Nevertheless, skillful closed-loop manipulation is required to enable humanoid robots to operate in unstructured real-world environments. Reinforcement learning (RL) has traditionally imposed enormous interaction data requirements for optimizing such complex control problems. We introduce a new framework that leverages recent advances in GPU-based simulation along with the strength of imitation learning in guiding policy search towards promising behaviors to make RL training feasible in these domains. To this end, we present an immersive virtual reality teleoperation interface designed for interactive human-like manipulation on contact rich tasks and a suite of manipulation environments inspired by tasks of daily living. Finally, we demonstrate the complementary strengths of massively parallel RL and imitation learning, yielding robust and natural behaviors. Videos of trained policies, our source code, and the collected demonstration datasets are available at https://maltemosbach.github.io/interactive_ human_like_manipulation/.
translated by 谷歌翻译
在现实世界中,教授多指的灵巧机器人在现实世界中掌握物体,这是一个充满挑战的问题,由于其高维状态和动作空间。我们提出了一个机器人学习系统,该系统可以进行少量的人类示范,并学会掌握在某些被遮挡的观察结果的情况下掌握看不见的物体姿势。我们的系统利用了一个小型运动捕获数据集,并为多指的机器人抓手生成具有多种多样且成功的轨迹的大型数据集。通过添加域随机化,我们表明我们的数据集提供了可以将其转移到策略学习者的强大抓地力轨迹。我们训练一种灵活的抓紧策略,该策略将对象的点云作为输入,并预测连续的动作以从不同初始机器人状态掌握对象。我们在模拟中评估了系统对22多伏的浮动手的有效性,并在现实世界中带有kuka手臂的23多杆Allegro机器人手。从我们的数据集中汲取的政策可以很好地概括在模拟和现实世界中的看不见的对象姿势
translated by 谷歌翻译
本文对人机对象切换的文献进行了调查。切换是一种协作的关节动作,其中代理人,给予者,给予对象给另一代理,接收器。当接收器首先与给予者持有的对象并结束时,当给予者完全将物体释放到接收器时,物理交换开始。然而,重要的认知和物理过程在物理交换之前开始,包括在交换的位置和时间内启动隐含协议。从这个角度来看,我们将审核构成了上述事件界定的两个主要阶段:1)预切换阶段和2)物理交流。我们专注于两位演员(Giver和Receiver)的分析,并报告机器人推动者(机器人到人类切换)和机器人接收器(人到机器人切换)的状态。我们举报了常用于评估互动的全面的定性和定量度量列表。虽然将我们的认知水平(例如,预测,感知,运动规划,学习)和物理水平(例如,运动,抓握,抓取释放)的审查重点,但我们简要讨论了安全的概念,社会背景,和人体工程学。我们将在人对人物助手中显示的行为与机器人助手的最新进行比较,并确定机器人助剂的主要改善领域,以达到与人类相互作用相当的性能。最后,我们提出了一种应使用的最小度量标准,以便在方法之间进行公平比较。
translated by 谷歌翻译
在目标或配置在迭代之间变化的任务中,人机交互(HRI)可以使机器人能够处理可重复的方面,并提供适合当前状态的信息。当前,通过推断人类目标或为了适应机器人阻抗,目前可以实现先进的交互式机器人行为。尽管已经提出了许多针对互动机器人行为的应用程序特定的启发式方法,但它们通常受到范围的限制,例如仅考虑人体工程学或任务绩效。为了提高普遍性,本文提出了一个框架,该框架既计划在线轨迹和阻抗,处理任务和人类目标的混合,并可以有效地应用于新任务。该框架可以考虑多种类型的不确定性:接触约束变化,人类目标的不确定性或任务障碍。不确定性感知的任务模型是从使用高斯流程的一些演示中学到的。该任务模型用于非线性模型预测控制(MPC)问题,以根据对离散人类目标,人运动学,安全限制,接触稳定性和频率障碍抑制的信念来优化机器人轨迹和阻抗。引入了此MPC公式,对凸度进行了分析,并通过多个目标,协作抛光任务和协作组装任务进行了验证。
translated by 谷歌翻译
抓握是通过在一组触点上施加力和扭矩来挑选对象的过程。深度学习方法的最新进展允许在机器人对象抓地力方面快速进步。我们在过去十年中系统地调查了出版物,特别感兴趣使用最终效果姿势的所有6度自由度抓住对象。我们的综述发现了四种用于机器人抓钩的常见方法:基于抽样的方法,直接回归,强化学习和示例方法。此外,我们发现了围绕抓握的两种“支持方法”,这些方法使用深入学习来支持抓握过程,形状近似和负担能力。我们已经将本系统评论(85篇论文)中发现的出版物提炼为十个关键要点,我们认为对未来的机器人抓握和操纵研究至关重要。该调查的在线版本可从https://rhys-newbury.github.io/projects/6dof/获得
translated by 谷歌翻译
从示范中学习(LFD)提供了一种方便的手段,可以在机器人固有坐标中获得示范时为机器人提供灵巧的技能。但是,长期和复杂技能中复杂错误的问题减少了其广泛的部署。由于大多数此类复杂的技能由组合的较小运动组成,因此将目标技能作为一系列紧凑的运动原语似乎是合理的。在这里,需要解决的问题是确保电动机以允许成功执行后续原始的状态结束。在这项研究中,我们通过提议学习明确的校正政策来关注这个问题,当时未达到原始人之间的预期过渡状态。校正策略本身是通过使用最先进的运动原始学习结构,条件神经运动原语(CNMP)来学习的。然后,学识渊博的校正政策能够以背景方式产生各种运动轨迹。拟议系统比学习完整任务的优点在模拟中显示了一个台式设置,其中必须以两个步骤将对象通过走廊推动。然后,通过为上身类人生物机器人配备具有在3D空间中的条上打结的技巧,显示了所提出的方法在现实世界中进行双重打结的适用性。实验表明,即使面对校正案例不属于人类示范集的一部分,机器人也可以执行成功的打结。
translated by 谷歌翻译
机器人技术中最重要的挑战之一是产生准确的轨迹并控制其动态参数,以便机器人可以执行不同的任务。提供此类运动控制的能力与此类运动的编码方式密切相关。深度学习的进步在发展动态运动原语的新方法的发展方面产生了强烈的影响。在这项工作中,我们调查了与神经动态运动原始素有关的科学文献,以补充有关动态运动原语的现有调查。
translated by 谷歌翻译