智能论文笔记

Benchmarking Structured Policies and Policy Optimization for Real-World Dexterous Object Manipulation

Niklas Funk , Charles Schaff , Rishabh Madan , Takuma Yoneda , Julen Urain De Jesus , Joe Watson , Ethan K. Gordon , Felix Widmaier , Stefan Bauer , Siddhartha S. Srinivasa

分类：机器人

2021-05-05

Dexterous操作是机器人中的一个具有挑战性和重要问题。虽然数据驱动方法是一个有希望的方法，但由于流行方法的样本效率低，当前基准测试需要模拟或广泛的工程支持。我们为Trifinger系统提供基准，这是一个开源机器人平台，用于灵巧操纵和2020年真正的机器人挑战的重点。在挑战中取得成功的基准方法可以一般被描述为结构性政策，因为它们结合了经典机器人和现代政策优化的元素。这种诱导偏差的包含促进样品效率，可解释性，可靠性和高性能。该基准测试的关键方面是验证跨模拟和实际系统的基线，对每个解决方案的核心特征进行彻底消融研究，以及作为操纵基准的挑战的回顾性分析。本工作的代码和演示视频可以在我们的网站上找到（https://sites.google.com/view/benchmark-rrc）。

translated by 谷歌翻译

Hybrid Learning- and Model-Based Planning and Control of In-Hand Manipulation

Rana Soltani Zarrin , Katsu Yamane , Rianna Jitosho

分类：机器人

2022-09-20

本文提出了一个层次结构框架，用于计划和控制涉及使用完全插入的多指机器人手的掌握变化的刚性对象的操纵。尽管该框架可以应用于一般的灵巧操作，但我们专注于对手持操作的更复杂的定义，在该目标下，目标姿势必须达到适合使用该对象作为工具的掌握。高级别的计划者确定对象轨迹以及掌握更改，即添加，卸下或滑动手指，由低级控制器执行。尽管基于学习的策略可以适应变化，但GRASP序列是在线计划的，但用于对象跟踪和接触力控制的轨迹规划师和低级控制器仅基于模型，以稳健地实现该计划。通过将有关问题的物理和低级控制器的知识注入GRASP规划师中，它将学会成功生成类似于基于模型的优化方法生成的grasps，从而消除了此类方法的高计算成本到该方法的高度计算成本到解释变化。通过在物理模拟中进行实验，以实现现实工具使用方案，我们将在不同的工具使用任务和灵活的手模型上展示了方法的成功。此外，我们表明，与基于模型的方法相比，这种混合方法为轨迹和任务变化提供了更大的鲁棒性。

translated by 谷歌翻译

Learning to Use Chopsticks in Diverse Styles

Zeshi Yang , KangKang Yin , Libin Liu

分类：机器人

2022-05-28

学习灵巧的操纵技巧是计算机图形和机器人技术的长期挑战，尤其是当任务涉及手，工具和物体之间的复杂而微妙的互动时。在本文中，我们专注于基于筷子的对象搬迁任务，这些任务很常见却又要求。成功的筷子技巧的关键是稳定地抓住棍棒，这也支持精致的演习。我们会自动发现贝叶斯优化（BO）和深钢筋学习（DRL）的身体有效的筷子姿势，它适用于多种握把的样式和手工形态，而无需示例数据。作为输入，我们要移动发现的抓紧姿势和所需的对象，我们构建了基于物理的手部控制器，以在两个阶段完成重定位任务。首先，运动轨迹是为筷子合成的，并处于运动计划阶段。我们运动策划者的关键组件包括一个握把模型，以选择用于抓住对象的合适筷子配置，以及一个轨迹优化模块，以生成无碰撞的筷子轨迹。然后，我们再次通过DRL训练基于物理的手部控制器，以跟踪运动计划者产生的所需运动轨迹。我们通过重新定位各种形状和尺寸的对象，以多种诱人的样式和多种手工形态的位置来展示框架的功能。与试图学习基于筷子的技能的香草系统相比，我们的系统实现了更快的学习速度和更好的控制鲁棒性，而无需抓紧姿势优化模块和/或没有运动学运动计划者。

translated by 谷歌翻译

Solving the Real Robot Challenge using Deep Reinforcement Learning

Robert McCarthy , Francisco Roldan Sanchez , Qiang Wang , David Cordova Bulens , Kevin McGuinness , Noel O'Connor , Stephen J. Redmond

分类：机器人 | 机器学习

2021-09-30

本文详细介绍了我们对2021年真正机器人挑战的第一阶段提交的提交；三指机器人必须沿指定目标轨迹携带立方体的挑战。为了解决第1阶段，我们使用一种纯净的增强学习方法，该方法需要对机器人系统或机器人抓握的最少专家知识。与事后的经验重播一起采用了稀疏，基于目标的奖励，以教导控制立方体将立方体移至目标的X和Y坐标。同时，采用了基于密集的距离奖励来教授将立方体提升到目标的Z坐标（高度组成部分）的政策。该策略在将域随机化的模拟中进行培训，然后再转移到真实的机器人进行评估。尽管此次转移后的性能往往会恶化，但我们的最佳政策可以通过有效的捏合掌握能够成功地沿目标轨迹提升真正的立方体。我们的方法表现优于所有其他提交，包括那些利用更传统的机器人控制技术的提交，并且是第一个解决这一挑战的纯学习方法。

translated by 谷歌翻译

Learning Dexterous In-Hand Manipulation

OpenAI , Marcin Andrychowicz , Bowen Baker , Maciek Chociej , Rafal Jozefowicz , Bob McGrew , Jakub Pachocki , Arthur Petron , Matthias Plappert , Glenn Powell

分类：

2018-08-01

Figure 1: A five-fingered humanoid hand trained with reinforcement learning manipulating a block from an initial configuration to a goal configuration using vision for sensing.

translated by 谷歌翻译

Learning Dexterous Manipulation from Exemplar Object Trajectories and Pre-Grasps

Sudeep Dasari , Abhinav Gupta , Vikash Kumar

分类：机器人 | 人工智能

2022-09-22

通过各种物体学习各种灵巧的操纵行为仍然是一个开放的巨大挑战。虽然政策学习方法为攻击此问题提供了强大的途径，但它们需要大量的每任务工程和算法调整。本文试图通过开发预先保证的灵巧操纵（PGDM）框架来逃避这些约束，从而在没有任何特定于任务的推理或超级参数调整的情况下会产生各种灵活的操纵行为。 PGDM的核心是一种众所周知的机器人构建体，即pre grasps（即用于对象相互作用的手工置序）。这种简单的原始性足以诱导有效的探索策略来获取复杂的灵巧操纵行为。为了详尽地验证这些主张，我们介绍了TCDM，这是根据多个对象和灵巧的操纵器定义的50个不同操纵任务的基准。 TCDM的任务是使用来自各种来源（动画师，人类行为等）的示例对象轨迹自动定义的，而无需任何执行任务工程和/或监督。我们的实验验证了PGDM的探索策略，该策略是由令人惊讶的简单成分（单个预抓姿势）引起的，与先前方法的性能相匹配，这些方法需要昂贵的每任意功能/奖励工程，专家监督和高参数调整。有关动画可视化，训练有素的策略和项目代码，请参阅：https：//pregrasps.github.io/

translated by 谷歌翻译

Real Robot Challenge: A Robotics Competition in the Cloud

Stefan Bauer , Felix Widmaier , Manuel Wüthrich , Annika Buchholz , Sebastian Stark , Anirudh Goyal , Thomas Steinbrenner , Joel Akpo , Shruti Joshi , Vincent Berenz

分类：机器人

2021-09-22

灵巧的操纵仍然是机器人技术中的一个空缺问题。为了协调研究界为解决这个问题的努力，我们提出了共同的基准。我们设计和构建了机器人平台，该平台托管在MPI上供智能系统托管，可以远程访问。每个平台由三个能够敏捷物体操纵的机器人手指组成。用户能够通过提交自动执行的代码（类似于计算群集）来远程控制平台。使用此设置，i）我们举办机器人竞赛，来自世界任何地方的团队访问我们的平台以应对具有挑战性的任务ii）我们发布了在这些比赛中收集的数据集（包括数百个机器人小时），而我们为研究人员提供了访问自己项目的这些平台。

translated by 谷歌翻译

N$^2$M$^2$: Learning Navigation for Arbitrary Mobile Manipulation Motions in Unseen and Dynamic Environments

Daniel Honerkamp , Tim Welschehold , Abhinav Valada

分类：机器人 | 人工智能

2022-06-17

尽管移动操作在工业和服务机器人技术方面都重要，但仍然是一个重大挑战，因为它需要将最终效应轨迹的无缝整合与导航技能以及对长匹马的推理。现有方法难以控制大型配置空间，并导航动态和未知环境。在先前的工作中，我们建议将移动操纵任务分解为任务空间中最终效果的简化运动生成器，并将移动设备分解为训练有素的强化学习代理，以说明移动基础的运动基础，以说明运动的运动可行性。在这项工作中，我们引入了移动操作的神经导航（n $^2 $ m $^2 $），该导航将这种分解扩展到复杂的障碍环境，并使其能够解决现实世界中的广泛任务。最终的方法可以在未探索的环境中执行看不见的长马任务，同时立即对动态障碍和环境变化做出反应。同时，它提供了一种定义新的移动操作任务的简单方法。我们证明了我们提出的方法在多个运动学上多样化的移动操纵器上进行的广泛模拟和现实实验的能力。代码和视频可在http://mobile-rl.cs.uni-freiburg.de上公开获得。

translated by 谷歌翻译

Neural Approaches to Co-Optimization in Robotics

Charles Schaff

分类：机器人

2022-09-01

机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件，例如，感知算法感知环境，并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此，通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作，同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中，并通过传感器读数推断位置。在我们的工作中，我们开发了一种深度学习方法，以直接优化信标的放置和位置推断以达到本地化精度。然后，我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中，我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器，有效地直接优化了物理设计和控制参数，以直接优化任务性能。然后，我们对此进行跟进，以允许对离散形态参数（例如四肢的数字和配置）进行优化。最后，我们通过探索优化的软机器人的制造和部署来得出结论。

translated by 谷歌翻译

HTML版本

Learning Control Policies for Fall prevention and safety in bipedal locomotion

Visak Kumar

分类：机器人 | 人工智能

2022-01-04

从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力，而且在平衡恢复物质不可行时，也可以保证安全的方式。对于与双式运动有关的机器人，例如人形机器人和辅助机器人设备，可帮助人类行走，设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务，因为它涉及用触点产生高维，非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面，但诸如广泛领域知识的要求，诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中，为了解决这些问题，我们开发基于学习的算法，能够为两种不同的机器人合成推送恢复控制政策：人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示：1）学习人形机器人的安全下降和预防策略，2）使用机器人辅助装置学习人类的预防策略。为实现这一目标，我们介绍了一套深度加强学习（DRL）算法，以学习使用这些机器人时提高安全性的控制策略。

translated by 谷歌翻译

Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes

Alex X. Lee , Coline Devin , Yuxiang Zhou , Thomas Lampe , Konstantinos Bousmalis , Jost Tobias Springenberg , Arunkumar Byravan , Abbas Abdolmaleki , Nimrod Gileadi , David Khosid

分类：机器人 | 机器学习

2021-10-12

我们研究了复杂几何物体的机器人堆叠问题。我们提出了一个挑战和多样化的这些物体，这些物体被精心设计，以便要求超出简单的“拾取”解决方案之外的策略。我们的方法是加强学习（RL）方法与基于视觉的互动政策蒸馏和模拟到现实转移相结合。我们的学习政策可以有效地处理现实世界中的多个对象组合，并展示各种各样的堆叠技能。在一个大型的实验研究中，我们调查在模拟中学习这种基于视觉的基于视觉的代理的选择，以及对真实机器人的最佳转移产生了什么影响。然后，我们利用这些策略收集的数据并通过离线RL改善它们。我们工作的视频和博客文章作为补充材料提供。

translated by 谷歌翻译

A Survey of Robot Manipulation in Contact

Markku Suomalainen , Yiannis Karayiannidis , Ville Kyrki

分类：机器人

2021-12-03

在本次调查中，我们介绍了执行需要不同于环境的操作任务的机器人的当前状态，使得机器人必须隐含地或明确地控制与环境的接触力来完成任务。机器人可以执行越来越多的人体操作任务，并且在1）主题上具有越来越多的出版物，其执行始终需要联系的任务，并且通过利用完美的任务来减轻环境来缓解不确定性信息，可以在没有联系的情况下进行。最近的趋势已经看到机器人在留下的人类留给人类，例如按摩，以及诸如PEG孔的经典任务中，对其他类似任务的概率更有效，更好的误差容忍以及更快的规划或学习任务。因此，在本调查中，我们涵盖了执行此类任务的机器人的当前阶段，从调查开始所有不同的联系方式机器人可以执行，观察这些任务是如何控制和表示的，并且最终呈现所需技能的学习和规划完成这些任务。

translated by 谷歌翻译

An Adaptive Framework for Reliable Trajectory Following in Changing-Contact Robot Manipulation Tasks

Saif Sidhik , Mohan Sridharan , Dirk Ruiken

分类：机器人

2021-11-15

我们描述了更改 - 联系机器人操作任务的框架，要求机器人与对象和表面打破触点。这种任务的不连续交互动态使得难以构建和使用单个动力学模型或控制策略，并且接触变化期间动态的高度非线性性质可能对机器人和物体造成损害。我们提出了一种自适应控制框架，使机器人能够逐步学习以预测更改联系人任务中的接触变化，从而了解了碎片连续系统的交互动态，并使用任务空间可变阻抗控制器提供平滑且精确的轨迹跟踪。我们通过实验比较我们框架的表现，以确定所需的代表性控制方法，以确定我们框架的自适应控制和增量学习组件需要在变化 - 联系机器人操纵任务中存在不连续动态的平稳控制。

translated by 谷歌翻译

Recent Approaches for Perceptive Legged Locomotion

Hersh Sanghvi

分类：机器人

2022-09-21

随着腿部机器人和嵌入式计算都变得越来越有能力，研究人员已经开始专注于这些机器人的现场部署。在非结构化环境中的强大自治需要对机器人周围的世界感知，以避免危害。但是，由于处理机车动力学所需的复杂规划人员和控制器，因此在网上合并在线的同时在线保持敏捷运动对腿部机器人更具挑战性。该报告将比较三种最新的感知运动方法，并讨论可以使用视觉来实现腿部自主权的不同方式。

translated by 谷歌翻译

Learning to Centralize Dual-Arm Assembly

Marvin Alles , Elie Aljalbout

分类：机器人 | 人工智能 | 机器学习

2021-10-08

机器人操纵器广泛用于现代制造过程。但是，它们在非结构化环境中的部署仍然是一个公开问题。为了应对现实世界操纵任务的多样性，复杂性和不确定性，必须开发灵活的框架，以减少环境特征的假设。近年来，加固学习（RL）为单臂机器人操纵表现出了很大的结果。然而，专注于双臂操纵的研究仍然很少见。根据经典的控制视角，解决这些任务通常涉及两个操纵器之间的相互作用的复杂建模，以及在任务中遇到的对象，以及在控制水平处耦合的两个机器人。相反，在这项工作中，我们探讨了无模型RL对双臂组件的适用性。当我们的目标是促进不限于双臂组件的方法，而是一般来说，双臂操纵，我们将尽量措施保持建模。因此，为了避免建模两个机器人与使用的组装工具之间的相互作用，我们呈现了一种模块化方法，其具有两个分散的单臂控制器，其使用单个集中式学习策略耦合。我们只使用稀疏奖励将建模努力降低到最低限度。我们的建筑使成功的装配和简单地从模拟转移到现实世界。我们展示了框架对双臂钉孔的有效性，并分析了不同动作空间的样品效率和成功率。此外，我们在处理位置不确定性时，我们比较不同的间隙和展示干扰恢复和稳健性的结果。最后，我们Zero-Shot Transfer策略在模拟中培训到现实世界并评估其性能。

translated by 谷歌翻译

Deep Model Predictive Variable Impedance Control

Akhil S Anand , Fares J. Abu-Dakka , Jan Tommy Gravdahl

分类：机器人

2022-09-20

通过改变肌肉僵硬来适应符合性的能力对于人类灵巧的操纵技巧至关重要。在机器人电动机控制中纳入合规性对于执行具有人级敏捷性的现实力量相互作用任务至关重要。这项工作为合规机器人操作提供了一个深层的模型预测性变量阻抗控制器，该阻抗操纵结合了可变阻抗控制与模型预测控制（MPC）。使用最大化信息增益的勘探策略学习了机器人操纵器的广义笛卡尔阻抗模型。该模型在MPC框架内使用，以适应低级变量阻抗控制器的阻抗参数，以实现针对不同操纵任务的所需合规性行为，而无需进行任何重新培训或填充。使用Franka Emika Panda机器人操纵器在模拟和实际实验中运行的操作，使用Franka Emika Panda机器人操纵器评估深层模型预测性变量阻抗控制方法。将所提出的方法与无模型和基于模型的强化方法进行了比较，以可变阻抗控制，以进行任务和性能之间的可传递性。

translated by 谷歌翻译

Learning agile and dynamic motor skills for legged robots

Jemin Hwangbo , Joonho Lee , Alexey Dosovitskiy , Dario Bellicoso , Vassilios Tsounis , Vladlen Koltun , Marco Hutter

分类：

2019-01-24

Legged robots pose one of the greatest challenges in robotics. Dynamic and agile maneuvers of animals cannot be imitated by existing methods that are crafted by humans. A compelling alternative is reinforcement learning, which requires minimal craftsmanship and promotes the natural evolution of a control policy. However, so far, reinforcement learning research for legged robots is mainly limited to simulation, and only few and comparably simple examples have been deployed on real systems. The primary reason is that training with real robots, particularly with dynamically balancing systems, is complicated and expensive. In the present work, we report a new method for training a neural network policy in simulation and transferring it to a state-of-the-art legged system, thereby we leverage fast, automated, and cost-effective data generation schemes. The approach is applied to the ANYmal robot, a sophisticated medium-dog-sized quadrupedal system. Using policies trained in simulation, the quadrupedal machine achieves locomotion skills that go beyond what had been achieved with prior methods: ANYmal is capable of precisely and energy-efficiently following high-level body velocity commands, running faster than ever before, and recovering from falling even in complex configurations.

translated by 谷歌翻译

DexTransfer: Real World Multi-fingered Dexterous Grasping with Minimal Human Demonstrations

Zoey Qiuyu Chen , Karl Van Wyk , Yu-Wei Chao , Wei Yang , Arsalan Mousavian , Abhishek Gupta , Dieter Fox

分类：计算机视觉

2022-09-28

在现实世界中，教授多指的灵巧机器人在现实世界中掌握物体，这是一个充满挑战的问题，由于其高维状态和动作空间。我们提出了一个机器人学习系统，该系统可以进行少量的人类示范，并学会掌握在某些被遮挡的观察结果的情况下掌握看不见的物体姿势。我们的系统利用了一个小型运动捕获数据集，并为多指的机器人抓手生成具有多种多样且成功的轨迹的大型数据集。通过添加域随机化，我们表明我们的数据集提供了可以将其转移到策略学习者的强大抓地力轨迹。我们训练一种灵活的抓紧策略，该策略将对象的点云作为输入，并预测连续的动作以从不同初始机器人状态掌握对象。我们在模拟中评估了系统对22多伏的浮动手的有效性，并在现实世界中带有kuka手臂的23多杆Allegro机器人手。从我们的数据集中汲取的政策可以很好地概括在模拟和现实世界中的看不见的对象姿势

translated by 谷歌翻译

Hierarchical Reinforcement Learning for Precise Soccer Shooting Skills using a Quadrupedal Robot

Yandong Ji , Zhongyu Li , Yinan Sun , Xue Bin Peng , Sergey Levine , Glen Berseth , Koushil Sreenath

分类：机器人 | 人工智能

2022-08-01

我们解决了使四足机器人能够使用强化学习在现实世界中执行精确的射击技巧的问题。开发算法使腿部机器人能够向给定的目标射击足球，这是一个具有挑战性的问题，它将机器人运动控制和计划结合到一项任务中。为了解决这个问题，我们需要考虑控制动态腿部机器人期间的动态限制和运动稳定性。此外，我们需要考虑运动计划，以在地面上射击难以模拟的可变形球，并不确定摩擦到所需的位置。在本文中，我们提出了一个层次结构框架，该框架利用深厚的强化学习来训练（a）强大的运动控制政策，可以跟踪任意动议，以及（b）一项计划政策，以决定所需的踢球运动将足球射击到目标。我们将提议的框架部署在A1四足动物机器人上，使其能够将球准确地射击到现实世界中的随机目标。

translated by 谷歌翻译

Learning Haptic-based Object Pose Estimation for In-hand Manipulation with Underactuated Robotic Hands

Osher Azulay , Inbar Ben-David , Avishai Sintov

分类：机器人

2022-07-06

与传统的机器人手不同，由于固有的不确定性，兼容的手不足的手对模型的挑战。因此，通常基于视觉感知执行抓握对象的姿势估计。但是，在闭塞或部分占地环境中，对手和物体的视觉感知可以受到限制。在本文中，我们旨在探索触觉的使用，即动力学和触觉感测，以构成姿势估计和手动操纵，手工不足。这种触觉方法会减轻并非总是可用的视线。我们强调识别系统的特征状态表示，该状态表示不包括视觉，可以通过简单和低成本的硬件获得。因此，对于触觉传感，我们提出了一个低成本和灵活的传感器，该传感器主要是与指尖一起打印的3D，并可以提供隐式的接触信息。我们将双手手动的手作为测试案例不足，我们分析了动力学和触觉特征以及各种回归模型对预测准确性的贡献。此外，我们提出了一种模型预测控制（MPC）方法，该方法利用姿势估计将对象操纵为仅基于触觉的所需状态。我们进行了一系列实验，以验证具有不同几何形状，刚度和纹理的各种物体的姿势的能力，并以相对较高的精度显示工作空间中的目标。

translated by 谷歌翻译