机器人舰队的商业和工业部署在处决期间通常会落在遥远的人类遥控者身上,当时机器人处于危险之中或无法取得任务进展。通过持续学习,随着时间的推移,从偏远人类的干预措施也可以用来改善机器人机队控制政策。一个核心问题是如何有效地将人类关注分配给单个机器人。先前的工作在单机器人的单人类设置中解决了这一点。我们正式化了交互式车队学习(IFL)设置,其中多个机器人可以交互查询并向多个人类主管学习。我们提出了一个完全实施的开源IFL基准套件,以评估IFL算法的GPU加速ISAAC健身环境。我们提出了Fleet-Dagger,这是一个IFL算法的家庭,并将一种新颖的Fleet Dagger算法与模拟中的4个基准进行了比较。我们还使用4个ABB Yumi机器人臂进行了1000个物理块式实验试验。实验表明,人类向机器人的分配显着影响机器人车队的性能,并且我们的算法比基线的算法获得了人类努力回报的8.8倍。有关代码,视频和补充材料,请参见https://tinyurl.com/fleet-dagger。
translated by 谷歌翻译
加强学习(RL)提供了通过试验和错误学习的自然主义框架,这是由于其简单和有效性,并且由于其与人类和动物如何通过经验获得技能。然而,现实世界的体现学习,例如由人类和动物执行的,位于持续的非剧目世界中,而RL中的共同基准任务是epiSodic,在试验之间重置的环境以提供多次尝试。当尝试采取为ePiSodic模拟环境开发的RL算法并在现实世界平台上运行时,这种差异呈现出一项重大挑战,如机器人。在本文中,我们的目标是通过为自主强化学习(ARL)框架(ARL)提供框架来解决这一差异:加强学习的代理商不仅通过自己的经验学习,而且还争夺缺乏人类监督在试验之间重置。我们在此框架上介绍了一个模拟的基准伯爵,其中包含一系列多样化和具有挑战性的模拟任务,这些任务反映了所引入学习的障碍,当只有最小的对外在干预的依赖性时,可以假设。我们表明,作为干预措施的剧集RL和现有方法斗争的标准方法最小化,强调了对强化学习开发新算法的需求,更加注重自主。
translated by 谷歌翻译
我们研究机器人如何自主学习需要联合导航和抓握的技能。虽然原则上的加固学习提供自动机器人技能学习,但在实践中,在现实世界中的加固学习是挑战性的,并且往往需要大量的仪器和监督。我们的宗旨是以无论没有人为干预的自主方式,设计用于学习导航和操纵的机器人强化学习系统,在没有人为干预的情况下,在现实的假设下实现持续学习。我们建议的系统relmm,可以在没有任何环境仪器的现实世界平台上不断学习,没有人为干预,而无需访问特权信息,例如地图,对象位置或环境的全局视图。我们的方法采用模块化策略与组件进行操纵和导航,其中操纵政策不确定性驱动导航控制器的探索,操作模块为导航提供奖励。我们在房间清理任务上评估我们的方法,机器人必须导航到并拾取散落在地板上的物品。在掌握课程训练阶段之后,relmm可以在自动真实培训的大约40小时内自动学习导航并完全抓住。
translated by 谷歌翻译
安全探索对于使用风险敏感环境中的强化学习(RL)至关重要。最近的工作了解衡量违反限制概率的风险措施,然后可以使用安全性来实现安全性。然而,学习这种风险措施需要与环境的重大互动,从而在学习期间违反违规程度过多。此外,这些措施不易转移到新环境。我们将安全探索作为离线Meta RL问题,目的是利用一系列环境中的安全和不安全行为的例子,以快速将学习风险措施与以前看不见的动态的新环境。然后,我们向安全适应(MESA)提出元学习,这是一个荟萃学习安全RL的风险措施的方法。跨5个连续控制域的仿真实验表明,MESA可以从一系列不同的环境中利用脱机数据,以减少未经调整环境中的约束违规,同时保持任务性能。有关代码和补充材料,请参阅https://tinyurl.com/safe-meta-rl。
translated by 谷歌翻译
深度强化学习(RL)导致了许多最近和开创性的进步。但是,这些进步通常以培训的基础体系结构的规模增加以及用于训练它们的RL算法的复杂性提高,而均以增加规模的成本。这些增长反过来又使研究人员更难迅速原型新想法或复制已发表的RL算法。为了解决这些问题,这项工作描述了ACME,这是一个用于构建新型RL算法的框架,这些框架是专门设计的,用于启用使用简单的模块化组件构建的代理,这些组件可以在各种执行范围内使用。尽管ACME的主要目标是为算法开发提供一个框架,但第二个目标是提供重要或最先进算法的简单参考实现。这些实现既是对我们的设计决策的验证,也是对RL研究中可重复性的重要贡献。在这项工作中,我们描述了ACME内部做出的主要设计决策,并提供了有关如何使用其组件来实施各种算法的进一步详细信息。我们的实验为许多常见和最先进的算法提供了基准,并显示了如何为更大且更复杂的环境扩展这些算法。这突出了ACME的主要优点之一,即它可用于实现大型,分布式的RL算法,这些算法可以以较大的尺度运行,同时仍保持该实现的固有可读性。这项工作提出了第二篇文章的版本,恰好与模块化的增加相吻合,对离线,模仿和从演示算法学习以及作为ACME的一部分实现的各种新代理。
translated by 谷歌翻译
最先进的多机构增强学习(MARL)方法为各种复杂问题提供了有希望的解决方案。然而,这些方法都假定代理执行同步的原始操作执行,因此它们不能真正可扩展到长期胜利的真实世界多代理/机器人任务,这些任务固有地要求代理/机器人以异步的理由,涉及有关高级动作选择的理由。不同的时间。宏观行动分散的部分可观察到的马尔可夫决策过程(MACDEC-POMDP)是在完全合作的多代理任务中不确定的异步决策的一般形式化。在本论文中,我们首先提出了MacDec-Pomdps的一组基于价值的RL方法,其中允许代理在三个范式中使用宏观成果功能执行异步学习和决策:分散学习和控制,集中学习,集中学习和控制,以及分散执行的集中培训(CTDE)。在上述工作的基础上,我们在三个训练范式下制定了一组基于宏观行动的策略梯度算法,在该训练范式下,允许代理以异步方式直接优化其参数化策略。我们在模拟和真实的机器人中评估了我们的方法。经验结果证明了我们在大型多代理问题中的方法的优势,并验证了我们算法在学习具有宏观actions的高质量和异步溶液方面的有效性。
translated by 谷歌翻译
While reinforcement learning (RL) has become a more popular approach for robotics, designing sufficiently informative reward functions for complex tasks has proven to be extremely difficult due their inability to capture human intent and policy exploitation. Preference based RL algorithms seek to overcome these challenges by directly learning reward functions from human feedback. Unfortunately, prior work either requires an unreasonable number of queries implausible for any human to answer or overly restricts the class of reward functions to guarantee the elicitation of the most informative queries, resulting in models that are insufficiently expressive for realistic robotics tasks. Contrary to most works that focus on query selection to \emph{minimize} the amount of data required for learning reward functions, we take an opposite approach: \emph{expanding} the pool of available data by viewing human-in-the-loop RL through the more flexible lens of multi-task learning. Motivated by the success of meta-learning, we pre-train preference models on prior task data and quickly adapt them for new tasks using only a handful of queries. Empirically, we reduce the amount of online feedback needed to train manipulation policies in Meta-World by 20$\times$, and demonstrate the effectiveness of our method on a real Franka Panda Robot. Moreover, this reduction in query-complexity allows us to train robot policies from actual human users. Videos of our results and code can be found at https://sites.google.com/view/few-shot-preference-rl/home.
translated by 谷歌翻译
除了最大化奖励目标之外,现实世界中的强化学习(RL)代理商必须满足安全限制。基于模型的RL算法占据了减少不安全的现实世界行动的承诺:它们可以合成使用来自学习模型的模拟样本遵守所有约束的策略。但是,即使对于预测满足所有约束的操作,甚至可能导致真实的结构违规。我们提出了保守和自适应惩罚(CAP),一种基于模型的安全RL框架,其通过捕获模型不确定性并自适应利用它来平衡奖励和成本目标来占潜在的建模错误。首先,CAP利用基于不确定性的惩罚来膨胀预测成本。从理论上讲,我们展示了满足这种保守成本约束的政策,也可以保证在真正的环境中是可行的。我们进一步表明,这保证了在RL培训期间所有中间解决方案的安全性。此外,在使用环境中使用真正的成本反馈,帽子在培训期间自适应地调整这种惩罚。我们在基于状态和基于图像的环境中,评估了基于模型的安全RL的保守和自适应惩罚方法。我们的结果表明了样品效率的大量收益,同时产生比现有安全RL算法更少的违规行为。代码可用:https://github.com/redrew/cap
translated by 谷歌翻译
多代理深度增强学习(Marl)缺乏缺乏共同使用的评估任务和标准,使方法之间的比较困难。在这项工作中,我们提供了一个系统评估,并比较了三种不同类别的Marl算法(独立学习,集中式多代理政策梯度,价值分解)在各种协作多智能经纪人学习任务中。我们的实验是在不同学习任务中作为算法的预期性能的参考,我们为不同学习方法的有效性提供了见解。我们开源EPYMARL,它将Pymarl CodeBase扩展到包括其他算法,并允许灵活地配置算法实现细节,例如参数共享。最后,我们开源两种环境,用于多智能经纪研究,重点关注稀疏奖励下的协调。
translated by 谷歌翻译
在移动操作(MM)中,机器人可以在内部导航并与其环境进行交互,因此能够完成比仅能够导航或操纵的机器人的更多任务。在这项工作中,我们探讨如何应用模仿学习(IL)来学习MM任务的连续Visuo-Motor策略。许多事先工作表明,IL可以为操作或导航域训练Visuo-Motor策略,但很少有效应用IL到MM域。这样做是挑战的两个原因:在数据方面,当前的接口使得收集高质量的人类示范困难,在学习方面,有限数据培训的政策可能会在部署时遭受协变速转变。为了解决这些问题,我们首先提出了移动操作Roboturk(Momart),这是一种新颖的遥控框架,允许同时导航和操纵移动操纵器,并在现实的模拟厨房设置中收集一类大规模的大规模数据集。然后,我们提出了一个学习错误检测系统来解决通过检测代理处于潜在故障状态时的协变量转变。我们从该数据中培训表演者的IL政策和错误探测器,在专家数据培训时,在多个多级任务中达到超过45%的任务成功率和85%的错误检测成功率。 CodeBase,DataSets,Visualization,以及更多可用的https://sites.google.com/view/il-for-mm/home。
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译
安全是自主系统的关键组成部分,仍然是现实世界中要使用的基于学习的政策的挑战。特别是,由于不安全的行为,使用强化学习学习的政策通常无法推广到新的环境。在本文中,我们提出了SIM到LAB到实验室,以弥合现实差距,并提供概率保证的安全意见政策分配。为了提高安全性,我们采用双重政策设置,其中通过累积任务奖励对绩效政策进行培训,并通过根据汉密尔顿 - 雅各布(Hamilton-Jacobi)(HJ)达到可达性分析来培训备用(安全)政策。在SIM到LAB转移中,我们采用监督控制方案来掩盖探索过程中不安全的行动;在实验室到实验室的转移中,我们利用大约正确的(PAC) - 贝斯框架来提供有关在看不见环境中政策的预期性能和安全性的下限。此外,从HJ可达性分析继承,界限说明了每个环境中最坏情况安全性的期望。我们从经验上研究了两种类型的室内环境中的自我视频导航框架,具有不同程度的光真实性。我们还通过具有四足机器人的真实室内空间中的硬件实验来证明强大的概括性能。有关补充材料,请参见https://sites.google.com/princeton.edu/sim-to-lab-to-real。
translated by 谷歌翻译
Safe Reinforcement Learning can be defined as the process of learning policies that maximize the expectation of the return in problems in which it is important to ensure reasonable system performance and/or respect safety constraints during the learning and/or deployment processes. We categorize and analyze two approaches of Safe Reinforcement Learning. The first is based on the modification of the optimality criterion, the classic discounted finite/infinite horizon, with a safety factor. The second is based on the modification of the exploration process through the incorporation of external knowledge or the guidance of a risk metric. We use the proposed classification to survey the existing literature, as well as suggesting future directions for Safe Reinforcement Learning.
translated by 谷歌翻译
在过去的几十年中,多机构增强学习(MARL)一直在学术界和行业受到广泛关注。 MAL中的基本问题之一是如何全面评估不同的方法。在视频游戏或简单的模拟场景中评估了大多数现有的MAL方法。这些方法在实际情况下,尤其是多机器人系统中的性能仍然未知。本文介绍了一个可扩展的仿真平台,用于多机器人增强学习(MRRL),称为SMART,以满足这一需求。确切地说,智能由两个组成部分组成:1)一个模拟环境,该环境为培训提供了各种复杂的交互场景,以及2)现实世界中的多机器人系统,用于现实的性能评估。此外,SMART提供了代理环境API,这些API是算法实现的插件。为了说明我们平台的实用性,我们就合作驾驶车道变更方案进行了案例研究。在案例研究的基础上,我们总结了MRRL的一些独特挑战,这些挑战很少被考虑。最后,我们为鼓励和增强MRRL研究的仿真环境,相关的基准任务和最先进的基线开放。
translated by 谷歌翻译
Progress in continual reinforcement learning has been limited due to several barriers to entry: missing code, high compute requirements, and a lack of suitable benchmarks. In this work, we present CORA, a platform for Continual Reinforcement Learning Agents that provides benchmarks, baselines, and metrics in a single code package. The benchmarks we provide are designed to evaluate different aspects of the continual RL challenge, such as catastrophic forgetting, plasticity, ability to generalize, and sample-efficient learning. Three of the benchmarks utilize video game environments (Atari, Procgen, NetHack). The fourth benchmark, CHORES, consists of four different task sequences in a visually realistic home simulator, drawn from a diverse set of task and scene parameters. To compare continual RL methods on these benchmarks, we prepare three metrics in CORA: Continual Evaluation, Isolated Forgetting, and Zero-Shot Forward Transfer. Finally, CORA includes a set of performant, open-source baselines of existing algorithms for researchers to use and expand on. We release CORA and hope that the continual RL community can benefit from our contributions, to accelerate the development of new continual RL algorithms.
translated by 谷歌翻译
Dexterous manipulation with anthropomorphic robot hands remains a challenging problem in robotics because of the high-dimensional state and action spaces and complex contacts. Nevertheless, skillful closed-loop manipulation is required to enable humanoid robots to operate in unstructured real-world environments. Reinforcement learning (RL) has traditionally imposed enormous interaction data requirements for optimizing such complex control problems. We introduce a new framework that leverages recent advances in GPU-based simulation along with the strength of imitation learning in guiding policy search towards promising behaviors to make RL training feasible in these domains. To this end, we present an immersive virtual reality teleoperation interface designed for interactive human-like manipulation on contact rich tasks and a suite of manipulation environments inspired by tasks of daily living. Finally, we demonstrate the complementary strengths of massively parallel RL and imitation learning, yielding robust and natural behaviors. Videos of trained policies, our source code, and the collected demonstration datasets are available at https://maltemosbach.github.io/interactive_ human_like_manipulation/.
translated by 谷歌翻译
Exploration in environments with sparse rewards has been a persistent problem in reinforcement learning (RL). Many tasks are natural to specify with a sparse reward, and manually shaping a reward function can result in suboptimal performance. However, finding a non-zero reward is exponentially more difficult with increasing task horizon or action dimensionality. This puts many real-world tasks out of practical reach of RL methods. In this work, we use demonstrations to overcome the exploration problem and successfully learn to perform long-horizon, multi-step robotics tasks with continuous control such as stacking blocks with a robot arm. Our method, which builds on top of Deep Deterministic Policy Gradients and Hindsight Experience Replay, provides an order of magnitude of speedup over RL on simulated robotics tasks. It is simple to implement and makes only the additional assumption that we can collect a small set of demonstrations. Furthermore, our method is able to solve tasks not solvable by either RL or behavior cloning alone, and often ends up outperforming the demonstrator policy.
translated by 谷歌翻译
离线强化学习在利用大型预采用的数据集进行政策学习方面表现出了巨大的希望,使代理商可以放弃经常廉价的在线数据收集。但是,迄今为止,离线强化学习的探索相对较小,并且缺乏对剩余挑战所在的何处的了解。在本文中,我们试图建立简单的基线以在视觉域中连续控制。我们表明,对两个基于最先进的在线增强学习算法,Dreamerv2和DRQ-V2进行了简单的修改,足以超越事先工作并建立竞争性的基准。我们在现有的离线数据集中对这些算法进行了严格的评估,以及从视觉观察结果中进行离线强化学习的新测试台,更好地代表现实世界中离线增强学习问题中存在的数据分布,并开放我们的代码和数据以促进此方面的进度重要领域。最后,我们介绍并分析了来自视觉观察的离线RL所独有的几个关键Desiderata,包括视觉分散注意力和动态视觉上可识别的变化。
translated by 谷歌翻译
在动态人类环境中,机器人安全,以社会符合社会的方式移动是长期机器人自主权的必要基准。但是,完全在现实世界中学习和基准基准社会导航行为是不可行的,因为学习是数据密集型的,并且在培训期间提供安全保证是一项挑战。因此,需要基于仿真的基准测试,这些基准需要为社会导航提供抽象。这些基准测试的框架将需要支持各种各样的学习方法,对广泛的社会导航情景可扩展,并抽象出感知问题,以明确关注社会导航。尽管有许多提出的解决方案,包括高保真3D模拟器和网格世界近似,但现有的解决方案尚未满足上述所有用于学习和评估社会导航行为的属性。在这项工作中,我们提出了SocialGym,这是一个轻巧的2D模拟环境,用于机器人社交导航,并考虑到可扩展性,以及基于SocialGym的基准场景。此外,我们提出了基准结果,将人类工程和基于模型的学习方法比较和对比,以从演示(LFD)(LFD)和增强学习(RL)方法(RL)方法(适用于社交机器人导航)进行了构想。这些结果证明了评估的每项政策的数据效率,任务绩效,社会合规性和环境转移能力,以为未来的社会导航研究提供扎实的基础。
translated by 谷歌翻译
模仿学习研究社区最近取得了重大进展,以使人工代理人仅凭视频演示模仿行为。然而,由于视频观察的高维质性质,针对此问题开发的当前最新方法表现出很高的样本复杂性。为了解决这个问题,我们在这里介绍了一种新的算法,称为使用状态观察者VGAIFO-SO从观察中获得的,称为视觉生成对抗性模仿。 Vgaifo-So以此为核心,试图使用一种新型的自我监管的状态观察者来解决样本效率低下,该观察者从高维图像中提供了较低维度的本体感受状态表示的估计。我们在几个连续的控制环境中进行了实验表明,Vgaifo-SO比其他IFO算法更有效地从仅视频演示中学习,有时甚至可以实现与观察(Gaifo)算法的生成对抗性模仿(Gaifo)算法的性能,该算法有特权访问访问权限示威者的本体感知状态信息。
translated by 谷歌翻译