模仿学习使用专家的演示来揭示最佳政策,并且也适用于现实世界的机器人技术任务。但是,在这种情况下,由于安全,经济和时间限制,对代理的培训是在模拟环境中进行的。后来,使用SIM到现实方法将代理应用于现实域。在本文中,我们采用模仿学习方法来解决模拟环境中的机器人技术任务,并使用转移学习将这些解决方案应用于现实世界环境。我们的任务设置在Duckietown环境中,机器人代理必须根据单个前向摄像头的输入图像遵循右车道。我们提出了三个模仿学习和两种能够完成此任务的模拟方法。在这些技术上提供了详细的比较,以突出它们的优势和缺点。
translated by 谷歌翻译
自动驾驶汽车和自主驾驶研究一直受到现代人工智能应用中主要有希望的前景。根据先进的驾驶员辅助系统(ADAS)的演变,自动驾驶车辆和自主驱动系统的设计变得复杂和安全至关重要。通常,智能系统同时和有效地激活ADAS功能。因此,必须考虑可靠的ADAS功能协调,安全地控制驱动系统。为了处理这个问题,本文提出了一种随机的对抗性模仿学习(RAIL)算法。铁路是一种新的无衍生仿制学习方法,用于具有各种ADAS功能协调的自主驾驶;因此,它模仿决策者的运作,可以使用各种ADAS功能控制自动驾驶。该方法能够培训涉及激光雷达数据的决策者,并控制多车道复合道环境中的自主驾驶。基于仿真的评估验证了所提出的方法实现了所需的性能。
translated by 谷歌翻译
模仿学习研究社区最近取得了重大进展,以使人工代理人仅凭视频演示模仿行为。然而,由于视频观察的高维质性质,针对此问题开发的当前最新方法表现出很高的样本复杂性。为了解决这个问题,我们在这里介绍了一种新的算法,称为使用状态观察者VGAIFO-SO从观察中获得的,称为视觉生成对抗性模仿。 Vgaifo-So以此为核心,试图使用一种新型的自我监管的状态观察者来解决样本效率低下,该观察者从高维图像中提供了较低维度的本体感受状态表示的估计。我们在几个连续的控制环境中进行了实验表明,Vgaifo-SO比其他IFO算法更有效地从仅视频演示中学习,有时甚至可以实现与观察(Gaifo)算法的生成对抗性模仿(Gaifo)算法的性能,该算法有特权访问访问权限示威者的本体感知状态信息。
translated by 谷歌翻译
我们研究了复杂几何物体的机器人堆叠问题。我们提出了一个挑战和多样化的这些物体,这些物体被精心设计,以便要求超出简单的“拾取”解决方案之外的策略。我们的方法是加强学习(RL)方法与基于视觉的互动政策蒸馏和模拟到现实转移相结合。我们的学习政策可以有效地处理现实世界中的多个对象组合,并展示各种各样的堆叠技能。在一个大型的实验研究中,我们调查在模拟中学习这种基于视觉的基于视觉的代理的选择,以及对真实机器人的最佳转移产生了什么影响。然后,我们利用这些策略收集的数据并通过离线RL改善它们。我们工作的视频和博客文章作为补充材料提供。
translated by 谷歌翻译
由于配置空间的高维度以及受各种材料特性影响的动力学的复杂性,布料操纵是一项具有挑战性的任务。复杂动力学的效果甚至在动态折叠中更为明显,例如,当平方板通过单个操纵器将一块织物折叠为两种时。为了说明复杂性和不确定性,使用例如通常需要视觉。但是,构建动态布折叠的视觉反馈政策是一个开放的问题。在本文中,我们提出了一种解决方案,该解决方案可以使用强化学习(RL)学习模拟政策,并将学识渊博的政策直接转移到现实世界中。此外,要学习一种操纵多种材料的单一策略,我们将模拟中的材料属性随机化。我们评估了现实世界实验中视觉反馈和材料随机化的贡献。实验结果表明,所提出的解决方案可以使用现实世界中的动态操作成功地折叠不同的面料类型。代码,数据和视频可从https://sites.google.com/view/dynamic-cloth-folding获得
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
在自主驾驶场中,人类知识融合到深增强学习(DRL)通常基于在模拟环境中记录的人类示范。这限制了在现实世界交通中的概率和可行性。我们提出了一种两级DRL方法,从真实的人类驾驶中学习,实现优于纯DRL代理的性能。培训DRL代理商是在Carla的框架内完成了机器人操作系统(ROS)。对于评估,我们设计了不同的真实驾驶场景,可以将提出的两级DRL代理与纯DRL代理进行比较。在从人驾驶员中提取“良好”行为之后,例如在信号交叉口中的预期,该代理变得更有效,并且驱动更安全,这使得这种自主代理更适应人体机器人交互(HRI)流量。
translated by 谷歌翻译
我们调查视觉跨实施的模仿设置,其中代理商学习来自其他代理的视频(例如人类)的策略,示范相同的任务,但在其实施例中具有缺点差异 - 形状,动作,终效应器动态等。在这项工作中,我们证明可以从对这些差异强大的跨实施例证视频自动发现和学习基于视觉的奖励功能。具体而言,我们介绍了一种用于跨实施的跨实施的自我监督方法(XIRL),它利用时间周期 - 一致性约束来学习深度视觉嵌入,从而从多个专家代理的示范的脱机视频中捕获任务进度,每个都执行相同的任务不同的原因是实施例差异。在我们的工作之前,从自我监督嵌入产生奖励通常需要与参考轨迹对齐,这可能难以根据STARK实施例的差异来获取。我们凭经验显示,如果嵌入式了解任务进度,则只需在学习的嵌入空间中占据当前状态和目标状态之间的负距离是有用的,作为培训与加强学习的培训政策的奖励。我们发现我们的学习奖励功能不仅适用于在训练期间看到的实施例,而且还概括为完全新的实施例。此外,在将现实世界的人类示范转移到模拟机器人时,我们发现XIRL比当前最佳方法更具样本。 https://x-irl.github.io提供定性结果,代码和数据集
translated by 谷歌翻译
模仿学习在有效地学习政策方面对复杂的决策问题有着巨大的希望。当前的最新算法经常使用逆增强学习(IRL),在给定一组专家演示的情况下,代理会替代奖励功能和相关的最佳策略。但是,这种IRL方法通常需要在复杂控制问题上进行实质性的在线互动。在这项工作中,我们提出了正规化的最佳运输(ROT),这是一种新的模仿学习算法,基于最佳基于最佳运输轨迹匹配的最新进展。我们的主要技术见解是,即使只有少量演示,即使只有少量演示,也可以自适应地将轨迹匹配的奖励与行为克隆相结合。我们对横跨DeepMind Control Suite,OpenAI Robotics和Meta-World基准的20个视觉控制任务进行的实验表明,与先前最新的方法相比,平均仿真达到了90%的专家绩效的速度,达到了90%的专家性能。 。在现实世界的机器人操作中,只有一次演示和一个小时的在线培训,ROT在14个任务中的平均成功率为90.1%。
translated by 谷歌翻译
用于训练自动汽车的两种目前的方法是加强学习和模仿学习。本研究通过将监督模仿学习集成到强化学习中,在模拟和更小的现实世界环境中开发了一种新的学习方法和系统方法,使RL训练数据收集过程更有效和高效。通过组合这两种方法,所提出的研究成功利用了RL和IL方法的优点。首先,使用模仿学习将一个真正的迷你级机器人汽车组装并培训了6英尺的真实世界轨道。在此过程中,通过模仿人类专家驱动程序并手动记录使用Microsoft Airsim的API手动记录动作来控制迷你级机器人车辆以控制磁级机器人车辆。 331能够生成和收集准确的人类奖励训练样本。然后,使用加强学习在Microsoft Airsim模拟器中培训了一个代理,使用初始331奖励数据从模仿学习培训输入的初始331奖励数据。经过6小时的培训期后,迷你规模的机器人汽车能够在迷你级机器人汽车无法完成一个全圈,即使在30之后,迷你规模机器人汽车无法完成一个全圈小时培训纯RL培训。培训时间减少80%,新方法每小时产生更高的平均奖励。因此,新方法能够节省大量的培训时间,可用于加速自动驾驶中的RL的采用,这将有助于在应用于现实生活场景时长期产生更有效和更好的结果。关键词:加固学习(RL),仿制学习(IL),自主驾驶,人类驾驶数据,CNN
translated by 谷歌翻译
Aerial view of test environment (b) Vision-based driving, view from onboard camera (c) Side view of vehicle Fig. 1. Conditional imitation learning allows an autonomous vehicle trained end-to-end to be directed by high-level commands. (a) We train and evaluate robotic vehicles in the physical world (top) and in simulated urban environments (bottom). (b) The vehicles drive based on video from a forward-facing onboard camera. At the time these images were taken, the vehicle was given the command "turn right at the next intersection". (c) The trained controller handles sensorimotor coordination (staying on the road, avoiding collisions) and follows the provided commands.
translated by 谷歌翻译
本文详细介绍了我们对2021年真正机器人挑战的第一阶段提交的提交;三指机器人必须沿指定目标轨迹携带立方体的挑战。为了解决第1阶段,我们使用一种纯净的增强学习方法,该方法需要对机器人系统或机器人抓握的最少专家知识。与事后的经验重播一起采用了稀疏,基于目标的奖励,以教导控制立方体将立方体移至目标的X和Y坐标。同时,采用了基于密集的距离奖励来教授将立方体提升到目标的Z坐标(高度组成部分)的政策。该策略在将域随机化的模拟中进行培训,然后再转移到真实的机器人进行评估。尽管此次转移后的性能往往会恶化,但我们的最佳政策可以通过有效的捏合掌握能够成功地沿目标轨迹提升真正的立方体。我们的方法表现优于所有其他提交,包括那些利用更传统的机器人控制技术的提交,并且是第一个解决这一挑战的纯学习方法。
translated by 谷歌翻译
在这项工作中,我们旨在解决自动分级问题,在这种情况下,必须将推土机弄平不平衡的区域。此外,我们探索了弥合模拟环境和实际场景之间差距的方法。我们设计了一个现实的物理模拟,也是模仿真实推土机动力学和感官信息的缩放的真实原型环境。我们建立了启发式方法和学习策略,以解决问题。通过广泛的实验,我们表明,尽管启发式方法能够在清洁且无噪音的模拟环境中解决该问题,但在面对现实世界情景时,它们在灾难性的环境中失败。由于启发式方法能够在模拟环境中成功解决任务,因此我们表明它们可以被利用来指导学习代理,该学习代理可以在模拟和缩放原型环境中概括和解决任务。
translated by 谷歌翻译
我们提出了一种从演示方法(LFD)方法的新颖学习,即示范(DMFD)的可变形操作,以使用状态或图像作为输入(给定的专家演示)来求解可变形的操纵任务。我们的方法以三种不同的方式使用演示,并平衡在线探索环境和使用专家的指导之间进行权衡的权衡,以有效地探索高维空间。我们在一组一维绳索的一组代表性操纵任务上测试DMFD,并从软件套件中的一套二维布和2维布进行测试,每个任务都带有状态和图像观测。对于基于状态的任务,我们的方法超过基线性能高达12.9%,在基于图像的任务上最多超过33.44%,具有可比或更好的随机性。此外,我们创建了两个具有挑战性的环境,用于使用基于图像的观测值折叠2D布,并为其设定性能基准。与仿真相比,我们在现实世界执行过程中归一化性能损失最小的真实机器人(约为6%),我们将DMFD部署为最小。源代码在github.com/uscresl/dmfd上
translated by 谷歌翻译
在移动操作(MM)中,机器人可以在内部导航并与其环境进行交互,因此能够完成比仅能够导航或操纵的机器人的更多任务。在这项工作中,我们探讨如何应用模仿学习(IL)来学习MM任务的连续Visuo-Motor策略。许多事先工作表明,IL可以为操作或导航域训练Visuo-Motor策略,但很少有效应用IL到MM域。这样做是挑战的两个原因:在数据方面,当前的接口使得收集高质量的人类示范困难,在学习方面,有限数据培训的政策可能会在部署时遭受协变速转变。为了解决这些问题,我们首先提出了移动操作Roboturk(Momart),这是一种新颖的遥控框架,允许同时导航和操纵移动操纵器,并在现实的模拟厨房设置中收集一类大规模的大规模数据集。然后,我们提出了一个学习错误检测系统来解决通过检测代理处于潜在故障状态时的协变量转变。我们从该数据中培训表演者的IL政策和错误探测器,在专家数据培训时,在多个多级任务中达到超过45%的任务成功率和85%的错误检测成功率。 CodeBase,DataSets,Visualization,以及更多可用的https://sites.google.com/view/il-for-mm/home。
translated by 谷歌翻译
Exploration in environments with sparse rewards has been a persistent problem in reinforcement learning (RL). Many tasks are natural to specify with a sparse reward, and manually shaping a reward function can result in suboptimal performance. However, finding a non-zero reward is exponentially more difficult with increasing task horizon or action dimensionality. This puts many real-world tasks out of practical reach of RL methods. In this work, we use demonstrations to overcome the exploration problem and successfully learn to perform long-horizon, multi-step robotics tasks with continuous control such as stacking blocks with a robot arm. Our method, which builds on top of Deep Deterministic Policy Gradients and Hindsight Experience Replay, provides an order of magnitude of speedup over RL on simulated robotics tasks. It is simple to implement and makes only the additional assumption that we can collect a small set of demonstrations. Furthermore, our method is able to solve tasks not solvable by either RL or behavior cloning alone, and often ends up outperforming the demonstrator policy.
translated by 谷歌翻译
加强学习是机器人获得从经验中获得技能的强大框架,但通常需要大量的在线数据收集。结果,很难收集机器人概括所需的足够多样化的经验。另一方面,人类的视频是一种易于获得的广泛和有趣的经历来源。在本文中,我们考虑问题:我们可以直接进行强化学习,以便在人类收集的经验吗?这种问题特别困难,因为这种视频没有用动作注释并相对于机器人的实施例展示了大量的视觉畴偏移。为了解决这些挑战,我们提出了一种与视频(RLV)的强化学习框架。 RLV使用人类收集的经验结合机器人收集的数据来了解策略和价值函数。在我们的实验中,我们发现RLV能够利用此类视频来学习基于视觉的愿景技能,以不到一半的样本作为从头开始学习的RL方法。
translated by 谷歌翻译
近年来,深度加固学习(DRL)已经成功地进入了复杂的决策应用,例如机器人,自动驾驶或视频游戏。在寻找更多采样高效的算法中,有希望的方向是利用尽可能多的外部偏离策略数据。这种数据驱动方法的一个主题是从专家演示中学习。在过去,已经提出了多种想法来利用添加到重放缓冲区的示范,例如仅在演示中预先预订或最小化额外的成本函数。我们提出了一种新的方法,能够利用任何稀疏奖励环境中在线收集的演示和剧集,以任何违规算法在线。我们的方法基于奖励奖金,给出了示范和成功的剧集,鼓励专家模仿和自模仿。首先,我们向来自示威活动的过渡提供奖励奖金,以鼓励代理商符合所证明的行为。然后,在收集成功的剧集时,我们将其在将其添加到重播缓冲区之前与相同的奖金转换,鼓励代理也与其先前的成功相匹配。我们的实验专注于操纵机器人,特别是在模拟中有6个自由的机器人手臂的三个任务。我们表明,即使在没有示范的情况下,我们基于奖励重新标记的方法可以提高基础算法(SAC和DDPG)对这些任务的性能。此外,集成到我们的方法中的两种改进来自以前的作品,允许我们的方法优于所有基线。
translated by 谷歌翻译
Imitation learning techniques aim to mimic human behavior in a given task. An agent (a learning machine) is trained to perform a task from demonstrations by learning a mapping between observations and actions. The idea of teaching by imitation has been around for many years, however, the field is gaining attention recently due to advances in computing and sensing as well as rising demand for intelligent applications. The paradigm of learning by imitation is gaining popularity because it facilitates teaching complex tasks with minimal expert knowledge of the tasks. Generic imitation learning methods could potentially reduce the problem of teaching a task to that of providing demonstrations; without the need for explicit programming or designing reward functions specific to the task. Modern sensors are able to collect and transmit high volumes of data rapidly, and processors with high computational power allow fast processing that maps the sensory data to actions in a timely manner. This opens the door for many potential AI applications that require real-time perception and reaction such as humanoid robots, self-driving vehicles, human computer interaction and computer games to name a few. However, specialized algorithms are needed to effectively and robustly learn models as learning by imitation poses its own set of challenges. In this paper, we survey imitation learning methods and present design options in different steps of the learning process. We introduce a background and motivation for the field as well as highlight challenges specific to the imitation problem. Methods for designing and evaluating imitation learning tasks are categorized and reviewed. Special attention is given to learning methods in robotics and games as these domains are the most popular in the literature and provide a wide array of problems and methodologies. We extensively discuss combining imitation learning approaches using different sources and methods, as well as incorporating other motion learning methods to enhance imitation. We also discuss the potential impact on industry, present major applications and highlight current and future research directions.
translated by 谷歌翻译
移动机器人的视觉导航经典通过SLAM加上最佳规划,最近通过实现作为深网络的端到端培训。虽然前者通常仅限于航点计划,但即使在真实的物理环境中已经证明了它们的效率,后一种解决方案最常用于模拟中,但已被证明能够学习更复杂的视觉推理,涉及复杂的语义规则。通过实际机器人在物理环境中导航仍然是一个开放问题。端到端的培训方法仅在模拟中进行了彻底测试,实验涉及实际机器人的实际机器人在简化的实验室条件下限制为罕见的性能评估。在这项工作中,我们对真实物理代理的性能和推理能力进行了深入研究,在模拟中培训并部署到两个不同的物理环境。除了基准测试之外,我们提供了对不同条件下不同代理商培训的泛化能力的见解。我们可视化传感器使用以及不同类型信号的重要性。我们展示了,对于Pointgoal Task,一个代理在各种任务上进行预先培训,并在目标环境的模拟版本上进行微调,可以达到竞争性能,而无需建模任何SIM2重传,即通过直接从仿真部署培训的代理即可一个真正的物理机器人。
translated by 谷歌翻译