机器人设计通常是一个缓慢而困难的过程,需要迭代构造和测试原型,目标是顺序优化设计。对于大多数机器人而言,当验证硬件的能力以解决所需任务时,该过程进一步复杂化,已经具有适当的控制器,该控制器又针对特定硬件设计和调整。在本文中,我们提出了一种新颖的方法HPC-BBO,可以有效地自动设计硬件配置,并通过自动调整相应的控制器来评估它们.HPC-BBO基于分层贝叶斯优化过程,可以优化形态配置(基于在控制器学习过程中先前设计的性能)并随后学习相应的控制器(利用从先前形态的优化中收集的知识)。此外,HPC-BBO可以同时选择多个形态设计的“批量”,从而并行化硬件验证并减少耗时的生产周期数。我们验证了HPC-BBO对模拟6腿机器人的形态和控制器的设计。实验结果表明,HPC-BBO优于多竞争基线,并且生产周期超过贝叶斯优化产生360美元/%的减少,从而将我们的微机器人的假设制造时间从21个月减少到4个月。
translated by 谷歌翻译
对于自动驾驶汽车(AV)在人力驱动车辆上行驶的道路上表现得恰当,他们必须能够从丰富的感知信息中推断出其他驾驶员的不确定性和决策。在这些能力的基础上,我们提出了概率预测模型代理商。我们针对AV的目标执行标准预测和条件预测。关于所有代理如何可能响应受控代理的特定决策的条件预测原因。我们根据过去的位置和激光雷达对实际和模拟的数据预测车辆轨迹进行训练。我们的评估表明,与现有技术相比,我们的模型在多智能体驾驶场景中更加准确。除了具有执行条件预测查询的一般能力之外,我们还表明,我们模型对所有代理的预测在以AV意图的知识为条件时得到改善,进一步说明了其对代理交互建模的能力。
translated by 谷歌翻译
深度神经网络模型和强化学习算法的结合可以使得学习机器人行为的策略成为可能,这些机器人行为直接读取原始感觉输入,例如相机图像,有效地将估计和控制都假设为一个模型。然而,强化学习的现实应用必须通过手动编程的奖励函数来指定任务的目标,这实际上要求设计与端到端执行学习有望避免的完全相同的感知管道,或者用额外的方式检测环境。用于确定任务是否已成功执行的传感器。在本文中,我们提出了一种方法,通过使机器人从成功结果的实例数量中学习,然后是主动询问,机器人向用户显示状态并要求标签,从而消除对奖励规范的手动工程的需要。确定该状态是否代表任务的成功完成。虽然为每个单一状态请求标签将等于要求用户手动提供奖励信号,但我们的方法仅需要在训练期间看到的状态的一小部分标签,使其成为有效且实用的学习技能的方法,无需人工设计的奖励。我们在真实世界的机器人操作任务上评估我们的方法,其中观察包括由机器人的相机观察的图像。在实验中,我们的方法有效地学习直接从图像中排列对象,放置书籍和布料,并且没有任何手动指定的奖励功能,并且与现实世界仅有1-4小时的交互。
translated by 谷歌翻译
强化学习(RL)算法已经在复杂任务上展示了有希望的结果,但是通常需要不切实际的样本数量,因为它们从头开始学习。 Meta-RL旨在通过以前的任务中的经验来解决这一挑战,以便更快地解决新任务。然而,在实践中,这些算法在元培训过程中通常还需要大量的政策经验,这使得它们不适用于很多问题。为此,我们建议通过模仿解决以前看到的任务的专家政策来学习强化学习程序。这涉及嵌套优化,在内部循环中使用RL,在外部循环中使用监督模仿学习。由于外循环模仿学习可以通过非政策数据来完成,我们可以在元学习样本效率方面取得显着的进步。在本文中,我们展示了这种一般的想法可以用于元强化学习和从多任务演示数据学习快速RL程序。前者的结果是,在元培训期间,可以利用针对先前任务学习的策略而无需大量的政策数据,而在人员易于提供示范的情况下,这种方法特别有用。在许多连续控制meta-RL问题中,与先前的工作相比,我们证明了meta-RL样本效率的显着提高,以及通过视觉观察扩展到域的能力。
translated by 谷歌翻译
强化学习的一个主要挑战是发现奖励分布稀疏的任务的有效政策。我们假设在没有有用的奖励信号的情况下,有效的探索策略应该找出{\ it decision states}。这些状态位于状态空间中的关键交叉点,代理可以从这些交叉点转换到新的,可能未开发的区域。我们建议从先前的经验中了解决策状态。通过训练具有信息瓶颈的目标条件,我们可以通过检查模型实际利用目标状态的位置来识别决策状态。我们发现,这种简单的机制可以有效地识别决策状态,即使在部分观察到的环境中实际上,该模型学习了与潜在子目标相关的理论线索。在新的环境中,这个模型可以识别新的子目标以进行进一步的探索,引导代理通过一系列潜在的决策状态并通过状态空间的新区域。
translated by 谷歌翻译
生成低级机器人控制器通常需要手动参数调整和重要的系统知识,这可能导致高度专业化控制器的设计时间长。随着自动化的发展,对这些控制器的需求增长速度可能超过专家设计师的数量。为了解决快速生成低级别控制器而不需要知道的问题,我们建议使用基于模型的强化学习(MBRL)训练几分钟的自动生成数据。在本文中,我们探讨了MBRL在具有快速动力学的Crazyflie四旋翼飞行器上的能力,并且经典控制方案为新方法的性能提供了基线。据我们所知,这是首次使用MBRL进行四旋翼飞行器的低水平控制悬停,仅使用车载传感器,直接电机输入信号,并且没有初始动力学知识。我们用于预测的前向动力学模型是一个神经网络,用于预测下一步的状态变量,并在预测方差上使用正则化项。然后,模型预测控制器通过无线电从支持GPU的基站向四旋翼固件传输最佳动作。在我们的实验中,使用3分钟的实验训练数据,可以实现长达4秒的四旋转悬停能力。
translated by 谷歌翻译
基于对象的因子分解为与世界交互提供了有用的抽象层次。然而,建立明确的对象表示通常需要在实践中难以获得的监督信号。我们提出了一种范式,用于在不直接监督对象属性的情况下学习以物理为中心的物理理解表示。我们的模型,面向对象的预测和规划(O2P2),共同学习从图像观察到对象表示的映射的感知功能,用于预测对象集合的时间演变的成对物理交互函数,以及将对象映射回像素的渲染函数。在评估时,我们不仅考虑模型物理预测的准确性,还考虑其对下游任务的实用性,这些任务需要对直观物理进行可操作的表示。在使用图像预测任务训练我们的模型之后,我们可以使用其学习的表示来构建比训练期间观察到的更复杂的块塔。
translated by 谷歌翻译
当观察结果类似于训练数据时,深度学习为机器感知提供了强大的工具。然而,即使在意外情况下,现实世界的机器人系统也必须能够智能地反应他们的观察结果。这需要一个系统在不熟悉的分布式观察的情况下推断其自身的不确定性。近似贝叶斯方法通常用于估计神经网络预测的不确定性,但可以解决分布不均匀的观测问题。生成模型可以原则上将检测到的分布外观察结果视为具有低估计密度的观察结果。然而,仅仅存在分发输入并不表示不安全的情况。在本文中,我们提出了一种不确定性感知机器人感知的方法,该方法结合了生成建模和模型不确定性,以应对源自分布状态的不确定性。我们的方法估计了关于模型预测的不确定性度量,同时考虑了观察分布的显式(生成)模型来处理分布式输入。这通过概率预测观察到训练分布来实现,使得分布外输入映射到不确定分布观察,这反过来产生不确定的任务相关预测,但仅在图像的任务相关部分改变时。我们用模拟和实际数据评估了一个动作条件碰撞预测任务的方法,并证明我们的投影分布式观测方法提高了四种标准贝叶斯和非贝叶斯神经网络方法的性能,在两者之间提供了更有利的交易。机器人可以保持自主的时间比例,以及成功避免即将发生的崩溃的比例。
translated by 谷歌翻译
深层强化学习表明,机器人控制策略的全自动学习的前景,直接将感官输入映射到低水平。然而,由于样本的复杂性以及这些方法对超参数的敏感性,在真实世界的机器人上应用深度强化学习方法极其困难。虽然可以在模拟域中并行执行高参数调整,但是在现实世界的机器人平台上直接调整超参数通常是不切实际的,特别是像四足机器人那样可以通过广泛的试错法学习来制造损坏的有腿平台。在本文中,我们开发了柔软的演员评论深度强化学习算法的非稳定变体,它需要最小的超参数调整,同时也只需要少量的试验来学习多层神经网络策略。该算法基于最大熵强化学习框架,通过动态自动调整确定策略随机性的温度参数,自动进行开发性研究。我们证明了这种方法在四个标准基准测试环境中实现了最先进的性能。然后我们证明它可用于在真实世界的Minitaur机器人上学习四足运动步态,学习在两小时的训练中直接在现实世界中从头开始。
translated by 谷歌翻译
传统的反馈控制方法可以通过使用显式模型(例如刚体运动方程)捕获结构来非常有效地解决各种类型的机器人控制问题。然而,现代制造中的许多控制问题涉及接触和摩擦,这对于一阶物理建模是困难的。因此,将控制设计方法应用于这些类型的问题通常会导致脆弱且不准确的控制器,必须手动调整以进行部署。已证明强制学习(RL)方法能够通过与环境的交互来学习连续机器人控制器,即使对于包括摩擦和接触的问题。在本文中,我们研究如何通过将它们分解为通过常规反馈控制方法有效求解的部分以及用RL求解的残差来解决现实世界中的困难控制问题。最终控制策略是两个控制信号的叠加。我们通过训练代理来演示我们的方法,以成功执行涉及联系人和不稳定对象的真实世界块组装任务。
translated by 谷歌翻译