估计统计不确定性允许自主代理在任务执行期间传达他们的信心,这对于应用程序等自动驾驶等关键领域非常重要。在这项工作中,我们通过数据聚合提出了改进端到端控制系统的不确定性感知模仿学习(UAIL)算法。 UAIL使用Monte CarloDropout来估计端到端系统的控制输出中的不确定性,使用不确定选择性地获取新训练数据的状态。与先前的数据聚合算法相比,UAIL可以预测其自身的错误并切换到专家,以防止访问一系列次优状态,从而迫使人类专家随机访问最佳状态。我们的模拟驾驶任务的实验结果表明,我们提出的不确定性估计方法可用于可靠地预测分数。我们的分析表明,UAIL在一系列基准测试任务上优于现有的数据聚合算法。
translated by 谷歌翻译
现有反向强化学习(IRL)方法的一个关键缺陷是它们无法明显优于演示者。这是IRL算法普遍依赖于某种形式的模拟(例如特征计数匹配)的结果,而不是推断可能在实践中执行不力的示范者的潜在意图。在本文中,我们介绍了一种新的奖励学习方法。观察算法,轨迹排名奖励EXtrapolation(T-REX),推断超出一组(近似)排名的演示,以便从一组可能很差的演示中推断出高质量的奖励函数。结合深度强化学习,我们表明这种方法可以在多个Atari和MuJoCo基准测试任务上实现比性能最佳的演示要好一个数量级以上的性能。相比之下,先进的模仿学习和IRL方法未能比演示者表现更好,并且通常具有比T-REX更高的性能。最后,我们证明了T-REX对于适度数量的平均噪声具有鲁棒性,并且可以通过简单地观察随着时间的推移而在任务中随意改善的方式来准确地推断意图。
translated by 谷歌翻译
从演示中主动学习允许机器人查询人类特定类型的输入以实现有效学习。现有工作已经探索了各种主动查询策略;但是,据我们所知,这些策略都没有直接降低机器人学习的政策的绩效风险。利用反向强化学习的性能界限的最新进展,我们提出了一种风险感知的主动逆增强学习算法,该算法将活动查询集中在状态空间的区域上,可能存在大的泛化误差。我们表明,风险感知的主动学习在网格世界,模拟驱动和表格设置任务上优于标准的主动IRL方法,同时还提供基于性能的停止标准,允许机器人知道何时收到足够的演示以安全地执行任务。
translated by 谷歌翻译
When developing general purpose robots, the overarching software architecture can greatly affect the ease of accomplishing various tasks. Initial efforts to create unified robot systems in the 1990s led to hybrid architectures, emphasizing a hierarchy in which deliberative plans direct the use of reactive skills. However, since that time there has been significant progress in the low-level skills available to robots, including manipulation and perception, making it newly feasible to accomplish many more tasks in real-world domains. There is thus renewed optimism that robots will be able to perform a wide array of tasks while maintaining responsiveness to human operators. However, the top layer in traditional hybrid architectures, designed to achieve long-term goals, can make it difficult to react quickly to human interactions during goal-driven execution. To mitigate this difficulty, we propose a novel architecture that supports such transitions by adding a top-level reactive module which has flexible access to both reactive skills and a deliberative control module. To validate this architecture, we present a case study of its application on a domestic service robot platform.
translated by 谷歌翻译
由于繁琐的数据要求,从演示中学习通常会使其承诺允许用户快速自然地对机器人进行编程。演示本身就是模糊和不完整的,如果在不同条件下没有大量的演示,则无法在不可见的情况下进行正确的广义化。相比之下,人类通常能够通过利用一生中学到的背景,从单一演示(通常是没有行动标签的观察)中容忍复杂的任务。受到这种能力的启发,我们的目标是通过利用辅助视频数据作为上下文,使机器人能够从观察中一步完成多步骤任务的学习。我们的主要贡献是通过以下方式实现此目标的新颖系统:(1)使用单个用户分段演示来定义构成任务的原始动作,(2)通过基于元学习的方法在分段辅助视频中定位这些动作的其他示例,(3)使用这些附加示例来学习每个动作的奖励函数,以及(4)在推断的奖励函数之上执行强化学习,允许可以组合以完成任务的动作策略。 Weempirically证明机器人在提供辅助视频时可以更有效地学习多步骤任务,并且与从分段视频学习相比,在定位个人动作时性能会大大提高。
translated by 谷歌翻译
我们考虑马尔可夫决策过程中的非政策评估问题。非政策评估的任务是使用不同的行为政策生成的数据评估一个政策的预期回报。重要性评估是一种用于非政策评估的技术,可以重新调整政策后的重量,以解决两种政策之间回报可能性的差异。在本文中,我们使用估计行为策略研究重要性抽样,其中行为策略估计来自用于计算重要性抽样估计的相同数据集。我们发现,与使用真实行为策略的重要性抽样或使用从单独数据集估计的行为策略相比,此策略通常会降低非政策评估的均方误差。我们的实证结果也扩展到重要抽样的其他流行变体,并表明即使真正的行为政策是马尔可夫,估计非马尔可夫行为政策也可以进一步降低均方误差。
translated by 谷歌翻译
嘈杂的观测结合非线性动力学构成了机器人运动规划中最大的挑战之一。通过将非线性动力学分解为独立的局部动力学模型集,混合动力学提供了一种自然的方式非线性动力学,特别是在由于诸如接触等因素而具有突然不连续的动力学的系统中。我们提出了一种分层POMDP计划器,为混合动力学模型开发成本优化的运动计划。分层计划员首先开发一个高级运动计划,对要访问的局部动力学模型进行排序,然后将其转换为详细的连续状态计划。这种分层规划方法导致将POMDP规划问题合并到较小的子部分中,这些子部分可以以显着较低的计算成本来解决。对局部动力学模型的访问进行排序的能力也提供了一种强大的方法来容忍混合动力学以减少状态不确定性。我们使用机器人操纵器评估模拟域中导航任务和组装任务上的建议规划器,表明我们的方法可以有效地解决具有高观察噪声和非线性动态的任务,与直接规划方法相比,计算成本显着降低。
translated by 谷歌翻译
在强化学习领域,最近在政策绩效方面取得了安全性和高可信度的限制。然而,就我们的知识而言,在逆强化学习环境中确定高可信度政策绩效界限还没有实用的方法 - 其中真实奖励函数是未知的,只给出了专家行为的样本。我们提出了一种基于贝叶斯逆强化的抽样方法。学习使用示范来确定任何评估政策与专家未知奖励函数下的最优政策之间的预期回报的$ \ alpha $ -worst-case差异的实际高可信度上限。我们在标准网格导航任务和模拟驾驶任务上评估我们提出的界限,并且比基于特征计数的基线实现更严格和更准确的界限。我们还举例说明了如何利用我们提出的边界来执行风险意识政策选择和风险意识政策改进。因为我们提出的约束要求比现有的高置信度界限要多几个数量级的示范,所以它是第一个允许从示范中学习的代理人对其学习政策的质量表示自信的实用方法。
translated by 谷歌翻译
对于自治代理人来说,执行不良政策可能代价高昂或极其危险。对于这样的代理,期望在不执行所述策略的情况下确定任何给定策略的性能的置信区间下限。当前用于使用重要性采样的精确高可信度非策略评估的方法需要大量数据来实现更低的限制。现有的基于模型的方法仅解决离散状态空间中的问题。由于精确界限对于许多域而言是难以处理的,因此我们对非常有效的近似界限进行严格的安全保证。在此背景下,我们提出了两种自举离开策略评估方法,这些方法使用学习的MDP转换模型,以便在连续和离散状态空间中使用有限数据估计政策性能的较低置信界限。由于模型的直接使用可能会引入偏差,因此我们推导出模型偏差的理论上限,当模型转换函数用i.i.d估算时。轨迹。这种限制拓宽了我们对基于模型的方法具有高偏差的条件的理解。最后,我们对所提出的方法进行了评估,并分析了不同的自举离开策略置信区间方法成功和失败的设置。
translated by 谷歌翻译
机器学习正在从艺术和科学转变为可供每个开发人员使用的技术。在不久的将来,每个平台上的每个应用程序都将包含训练有素的模型,以编码开发人员无法创作的基于数据的决策。这提出了一个重要的工程挑战,因为目前数据科学和建模在很大程度上与标准软件开发过程脱钩。这种分离使得在应用程序内部的机器学习能力不必要地变得困难,并且进一步阻碍了开发人员将MLin置于首位。在本文中,我们介绍了ML .NET,这是一个在过去十年中在Microsoft开发的框架,用于应对在大型软件应用程序中轻松发布机器学习模型的挑战。我们提出了它的架构,并阐明了形成它的应用程序需求。具体而言,我们引入了DataView,它是ML .NET的核心数据抽象,它可以有效地,一致地捕获完整的预测管道,并在训练和推理生命周期中进行。我们结束了论文,对ML .NET进行了令人惊讶的有利的性能研究,与更多的接受者相比,并讨论了一些经验教训。
translated by 谷歌翻译