随机计算图(SCG)提供了一种形式化来表示人工智能中出现的结构优化问题,包括监督,无监督和强化学习。以前的工作表明,SCG预期损失梯度的无偏估计可以从单一原则得出。然而,该估计器通常具有高方差并且需要对每个数据点进行完整的模型评估,使得该算法在大图中成本高昂。在这项工作中,我们通过从强化学习文献中概括概念来解决这些问题。我们介绍了任意SCG的价值函数,基线和批评的概念,并展示了如何使用它们从部分模型评估中推导出低方差梯度估计,为基于梯度的优化的一般和有效信用分配铺平了道路。在这样做的过程中,我们展示了我们的结果如何统一概率推理和强化学习文献的最新进展。
translated by 谷歌翻译
直接从原始的高维感应输入(如图像)操作对机器人控制来说是一个挑战。最近,已经提出了强化学习方法来解决从像素到扭矩的端到端的特定任务。然而,这些方法假设访问可能需要专门的环境仪器的特定奖励。此外,获得的政策和陈述往往是特定于任务的,并且可能无法很好地传递。在这项工作中,我们研究了一般图像嵌入和控制原语的完全自我监督学习,基于找到到达任何状态的最短时间。我们还为状态动作值函数引入了一种新结构,该结构在无模型和基于模型的方法之间建立连接,并提高了学习算法的性能。我们在三个模拟机器人任务中实验证明了这些发现。
translated by 谷歌翻译
我们提出了一种用于强化学习(RL)的非策略行为者 - 评论算法,该算法将来自随机搜索的无梯度优化的思想与学习的动作 - 值函数相结合。结果是一个简单的过程,包括三个步骤:i)通过估计参数动作 - 值函数进行策略评估; ii)通过估计当地非参数政策来改善政策; iii)通过拟合参数策略进行推广。每个步骤都可以以不同的方式实现,从而产生了几种算法变量。我们的算法利用与黑盒优化和“RL作为推理”的现有文献的联系,可以看作是最大后验策略优化算法的扩展。 (MPO)[Abdolmaleki等,2018a],或作为信赖域协方差矩阵适应进化战略(CMA-ES)的延伸[Abdolmaleki等,2017b; Hansen等,1997]对策略迭代方案。我们对parkour套件[Heess et al。,2017],DeepMind控制套件[Tassa et al。,2018]和OpenAI Gym [Brockman et al。,2016]的31个连续控制任务进行了比较,具有不同的属性,有限的计算量和单个超参数集,证明了我们的方法的有效性和艺术状态的结果。可以在goo.gl/HtvJKR找到视频,总结结果。
translated by 谷歌翻译
近年来,深度强化学习(RL)算法取得了长足的进步。一个重要的剩余挑战是能够快速将技能转化为新任务,并将现有技能与新获得的技能相结合。在通过组合技能解决任务的领域中,这种能力有望大幅降低深度RL算法的数据要求,从而提高其适用性。最近的工作已经研究了以行动 - 价值函数的形式表现出行为的方式。我们分析这些方法以突出它们的优势和弱点,并指出每种方法都容易出现性能不佳的情况。为了进行这种分析,我们将广义策略改进扩展到最大熵框架,并介绍了在连续动作空间中实现后继特征的实际方法。然后我们提出了一种新方法,原则上可以恢复最佳的policyduring转移。该方法通过明确地学习策略之间的(折扣的,未来的)差异来工作。我们在表格案例中研究了这种方法,并提出了一种适用于多维连续动作空间的可扩展变体。我们将我们的方法与现有的方法进行比较,讨论一系列具有组成结构的非平凡连续控制问题,并且尽管不需要同时观察所有任务奖励,但仍能在质量上更好地表现。
translated by 谷歌翻译
本文讨论了在安全关键领域评估学习系统的问题,例如自动驾驶,其中故障可能带来灾难性后果。我们关注两个问题:在学习的代理失败时搜索场景并评估其失败概率。加强学习中代理评估的标准方法,Vanilla MonteCarlo,可以完全错过故障,导致不安全代理的部署。我们证明这对于当前代理来说是一个问题,即使匹配用于培训的计算机有时也不足以进行评估。为了弥补这个缺点,我们利用罕见事件概率估计文献并提出一种对抗性评估方法。我们的方法侧重于评估对侧选择的情况,同时仍然提供无偏估计的失败概率。关键的困难在于识别这些对抗性 - 由于失败很少,因此几乎没有信号可以推动优化。为了解决这个问题,我们提出了一种延续方法,用于学习相关但不太稳健的代理中的故障模式。我们的方法还允许重新使用已经收集的数据来训练代理。我们在两个标准领域展示了对抗性评估的功效:人形控制和模拟驾驶。实验结果表明,我们的方法可以发现灾难性故障,并且可以比标准评估方案更快地估计出多个数量级的代理故障率,在几分钟到几小时之内。
translated by 谷歌翻译
我们专注于学习单个电机模块的问题,该模块可以灵活地表达一系列行为,以控制高维物理模拟人形机器人。为此,我们提出了一种具有潜在变量瓶颈的逆模型的一般结构的电机架构。通过Weshow可以完全离线训练这个模型,以完成数千个专家政策并学习电机原始嵌入空间。训练的神经概率运动原始系统可以执行全身人形行为的一次性模仿,强有力地模仿未经观察的行为。此外,我们证明了直接控制控制器重用学习的电机原始空间来解决任务,并且产生的运动相对自然。为了支持我们的模型训练,我们比较了两种离线策略克隆方法,包括一种经验有效的方法,我们称之为线性反馈策略克隆。我们鼓励读者查看总结我们结果的补充视频(https://youtu.be/1NAHsrrH2t0)。
translated by 谷歌翻译
我们的目标是构建复杂的人形代理,整合感知,运动控制和记忆。在这项工作中,我们部分地将这个问题归因于本体感受的低水平运动控制以及由视力所知的低水平技能的高水平协调。我们通过将低级别电机控制器的预训练与高级别,以任务为中心的控制器相结合,开发出一种能够以惊人的灵活性,任务导向的电动机控制相对较高的DoF人体机构的架构,该控制器可在低级子策略之间切换。该结果系统能够控制物理模拟的人形体解决任务,这些任务需要在环境中的运动期间耦合来自不稳定的中心RGB相机的视觉感知。有关补充视频链接,请参阅https://youtu.be/7GISvfbykLE。
translated by 谷歌翻译
通过模型综合的数据学习策略原则上可以解决强化学习算法的第一个问题,即大量的经验,这往往代价高昂。然而,从头模拟合理的经验对于许多复杂的环境来说是一个难题,通常会导致基于模型的政策评估和搜索的偏差。这里我们假设记录的,真实的经验和模式替代结果,而不是实际上没有采取的反事实行动。在此基础上,我们提出了针对非政策经验的POMDP学习策略的计数引导策略搜索(CF-GPS)算法。它利用结构因果模型对个别非政策事件中的任意政策进行实际情况评估。 CF-GPS可以通过利用可用的记录数据来消除模型预测,从而改进基于香草模型的RL算法。与基于重要性采样重新加权数据的离场策略算法相比,CF-GPS利用模型明确考虑替代结果,允许算法更好地利用经验数据。我们从经验上发现,这些优势转化为改进的政策评估和搜索结果,这是一项简单的网格世界任务。最后,我们证明了CF-GPS推广了以前提出的引导策略搜索,并且基于重新参数化的算法,例如随机值梯度可以被解释为反事实方法。
translated by 谷歌翻译
我们引入了一种新的强化学习算法,称为Maximumaposteriori Policy Optimization(MPO),它基于相对熵目标的坐标上升。我们证明了几种现有方法可以直接与我们的推导相关联。我们开发了两种非策略算法,并证明它们与深度强化学习中的最新技术竞争。特别是,对于连续控制,我们的方法在实现类似或更好的最终性能的同时,在样本效率,早熟收敛和对超参数设置的鲁棒性方面优于成熟方法。
translated by 谷歌翻译
人工智能(AI)最近经历了复兴,在视觉,语言,控制和决策等关键领域取得了重大进展。部分原因在于廉价数据和廉价的计算资源,它们符合深度学习的自然优势。然而,在许多不同压力下发展的人类智能的许多定义特征仍然是当前方法所无法实现的。特别是,超越一个人的经验 - 从人类智慧中获得人类智慧的标志 - 仍然是现代人工智能的一项艰巨挑战。以下是部分立场文件,部分审查和部分统一。认为组合概括必须是人工智能达到人类能力的首要任务,结构化表征和计算是实现这一目标的关键。就像生物学使用自然和培养合作一样,我们拒绝“手工工程”和“端到端”学习之间的错误选择,而是主张从其互补优势中获益的方法。我们探索在深度学习架构中如何使用关系归纳偏差可以促进对实体,关系和组成它们的规则的学习。我们为AI工具包提供了一个新的构建模块,它具有强大的关系引导偏差 - 图形网络 - 它概括和扩展了在图形上运行的神经网络的各种方法,并提供了一个简单的界面来操纵结构化知识和生产结构化行为。我们讨论图网络如何支持关系推理和组合泛化,为更复杂,可解释和灵活的推理模式奠定基础。作为本文的参考,我们发布了一个用于构建图形网络的开源软件库,并演示了如何在实践中使用它们。
translated by 谷歌翻译