在多任务强化学习设置中,学习者通常通过利用它们之间的相似性来培训多个相关任务。与此同时,训练有素的代理能够解决更广泛的不同问题。虽然这种效果有充分的模型多任务方法,但我们在使用多个任务中使用单一学习动态模型时展示了不利影响。因此,我们以类似的方式从共享策略网络中的类似方式解决了基于模型的多项任务强度学习效益的基本问题。使用单个动力学模型,我们看到清晰的任务混乱证据和表现降低。作为一种补救措施,通过训练孤立的子网来强制执行学习动态模型的内部结构,该任务的孤立的子网显着提高了使用相同数量的参数的性能。我们通过在简单的GridWorld上比较两种方法和更复杂的VizDoom多任务实验来说明我们的研究结果。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
Planning has been very successful for control tasks with known environment dynamics. To leverage planning in unknown environments, the agent needs to learn the dynamics from interactions with the world. However, learning dynamics models that are accurate enough for planning has been a long-standing challenge, especially in image-based domains. We propose the Deep Planning Network (PlaNet), a purely model-based agent that learns the environment dynamics from images and chooses actions through fast online planning in latent space. To achieve high performance, the dynamics model must accurately predict the rewards ahead for multiple time steps. We approach this using a latent dynamics model with both deterministic and stochastic transition components. Moreover, we propose a multi-step variational inference objective that we name latent overshooting. Using only pixel observations, our agent solves continuous control tasks with contact dynamics, partial observability, and sparse rewards, which exceed the difficulty of tasks that were previously solved by planning with learned models. PlaNet uses substantially fewer episodes and reaches final performance close to and sometimes higher than strong model-free algorithms.
translated by 谷歌翻译
Model-Based Reinforcement Learning (RL) is widely believed to have the potential to improve sample efficiency by allowing an agent to synthesize large amounts of imagined experience. Experience Replay (ER) can be considered a simple kind of model, which has proved extremely effective at improving the stability and efficiency of deep RL. In principle, a learned parametric model could improve on ER by generalizing from real experience to augment the dataset with additional plausible experience. However, owing to the many design choices involved in empirically successful algorithms, it can be very hard to establish where the benefits are actually coming from. Here, we provide theoretical and empirical insight into when, and how, we can expect data generated by a learned model to be useful. First, we provide a general theorem motivating how learning a model as an intermediate step can narrow down the set of possible value functions more than learning a value function directly from data using the Bellman equation. Second, we provide an illustrative example showing empirically how a similar effect occurs in a more concrete setting with neural network function approximation. Finally, we provide extensive experiments showing the benefit of model-based learning for online RL in environments with combinatorial complexity, but factored structure that allows a learned model to generalize. In these experiments, we take care to control for other factors in order to isolate, insofar as possible, the benefit of using experience generated by a learned model relative to ER alone.
translated by 谷歌翻译
A generative recurrent neural network is quickly trained in an unsupervised manner to model popular reinforcement learning environments through compressed spatiotemporal representations. The world model's extracted features are fed into compact and simple policies trained by evolution, achieving state of the art results in various environments. We also train our agent entirely inside of an environment generated by its own internal world model, and transfer this policy back into the actual environment. Interactive version of paper: https://worldmodels.github.io 32nd Conference on Neural Information Processing Systems (NIPS 2018),
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
建模其他代理的行为对于了解代理商互动和提出有效决策至关重要。代理模型的现有方法通常假设在执行期间对所建模代理的本地观测和所选操作的知识。为了消除这种假设,我们使用编码器解码器体系结构从受控代理的本地信息中提取表示。在培训期间使用所建模代理的观测和动作,我们的模型学会仅在受控剂的局部观察中提取有关所建模代理的表示。这些陈述用于增加受控代理的决定政策,这些政策通过深度加强学习培训;因此,在执行期间,策略不需要访问其他代理商的信息。我们提供合作,竞争和混合多种子体环境中的全面评估和消融研究,表明我们的方法比不使用所学习表示的基线方法实现更高的回报。
translated by 谷歌翻译
积极推论是一种统一的感知和行动理论,依赖于通过最小化自由能量来维持世界的内部模型。从行为的角度来看,有效推论代理商可以被视为自我证明的生命,以满足他们的乐观预测,即优选的结果或目标。相比之下,加固学习需要人工设计的奖励来完成任何期望的结果。尽管有效推理可以提供更自然的自我监控目标的控制,但其适用性因其在复杂环境中缩放方法的缺点而受到限制。在这项工作中,我们提出了对比主动推断的对比目标,这强烈降低了学习代理商的生成模式和规划未来行动的计算负担。我们的方法在基于图像的任务中的基于似的主动推断的情况下表现出显着优于基于似的主动推断,同时也是计算地更便宜,更容易训练。我们与能够获得人类设计奖励功能的加强学习代理,表明我们的方法与其表现完全符合。最后,我们还表明,在环境中的牵引力的情况下,对比方法显着更好地表现出明显更好,并且我们的方法能够将目标概括为背景中的变化。
translated by 谷歌翻译
这篇综述解决了在深度强化学习(DRL)背景下学习测量数据的抽象表示的问题。尽管数据通常是模棱两可,高维且复杂的解释,但许多动态系统可以通过一组低维状态变量有效地描述。从数据中发现这些状态变量是提高数据效率,稳健性和DRL方法的概括,应对维度的诅咒以及将可解释性和见解带入Black-Box DRL的关键方面。这篇综述通过描述用于学习世界的学习代表的主要深度学习工具,提供对方法和原则的系统观点,总结应用程序,基准和评估策略,并讨论开放的方式,从而提供了DRL中无监督的代表性学习的全面概述,挑战和未来的方向。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
长摩根和包括一系列隐性子任务的日常任务仍然在离线机器人控制中构成了重大挑战。尽管许多先前的方法旨在通过模仿和离线增强学习的变体来解决这种设置,但学习的行为通常是狭窄的,并且经常努力实现可配置的长匹配目标。由于这两个范式都具有互补的优势和劣势,因此我们提出了一种新型的层次结构方法,结合了两种方法的优势,以从高维相机观察中学习任务无关的长胜压策略。具体而言,我们结合了一项低级政策,该政策通过模仿学习和从离线强化学习中学到的高级政策学习潜在的技能,以促进潜在的行为先验。各种模拟和真实机器人控制任务的实验表明,我们的配方使以前看不见的技能组合能够通过“缝制”潜在技能通过目标链条,并在绩效上提高绩效的顺序,从而实现潜在的目标。艺术基线。我们甚至还学习了一个多任务视觉运动策略,用于现实世界中25个不同的操纵任务,这既优于模仿学习和离线强化学习技术。
translated by 谷歌翻译
灵活的目标指导行为是人类生活的一个基本方面。基于自由能最小化原理,主动推断理论从计算神经科学的角度正式产生了这种行为。基于该理论,我们介绍了一个输出型,时间预测的,模块化的人工神经网络体系结构,该建筑处理感觉运动信息,渗透到世界上与行为相关的方面,并引起高度灵活的,目标定向的行为。我们表明,我们的建筑经过端对端训练,以最大程度地减少自由能的近似值,它会发展出可以将其解释为负担能力地图的潜在状态。也就是说,新兴的潜在状态表明哪种行动导致哪些效果取决于局部环境。结合主动推断,我们表明可以调用灵活的目标指导行为,并结合新兴的负担能力图。结果,我们的模拟代理会在连续的空间中灵活地转向,避免与障碍物发生碰撞,并且更喜欢高确定性地导致目标的途径。此外,我们表明,学识渊博的代理非常适合跨环境的零拍概括:在训练少数固定环境中的代理商在具有障碍和其他影响其行为的固定环境中,它在程序生成的环境中表现出色,其中包含不同量的环境不同位置的各种尺寸的障碍和地形。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
人类通常通过将它们分解为更容易的子问题,然后结合子问题解决方案来解决复杂的问题。这种类型的组成推理允许在解决共享一部分基础构图结构的未来任务时重复使用子问题解决方案。在持续或终身的强化学习(RL)设置中,将知识分解为可重复使用的组件的能力将使代理通过利用积累的组成结构来快速学习新的RL任务。我们基于神经模块探索一种特定形式的组成形式,并提出了一组RL问题,可以直观地接受组成溶液。从经验上讲,我们证明了神经组成确实捕获了问题空间的基本结构。我们进一步提出了一种构图终身RL方法,该方法利用累积的神经成分来加速学习未来任务的学习,同时通过离线RL通过离线RL保留以前的RL,而不是重播经验。
translated by 谷歌翻译
Advances in reinforcement learning (RL) often rely on massive compute resources and remain notoriously sample inefficient. In contrast, the human brain is able to efficiently learn effective control strategies using limited resources. This raises the question whether insights from neuroscience can be used to improve current RL methods. Predictive processing is a popular theoretical framework which maintains that the human brain is actively seeking to minimize surprise. We show that recurrent neural networks which predict their own sensory states can be leveraged to minimise surprise, yielding substantial gains in cumulative reward. Specifically, we present the Predictive Processing Proximal Policy Optimization (P4O) agent; an actor-critic reinforcement learning agent that applies predictive processing to a recurrent variant of the PPO algorithm by integrating a world model in its hidden state. P4O significantly outperforms a baseline recurrent variant of the PPO algorithm on multiple Atari games using a single GPU. It also outperforms other state-of-the-art agents given the same wall-clock time and exceeds human gamer performance on multiple games including Seaquest, which is a particularly challenging environment in the Atari domain. Altogether, our work underscores how insights from the field of neuroscience may support the development of more capable and efficient artificial agents.
translated by 谷歌翻译
数据驱动的模型预测控制比无模型方法具有两个关键优势:通过模型学习提高样本效率的潜力,并且作为计划增加的计算预算的更好性能。但是,在漫长的视野上进行计划既昂贵又挑战,以获得准确的环境模型。在这项工作中,我们结合了无模型和基于模型的方法的优势。我们在短范围内使用学习的面向任务的潜在动力学模型进行局部轨迹优化,并使用学习的终端值函数来估计长期回报,这两者都是通过时间差异学习共同学习的。我们的TD-MPC方法比在DMCONTROL和META-WORLD的状态和基于图像的连续控制任务上实现了卓越的样本效率和渐近性能。代码和视频结果可在https://nicklashansen.github.io/td-mpc上获得。
translated by 谷歌翻译
通过互动学习复杂的机器人行为需要结构化探索。规划应瞄准与优化长期绩效的潜力的相互作用,同时只减少有利于这一目标的不确定性。本文提出了潜在的乐观价值探索(爱),这一战略在面对不确定的长期奖励面前通过乐观探索能够深入探索。我们将潜在的世界模型与价值函数估计相结合以预测无限地平线返回并通过合并恢复相关的不确定性。然后,该政策培训了上束缚(UCB)目标,以确定和选择最有希望改善长期绩效的交互。我们在连续动作空间中应用了视觉机器人控制任务,并且与最先进的和其他探索目标相比,平均提高了样品效率的平均提高了20%以上。在稀疏和难以探索环境中,我们实现了超过30%的平均改善。
translated by 谷歌翻译
我们建议通过Retracing学习,一种用于学习强化学习任务的国家代表性(和相关动态模型)的新型自我监督方法。除了前进方向的预测(重建)监督外,我们建议包括使用原始和撤回状态之间的循环一致性约束来包括“回归”转换,从而提高样本效率学习。此外,通过Retracing学习的学习明确地传播关于后向后转换的信息,以推断先前的状态,从而有助于更强的表示学习。我们介绍了周期一致性的世界模型(CCWM),通过在现有的基于模型的加强学习框架下实现的雷则来学习的具体实例化。此外,我们提出了一种新的自适应“截断”机制,用于抵消“不可逆转”过渡所带来的负面影响,使得通过回程学习可以最大效果。通过对连续控制基准的广泛实证研究,我们表明CCWM在样品效率和渐近性能方面实现了最先进的性能。
translated by 谷歌翻译
从像素中学习控制很难进行加固学习(RL)代理,因为表示和政策学习是交织在一起的。以前的方法通过辅助表示任务来解决这个问题,但他们要么不考虑问题的时间方面,要么仅考虑单步过渡。取而代之的是,我们提出了层次结构$ k $ -Step Letent(HKSL),这是一项辅助任务,通过向前模型的层次结构来学习表示形式,该层次结构以不同的步骤跳过的不同幅度运行,同时也学习在层次结构中的级别之间进行交流。我们在30个机器人控制任务的套件中评估了HKSL,发现HKSL要么比几个当前基线更快地达到更高的发作回报或收敛到最高性能。此外,我们发现,HKSL层次结构中的水平可以学会专注于代理行动的长期或短期后果,从而为下游控制政策提供更有信息的表示。最后,我们确定层次结构级别之间的通信渠道基于通信过程的两侧组织信息,从而提高了样本效率。
translated by 谷歌翻译
在部分可观察域中的预测和规划的常见方法是使用经常性的神经网络(RNN),其理想地开发和维持关于隐藏,任务相关因素的潜伏。我们假设物理世界中的许多这些隐藏因素随着时间的推移是恒定的,而只是稀疏变化。为研究这一假设,我们提出了Gated $ L_0 $正规化的动态(Gatel0rd),一种新的经常性架构,它包含归纳偏差,以保持稳定,疏口改变潜伏状态。通过新颖的内部门控功能和潜在状态变化的$ l_0 $ norm的惩罚来实现偏差。我们证明Gatel0rd可以在各种部分可观察到的预测和控制任务中与最先进的RNN竞争或优于最先进的RNN。 Gatel0rd倾向于编码环境的基础生成因子,忽略了虚假的时间依赖性,并概括了更好的,提高了基于模型的规划和加强学习任务中的采样效率和整体性能。此外,我们表明可以容易地解释开发的潜在状态,这是朝着RNN中更好地解释的步骤。
translated by 谷歌翻译