有效的探索对于具有稀疏奖励或高维状态行动空间的环境中的加固学习代理至关重要。基于国家访问的数量,好奇心和熵最大化的最新作品产生了固有的奖励信号,以激励代理人参观新颖的国家进行探索。但是,代理可能会因包含新颖但任务含量信息的传感器输入的扰动而分心,例如由于传感器噪声或背景变化。在这项工作中,我们通过对时间序列观察中的测试和压缩顺序预测信息进行建模和压缩顺序预测信息,介绍了为学习压缩和时间连贯表示的顺序信息瓶颈目标。为了在嘈杂的环境中有效探索,我们进一步构建了内在的奖励,这些奖励基于学习的表示,以捕获与任务相关的状态新颖性。我们得出了顺序信息瓶颈目标的变异上限,以实用优化,并提供了对派生的上限的信息理论解释。我们对一组基于图像的模拟控制任务进行的实验表明,与基于好奇心,熵最大化和信息获得的最新方法相比,我们的方法可实现更好的样品效率,以及对白噪声和自然视频背景的鲁棒性和鲁棒性。 。
translated by 谷歌翻译
深度强化学习(DRL)代理通常对在训练环境中看不见的视觉变化敏感。为了解决此问题,我们利用RL的顺序性质来学习可靠的表示,这些表示仅根据无监督的多视图设置编码与任务相关的信息。具体而言,我们引入了时间数据的多视图信息瓶颈(MIB)目标的新颖对比版本。我们以这个辅助目标来训练RL代理,以学习可以压缩任务 - 无关的信息并预测与任务相关的动态的强大表示形式。这种方法使我们能够训练具有强大的视觉分散注意力的高性能政策,并且可以很好地推广到看不见的环境。我们证明,当背景被自然视频替换时,我们的方法可以在DeepMind Control Suite的各种视觉控制任务上实现SOTA性能。此外,我们表明我们的方法优于公认的基准,用于概括在Procgen基准上看不见的环境。我们的代码是开源的,可在https:// github上找到。 com/bu依赖-lab/dribo。
translated by 谷歌翻译
有效的探索仍然是强化学习中有挑战性的问题,特别是对于来自环境的外在奖励稀疏甚至完全忽视的任务。基于内在动机的重要进展显示了在简单环境中的有希望的结果,但通常会在具有多式联运和随机动力学的环境中陷入困境。在这项工作中,我们提出了一种基于条件变分推理的变分动力模型来模拟多模和随机性。通过在当前状态,动作和潜在变量的条件下产生下一个状态预测,我们考虑作为条件生成过程的环境状态动作转换,这提供了更好地了解动态并在勘探中引发更好的性能。我们派生了环境过渡的负面日志可能性的上限,并使用这样一个上限作为勘探的内在奖励,这使得代理通过自我监督的探索来学习技能,而无需观察外在奖励。我们在基于图像的仿真任务和真正的机器人操纵任务中评估所提出的方法。我们的方法优于若干基于最先进的环境模型的勘探方法。
translated by 谷歌翻译
深度强化学习(DRL)和深度多机构的强化学习(MARL)在包括游戏AI,自动驾驶汽车,机器人技术等各种领域取得了巨大的成功。但是,众所周知,DRL和Deep MARL代理的样本效率低下,即使对于相对简单的问题设置,通常也需要数百万个相互作用,从而阻止了在实地场景中的广泛应用和部署。背后的一个瓶颈挑战是众所周知的探索问题,即如何有效地探索环境和收集信息丰富的经验,从而使政策学习受益于最佳研究。在稀疏的奖励,吵闹的干扰,长距离和非平稳的共同学习者的复杂环境中,这个问题变得更加具有挑战性。在本文中,我们对单格和多代理RL的现有勘探方法进行了全面的调查。我们通过确定有效探索的几个关键挑战开始调查。除了上述两个主要分支外,我们还包括其他具有不同思想和技术的著名探索方法。除了算法分析外,我们还对一组常用基准的DRL进行了全面和统一的经验比较。根据我们的算法和实证研究,我们终于总结了DRL和Deep Marl中探索的公开问题,并指出了一些未来的方向。
translated by 谷歌翻译
增强学习(RL)研究领域非常活跃,并具有重要的新贡献;特别是考虑到深RL(DRL)的新兴领域。但是,仍然需要解决许多科学和技术挑战,其中我们可以提及抽象行动的能力或在稀疏回报环境中探索环境的难以通过内在动机(IM)来解决的。我们建议通过基于信息理论的新分类法调查这些研究工作:我们在计算上重新审视了惊喜,新颖性和技能学习的概念。这使我们能够确定方法的优势和缺点,并展示当前的研究前景。我们的分析表明,新颖性和惊喜可以帮助建立可转移技能的层次结构,从而进一步抽象环境并使勘探过程更加健壮。
translated by 谷歌翻译
具有相同任务的不同环境的概括对于在实际场景中成功应用视觉增强学习(RL)至关重要。然而,从高维观察中,视觉干扰(在真实场景中很常见)可能会对视觉RL中学习的表示形式有害,从而降低概括的性能。为了解决这个问题,我们提出了一种新颖的方法,即特征奖励序列预测(Cresp),以通过学习奖励序列分布(RSD)提取与任务相关的信息,因为奖励信号在RL中与任务相关,并且不变为Visual分心。具体而言,要通过RSD有效捕获与任务相关的信息,Cresp引入了一个辅助任务(即预测RSD的特征功能),以学习与任务相关的表示,因为我们可以很好地通过利用高维分布来实现高维分布相应的特征函数。实验表明,Cresp显着提高了在看不见的环境上的概括性能,在具有不同视觉分散注意力的DeepMind Control任务上表现优于几个最新的。
translated by 谷歌翻译
尽管学习环境内部模型的强化学习(RL)方法具有比没有模型的对应物更有效的样本效率,但学会从高维传感器中建模原始观察结果可能具有挑战性。先前的工作通过通过辅助目标(例如重建或价值预测)学习观察值的低维表示来解决这一挑战。但是,这些辅助目标与RL目标之间的一致性通常不清楚。在这项工作中,我们提出了一个单一的目标,该目标共同优化了潜在空间模型和政策,以实现高回报,同时保持自洽。这个目标是预期收益的下限。与基于模型的RL在策略探索或模型保证方面的先前范围不同,我们的界限直接依靠整体RL目标。我们证明,所得算法匹配或改善了最佳基于模型和无模型的RL方法的样品效率。尽管这种有效的样品方法通常在计算上是要求的,但我们的方法在较小的壁式锁定时间降低了50 \%。
translated by 谷歌翻译
元增强学习(Meta-RL)从以前任务提取知识,并实现对新任务的快速调整。尽管最近的进展,但Meta-RL的有效探索仍然是稀疏奖励任务中的关键挑战,因为它需要快速寻找在荟萃培训和适应方面的信息相关的经验。为了解决这一挑战,我们明确地模拟了Meta-RL的探索政策学习问题,该探索政策学习问题与开发政策学习分开,并介绍了一种新的赋权驱动探索目标,旨在最大限度地提高任务识别的信息收益。我们派生了相应的内在奖励并开发了一个新的off-Policy Meta-RL框架,它通过分享任务推断的知识有效地学习单独的上下文感知探索和开发策略。实验评估表明,我们的META-RL方法显着优于各种稀疏奖励Mujoco机器人任务和更复杂的稀疏奖励元世界任务的最先进的基线。
translated by 谷歌翻译
Learned world models summarize an agent's experience to facilitate learning complex behaviors. While learning world models from high-dimensional sensory inputs is becoming feasible through deep learning, there are many potential ways for deriving behaviors from them. We present Dreamer, a reinforcement learning agent that solves long-horizon tasks from images purely by latent imagination. We efficiently learn behaviors by propagating analytic gradients of learned state values back through trajectories imagined in the compact state space of a learned world model. On 20 challenging visual control tasks, Dreamer exceeds existing approaches in data-efficiency, computation time, and final performance.
translated by 谷歌翻译
在现实世界中,感知的信号通常是高维且嘈杂的,并且在下游决策任务所需的必要和充分信息中找到和使用其表示形式,将有助于提高任务中的计算效率和概括能力。在本文中,我们专注于部分可观察到的环境,并建议学习一组最小的状态表示,以捕获足够的决策信息以进行决策,称为\ textIt {动作充足的状态表示}(ASRS)。我们为系统中变量之间的结构关系构建了生成环境模型,并提出了一种基于结构约束的ASRS来表征ASR的原则方法,以及在政策学习中最大程度地提高累积奖励的目标。然后,我们开发一个结构化的顺序变异自动编码器来估计环境模型并提取ASRS。我们关于载载和Vizdoom的经验结果证明了学习和使用ASRS进行政策学习的明显优势。此外,估计的环境模型和ASR允许从紧凑的潜在空间中想象的结果中学习行为,以提高样品效率。
translated by 谷歌翻译
Reinforcement learning (RL) gained considerable attention by creating decision-making agents that maximize rewards received from fully observable environments. However, many real-world problems are partially or noisily observable by nature, where agents do not receive the true and complete state of the environment. Such problems are formulated as partially observable Markov decision processes (POMDPs). Some studies applied RL to POMDPs by recalling previous decisions and observations or inferring the true state of the environment from received observations. Nevertheless, aggregating observations and decisions over time is impractical for environments with high-dimensional continuous state and action spaces. Moreover, so-called inference-based RL approaches require large number of samples to perform well since agents eschew uncertainty in the inferred state for the decision-making. Active inference is a framework that is naturally formulated in POMDPs and directs agents to select decisions by minimising expected free energy (EFE). This supplies reward-maximising (exploitative) behaviour in RL, with an information-seeking (exploratory) behaviour. Despite this exploratory behaviour of active inference, its usage is limited to discrete state and action spaces due to the computational difficulty of the EFE. We propose a unified principle for joint information-seeking and reward maximization that clarifies a theoretical connection between active inference and RL, unifies active inference and RL, and overcomes their aforementioned limitations. Our findings are supported by strong theoretical analysis. The proposed framework's superior exploration property is also validated by experimental results on partial observable tasks with high-dimensional continuous state and action spaces. Moreover, the results show that our model solves reward-free problems, making task reward design optional.
translated by 谷歌翻译
While reinforcement learning algorithms provide automated acquisition of optimal policies, practical application of such methods requires a number of design decisions, such as manually designing reward functions that not only define the task, but also provide sufficient shaping to accomplish it. In this paper, we view reinforcement learning as inferring policies that achieve desired outcomes, rather than as a problem of maximizing rewards. To solve this inference problem, we establish a novel variational inference formulation that allows us to derive a well-shaped reward function which can be learned directly from environment interactions. From the corresponding variational objective, we also derive a new probabilistic Bellman backup operator and use it to develop an off-policy algorithm to solve goal-directed tasks. We empirically demonstrate that this method eliminates the need to hand-craft reward functions for a suite of diverse manipulation and locomotion tasks and leads to effective goal-directed behaviors.
translated by 谷歌翻译
这项工作探讨了如何从具有深度加强学习方法的基于图像的观测中学习鲁棒和最广泛的状态表示。解决了在现有的Bisimulation度量工作中的计算复杂性,严格假设和表示崩溃挑战,我们设计了简单的状态表示(SIMSR)运算符,该操作员实现了等效功能,同时通过与Bisimulation度量进行比较来降低顺序的复杂性。SIMSR使我们能够设计一种基于随机逼近的方法,该方法几乎可以从观察到潜在表示空间的观察中学习映射函数(编码器)。除了理论分析外,我们在Visual Mujoco任务中尝试并与最近的最先进解决方案进行了实验。结果表明,我们的模型通常达到更好的性能,具有更好的鲁棒性和良好的概率。
translated by 谷歌翻译
Planning has been very successful for control tasks with known environment dynamics. To leverage planning in unknown environments, the agent needs to learn the dynamics from interactions with the world. However, learning dynamics models that are accurate enough for planning has been a long-standing challenge, especially in image-based domains. We propose the Deep Planning Network (PlaNet), a purely model-based agent that learns the environment dynamics from images and chooses actions through fast online planning in latent space. To achieve high performance, the dynamics model must accurately predict the rewards ahead for multiple time steps. We approach this using a latent dynamics model with both deterministic and stochastic transition components. Moreover, we propose a multi-step variational inference objective that we name latent overshooting. Using only pixel observations, our agent solves continuous control tasks with contact dynamics, partial observability, and sparse rewards, which exceed the difficulty of tasks that were previously solved by planning with learned models. PlaNet uses substantially fewer episodes and reaches final performance close to and sometimes higher than strong model-free algorithms.
translated by 谷歌翻译
从视觉感觉数据中控制人造代理是一项艰巨的任务。强化学习(RL)算法可以在这方面取得成功,但需要代理与环境之间进行大量相互作用。为了减轻该问题,无监督的RL建议采用自我监督的互动和学习,以更快地适应未来的任务。但是,目前的无监督策略是否可以改善概括能力,尤其是在视觉控制设置中。在这项工作中,我们为数据有效的视觉控制设计了有效的无监督RL策略。首先,我们表明,使用无监督的RL收集的数据预先训练的世界模型可以促进适应未来的任务。然后,我们与我们的混合计划者分析了一些设计选择,以有效地适应了代理的预训练组件,并在想象中学习和计划,并与我们的混合计划者一起使用,我们将其dub dyna-mpc进行了。通过结合一项大规模实证研究的发现,我们建立了一种方法,该方法强烈改善了无监督的RL基准测试的性能,需要20美元$ \ times $ $ $ $ $ \少于数据以符合监督方法的性能。该方法还表明了在现实词的RL基准测试上的稳健性能,暗示该方法概括为嘈杂的环境。
translated by 谷歌翻译
通过提供丰富的训练信号来塑造代理人的潜国空间,建模世界可以使机器人学习受益。然而,在诸如图像之类的高维观察空间上的无约束环境中学习世界模型是具有挑战性的。一个难度来源是存在无关但难以模范的背景干扰,以及不重要的任务相关实体的视觉细节。我们通过学习经常性潜在的动态模型来解决这个问题,该模型对比预测下一次观察。即使使用同时的相机,背景和色调分散,这种简单的模型也会导致令人惊讶的鲁棒机器人控制。我们优于替代品,如双刺激方法,这些方法施加来自未来奖励或未来最佳行为的不同性措施。我们在分散注意力控制套件上获得最先进的结果,是基于像素的机器人控制的具有挑战性的基准。
translated by 谷歌翻译
当相互作用数据稀缺时,深厚的增强学习(RL)算法遭受了严重的性能下降,这限制了其现实世界的应用。最近,视觉表示学习已被证明是有效的,并且有望提高RL样品效率。这些方法通常依靠对比度学习和数据扩展来训练状态预测的过渡模型,这与在RL中使用模型的方式不同 - 基于价值的计划。因此,学到的模型可能无法与环境保持良好状态并产生一致的价值预测,尤其是当国家过渡不是确定性的情况下。为了解决这个问题,我们提出了一种称为价值一致表示学习(VCR)的新颖方法,以学习与决策直接相关的表示形式。更具体地说,VCR训练一个模型,以预测基于当前的状态(也称为“想象的状态”)和一系列动作。 VCR没有将这个想象中的状态与环境返回的真实状态保持一致,而是在两个状态上应用$ q $ - 价值头,并获得了两个行动值分布。然后将距离计算并最小化以迫使想象的状态产生与真实状态相似的动作值预测。我们为离散和连续的动作空间开发了上述想法的两个实现。我们对Atari 100K和DeepMind Control Suite基准测试进行实验,以验证其提高样品效率的有效性。已经证明,我们的方法实现了无搜索RL算法的新最新性能。
translated by 谷歌翻译
我们研究离线元加强学习,这是一种实用的强化学习范式,从离线数据中学习以适应新任务。离线数据的分布由行为政策和任务共同确定。现有的离线元强化学习算法无法区分这些因素,从而使任务表示不稳定,不稳定行为策略。为了解决这个问题,我们为任务表示形式提出了一个对比度学习框架,这些框架对培训和测试中行为策略的分布不匹配是可靠的。我们设计了双层编码器结构,使用相互信息最大化来形式化任务表示学习,得出对比度学习目标,并引入了几种方法以近似负面对的真实分布。对各种离线元强化学习基准的实验证明了我们方法比先前方法的优势,尤其是在对分布外行为策略的概括方面。该代码可在https://github.com/pku-ai-ged/corro中找到。
translated by 谷歌翻译
Several self-supervised representation learning methods have been proposed for reinforcement learning (RL) with rich observations. For real-world applications of RL, recovering underlying latent states is crucial, particularly when sensory inputs contain irrelevant and exogenous information. In this work, we study how information bottlenecks can be used to construct latent states efficiently in the presence of task-irrelevant information. We propose architectures that utilize variational and discrete information bottlenecks, coined as RepDIB, to learn structured factorized representations. Exploiting the expressiveness bought by factorized representations, we introduce a simple, yet effective, bottleneck that can be integrated with any existing self-supervised objective for RL. We demonstrate this across several online and offline RL benchmarks, along with a real robot arm task, where we find that compressed representations with RepDIB can lead to strong performance improvements, as the learned bottlenecks help predict only the relevant state while ignoring irrelevant information.
translated by 谷歌翻译
Visual reinforcement learning (RL), which makes decisions directly from high-dimensional visual inputs, has demonstrated significant potential in various domains. However, deploying visual RL techniques in the real world remains challenging due to their low sample efficiency and large generalization gaps. To tackle these obstacles, data augmentation (DA) has become a widely used technique in visual RL for acquiring sample-efficient and generalizable policies by diversifying the training data. This survey aims to provide a timely and essential review of DA techniques in visual RL in recognition of the thriving development in this field. In particular, we propose a unified framework for analyzing visual RL and understanding the role of DA in it. We then present a principled taxonomy of the existing augmentation techniques used in visual RL and conduct an in-depth discussion on how to better leverage augmented data in different scenarios. Moreover, we report a systematic empirical evaluation of DA-based techniques in visual RL and conclude by highlighting the directions for future research. As the first comprehensive survey of DA in visual RL, this work is expected to offer valuable guidance to this emerging field.
translated by 谷歌翻译