众所周知,在漫长的地平线和稀疏的奖励任务中,加强学习(RL)是困难的,需要大量的培训步骤。加快该过程的标准解决方案是利用额外的奖励信号,将其塑造以更好地指导学习过程。在语言条件的RL的背景下,语言输入的抽象和概括属性为更有效地塑造奖励的方式提供了机会。在本文中,我们利用这一想法并提出了一种自动奖励塑形方法,代理商从一般语言目标中提取辅助目标。这些辅助目标使用问题生成(QG)和问题答案(QA)系统:它们包括导致代理商尝试使用其自己的轨迹重建有关全球目标的部分信息的问题。当它成功时,它会获得与对答案的信心成正比的内在奖励。这激励代理生成轨迹,这些轨迹明确解释了一般语言目标的各个方面。我们的实验研究表明,这种方法不需要工程师干预来设计辅助目标,可以通过有效指导探索来提高样品效率。
translated by 谷歌翻译
解决时间扩展的任务是大多数增强学习(RL)算法的挑战[ARXIV:1906.07343]。我们研究了RL代理商学会提出自然语言问题的能力,以了解其环境并在新颖,时间扩展的环境中实现更大的概括性能。我们通过赋予该代理商的能力向全知的甲骨文提出“是,不”问题来做到这一点。这使代理商可以获得有关手头任务的指导,同时限制了对新信息的访问。为了在时间扩展的任务的背景下研究这种自然语言问题的出现,我们首先在迷你网格环境中训练代理商。然后,我们将受过训练的代理转移到另一个更艰难的环境中。与无法提出问题的基线代理相比,我们观察到概括性能的显着提高。通过将其对自然语言在其环境中的理解,代理可以推理其环境的动态,以至于在新型环境中部署时可以提出新的,相关的问题。
translated by 谷歌翻译
为了解决艰巨的任务,人类提出问题以从外部来源获取知识。相反,经典的加强学习者缺乏这种能力,并且常常诉诸探索性行为。这会加剧,因为很少的当今环境支持查询知识。为了研究如何通过语言教授代理来查询外部知识,我们首先介绍了两个新环境:基于网格世界的Q-babyai和基于文本的Q-Textworld。除了物理互动外,代理还可以查询专门针对这些环境的外部知识源来收集信息。其次,我们提出了“寻求知识”(AFK)代理,该代理学会生成语言命令以查询有助于解决任务的有意义的知识。 AFK利用非参数记忆,指针机制和情节探索奖金来解决(1)无关的信息,(2)一个较大的查询语言空间,(3)延迟奖励有意义的查询。广泛的实验表明,AFK代理在具有挑战性的Q-Babyai和Q-Textworld环境方面优于最近的基线。
translated by 谷歌翻译
Transformer, originally devised for natural language processing, has also attested significant success in computer vision. Thanks to its super expressive power, researchers are investigating ways to deploy transformers to reinforcement learning (RL) and the transformer-based models have manifested their potential in representative RL benchmarks. In this paper, we collect and dissect recent advances on transforming RL by transformer (transformer-based RL or TRL), in order to explore its development trajectory and future trend. We group existing developments in two categories: architecture enhancement and trajectory optimization, and examine the main applications of TRL in robotic manipulation, text-based games, navigation and autonomous driving. For architecture enhancement, these methods consider how to apply the powerful transformer structure to RL problems under the traditional RL framework, which model agents and environments much more precisely than deep RL methods, but they are still limited by the inherent defects of traditional RL algorithms, such as bootstrapping and "deadly triad". For trajectory optimization, these methods treat RL problems as sequence modeling and train a joint state-action model over entire trajectories under the behavior cloning framework, which are able to extract policies from static datasets and fully use the long-sequence modeling capability of the transformer. Given these advancements, extensions and challenges in TRL are reviewed and proposals about future direction are discussed. We hope that this survey can provide a detailed introduction to TRL and motivate future research in this rapidly developing field.
translated by 谷歌翻译
建立可以探索开放式环境的自主机器,发现可能的互动,自主构建技能的曲目是人工智能的一般目标。发展方法争辩说,这只能通过可以生成,选择和学习解决自己问题的自主和本质上动机的学习代理人来实现。近年来,我们已经看到了发育方法的融合,特别是发展机器人,具有深度加强学习(RL)方法,形成了发展机器学习的新领域。在这个新域中,我们在这里审查了一组方法,其中深入RL算法训练,以解决自主获取的开放式曲目的发展机器人问题。本质上动机的目标条件RL算法训练代理商学习代表,产生和追求自己的目标。自我生成目标需要学习紧凑的目标编码以及它们的相关目标 - 成就函数,这导致与传统的RL算法相比,这导致了新的挑战,该算法设计用于使用外部奖励信号解决预定义的目标集。本文提出了在深度RL和发育方法的交叉口中进行了这些方法的类型,调查了最近的方法并讨论了未来的途径。
translated by 谷歌翻译
语言指导的体现了AI基准,要求代理导航环境并操纵对象通常允许单向通信:人类用户向代理提供了自然语言命令,而代理只能被动地遵循命令。我们介绍了基于Alfred基准测试的基准测试后的拨号式拨号。Dialfred允许代理商积极向人类用户提出问题;代理使用用户响应中的其他信息来更好地完成其任务。我们发布了一个具有53K任务的问题和答案的人类注销数据集,以及一个可以回答问题的甲骨文。为了解决Dialfred,我们提出了一个提问者绩效框架,其中发问者通过人类通知的数据进行了预训练,并通过增强学习进行了微调。我们将拨号拨入公开,并鼓励研究人员提出和评估他们的解决方案,以构建支持对话的体现代理。
translated by 谷歌翻译
任务 - 无人探索的常见方法学习塔杜拉 - RASA - 代理商假设隔离环境,没有先验的知识或经验。然而,在现实世界中,代理商在许多环境中学习,并且随着他们探索新的环境,始终伴随着事先经验。探索是一场终身的过程。在本文中,我们提出了对任务无关探索的制定和评估的范式变迁。在此设置中,代理首先学会在许多环境中探索,没有任何外在目标的任务不可行的方式。后来,代理商有效地传输了学习探索政策,以便在解决任务时更好地探索新环境。在这方面,我们评估了几种基线勘探战略,并提出了一种简单但有效的学习任务无关探索政策方法。我们的主要思想是,有两种勘探组成部分:(1)基于代理人的信仰,促进探索探索环境的经验主义部分; (2)以环境为中心的组件,鼓励探索固有的有趣物体。我们表明我们的配方是有效的,并提供多种训练测试环境对的最一致的探索。我们还介绍了评估任务无关勘探策略的基准和指标。源代码在https://github.com/sparisi/cbet/处获得。
translated by 谷歌翻译
本文着重于机器人增强学习,并以稀疏的自然语言目标表示。一个开放的问题是源于自然语言的组成性,以及在感觉数据和动作中的语言基础。我们通过三个贡献来解决这些问题。我们首先提出了一种利用专家反馈的事后视角指导重播的机制。其次,我们提出了一个SEQ2SEQ模型,以生成语言的后代指令。最后,我们介绍了一类新颖的以语言为中心的学习任务。我们表明,事后看来指示可以提高预期的学习绩效。此外,我们还提供了一个意外的结果:我们表明,如果从某种意义上说,代理人学习以一种自我监督的方式与自己交谈,则可以提高代理的学习表现。我们通过学习生成语言指示来实现这一目标,这本来可以作为最初意外行为的自然语言目标。我们的结果表明,绩效增益随任务复杂性而增加。
translated by 谷歌翻译
Learning policies that effectively utilize language instructions in complex, multi-task environments is an important problem in sequential decision-making. While it is possible to condition on the entire language instruction directly, such an approach could suffer from generalization issues. In our work, we propose \emph{Learning Interpretable Skill Abstractions (LISA)}, a hierarchical imitation learning framework that can learn diverse, interpretable primitive behaviors or skills from language-conditioned demonstrations to better generalize to unseen instructions. LISA uses vector quantization to learn discrete skill codes that are highly correlated with language instructions and the behavior of the learned policy. In navigation and robotic manipulation environments, LISA outperforms a strong non-hierarchical Decision Transformer baseline in the low data regime and is able to compose learned skills to solve tasks containing unseen long-range instructions. Our method demonstrates a more natural way to condition on language in sequential decision-making problems and achieve interpretable and controllable behavior with the learned skills.
translated by 谷歌翻译
我们提供了有关诱导模型稀疏性如何帮助实现构图概括和在基础语言学习问题中更好的样本效率的研究。我们考虑在网格世界环境中具有简单的语言条件导航问题,并进行了分离的观察。我们表明,标准的神经体系结构并不总是产生组成概括。为了解决这个问题,我们设计了一个包含目标标识模块的代理,该模块鼓励教学和对象的属性中的单词之间的稀疏相关性,并将它们组合在一起以找到目标。目标标识模块的输出是对值迭代网络计划者的输入。即使从少数示威活动中学习,我们的代理商在包含属性的新颖组合的目标上保持了高度的性能。我们检查了代理的内部表示,并在单词中的字典和环境中的属性中找到正确的对应关系。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
我们研究了开发自主代理的问题,这些自主代理可以遵循人类的指示来推断和执行一系列行动以完成基础任务。近年来取得了重大进展,尤其是对于短范围的任务。但是,当涉及具有扩展动作序列的长匹马任务时,代理可以轻松忽略某些指令或陷入长长指令中间,并最终使任务失败。为了应对这一挑战,我们提出了一个基于模型的里程碑的任务跟踪器(M-Track),以指导代理商并监视其进度。具体而言,我们提出了一个里程碑构建器,该建筑商通过导航和交互里程碑标记指令,代理商需要逐步完成,以及一个系统地检查代理商当前里程碑的进度并确定何时继续进行下一个的里程碑检查器。在具有挑战性的Alfred数据集上,我们的M轨道在两个竞争基本模型中,未见成功率的相对成功率显着提高了33%和52%。
translated by 谷歌翻译
Effectively exploring the environment is a key challenge in reinforcement learning (RL). We address this challenge by defining a novel intrinsic reward based on a foundation model, such as contrastive language image pretraining (CLIP), which can encode a wealth of domain-independent semantic visual-language knowledge about the world. Specifically, our intrinsic reward is defined based on pre-trained CLIP embeddings without any fine-tuning or learning on the target RL task. We demonstrate that CLIP-based intrinsic rewards can drive exploration towards semantically meaningful states and outperform state-of-the-art methods in challenging sparse-reward procedurally-generated environments.
translated by 谷歌翻译
奖励设计是强化学习(RL)的根本问题。错过或设计不佳的奖励可能导致样品效率低和不期望的行为。在本文中,我们提出了\ texit {programmatic奖励设计}的想法,即使用程序在RL环境中指定奖励函数。程序允许人工工程师以结构化和可意识的方式表达子目标和复杂的任务场景。然而,程序奖励设计的挑战是,虽然人类可以提供高级结构,适当地设置低级细节,例如对特定子任务的正确奖励量仍然困难。本文的主要贡献是概率框架,可以从专家演示中推断出最佳候选程序奖励功能。灵感来自最近的生成 - 对策方法,我们的框架{搜索最有可能的编程奖励功能,在那时最佳生成的轨迹无法与所公示的轨迹界别区别}。实验结果表明,使用此框架学习的编程奖励功能可以显着优于使用现有奖励学习算法的学习者,并使RL代理能够在高度复杂的任务上实现最先进的性能。
translated by 谷歌翻译
增强学习(RL)研究领域非常活跃,并具有重要的新贡献;特别是考虑到深RL(DRL)的新兴领域。但是,仍然需要解决许多科学和技术挑战,其中我们可以提及抽象行动的能力或在稀疏回报环境中探索环境的难以通过内在动机(IM)来解决的。我们建议通过基于信息理论的新分类法调查这些研究工作:我们在计算上重新审视了惊喜,新颖性和技能学习的概念。这使我们能够确定方法的优势和缺点,并展示当前的研究前景。我们的分析表明,新颖性和惊喜可以帮助建立可转移技能的层次结构,从而进一步抽象环境并使勘探过程更加健壮。
translated by 谷歌翻译
建立能够参与与人类社会互动的自治代理是AI的主要挑战之一。在深度加强学习(DRL)领域内,这一目标激励了多种作品上体现语言使用。然而,目前的方法在非常简化和非多样化的社交场合中关注语言作为通信工具:语言的“自然”减少到高词汇大小和变异性的概念。在本文中,我们认为针对人类级别的AI需要更广泛的关键社交技能:1)语言在复杂和可变的社会环境中使用; 2)超越语言,在不断发展的社会世界内的多模式设置中的复杂体现通信。我们解释了认知科学的概念如何帮助AI向人类智力绘制路线图,重点关注其社会方面。作为第一步,我们建议将目前的研究扩大到更广泛的核心社交技能。为此,我们展示了使用其他(脚本)社会代理商的多个网格世界环境来评估DRL代理商社交技能的基准。然后,我们研究了最近的Sota DRL方法的限制,当时在Sowisai上进行测试并讨论熟练社会代理商的重要下一步。视频和代码可在https://sites.google.com/view/socialai找到。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
Adversarial imitation learning (AIL) has become a popular alternative to supervised imitation learning that reduces the distribution shift suffered by the latter. However, AIL requires effective exploration during an online reinforcement learning phase. In this work, we show that the standard, naive approach to exploration can manifest as a suboptimal local maximum if a policy learned with AIL sufficiently matches the expert distribution without fully learning the desired task. This can be particularly catastrophic for manipulation tasks, where the difference between an expert and a non-expert state-action pair is often subtle. We present Learning from Guided Play (LfGP), a framework in which we leverage expert demonstrations of multiple exploratory, auxiliary tasks in addition to a main task. The addition of these auxiliary tasks forces the agent to explore states and actions that standard AIL may learn to ignore. Additionally, this particular formulation allows for the reusability of expert data between main tasks. Our experimental results in a challenging multitask robotic manipulation domain indicate that LfGP significantly outperforms both AIL and behaviour cloning, while also being more expert sample efficient than these baselines. To explain this performance gap, we provide further analysis of a toy problem that highlights the coupling between a local maximum and poor exploration, and also visualize the differences between the learned models from AIL and LfGP.
translated by 谷歌翻译
Text-based games present a unique class of sequential decision making problem in which agents interact with a partially observable, simulated environment via actions and observations conveyed through natural language. Such observations typically include instructions that, in a reinforcement learning (RL) setting, can directly or indirectly guide a player towards completing reward-worthy tasks. In this work, we study the ability of RL agents to follow such instructions. We conduct experiments that show that the performance of state-of-the-art text-based game agents is largely unaffected by the presence or absence of such instructions, and that these agents are typically unable to execute tasks to completion. To further study and address the task of instruction following, we equip RL agents with an internal structured representation of natural language instructions in the form of Linear Temporal Logic (LTL), a formal language that is increasingly used for temporally extended reward specification in RL. Our framework both supports and highlights the benefit of understanding the temporal semantics of instructions and in measuring progress towards achievement of such a temporally extended behaviour. Experiments with 500+ games in TextWorld demonstrate the superior performance of our approach.
translated by 谷歌翻译
文本冒险游戏由于其组合大的动作空间和稀疏奖励而导致加强学习方法具有独特的挑战。这两个因素的相互作用尤为苛刻,因为大型动作空间需要广泛的探索,而稀疏奖励提供有限的反馈。这项工作提出使用多级方法来解决探索 - 与利用困境,该方法明确地解除了每一集中的这两种策略。我们的算法称为Exploit-Dear-Descore(XTX),使用剥削策略开始每个剧集,该策略是从过去的一组有希望的轨迹开始,然后切换到旨在发现导致未经看不见状态空间的新动作的探索政策。该政策分解允许我们将全球决策结合在该空间中返回基于好奇的本地探索的全球决策,这是由人类可能接近这些游戏的情况。我们的方法在杰里科基准(Hausknecht等人,2020)中,在杰里科基准(Hausknecht等人,2020)中,在确定性和随机设置的比赛中显着优于27%和11%的平均正常化分数。在Zork1的游戏中,特别是,XTX获得103的得分,超过先前方法的2倍改善,并且在游戏中推过已经困扰先前的方法的游戏中的几个已知的瓶颈。
translated by 谷歌翻译