理论思想和实证研究向我们展示了一个看似令人惊讶的结果:孩子,甚至很年轻的孩子,都以与正式研究中的科学推理非常相似的方式展示学习和思考。遇到一种新现象,儿童对数据提出假设,从观察进行因果推断,通过实验检验其理论,并纠正是否出现不一致的命题。此类过程的回合一直持续到发现基本机制为止。建立可以像人一样学习和思考的机器,我们要问的一个自然的问题是:我们今天实现的智能是否设法执行这样的科学思维过程,以及在什么水平上进行的。在这项工作中,我们设计了EST环境,以评估人造药物中的科学思维能力。在因果发现的研究流中,我们基于爆炸检测来构建我们的交互式EST环境。具体而言,在EST的每个情节中,都会呈现一个新颖的观察结果,并要求找出所有对象的衰落。在每个时间步骤中,代理都提出了新的实验来验证其假设并更新其当前信念。通过在此任务的象征和视觉版本上评估强化学习(RL)代理,我们注意到当今学习方法的明显失败在达到与人类相当的智力水平方面。科学思维中学习的这种效率低下,需要在建立人类智能方面进行未来的研究。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
Recent progress in artificial intelligence (AI) has renewed interest in building systems that learn and think like people. Many advances have come from using deep neural networks trained end-to-end in tasks such as object recognition, video games, and board games, achieving performance that equals or even beats humans in some respects. Despite their biological inspiration and performance achievements, these systems differ from human intelligence in crucial ways. We review progress in cognitive science suggesting that truly human-like learning and thinking machines will have to reach beyond current engineering trends in both what they learn, and how they learn it. Specifically, we argue that these machines should (a) build causal models of the world that support explanation and understanding, rather than merely solving pattern recognition problems; (b) ground learning in intuitive theories of physics and psychology, to support and enrich the knowledge that is learned; and (c) harness compositionality and learning-to-learn to rapidly acquire and generalize knowledge to new tasks and situations. We suggest concrete challenges and promising routes towards these goals that can combine the strengths of recent neural network advances with more structured cognitive models.
translated by 谷歌翻译
机器学习和认知科学的最新工作表明,了解因果信息对于智力的发展至关重要。使用``Blicket otter''环境的认知科学的广泛文献表明,孩子们擅长多种因果推理和学习。我们建议将该环境适应机器​​学习代理。当前机器学习算法的关键挑战之一是建模和理解因果关系:关于因果关系集的可转移抽象假设。相比之下,即使是幼儿也会自发学习和使用因果关系。在这项工作中,我们提出了一个新的基准 - 一种灵活的环境,可以评估可变因果溢出物下的现有技术 - 并证明许多现有的最新方法在这种环境中概括了困难。该基准的代码和资源可在https://github.com/cannylab/casual_overhypothess上获得。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
Reinforcement Learning (RL) is a popular machine learning paradigm where intelligent agents interact with the environment to fulfill a long-term goal. Driven by the resurgence of deep learning, Deep RL (DRL) has witnessed great success over a wide spectrum of complex control tasks. Despite the encouraging results achieved, the deep neural network-based backbone is widely deemed as a black box that impedes practitioners to trust and employ trained agents in realistic scenarios where high security and reliability are essential. To alleviate this issue, a large volume of literature devoted to shedding light on the inner workings of the intelligent agents has been proposed, by constructing intrinsic interpretability or post-hoc explainability. In this survey, we provide a comprehensive review of existing works on eXplainable RL (XRL) and introduce a new taxonomy where prior works are clearly categorized into model-explaining, reward-explaining, state-explaining, and task-explaining methods. We also review and highlight RL methods that conversely leverage human knowledge to promote learning efficiency and performance of agents while this kind of method is often ignored in XRL field. Some challenges and opportunities in XRL are discussed. This survey intends to provide a high-level summarization of XRL and to motivate future research on more effective XRL solutions. Corresponding open source codes are collected and categorized at https://github.com/Plankson/awesome-explainable-reinforcement-learning.
translated by 谷歌翻译
为了实现对日常生活的人类常识,机器学习系统必须理解和理解环境中其他代理人的目标,偏好和行动。在他们的第一年的生命结束时,人类婴儿直观地实现了如此常识,这些认知成就为人类丰富而复杂地了解他人的心理状态。Can Machines可以实现更广泛的,致辞推理对人类婴儿这样的其他药剂吗?婴儿直觉的基准(围兜)挑战机器,以预测代理人行为的合理性,基于其行动的基本原因。由于BIB的内容和范式从发育认知科学中采用,因此BIB允许在人类和机器性能之间直接比较。尽管如此,最近提出的深度学习的机构推理模型未能表现出婴儿的推理,让围兜成为一个开放的挑战。
translated by 谷歌翻译
虽然深增强学习已成为连续决策问题的有希望的机器学习方法,但对于自动驾驶或医疗应用等高利害域来说仍然不够成熟。在这种情况下,学习的政策需要例如可解释,因此可以在任何部署之前检查它(例如,出于安全性和验证原因)。本调查概述了各种方法,以实现加固学习(RL)的更高可解释性。为此,我们将解释性(作为模型的财产区分开来和解释性(作为HOC操作后的讲话,通过代理的干预),并在RL的背景下讨论它们,并强调前概念。特别是,我们认为可译文的RL可能会拥抱不同的刻面:可解释的投入,可解释(转型/奖励)模型和可解释的决策。根据该计划,我们总结和分析了与可解释的RL相关的最近工作,重点是过去10年来发表的论文。我们还简要讨论了一些相关的研究领域并指向一些潜在的有前途的研究方向。
translated by 谷歌翻译
深度强化学习(DRL)和深度多机构的强化学习(MARL)在包括游戏AI,自动驾驶汽车,机器人技术等各种领域取得了巨大的成功。但是,众所周知,DRL和Deep MARL代理的样本效率低下,即使对于相对简单的问题设置,通常也需要数百万个相互作用,从而阻止了在实地场景中的广泛应用和部署。背后的一个瓶颈挑战是众所周知的探索问题,即如何有效地探索环境和收集信息丰富的经验,从而使政策学习受益于最佳研究。在稀疏的奖励,吵闹的干扰,长距离和非平稳的共同学习者的复杂环境中,这个问题变得更加具有挑战性。在本文中,我们对单格和多代理RL的现有勘探方法进行了全面的调查。我们通过确定有效探索的几个关键挑战开始调查。除了上述两个主要分支外,我们还包括其他具有不同思想和技术的著名探索方法。除了算法分析外,我们还对一组常用基准的DRL进行了全面和统一的经验比较。根据我们的算法和实证研究,我们终于总结了DRL和Deep Marl中探索的公开问题,并指出了一些未来的方向。
translated by 谷歌翻译
Transformer, originally devised for natural language processing, has also attested significant success in computer vision. Thanks to its super expressive power, researchers are investigating ways to deploy transformers to reinforcement learning (RL) and the transformer-based models have manifested their potential in representative RL benchmarks. In this paper, we collect and dissect recent advances on transforming RL by transformer (transformer-based RL or TRL), in order to explore its development trajectory and future trend. We group existing developments in two categories: architecture enhancement and trajectory optimization, and examine the main applications of TRL in robotic manipulation, text-based games, navigation and autonomous driving. For architecture enhancement, these methods consider how to apply the powerful transformer structure to RL problems under the traditional RL framework, which model agents and environments much more precisely than deep RL methods, but they are still limited by the inherent defects of traditional RL algorithms, such as bootstrapping and "deadly triad". For trajectory optimization, these methods treat RL problems as sequence modeling and train a joint state-action model over entire trajectories under the behavior cloning framework, which are able to extract policies from static datasets and fully use the long-sequence modeling capability of the transformer. Given these advancements, extensions and challenges in TRL are reviewed and proposals about future direction are discussed. We hope that this survey can provide a detailed introduction to TRL and motivate future research in this rapidly developing field.
translated by 谷歌翻译
为了解决艰巨的任务,人类提出问题以从外部来源获取知识。相反,经典的加强学习者缺乏这种能力,并且常常诉诸探索性行为。这会加剧,因为很少的当今环境支持查询知识。为了研究如何通过语言教授代理来查询外部知识,我们首先介绍了两个新环境:基于网格世界的Q-babyai和基于文本的Q-Textworld。除了物理互动外,代理还可以查询专门针对这些环境的外部知识源来收集信息。其次,我们提出了“寻求知识”(AFK)代理,该代理学会生成语言命令以查询有助于解决任务的有意义的知识。 AFK利用非参数记忆,指针机制和情节探索奖金来解决(1)无关的信息,(2)一个较大的查询语言空间,(3)延迟奖励有意义的查询。广泛的实验表明,AFK代理在具有挑战性的Q-Babyai和Q-Textworld环境方面优于最近的基线。
translated by 谷歌翻译
在流行媒体中,人造代理商的意识出现与同时实现人类或超人水平智力的那些相同的代理之间通常存在联系。在这项工作中,我们探讨了意识和智力之间这种看似直观的联系的有效性和潜在应用。我们通过研究与三种当代意识功能理论相关的认知能力:全球工作空间理论(GWT),信息生成理论(IGT)和注意力模式理论(AST)。我们发现,这三种理论都将有意识的功能专门与人类领域将军智力的某些方面联系起来。有了这个见解,我们转向人工智能领域(AI),发现尽管远未证明一般智能,但许多最先进的深度学习方法已经开始纳入三个功能的关键方面理论。确定了这一趋势后,我们以人类心理时间旅行的激励例子来提出方式,其中三种理论中每种理论的见解都可以合并为一个单一的统一和可实施的模型。鉴于三种功能理论中的每一种都可以通过认知能力来实现这一可能,因此,具有精神时间旅行的人造代理不仅具有比当前方法更大的一般智力,而且还与我们当前对意识功能作用的理解更加一致在人类中,这使其成为AI研究的有希望的近期目标。
translated by 谷歌翻译
The reinforcement learning paradigm is a popular way to address problems that have only limited environmental feedback, rather than correctly labeled examples, as is common in other machine learning contexts. While significant progress has been made to improve learning in a single task, the idea of transfer learning has only recently been applied to reinforcement learning tasks. The core idea of transfer is that experience gained in learning to perform one task can help improve learning performance in a related, but different, task. In this article we present a framework that classifies transfer learning methods in terms of their capabilities and goals, and then use it to survey the existing literature, as well as to suggest future directions for transfer learning work.
translated by 谷歌翻译
解释在人类学习中发挥着相当大的作用,特别是在仍然在形成抽象的主要挑战,以及了解世界的关系和因果结构的地区。在这里,我们探索强化学习代理人是否同样可以从解释中受益。我们概述了一系列关系任务,涉及选择一个在一个集合中奇数一个的对象(即,沿许多可能的特征尺寸之一的唯一)。奇数一张任务要求代理在一组对象中的多维关系上推理。我们展示了代理商不会仅从奖励中学习这些任务,但是当它们也培训以生成语言解释对象属性或选择正确或不正确时,实现> 90%的性能。在进一步的实验中,我们展示了预测的解释如何使代理能够从模糊,因果困难的训练中适当地推广,甚至可以学习执行实验干预以识别因果结构。我们表明解释有助于克服代理人来解决简单特征的趋势,并探讨解释的哪些方面使它们成为最有益的。我们的结果表明,从解释中学习是一种强大的原则,可以为培训更强大和一般机器学习系统提供有希望的道路。
translated by 谷歌翻译
建立能够参与与人类社会互动的自治代理是AI的主要挑战之一。在深度加强学习(DRL)领域内,这一目标激励了多种作品上体现语言使用。然而,目前的方法在非常简化和非多样化的社交场合中关注语言作为通信工具:语言的“自然”减少到高词汇大小和变异性的概念。在本文中,我们认为针对人类级别的AI需要更广泛的关键社交技能:1)语言在复杂和可变的社会环境中使用; 2)超越语言,在不断发展的社会世界内的多模式设置中的复杂体现通信。我们解释了认知科学的概念如何帮助AI向人类智力绘制路线图,重点关注其社会方面。作为第一步,我们建议将目前的研究扩大到更广泛的核心社交技能。为此,我们展示了使用其他(脚本)社会代理商的多个网格世界环境来评估DRL代理商社交技能的基准。然后,我们研究了最近的Sota DRL方法的限制,当时在Sowisai上进行测试并讨论熟练社会代理商的重要下一步。视频和代码可在https://sites.google.com/view/socialai找到。
translated by 谷歌翻译
在复杂的协作任务上共同努力需要代理商协调他们的行为。在实际交互之前明确或完全执行此操作并不总是可能也不充分。代理人还需要不断了解他人的当前行动,并迅速适应自己的行为。在这里,我们调查我们称之为信仰共鸣的精神状态(意图,目标)的效率,自动协调过程如何导致协作的解决问题。我们为协作剂(HAICA)提出了分层有源推断的模型。它将高效的贝叶斯理论与基于预测处理和主动推断的感知动作系统相结合。通过让一个药物的推断精神状态影响另一个代理人的预测信念来实现信仰共振,从而实现了他自己的目标和意图。这样,推断的精神状态影响了代理人自己的任务行为,没有明确的协作推理。我们在超核域中实施和评估此模型,其中两个代理具有不同程度的信仰共振组合,以满足膳食订单。我们的结果表明,基于HAICA的代理商实现了与最近现有技术方法相当的团队表现,同时产生了更低的计算成本。我们还表明,信仰共振在环境中特别有益,代理商是对环境的不对称知识。结果表明,信仰共振和有效推断允许快速高效的代理协调,因此可以用作合作认知剂的结构块。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
从“Internet AI”的时代到“体现AI”的时代,AI算法和代理商出现了一个新兴范式转变,其中不再从主要来自Internet策划的图像,视频或文本的数据集。相反,他们通过与与人类类似的Enocentric感知来通过与其环境的互动学习。因此,对体现AI模拟器的需求存在大幅增长,以支持各种体现的AI研究任务。这种越来越多的体现AI兴趣是有利于对人工综合情报(AGI)的更大追求,但对这一领域并无一直存在当代和全面的调查。本文旨在向体现AI领域提供百科全书的调查,从其模拟器到其研究。通过使用我们提出的七种功能评估九个当前体现的AI模拟器,旨在了解模拟器,以其在体现AI研究和其局限性中使用。最后,本文调查了体现AI - 视觉探索,视觉导航和体现问题的三个主要研究任务(QA),涵盖了最先进的方法,评估指标和数据集。最后,随着通过测量该领域的新见解,本文将为仿真器 - 任务选择和建议提供关于该领域的未来方向的建议。
translated by 谷歌翻译
深度加强学习概括(RL)的研究旨在产生RL算法,其政策概括为在部署时间进行新的未经调整情况,避免对其培训环境的过度接受。如果我们要在现实世界的情景中部署强化学习算法,那么解决这一点至关重要,那么环境将多样化,动态和不可预测。该调查是这个新生领域的概述。我们为讨论不同的概括问题提供统一的形式主义和术语,在以前的作品上建立不同的概括问题。我们继续对现有的基准进行分类,以及用于解决泛化问题的当前方法。最后,我们提供了对现场当前状态的关键讨论,包括未来工作的建议。在其他结论之外,我们认为,采取纯粹的程序内容生成方法,基准设计不利于泛化的进展,我们建议快速在线适应和将RL特定问题解决作为未来泛化方法的一些领域,我们推荐在UniTexplorated问题设置中构建基准测试,例如离线RL泛化和奖励函数变化。
translated by 谷歌翻译
深度加强学习(RL)代理在一系列复杂的控制任务中变得越来越精通。然而,由于引入黑盒功能,代理的行为通常很难解释,使得难以获得用户的信任。虽然存在一些基于视觉的RL的有趣的解释方法,但大多数人都无法发现时间因果信息,提高其可靠性的问题。为了解决这个问题,我们提出了一个时间空间因果解释(TSCI)模型,以了解代理人的长期行为,这对于连续决策至关重要。 TSCI模型构建了颞会因果关系的制定,这反映了连续观测结果与RL代理的决策之间的时间因果关系。然后,采用单独的因果发现网络来识别时间空间因果特征,这被限制为满足时间因果关系。 TSCI模型适用于复发代理,可用于发现培训效率高效率的因果特征。经验结果表明,TSCI模型可以产生高分辨率和敏锐的关注掩模,以突出大多数关于视觉的RL代理如何顺序决策的最大证据的任务相关的时间空间信息。此外,我们还表明,我们的方法能够为从时刻视角提供有价值的基于视觉的RL代理的因果解释。
translated by 谷歌翻译