解释在人类学习中发挥着相当大的作用,特别是在仍然在形成抽象的主要挑战,以及了解世界的关系和因果结构的地区。在这里,我们探索强化学习代理人是否同样可以从解释中受益。我们概述了一系列关系任务,涉及选择一个在一个集合中奇数一个的对象(即,沿许多可能的特征尺寸之一的唯一)。奇数一张任务要求代理在一组对象中的多维关系上推理。我们展示了代理商不会仅从奖励中学习这些任务,但是当它们也培训以生成语言解释对象属性或选择正确或不正确时,实现> 90%的性能。在进一步的实验中,我们展示了预测的解释如何使代理能够从模糊,因果困难的训练中适当地推广,甚至可以学习执行实验干预以识别因果结构。我们表明解释有助于克服代理人来解决简单特征的趋势,并探讨解释的哪些方面使它们成为最有益的。我们的结果表明,从解释中学习是一种强大的原则,可以为培训更强大和一般机器学习系统提供有希望的道路。
translated by 谷歌翻译
强化学习代理经常忘记过去的细节,特别是在延误或令人厌倦的任务之后。具有常见内存架构的代理努力召回和集成在过去事件的多个时间步行中,甚至会调用后跟分散的任务任务的单个时间戳的详细信息。为了解决这些限制,我们提出了一个分层块注意内存(HCAM),这有助于代理商详细记住过去。 HCAM通过将过去除以块来存储记忆,并通过首先在块的粗粗摘要上执行高级注意,然后在仅在最相关的块中进行详细关注。因此,具有HCAM的代理可以“精神上的时间旅行” - 记住过去的事件,并在不参加所有干预事件。我们展示了HCAM的代理基本上优于具有其他内存架构的代理,其任务需要长期回忆,保留或推理存储器。这些包括回顾一个对象隐藏在3D环境中的位置,迅速学习在新的邻域中有效地导航,以及快速学习和保留新的对象名称。具有HCAM的代理可以将其推断到任务序列,而不是培训的任务序列,甚至可以从元学习环境中概括为零射击,以维持跨情节的知识。 HCAM提高了代理样本效率,泛化和一般性(通过解决先前所需的专业架构的任务)。我们的工作是迈向可以学习,交互和适应复杂和时间扩展环境的代理的一步。
translated by 谷歌翻译
深度加强学习概括(RL)的研究旨在产生RL算法,其政策概括为在部署时间进行新的未经调整情况,避免对其培训环境的过度接受。如果我们要在现实世界的情景中部署强化学习算法,那么解决这一点至关重要,那么环境将多样化,动态和不可预测。该调查是这个新生领域的概述。我们为讨论不同的概括问题提供统一的形式主义和术语,在以前的作品上建立不同的概括问题。我们继续对现有的基准进行分类,以及用于解决泛化问题的当前方法。最后,我们提供了对现场当前状态的关键讨论,包括未来工作的建议。在其他结论之外,我们认为,采取纯粹的程序内容生成方法,基准设计不利于泛化的进展,我们建议快速在线适应和将RL特定问题解决作为未来泛化方法的一些领域,我们推荐在UniTexplorated问题设置中构建基准测试,例如离线RL泛化和奖励函数变化。
translated by 谷歌翻译
一个令人着迷的假设是,人类和动物的智力可以通过一些原则(而不是启发式方法的百科全书清单)来解释。如果这个假设是正确的,我们可以更容易地理解自己的智能并建造智能机器。就像物理学一样,原理本身不足以预测大脑等复杂系统的行为,并且可能需要大量计算来模拟人类式的智力。这一假设将表明,研究人类和动物所剥削的归纳偏见可以帮助阐明这些原则,并为AI研究和神经科学理论提供灵感。深度学习已经利用了几种关键的归纳偏见,这项工作考虑了更大的清单,重点是关注高级和顺序有意识的处理的工作。阐明这些特定原则的目的是,它们有可能帮助我们建立从人类的能力中受益于灵活分布和系统概括的能力的AI系统,目前,这是一个领域艺术机器学习和人类智力。
translated by 谷歌翻译
在流行媒体中,人造代理商的意识出现与同时实现人类或超人水平智力的那些相同的代理之间通常存在联系。在这项工作中,我们探讨了意识和智力之间这种看似直观的联系的有效性和潜在应用。我们通过研究与三种当代意识功能理论相关的认知能力:全球工作空间理论(GWT),信息生成理论(IGT)和注意力模式理论(AST)。我们发现,这三种理论都将有意识的功能专门与人类领域将军智力的某些方面联系起来。有了这个见解,我们转向人工智能领域(AI),发现尽管远未证明一般智能,但许多最先进的深度学习方法已经开始纳入三个功能的关键方面理论。确定了这一趋势后,我们以人类心理时间旅行的激励例子来提出方式,其中三种理论中每种理论的见解都可以合并为一个单一的统一和可实施的模型。鉴于三种功能理论中的每一种都可以通过认知能力来实现这一可能,因此,具有精神时间旅行的人造代理不仅具有比当前方法更大的一般智力,而且还与我们当前对意识功能作用的理解更加一致在人类中,这使其成为AI研究的有希望的近期目标。
translated by 谷歌翻译
Recent progress in artificial intelligence (AI) has renewed interest in building systems that learn and think like people. Many advances have come from using deep neural networks trained end-to-end in tasks such as object recognition, video games, and board games, achieving performance that equals or even beats humans in some respects. Despite their biological inspiration and performance achievements, these systems differ from human intelligence in crucial ways. We review progress in cognitive science suggesting that truly human-like learning and thinking machines will have to reach beyond current engineering trends in both what they learn, and how they learn it. Specifically, we argue that these machines should (a) build causal models of the world that support explanation and understanding, rather than merely solving pattern recognition problems; (b) ground learning in intuitive theories of physics and psychology, to support and enrich the knowledge that is learned; and (c) harness compositionality and learning-to-learn to rapidly acquire and generalize knowledge to new tasks and situations. We suggest concrete challenges and promising routes towards these goals that can combine the strengths of recent neural network advances with more structured cognitive models.
translated by 谷歌翻译
正如人类和动物在自然世界中学习的那样,它们会遇到远非统一的实体,情况和事件的分布。通常,经常遇到相对较小的经历,而许多重要的体验很少发生。现实的高度紧密,重尾的本质构成了人类和动物通过不断发展的专业记忆系统所面临的特殊学习挑战。相比之下,大多数流行的RL环境和基准涉及属性,对象,情况或任务的大致变化。 RL算法将如何在环境特征分布的世界(如我们的)中表现出较不统一的分布?为了探讨这个问题,我们开发了三个互补的RL环境,在这些环境中,代理商的经验根据Zipfian(离散幂定律)分布而变化。在这些基准上,我们发现标准的深入RL体系结构和算法获得了对常见情况和任务的有用知识,但无法充分了解稀有的情况。为了更好地了解这一失败,我们探讨了如何调整当前方法的不同方面,以帮助提高罕见事件的性能,并表明RL目标功能,代理商的记忆系统和自我监督的学习目标都可以影响代理商的能力从罕见的体验中学习。这些结果共同表明,从偏斜的经验中进行强大的学习是应用模拟或实验室以外的深度RL方法的关键挑战,而我们的Zipfian环境为衡量未来的进步朝着这一目标提供了基础。
translated by 谷歌翻译
获得抽象知识的能力是人类智力的标志,许多人认为是人类和神经网络模型之间的核心差异之一。代理可以通过元学习对抽象的归纳偏见,在那里他们接受了共享可以学习和应用的一些抽象结构的任务分布的培训。但是,由于很难解释神经网络,因此很难判断代理人是学会了潜在的抽象,或者是该抽象特征的统计模式。在这项工作中,我们比较了人类和代理在荟萃方面学习范式中的表现,其中从抽象规则中产生了任务。我们定义了一种用于构建“任务Metamers”的新方法,该方法与抽象任务的统计数据非常匹配,但使用了不同的基本生成过程,并评估了在抽象和Metamer任务上的性能。在我们的第一组实验中,我们发现人类在抽象任务上的表现要比MetAmer任务更好,而广泛使用的元强化学习代理在抽象任务上的表现要比匹配的Metamers差。在第二组实验中,我们将任务基于直接从经验鉴定的人类先验得出的抽象基础。我们利用相同的过程来生成相应的METAMER任务,并看到人与代理之间的相同双重分离。这项工作为表征人类和机器学习之间的差异奠定了基础,可以在未来的工作中用于以人类行为开发机器。
translated by 谷歌翻译
The reinforcement learning paradigm is a popular way to address problems that have only limited environmental feedback, rather than correctly labeled examples, as is common in other machine learning contexts. While significant progress has been made to improve learning in a single task, the idea of transfer learning has only recently been applied to reinforcement learning tasks. The core idea of transfer is that experience gained in learning to perform one task can help improve learning performance in a related, but different, task. In this article we present a framework that classifies transfer learning methods in terms of their capabilities and goals, and then use it to survey the existing literature, as well as to suggest future directions for transfer learning work.
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
机器学习和认知科学的最新工作表明,了解因果信息对于智力的发展至关重要。使用``Blicket otter''环境的认知科学的广泛文献表明,孩子们擅长多种因果推理和学习。我们建议将该环境适应机器​​学习代理。当前机器学习算法的关键挑战之一是建模和理解因果关系:关于因果关系集的可转移抽象假设。相比之下,即使是幼儿也会自发学习和使用因果关系。在这项工作中,我们提出了一个新的基准 - 一种灵活的环境,可以评估可变因果溢出物下的现有技术 - 并证明许多现有的最新方法在这种环境中概括了困难。该基准的代码和资源可在https://github.com/cannylab/casual_overhypothess上获得。
translated by 谷歌翻译
人们容易概括到新型域和刺激的知识。我们提出了一种在计算模型中实例化的理论,基于跨域人类中的跨域泛化是对结构化(即,象征性)关系表示的模拟推断的情况。该模型是LISA和关系推论和学习的DORA模型的延伸。生成的模型在没有监控的情况下,从非关系输入中的关系和格式(即结构)(即,结构)既与强化学习的容量增强,利用这些表示来学习单个域,然后向新域推广首先通过模拟推理(即零拍摄学习)。我们展示了模型从各种简单的视觉刺激学习结构化关系表示的能力,并在视频游戏(突破和乒乓球)和几个心理任务之间进行跨域泛化。我们展示了模型的轨迹在学到关系时,旨在让孩子的轨迹镜头紧密地镜子,从文学中占据了儿童推理和类比制作的文献中的现象。该模型在域之间的概括能力展示了在其基础关系结构方面代表域的灵活性,而不是简单地就其投入和产出之间的统计关系而言。
translated by 谷歌翻译
最近围绕语言处理模型的复杂性的最新炒作使人们对机器获得了类似人类自然语言的指挥的乐观情绪。人工智能中自然语言理解的领域声称在这一领域取得了长足的进步,但是,在这方面和其他学科中使用“理解”的概念性清晰,使我们很难辨别我们实际上有多近的距离。目前的方法和剩余挑战的全面,跨学科的概述尚待进行。除了语言知识之外,这还需要考虑我们特定于物种的能力,以对,记忆,标签和传达我们(足够相似的)体现和位置经验。此外,测量实际约束需要严格分析当前模型的技术能力,以及对理论可能性和局限性的更深入的哲学反思。在本文中,我将所有这些观点(哲学,认知语言和技术)团结在一起,以揭开达到真实(人类般的)语言理解所涉及的挑战。通过解开当前方法固有的理论假设,我希望说明我们距离实现这一目标的实际程度,如果确实是目标。
translated by 谷歌翻译
深度强化学习(RL)涉及使用深神经网络(DNN)来做出顺序决策,以最大程度地提高奖励。对于许多任务,由深度RL政策产生的一系列动作顺序对于人类来说可能是漫长而难以理解的。人类解释的一个关键组成部分是选择性,仅叙述关键决定和原因。使深层RL代理具有这种能力,将使他们的产生政策从人的角度更容易理解,并产生一套简洁的指示,以帮助学习未来的代理商。为此,我们使用具有情节内存系统的深度RL代理来识别和叙述策略执行期间的关键决策。我们表明,这些决策形成了一个简短的可读解释,也可以用来以算法独立的方式加快对天真的深度RL代理的学习。
translated by 谷歌翻译
建立能够参与与人类社会互动的自治代理是AI的主要挑战之一。在深度加强学习(DRL)领域内,这一目标激励了多种作品上体现语言使用。然而,目前的方法在非常简化和非多样化的社交场合中关注语言作为通信工具:语言的“自然”减少到高词汇大小和变异性的概念。在本文中,我们认为针对人类级别的AI需要更广泛的关键社交技能:1)语言在复杂和可变的社会环境中使用; 2)超越语言,在不断发展的社会世界内的多模式设置中的复杂体现通信。我们解释了认知科学的概念如何帮助AI向人类智力绘制路线图,重点关注其社会方面。作为第一步,我们建议将目前的研究扩大到更广泛的核心社交技能。为此,我们展示了使用其他(脚本)社会代理商的多个网格世界环境来评估DRL代理商社交技能的基准。然后,我们研究了最近的Sota DRL方法的限制,当时在Sowisai上进行测试并讨论熟练社会代理商的重要下一步。视频和代码可在https://sites.google.com/view/socialai找到。
translated by 谷歌翻译
There has been a recent resurgence in the area of explainable artificial intelligence as researchers and practitioners seek to make their algorithms more understandable. Much of this research is focused on explicitly explaining decisions or actions to a human observer, and it should not be controversial to say that looking at how humans explain to each other can serve as a useful starting point for explanation in artificial intelligence. However, it is fair to say that most work in explainable artificial intelligence uses only the researchers' intuition of what constitutes a 'good' explanation. There exists vast and valuable bodies of research in philosophy, psychology, and cognitive science of how people define, generate, select, evaluate, and present explanations, which argues that people employ certain cognitive biases and social expectations towards the explanation process. This paper argues that the field of explainable artificial intelligence should build on this existing research, and reviews relevant papers from philosophy, cognitive psychology/science, and social psychology, which study these topics. It draws out some important findings, and discusses ways that these can be infused with work on explainable artificial intelligence.
translated by 谷歌翻译
来自科幻小说的普通愿景是机器人将有一天居住在我们的物理空间中,感知世界,才能协助我们的物理劳动力,并通过自然语言与我们沟通。在这里,我们研究如何使用虚拟环境的简化设计如何与人类自然交互的人工代理。我们表明,与自我监督学习的模拟世界中的人类交互的模仿学习足以产生我们称之为MIA的多模式互动剂,这成功与非对抗人类互动75%的时间。我们进一步确定了提高性能的架构和算法技术,例如分层动作选择。完全,我们的结果表明,模仿多模态,实时人类行为可以提供具有丰富的行为的富含性的令人生意的和令人惊讶的有效手段,然后可以为特定目的进行微调,从而铺设基础用于培训互动机器人或数字助理的能力。可以在https://youtu.be/zfgrif7my找到MIA的行为的视频
translated by 谷歌翻译
为了提高模型透明度并允许用户形成训练有素的ML模型的心理模型,解释对AI和机器学习(ML)社区的兴趣越来越高。但是,解释可以超越这种方式通信作为引起用户控制的机制,因为一旦用户理解,他们就可以提供反馈。本文的目的是介绍研究概述,其中解释与交互式功能相结合,是从头开始学习新模型并编辑和调试现有模型的手段。为此,我们绘制了最先进的概念图,根据其预期目的以及它们如何构建相互作用,突出它们之间的相似性和差异来分组相关方法。我们还讨论开放研究问题并概述可能的方向,希望促使人们对这个开花研究主题进行进一步的研究。
translated by 谷歌翻译
Curiosity for machine agents has been a focus of lively research activity. The study of human and animal curiosity, particularly specific curiosity, has unearthed several properties that would offer important benefits for machine learners, but that have not yet been well-explored in machine intelligence. In this work, we conduct a comprehensive, multidisciplinary survey of the field of animal and machine curiosity. As a principal contribution of this work, we use this survey as a foundation to introduce and define what we consider to be five of the most important properties of specific curiosity: 1) directedness towards inostensible referents, 2) cessation when satisfied, 3) voluntary exposure, 4) transience, and 5) coherent long-term learning. As a second main contribution of this work, we show how these properties may be implemented together in a proof-of-concept reinforcement learning agent: we demonstrate how the properties manifest in the behaviour of this agent in a simple non-episodic grid-world environment that includes curiosity-inducing locations and induced targets of curiosity. As we would hope, our example of a computational specific curiosity agent exhibits short-term directed behaviour while updating long-term preferences to adaptively seek out curiosity-inducing situations. This work, therefore, presents a landmark synthesis and translation of specific curiosity to the domain of machine learning and reinforcement learning and provides a novel view into how specific curiosity operates and in the future might be integrated into the behaviour of goal-seeking, decision-making computational agents in complex environments.
translated by 谷歌翻译
最近的自主代理和机器人的应用,如自动驾驶汽车,情景的培训师,勘探机器人和服务机器人带来了关注与当前生成人工智能(AI)系统相关的至关重要的信任相关挑战。尽管取得了巨大的成功,基于连接主义深度学习神经网络方法的神经网络方法缺乏解释他们对他人的决策和行动的能力。没有符号解释能力,它们是黑色盒子,这使得他们的决定或行动不透明,这使得难以信任它们在安全关键的应用中。最近对AI系统解释性的立场目睹了可解释的人工智能(XAI)的几种方法;然而,大多数研究都专注于应用于计算科学中的数据驱动的XAI系统。解决越来越普遍的目标驱动器和机器人的研究仍然缺失。本文评论了可解释的目标驱动智能代理和机器人的方法,重点是解释和沟通代理人感知功能的技术(示例,感官和愿景)和认知推理(例如,信仰,欲望,意图,计划和目标)循环中的人类。审查强调了强调透明度,可辨与和持续学习以获得解释性的关键策略。最后,本文提出了解释性的要求,并提出了用于实现有效目标驱动可解释的代理和机器人的路线图。
translated by 谷歌翻译