在本文中,我们为Pavlovian信号传达的多方面的研究 - 一个过程中学到的一个过程,一个代理商通过另一个代理商通知决策的时间扩展预测。信令紧密连接到时间和时间。在生成和接收信号的服务中,已知人类和其他动物代表时间,确定自过去事件以来的时间,预测到未来刺激的时间,并且都识别和生成展开时间的模式。我们调查通过引入部分可观察到的决策域来对学习代理之间的影响和信令在我们称之为霜冻空心的情况下如何影响学习代理之间的影响和信令。在该域中,预测学习代理和加强学习代理被耦合到两部分决策系统,该系统可以在避免时间条件危险时获取稀疏奖励。我们评估了两个域变型:机器代理在七态线性步行中交互,以及虚拟现实环境中的人机交互。我们的结果展示了帕夫洛维亚信号传导的学习速度,对药剂 - 代理协调具有不同时间表示(并且不)的影响,以及颞次锯齿对药剂和人毒剂相互作用的影响方式不同。作为主要贡献,我们将Pavlovian信号传导为固定信号范例与两个代理之间完全自适应通信学习之间的天然桥梁。我们进一步展示了如何从固定的信令过程计算地构建该自适应信令处理,其特征在于,通过快速的连续预测学习和对接收信号的性质的最小限制。因此,我们的结果表明了加固学习代理之间的沟通学习的可行建设者的途径。
translated by 谷歌翻译
人工智能系统越来越涉及持续学习,以实现在系统培训期间不遇到的一般情况下的灵活性。与自治系统的人类互动广泛研究,但在系统积极学习的同时,研究发生了迄今为止发生的互动,并且可以在几分钟内明显改变其行为。在这项试验研究中,我们调查如何在代理商发展能力时如何发展人类和不断学习的预测代理人之间的互动。此外,我们可以比较两个不同的代理架构来评估代理设计中的代表性选择如何影响人工代理交互。我们开发虚拟现实环境和基于时间的预测任务,其中从增强学习(RL)算法增强人类预测中学到的预测。我们评估参与者在此任务中的性能和行为如何在代理类型中不同,使用定量和定性分析。我们的研究结果表明,系统的人类信任可能受到与代理人的早期互动的影响,并且反过来的信任会影响战略行为,但试点研究的限制排除了任何结论的声明。我们将信任作为互动的关键特征,以考虑基于RL的技术在考虑基于RL的技术时,并对这项研究进行了几项建议,以准备更大规模的调查。本文的视频摘要可以在https://youtu.be/ovyjdnbqtwq找到。
translated by 谷歌翻译
Curiosity for machine agents has been a focus of lively research activity. The study of human and animal curiosity, particularly specific curiosity, has unearthed several properties that would offer important benefits for machine learners, but that have not yet been well-explored in machine intelligence. In this work, we conduct a comprehensive, multidisciplinary survey of the field of animal and machine curiosity. As a principal contribution of this work, we use this survey as a foundation to introduce and define what we consider to be five of the most important properties of specific curiosity: 1) directedness towards inostensible referents, 2) cessation when satisfied, 3) voluntary exposure, 4) transience, and 5) coherent long-term learning. As a second main contribution of this work, we show how these properties may be implemented together in a proof-of-concept reinforcement learning agent: we demonstrate how the properties manifest in the behaviour of this agent in a simple non-episodic grid-world environment that includes curiosity-inducing locations and induced targets of curiosity. As we would hope, our example of a computational specific curiosity agent exhibits short-term directed behaviour while updating long-term preferences to adaptively seek out curiosity-inducing situations. This work, therefore, presents a landmark synthesis and translation of specific curiosity to the domain of machine learning and reinforcement learning and provides a novel view into how specific curiosity operates and in the future might be integrated into the behaviour of goal-seeking, decision-making computational agents in complex environments.
translated by 谷歌翻译
在计算加强学习中,越来越多的作品试图通过预测未来的感觉来构建代理人对世界的看法。关于环境观察的预测用作额外的输入功能,以实现更好的目标指导决策。这项工作中的一个公开挑战是从代理商可能做出的许多预测中决定哪些预测可能最能支持决策。在连续学习问题中,这一挑战尤其明显,在这种问题上,单一的经验可以为单一的代理使用。作为主要贡献,我们介绍了一个元梯度下降过程,代理商通过该过程学习1)要做出的预测,2)其所选预测的估计值; 3)如何使用这些估计来生成最大化未来奖励的政策 - - 全部在一个持续学习的过程中。在本手稿中,我们将表达为一般价值函数的预测考虑:对未来信号积累的时间扩展估计。我们证明,通过与环境的互动,代理可以独立选择解决部分观察性的预测,从而产生类似于专业指定的GVF的性能。通过学习,而不是手动指定这些预测,我们使代理商能够以自我监督的方式确定有用的预测,从而迈向真正的自主系统。
translated by 谷歌翻译
交互式增强学习建议使用外部信息,以加快学习过程。当与学习者互动时,人类可以提供评估或有益的建议。先前的研究通过在交互式增强学习过程中包括实时反馈,专门旨在提高代理商的学习速度,同时最大程度地减少对人类的时间的需求,从而重点关注人类建议的效果。这项工作重点是回答两种评估或信息性的方法中的哪种是人类的首选教学方法。此外,这项工作为人类试验提供了实验设置,旨在比较人们用来提供人类参与建议的方法。获得的结果表明,向学习者提供信息的用户提供了更准确的建议,愿意在更长的时间内为学习者提供帮助,并每集提供更多建议。此外,使用信息丰富的方法的参与者的自我评估表明,与提供评估建议的人相比,代理商遵循建议的能力更高,因此,他们认为自己的建议的准确性更高。
translated by 谷歌翻译
The reinforcement learning paradigm is a popular way to address problems that have only limited environmental feedback, rather than correctly labeled examples, as is common in other machine learning contexts. While significant progress has been made to improve learning in a single task, the idea of transfer learning has only recently been applied to reinforcement learning tasks. The core idea of transfer is that experience gained in learning to perform one task can help improve learning performance in a related, but different, task. In this article we present a framework that classifies transfer learning methods in terms of their capabilities and goals, and then use it to survey the existing literature, as well as to suggest future directions for transfer learning work.
translated by 谷歌翻译
在流行媒体中,人造代理商的意识出现与同时实现人类或超人水平智力的那些相同的代理之间通常存在联系。在这项工作中,我们探讨了意识和智力之间这种看似直观的联系的有效性和潜在应用。我们通过研究与三种当代意识功能理论相关的认知能力:全球工作空间理论(GWT),信息生成理论(IGT)和注意力模式理论(AST)。我们发现,这三种理论都将有意识的功能专门与人类领域将军智力的某些方面联系起来。有了这个见解,我们转向人工智能领域(AI),发现尽管远未证明一般智能,但许多最先进的深度学习方法已经开始纳入三个功能的关键方面理论。确定了这一趋势后,我们以人类心理时间旅行的激励例子来提出方式,其中三种理论中每种理论的见解都可以合并为一个单一的统一和可实施的模型。鉴于三种功能理论中的每一种都可以通过认知能力来实现这一可能,因此,具有精神时间旅行的人造代理不仅具有比当前方法更大的一般智力,而且还与我们当前对意识功能作用的理解更加一致在人类中,这使其成为AI研究的有希望的近期目标。
translated by 谷歌翻译
从连续的数据流不断地学习是具有挑战性的,特别是对于具有顺序数据的强化学习代理。当环境仅提供有关环境状态的部分信息的观察时,代理必须根据数据流基于经验流学习代理状态。我们指的是直接从经验数据流中学到的代理状态。经常性的神经网络可以学习代理状态,但训练方法是计算昂贵且对超参数敏感的,使它们无法实现在线学习。这项工作介绍了基于生成和测试方法来学习代理状态的方法。通过生成功能并测试其有用性来搜索生成和测试算法。在此过程中,保留了对代理对任务的性能有用的功能,并且最少的有用功能将替换为新生成的功能。我们研究了我们对两个在线多步预测问题的方法的有效性。第一个问题,追踪条件,侧重于代理商能够记住预测到未来的多个步骤的提示。在第二个问题中,跟踪图案化,代理需要学习观察信号中的模式,并记住它们以供将来的预测。我们表明我们所提出的方法可以在线有效地学习代理状态并产生准确的预测。
translated by 谷歌翻译
语言是协调问题的强大解决方案:他们提供了稳定的,有关我们所说的单词如何对应于我们头脑中的信仰和意图的共同期望。然而,在变量和非静止社会环境中的语言使用需要语言表征来灵活:旧词在飞行中获取新的临时或合作伙伴特定含义。在本文中,我们介绍了柴(通过推理的连续分层适应),一个分层贝叶斯的协调理论和会议组织,旨在在这两个基本观察之间调和长期张力。我们认为,沟通的中央计算问题不仅仅是传输,如在经典配方中,而是在多个时间尺度上持续学习和适应。合作伙伴特定的共同点迅速出现在数型互动中的社会推论中,而社群范围内的社会公约是稳定的前锋,这些前锋已经抽象出与多个合作伙伴的互动。我们展示了新的实证数据,展示了我们的模型为多个现象提供了对先前账户挑战的计算基础:(1)与同一合作伙伴的重复互动的更有效的参考表达的融合(2)将合作伙伴特定的共同基础转移到陌生人,并(3)交际范围的影响最终会形成。
translated by 谷歌翻译
增强学习(RL)的潜力是通过奖励工程问题的部分瓶颈部分瓶颈。启发式试验和错误的一个替代方案是基于偏好的RL(PBRL),其中奖励函数从稀疏的人体反馈推断出来。然而,先前的PBR方法缺乏学习奖励结构的可解释性,这妨碍了评估鲁棒性和对准的能力。我们提出了一种在线,积极的偏好学习算法,用树木的本质上可解释,构成结构构建奖励功能。使用合成和人为提供的反馈,我们在若干环境中展示了树结构奖励功能的样本高效学习,然后利用增强的解释性来探索和调试进行对齐。
translated by 谷歌翻译
This paper surveys the eld of reinforcement learning from a computer-science perspective. It is written to be accessible to researchers familiar with machine learning. Both the historical basis of the eld and a broad selection of current work are summarized. Reinforcement learning is the problem faced by an agent that learns behavior through trial-and-error interactions with a dynamic environment. The work described here has a resemblance to work in psychology, but di ers considerably in the details and in the use of the word \reinforcement." The paper discusses central issues of reinforcement learning, including trading o exploration and exploitation, establishing the foundations of the eld via Markov decision theory, learning from delayed reinforcement, constructing empirical models to accelerate learning, making use of generalization and hierarchy, and coping with hidden state. It concludes with a survey of some implemented systems and an assessment of the practical utility of current methods for reinforcement learning.
translated by 谷歌翻译
在人类中,感知意识促进了来自感官输入的快速识别和提取信息。这种意识在很大程度上取决于人类代理人如何与环境相互作用。在这项工作中,我们提出了主动神经生成编码,用于学习动作驱动的生成模型的计算框架,而不会在动态环境中反正出错误(Backprop)。具体而言,我们开发了一种智能代理,即使具有稀疏奖励,也可以从规划的认知理论中汲取灵感。我们展示了我们框架与深度Q学习竞争力的几个简单的控制问题。我们的代理的强劲表现提供了有希望的证据,即神经推断和学习的无背方法可以推动目标定向行为。
translated by 谷歌翻译
我们为大脑和行为提供了一般的理论框架,这些框架是进化的和计算方式。我们抽象模型中的大脑是一个节点和边缘网络。虽然它与标准神经网络模型有一些相似之处,但随着我们所示,存在一些显着差异。我们网络中的节点和边缘都具有权重和激活级别。它们充当使用一组相对简单的规则来确定激活级别和权重的概率传感器,以通过输入,生成输出,并相互影响。我们表明这些简单的规则能够实现允许网络代表越来越复杂的知识的学习过程,并同时充当促进规划,决策和行为执行的计算设备。通过指定网络的先天(遗传)组件,我们展示了进化如何以初始的自适应规则和目标赋予网络,然后通过学习来丰富。我们展示了网络的开发结构(这决定了大脑可以做些什么以及如何良好)受影响数据输入分布的机制和确定学习参数的机制之间的共同进化协调的批判性影响(在程序中使用按节点和边缘运行)。最后,我们考虑了模型如何占了学习领域的各种调查结果,如何解决思想和行为的一些挑战性问题,例如与设定目标和自我控制相关的问题,以及它如何帮助理解一些认知障碍。
translated by 谷歌翻译
We present temporally layered architecture (TLA), a biologically inspired system for temporally adaptive distributed control. TLA layers a fast and a slow controller together to achieve temporal abstraction that allows each layer to focus on a different time-scale. Our design is biologically inspired and draws on the architecture of the human brain which executes actions at different timescales depending on the environment's demands. Such distributed control design is widespread across biological systems because it increases survivability and accuracy in certain and uncertain environments. We demonstrate that TLA can provide many advantages over existing approaches, including persistent exploration, adaptive control, explainable temporal behavior, compute efficiency and distributed control. We present two different algorithms for training TLA: (a) Closed-loop control, where the fast controller is trained over a pre-trained slow controller, allowing better exploration for the fast controller and closed-loop control where the fast controller decides whether to "act-or-not" at each timestep; and (b) Partially open loop control, where the slow controller is trained over a pre-trained fast controller, allowing for open loop-control where the slow controller picks a temporally extended action or defers the next n-actions to the fast controller. We evaluated our method on a suite of continuous control tasks and demonstrate the advantages of TLA over several strong baselines.
translated by 谷歌翻译
强化学习(RL)和脑电脑接口(BCI)是过去十年一直在增长的两个领域。直到最近,这些字段彼此独立操作。随着对循环(HITL)应用的兴趣升高,RL算法已经适用于人类指导,从而产生互动强化学习(IRL)的子领域。相邻的,BCI应用一直很感兴趣在人机交互期间从神经活动中提取内在反馈。这两个想法通过将BCI集成到IRL框架中,将RL和BCI设置在碰撞过程中,通过将内在反馈可用于帮助培训代理商来帮助框架。这种交叉点被称为内在的IRL。为了进一步帮助,促进BCI和IRL的更深层次,我们对内在IRILL的审查有着重点在于其母体领域的反馈驱动的IRL,同时还提供有关有效性,挑战和未来研究方向的讨论。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
本文展示了单个机制如何通过直接从代理的原始传感器流流层构建层。这种机制,一般值函数(GVF)或“预测”,捕获高级,抽象知识,作为一组关于现有特征和知识的一组预测,其专门基于代理的低级感官和动作。因此,预测提供了将原始传感器数据组织成有用的抽象的表示 - 通过无限数量的层 - AI和认知科学的长寻求目标。本文的核心是一个详细的思想实验,提供了一个具体,逐步的正式说明,逐步的人工代理商如何从其原始的传感器体验中构建真实,有用的抽象知识。知识表示为关于代理人的观察到其行为后果的一组分层预测(预测)。该图示出了十二个独立的图层:最低的原始像素,触摸和力传感器以及少量动作;较高层次增加抽象,最终导致了对代理商世界的丰富知识,对应于门口,墙壁,房间和平面图。然后,我认为这种一般机制可以允许表示广泛的日常人类知识。
translated by 谷歌翻译
在此,我们描述了我们称为艾伯塔省计划的人工智能研究方法。艾伯塔省的计划是在我们在艾伯塔省的研究小组中以及全世界志趣相投的其他人中追求的。我们欢迎所有将加入我们的人参加这一追求的人。
translated by 谷歌翻译
Multi-agent artificial intelligence research promises a path to develop intelligent technologies that are more human-like and more human-compatible than those produced by "solipsistic" approaches, which do not consider interactions between agents. Melting Pot is a research tool developed to facilitate work on multi-agent artificial intelligence, and provides an evaluation protocol that measures generalization to novel social partners in a set of canonical test scenarios. Each scenario pairs a physical environment (a "substrate") with a reference set of co-players (a "background population"), to create a social situation with substantial interdependence between the individuals involved. For instance, some scenarios were inspired by institutional-economics-based accounts of natural resource management and public-good-provision dilemmas. Others were inspired by considerations from evolutionary biology, game theory, and artificial life. Melting Pot aims to cover a maximally diverse set of interdependencies and incentives. It includes the commonly-studied extreme cases of perfectly-competitive (zero-sum) motivations and perfectly-cooperative (shared-reward) motivations, but does not stop with them. As in real-life, a clear majority of scenarios in Melting Pot have mixed incentives. They are neither purely competitive nor purely cooperative and thus demand successful agents be able to navigate the resulting ambiguity. Here we describe Melting Pot 2.0, which revises and expands on Melting Pot. We also introduce support for scenarios with asymmetric roles, and explain how to integrate them into the evaluation protocol. This report also contains: (1) details of all substrates and scenarios; (2) a complete description of all baseline algorithms and results. Our intention is for it to serve as a reference for researchers using Melting Pot 2.0.
translated by 谷歌翻译
深度强化学习(RL)涉及使用深神经网络(DNN)来做出顺序决策,以最大程度地提高奖励。对于许多任务,由深度RL政策产生的一系列动作顺序对于人类来说可能是漫长而难以理解的。人类解释的一个关键组成部分是选择性,仅叙述关键决定和原因。使深层RL代理具有这种能力,将使他们的产生政策从人的角度更容易理解,并产生一套简洁的指示,以帮助学习未来的代理商。为此,我们使用具有情节内存系统的深度RL代理来识别和叙述策略执行期间的关键决策。我们表明,这些决策形成了一个简短的可读解释,也可以用来以算法独立的方式加快对天真的深度RL代理的学习。
translated by 谷歌翻译