从连续的数据流不断地学习是具有挑战性的,特别是对于具有顺序数据的强化学习代理。当环境仅提供有关环境状态的部分信息的观察时,代理必须根据数据流基于经验流学习代理状态。我们指的是直接从经验数据流中学到的代理状态。经常性的神经网络可以学习代理状态,但训练方法是计算昂贵且对超参数敏感的,使它们无法实现在线学习。这项工作介绍了基于生成和测试方法来学习代理状态的方法。通过生成功能并测试其有用性来搜索生成和测试算法。在此过程中,保留了对代理对任务的性能有用的功能,并且最少的有用功能将替换为新生成的功能。我们研究了我们对两个在线多步预测问题的方法的有效性。第一个问题,追踪条件,侧重于代理商能够记住预测到未来的多个步骤的提示。在第二个问题中,跟踪图案化,代理需要学习观察信号中的模式,并记住它们以供将来的预测。我们表明我们所提出的方法可以在线有效地学习代理状态并产生准确的预测。
translated by 谷歌翻译
在本文中,我们为Pavlovian信号传达的多方面的研究 - 一个过程中学到的一个过程,一个代理商通过另一个代理商通知决策的时间扩展预测。信令紧密连接到时间和时间。在生成和接收信号的服务中,已知人类和其他动物代表时间,确定自过去事件以来的时间,预测到未来刺激的时间,并且都识别和生成展开时间的模式。我们调查通过引入部分可观察到的决策域来对学习代理之间的影响和信令在我们称之为霜冻空心的情况下如何影响学习代理之间的影响和信令。在该域中,预测学习代理和加强学习代理被耦合到两部分决策系统,该系统可以在避免时间条件危险时获取稀疏奖励。我们评估了两个域变型:机器代理在七态线性步行中交互,以及虚拟现实环境中的人机交互。我们的结果展示了帕夫洛维亚信号传导的学习速度,对药剂 - 代理协调具有不同时间表示(并且不)的影响,以及颞次锯齿对药剂和人毒剂相互作用的影响方式不同。作为主要贡献,我们将Pavlovian信号传导为固定信号范例与两个代理之间完全自适应通信学习之间的天然桥梁。我们进一步展示了如何从固定的信令过程计算地构建该自适应信令处理,其特征在于,通过快速的连续预测学习和对接收信号的性质的最小限制。因此,我们的结果表明了加固学习代理之间的沟通学习的可行建设者的途径。
translated by 谷歌翻译
在计算强化学习中,越来越多的工作体验旨在通过关于未来感觉的预测来表达世界的代理人模型。在本手稿中,我们专注于以一般值函数表示的预测:时间延长了未来信号累积的估计。一个挑战是从无数的许多预测中确定了代理人可能会产生哪些可能支持决策的预测。在这项工作中,我们贡献了一个元梯度下降方法,代理可以直接指定它学习的预测,而独立于设计者指令。为此,我们介绍了适合这项调查的部分可观察的域名。然后,我们演示通过与环境的交互,代理可以独立地选择解决部分可观察性的预测,从而导致类似于专业选择的值函数的性能。通过学习,而不是手动指定这些预测,我们使代理能够以自我监督的方式识别有用的预测,从而迈向真正自治系统。
translated by 谷歌翻译
在计算加强学习中,越来越多的作品试图通过预测未来的感觉来构建代理人对世界的看法。关于环境观察的预测用作额外的输入功能,以实现更好的目标指导决策。这项工作中的一个公开挑战是从代理商可能做出的许多预测中决定哪些预测可能最能支持决策。在连续学习问题中,这一挑战尤其明显,在这种问题上,单一的经验可以为单一的代理使用。作为主要贡献,我们介绍了一个元梯度下降过程,代理商通过该过程学习1)要做出的预测,2)其所选预测的估计值; 3)如何使用这些估计来生成最大化未来奖励的政策 - - 全部在一个持续学习的过程中。在本手稿中,我们将表达为一般价值函数的预测考虑:对未来信号积累的时间扩展估计。我们证明,通过与环境的互动,代理可以独立选择解决部分观察性的预测,从而产生类似于专业指定的GVF的性能。通过学习,而不是手动指定这些预测,我们使代理商能够以自我监督的方式确定有用的预测,从而迈向真正的自主系统。
translated by 谷歌翻译
我们在这项工作中的主要贡献是一个实证发现随机通用价值函数(GVF),即深度动作条件预测 - 随机观察到他们预测的观察的特征以及预测的操作顺序中 - 为强化学习(RL)问题形成良好的辅助任务。特别是,我们表明当用作辅助任务时,随机深度动作条件预测产生了产生控制性能的状态表示,其具有与最先进的手工制作的辅助任务相同的辅助辅助任务,如atari中的值预测,像素控制和卷曲和DeepMind实验室任务。在另一组实验中,我们将梯度从网络的RL部分停止到网络的状态代表性学习部分,也许令人惊讶的是,单独的辅助任务足以学习州表示足以超过最终的状态 - 训练的演员 - 评论家基线。我们在https://github.com/hwhitetooth/random_gvs ovensourced我们的代码。
translated by 谷歌翻译
To date, reinforcement learning has mostly been studied solving simple learning tasks. Reinforcement learning methods that have been studied so far typically converge slowly. The purpose of this work is thus twofold: 1) to investigate the utility of reinforcement learning in solving much more complicated learning tasks than previously studied, and 2) to investigate methods that will speed up reinforcement learning. This paper compares eight reinforcement learning frameworks: adaptive heuristic critic (AHC) learning due to Sutton, Q-learning due to Watkins, and three extensions to both basic methods for speeding up learning. The three extensions are experience replay, learning action models for planning, and teaching. The frameworks were investigated using connectionism as an approach to generalization. To evaluate the performance of different frameworks, a dynamic environment was used as a testbed. The enviromaaent is moderately complex and nondeterministic. This paper describes these frameworks and algorithms in detail and presents empirical evaluation of the frameworks.
translated by 谷歌翻译
The spectacular successes of recurrent neural network models where key parameters are adjusted via backpropagation-based gradient descent have inspired much thought as to how biological neuronal networks might solve the corresponding synaptic credit assignment problem. There is so far little agreement, however, as to how biological networks could implement the necessary backpropagation through time, given widely recognized constraints of biological synaptic network signaling architectures. Here, we propose that extra-synaptic diffusion of local neuromodulators such as neuropeptides may afford an effective mode of backpropagation lying within the bounds of biological plausibility. Going beyond existing temporal truncation-based gradient approximations, our approximate gradient-based update rule, ModProp, propagates credit information through arbitrary time steps. ModProp suggests that modulatory signals can act on receiving cells by convolving their eligibility traces via causal, time-invariant and synapse-type-specific filter taps. Our mathematical analysis of ModProp learning, together with simulation results on benchmark temporal tasks, demonstrate the advantage of ModProp over existing biologically-plausible temporal credit assignment rules. These results suggest a potential neuronal mechanism for signaling credit information related to recurrent interactions over a longer time horizon. Finally, we derive an in-silico implementation of ModProp that could serve as a low-complexity and causal alternative to backpropagation through time.
translated by 谷歌翻译
在此,我们描述了我们称为艾伯塔省计划的人工智能研究方法。艾伯塔省的计划是在我们在艾伯塔省的研究小组中以及全世界志趣相投的其他人中追求的。我们欢迎所有将加入我们的人参加这一追求的人。
translated by 谷歌翻译
人工智能系统越来越涉及持续学习,以实现在系统培训期间不遇到的一般情况下的灵活性。与自治系统的人类互动广泛研究,但在系统积极学习的同时,研究发生了迄今为止发生的互动,并且可以在几分钟内明显改变其行为。在这项试验研究中,我们调查如何在代理商发展能力时如何发展人类和不断学习的预测代理人之间的互动。此外,我们可以比较两个不同的代理架构来评估代理设计中的代表性选择如何影响人工代理交互。我们开发虚拟现实环境和基于时间的预测任务,其中从增强学习(RL)算法增强人类预测中学到的预测。我们评估参与者在此任务中的性能和行为如何在代理类型中不同,使用定量和定性分析。我们的研究结果表明,系统的人类信任可能受到与代理人的早期互动的影响,并且反过来的信任会影响战略行为,但试点研究的限制排除了任何结论的声明。我们将信任作为互动的关键特征,以考虑基于RL的技术在考虑基于RL的技术时,并对这项研究进行了几项建议,以准备更大规模的调查。本文的视频摘要可以在https://youtu.be/ovyjdnbqtwq找到。
translated by 谷歌翻译
We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw pixels and whose output is a value function estimating future rewards. We apply our method to seven Atari 2600 games from the Arcade Learning Environment, with no adjustment of the architecture or learning algorithm. We find that it outperforms all previous approaches on six of the games and surpasses a human expert on three of them.
translated by 谷歌翻译
Planning has been very successful for control tasks with known environment dynamics. To leverage planning in unknown environments, the agent needs to learn the dynamics from interactions with the world. However, learning dynamics models that are accurate enough for planning has been a long-standing challenge, especially in image-based domains. We propose the Deep Planning Network (PlaNet), a purely model-based agent that learns the environment dynamics from images and chooses actions through fast online planning in latent space. To achieve high performance, the dynamics model must accurately predict the rewards ahead for multiple time steps. We approach this using a latent dynamics model with both deterministic and stochastic transition components. Moreover, we propose a multi-step variational inference objective that we name latent overshooting. Using only pixel observations, our agent solves continuous control tasks with contact dynamics, partial observability, and sparse rewards, which exceed the difficulty of tasks that were previously solved by planning with learned models. PlaNet uses substantially fewer episodes and reaches final performance close to and sometimes higher than strong model-free algorithms.
translated by 谷歌翻译
在这项工作中,我们提出并评估了一种新的增强学习方法,紧凑体验重放(编者),它使用基于相似转换集的复发的预测目标值的时间差异学习,以及基于两个转换的经验重放的新方法记忆。我们的目标是减少在长期累计累计奖励的经纪人培训所需的经验。它与强化学习的相关性与少量观察结果有关,即它需要实现类似于文献中的相关方法获得的结果,这通常需要数百万视频框架来培训ATARI 2600游戏。我们举报了在八个挑战街机学习环境(ALE)挑战游戏中,为仅10万帧的培训试验和大约25,000次迭代的培训试验中报告了培训试验。我们还在与基线的同一游戏中具有相同的实验协议的DQN代理呈现结果。为了验证从较少数量的观察结果近似于良好的政策,我们还将其结果与从啤酒的基准上呈现的数百万帧中获得的结果进行比较。
translated by 谷歌翻译
本文展示了单个机制如何通过直接从代理的原始传感器流流层构建层。这种机制,一般值函数(GVF)或“预测”,捕获高级,抽象知识,作为一组关于现有特征和知识的一组预测,其专门基于代理的低级感官和动作。因此,预测提供了将原始传感器数据组织成有用的抽象的表示 - 通过无限数量的层 - AI和认知科学的长寻求目标。本文的核心是一个详细的思想实验,提供了一个具体,逐步的正式说明,逐步的人工代理商如何从其原始的传感器体验中构建真实,有用的抽象知识。知识表示为关于代理人的观察到其行为后果的一组分层预测(预测)。该图示出了十二个独立的图层:最低的原始像素,触摸和力传感器以及少量动作;较高层次增加抽象,最终导致了对代理商世界的丰富知识,对应于门口,墙壁,房间和平面图。然后,我认为这种一般机制可以允许表示广泛的日常人类知识。
translated by 谷歌翻译
Synaptic plasticity allows cortical circuits to learn new tasks and to adapt to changing environments. How do cortical circuits use plasticity to acquire functions such as decision-making or working memory? Neurons are connected in complex ways, forming recurrent neural networks, and learning modifies the strength of their connections. Moreover, neurons communicate emitting brief discrete electric signals. Here we describe how to train recurrent neural networks in tasks like those used to train animals in neuroscience laboratories, and how computations emerge in the trained networks. Surprisingly, artificial networks and real brains can use similar computational strategies.
translated by 谷歌翻译
This paper surveys the eld of reinforcement learning from a computer-science perspective. It is written to be accessible to researchers familiar with machine learning. Both the historical basis of the eld and a broad selection of current work are summarized. Reinforcement learning is the problem faced by an agent that learns behavior through trial-and-error interactions with a dynamic environment. The work described here has a resemblance to work in psychology, but di ers considerably in the details and in the use of the word \reinforcement." The paper discusses central issues of reinforcement learning, including trading o exploration and exploitation, establishing the foundations of the eld via Markov decision theory, learning from delayed reinforcement, constructing empirical models to accelerate learning, making use of generalization and hierarchy, and coping with hidden state. It concludes with a survey of some implemented systems and an assessment of the practical utility of current methods for reinforcement learning.
translated by 谷歌翻译
在许多顺序任务中,模型需要记住遥远过去的相关事件,以做出正确的预测。不幸的是,基于梯度的训练的直接应用需要为序列的每个元素存储中间计算。如果一个序列由数千甚至数百万个元素组成,则需要过大的计算记忆,因此,学习非常长期的依赖性不可行。但是,通常只能考虑到时间上的局部信息来预测大多数序列元素。另一方面,仅在局部信息的情况下,受长期依赖性影响的预测稀疏,其特征是高不确定性。我们提出了一种新的培训方法,该方法允许一次学习长期依赖性,而无需一次通过整个序列进行反向传播梯度。该方法可以潜在地应用于任何基于梯度的序列学习。复发体系结构的磁化实现更好或与基线相媲美,同时需要大大减少计算内存。
translated by 谷歌翻译
强化学习(RL)是人工智能中的核心问题。这个问题包括定义可以通过与环境交互学习最佳行为的人工代理 - 其中,在代理试图最大化的奖励信号的奖励信号中定义最佳行为。奖励机(RMS)提供了一种基于Automate的基于自动机的表示,该奖励功能使RL代理能够将RL问题分解为可以通过禁止策略学习有效地学习的结构化子问题。在这里,我们表明可以从经验中学习RMS,而不是由用户指定,并且可以使用所产生的问题分解来有效地解决部分可观察的RL问题。我们将学习RMS的任务作为离散优化问题构成,其中目标是找到将问题分解为一组子问题的RM,使得其最佳记忆策略的组合是原始问题的最佳策略。我们展示了这种方法在三个部分可观察的域中的有效性,在那里它显着优于A3C,PPO和宏碁,并讨论其优点,限制和更广泛的潜力。
translated by 谷歌翻译
在人类中,感知意识促进了来自感官输入的快速识别和提取信息。这种意识在很大程度上取决于人类代理人如何与环境相互作用。在这项工作中,我们提出了主动神经生成编码,用于学习动作驱动的生成模型的计算框架,而不会在动态环境中反正出错误(Backprop)。具体而言,我们开发了一种智能代理,即使具有稀疏奖励,也可以从规划的认知理论中汲取灵感。我们展示了我们框架与深度Q学习竞争力的几个简单的控制问题。我们的代理的强劲表现提供了有希望的证据,即神经推断和学习的无背方法可以推动目标定向行为。
translated by 谷歌翻译
我们为大脑和行为提供了一般的理论框架,这些框架是进化的和计算方式。我们抽象模型中的大脑是一个节点和边缘网络。虽然它与标准神经网络模型有一些相似之处,但随着我们所示,存在一些显着差异。我们网络中的节点和边缘都具有权重和激活级别。它们充当使用一组相对简单的规则来确定激活级别和权重的概率传感器,以通过输入,生成输出,并相互影响。我们表明这些简单的规则能够实现允许网络代表越来越复杂的知识的学习过程,并同时充当促进规划,决策和行为执行的计算设备。通过指定网络的先天(遗传)组件,我们展示了进化如何以初始的自适应规则和目标赋予网络,然后通过学习来丰富。我们展示了网络的开发结构(这决定了大脑可以做些什么以及如何良好)受影响数据输入分布的机制和确定学习参数的机制之间的共同进化协调的批判性影响(在程序中使用按节点和边缘运行)。最后,我们考虑了模型如何占了学习领域的各种调查结果,如何解决思想和行为的一些挑战性问题,例如与设定目标和自我控制相关的问题,以及它如何帮助理解一些认知障碍。
translated by 谷歌翻译
鉴于在特殊命令输入中编码的目标,目标条件的强化学习(RL)旨在学习最佳政策。在这里,我们研究了目标条件的神经网(NNS),这些神经网已经学会以特定于上下文特定的重量矩阵形式生成深度NN策略,类似于1990年代的快速体重程序员和其他方法。使用表单的上下文命令“生成实现预期回报的策略”,我们的NN生成器将对参数空间的强大探索与跨命令的概括相结合,以迭代地找到越来越更好的策略。体重共享的超级核武器和策略嵌入形式缩放了我们生成深度NN的方法。实验表明,单个学识渊博的政策生成器如何制定在培训过程中获得任何回报的政策。最后,我们在表现出竞争性能的一系列连续控制任务上评估了算法。我们的代码是公开的。
translated by 谷歌翻译