在双替代强制选择任务中,先验知识可以提高性能,特别是在靠近心理物理阈值的操作时。例如,如果主题知道一个选择比另一个更有可能更有可能,则可以在证据疲软时使其选择。这些任务的常见假设是先前储存在神经活动中。在这里,我们提出了一个不同的假设:之前的储存在突触强度中。我们研究国际脑实验室任务,其中光栅出现在屏幕的右侧或左侧,鼠标必须移动一个轮子将光栅带到中心。相反,光栅通常是低的,这使得任务相对困难,并且光栅出现在右侧的现有概率是80%或20%,其(无罪)的约50试验块。我们将其模拟作为增强学习任务,使用前馈神经网络将状态映射到动作,并调整网络的权重以最大化奖励,通过策略梯度学习。我们的模型使用内部状态来存储对光栅和信心的估计,并遵循贝叶斯更新,并且可以在接合和脱离状态之间切换以模仿动物行为。该模型再现主要实验发现 - 在大约10个试验中,块开关后的对比度变化的心理曲线。此外,如在实验中所见,在我们的模型中,右侧块和左块中的神经元活动的差异很小 - 如果噪声约为2%,几乎不可能将块结构从单一试验中的活动中解码。难以测试的假设难以测试,但该技术应该在不遥远的未来中提供。
translated by 谷歌翻译
动物行为是由与不同控制策略并行工作的多个大脑区域驱动的。我们提出了基础神经节中损失钢筋学习的生物学上合理的模型,该模型可以在这种建筑中学习。该模型说明了与动作相关的多巴胺活动调制,该调制不是由实现政策算法的以前模型捕获的。特别是,该模型预测,多巴胺活动标志着奖励预测误差(如经典模型)和“动作惊喜”的组合,这是对动作相对于基础神经节的当前政策的意外程度的衡量标准。在存在动作惊喜项的情况下,该模型实现了Q学习的近似形式。在基准导航和达到任务上,我们从经验上表明,该模型能够完全或部分由其他策略(例如其他大脑区域)学习。相比之下,没有动作惊喜术语的模型在存在其他政策的情况下遭受了损失,并且根本无法从完全由外部驱动的行为中学习。该模型为多巴胺活性提供了许多实验发现,提供了一个计算说明,这是基础神经节中的经典增强模型无法解释的。这些包括背侧和腹侧纹状体中不同水平的动作惊喜信号,通过实践减少了运动调节的多巴胺活性的量以及多巴胺活性的动作起始和运动学的表示。它还提供了进一步的预测,可以通过纹状体多巴胺活性的记录进行测试。
translated by 谷歌翻译
Synaptic plasticity allows cortical circuits to learn new tasks and to adapt to changing environments. How do cortical circuits use plasticity to acquire functions such as decision-making or working memory? Neurons are connected in complex ways, forming recurrent neural networks, and learning modifies the strength of their connections. Moreover, neurons communicate emitting brief discrete electric signals. Here we describe how to train recurrent neural networks in tasks like those used to train animals in neuroscience laboratories, and how computations emerge in the trained networks. Surprisingly, artificial networks and real brains can use similar computational strategies.
translated by 谷歌翻译
强化学习(RL)和脑电脑接口(BCI)是过去十年一直在增长的两个领域。直到最近,这些字段彼此独立操作。随着对循环(HITL)应用的兴趣升高,RL算法已经适用于人类指导,从而产生互动强化学习(IRL)的子领域。相邻的,BCI应用一直很感兴趣在人机交互期间从神经活动中提取内在反馈。这两个想法通过将BCI集成到IRL框架中,将RL和BCI设置在碰撞过程中,通过将内在反馈可用于帮助培训代理商来帮助框架。这种交叉点被称为内在的IRL。为了进一步帮助,促进BCI和IRL的更深层次,我们对内在IRILL的审查有着重点在于其母体领域的反馈驱动的IRL,同时还提供有关有效性,挑战和未来研究方向的讨论。
translated by 谷歌翻译
作为一个重要的心理和社会实验,迭代的囚犯困境(IPD)将合作或缺陷作为原子行动视为选择。我们建议研究迭代的囚犯困境(IPD)游戏中在线学习算法的行为,在那里我们研究了整个强化学习剂:多臂匪徒,上下文的强盗和钢筋学习。我们根据迭代囚犯的困境的比赛进行评估,其中多个特工可以以顺序竞争。这使我们能够分析由多个自私的独立奖励驱动的代理所学到的政策的动态,还使我们研究了这些算法适合人类行为的能力。结果表明,考虑当前的情况做出决定是这种社会困境游戏中最糟糕的情况。陈述了有关在线学习行为和临床验证的倍数,以此作为将人工智能算法与人类行为及其在神经精神病疾病中的异常状态联系起来的努力。
translated by 谷歌翻译
在人类中,感知意识促进了来自感官输入的快速识别和提取信息。这种意识在很大程度上取决于人类代理人如何与环境相互作用。在这项工作中,我们提出了主动神经生成编码,用于学习动作驱动的生成模型的计算框架,而不会在动态环境中反正出错误(Backprop)。具体而言,我们开发了一种智能代理,即使具有稀疏奖励,也可以从规划的认知理论中汲取灵感。我们展示了我们框架与深度Q学习竞争力的几个简单的控制问题。我们的代理的强劲表现提供了有希望的证据,即神经推断和学习的无背方法可以推动目标定向行为。
translated by 谷歌翻译
尽管对生物学上合理的学习规则进行了广泛的理论工作,但很难获得有关大脑中是否以及如何实施此类规则的明确证据。我们考虑在生物学上合理的监督和加强学习规则,并询问学习过程中网络活动的变化是否可以用于确定正在使用哪种学习规则。有监督的学习需要一个信用分配模型来估计从神经活动到行为的映射,并且在生物生物体中,该模型将不可避免地是理想映射的不完善的近似,从而导致相对于重量更新的偏见真正的梯度。另一方面,强化学习不需要信用分配模型,并且倾向于按照真正的梯度方向进行体重更新。我们得出一个指标,通过观察学习过程中网络活动的变化来区分学习规则,鉴于实验者已经知道了从大脑到行为的映射。由于脑机界面(BMI)实验允许对该映射进行完美了解,因此我们专注于使用复发性神经网络对光标控制BMI任务进行建模,这表明可以在模拟实验中使用神经科学实验者将在模拟实验中进行区分,以区分学习规则。合理地可以访问。
translated by 谷歌翻译
在本文中,我们通过神经生成编码的神经认知计算框架(NGC)提出了一种无反向传播的方法,以机器人控制(NGC),设计了一种完全由强大的预测性编码/处理电路构建的代理,体现计划的原则。具体而言,我们制作了一种自适应剂系统,我们称之为主动预测性编码(ACTPC),该系统可以平衡内部生成的认知信号(旨在鼓励智能探索)与内部生成的仪器信号(旨在鼓励寻求目标行为)最终学习如何使用现实的机器人模拟器(即超现实的机器人套件)来控制各种模拟机器人系统以及复杂的机器人臂,以解决块提升任务并可能选择问题。值得注意的是,我们的实验结果表明,我们提出的ACTPC代理在面对稀疏(外部)奖励信号方面表现良好,并且具有竞争力或竞争性或胜过几种强大的基于反向Prop的RL方法。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
设计加固学习(RL)代理通常是一个艰难的过程,需要大量的设计迭代。由于多种原因,学习可能会失败,并且标准RL方法提供的工具太少,无法洞悉确切原因。在本文中,我们展示了如何将价值分解整合到一类广泛的参与者批评算法中,并使用它来协助迭代代理设计过程。价值分解将奖励函数分为不同的组件,并学习每个组件的价值估计值。这些价值估计提供了对代理商的学习和决策过程的见解,并使新的培训方法可以减轻常见问题。作为演示,我们介绍了SAC-D,这是一种适合价值分解的软角色批评(SAC)的变体。 SAC-D保持与SAC相似的性能,同时学习一组更大的价值预测。我们还介绍了基于分解的工具来利用此信息,包括新的奖励影响指标,该指标衡量了每个奖励组件对代理决策的影响。使用这些工具,我们提供了分解用于识别和解决环境和代理设计问题的几种证明。价值分解广泛适用,易于将其纳入现有算法和工作流程中,使其成为RL从业人员的工具箱中的强大工具。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
跟踪湍流羽流以定位其源是一个复杂的控制问题,因为它需要多感觉集成,并且必须强大地间歇性气味,更改风向和可变羽流统计。这项任务是通过飞行昆虫进行常规进行的,通常是长途跋涉,以追求食物或配偶。在许多实验研究中已经详细研究了这种显着行为的几个方面。在这里,我们采用硅化方法互补,采用培训,利用加强学习培训,开发对支持羽流跟踪的行为和神经计算的综合了解。具体而言,我们使用深增强学习(DRL)来训练经常性神经网络(RNN)代理以定位模拟湍流羽毛的来源。有趣的是,代理人的紧急行为类似于飞行昆虫,而RNNS学会代表任务相关变量,例如自上次气味遭遇以来的头部方向和时间。我们的分析表明了一种有趣的实验可测试的假设,用于跟踪风向改变的羽毛 - 该试剂遵循局部羽状形状而不是电流风向。虽然反射短记忆行为足以跟踪恒定风中的羽毛,但更长的记忆时间表对于跟踪切换方向的羽毛是必不可少的。在神经动力学的水平下,RNNS的人口活动是低维度的,并且组织成不同的动态结构,与行为模块一些对应。我们的Silico方法提供了湍流羽流跟踪策略的关键直觉,并激励未来的目标实验和理论发展。
translated by 谷歌翻译
We present temporally layered architecture (TLA), a biologically inspired system for temporally adaptive distributed control. TLA layers a fast and a slow controller together to achieve temporal abstraction that allows each layer to focus on a different time-scale. Our design is biologically inspired and draws on the architecture of the human brain which executes actions at different timescales depending on the environment's demands. Such distributed control design is widespread across biological systems because it increases survivability and accuracy in certain and uncertain environments. We demonstrate that TLA can provide many advantages over existing approaches, including persistent exploration, adaptive control, explainable temporal behavior, compute efficiency and distributed control. We present two different algorithms for training TLA: (a) Closed-loop control, where the fast controller is trained over a pre-trained slow controller, allowing better exploration for the fast controller and closed-loop control where the fast controller decides whether to "act-or-not" at each timestep; and (b) Partially open loop control, where the slow controller is trained over a pre-trained fast controller, allowing for open loop-control where the slow controller picks a temporally extended action or defers the next n-actions to the fast controller. We evaluated our method on a suite of continuous control tasks and demonstrate the advantages of TLA over several strong baselines.
translated by 谷歌翻译
人类有时选择他们自己可以识别为次优或错误的行动,即使在没有其他信息的情况下也是如此。这怎么可能?我们基于基于价值的RL和基于策略的RL之间的强化学习(RL)的良好折衷折衷的折衷算法的元认知理论。对于认知(Neuro)科学社区,我们的理论回答了为什么信息可以用于错误检测但不适合动作选择的突出问题。对于机器学习界,我们的拟议理论在演员批评者中的演员和评论家之间创造了一种新的互动,并注意到RL和贝叶斯优化之间的新建立。我们称我们提出的代理人元认知演员评论家(Mac)。我们结束了通过实现深层MAC来显示如何在机器中创建元记号,并显示它可以检测到其自己的次优操作而没有外部信息或延迟。
translated by 谷歌翻译
在本文中,我们为Pavlovian信号传达的多方面的研究 - 一个过程中学到的一个过程,一个代理商通过另一个代理商通知决策的时间扩展预测。信令紧密连接到时间和时间。在生成和接收信号的服务中,已知人类和其他动物代表时间,确定自过去事件以来的时间,预测到未来刺激的时间,并且都识别和生成展开时间的模式。我们调查通过引入部分可观察到的决策域来对学习代理之间的影响和信令在我们称之为霜冻空心的情况下如何影响学习代理之间的影响和信令。在该域中,预测学习代理和加强学习代理被耦合到两部分决策系统,该系统可以在避免时间条件危险时获取稀疏奖励。我们评估了两个域变型:机器代理在七态线性步行中交互,以及虚拟现实环境中的人机交互。我们的结果展示了帕夫洛维亚信号传导的学习速度,对药剂 - 代理协调具有不同时间表示(并且不)的影响,以及颞次锯齿对药剂和人毒剂相互作用的影响方式不同。作为主要贡献,我们将Pavlovian信号传导为固定信号范例与两个代理之间完全自适应通信学习之间的天然桥梁。我们进一步展示了如何从固定的信令过程计算地构建该自适应信令处理,其特征在于,通过快速的连续预测学习和对接收信号的性质的最小限制。因此,我们的结果表明了加固学习代理之间的沟通学习的可行建设者的途径。
translated by 谷歌翻译
机器学习和特别是强化学习(RL)在帮助我们了解神经决策过程方面非常成功。但是,RL在理解其他神经过程中的作用,尤其是运动学习的探索程度要少得多。为了探索这种联系,我们研究了最近的深度RL方法与基于错误的学习神经科学中的主要运动学习框架相对应。可以使用镜面反转适应范式探测基于错误的学习,在该范式中,它产生了独特的定性预测,这些预测在人类中观察到。因此,我们在镜面逆向上测试了现代深度RL算法的三个主要家庭。令人惊讶的是,所有算法都无法模仿人类的行为,并且确实表现出与基于错误的学习预测的行为。为了填补这一空白,我们引入了一种新颖的深度RL算法:基于模型的确定性策略梯度(MB-DPG)。 MB-DPG通过明确依靠观察到的动作结果来从基于错误的学习中汲取灵感。我们在镜像和旋转扰动下显示MB-DPG捕获(人)基于错误的学习。接下来,我们以MB-DPG的形式展示了基于错误的学习,比基于复杂的ARM的到达任务的规范无模型算法更快,同时比基于模型的RL更适合(正向)模型错误。这些发现突出了当前的深度RL方法与人类电动机适应之间的差距,并提供了缩小这一差距的途径,从而促进了两个领域之间未来的有益相互作用。
translated by 谷歌翻译
我向已知的数学问题提出了一个深入的加强学习(RL)解决方案,称为新闻温丹主模型,这旨在考虑到概率的需求分布。为了反映更现实和复杂的情况,需求分布可以改变本周不同的日子,从而改变了最佳行为。我使用了一个双延迟的深度确定性政策梯度代理(写为完全原始代码)与演员和批评网络来解决这个问题。该代理能够学习与问题的分析解决方案一致的最佳行为,并且可以识别本周不同日期的单独概率分布并相应地行事。
translated by 谷歌翻译