在本报告中,我们回顾了基于记忆的元学习作为建筑样本有效策略的工具,该策略从过去的经验中学习以适应目标类中的任何任务。我们的目标是为读者提供此工具的概念基础,以构建在陆域上运行的新的可扩展代理。为此,我们提出了基本的算法模板,用于建立最佳预测器和强化学习器,其行为就好像它们具有允许它们有效地利用任务结构的概率模型。此外,我们在贝叶斯框架内重建基于内存的元学习,显示元学习策略接近最优,因为它们分摊贝叶斯过滤数据,其中适应在内存动态中实现为具有足够统计数据的状态机。从本质上讲,基于记忆的学习 - 学习将概率序贯推理的难题转化为回归问题。
translated by 谷歌翻译
人类做出决定并与其他人一起行动,以实现短期和长期目标。由于计算科学和自动化等领域的不断进步,人类现在还与不同复杂程度的非人类进行交互,作为日常活动的一部分;正在开展大量工作,将越来越智能的机器人整合到人类工作中。玩。随着这些药剂的认知,感官和运动能力的增加,合理地认为用于人类援助的智能机器与人类共同行动 - 即,两个或更多的代理人适应他们的行为和他们对彼此的理解以及进步共同的目标或目标。人机伙伴关系中熟练联合行动的机制,条件和机会对多个社区都很有意义。尽管如此,人机联合行动尚未得到充分研究,尤其是在人类和智能机器在实时,日常生活体验过程中以持续的方式相互作用的情况下。在这项工作中,我们贡献了一个虚拟现实环境,其中人和代理人可以调整他们的预测,设计和他们的沟通,以便进行简单的觅食任务。在与单个参与者的acase研究中,我们提供了一个人 - 代理协调和决策的例子,涉及人和机器代理的预测学习,并控制机器代理部分的学习,其中音频通信信号用于提示它的人类伙伴,为获得共同的奖励服务。这些比较表明了在虚拟现实环境中研究人机协调的有效性,并确定了进一步的研究,这些研究将扩展我们对持久的人机联合行动的理解。
translated by 谷歌翻译
布雷特认为,神经编码隐喻是大脑所做事情的无效基础。在这里,我们认为这是一个不充分的指南,用于构建人工智能,学习在复杂,不断变化的环境中实现短期和长期目标。
translated by 谷歌翻译
强化学习的一个主要挑战是发现奖励分布稀疏的任务的有效政策。我们假设在没有有用的奖励信号的情况下,有效的探索策略应该找出{\ it decision states}。这些状态位于状态空间中的关键交叉点,代理可以从这些交叉点转换到新的,可能未开发的区域。我们建议从先前的经验中了解决策状态。通过训练具有信息瓶颈的目标条件,我们可以通过检查模型实际利用目标状态的位置来识别决策状态。我们发现,这种简单的机制可以有效地识别决策状态,即使在部分观察到的环境中实际上,该模型学习了与潜在子目标相关的理论线索。在新的环境中,这个模型可以识别新的子目标以进行进一步的探索,引导代理通过一系列潜在的决策状态并通过状态空间的新区域。
translated by 谷歌翻译
发现和利用环境中的因果结构对于智能代理来说是一项艰巨的挑战。在这里,我们探讨通过元强化学习是否可以出现因果反应。我们通过无模型强化学习训练一个经常性的网络来解决一系列问题,每个问题都包含因果结构。我们发现受过训练的代理人可以在新情况下进行因果推理以获得奖励。代理人可以选择信息干预,从观察数据中得出因果推论,并进行反事实预测。虽然也存在已建立的正式因果推理算法,但在本文中我们表明这种推理可以从无模型强化学习中获得,并且表明复杂环境中的因果推理可能会受益于此处提供的更多端到端的基于学习的方法。通过为代理人提供执行和解释实验的能力,这项工作还为强化学习中的结构探索提供了新的策略。
translated by 谷歌翻译
在观察他人的行为时,人类会对其他人为何如此行事进行推断,以及这对他们对世界的看法意味着什么。人类还使用这样一个事实,即当他人观察时,他们的行为将以这种方式进行解释,从而使他们能够提供信息,从而与他人进行有效沟通。尽管学习算法最近在许多双人游戏,零和游戏中实现了超人的表现,但可扩展的多智能体强化学习算法在复杂的,部分可观察的环境中可以发挥作用的策略和惯例已被证明是难以捉摸的。我们提出了贝叶斯动作解码器(BAD),这是一种新的多智能体学习方法,它使用近似贝叶斯更新来获得公众对环境中所有代理所采取的行动的条件的信念。与公众的信念一起,这种贝叶斯更新有效地定义了一种新的马尔可夫决策过程,即公众信念MDP,其中行动空间由确定性的部分政策组成,由深层网络参数化,可以针对给定的公共状态进行抽样。它利用了这样的事实:如果动作空间被扩充到将私有信息映射到环境动作的部分策略,那么仅作用于该公共信念状态的代理仍然可以学习其私人信息。贝叶斯更新也与人类在观察他人行为时进行的心理推理理论密切相关。我们首先在基于原理的两步矩阵游戏中验证BAD,其中它优于传统的政策梯度方法。然后,我们在具有挑战性的合作部分信息卡游戏Hanabi上评估BAD,其中双人游戏设置方法超越了之前发布的所有学习和手动编码方法。
translated by 谷歌翻译
多智能体系统的行为动态具有丰富有序的结构,可用于理解这些系统,并改善人工智能学习如何在其中运行。在这里,我们介绍了用于多智能体学习的关系前向模型(RFM),这些网络可以学习如何在多智能体环境中对代理的未来行为进行准确的预测。因为这些模型对环境中存在的离散实体和关系进行操作,所以它们产生可解释的中间体表达能够深入了解推动代理人行为的因素,以及调解社交互动的强度和价值的事件。此外,我们展示了代理内部的RFM模块,与非增强基线相比,可以实现更快的学习系统。随着我们开发和交互的自治系统越来越多地成为多智能体,开发利用分析工具来表征代理如何以及为何做出决策的工具越来越必要。此外,开发快速且易于学会彼此协调的人工制剂以及在共享环境中与人类协调是至关重要的。
translated by 谷歌翻译
我们介绍了一种深度强化学习(RL)的方法,通过结构化感知和关系推理提高了传统方法的效率,泛化能力和可解释性。它使用自我注意来迭代地推理场景中的关系并引导模型。 - 免费政策。我们的研究结果表明,在一个名为Box-World的新型导航和规划任务中,我们的代理人找到了可解决的解决方案,这些解决方案在样本复杂性方面提高了基线,能够推广到比在训练期间更复杂的场景,以及整体性能。在“星际争霸II”学习环境中,我们的经纪人在六款迷你游戏中实现了最先进的性能 - 超过了四位人类大师的表现。通过考虑建筑感应偏差,我们的工作为克服深度RL中的重要但顽固的挑战开辟了新的方向。
translated by 谷歌翻译
元学习代理擅长从开放式任务分配中快速学习新任务;然而,一旦下文开始,他们就会忘记他们对每项任务的了解。当任务重新出现时 - 就像在自然环境中那样 - 学习代理必须再次探索而不是立即利用以前发现的解决方案。我们提出了一种形式化,用于生成开放式但重复的环境,然后开发一种元学习架构来解决这些环境。这种架构将标准的LSTM工作记忆与可微分的神经情景记忆融合在一起。我们利用这种情节LSTM在五个学习环境中探索具有重复发生任务的代理的能力,包括强盗导航和随机序列决策问题。
translated by 谷歌翻译
We learn recurrent neural network optimizers trained on simple syntheticfunctions by gradient descent. We show that these learned optimizers exhibit aremarkable degree of transfer in that they can be used to efficiently optimizea broad range of derivative-free black-box functions, including Gaussianprocess bandits, simple control objectives, global optimization benchmarks andhyper-parameter tuning tasks. Up to the training horizon, the learnedoptimizers learn to trade-off exploration and exploitation, and comparefavourably with heavily engineered Bayesian optimization packages forhyper-parameter tuning.
translated by 谷歌翻译