在观察他人的行为时,人类会对其他人为何如此行事进行推断,以及这对他们对世界的看法意味着什么。人类还使用这样一个事实,即当他人观察时,他们的行为将以这种方式进行解释,从而使他们能够提供信息,从而与他人进行有效沟通。尽管学习算法最近在许多双人游戏,零和游戏中实现了超人的表现,但可扩展的多智能体强化学习算法在复杂的,部分可观察的环境中可以发挥作用的策略和惯例已被证明是难以捉摸的。我们提出了贝叶斯动作解码器(BAD),这是一种新的多智能体学习方法,它使用近似贝叶斯更新来获得公众对环境中所有代理所采取的行动的条件的信念。与公众的信念一起,这种贝叶斯更新有效地定义了一种新的马尔可夫决策过程,即公众信念MDP,其中行动空间由确定性的部分政策组成,由深层网络参数化,可以针对给定的公共状态进行抽样。它利用了这样的事实:如果动作空间被扩充到将私有信息映射到环境动作的部分策略,那么仅作用于该公共信念状态的代理仍然可以学习其私人信息。贝叶斯更新也与人类在观察他人行为时进行的心理推理理论密切相关。我们首先在基于原理的两步矩阵游戏中验证BAD,其中它优于传统的政策梯度方法。然后,我们在具有挑战性的合作部分信息卡游戏Hanabi上评估BAD,其中双人游戏设置方法超越了之前发布的所有学习和手动编码方法。
translated by 谷歌翻译
通过强化学习(RL)在人工智能方面的最新进展已经在日益复杂的单一代理环境和双人回合制游戏中取得了巨大成功。然而,真实世界包含多个代理,每个代理都独立学习和行动以与其他代理进行合作和竞争,反映这种复杂程度的环境仍然是一个难题。在这项工作中,我们首次演示了一个代理可以在一个流行的3D多人第一人称视频游戏Quake III Arena夺旗中实现人类级别,仅使用像素和游戏点作为输入。这些结果是通过一个新颖的两层优化过程,其中独立RL代理的人口从数千个并行匹配中同时训练,其中代理一起玩并且在随机生成的环境中彼此相对。群体中的每个代理人学习其自己的内部奖励信号以补充来自获胜的稀疏延迟奖励,并且使用新颖的时间分层表示来选择动作,该代表可以使代理在多个时间尺度下进行推理。在游戏过程中,这些代理人基于丰富的学习表示来显示类似人的行为,例如导航,跟随和保护,该学习表示被示出为编码高级游戏知识。在广泛的锦标赛风格评估中,训练有素的球员超过了作为队友和对手的强大的人类球员的胜利率,并且证明远比现有的最先进的特工更强。这些结果表明人工智能的能力显着提升,让我们更接近人类智慧的目标。
translated by 谷歌翻译
人类群体通常能够找到相互合作的方式,不合时宜的,暂时延长的社会困境。基于行为经济学的模型只能解释这种不现实的无状态矩阵游戏的现象。最近,多智能体强化学习被应用于普遍化社会困境问题,以暂时和空间扩展马尔科夫格。然而,这还没有产生一种能够像人类一样学会合作社会困境的代理人。一个关键的洞察力是,许多(但不是全部)人类个体具有不公平的厌恶社会偏好。这促进了矩阵游戏社会困境的特定解决方案,其中不公平 - 反对个人亲自亲社会并惩罚叛逃者。在这里,我们将这一内容扩展到马尔可夫游戏,并表明它通过与政策性能的有利互动促进了几种类型的顺序社会困境中的合作。特别是,我们发现不公平厌恶改善了跨期社会困境的重要类别的时间信用分配。这些结果有助于解释大规模合作可能如何产生和持续存在。
translated by 谷歌翻译
在这项工作中,我们的目标是使用具有一组参数的单一执行学习代理来解决大量任务。一个关键的挑战是处理增加的数据量和延长的培训时间。我们开发了一种新的分布式代理IMPALA(重要性加权演员-LearnerArchitecture),它不仅可以在单机训练中更有效地使用资源,而且可以扩展到数千台机器而不会牺牲数据效率或资源利用率。我们通过将解耦的行为和学习与称为V-trace的新型非政策校正方法相结合,实现了在高吞吐量下的稳定学习。我们展示了IMPALA在DMLab-30(来自DeepMind Lab环境(Beattie等,2016))和Atari-57(在Arcade学习环境中所有可用的Atari游戏(Bellemare等人)中的30个任务的多任务强化学习的有效性。 。,2013a))。我们的结果表明,IMPALA能够比数据量较少的前一代产品获得更好的性能,并且由于其多任务方法,关键性地表现出任务之间的正向转移。
translated by 谷歌翻译
本研究笔记结合了最近改进语言建模技术的两种方法:变形金刚和动态评估。变换器使用堆叠的自我关注层,允许它们捕获顺序数据中的长距离依赖性。动态评估使模型适合最近的序列历史,允许它们将更高的概率分配给重现的序列模式。通过对TRANSnsformer-XL模型应用动态评估,我们将enwik8的现有技术从0.99改为0.94比特/ char,text8从1.08改进到1.04比特/ char,WikiText-103从18.3改为16.4困难点。
translated by 谷歌翻译
现代深度神经网络模型遭受对抗性的例子,即在输入空间中有信心地错误分类的点。已经表明,贝叶斯神经网络是一种用于检测对抗点的有前途的方法,但由于这些模型的复杂性,仔细分析是有问题的。最近吉尔默等人。 (2018)引入了对抗性球体,这种玩具设置简化了问题的实际和理论分析。在这项工作中,我们使用对抗性球体设置来理解无噪声设置中线性模型的近似贝叶斯推理方法的性质。我们比较了贝叶斯方法和非贝叶斯方法的预测,展示了前者的优势,虽然揭示了深度学习应用的开放性挑战。
translated by 谷歌翻译
无可能性推论是指当可能性函数无法被明确评估时的推断,这通常是基于模拟器的模型的情况。大多数文献都是基于基于样本的“近似贝叶斯计算”方法,但最近的研究表明,基于深度神经条件密度估计的方法可以用较少的模拟获得最先进的结果。神经方法的不同之处在于他们如何选择运行的模拟和他们学到的东西:近似的后验或尽职的可能性。这项工作提供了这些选择之间的一些直接对照比较。
translated by 谷歌翻译
规范化方法是深度学习工具箱中的核心构建块。它们加速并稳定了培训,同时降低了对手动调整学习率计划的依赖性。当从多模态分布中学习时,批量归一化(BN)的有效性,可以说是最突出的归一化方法,被减少了。作为一种补救措施,我们提出了一种更灵活的方法:通过将归一化扩展到超过单一均值和方差,我们可以即时检测数据模式,联合归一化具有共同特征的样本。我们证明了我们的方法在severalexperiments中执行BN和其他广泛使用的规范化技术,包括单任务和多任务数据集。
translated by 谷歌翻译
我们提出了一种用于标记非结构化文本的模型,该模型具有从树形结构词汇表(即,本体论)中抽取的任意数量的项。我们将此视为序列到序列学习的一种特殊情况,其中解码器在本体树的根节点处开始并递归地选择扩展子节点作为输入文本,当前节点和潜在解码器状态的函数。在我们的实验中,所提出的方法在自动将MeSH术语分配给生物医学摘要的重要任务上优于最先进的方法。
translated by 谷歌翻译
组织越来越接受审查,并且需要能够证明它们以公平和道德的方式运作。问责制应扩展到人工智能系统中使用的数据和知识资产的生产和使用,以及用于生产实物商品的任何原材料或工艺。本文考虑集体智慧,包括由众包劳动力生成的数据和知识,可以用作AI系统的核心组件。提出了一项供应链模型的建议,该模型旨在创建和使用众包集体情报资产,并将基于区块链的分散式架构确定为提供验证,问责和公平的适当方法。
translated by 谷歌翻译