深度学习建立在梯度下降与目标函数收敛于局部最小值的基础上。不幸的是,这种保证在诸如生成对抗网之类的设置中失败,这些设置表现出多种相互作用的损失。基于梯度的方法在游戏中的行为并未被理解 - 并且随着对抗性和多目标体系结构的激增而变得越来越重要。在本文中,我们开发了新的工具来理解和控制n玩家可区分游戏的动态。关键的结果是将雅可比游戏分解为两个组成部分。第一个对称分量与潜在的游戏有关,这些游戏在隐式函数上减少了梯度下降。第二个反对称组件涉及哈密尔顿游戏,这是一类新的游戏,遵循经典机械系统中的守恒定律。分解激发了辛差梯度调整(SGA),这是一种在可微分游戏中寻找稳定不动点的新算法。基本实验表明,SGA与最近提出的用于在GAN中找到稳定的固定点的算法具有竞争性 - 同时适用于并且具有更多一般情况的保证。
translated by 谷歌翻译
在观察他人的行为时,人类会对其他人为何如此行事进行推断,以及这对他们对世界的看法意味着什么。人类还使用这样一个事实,即当他人观察时,他们的行为将以这种方式进行解释,从而使他们能够提供信息,从而与他人进行有效沟通。尽管学习算法最近在许多双人游戏,零和游戏中实现了超人的表现,但可扩展的多智能体强化学习算法在复杂的,部分可观察的环境中可以发挥作用的策略和惯例已被证明是难以捉摸的。我们提出了贝叶斯动作解码器(BAD),这是一种新的多智能体学习方法,它使用近似贝叶斯更新来获得公众对环境中所有代理所采取的行动的条件的信念。与公众的信念一起,这种贝叶斯更新有效地定义了一种新的马尔可夫决策过程,即公众信念MDP,其中行动空间由确定性的部分政策组成,由深层网络参数化,可以针对给定的公共状态进行抽样。它利用了这样的事实:如果动作空间被扩充到将私有信息映射到环境动作的部分策略,那么仅作用于该公共信念状态的代理仍然可以学习其私人信息。贝叶斯更新也与人类在观察他人行为时进行的心理推理理论密切相关。我们首先在基于原理的两步矩阵游戏中验证BAD,其中它优于传统的政策梯度方法。然后,我们在具有挑战性的合作部分信息卡游戏Hanabi上评估BAD,其中双人游戏设置方法超越了之前发布的所有学习和手动编码方法。
translated by 谷歌翻译
在多智能体强化学习中,只有当代理可以访问全局状态或即时通信信道时,才能执行集中策略。绕过这种限制的另一种方法是使用一系列分散政策的集中培训。但是,这些政策严重限制了代理商的协调能力。我们提出了多智能体常识知识强化学习(MACKRL),它在这两个极端之间起了作用。我们的方法基于这样的洞察力,即使在部分可观察的设置中,代理的子集通常具有一些他们可以利用来协调其行为的常识。例如,如果所有代理能够可靠地观察他们在其视野中的事物并且知道其他代理的视野,则可以产生共同知识。使用此附加信息,可以找到一种集中策略,该策略仅限于代理的常识,并且可以以集中方式执行。然后由此产生的挑战是确定哪些层面应该协调。虽然所有代理人共享的共同知识可能不包含很多有价值的信息,但可能存在共享知识的代理人子群,这些知识对协调有用。 MACKRL使用分层方法解决这一挑战:在每个级别,控制器可以为给定子组中的代理选择联合动作,或者建议将代理分成更小的子组,然后由下一级的控制器选择其动作。虽然行动选择涉及分层抽样,但学习更新是基于联合行动的概率,通过边缘化可能的层次决策来计算。我们在概念验证矩阵游戏和星际争霸II微管理的多智能体版本中展示了有希望的结果。
translated by 谷歌翻译
分数函数估计器广泛用于估计随机计算图(SCG)中的随机目标的梯度,例如,在强化学习和元学习中。虽然通过区分替代损失(SL)目标来推导一阶梯度估计在计算和概念上是简单的,但对于更高阶导数使用相同的方法更具挑战性。首先,分析地推导和实现这样的估计器是费力的并且不符合自动分化。其次,反复应用SL为每个阶导数构建新的目标涉及越来越繁琐的图形操作。最后,为了匹配差分下的一阶梯度,SL将成本的一部分视为固定样本,我们显示导致估计的缺失和错误的术语高阶导数。为了统一解决所有这些缺点,我们引入了DiCE,它提供了一个可以重复区分的单个目标,在SCG中生成任意阶导数的正确估计。与SL不同,DiCE依靠自动差异来执行必要的图形操作。我们通过对DiCE衍生物估计的证明和数值评估来验证DiCEboth的正确性。我们还使用DiCE来提出和评估一种新的多代理学习方法。我们的代码可在https://www.github.com/alshedivat/lola上找到。
translated by 谷歌翻译
多智能体设置在机器学习中迅速占据重要地位。这包括近期关于深度多智能体强化学习的大量工作,但也可以扩展到分层RL,生成性对抗网络和分散优化。在所有这些设置中,多个学习代理的存在使得训练问题不稳定并且经常导致不稳定的训练或不期望的最终结果。我们提出了学习与对象 - 学习意识(LOLA),这是一种方法,其中每个代理形成对环境中其他代理的预期学习。 LOLA学习规则包括一个术语,用于说明一个代理的策略对其他代理的预期参数更新的影响。结果表明,两名LOLA因子的出现导致了针锋相对的出现,因此在重复的囚犯困境中出现了合作,而独立学习并没有。在这个领域,与天真的学习者相比,LOLA也获得更高的奖金,并且对于基于更高阶梯度的方法的利用具有很强的抵抗力。应用于重复匹配的便士,LOLA代理收敛于纳什均衡。在循环赛中,我们展示了LOLAagents成功地从文献中学习了一系列多智能体学习算法,从而在IPD上获得了最高的平均回报。我们还表明,可以使用策略梯度估计器的扩展来有效地计算LOLA更新规则,使得该方法适合无形式RL。因此,该方法扩展到大参数和输入空间以及非线性函数逼近器。我们使用循环策略和对手建模将LOLA应用于具有嵌入式社会困境的网格世界任务。通过明确考虑其他代理人的学习情况,LOLA代理人会出于自身利益而学习操作。代码在github.com/alshedivat/lola。
translated by 谷歌翻译
近年来,开发智能虚拟角色引起了很多关注。创建此类角色的过程通常涉及一组创作作者,他们描述自然语言中角色的不同方面,以及规划专家将此描述转换为计划域。这可能非常具有挑战性,因为创作作者团队应该刻意定义角色的每个方面,特别是如果它包含复杂的类似人类的行为。此外,工程师团队必须手动将角色个性的自然语言描述转换为规划领域知识。这可能是非常耗费时间和资源的,并且可能会妨碍作者的创造力。本文的目的是介绍一种创作辅助工具,通过虚拟角色的自然语言描述自动生成域生成过程,从而在创造性创作团队和规划领域专家之间进行桥接。此外,建议的工具还识别域描述中可能缺少的信息,并且向作者提出建议。
translated by 谷歌翻译
对顺序音乐跳过建模使得流媒体公司能够更好地理解用户群的需求,从而通过减少手动跳过某些音乐曲目的需要而导致更好的使用体验。本文描述了哥本哈根大学DIKU-IR团队在“Spotify顺序跳过预测挑战”中的解决方案,其中任务是在上半场的音乐聆听会话中预测后半部分的跳过行为。我们使用由两个不同的堆叠递归神经网络组成的多RNN方法来模拟该任务,其中一个网络聚焦于对会话的前半部分进行编码,而另一个网络聚焦利用编码来进行连续跳跃预测。编码器网络由学习的会话范围的音乐编码初始化,并且它们都利用学习的轨道嵌入。我们的最终模型由经过单独训练的模型的多数投票组成,在竞赛中参与的45个参赛队中排名第2,平均准确度为0.641,第一次跳过预测的准确度为0.807。我们的代码发布于:http://github.com/Varyn/WSDM-challenge-2019-spotify。
translated by 谷歌翻译
自动事实检查系统通过以下方式检测错误信息,例如假新闻,(i)选择用于事实检查的检查有价值的句子,(ii)收集对句子的相关信息,以及(iii)推断这些句子的真实性。大多数先前的研究(i)使用手工制作的特征来选择有价值的句子,并没有明确地说明最近的发现,即检查有价值和非检查有价值的句子中的最高加权项实际上是重叠的[15]。受此启发,我们提出了一个神经检验 - 句子排序模型,它通过\ textit {both}表示其嵌入(旨在捕获其语义)和它的句法依赖性(旨在捕获其在修改其他术语的语义中的作用)来表示句子中的每个单词。这句话)。我们的模型是一种端到端的可训练神经网络,用于检查排序,通过弱监督对大量未标记数据进行训练。根据最先进的基线进行彻底的实验评估,无论是否有弱监督,showour模型始终优越(MAP为+ 13%,各种精度截止值为+ 28%,具有统计显着性的最佳基线)。实证分析使用弱监督,字嵌入特定领域的特定数据,以及使用我们模型的句法依赖关系,检查有价值的句子比非检查有价值的句子包含更多相同的句法依赖性。
translated by 谷歌翻译
从视觉数据中学习解开的表示,其中不同的高级生成因子被独立编码,对于许多计算机视觉任务是重要的。然而,解决这个问题通常需要明确标记训练图像中所有感兴趣的因素。为了减少注释成本,我们引入了一个学习环境,我们将其视为“基于参考的解开”。给定一组未标记的图像,目标是学习一组目标因素与其他因素相关联的表示。唯一的监督来自一个辅助的“参考集”,其中包含感兴趣的因子是不变的图像。为了解决这个问题,我们提出了基于参考的变换算法,这是一种新的深度生成模型,旨在利用参考文献提供的弱监督。组。通过解决诸如特征学习,条件图像生成或属性转移等任务,我们验证了所提出的模型从这种最小形式的监督中学习解开的代表的能力。
translated by 谷歌翻译
在本文中,我们提出了两种计算理论上最大比重失配体积的方法。与现有技术不同,我们的方法不对错配体积边界上的光谱形状做出任何假设。两种方法都采用球形采样方法,但它们以两种不同的方式计算体积。第一种方法使用线性编程优化,而第二种方法是基于半空间交叉的计算几何方法。我们表明,在某些条件下,理论上最大的同层异构体失配体积明显大于使用现有技术方法近似的那个。
translated by 谷歌翻译