在观察他人的行为时,人类会对其他人为何如此行事进行推断,以及这对他们对世界的看法意味着什么。人类还使用这样一个事实,即当他人观察时,他们的行为将以这种方式进行解释,从而使他们能够提供信息,从而与他人进行有效沟通。尽管学习算法最近在许多双人游戏,零和游戏中实现了超人的表现,但可扩展的多智能体强化学习算法在复杂的,部分可观察的环境中可以发挥作用的策略和惯例已被证明是难以捉摸的。我们提出了贝叶斯动作解码器(BAD),这是一种新的多智能体学习方法,它使用近似贝叶斯更新来获得公众对环境中所有代理所采取的行动的条件的信念。与公众的信念一起,这种贝叶斯更新有效地定义了一种新的马尔可夫决策过程,即公众信念MDP,其中行动空间由确定性的部分政策组成,由深层网络参数化,可以针对给定的公共状态进行抽样。它利用了这样的事实:如果动作空间被扩充到将私有信息映射到环境动作的部分策略,那么仅作用于该公共信念状态的代理仍然可以学习其私人信息。贝叶斯更新也与人类在观察他人行为时进行的心理推理理论密切相关。我们首先在基于原理的两步矩阵游戏中验证BAD,其中它优于传统的政策梯度方法。然后,我们在具有挑战性的合作部分信息卡游戏Hanabi上评估BAD,其中双人游戏设置方法超越了之前发布的所有学习和手动编码方法。
translated by 谷歌翻译
Optimization of parameterized policies for reinforcement learning (RL) is an important and challenging problem in artificial intelligence. Among the most common approaches are algorithms based on gradient ascent of a score function representing discounted return. In this paper, we examine the role of these policy gradient and actor-critic algorithms in partially-observable multiagent environments. We show several candidate policy update rules and relate them to a foundation of regret minimization and multiagent learning techniques for the one-shot and tabular cases, leading to previously unknown convergence guarantees. We apply our method to model-free multiagent reinforcement learning in adversarial sequential decision problems (zero-sum imperfect information games), using RL-style function approximation. We evaluate on commonly used benchmark Poker domains, showing performance against fixed policies and empirical convergence to approximate Nash equilibria in self-play with rates similar to or better than a baseline model-free algorithm for zero-sum games, without any domain-specific state space reductions.
translated by 谷歌翻译
深度强化学习(RL)算法已经显示出在高维环境中学习复杂控制策略的令人印象深刻的能力。然而,尽管Arcade学习环境(ALE)等流行基准测试的性能不断提高,但深度RL算法学到的策略在非常相似的环境中进行评估时可能很难概括。这些结果是出乎意料的,因为在监督学习中,深度神经网络通常学习在任务中概括的强大特征。在本文中,我们研究了DQN的泛化能力,以帮助理解深度RL和超级学习方法中的泛化之间的这种不匹配。我们提供证据表明DQN过度专注于其受过训练的领域。然后,我们全面评估传统的正规化方法对监督学习,$ \ ell_2 $和dropout的影响,以及重用学习表示来改善DQN的泛化能力。我们使用Atari2600游戏的不同游戏模式进行这项研究,这是最近推出的针对ALE的修改,它支持用于该领域基准测试的Atari 2600游戏的轻微变化。尽管正规化在深度RL中未得到充分利用,但事实证明它可以,事实上,帮助DQN学习更多一般功能。然后可以在类似任务上重复使用这些功能并进行微调,从而显着提高DQN的样本效率。
translated by 谷歌翻译
从交互样本中学习不完美信息游戏的策略是一个具有挑战性的问题。这种设置的常用方法MonteCarlo Counterfactual Regret Minimization(MCCFR)由于高方差而具有较慢的长期收敛率。在本文中,我们引入了适用于MCCFR的任何采样变体的方差减少技术(VR-MCCFR)。使用此技术,每次迭代估计值和更新被重新构建为采样值和状态 - 动作基线的函数,类似于它们用于政策梯度强化学习。新的制定允许估计从同一集中的其他估计中引导,沿着采样的轨迹传播基线的好处;即使从其他估计引导,估计仍然是无偏见的。最后,我们证明给定一个完美的基线,值估计的方差可以减少到零。实验评估表明,VR-MCCFR带来了一个数量级的加速,而经验方差降低了三个数量级。减小的方差允许第一次CFR +与采样一起使用,将加速增加到两个数量级。
translated by 谷歌翻译
Representation learning and option discovery are two of the biggestchallenges in reinforcement learning (RL). Proto-value functions (PVFs) are awell-known approach for representation learning in MDPs. In this paper weaddress the option discovery problem by showing how PVFs implicitly defineoptions. We do it by introducing eigenpurposes, intrinsic reward functionsderived from the learned representations. The options discovered fromeigenpurposes traverse the principal directions of the state space. They areuseful for multiple tasks because they are discovered without taking theenvironment's rewards into consideration. Moreover, different options act atdifferent time scales, making them helpful for exploration. We demonstratefeatures of eigenpurposes in traditional tabular domains as well as in Atari2600 games.
translated by 谷歌翻译
在本文中,我们介绍了街机学习环境(ALE):既是挑战问题,也是评估一般的,与领域无关的AI技术开发的平台和方法。 ALE为数百个Atari 2600游戏环境提供了一个界面,每个环境都是不同的,有趣的,并且设计成对人类玩家的挑战。 ALE为强化学习,模型学习,基于模型的规划,模仿学习,转移学习和内在动机提出了重要的研究挑战。最重要的是,它提供了一个严格的测试平台,用于评估和比较这些问题的方法。我们通过开发和基准化使用完善的AI技术设计的领域独立代理来说明ALE的前景,用于强化学习和规划。在这样做的同时,我们还提出了ALE提供的评估方法,报告了超过55种不同游戏的经验结果。所有软件,包括基准标记代理,都是公开的。
translated by 谷歌翻译
策略梯度方法是强大的强化学习算法,并且已被证明可以解决许多复杂的任务。然而,这些方法也是数据无效的,受到高方差梯度估计的影响,并且经常陷入局部最优。这项工作通过将最近改进的非政策数据的重用和参数空间的探索与确定性行为政策相结合来解决这些弱点。由此产生的目标适用于标准的神经网络优化策略,如随机梯度下降或随机梯度哈密顿蒙特卡罗。通过重要性抽样对以前的推出进行大量提高数据效率,而随机优化方案有助于逃避局部最优。我们评估了一系列连续控制基准测试任务的建议方法。结果表明,该算法能够使用比标准策略梯度方法更少的系统交互成功可靠地学习解决方案。
translated by 谷歌翻译
常识知识关系对于高级NLU任务至关重要。我们检查CONCEPTNET中表示的这种关系的可学习性,考虑到它们的特定属性,这可以使关系分类变得困难:给定的概念对可以通过多种关系类型链接,并且关系可以具有不同语义类型的多字参数。我们探索了一种开放世界的多标签分类方法,该方法侧重于评估个体关系的分类准确性。在深入研究CONCEPTNET资源的特定属性的基础上,我们研究了不同关系表示和模型变化的影响。我们的分析表明,论证类型的复杂性和相关模糊性是要解决的最重要的挑战。我们设计了自定义评估方法,以解决在未来工作中可以扩展的资源的不完整性。
translated by 谷歌翻译
近年来,随着个体水平数据的日益普及和机器学习算法的进步,导致了用于寻找最佳个性化治疗规则(ITR)的方法学发展的爆炸式增长。这些新工具正在应用于各种领域,包括商业,医学和政治。然而,很少有方法可以评估ITR的功效。特别是,许多现有的ITR估算器都是基于复杂的模型,并没有统计不确定性估计。我们考虑共同的现实世界环境,其中政策制定者希望在目标人群中管理之前预测给定ITR的表现。我们建议使用randomizeproperiment来评估ITR。与现有方法不同,提出的方法是基于Neyman的重复抽样方法,并不需要建模假设。因此,它适用于从广泛的统计和机器学习模型衍生的ITR的经验评估。我们进行了一项模拟研究,以证明所提方法在小样本中的准确性。我们还将我们的方法应用于项目STAR(学生 - 教师成就比率)实验,以比较基于流行的机器学习方法的ITR的性能,该方法用于预测异质治疗效果。
translated by 谷歌翻译
我们研究了在多智能体系统中形成共识的有效性,其中既有基于直接证据的信念更新,也有代理之间的信任组合。特别是,我们考虑这样一种情况,即代理人数的增加是在最好的问题上进行合作的,其目的是就一组状态中最好的(或者说是真实的)状态达成共识,每个状态都有不同的质量。价值(或证据水平)。代理人的信念通过质量函数在Dempster-Shafer理论中表示,我们为这个多智能体共识形成问题揭示了四个众所周知的信念组合算子的宏观层次特性:Dempster规则,Yager规则,Dubois&Prade的算子和平均算子。考虑了算子的收敛性质,并针对不同的证据率和噪声水平进行了模拟实验。结果表明,直接证据的更新和代理之间的信念组合的结合导致对最佳状态的更好的共识,仅凭证据更新。我们还发现,在这个框架中,操作员对噪声具有鲁棒性。从广义上讲,Dubois&Prade的运算符可以更好地收敛到最佳状态。最后,我们考虑到针对最佳n问题的Dempster-Shafer方法对大量状态的影响。
translated by 谷歌翻译