深度学习建立在梯度下降与目标函数收敛于局部最小值的基础上。不幸的是,这种保证在诸如生成对抗网之类的设置中失败,这些设置表现出多种相互作用的损失。基于梯度的方法在游戏中的行为并未被理解 - 并且随着对抗性和多目标体系结构的激增而变得越来越重要。在本文中,我们开发了新的工具来理解和控制n玩家可区分游戏的动态。关键的结果是将雅可比游戏分解为两个组成部分。第一个对称分量与潜在的游戏有关,这些游戏在隐式函数上减少了梯度下降。第二个反对称组件涉及哈密尔顿游戏,这是一类新的游戏,遵循经典机械系统中的守恒定律。分解激发了辛差梯度调整(SGA),这是一种在可微分游戏中寻找稳定不动点的新算法。基本实验表明,SGA与最近提出的用于在GAN中找到稳定的固定点的算法具有竞争性 - 同时适用于并且具有更多一般情况的保证。
translated by 谷歌翻译
抽象地,象棋和扑克等零和游戏的功能是对代理商进行评估,例如将它们标记为“胜利者”和“失败者”。如果游戏具有近似传递性,那么自我游戏会产生强度增加的序列。然而,非传递性游戏,如摇滚剪刀,可以表现出战略周期,并且不再有透明的目标 - 我们希望代理人增加力量,但对谁不清楚。在本文中,我们引入了一个用于在零和游戏中制定目标的几何框架,以构建产生开放式学习的目标的自适应序列。该框架允许我们推断非传递性游戏中的人口表现,并且能够开发一种新算法(纠正的Nash响应,PSRO_rN),该算法使用游戏理论小生境构建不同的有效代理群体,产生比现有算法更强的代理集合。我们将PSRO_rN应用于两个高度非传递性的资源分配游戏,并发现PSRO_rN一直优于现有的替代方案。
translated by 谷歌翻译
多智能体系统的行为动态具有丰富有序的结构,可用于理解这些系统,并改善人工智能学习如何在其中运行。在这里,我们介绍了用于多智能体学习的关系前向模型(RFM),这些网络可以学习如何在多智能体环境中对代理的未来行为进行准确的预测。因为这些模型对环境中存在的离散实体和关系进行操作,所以它们产生可解释的中间体表达能够深入了解推动代理人行为的因素,以及调解社交互动的强度和价值的事件。此外,我们展示了代理内部的RFM模块,与非增强基线相比,可以实现更快的学习系统。随着我们开发和交互的自治系统越来越多地成为多智能体,开发利用分析工具来表征代理如何以及为何做出决策的工具越来越必要。此外,开发快速且易于学会彼此协调的人工制剂以及在共享环境中与人类协调是至关重要的。
translated by 谷歌翻译
通过强化学习(RL)在人工智能方面的最新进展已经在日益复杂的单一代理环境和双人回合制游戏中取得了巨大成功。然而,真实世界包含多个代理,每个代理都独立学习和行动以与其他代理进行合作和竞争,反映这种复杂程度的环境仍然是一个难题。在这项工作中,我们首次演示了一个代理可以在一个流行的3D多人第一人称视频游戏Quake III Arena夺旗中实现人类级别,仅使用像素和游戏点作为输入。这些结果是通过一个新颖的两层优化过程,其中独立RL代理的人口从数千个并行匹配中同时训练,其中代理一起玩并且在随机生成的环境中彼此相对。群体中的每个代理人学习其自己的内部奖励信号以补充来自获胜的稀疏延迟奖励,并且使用新颖的时间分层表示来选择动作,该代表可以使代理在多个时间尺度下进行推理。在游戏过程中,这些代理人基于丰富的学习表示来显示类似人的行为,例如导航,跟随和保护,该学习表示被示出为编码高级游戏知识。在广泛的锦标赛风格评估中,训练有素的球员超过了作为队友和对手的强大的人类球员的胜利率,并且证明远比现有的最先进的特工更强。这些结果表明人工智能的能力显着提升,让我们更接近人类智慧的目标。
translated by 谷歌翻译
在未来,人工学习代理可能会在我们的社会中变得越来越普遍。他们将在各种复杂环境中与其他学习代理人和人类进行互动,包括社会困境。我们考虑外部代理如何通过在观察学习者行为的基础上分配额外的奖励和惩罚来促进人工学习者之间的合作。我们提出了一条规则,通过考虑玩家的预期参数更新,自动学习如何创建正确的激励。使用这种学习规则导致在矩阵游戏中与高社会福利的合作,否则代理人将以高概率学习缺陷。我们表明,即使在给定数量的剧集之后关闭计划代理,在某些游戏中产生的合作结果也是稳定的,而其他游戏需要持续干预以维持相互合作。然而,即使在后一种情况下,必要的额外激励的数量也会随着时间的推移而减少。
translated by 谷歌翻译
通过仔细评估出色的共同利益问题来衡量机器学习的进展。然而,基准套件和环境,对抗性攻击以及其他并发症的激增已经使得压倒性的研究人员有了选择,从而淡化了基本的评估模型。有意识的樱桃采摘越来越有可能,设计良好的平衡评估套件需要更多的努力。在本文中,我们退一步并提出纳什平均值。该方法建立在对两种基本场景中评估的代数结构的详细分析的基础上:代理与代理和代理与任务。纳什平均值的关键优势在于它自动适应评估数据中的冗余,因此结果不会因简单任务或弱代理的结合而产生偏差。纳什平均因此鼓励最大限度地包容性评估 - 因为包括所有可用任务和代理没有任何伤害(计算成本)。
translated by 谷歌翻译
人类群体通常能够找到相互合作的方式,不合时宜的,暂时延长的社会困境。基于行为经济学的模型只能解释这种不现实的无状态矩阵游戏的现象。最近,多智能体强化学习被应用于普遍化社会困境问题,以暂时和空间扩展马尔科夫格。然而,这还没有产生一种能够像人类一样学会合作社会困境的代理人。一个关键的洞察力是,许多(但不是全部)人类个体具有不公平的厌恶社会偏好。这促进了矩阵游戏社会困境的特定解决方案,其中不公平 - 反对个人亲自亲社会并惩罚叛逃者。在这里,我们将这一内容扩展到马尔可夫游戏,并表明它通过与政策性能的有利互动促进了几种类型的顺序社会困境中的合作。特别是,我们发现不公平厌恶改善了跨期社会困境的重要类别的时间信用分配。这些结果有助于解释大规模合作可能如何产生和持续存在。
translated by 谷歌翻译
医疗应用通过要求高精度和易于解释来挑战当今的文本分类技术。尽管深度学习在准确性方面提供了一个飞跃,但这种飞跃是在牺牲可解释性的基础上实现的。为了解决这种准确性 - 可解释性挑战,我们首次引入了一种文本分类方法,该方法利用了最近引入的Tsetlin机器。简而言之,我们将文本的术语表示为命题变量。从这些,我们使用简单的命题公式捕获类别,例如:如果“rash”和“反应”和“青霉素”然后过敏。 Tsetlin机器从标签文本中学习这些公式,利用连接子句来表示每个类别的特定方面。实际上,即使没有术语(否定的特征)也可用于分类目的。我们与Na \'ive Bayes,决策树,线性支持向量机(SVM),随机森林,长期记忆(LSTM)神经网络和其他技术的实证比较是非常有用的.Tsetlin机器的表现与在20个新闻组和IMDb数据集上,以及非公共临床数据集上的所有评估方法都优于其他。平均而言,Tsetlin机器在数据集中提供最佳的召回率和精度分数。最后,我们的Tsetlin机器的GPU实现执行5比CPU实现快15倍,具体取决于数据集。因此我们相信,我们的novelapproach可以对广泛的文本分析应用产生重大影响,形成了使用Tsetlin机器进行更深层次自然语言理解的有希望的起点。
translated by 谷歌翻译
视觉里程计和SLAM方法具有各种各样的应用,例如增强现实或机器人技术。通过惯性测量补充视觉传感器极大地提高了跟踪精度和鲁棒性,因此引起了对视觉 - 惯性(VI)测距方法的开发的极大兴趣。在本文中,我们提出了TUM VIbenchmark,这是一种新颖的数据集,在不同的场景中具有多种序列,用于评估VI测距。它提供具有1024x1024分辨率,20 Hz,高动态范围和光度校准的相机图像。 IMU以200 Hz的频率测量3轴上的加速度和角速度,而摄像机和IMU传感器在硬件中进行时间同步。对于轨迹评估,我们还可以在运动捕捉系统中以高频(120 Hz)在序列的开始和结束处提供准确的姿态地面实况,我们通过摄像机和IMU测量精确对准。具有原始和校准数据的完整数据集是公开可用的。我们还在数据集上评估最先进的VIodometry方法。
translated by 谷歌翻译