深度学习建立在梯度下降与目标函数收敛于局部最小值的基础上。不幸的是,这种保证在诸如生成对抗网之类的设置中失败,这些设置表现出多种相互作用的损失。基于梯度的方法在游戏中的行为并未被理解 - 并且随着对抗性和多目标体系结构的激增而变得越来越重要。在本文中,我们开发了新的工具来理解和控制n玩家可区分游戏的动态。关键的结果是将雅可比游戏分解为两个组成部分。第一个对称分量与潜在的游戏有关,这些游戏在隐式函数上减少了梯度下降。第二个反对称组件涉及哈密尔顿游戏,这是一类新的游戏,遵循经典机械系统中的守恒定律。分解激发了辛差梯度调整(SGA),这是一种在可微分游戏中寻找稳定不动点的新算法。基本实验表明,SGA与最近提出的用于在GAN中找到稳定的固定点的算法具有竞争性 - 同时适用于并且具有更多一般情况的保证。
translated by 谷歌翻译
在本文中,我们提出了可利用性下降,一种新的算法,用于通过针对最坏情况的直接策略优化来计算具有不完全信息的双玩家零和广义形式游戏中的近似均衡。我们证明,当遵循这种优化时,玩家策略的可利用性渐近地收敛为零,因此当两个玩家都采用这种优化时,联合策略会收敛到纳西均衡。与虚构游戏(XFP)和反事实后悔化(CFR)不同,我们的融合结果与被优化的政策而不是平均政策有关。我们的实验表明,在四个基准游戏中,收敛率与XFP和CFR相当。使用函数逼近,我们发现我们的算法在两个游戏中执行表格版本,据我们所知,这是在这类算法中不完全信息游戏中的第一个这样的结果。
translated by 谷歌翻译
Optimization of parameterized policies for reinforcement learning (RL) is an important and challenging problem in artificial intelligence. Among the most common approaches are algorithms based on gradient ascent of a score function representing discounted return. In this paper, we examine the role of these policy gradient and actor-critic algorithms in partially-observable multiagent environments. We show several candidate policy update rules and relate them to a foundation of regret minimization and multiagent learning techniques for the one-shot and tabular cases, leading to previously unknown convergence guarantees. We apply our method to model-free multiagent reinforcement learning in adversarial sequential decision problems (zero-sum imperfect information games), using RL-style function approximation. We evaluate on commonly used benchmark Poker domains, showing performance against fixed policies and empirical convergence to approximate Nash equilibria in self-play with rates similar to or better than a baseline model-free algorithm for zero-sum games, without any domain-specific state space reductions.
translated by 谷歌翻译
尽管已经提出了许多强化学习方法来学习单代理连续作用域中的最优解,但是具有连续动作的多工作协调域已经接受了相对较少的调查。在本文中,我们提出了一种独立的学习者分层方法,称为样本连续协调与递归频率最大Q值(SCC-rFMQ),它将协同问题与连续性分为两层。第一层通过具有可变探测率的重新采样机制从连续动作空间采样有限的一组动作,第二层评估采样的动作集中的动作并使用强化学习协作方法更新策略。通过在两个层面构建合作机制,SCC-rFMQ可以有效地处理连续行动合作马尔可夫博弈中的合作问题。 SCC-rFMQ的有效性通过两个精心设计的游戏进行实验证明,即攀爬游戏的连续版本和船只问题的合作版本。实验结果表明,SCC-rFMQ优于其他强化学习算法。
translated by 谷歌翻译
在多智能体强化学习中,独立的合作学习者必须克服许多病理,以便学习最佳的联合策略。这些病理学包括动作阴影,随机性,移动目标和改变探索问题(Matignon,Laurent和Le Fort-Piat 2012) ; Weiand Luke 2016)。已经提出了许多方法来解决这些病理学,但是评估主要在重复战略形式的游戏和仅由少量状态转换组成的随机游戏中进行。这提出了方法的可扩展性问题,这些方法具有复杂的,时间上扩展的,部分可观察的具有随机转换和奖励的域。在本文中,我们研究了这样复杂的设置,它需要长期视野的推理,并与维度的诅咒对抗。为了处理维度,我们采用了Multi-Agent DeepReinforcement Learning(MA-DRL)方法。我们发现,当代理人必须在隐居中做出关键决策时,现有方法会屈服于相对过度概括(一种行动阴影),另一种探索问题和随机性的组合。为了解决这些病症,我们引入了扩展的负更新间隔,使得独立学习者能够为更高级别的策略建立接近最优的平均效用值,同时在很大程度上放弃导致协调的事件的过渡。我们在时间延长的攀爬游戏中评估负更新间隔Double-DQN(NUI-DDQN),这是一种常规形式的游戏,经常用于研究相对过度泛化和其他病理。我们证明了NUI-DDQN可以在确定性和随机奖励设置中收敛于最优联合策略,克服相对过度概括和变更探索问题,同时减轻移动目标问题。
translated by 谷歌翻译
在本文中,我们介绍了一种提高物体检测神经网络的收敛速度和精度的创新方法。我们的方法CONVERGE-FAST-AUXNET基于采用多个相关损耗度量,并使用在线训练的辅助网络对其进行最佳加权。实验在着名的RoboCup @ Work挑战环境中进行。完全卷积分段网络是训练检测物体的拾取点。我们根据物体检测网络的准确性凭经验获得机器人拾取操作的成功率的近似测量。我们的实验表明,将最佳加权欧氏距离损失添加到通过常用交叉联盟(IoU)度量训练的网络中,可将收敛时间缩短42.48%。估计加价率提高39.90%。与最先进的任务加权方法相比,收敛率提高了24.5%,估计提取率提高了15.8%。
translated by 谷歌翻译
通过仔细评估出色的共同利益问题来衡量机器学习的进展。然而,基准套件和环境,对抗性攻击以及其他并发症的激增已经使得压倒性的研究人员有了选择,从而淡化了基本的评估模型。有意识的樱桃采摘越来越有可能,设计良好的平衡评估套件需要更多的努力。在本文中,我们退一步并提出纳什平均值。该方法建立在对两种基本场景中评估的代数结构的详细分析的基础上:代理与代理和代理与任务。纳什平均值的关键优势在于它自动适应评估数据中的冗余,因此结果不会因简单任务或弱代理的结合而产生偏差。纳什平均因此鼓励最大限度地包容性评估 - 因为包括所有可用任务和代理没有任何伤害(计算成本)。
translated by 谷歌翻译
我们介绍了一种深度强化学习(RL)的方法,通过结构化感知和关系推理提高了传统方法的效率,泛化能力和可解释性。它使用自我注意来迭代地推理场景中的关系并引导模型。 - 免费政策。我们的研究结果表明,在一个名为Box-World的新型导航和规划任务中,我们的代理人找到了可解决的解决方案,这些解决方案在样本复杂性方面提高了基线,能够推广到比在训练期间更复杂的场景,以及整体性能。在“星际争霸II”学习环境中,我们的经纪人在六款迷你游戏中实现了最先进的性能 - 超过了四位人类大师的表现。通过考虑建筑感应偏差,我们的工作为克服深度RL中的重要但顽固的挑战开辟了新的方向。
translated by 谷歌翻译
人类群体通常能够找到相互合作的方式,不合时宜的,暂时延长的社会困境。基于行为经济学的模型只能解释这种不现实的无状态矩阵游戏的现象。最近,多智能体强化学习被应用于普遍化社会困境问题,以暂时和空间扩展马尔科夫格。然而,这还没有产生一种能够像人类一样学会合作社会困境的代理人。一个关键的洞察力是,许多(但不是全部)人类个体具有不公平的厌恶社会偏好。这促进了矩阵游戏社会困境的特定解决方案,其中不公平 - 反对个人亲自亲社会并惩罚叛逃者。在这里,我们将这一内容扩展到马尔可夫游戏,并表明它通过与政策性能的有利互动促进了几种类型的顺序社会困境中的合作。特别是,我们发现不公平厌恶改善了跨期社会困境的重要类别的时间信用分配。这些结果有助于解释大规模合作可能如何产生和持续存在。
translated by 谷歌翻译
鱼眼摄像机通常用于获得大视场监视,增强现实以及特别是汽车应用。尽管普遍存在,但很少有公共数据集用于详细评估鱼眼图像上的计算机视觉算法。我们发布了第一个广泛的鱼眼汽车数据集WoodScape,它以1906年发明了鱼眼摄像机的罗伯特·伍德的名字命名.WoodScape包括四个环视摄像机和一些任务,包括分割,深度估计,3D边界框检测和污染检测。实例级别的40个类的语义标注为10,000多个图像提供,并为超过100,000个图像提供其他任务的注释。我们希望鼓励社区适应鱼眼摄像机的计算机视觉模型,而不是天真的整改。
translated by 谷歌翻译