抽象地,象棋和扑克等零和游戏的功能是对代理商进行评估,例如将它们标记为“胜利者”和“失败者”。如果游戏具有近似传递性,那么自我游戏会产生强度增加的序列。然而,非传递性游戏,如摇滚剪刀,可以表现出战略周期,并且不再有透明的目标 - 我们希望代理人增加力量,但对谁不清楚。在本文中,我们引入了一个用于在零和游戏中制定目标的几何框架,以构建产生开放式学习的目标的自适应序列。该框架允许我们推断非传递性游戏中的人口表现,并且能够开发一种新算法(纠正的Nash响应,PSRO_rN),该算法使用游戏理论小生境构建不同的有效代理群体,产生比现有算法更强的代理集合。我们将PSRO_rN应用于两个高度非传递性的资源分配游戏,并发现PSRO_rN一直优于现有的替代方案。
translated by 谷歌翻译
Optimization of parameterized policies for reinforcement learning (RL) is an important and challenging problem in artificial intelligence. Among the most common approaches are algorithms based on gradient ascent of a score function representing discounted return. In this paper, we examine the role of these policy gradient and actor-critic algorithms in partially-observable multiagent environments. We show several candidate policy update rules and relate them to a foundation of regret minimization and multiagent learning techniques for the one-shot and tabular cases, leading to previously unknown convergence guarantees. We apply our method to model-free multiagent reinforcement learning in adversarial sequential decision problems (zero-sum imperfect information games), using RL-style function approximation. We evaluate on commonly used benchmark Poker domains, showing performance against fixed policies and empirical convergence to approximate Nash equilibria in self-play with rates similar to or better than a baseline model-free algorithm for zero-sum games, without any domain-specific state space reductions.
translated by 谷歌翻译
我们研究了对通用对抗性扰动有效的学习分类器的问题。虽然先前的工作通过强大的优化,对抗性训练或输入转换来解决这个问题,但我们却将其称为双人零和游戏。在这个新的配方中,两个玩家同时玩同一个游戏,其中一个玩家选择最小化分类损失的分类器,而另一个玩家创建一个对抗性扰动,当应用于训练集中的每个样本时增加相同的损失。通过观察执行分类(分别创建对抗样本)是对其他玩家的最佳响应,我们提出了游戏理论算法的新颖扩展,即虚拟游戏,到训练强健分类器的领域。最后,我们在两个防御场景中经验性地展示了我们的方法的稳健性和多功能性,其中对几个图像分类数据集(CIFAR10,CIFAR100和ImageNet)执行了通用攻击。
translated by 谷歌翻译
通过仔细评估出色的共同利益问题来衡量机器学习的进展。然而,基准套件和环境,对抗性攻击以及其他并发症的激增已经使得压倒性的研究人员有了选择,从而淡化了基本的评估模型。有意识的樱桃采摘越来越有可能,设计良好的平衡评估套件需要更多的努力。在本文中,我们退一步并提出纳什平均值。该方法建立在对两种基本场景中评估的代数结构的详细分析的基础上:代理与代理和代理与任务。纳什平均值的关键优势在于它自动适应评估数据中的冗余,因此结果不会因简单任务或弱代理的结合而产生偏差。纳什平均因此鼓励最大限度地包容性评估 - 因为包括所有可用任务和代理没有任何伤害(计算成本)。
translated by 谷歌翻译
在本文中,我们重新审视了Sajjadi等人提出的生成模型的精确回忆(PR)曲线的定义。 (的arXiv:1806.00035)。 PR曲线不是为生成质量提供标量,而是区分模式崩溃(不良召回)和劣质(精确度差)。我们首先将他们的表述推广到任意度量,从而消除对finitesupport的任何限制。我们还在区分两个分布的样本的任务之间暴露了PR曲线与似然比分类器的类型I和类型II误差之间的桥梁。基于这一新观点,我们提出了一种新的算法来近似精确回忆曲线,利用Lopez-Paz等人的假设检验技术(arXiv:1610.06545),该算法具有令人讨厌的有趣方法论特性。我们证明了所提出的公式对受控多模态数据集的原始方法的兴趣。
translated by 谷歌翻译
在本文中,我们通过扩展Nesterov引入的估计序列的概念,提出了基于梯度算法的随机凸复合优化的统一视图。这一观点涵盖了随机梯度下降法,SAGA,SVRG方法的变体,并具有以下优点:(i)我们为上述方法提供了一个通用的收敛证明; (ii)我们证明了这个SVRG变体是自适应的强凸性; (iii)我们自然地获得具有相同保证的新算法; (iv)我们推导出一般策略,使这些算法对随机噪声具有鲁棒性,这在数据被小的randomperturbations破坏时很有用。最后,我们证明了这个观点对于获得Nesterov意义上的新加速算法是有用的。
translated by 谷歌翻译
使用卷积神经网络预先训练通用视觉特征而不依赖于注释是一项具有挑战性和重要的任务。最近在无监督特征学习方面的努力主要集中在像ImageNet这样的小型或高度精选的数据集上,而使用未经计算的rawdatasets则发现减少了这一特征。在transfertask评估时的质量。我们的目标是弥合在策划数据上的无监督方法与获取成本高昂的大量原始数据集之间的性能差距。为此,我们提出了一种新的无监督方法,它利用自我监督和聚类来捕获大规模数据的互补统计数据。我们对来自YFCC100M的9600万张图像验证了我们的方法,在标准基准测试中实现了最先进的检测结果,证实了当只有非准确数据可用时,无监督学习的潜力。我们还表明,使用我们的方法对受监督的VGG-16进行预训练,在ImageNet分类的验证集中达到了74.6%的前1准确度,与从头开始训练的同一网络相比,这提高了±0.7%。
translated by 谷歌翻译
我们提出了零资源语音挑战2019,它建议在没有任何文本或语音标签的情况下构建aspeech合成器:因此,没有T的TTS(没有文本的文本到语音)。我们以未知语言(语音数据集)为目标语音提供原始音频,但没有对齐,文本或标签。参与者必须以无人监督的方式发现子词单元(使用UnitDiscovery数据集)并以某种方式将它们与语音记录对齐最有效的方法是从新颖的扬声器中合成新颖的话语,类似于目标说话者的声音。我们描述了用于评估的指标,一个基线系统,包括无监督的子字单元发现和标准TTS系统,以及使用黄金电话转换的顶线TTS。我们概述了11个团队提交的19个系统并讨论了主要结果。
translated by 谷歌翻译
我们建议为generalspline允许的运算符$ {\ rm L} $系统地构造原生Banach空间。简而言之,$ {\ rm L} $和(双)规范$ \ | \ cdot \ | _ {\ mathcal {X}'} $的原生空间是最大的空间函数$ f:\ mathbb {R} ^ d \ to \ mathbb {R} $使得$ \ | {\ rm L} f \ | _ {\ mathcal {X}'} <\ infty $,受限于$ {的生长限制空值空间\ rm L} $是有限维的。这个空格,由$ \ mathcal {X}'_ {\ rm L} $表示,被指定为前原生空间$ \ mathcal {X} _ {\ rm L} $的对偶,它本身是通过合适的完成过程。与现有结构(例如,再现核Hilbert空间)的主要区别在于我们的方法涉及测试函数而不是原子总和(例如,内核),这使得它适用于更广泛的规范类,包括总变差。根据特定的可接受性和兼容性假设,我们列出$ \ mathcal {X} _ {\ rm L} $和$ \ mathcal {X}'_ {\ rm L} $的直接和拓扑,并确定整个等价族规范。我们的建筑确保原生空间及其前身具有基本的Schwartz-Banach财产。在实践中,这意味着$ \ mathcal {X}'_ {\ rm L} $足够丰富,可以以任意精度再现任何函数。
translated by 谷歌翻译
This paper proposes a novel approach for predicting the motion of pedestrians interacting with others. It uses a Generative Adversarial Network (GAN) to sample plausible predictions for any agent in the scene. As GANs are very susceptible to mode collapsing and dropping, we show that the recently proposed Info-GAN allows dramatic improvements in multi-modal pedestrian trajectory prediction to avoid these issues. We also left out L2-loss in training the generator, unlike some previous works, because it causes serious mode collapsing though faster convergence. We show through experiments on real and synthetic data that the proposed method leads to generate more diverse samples and to preserve the modes of the predictive distribution. In particular, to prove this claim, we have designed a toy example dataset of trajectories that can be used to assess the performance of different methods in preserving the predictive distribution modes.
translated by 谷歌翻译