深度学习建立在梯度下降与目标函数收敛于局部最小值的基础上。不幸的是,这种保证在诸如生成对抗网之类的设置中失败,这些设置表现出多种相互作用的损失。基于梯度的方法在游戏中的行为并未被理解 - 并且随着对抗性和多目标体系结构的激增而变得越来越重要。在本文中,我们开发了新的工具来理解和控制n玩家可区分游戏的动态。关键的结果是将雅可比游戏分解为两个组成部分。第一个对称分量与潜在的游戏有关,这些游戏在隐式函数上减少了梯度下降。第二个反对称组件涉及哈密尔顿游戏,这是一类新的游戏,遵循经典机械系统中的守恒定律。分解激发了辛差梯度调整(SGA),这是一种在可微分游戏中寻找稳定不动点的新算法。基本实验表明,SGA与最近提出的用于在GAN中找到稳定的固定点的算法具有竞争性 - 同时适用于并且具有更多一般情况的保证。
translated by 谷歌翻译
抽象地,象棋和扑克等零和游戏的功能是对代理商进行评估,例如将它们标记为“胜利者”和“失败者”。如果游戏具有近似传递性,那么自我游戏会产生强度增加的序列。然而,非传递性游戏,如摇滚剪刀,可以表现出战略周期,并且不再有透明的目标 - 我们希望代理人增加力量,但对谁不清楚。在本文中,我们引入了一个用于在零和游戏中制定目标的几何框架,以构建产生开放式学习的目标的自适应序列。该框架允许我们推断非传递性游戏中的人口表现,并且能够开发一种新算法(纠正的Nash响应,PSRO_rN),该算法使用游戏理论小生境构建不同的有效代理群体,产生比现有算法更强的代理集合。我们将PSRO_rN应用于两个高度非传递性的资源分配游戏,并发现PSRO_rN一直优于现有的替代方案。
translated by 谷歌翻译
通过仔细评估出色的共同利益问题来衡量机器学习的进展。然而,基准套件和环境,对抗性攻击以及其他并发症的激增已经使得压倒性的研究人员有了选择,从而淡化了基本的评估模型。有意识的樱桃采摘越来越有可能,设计良好的平衡评估套件需要更多的努力。在本文中,我们退一步并提出纳什平均值。该方法建立在对两种基本场景中评估的代数结构的详细分析的基础上:代理与代理和代理与任务。纳什平均值的关键优势在于它自动适应评估数据中的冗余,因此结果不会因简单任务或弱代理的结合而产生偏差。纳什平均因此鼓励最大限度地包容性评估 - 因为包括所有可用任务和代理没有任何伤害(计算成本)。
translated by 谷歌翻译
Error backpropagation is an extremely effective algorithm for assigningcredit in artificial neural networks. However, weight updates under Backpropdepend on lengthy recursive computations and require separate output and errormessages -- features not shared by biological neurons, that are perhapsunnecessary. In this paper, we revisit Backprop and the credit assignmentproblem. We first decompose Backprop into a collection of interacting learningalgorithms; provide regret bounds on the performance of these sub-algorithms;and factorize Backprop's error signals. Using these results, we derive a newcredit assignment algorithm for nonparametric regression, Kickback, that issignificantly simpler than Backprop. Finally, we provide a sufficient conditionfor Kickback to follow error gradients, and show that Kickback matchesBackprop's performance on real-world regression benchmarks.
translated by 谷歌翻译
本文研究了领域概括:如何从任意数量的相关领域获取知识并将其应用于以前的unseendomains?我们提出了域不变分量分析(DICA),这是一种基于内核的优化算法,通过最小化跨域的不相似性来学习不变变换,同时保留输入和输出变量之间的函数关系。学习理论分析表明,减少不相似性提高了分类器在新域上的预期泛化能力,激发了所提出的算法。在合成和真实数据集上的实验结果表明,DICA成功地在实践中学习了不变特征并提高了分类器性能。
translated by 谷歌翻译
Generative Adversarial Networks have shown remarkable success in learning a distribution that faithfully recovers a reference distribution in its entirety. However, in some cases, we may want to only learn some aspects (e.g., cluster or manifold structure), while modifying others (e.g., style, orientation or dimension). In this work, we propose an approach to learn generative models across such incomparable spaces, and demonstrate how to steer the learned distribution towards target properties. A key component of our model is the Gromov-Wasserstein distance, a notion of discrepancy that compares distributions relationally rather than absolutely. While this framework subsumes current generative models in identically reproducing distributions, its inherent flexibility allows application to tasks in manifold learning, relational learning and cross-domain learning.
translated by 谷歌翻译
本文涉及在图形模型中估计模型参数。将其描述为信息几何优化问题,并引入包含额外元参数的解剖梯度下降策略。我们表明,我们的方法是图形模型中用于学习的着名EM方法的强有力替代方案。实际上,我们基于自然梯度的策略导致学习最终目标函数的最佳参数,而不是试图拟合可能与真实不对应的分布。我们支持我们的理论发现与金融市场中的趋势检测问题,并表明学习模型表现出更好的传统实践方法,并且不易过度拟合。
translated by 谷歌翻译
我们在最近普及的分散执行(CTDE)制度的集中培训中探索基于价值的多智能体强化学习(MARL)任务解决方案。然而,VDN和QMIX是代表性的例子,它将联合行动 - 价值函数的因子分解为分散执行的个体化。 VDN和QMIX仅解决可分解的MARL任务的分数,因为它们在诸如可加性和单调性之类的因素中具有结构约束。在本文中,我们提出了一种新的MARL分解方法,即QTRAN,它没有这种结构约束,并采用了一种新的方法将原始的联合作用 - 值函数转换为易于分解的函数,具有相同的优化。 QTRAN保证比VDN或QMIX更通用的因子分解,因此比以前的方法覆盖了更广泛的MARL任务类。多域Gaussian-squeeze和modifiedpredator-prey任务的Ourexperiments展示了QTRAN在游戏中的特殊大规模优越性能,其收益更加积极地惩罚非合作行为。
translated by 谷歌翻译
我们给出了过度约束的回归问题的第一维降维方法。 Tukey损失函数$ \ | y \ | _M = \ sum_i M(y_i)$有剩余误差的$ M(y_i)\ approx | y_i | ^ p $ $ $ y_i $小于规定阈值$ \ tau $,但是$ M(y_i)$对于错误$ | y_i |变为常量> \ tau $。我们的结果取决于一个新的结构结果,建设性地证明,对于任何$ d $ -dimensional子空间$ L \ subset \ mathbb {R} ^ n $,有一个固定的有界大小的坐标子集,包含每个$ y \ in L $,关于Tukey损失函数的所有大坐标,$ y $。我们的方法将给定的Tukey回归问题减少到较小的加权版本,whosesolution对于原始问题是可证明的良好近似解。我们的减少是快速,简单和易于实现的,并且我们使用现有的启发式解算器为小版本提供了证明其实用性的经验结果。我们还给出了指数时间算法,给出了可证明的解决方案,并且硬度结果表明在最坏的情况下不太可能出现显着的加速。
translated by 谷歌翻译
执法部门或大众媒体机构经常需要面对隐瞒提供隐私保护。共享敏感内容,其中遮蔽或减少技术可能未能完全消除所有可识别的痕迹,可能导致危及生命的后果。因此,能够系统地测量给定技术的面部遮蔽性能是至关重要的。在本文中,我们建议测量三种模拟技术的有效性:高斯模糊,中值模糊和像素化。通过在两种情况下识别编辑的面部来进行编辑:将遮蔽的面部分类为一组身份,并将遮蔽的面部与清晰面部的相似性进行比较。威胁建模还被认为是为每种研究的遮蔽技术提供漏洞分析。基于ourevaluation,我们表明基于像素化的面部遮蔽方法是最有效的。
translated by 谷歌翻译