抽象地,象棋和扑克等零和游戏的功能是对代理商进行评估,例如将它们标记为“胜利者”和“失败者”。如果游戏具有近似传递性,那么自我游戏会产生强度增加的序列。然而,非传递性游戏,如摇滚剪刀,可以表现出战略周期,并且不再有透明的目标 - 我们希望代理人增加力量,但对谁不清楚。在本文中,我们引入了一个用于在零和游戏中制定目标的几何框架,以构建产生开放式学习的目标的自适应序列。该框架允许我们推断非传递性游戏中的人口表现,并且能够开发一种新算法(纠正的Nash响应,PSRO_rN),该算法使用游戏理论小生境构建不同的有效代理群体,产生比现有算法更强的代理集合。我们将PSRO_rN应用于两个高度非传递性的资源分配游戏,并发现PSRO_rN一直优于现有的替代方案。
translated by 谷歌翻译
图中节点分类的主要方法是信息传播以及节点类与外部信息的关联。最先进的方法通过GraphConvolutional Networks合并这些方法。我们在这里使用节点的拓扑特征与它们的类的关联来预测这个类。此外,将信息传播与信息传播相结合,提高了标准CiteSeer和Cora纸张分类任务的分类准确性。拓扑特征和信息传播产生的结果几乎与基于文本的分类一样好,没有文本或内容信息。我们建议通过GCN表示拓扑和信息传播,其中相邻训练节点分类作为输入,当前节点分类作为输出。这种形式主义优于最先进的方法。
translated by 谷歌翻译
理解深层架构的学习和概括是近年来重要的研究目标,具有显着的理论进展。泛化研究的一个主要焦点源于过度庞大的网络的成功,这些网络无视统一收敛和可学习性的经典智慧。我们根据经验研究过度参数化深模型的分层函数结构。我们提供了层的异构特征的证据。为此,我们引入了(训练后)重新初始化和重新随机化稳健性的概念。我们表明,可以将图层分为“强健”或“关键”。相比于临界层,将强健层重置为其初始值具有非负面结果,并且在许多情况下它们在整个训练中几乎没有变化。我们的研究提供了进一步的证据,仅仅参数计数或规范计算在研究深度模型的泛化时过于粗略。
translated by 谷歌翻译
(随机)梯度下降和乘法更新方法可能是机器学习中最流行的算法。我们介绍并研究了一种新的正则化,它提供了加法和乘法更新的统一。这种正则化来源于熵函数的双曲线模拟,我们将其称为超熵。它是由乘法更新自然扩展到负数的动机。高压熵具有一个自然光谱对应物,我们用它来推导基于矩阵的更新系列,它可以桥接梯度方法和矩阵的乘法方法。虽然后者仅适用于正半确定矩阵,但谱超熵方法当然可以与一般矩形矩阵一起使用。我们通过严格的后悔限制来分析新的更新系列。我们根据经验研究newupdate对多类学习等设置的适用性,其中参数构成一般矩形矩阵。
translated by 谷歌翻译
最近关于自适应稀疏和低秩信号建模的工作已经证明了它们在各种图像/视频处理应用中的有用性。基于补丁的方法利用局部补丁稀疏性,而其他工作应用分组补丁的低级别来利用图像非局部结构。但是,单独使用任一方法通常会限制图像重建或恢复应用程序的性能。在这项工作中,我们提出了一个同时稀疏和低等级模型,称为STROLLR,以更好地代表自然图像。为了充分利用局部和非局部图像属性,我们使用具有联合低秩正则化的变换学习方案来开发图像恢复框架。该方法的一些计算效率和良好的性能归因于自适应稀疏表示的变换学习的使用,而不是流行的合成字典学习算法,其涉及NP-硬稀疏编码的近似和昂贵的学习步骤。我们在各种应用中演示了所提出的框架,以进行基于图像去噪,修复和压缩感知的磁共振成像。与最先进的竞争方法相比,结果显示出有希望的性能。
translated by 谷歌翻译
我们研究了具有1范数惩罚的最小二乘回归的整个正则化路径的复杂性,称为Lasso。 Lasso中的每个回归参数都作为正则化值的函数线性变化。变化的数量被认为是Lasso的复杂性。使用精确路径跟踪的实验结果表明在问题大小中Lasso的多项式复杂性。唉,Lasso在人为设计回归问题上的路径复杂性是指数级的。我们使用平滑分析作为弥合最坏情况设置与事实上低复杂度之间差距的机制。我们的分析假设观察到的数据具有微小的固有噪声。然后我们证明了拉索的复杂性是问题大小的多项式。虽然Spielman和Teng的这些最小的工作建立在平滑的复杂性上,但我们的分析在道德上是不同的,因为它与算法之后的特定路径脱节。在最差情况设置和真实数据集的实验中,我们验证了分析的有效性。我们获得的实证结果与ouranalysis密切匹配。
translated by 谷歌翻译
We develop a general duality between neural networks and compositionalkernels, striving towards a better understanding of deep learning. We show thatinitial representations generated by common random initializations aresufficiently rich to express all functions in the dual kernel space. Hence,though the training objective is hard to optimize in the worst case, theinitial weights form a good starting point for optimization. Our dual view alsoreveals a pragmatic and aesthetic perspective of neural networks andunderscores their expressive power.
translated by 谷歌翻译
We show that parametric models trained by a stochastic gradient method (SGM)with few iterations have vanishing generalization error. We prove our resultsby arguing that SGM is algorithmically stable in the sense of Bousquet andElisseeff. Our analysis only employs elementary tools from convex andcontinuous optimization. We derive stability bounds for both convex andnon-convex optimization under standard Lipschitz and smoothness assumptions. Applying our results to the convex case, we provide new insights for whymultiple epochs of stochastic gradient methods generalize well in practice. Inthe non-convex case, we give a new interpretation of common practices in neuralnetworks, and formally show that popular techniques for training large deepmodels are indeed stability-promoting. Our findings conceptually underscore theimportance of reducing training time beyond its obvious benefit.
translated by 谷歌翻译