我们在列表可解码设置中给出了第一个多项式时间算法用于稳健回归,其中攻击者可以破坏大于$ 1/2 $的部分示例。对于任何$ \ alpha <1 $,我们的算法作为输入asample $ \ {(x_i,y_i)\} _ {i \ leq n} $ $ n $线性方程式,其中$ \ alpha n $方程式满足$ y_i = \ langle x_i,\ ell ^ * \ rangle + \ zeta $对于一些小噪声$ \ zeta $和$(1- \ alpha)n $的方程是\ emph {任意}选择。它输出一个列表$ L $大小为$ O(1 / \ alpha)$ - 一个固定常量 - 包含接近$ \ ell ^ * $的$ \ ell $。每当从\ emph {certifiable}反集中分配$ D $中选择内容时,我们的算法就会成功。作为特殊情况,当inlier分布是标准高斯时,这会产生$(d / \ alpha)^ {O(1 / \ alpha ^ 8)} $ timealgorithm来查找$ O(1 / \ alpha)$ size列表。对于内点的反集中假设在理论上是必要的信息。在$ \ ell ^ * $是布尔值的附加假设下,我们的算法适用于更一般的分布。为了解决这个问题,我们引入了一个用于列表可解码学习的新框架,它加强了方形的“可识别性到算法”范式。在一项独立的工作中,Raghavendra和Yau [RY19]也使用平方和方法获得了类似可解码回归的类似结果。
translated by 谷歌翻译
Adam算法在大规模机器学习中变得非常流行。在凸性条件下,已经证明它具有依赖于adata的$ O(\ sqrt {T})$后悔限制,其中$ T $是时间范围。然而,是否可以利用强凸性来进一步改善性能仍然是一个悬而未决的问题。在本文中,我们通过开发一个Adam的变体(称为SAdam)来给出一个肯定性的答案,该变体实现了对于强凸函数的adata依赖的$ O(\ log T)$后悔限制。一个重要的想法是保持一个更快的衰减但受控制的步长,以利用强凸性。此外,在高参数的特殊配置下,我们的SAdam简化为SC-RMSprop,这是最近提出的用于强凸函数的RMSprop的变体,我们为其提供了第一个依赖于数据的对数后悔边界。优化凸函数和训练深度网络的实证结果证明了我们方法的有效性。
translated by 谷歌翻译
几个最近提出的随机优化方法已成功用于训练深度网络,如RMSProp,Adam,Adadelta,Nadam,它们基于使用由指数移动平均过去梯度的平方根进行缩放的梯度更新。在许多应用中,例如通过大输出空间学习,经验观察到这些算法无法收敛到最优解(或关键点无凸结设置)。我们证明了这种失败的一个原因是算法中使用的指数移动平均值。我们提供了一个简单的凸优化设置的示例,其中Adam没有收敛到最优解,并且描述了先前对Adam算法的分析的精确问题。我们的分析表明,收敛问题可以通过赋予这些算法过去梯度的“长期记忆”来解决,并提出亚当算法的新变体,这不仅解决了收敛问题,而且通常也导致经验性能的提高。
translated by 谷歌翻译
本文描述了一种新的半自动构建,扩展和管理术语词库的系统 - 一个多语言术语词典,其中包含术语本身之间的关系,形成一个词库。该系统允许从根本上增强当前术语专家组的工作流程,其中大多数编辑决定仍然来自于反思。所提出的系统利用自然语言处理技术补充了词典编排过程,这些技术被无缝地集成到词典编辑环境中。该系统的方法和由此产生的词汇与所涉及的六种语言的新域语料库紧密相关。它们用于术语用法示例以及新候选术语的自动提取。术语词库现在可通过基于网络的应用程序访问,其中a)提供关于每个术语的丰富详细信息,b)可视化术语关系,以及c)在域相关文档和基于上下文的文本中显示术语的实际使用示例类似的术语。此外,专业语料库用于检测从中心语言(捷克语)到其他语言(英语,法语,德语,俄语和斯洛伐克语)的术语的候选翻译,以及检测更广泛的捷克术语,这有助于在实际的语言中添加新术语层次结构。该项目已被实现为土地测量的术语,但所提供的工具和方法可用于其他术语领域。
translated by 谷歌翻译
近年来,深度神经网络(DNN)已经应用于各种机器学习任务,包括图像识别,语音识别和机器翻译。但是,需要大型DNN模型才能实现最先进的性能,超出边缘设备的功能。因此,实际使用需要模型减少。在本文中,我们指出,在以下三个条件下训练DNN时,深度学习自动引起权重的群体稀疏性,其中连接到输出通道(节点)的所有权重为零:(1)整流线性单元(ReLU)激活,(2)$ L_2 $ - 规范化的目标函数,以及(3)Adamoptimizer。接下来,我们在理论上和实验上分析这种行为,并提出一种简单的模型简化方法:在训练DNN后消除零点。在MNIST和CIFAR-10数据集的实验中,我们通过各种训练设置证明了稀疏性。最后,我们证明了我们的方法可以有效地减小模型大小,并且相对于使用稀疏诱导正则化器的方法表现良好。
translated by 谷歌翻译
Adam和RMSProp作为用于训练深度神经网络的两种最有影响力的自适应随机算法,已经通过一些简单的反例被指出即使在凸面设置中也是如此。许多尝试,例如降低自适应学习速率,采用大批量化,结合时间去相关技术,寻求类比索引,\ textit {等},已经尝试促进Adam / RMSProp类型算法收敛。与现有方法相比,我们引入了替代易于检查的充分条件,其仅取决于基本学习速率的参数和历史二阶矩的组合,以保证genericAdam / RMSProp的全局收敛以解决大规模非-convex随机优化。此外,我们证明了Adam的几个变体的收敛性,例如AdamNC,AdaEMA,\ textit {等},可以通过非凸设置中提出的充分条件直接暗示。此外,我们说明亚当基本上是一个具有指数移动平均动量的特定加权AdaGrad,它为理解Adam和RMSProp提供了新的视角。这种观察结果与这种充分条件相结合,可以更深入地解释它们的分歧。最后,我们通过应用Adam和RMSProp来解决反例和训练深度神经网络来验证充分条件。数值结果与理论分析完全一致。
translated by 谷歌翻译
深度神经网络传统上使用人工设计的随机优化算法进行训练,例如SGD和Adam。最近,学习优化网络参数的方法已成为一个有前途的研究课题。然而,这些学习过的黑盒优化器有时会利用人类设计的优化器中的经验,因此在泛化能力方面具有优势。在本文中,提出了一种新的优化器,称为\ textit {HyperAdam},它结合了“学习优化”和传统的Adam优化器的概念。给定用于训练的网络,其在HyperAdam生成的每次迭代中的参数更新是由Adam生成的具有不同衰减率的多个更新的自适应组合。 HyperAdam中的组合权重和衰减率是根据任务自适应地学习的。 HyperAdam被建模为具有AdamCell,WeightCell和StateCell的递归神经网络。有理由成为各种各样的网络训练,例如多层感知器,CNN和LSTM。
translated by 谷歌翻译
随机梯度下降(SGD)的基于动量的加速在深度学习中被广泛使用。我们提出准双曲动量算法(QHM)作为动量SGD的极其简单的改变,平均具有动量步长的普通SGD步。我们描述了与其他算法的许多连接和身份,我们描述了QHM可以恢复的两状态优化算法集。最后,我们提出了Adamcalled QHAdam的QH变体,并且我们凭经验证明我们的算法在各种环境中引领了显着改进的训练,包括WMT16 EN-DE的最新技术。我们希望这些实证结果与QHM和QHAdam的概念和实践简单性相结合,将引起从业者和研究人员的兴趣。 PyTorch代码可立即使用。
translated by 谷歌翻译
RMSProp和ADAM仍然是用于训练神经网络的非常流行的算法,但是它们的理论收敛性仍然不清楚。此外,最近的研究似乎表明,与仔细调整的随机梯度下降或其动量变量相比,这些算法具有更差的广义化特性。在这项工作中,我们通过两种方式在更加熟悉ADAM和RMSProp方面取得了进展。首先,我们提供证据证明这些自适应梯度算法可以保证达到临界平滑非凸目标,并且我们给出了运行时间的界限。接下来,我们设计实验,在各种常见的自动编码器设置上,根据Nesterov的AcceleratedGradient方法,对RMSProp和ADAM的收敛性和广义化特性进行实证研究。通过这些实验,我们展示了ADAM对其动量参数$ \ beta_1 $的有趣敏感性。我们表明,在非常高的瞬间参数值($ \ beta_1 = 0.99 $)下,ADAM在大多数实验中都优于经过精心调整的NAG,从而降低了训练和测试损失。另一方面,当ADAM的$ \ beta_1 $设置为最常用的值时,NAG有时可以做得更好:$ \ beta_1 = 0.9 $,表明调整ADAM的超参数以获得更好的泛化性能的重要性。我们还报告了在不同自动编码器上的实验,以证明NAG在降低梯度范数方面具有更好的能力,并且它还产生迭代,其在迭代时表现出损失函数的Hessian的最小特征值的增加趋势。
translated by 谷歌翻译
深度学习中的不确定性计算对于设计健壮且可靠的系统至关重要。变分推理(VI)是用于这种计算的有前途的方法,但与最大似然方法相比需要更多的努力来实现和执行。在本文中,我们提出了新的自然梯度算法来减少高斯平均场VI的这种努力。我们的算法可以通过在梯度评估期间扰乱网络权重来在Adam优化器内实现,并且可以通过使用适应学习速率的向量来廉价地获得不确定性估计。与现有的VI方法相比,这需要更低的内存,计算和实现工作量,同时获得可比质量的不确定性估计。我们的实证结果证实了这一点,并进一步表明我们的算法中的权重扰动对于强化学习和随机优化的探索是有用的。
translated by 谷歌翻译