变形AutoEncoders(VAES)是最常用的生成模型之一,特别是对于图像数据。训练VAE中的突出困难是在低维歧管上支持的数据。戴伊和WIPF(2019年)的最新工作表明,在低维数据上,发电机将收敛到具有0方差的解决方案,该方案被正确地支持地面真相歧管。在本文中,通过组合理论和经验结果,我们表明故事更加微妙。正是,我们表明,对于线性编码器/解码器,故事大多是真实的,VAE训练确实恢复了一个等于地面真理歧管的支撑的发电机,但这是由于梯度下降的隐含偏差而不是仅仅是vae损失本身。在非线性案例中,我们表明VAE训练经常学习更高度的歧管,这是地面真相歧管的超集。
translated by 谷歌翻译
Autoencoders are a popular model in many branches of machine learning and lossy data compression. However, their fundamental limits, the performance of gradient methods and the features learnt during optimization remain poorly understood, even in the two-layer setting. In fact, earlier work has considered either linear autoencoders or specific training regimes (leading to vanishing or diverging compression rates). Our paper addresses this gap by focusing on non-linear two-layer autoencoders trained in the challenging proportional regime in which the input dimension scales linearly with the size of the representation. Our results characterize the minimizers of the population risk, and show that such minimizers are achieved by gradient methods; their structure is also unveiled, thus leading to a concise description of the features obtained via training. For the special case of a sign activation function, our analysis establishes the fundamental limits for the lossy compression of Gaussian sources via (shallow) autoencoders. Finally, while the results are proved for Gaussian data, numerical simulations on standard datasets display the universality of the theoretical predictions.
translated by 谷歌翻译
批准方法,例如批处理[Ioffe和Szegedy,2015],体重[Salimansand Kingma,2016],实例[Ulyanov等,2016]和层归一化[Baet al。,2016]已广泛用于现代机器学习中。在这里,我们研究了体重归一化方法(WN)方法[Salimans和Kingma,2016年],以及一种称为重扎式投影梯度下降(RPGD)的变体,用于过多散热性最小二乘回归。 WN和RPGD用比例G和一个单位向量W重新绘制权重,因此目标函数变为非convex。我们表明,与原始目标的梯度下降相比,这种非凸式配方具有有益的正则化作用。这些方法适应性地使重量正规化并收敛于最小L2规范解决方案,即使初始化远非零。对于G和W的某些步骤,我们表明它们可以收敛于最小规范解决方案。这与梯度下降的行为不同,梯度下降的行为仅在特征矩阵范围内的一个点开始时才收敛到最小规范解,因此对初始化更敏感。
translated by 谷歌翻译
Efforts to understand the generalization mystery in deep learning have led to the belief that gradient-based optimization induces a form of implicit regularization, a bias towards models of low "complexity." We study the implicit regularization of gradient descent over deep linear neural networks for matrix completion and sensing, a model referred to as deep matrix factorization. Our first finding, supported by theory and experiments, is that adding depth to a matrix factorization enhances an implicit tendency towards low-rank solutions, oftentimes leading to more accurate recovery. Secondly, we present theoretical and empirical arguments questioning a nascent view by which implicit regularization in matrix factorization can be captured using simple mathematical norms. Our results point to the possibility that the language of standard regularizers may not be rich enough to fully encompass the implicit regularization brought forth by gradient-based optimization.
translated by 谷歌翻译
我们证明了由例如He等人提出的广泛使用的方法。(2015年)并使用梯度下降对最小二乘损失进行训练并不普遍。具体而言,我们描述了一大批一维数据生成分布,较高的概率下降只会发现优化景观的局部最小值不好,因为它无法将其偏离偏差远离其初始化,以零移动。。事实证明,在这些情况下,即使目标函数是非线性的,发现的网络也基本执行线性回归。我们进一步提供了数值证据,表明在实际情况下,对于某些多维分布而发生这种情况,并且随机梯度下降表现出相似的行为。我们还提供了有关初始化和优化器的选择如何影响这种行为的经验结果。
translated by 谷歌翻译
我们表明,在固定级和对称的阳性半明确矩阵上,Riemannian梯度下降算法几乎可以肯定地逃脱了歧管边界上的一些虚假关键点。我们的结果是第一个部分克服低级基质歧管的不完整而不改变香草riemannian梯度下降算法的不完整性。虚假的关键点是一些缺陷的矩阵,仅捕获地面真理的特征成分的一部分。与经典的严格鞍点不同,它们表现出非常奇异的行为。我们表明,使用动力学低级别近似和重新升级的梯度流,可以将某些伪造的临界点转换为参数化域中的经典严格鞍点,从而导致所需的结果。提供数值实验以支持我们的理论发现。
translated by 谷歌翻译
了解随机梯度下降(SGD)的隐式偏见是深度学习的关键挑战之一,尤其是对于过度透明的模型,损失功能的局部最小化$ l $可以形成多种多样的模型。从直觉上讲,SGD $ \ eta $的学习率很小,SGD跟踪梯度下降(GD),直到它接近这种歧管为止,梯度噪声阻止了进一步的收敛。在这样的政权中,Blanc等人。 (2020)证明,带有标签噪声的SGD局部降低了常规术语,损失的清晰度,$ \ mathrm {tr} [\ nabla^2 l] $。当前的论文通过调整Katzenberger(1991)的想法提供了一个总体框架。它原则上允许使用随机微分方程(SDE)描述参数的限制动力学的SGD围绕此歧管的正规化效应(即“隐式偏见”)的正则化效应,这是由损失共同确定的功能和噪声协方差。这产生了一些新的结果:(1)与Blanc等人的局部分析相比,对$ \ eta^{ - 2} $ steps有效的隐性偏差进行了全局分析。 (2020)仅适用于$ \ eta^{ - 1.6} $ steps和(2)允许任意噪声协方差。作为一个应用程序,我们以任意大的初始化显示,标签噪声SGD始终可以逃脱内核制度,并且仅需要$ o(\ kappa \ ln d)$样本用于学习$ \ kappa $ -sparse $ -sparse yroverparame parametrized linearized Linear Modal in $ \ Mathbb {r}^d $(Woodworth等,2020),而GD在内核制度中初始化的GD需要$ \ omega(d)$样本。该上限是最小值的最佳,并改善了先前的$ \ tilde {o}(\ kappa^2)$上限(Haochen等,2020)。
translated by 谷歌翻译
过度分化的深网络的泛化神秘具有有动力的努力,了解梯度下降(GD)如何收敛到概括井的低损耗解决方案。现实生活中的神经网络从小随机值初始化,并以分类的“懒惰”或“懒惰”或“NTK”的训练训练,分析更成功,以及最近的结果序列(Lyu和Li ,2020年; Chizat和Bach,2020; Ji和Telgarsky,2020)提供了理论证据,即GD可以收敛到“Max-ramin”解决方案,其零损失可能呈现良好。但是,仅在某些环境中证明了余量的全球最优性,其中神经网络无限或呈指数级宽。目前的纸张能够为具有梯度流动训练的两层泄漏的Relu网,无论宽度如何,都能为具有梯度流动的双层泄漏的Relu网建立这种全局最优性。分析还为最近的经验研究结果(Kalimeris等,2019)给出了一些理论上的理由,就GD的所谓简单的偏见为线性或其他“简单”的解决方案,特别是在训练中。在悲观方面,该论文表明这种结果是脆弱的。简单的数据操作可以使梯度流量会聚到具有次优裕度的线性分类器。
translated by 谷歌翻译
The affine rank minimization problem consists of finding a matrix of minimum rank that satisfies a given system of linear equality constraints. Such problems have appeared in the literature of a diverse set of fields including system identification and control, Euclidean embedding, and collaborative filtering. Although specific instances can often be solved with specialized algorithms, the general affine rank minimization problem is NP-hard, because it contains vector cardinality minimization as a special case.In this paper, we show that if a certain restricted isometry property holds for the linear transformation defining the constraints, the minimum rank solution can be recovered by solving a convex optimization problem, namely the minimization of the nuclear norm over the given affine space. We present several random ensembles of equations where the restricted isometry property holds with overwhelming probability, provided the codimension of the subspace is Ω(r(m + n) log mn), where m, n are the dimensions of the matrix, and r is its rank.The techniques used in our analysis have strong parallels in the compressed sensing framework. We discuss how affine rank minimization generalizes this pre-existing concept and outline a dictionary relating concepts from cardinality minimization to those of rank minimization. We also discuss several algorithmic approaches to solving the norm minimization relaxations, and illustrate our results with numerical examples.
translated by 谷歌翻译
通过扩展相关梯度流动,研究梯度下降的梯度下降的收敛性,即训练深层线性神经网络,即深矩阵因子。我们表明,在步骤上的合适条件下,梯度下降将收敛到损耗功能的临界点,即本文中的方形损失。此外,我们证明,对于几乎所有初始化梯度下降,在两层的情况下会聚到全局最小值。在三层或更多层的情况下,我们示出了梯度下降将收敛到一些固定等级的歧管矩阵上的全局最小值,其中等级不能确定先验。
translated by 谷歌翻译
理解梯度下降对Relu网络的概括能力的隐性偏见一直是机器学习研究中的重要研究主题。不幸的是,即使对于经过正方形损失训练的单个Relu神经元,最近也表现出不可能以模型参数规范来表征隐式正则化(Vardi&Shamir,2021)。为了缩小理解Relu网络的有趣概括行为的差距,在训练单神经元网络时,我们在这里检查参数空间中的梯度流动动力学。具体来说,我们发现了在支持向量方面的隐性偏见,该偏见在Relu网络良好地概括的原因和如何延伸方面起着关键作用。此外,我们分析了梯度流相对于初始化规范的幅度,并表明学习重量的规范严格通过梯度流量增加。最后,我们证明了单个Relu神经元的全球融合,以$ d = 2 $ case。
translated by 谷歌翻译
引入了归一化层(例如,批处理归一化,层归一化),以帮助在非常深的网中获得优化困难,但它们显然也有助于概括,即使在不太深入的网中也是如此。由于长期以来的信念,即最小的最小值导致更好的概括,本文提供了数学分析和支持实验,这表明归一化(与伴随的重量赛一起)鼓励GD降低损失表面的清晰度。鉴于损失是标准不变的,这是标准化的已知结果,因此仔细地定义了“清晰度”。具体而言,对于具有归一化的相当广泛的神经网类,我们的理论解释了有限学习率的GD如何进入所谓的稳定边缘(EOS)制度,并通过连续的清晰度来表征GD的轨迹 - 还原流。
translated by 谷歌翻译
我们介绍了一种从高维时间序列数据学习潜在随机微分方程(SDES)的方法。考虑到从较低维潜在未知IT \ ^ O过程产生的高维时间序列,所提出的方法通过自我监督的学习方法学习从环境到潜在空间的映射和潜在的SDE系数。使用变形AutiaceOders的框架,我们考虑基于SDE解决方案的Euler-Maruyama近似的数据的条件生成模型。此外,我们使用最近的结果对潜在变量模型的可识别性来表明,所提出的模型不仅可以恢复底层的SDE系数,还可以在无限数据的极限中恢复底层的SDE系数,也可以最大潜在潜在变量。我们通过多个模拟视频处理任务验证方法,其中底层SDE是已知的,并通过真实的世界数据集。
translated by 谷歌翻译
我们考虑与高斯数据的高维线性回归中的插值学习,并在类高斯宽度方面证明了任意假设类别中的内插器的泛化误差。将通用绑定到欧几里德常规球恢复了Bartlett等人的一致性结果。(2020)对于最小规范内插器,并确认周等人的预测。(2020)在高斯数据的特殊情况下,对于近乎最小常态的内插器。我们通过将其应用于单位来证明所界限的一般性,从而获得最小L1-NORM Interpoolator(基础追踪)的新型一致性结果。我们的结果表明,基于规范的泛化界限如何解释并用于分析良性过度装备,至少在某些设置中。
translated by 谷歌翻译
The framework of variational autoencoders allows us to efficiently learn deep latent-variable models, such that the model's marginal distribution over observed variables fits the data. Often, we're interested in going a step further, and want to approximate the true joint distribution over observed and latent variables, including the true prior and posterior distributions over latent variables. This is known to be generally impossible due to unidentifiability of the model. We address this issue by showing that for a broad family of deep latentvariable models, identification of the true joint distribution over observed and latent variables is actually possible up to very simple transformations, thus achieving a principled and powerful form of disentanglement. Our result requires a factorized prior distribution over the latent variables that is conditioned on an additionally observed variable, such as a class label or almost any other observation. We build on recent developments in nonlinear ICA, which we extend to the case with noisy or undercomplete observations, integrated in a maximum likelihood framework. The result also trivially contains identifiable flow-based generative models as a special case.
translated by 谷歌翻译
ML的梯度下降的成功尤其是学习神经网络是显着的和稳健的。在大脑如何学习的背景下,似乎在生物学上难以实现(如果不是难以判断)的梯度下降的一个方面是,其更新依赖于通过相同的连接到更早层的反馈。这种双向链路在脑网络中相对较少,即使存在互易连接时,它们也可能不等级。随机反馈对准(LillicRap等,2016),后向后重量是随机的和固定的,已经提出作为生物合理的替代品,并发现凭经验有效。我们调查如何以及当反馈对齐(FA)工作的方式,重点关注分层结构的最基本问题之一 - 低秩矩阵分解。在这个问题中,给定矩阵$ y_ {n \ times m} $,目标是找到低秩分解$ z_ {n \ times r} w_ {r \ times m} $,从而最小化错误$ \ | zw - 我\ | _f $。梯度血压最佳地解决了这个问题。我们显示FA收敛于当$ r \ ge \ mbox {rank}(y)$时收敛到最佳解决方案。我们还阐明了Fa工作的方式。经验上观察到前进权重矩阵和(随机)反馈矩阵在FA更新期间更接近。我们的分析严格地源地源于这种现象,并展示了如何促进FA的收敛。我们还表明,当$ r <\ mbox {rank}(y)$时,FA可能远非最佳。这是梯度下降和FA之间的第一个可提供的分离结果。此外,即使当它们的错误$ \ | zw-y \ | _f $大致相等时,梯度下降和fa发现的表示也可能是几乎正交的。
translated by 谷歌翻译
Existing analyses of neural network training often operate under the unrealistic assumption of an extremely small learning rate. This lies in stark contrast to practical wisdom and empirical studies, such as the work of J. Cohen et al. (ICLR 2021), which exhibit startling new phenomena (the "edge of stability" or "unstable convergence") and potential benefits for generalization in the large learning rate regime. Despite a flurry of recent works on this topic, however, the latter effect is still poorly understood. In this paper, we take a step towards understanding genuinely non-convex training dynamics with large learning rates by performing a detailed analysis of gradient descent for simplified models of two-layer neural networks. For these models, we provably establish the edge of stability phenomenon and discover a sharp phase transition for the step size below which the neural network fails to learn "threshold-like" neurons (i.e., neurons with a non-zero first-layer bias). This elucidates one possible mechanism by which the edge of stability can in fact lead to better generalization, as threshold neurons are basic building blocks with useful inductive bias for many tasks.
translated by 谷歌翻译
最近以来,在理解与overparameterized模型非凸损失基于梯度的方法收敛性和泛化显著的理论进展。尽管如此,优化和推广,尤其是小的随机初始化的关键作用的许多方面都没有完全理解。在本文中,我们迈出玄机通过证明小的随机初始化这个角色的步骤,然后通过梯度下降的行为类似于流行谱方法的几个迭代。我们还表明,从小型随机初始化,这可证明是用于overparameterized车型更加突出这种隐含的光谱偏差,也使梯度下降迭代在一个特定的轨迹走向,不仅是全局最优的,但也很好期广义的解决方案。具体而言,我们专注于通过天然非凸制剂重构从几个测量值的低秩矩阵的问题。在该设置中,我们表明,从小的随机初始化的梯度下降迭代的轨迹可以近似分解为三个阶段:(Ⅰ)的光谱或对准阶段,其中,我们表明,该迭代具有一个隐含的光谱偏置类似于频谱初始化允许我们表明,在该阶段中进行迭代,并且下面的低秩矩阵的列空间被充分对准的端部,(II)一鞍回避/细化阶段,我们表明,该梯度的轨迹从迭代移动离开某些简并鞍点,和(III)的本地细化阶段,其中,我们表明,避免了鞍座后的迭代快速收敛到底层低秩矩阵。底层我们的分析是,可能有超出低等级的重建计算问题影响overparameterized非凸优化方案的分析见解。
translated by 谷歌翻译
在深度学习中,常见的是神经网络,即使用比训练样本更多的参数。非常令人惊讶地训练神经网络(随机)梯度下降导致概括得很好的模型,而古典统计会提出过度装备。为了了解这种隐含偏差现象,我们研究了自己感兴趣的稀疏恢复(压缩感测)的特殊情况。更确切地说,为了重建来自未确定的线性测量的矢量,我们引入了相应的过正常的方形损耗功能,其中要重建的载体深深地分解成几个载体。我们表明,在测量矩阵上的一个非常温和的假设下,用于过次分辨率的损耗功能的香草梯度流量会聚到最小$ \ ell_1 $ -norm的解决方案。后者众所周知,可以促进稀疏解决方案。作为副产品,我们的结果显着提高了先前作品中压缩感应的样本复杂性。该理论准确地预测数值实验中的回收率。对于证明,我们介绍了{\ texit {solution entopy}}的概念,它绕过了非凸起引起的障碍,并且应该是独立的兴趣。
translated by 谷歌翻译
现代神经网络通常以强烈的过度构造状态运行:它们包含许多参数,即使实际标签被纯粹随机的标签代替,它们也可以插入训练集。尽管如此,他们在看不见的数据上达到了良好的预测错误:插值训练集并不会导致巨大的概括错误。此外,过度散色化似乎是有益的,因为它简化了优化景观。在这里,我们在神经切线(NT)制度中的两层神经网络的背景下研究这些现象。我们考虑了一个简单的数据模型,以及各向同性协变量的矢量,$ d $尺寸和$ n $隐藏的神经元。我们假设样本量$ n $和尺寸$ d $都很大,并且它们在多项式上相关。我们的第一个主要结果是对过份术的经验NT内核的特征结构的特征。这种表征意味着必然的表明,经验NT内核的最低特征值在$ ND \ gg n $后立即从零界限,因此网络可以在同一制度中精确插值任意标签。我们的第二个主要结果是对NT Ridge回归的概括误差的表征,包括特殊情况,最小值-ULL_2 $ NORD插值。我们证明,一旦$ nd \ gg n $,测试误差就会被内核岭回归之一相对于无限宽度内核而近似。多项式脊回归的误差依次近似后者,从而通过与激活函数的高度组件相关的“自我诱导的”项增加了正则化参数。多项式程度取决于样本量和尺寸(尤其是$ \ log n/\ log d $)。
translated by 谷歌翻译