智能论文笔记

Do Residual Neural Networks discretize Neural Ordinary Differential Equations?

Michael E. Sander , Pierre Ablin , Gabriel Peyré

分类：机器学习 | (统计)机器学习

2022-05-29

神经普通微分方程（神经ODE）是残留神经网络（RESNETS）的连续类似物。我们研究了重新NET定义的离散动力学是否接近连续的神经颂歌。我们首先量化了Resnet的隐藏状态轨迹与其相应神经ODE的解之间的距离。我们的界限很紧，在负面的一侧，如果残留函数的深度不光滑，则不会以深度为0。在正面，我们表明这种平滑度是通过梯度下降来保留的，该梯度下降具有线性残留功能和足够小的初始损失的重新系统。它确保在n上以1的速率1均匀地沿速率1的速率和优化时间对极限神经的隐式正则化。作为我们分析的副产品，我们考虑使用不含内存的离散伴随方法来训练重新NET，通过通过网络的向后传动恢复激活，并证明该方法理论上在大深度上取得了成功，如果残留功能是带有输入的Lipschitz。然后，我们证明HEUN的方法是一种二阶Ode集成方案，当残留函数及其深度平滑时，使用伴随方法进行更好的梯度估计。我们通过实验验证我们的伴随方法在很大程度上取得了成功，并且Heun方法需要更少的层才能成功。我们最终成功地使用了伴随方法来微调非常深的重新连接，而无需残留层的内存消耗。

translated by 谷歌翻译

Scaling ResNets in the Large-depth Regime

Pierre Marion , Adeline Fermanian , Gérard Biau , Jean-Philippe Vert

分类：机器学习 | (统计)机器学习

2022-06-14

深度重新结合因实现最新的机器学习任务而被认可。但是，这些体系结构的出色性能取决于培训程序，需要精心制作以避免消失或爆炸梯度，尤其是随着深度$ l $的增加。关于如何减轻此问题，尚无共识，尽管广泛讨论的策略在于将每一层的输出缩放为$ \ alpha_l $。我们在概率环境中显示标准I.I.D.初始化，唯一的非平凡动力学是$ \ alpha_l = 1/\ sqrt {l} $（其他选择导致爆炸或身份映射）。该缩放因子在连续的时间限制中对应于神经随机微分方程，这与广泛的解释相反，即深度重新连接是神经普通微分方程的离散化。相比之下，在后一种制度中，具有特定相关初始化和$ \ alpha_l = 1/l $获得稳定性。我们的分析表明，与层指数的函数之间的缩放比例和规律性之间存在很强的相互作用。最后，在一系列实验中，我们表现出由这两个参数驱动的连续范围，这在训练之前和之后会共同影响性能。

translated by 谷歌翻译

Asymptotic Analysis of Deep Residual Networks

Rama Cont , Alain Rossier , Renyuan Xu

分类：机器学习

2022-12-15

We investigate the asymptotic properties of deep Residual networks (ResNets) as the number of layers increases. We first show the existence of scaling regimes for trained weights markedly different from those implicitly assumed in the neural ODE literature. We study the convergence of the hidden state dynamics in these scaling regimes, showing that one may obtain an ODE, a stochastic differential equation (SDE) or neither of these. In particular, our findings point to the existence of a diffusive regime in which the deep network limit is described by a class of stochastic differential equations (SDEs). Finally, we derive the corresponding scaling limits for the backpropagation dynamics.

translated by 谷歌翻译

Continuous vs. Discrete Optimization of Deep Neural Networks

Omer Elkabetz , Nadav Cohen

分类：机器学习 | 人工智能 | 神经与进化计算

2021-07-14

在深度学习中的优化分析是连续的，专注于（变体）梯度流动，或离散，直接处理（变体）梯度下降。梯度流程可符合理论分析，但是风格化并忽略计算效率。它代表梯度下降的程度是深度学习理论的一个开放问题。目前的论文研究了这个问题。将梯度下降视为梯度流量初始值问题的近似数值问题，发现近似程度取决于梯度流动轨迹周围的曲率。然后，我们表明，在具有均匀激活的深度神经网络中，梯度流动轨迹享有有利的曲率，表明它们通过梯度下降近似地近似。该发现允许我们将深度线性神经网络的梯度流分析转换为保证梯度下降，其几乎肯定会在随机初始化下有效地收敛到全局最小值。实验表明，在简单的深度神经网络中，具有传统步长的梯度下降确实接近梯度流。我们假设梯度流动理论将解开深入学习背后的奥秘。

translated by 谷歌翻译

Deep Learning Approximation of Diffeomorphisms via Linear-Control Systems

Alessandro Scagliotti

分类：机器学习

2021-10-24

在本文中，我们提出了一个深度学习架构，以将差异性差异与身份近似。我们考虑一个表单的控制系统$ \ dot x = \ sum_ {i = 1}^lf_i（x）u_i $，在控件中具有线性依赖性，我们使用相应的流程来近似差异性对差异性的作用紧凑的积分合奏。尽管控制系统的简单性，但最近已证明通用近似属性仍然存在。最小化训练误差和正规化项的总和的问题会导致在可接受控制的空间中引起梯度流。离散时间神经网络的可能培训程序包括将梯度流投射到可允许控件的有限维子空间上。另一种方法依赖于基于Pontryagin的最大原理的迭代方法来解决最佳控制问题的数值。在这里，由于系统在控制变量中的线性依赖性，可以以极低的计算工作来实现哈密顿量的最大化。

translated by 谷歌翻译

Understanding Gradient Descent on Edge of Stability in Deep Learning

Sanjeev Arora , Zhiyuan Li , Abhishek Panigrahi

分类：机器学习

2022-05-19

Cohen等人的深度学习实验。 [2021]使用确定性梯度下降（GD）显示学习率（LR）和清晰度（即Hessian最大的特征值）的稳定边缘（EOS）阶段不再像传统优化一样行为。清晰度稳定在$ 2/$ LR的左右，并且在迭代中损失不断上下，但仍有整体下降趋势。当前的论文数学分析了EOS阶段中隐式正则化的新机制，因此，由于非平滑损失景观而导致的GD更新沿着最小损失的多种流量进行了一些确定性流程发展。这与许多先前关于隐式偏差依靠无限更新或梯度中的噪声的结果相反。正式地，对于具有某些规律性条件的任何平滑函数$ l $，对于（1）标准化的GD，即具有不同的lr $ \ eta_t = \ frac {\ eta} {||的GD证明了此效果。 \ nabla l（x（t））||} $和损失$ l $; （2）具有常数LR和损失$ \ sqrt {l- \ min_x l（x）} $的GD。两者都可以证明进入稳定性的边缘，在歧管上相关的流量最小化$ \ lambda_ {1}（\ nabla^2 l）$。一项实验研究证实了上述理论结果。

translated by 谷歌翻译

Overparameterization of deep ResNet: zero loss and mean-field analysis

Zhiyan Ding , Shi Chen , Qin Li , Stephen Wright

分类：机器学习 | (统计)机器学习

2021-05-30

在一个拟合训练数据的深度神经网络（NN）中找到参数是一个非渗透优化问题，但基本的一阶优化方法（梯度下降）在许多实际情况下，具有完美拟合（零损失）的全局优化器。我们在限制性制度中检查残留神经网络（Reset）的剩余神经网络（Reset）的情况的这种现象，其中每个层（宽度）的层数（深度）和权重的数量均转到无穷大。首先，我们使用平均场限制参数来证明参数训练的梯度下降成为概率分布的梯度流，其特征在于大NN限制中的部分微分方程（PDE）。接下来，我们表明，在某些假设下，PDE的解决方案在训练时间内收敛到零损失解决方案。这些结果表明，如果Reset足够大，则reset的培训给出了近零损失。我们给出了减少给定阈值以下低于给定阈值的损失所需的深度和宽度的估计值。

translated by 谷歌翻译

Training Integrable Parameterizations of Deep Neural Networks in the Infinite-Width Limit

Karl Hajjar , Lénaïc Chizat , Christophe Giraud

分类：机器学习

2021-10-29

为了理论上了解训练有素的深神经网络的行为，有必要研究来自随机初始化的梯度方法引起的动态。然而，这些模型的非线性和组成结构使得这些动态难以分析。为了克服这些挑战，最近出现了大宽度的渐近学作为富有成效的观点，并导致了对真实世界的深网络的实用洞察。对于双层神经网络，已经通过这些渐近学理解，训练模型的性质根据初始随机权重的规模而变化，从内核制度（大初始方差）到特征学习制度（对于小初始方差）。对于更深的网络，更多的制度是可能的，并且在本文中，我们详细研究了与神经网络的“卑鄙字段”限制相对应的“小”初始化的特定选择，我们称之为可分配的参数化（IP）。首先，我们展示了标准I.I.D.零平均初始化，具有多于四个层的神经网络的可集参数，从无限宽度限制的静止点开始，并且不会发生学习。然后，我们提出了各种方法来避免这种琐碎的行为并详细分析所得到的动态。特别是，这些方法中的一种包括使用大的初始学习速率，并且我们表明它相当于最近提出的最大更新参数化$ \ mu $ p的修改。我们将结果与图像分类任务的数值实验确认，其另外显示出在尚未捕获的激活功能的各种选择之间的行为中的强烈差异。

translated by 谷歌翻译

On the Global Convergence of Gradient Descent for multi-layer ResNets in the mean-field regime

Zhiyan Ding , Shi Chen , Qin Li , Stephen Wright

分类：机器学习 | (统计)机器学习

2021-10-06

找到Reset中的参数的最佳配置是一个非凸显最小化问题，但一阶方法尽管如此，找到了过度分辨率制度的全局最优。通过将Reset的训练过程转化为梯度流部分微分方程（PDE）和检查该限制过程的收敛性能，我们研究了这种现象。假设激活函数为2美元 - 最佳或部分$ 1 $-homerence;正则Relu满足后一种条件。我们表明，如果Reset足够大，则深度和宽度根据代数上的准确性和置信水平，一阶优化方法可以找到适合培训数据的全局最小化器。

translated by 谷歌翻译

A Neural Tangent Kernel Perspective of GANs

Jean-yves Franceschi , Emmanuel de Bézenac , Ibrahim Ayed , Mickaël Chen , Sylvain Lamprier , Patrick Gallinari

分类：机器学习 | 神经与进化计算 | (统计)机器学习

2021-06-10

我们为生成对抗网络（GAN）提出了一个新颖的理论框架。我们揭示了先前分析的基本缺陷，通过错误地对GANS的训练计划进行了错误的建模，该缺陷受到定义不定的鉴别梯度的约束。我们克服了这个问题，该问题阻碍了对GAN培训的原则研究，并考虑了歧视者的体系结构在我们的框架内解决它。为此，我们通过其神经切线核为歧视者提供了无限宽度神经网络的理论。我们表征了训练有素的判别器，以实现广泛的损失，并建立网络的一般可怜性属性。由此，我们获得了有关生成分布的融合的新见解，从而促进了我们对GANS训练动态的理解。我们通过基于我们的框架的分析工具包来证实这些结果，并揭示了与GAN实践一致的直觉。

translated by 谷歌翻译

Invertible Residual Networks

Jens Behrmann , Will Grathwohl , Ricky T. Q. Chen , David Duvenaud , Jörn-Henrik Jacobsen

分类：

2018-11-02

We show that standard ResNet architectures can be made invertible, allowing the same model to be used for classification, density estimation, and generation. Typically, enforcing invertibility requires partitioning dimensions or restricting network architectures. In contrast, our approach only requires adding a simple normalization step during training, already available in standard frameworks. Invertible ResNets define a generative model which can be trained by maximum likelihood on unlabeled data. To compute likelihoods, we introduce a tractable approximation to the Jacobian log-determinant of a residual block. Our empirical evaluation shows that invertible ResNets perform competitively with both stateof-the-art image classifiers and flow-based generative models, something that has not been previously achieved with a single architecture.

translated by 谷歌翻译

A framework for bilevel optimization that enables stochastic and global variance reduction algorithms

Mathieu Dagréou , Pierre Ablin , Samuel Vaiter , Thomas Moreau

分类： (统计)机器学习 | 机器学习

2022-01-31

Bilevel优化是在机器学习的许多领域中最小化涉及另一个功能的价值函数的问题。在大规模的经验风险最小化设置中，样品数量很大，开发随机方法至关重要，而随机方法只能一次使用一些样品进行进展。但是，计算值函数的梯度涉及求解线性系统，这使得很难得出无偏的随机估计。为了克服这个问题，我们引入了一个新颖的框架，其中内部问题的解决方案，线性系统的解和主要变量同时发展。这些方向是作为总和写成的，使其直接得出无偏估计。我们方法的简单性使我们能够开发全球差异算法，其中所有变量的动力学都会降低差异。我们证明，萨巴（Saba）是我们框架中著名的传奇算法的改编，具有$ o（\ frac1t）$收敛速度，并且在polyak-lojasciewicz的假设下实现了线性收敛。这是验证这些属性之一的双光线优化的第一种随机算法。数值实验验证了我们方法的实用性。

translated by 谷歌翻译

Losing momentum in continuous-time stochastic optimisation

Kexin Jin , Jonas Latz , Chenguang Liu , Alessandro Scagliotti

分类：机器学习

2022-09-08

深度神经网络和其他现代机器学习模型的培训通常包括解决高维且受大规模数据约束的非凸优化问题。在这里，基于动量的随机优化算法在近年来变得尤其流行。随机性来自数据亚采样，从而降低了计算成本。此外，动量和随机性都应该有助于算法克服当地的最小化器，并希望在全球范围内融合。从理论上讲，这种随机性和动量的结合被糟糕地理解。在这项工作中，我们建议并分析具有动量的随机梯度下降的连续时间模型。该模型是一个分段确定的马尔可夫过程，它通过阻尼不足的动态系统和通过动力学系统的随机切换来代表粒子运动。在我们的分析中，我们研究了长期限制，子采样到无填充采样极限以及动量到非摩托车的限制。我们对随着时间的推移降低动量的情况特别感兴趣：直觉上，动量有助于在算法的初始阶段克服局部最小值，但禁止后来快速收敛到全球最小化器。在凸度的假设下，当降低随时间的动量时，我们显示了动力学系统与全局最小化器的收敛性，并让子采样率转移到无穷大。然后，我们提出了一个稳定的，合成的离散方案，以从我们的连续时间动力学系统中构造算法。在数值实验中，我们研究了我们在凸面和非凸测试问题中的离散方案。此外，我们训练卷积神经网络解决CIFAR-10图像分类问题。在这里，与动量相比，我们的算法与随机梯度下降相比达到了竞争性结果。

translated by 谷歌翻译

The Implicit Bias for Adaptive Optimization Algorithms on Homogeneous Neural Networks

Bohan Wang , Qi Meng , Wei Chen , Tie-Yan Liu

分类：机器学习

2020-12-11

尽管他们的超大容量过度装备能力，但是由特定优化算法训练的深度神经网络倾向于概括到看不见的数据。最近，研究人员通过研究优化算法的隐式正则化效果来解释它。卓越的进展是工作（Lyu＆Li，2019），其证明了梯度下降（GD）最大化了均匀深神经网络的余量。除GD外，诸如Adagrad，RMSProp和Adam之类的自适应算法由于其快速培训过程而流行。然而，仍然缺乏适应性优化算法的概括的理论保证。在本文中，我们研究了自适应优化算法的隐式正则化，当它们在均匀深神经网络上优化逻辑损失时。我们证明了在调节器（如亚当和RMSProp）中采用指数移动平均策略的自适应算法可以最大化神经网络的余量，而Adagrad直接在调节器中总和历史平方梯度。它表明了调节剂设计中指数移动平均策略的概括的优越性。从技术上讲，我们提供统一的框架，通过构建新的自适应梯度流量和代理余量来分析自适应优化算法的会聚方向。我们的实验可以很好地支持适应性优化算法的会聚方向的理论发现。

translated by 谷歌翻译

JFB: Jacobian-Free Backpropagation for Implicit Networks

Samy Wu Fung , Howard Heaton , Qiuwei Li , Daniel McKenzie , Stanley Osher , Wotao Yin

分类：机器学习

2021-03-23

深度学习的一个有前景的趋势取代了具有隐式网络的传统馈送网络。与传统网络不同，隐式网络解决了一个固定点方程来计算推断。解决固定点的复杂性变化，具体取决于提供的数据和误差容差。重要的是，可以通过与前馈网络的STARK对比度训练隐式网络，其内存需求与深度线性缩放。但是，没有免费的午餐 - 通过隐式网络锻造BackPropagation通常需要解决从隐式功能定理引起的昂贵的Jacobian等方程。我们提出了无雅各比的BackPropagation（JFB），一种固定内存方法，这些方法旨在解决基于雅略族裔的基于雅代族人的方程。 JFB使隐式网络更快地培训，并明显更容易实现，而不会牺牲测试精度。我们的实验表明，使用JFB培训的隐式网络与给出相同数量的参数的前馈网络和现有的隐式网络具有竞争力。

translated by 谷歌翻译

Understanding the Generalization Benefit of Normalization Layers: Sharpness Reduction

Kaifeng Lyu , Zhiyuan Li , Sanjeev Arora

分类：机器学习 | 人工智能

2022-06-14

引入了归一化层（例如，批处理归一化，层归一化），以帮助在非常深的网中获得优化困难，但它们显然也有助于概括，即使在不太深入的网中也是如此。由于长期以来的信念，即最小的最小值导致更好的概括，本文提供了数学分析和支持实验，这表明归一化（与伴随的重量赛一起）鼓励GD降低损失表面的清晰度。鉴于损失是标准不变的，这是标准化的已知结果，因此仔细地定义了“清晰度”。具体而言，对于具有归一化的相当广泛的神经网类，我们的理论解释了有限学习率的GD如何进入所谓的稳定边缘（EOS）制度，并通过连续的清晰度来表征GD的轨迹 - 还原流。

translated by 谷歌翻译

Learning Optimal Flows for Non-Equilibrium Importance Sampling

Yu Cao , Eric Vanden-Eijnden

分类： (统计)机器学习

2022-06-20

计算科学和统计推断中的许多应用都需要计算有关具有未知归一化常数的复杂高维分布以及这些常数的估计。在这里，我们开发了一种基于从简单的基本分布生成样品，沿着速度场生成的流量运输的方法，并沿这些流程线执行平均值。这种非平衡重要性采样（NEIS）策略是直接实施的，可用于具有任意目标分布的计算。在理论方面，我们讨论了如何将速度场定制到目标，并建立所提出的估计器是一个完美的估计器，具有零变化。我们还通过将基本分布映射到目标上，通过传输图绘制了NEIS和方法之间的连接。在计算方面，我们展示了如何使用深度学习来代表神经网络，并将其训练为零方差最佳。这些结果在高维示例上进行了数值说明，我们表明训练速度场可以将NEIS估计量的方差降低至6个数量级，而不是Vanilla估计量。我们还表明，NEIS在这些示例上的表现要比NEAL的退火重要性采样（AIS）更好。

translated by 谷歌翻译

Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity Bias

Kaifeng Lyu , Zhiyuan Li , Runzhe Wang , Sanjeev Arora

分类：机器学习

2021-10-26

过度分化的深网络的泛化神秘具有有动力的努力，了解梯度下降（GD）如何收敛到概括井的低损耗解决方案。现实生活中的神经网络从小随机值初始化，并以分类的“懒惰”或“懒惰”或“NTK”的训练训练，分析更成功，以及最近的结果序列（Lyu和Li ，2020年; Chizat和Bach，2020; Ji和Telgarsky，2020）提供了理论证据，即GD可以收敛到“Max-ramin”解决方案，其零损失可能呈现良好。但是，仅在某些环境中证明了余量的全球最优性，其中神经网络无限或呈指数级宽。目前的纸张能够为具有梯度流动训练的两层泄漏的Relu网，无论宽度如何，都能为具有梯度流动的双层泄漏的Relu网建立这种全局最优性。分析还为最近的经验研究结果（Kalimeris等，2019）给出了一些理论上的理由，就GD的所谓简单的偏见为线性或其他“简单”的解决方案，特别是在训练中。在悲观方面，该论文表明这种结果是脆弱的。简单的数据操作可以使梯度流量会聚到具有次优裕度的线性分类器。

translated by 谷歌翻译

Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks Trained with the Logistic Loss

Lenaic Chizat , Francis Bach

分类：

2020-02-11

Neural networks trained to minimize the logistic (a.k.a. cross-entropy) loss with gradient-based methods are observed to perform well in many supervised classification tasks. Towards understanding this phenomenon, we analyze the training and generalization behavior of infinitely wide two-layer neural networks with homogeneous activations. We show that the limits of the gradient flow on exponentially tailed losses can be fully characterized as a max-margin classifier in a certain non-Hilbertian space of functions. In presence of hidden low-dimensional structures, the resulting margin is independent of the ambiant dimension, which leads to strong generalization bounds. In contrast, training only the output layer implicitly solves a kernel support vector machine, which a priori does not enjoy such an adaptivity. Our analysis of training is non-quantitative in terms of running time but we prove computational guarantees in simplified settings by showing equivalences with online mirror descent. Finally, numerical experiments suggest that our analysis describes well the practical behavior of two-layer neural networks with ReLU activations and confirm the statistical benefits of this implicit bias.

translated by 谷歌翻译

On Lazy Training in Differentiable Programming

Lenaic Chizat , Edouard Oyallon , Francis Bach

分类：

2018-12-19

In a series of recent theoretical works, it was shown that strongly overparameterized neural networks trained with gradient-based methods could converge exponentially fast to zero training loss, with their parameters hardly varying. In this work, we show that this "lazy training" phenomenon is not specific to overparameterized neural networks, and is due to a choice of scaling, often implicit, that makes the model behave as its linearization around the initialization, thus yielding a model equivalent to learning with positive-definite kernels. Through a theoretical analysis, we exhibit various situations where this phenomenon arises in non-convex optimization and we provide bounds on the distance between the lazy and linearized optimization paths. Our numerical experiments bring a critical note, as we observe that the performance of commonly used non-linear deep convolutional neural networks in computer vision degrades when trained in the lazy regime. This makes it unlikely that "lazy training" is behind the many successes of neural networks in difficult high dimensional tasks.

translated by 谷歌翻译