我们考虑由路径可分化的矢量字段驱动的常微分方程(ODES)的流动。路径可微分功能构成了Lipschitz功能的适当子类,其承认保守梯度,与基本微积分规则兼容的广义衍生物的概念。我们的主要结果表明这种流程继承了驾驶矢量字段的路径可分性特性。我们表明,敏感性差分夹杂物给出的衍生物的前进传播为流程提供了保守的雅各比。这允许提出伴随方法的非光滑版本,其可以应用于oDe约束下的积分成本。该结果构成了应用小型步骤第一订单方法的理论基础,以解决具有参数化颂占约束的广泛的非流动优化问题。这通过基于所提出的非流动伴随的小型第一订单方法的汇聚来说明。
translated by 谷歌翻译
We leverage path differentiability and a recent result on nonsmooth implicit differentiation calculus to give sufficient conditions ensuring that the solution to a monotone inclusion problem will be path differentiable, with formulas for computing its generalized gradient. A direct consequence of our result is that these solutions happen to be differentiable almost everywhere. Our approach is fully compatible with automatic differentiation and comes with assumptions which are easy to check, roughly speaking: semialgebraicity and strong monotonicity. We illustrate the scope of our results by considering three fundamental composite problem settings: strongly convex problems, dual solutions to convex minimization problems and primal-dual solutions to min-max problems.
translated by 谷歌翻译
Langevin-diffusion形式的随机微分方程已获得了最近的重大作用,这要归功于它们在贝叶斯采样算法中的基本作用和在机器学习中的优化。在后者中,它们是训练过度参数化模型中随机梯度流的概念模型。但是,文献通常假定电势的平滑度,其梯度是漂移项。然而,存在许多问题,对于潜在的功能并非不断差异,因此漂移并不是到处都是lipschitz的连续。在回归问题中,可靠的损失和整流的线性单位来说明这一点。在本文中,我们在适合机器学习设置的假设下展示了有关Langevin型随机差异夹杂物的流动和渐近特性的一些基本结果。特别是,我们显示了溶液的强烈存在,以及规范自由能功能的渐近最小化。
translated by 谷歌翻译
Wassersein梯度流通概率措施在各种优化问题中发现了许多应用程序。它们通常由于由涉及梯度型电位的一些平均场相互作用而发展的可交换粒子系统的连续极限。然而,在许多问题中,例如在多层神经网络中,所谓的粒子是在节点可更换的大图上的边缘权重。已知这样的大图可以收敛到连续的限制,称为Graphons,因为它们的大小增长到无穷大。我们表明,边缘权重的合适功能的欧几里德梯度流量会聚到可以被适当地描述为梯度流的曲线上的曲线给出的新型连续轴限制,或者更重要的是最大斜率的曲线。我们的设置涵盖了诸如同性恋功能和标量熵的石墨源上的几种自然功能,并详细介绍了示例。
translated by 谷歌翻译
在一个拟合训练数据的深度神经网络(NN)中找到参数是一个非渗透优化问题,但基本的一阶优化方法(梯度下降)在许多实际情况下,具有完美拟合(零损失)的全局优化器。我们在限制性制度中检查残留神经网络(Reset)的剩余神经网络(Reset)的情况的这种现象,其中每个层(宽度)的层数(深度)和权重的数量均转到无穷大。首先,我们使用平均场限制参数来证明参数训练的梯度下降成为概率分布的梯度流,其特征在于大NN限制中的部分微分方程(PDE)。接下来,我们表明,在某些假设下,PDE的解决方案在训练时间内收敛到零损失解决方案。这些结果表明,如果Reset足够大,则reset的培训给出了近零损失。我们给出了减少给定阈值以下低于给定阈值的损失所需的深度和宽度的估计值。
translated by 谷歌翻译
找到Reset中的参数的最佳配置是一个非凸显最小化问题,但一阶方法尽管如此,找到了过度分辨率制度的全局最优。通过将Reset的训练过程转化为梯度流部分微分方程(PDE)和检查该限制过程的收敛性能,我们研究了这种现象。假设激活函数为2美元 - 最佳或部分$ 1 $-homerence;正则Relu满足后一种条件。我们表明,如果Reset足够大,则深度和宽度根据代数上的准确性和置信水平,一阶优化方法可以找到适合培训数据的全局最小化器。
translated by 谷歌翻译
显示了最佳的收敛速率,显示了对保守随机偏微分方程的平均场限制对解决方案解决方案解决方案解决方案的收敛。作为第二个主要结果,该SPDE的定量中心极限定理再次得出,并以最佳的收敛速率得出。该结果尤其适用于在过叠层化的,浅的神经网络中与SPDES溶液中随机梯度下降动力学的平均场缩放率的收敛性。结果表明,在限制SPDE中包含波动可以提高收敛速度,并保留有关随机梯度下降的波动的信息。
translated by 谷歌翻译
We consider stochastic gradient descents on the space of large symmetric matrices of suitable functions that are invariant under permuting the rows and columns using the same permutation. We establish deterministic limits of these random curves as the dimensions of the matrices go to infinity while the entries remain bounded. Under a "small noise" assumption the limit is shown to be the gradient flow of functions on graphons whose existence was established in arXiv:2111.09459. We also consider limits of stochastic gradient descents with added properly scaled reflected Brownian noise. The limiting curve of graphons is characterized by a family of stochastic differential equations with reflections and can be thought of as an extension of the classical McKean-Vlasov limit for interacting diffusions. The proofs introduce a family of infinite-dimensional exchangeable arrays of reflected diffusions and a novel notion of propagation of chaos for large matrices of interacting diffusions.
translated by 谷歌翻译
计算科学和统计推断中的许多应用都需要计算有关具有未知归一化常数的复杂高维分布以及这些常数的估计。在这里,我们开发了一种基于从简单的基本分布生成样品,沿着速度场生成的流量运输的方法,并沿这些流程线执行平均值。这种非平衡重要性采样(NEIS)策略是直接实施的,可用于具有任意目标分布的计算。在理论方面,我们讨论了如何将速度场定制到目标,并建立所提出的估计器是一个完美的估计器,具有零变化。我们还通过将基本分布映射到目标上,通过传输图绘制了NEIS和方法之间的连接。在计算方面,我们展示了如何使用深度学习来代表神经网络,并将其训练为零方差最佳。这些结果在高维示例上进行了数值说明,我们表明训练速度场可以将NEIS估计量的方差降低至6个数量级,而不是Vanilla估计量。我们还表明,NEIS在这些示例上的表现要比NEAL的退火重要性采样(AIS)更好。
translated by 谷歌翻译
我们在非参数二进制分类的一个对抗性训练问题之间建立了等价性,以及规范器是非识别范围功能的正则化风险最小化问题。由此产生的正常风险最小化问题允许在图像分析和基于图形学习中常常研究的$ L ^ 1 + $(非本地)$ \ Operatorvers {TV} $的精确凸松弛。这种重构揭示了丰富的几何结构,这反过来允许我们建立原始问题的最佳解决方案的一系列性能,包括存在最小和最大解决方案(以合适的意义解释),以及常规解决方案的存在(也以合适的意义解释)。此外,我们突出了对抗性训练和周长最小化问题的联系如何为涉及周边/总变化的正规风险最小化问题提供一种新颖的直接可解释的统计动机。我们的大部分理论结果与用于定义对抗性攻击的距离无关。
translated by 谷歌翻译
在深度学习中的优化分析是连续的,专注于(变体)梯度流动,或离散,直接处理(变体)梯度下降。梯度流程可符合理论分析,但是风格化并忽略计算效率。它代表梯度下降的程度是深度学习理论的一个开放问题。目前的论文研究了这个问题。将梯度下降视为梯度流量初始值问题的近似数值问题,发现近似程度取决于梯度流动轨迹周围的曲率。然后,我们表明,在具有均匀激活的深度神经网络中,梯度流动轨迹享有有利的曲率,表明它们通过梯度下降近似地近似。该发现允许我们将深度线性神经网络的梯度流分析转换为保证梯度下降,其几乎肯定会在随机初始化下有效地收敛到全局最小值。实验表明,在简单的深度神经网络中,具有传统步长的梯度下降确实接近梯度流。我们假设梯度流动理论将解开深入学习背后的奥秘。
translated by 谷歌翻译
We generalize the classical universal approximation theorem for neural networks to the case of complex-valued neural networks. Precisely, we consider feedforward networks with a complex activation function $\sigma : \mathbb{C} \to \mathbb{C}$ in which each neuron performs the operation $\mathbb{C}^N \to \mathbb{C}, z \mapsto \sigma(b + w^T z)$ with weights $w \in \mathbb{C}^N$ and a bias $b \in \mathbb{C}$, and with $\sigma$ applied componentwise. We completely characterize those activation functions $\sigma$ for which the associated complex networks have the universal approximation property, meaning that they can uniformly approximate any continuous function on any compact subset of $\mathbb{C}^d$ arbitrarily well. Unlike the classical case of real networks, the set of "good activation functions" which give rise to networks with the universal approximation property differs significantly depending on whether one considers deep networks or shallow networks: For deep networks with at least two hidden layers, the universal approximation property holds as long as $\sigma$ is neither a polynomial, a holomorphic function, or an antiholomorphic function. Shallow networks, on the other hand, are universal if and only if the real part or the imaginary part of $\sigma$ is not a polyharmonic function.
translated by 谷歌翻译
在这项工作中,证明了功能$ f $的收敛引理是分析映射的有限组成和最大运算符。引理表明,$ \ delta $ - 定位点附近附近的隔离本地最小点$ x^*$正在收缩到$ x^*$,为$ \ delta \ to 0 $。它是强烈凸出$ c^1 $函数的版本的自然扩展。但是,引理的正确性是微妙的。分析映射对于诱饵是必要的,因为用可区分或$ c^\ infty $映射代替它会导致引理错误。该证明基于{\ l} ojasiewicz的半分析集的分层定理。此证明的扩展显示了$ f $的一组固定点的几何表征。最后,提出了在固定点上的稳定性概念,称为收敛稳定性。它询问,在小数字错误下,合理的收敛优化方法是否在固定点附近开始应最终收敛到同一固定点。仅当目标函数既非滑动和非概念),趋同稳定性的概念在质量上变得无处不在。通过收敛引理,证明了$ F $的收敛稳定性的直观等效条件。这些结果共同提供了一个新的几何观点,可以研究非平滑非凸优化中“何处连接”的问题。
translated by 谷歌翻译
我们考虑了一个通用的非线性模型,其中信号是未知(可能增加的,可能增加的特征数量)的有限混合物,该特征是由由真实非线性参数参数化的连续字典发出的。在连续或离散设置中使用高斯(可能相关)噪声观察信号。我们提出了一种网格优化方法,即一种不使用参数空间上任何离散化方案的方法来估计特征的非线性参数和混合物的线性参数。我们使用有关离网方法的几何形状的最新结果,在真实的基础非线性参数上给出最小的分离,以便可以构建插值证书函数。还使用尾部界限,用于高斯过程的上流,我们将预测误差限制为高概率。假设可以构建证书函数,我们的预测误差绑定到日志 - 因线性回归模型中LASSO预测器所达到的速率类似。我们还建立了收敛速率,以高概率量化线性和非线性参数的估计质量。
translated by 谷歌翻译
储层计算系统是使用驱动的动力系统构建的,在该系统中,外部输入可以改变系统的发展状态。这些范例用于信息处理,机器学习和计算。在此框架中需要解决的一个基本问题是输入与系统状态之间的统计关系。本文提供的条件可以保证驱动系统的渐近措施的存在和唯一性,并表明当输入和输出过程的集合赋予了Wasserstein距离时,它们对输入过程的依赖性是连续的。这些发展中的主要工具是将这些不变的度量表征为在这种情况下出现并在论文中进行了大量研究的自然定义的FOIA算子的固定点。这些固定点是通过在驱动系统中施加新引入的随机状态合同性来获得的,该系统在示例中很容易验证。可以通过非国家缩减的系统来满足随机状态的合同性,这通常是为了保证储层计算中的回声状态属性的需求。结果,即使不存在Echo State属性,也可能会得到满足。
translated by 谷歌翻译
作为理解过度参数模型中梯度下降的隐式偏差的努力的一部分,有几个结果表明,如何将过份术模型上的训练轨迹理解为不同目标上的镜像。这里的主要结果是在称为通勤参数化的概念下对这种现象的表征,该概念涵盖了此设置中的所有先前结果。结果表明,具有任何通勤参数化的梯度流相当于具有相关Legendre函数的连续镜下降。相反,具有任何legendre函数的连续镜下降可以被视为具有相关通勤参数化的梯度流。后一个结果依赖于纳什的嵌入定理。
translated by 谷歌翻译
变性推理(VI)为基于传统的采样方法提供了一种吸引人的替代方法,用于实施贝叶斯推断,因为其概念性的简单性,统计准确性和计算可扩展性。然而,常见的变分近似方案(例如平均场(MF)近似)需要某些共轭结构以促进有效的计算,这可能会增加不必要的限制对可行的先验分布家族,并对变异近似族对差异进行进一步的限制。在这项工作中,我们开发了一个通用计算框架,用于实施MF-VI VIA WASSERSTEIN梯度流(WGF),这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时,我们将分析基于时间消化的WGF交替最小化方案的算法收敛,用于实现MF近似。特别是,所提出的算法类似于EM算法的分布版本,包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性,以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型,即高斯混合模型和回归模型的混合物。还进行了数值实验,以补充这两个模型下的理论发现。
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
了解随机梯度下降(SGD)的隐式偏见是深度学习的关键挑战之一,尤其是对于过度透明的模型,损失功能的局部最小化$ l $可以形成多种多样的模型。从直觉上讲,SGD $ \ eta $的学习率很小,SGD跟踪梯度下降(GD),直到它接近这种歧管为止,梯度噪声阻止了进一步的收敛。在这样的政权中,Blanc等人。 (2020)证明,带有标签噪声的SGD局部降低了常规术语,损失的清晰度,$ \ mathrm {tr} [\ nabla^2 l] $。当前的论文通过调整Katzenberger(1991)的想法提供了一个总体框架。它原则上允许使用随机微分方程(SDE)描述参数的限制动力学的SGD围绕此歧管的正规化效应(即“隐式偏见”)的正则化效应,这是由损失共同确定的功能和噪声协方差。这产生了一些新的结果:(1)与Blanc等人的局部分析相比,对$ \ eta^{ - 2} $ steps有效的隐性偏差进行了全局分析。 (2020)仅适用于$ \ eta^{ - 1.6} $ steps和(2)允许任意噪声协方差。作为一个应用程序,我们以任意大的初始化显示,标签噪声SGD始终可以逃脱内核制度,并且仅需要$ o(\ kappa \ ln d)$样本用于学习$ \ kappa $ -sparse $ -sparse yroverparame parametrized linearized Linear Modal in $ \ Mathbb {r}^d $(Woodworth等,2020),而GD在内核制度中初始化的GD需要$ \ omega(d)$样本。该上限是最小值的最佳,并改善了先前的$ \ tilde {o}(\ kappa^2)$上限(Haochen等,2020)。
translated by 谷歌翻译
In this paper we prove Gamma-convergence of a nonlocal perimeter of Minkowski type to a local anisotropic perimeter. The nonlocal model describes the regularizing effect of adversarial training in binary classifications. The energy essentially depends on the interaction between two distributions modelling likelihoods for the associated classes. We overcome typical strict regularity assumptions for the distributions by only assuming that they have bounded $BV$ densities. In the natural topology coming from compactness, we prove Gamma-convergence to a weighted perimeter with weight determined by an anisotropic function of the two densities. Despite being local, this sharp interface limit reflects classification stability with respect to adversarial perturbations. We further apply our results to deduce Gamma-convergence of the associated total variations, to study the asymptotics of adversarial training, and to prove Gamma-convergence of graph discretizations for the nonlocal perimeter.
translated by 谷歌翻译