在过度参数化的深度神经网络中,可能有许多可能的参数配置,可以完全适合训练数据。然而,这些内插解决方案的性质理解得很差。我们认为,随机梯度血淋于训练的过度参数化神经网络受几何偶数的剃刀;也就是说,通过几何模型复杂性隐式规范这些网络。对于一维回归,几何模型复杂性仅由函数的电弧长度给出。对于高维设置,几何模型复杂性取决于功能的Dirichlet能量。我们探讨了这种几何偶数剃须刀,Dirichlet能量和其他已知形式的隐式正则化的关系。最后,对于在CiFar-10上培训的Resnets,我们观察到Dirichlet Energy测量与这种隐式几何偶数剃刀的动作一致。
translated by 谷歌翻译
在许多情况下,更简单的模型比更复杂的模型更可取,并且该模型复杂性的控制是机器学习中许多方法的目标,例如正则化,高参数调整和体系结构设计。在深度学习中,很难理解复杂性控制的潜在机制,因为许多传统措施并不适合深度神经网络。在这里,我们开发了几何复杂性的概念,该概念是使用离散的dirichlet能量计算的模型函数变异性的量度。使用理论论据和经验结果的结合,我们表明,许多常见的训练启发式方法,例如参数规范正规化,光谱规范正则化,平稳性正则化,隐式梯度正则化,噪声正则化和参数初始化的选择,都可以控制几何学复杂性,并提供一个统一的框架,以表征深度学习模型的行为。
translated by 谷歌翻译
梯度下降可能令人惊讶地擅长优化深层神经网络,而不会过度拟合并且没有明确的正则化。我们发现,梯度下降的离散步骤通过惩罚具有较大损耗梯度的梯度下降轨迹来隐式化模型。我们称之为隐式梯度正则化(IGR),并使用向后错误分析来计算此正则化的大小。我们从经验上确认,隐式梯度正则化偏向梯度下降到平面最小值,在该较小情况下,测试误差很小,溶液对嘈杂的参数扰动是可靠的。此外,我们证明了隐式梯度正规化项可以用作显式正常化程序,从而使我们能够直接控制此梯度正则化。从更广泛的角度来看,我们的工作表明,向后错误分析是一种有用的理论方法,即对学习率,模型大小和参数正则化如何相互作用以确定用梯度下降优化的过度参数化模型的属性。
translated by 谷歌翻译
表征过度参数化神经网络的显着概括性能仍然是一个开放的问题。在本文中,我们促进了将重点转移到初始化而不是神经结构或(随机)梯度下降的转变,以解释这种隐式的正则化。通过傅立叶镜头,我们得出了神经网络光谱偏置的一般结果,并表明神经网络的概括与它们的初始化密切相关。此外,我们在经验上使用实用的深层网络巩固了开发的理论见解。最后,我们反对有争议的平米尼猜想,并表明傅立叶分析为理解神经网络的概括提供了更可靠的框架。
translated by 谷歌翻译
Neural networks are known to be a class of highly expressive functions able to fit even random inputoutput mappings with 100% accuracy. In this work we present properties of neural networks that complement this aspect of expressivity. By using tools from Fourier analysis, we highlight a learning bias of deep networks towards low frequency functions -i.e. functions that vary globally without local fluctuations -which manifests itself as a frequency-dependent learning speed. Intuitively, this property is in line with the observation that over-parameterized networks prioritize learning simple patterns that generalize across data samples. We also investigate the role of the shape of the data manifold by presenting empirical and theoretical evidence that, somewhat counter-intuitively, learning higher frequencies gets easier with increasing manifold complexity.
translated by 谷歌翻译
众所周知,过度参数化的深网能够完全拟合训练数据,同时显示出良好的概括性能。从线性回归上的直觉中得出的常见范式表明,大型网络甚至可以插入嘈杂的数据,而不会显着偏离地面真相信号。目前,缺少这种现象的精确表征。在这项工作中,我们介绍了深网的损失景观清晰度的实证研究,因为我们系统地控制了模型参数和训练时期的数量。我们将研究扩展到培训数据的街区以及清洁和嘈杂标记的样本。我们的发现表明,输入空间中的损失清晰度均遵循模型和时期的双重下降,在嘈杂的标签周围观察到了较差的峰值。与现有直觉相比,小型插值模型尤其适合干净和嘈杂的数据,但大型模型表达了平稳而平坦的损失景观。
translated by 谷歌翻译
基于梯度的深度学习算法在实践中表现出色,但这并不理解为什么尽管参数比训练示例更多,但他们能够概括得多。人们认为,隐性偏见是其概括能力的关键因素,因此近年来已经对其进行了广泛的研究。在这项简短的调查中,我们解释了隐性偏见的概念,回顾主要结果并讨论其含义。
translated by 谷歌翻译
我们研究由SGD的变体训练的Relu神经网络的隐式偏置,其中在每个步骤中,标签以概率$ P $更改为随机标签(标记平滑是该过程的关闭变体)。我们的实验表明,标签噪声在以下意义上推动网络到稀疏解决方案:对于典型的输入,一小部分神经元是有效的,并且隐藏层的烧制图案是稀疏的。实际上,对于某些情况,适当的标签噪声不仅缩小网络,而且还减少了测试错误。然后,我们转向这些稀疏机制的理论分析,重点关注$ p = 1 $的极值案例。我们展示在这种情况下,网络沿着实验预期,但令人惊讶的是,以不同的方式依赖于学习率和偏见的存在,有重量消失或释放的神经元。
translated by 谷歌翻译
With a goal of understanding what drives generalization in deep networks, we consider several recently suggested explanations, including norm-based control, sharpness and robustness. We study how these measures can ensure generalization, highlighting the importance of scale normalization, and making a connection between sharpness and PAC-Bayes theory. We then investigate how well the measures explain different observed phenomena.
translated by 谷歌翻译
重要的是要了解流行的正则化方法如何帮助神经网络训练找到良好的概括解决方案。在这项工作中,我们从理论上得出了辍学的隐式正则化,并研究了损失函数的Hessian矩阵与辍学噪声的协方差矩阵之间的关系,并由一系列实验支持。然后,我们在数值上研究了辍学的隐式正规化的两个含义,这直觉上合理化了辍学有助于概括。首先,我们发现辍学的训练与实验中的标准梯度下降训练相比,发现具有最低最小的神经网络,而隐式正则化是找到平坦溶液的关键。其次,经过辍学的训练,隐藏神经元的输入权重(隐藏神经元的输入权重由其输入层到隐藏的神经元及其偏见项组成),往往会凝结在孤立的方向上。凝结是非线性学习过程中的一个功能,它使神经网络的复杂性低。尽管我们的理论主要集中在最后一个隐藏层中使用的辍学,但我们的实验适用于训练神经网络中的一般辍学。这项工作指出了与随机梯度下降相比,辍学的独特特征,是完全理解辍学的重要基础。
translated by 谷歌翻译
神经网络是通用函数近似器,尽管过度参数过多,但已知可以很好地概括。我们从神经网络的光谱偏置的角度研究了这种现象。我们的贡献是两个方面。首先,我们通过利用与有限元方法理论的联系来为Relu神经网络的光谱偏置提供理论解释。其次,基于该理论,我们预测将激活函数切换到分段线性B-Spline(即HAT函数)将消除这种频谱偏置,我们在各种设置中进行经验验证。我们的经验研究还表明,使用随机梯度下降和ADAM对具有HAT激活功能的神经网络进行了更快的训练。结合以前的工作表明,HAT激活功能还提高了图像分类任务的概括精度,这表明使用HAT激活在某些问题上具有重大优势。
translated by 谷歌翻译
由于其出色的近似功率和泛化能力,物理知识的神经网络(PINNS)已成为求解高维局部微分方程(PDE)的流行选择。最近,基于域分解方法的扩展Pinns(Xpinns)由于其在模拟多尺度和多体问题问题及其平行化方面的有效性而引起了相当大的关注。但是,对其融合和泛化特性的理论理解仍未开发。在这项研究中,我们迈出了了解XPinns优于拼接的方式和当Xpinns差异的初步步骤。具体地,对于一般多层PinNS和Xpinn,我们首先通过PDE问题中的目标函数的复杂性提供先前的泛化,并且在优化之后通过网络的后矩阵规范结合。此外,根据我们的界限,我们分析了Xpinns改善泛化的条件。具体地,我们的理论表明,XPinn的关键构建块,即域分解,介绍了泛化的权衡。一方面,Xpinns将复杂的PDE解决方案分解为几个简单的部分,这降低了学习每个部分所需的复杂性并提高泛化。另一方面,分解导致每个子域内可用的训练数据较少,因此这种模型通常容易过度拟合,并且可能变得不那么广泛。经验上,我们选择五个PDE来显示XPinns比Pinns更好,类似于或更差,因此证明和证明我们的新理论。
translated by 谷歌翻译
了解通过随机梯度下降(SGD)训练的神经网络的特性是深度学习理论的核心。在这项工作中,我们采取了平均场景,并考虑通过SGD培训的双层Relu网络,以实现一个非变量正则化回归问题。我们的主要结果是SGD偏向于简单的解决方案:在收敛时,Relu网络实现输入的分段线性图,以及“结”点的数量 - 即,Relu网络估计器的切线变化的点数 - 在两个连续的训练输入之间最多三个。特别地,随着网络的神经元的数量,通过梯度流的解决方案捕获SGD动力学,并且在收敛时,重量的分布方法接近相关的自由能量的独特最小化器,其具有GIBBS形式。我们的主要技术贡献在于分析了这一最小化器产生的估计器:我们表明其第二阶段在各地消失,除了代表“结”要点的一些特定地点。我们还提供了经验证据,即我们的理论预测的不同可能发生与数据点不同的位置的结。
translated by 谷歌翻译
在过分层化的模型中,随机梯度下降(SGD)中的噪声隐含地规则地规则地规范优化轨迹并确定哪个局部最小SGD收敛到。通过实证研究的推动,表明利用嘈杂标签的培训改善了泛化,我们研究了SGD与标签噪声的隐式正则化效果。我们展示了标签噪声的SGD收敛到正规化损失$ l(\θ)+ \ lambda r(\ theta)$的静止点,其中$ l(\ theta)$是培训损失,$ \ lambda $有效的正则化参数,具体取决于步骤尺寸,标签噪声的强度和批量大小,以及$ r(\ theta)$是一个惩罚剧本最小化器的显式规范器。我们的分析揭示了大型学习率的额外正则化效果,超出了线性扩展规则,这些规则惩罚了Hessian的大型特征值,而不是小小的。我们还证明了与一般损失职能,SGD的分类分类,以及具有一般噪声协方差的SGD,大大加强了Blanc等人的前后工作。全球融合和大型学习率和哈奇等人。一般模型。
translated by 谷歌翻译
这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言,我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中,我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式,并解决了与神经网络性能相关的一些问题,包括选择激活功能,成本功能,过度适应问题和正则化。在第2章中,我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念,尤其是研究实现连续函数的Stone-WeierStrass定理。然后,在线性近似的框架内,我们回顾了馈电网络的密度和收敛速率的一些经典结果,然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中,利用非线性近似理论,我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。
translated by 谷歌翻译
我们介绍了嘈杂的特征混音(NFM),这是一个廉价但有效的数据增强方法,这些方法结合了基于插值的训练和噪声注入方案。不是用凸面的示例和它们的标签的凸面组合训练,而不是在输入和特征空间中使用对数据点对的噪声扰动凸组合。该方法包括混合和歧管混合作为特殊情况,但它具有额外的优点,包括更好地平滑决策边界并实现改进的模型鲁棒性。我们提供理论要理解这一点以及NFM的隐式正则化效果。与混合和歧管混合相比,我们的理论得到了经验结果的支持,展示了NFM的优势。我们表明,在一系列计算机视觉基准数据集中,使用NFM培训的剩余网络和视觉变压器在清洁数据的预测准确性和鲁棒性之间具有有利的权衡。
translated by 谷歌翻译
Helmholtz方程已被用于在谐波负载下建模声压场。通过求解Helmholtz方程计算谐波声压场,如果想要研究许多不同的几何形状,可以迅速变得不可行,以便频率范围。我们提出了一种机器学习方法,即前馈密集神经网络,用于在频率范围内计算平均声压。通过数值计算平均声压的响应,通过对压力的特征模分分解来产生数据。我们分析近似的准确性,并确定需要多少训练数据,以便在平均压力响应的预测中达到一定的准确性。
translated by 谷歌翻译
Neural networks trained on large datasets by minimizing a loss have become the state-of-the-art approach for resolving data science problems, particularly in computer vision, image processing and natural language processing. In spite of their striking results, our theoretical understanding about how neural networks operate is limited. In particular, what are the interpolation capabilities of trained neural networks? In this paper we discuss a theorem of Domingos stating that "every machine learned by continuous gradient descent is approximately a kernel machine". According to Domingos, this fact leads to conclude that all machines trained on data are mere kernel machines. We first extend Domingo's result in the discrete case and to networks with vector-valued output. We then study its relevance and significance on simple examples. We find that in simple cases, the "neural tangent kernel" arising in Domingos' theorem does provide understanding of the networks' predictions. Furthermore, when the task given to the network grows in complexity, the interpolation capability of the network can be effectively explained by Domingos' theorem, and therefore is limited. We illustrate this fact on a classic perception theory problem: recovering a shape from its boundary.
translated by 谷歌翻译
由编码器和解码器组成的自动编码器被广泛用于机器学习,以缩小高维数据的尺寸。编码器将输入数据歧管嵌入到较低的潜在空间中,而解码器表示反向映射,从而提供了潜在空间中的歧管的数据歧管的参数化。嵌入式歧管的良好规律性和结构可以实质性地简化进一步的数据处理任务,例如群集分析或数据插值。我们提出并分析了一种新的正则化,以学习自动编码器的编码器组件:一种损失功能,可倾向于等距,外层平坦的嵌入,并允许自行训练编码器。为了进行训练,假定对于输入歧管上的附近点,他们的本地riemannian距离及其本地riemannian平均水平可以评估。损失函数是通过蒙特卡洛集成计算的,具有不同的采样策略,用于输入歧管上的一对点。我们的主要定理将嵌入图的几何损失函数识别为$ \ gamma $ - 依赖于采样损失功能的限制。使用编码不同明确给定的数据歧管的图像数据的数值测试表明,将获得平滑的歧管嵌入到潜在空间中。由于促进了外部平坦度,这些嵌入足够规律,因此在潜在空间中线性插值可以作为一种可能的后处理。
translated by 谷歌翻译
我们识别并形式化基本梯度下降现象,导致过度参数化神经网络中的学习倾向。尽管存在对任务相关的特征的子集最小化跨熵损失最小化梯度饥饿,尽管存在是否存在无法被发现的其他预测功能。这项工作为神经网络中这种特征不平衡的出现提供了理论解释。使用来自动态系统理论的工具,我们在梯度下降期间确定了学习动态的简单属性,从而导致这种不平衡,并证明可以预期这种情况在训练数据中提供某些统计结构。根据我们拟议的形式主义,我们为旨在解耦特征学习动态的新型正则化方法,提高患者渐变饥饿阻碍的准确性和鲁棒性的担保。我们用简单和真实的分配(OOD)泛化实验说明了我们的研究结果。
translated by 谷歌翻译