神经网络是通用函数近似器,尽管过度参数过多,但已知可以很好地概括。我们从神经网络的光谱偏置的角度研究了这种现象。我们的贡献是两个方面。首先,我们通过利用与有限元方法理论的联系来为Relu神经网络的光谱偏置提供理论解释。其次,基于该理论,我们预测将激活函数切换到分段线性B-Spline(即HAT函数)将消除这种频谱偏置,我们在各种设置中进行经验验证。我们的经验研究还表明,使用随机梯度下降和ADAM对具有HAT激活功能的神经网络进行了更快的训练。结合以前的工作表明,HAT激活功能还提高了图像分类任务的概括精度,这表明使用HAT激活在某些问题上具有重大优势。
translated by 谷歌翻译
Neural networks are known to be a class of highly expressive functions able to fit even random inputoutput mappings with 100% accuracy. In this work we present properties of neural networks that complement this aspect of expressivity. By using tools from Fourier analysis, we highlight a learning bias of deep networks towards low frequency functions -i.e. functions that vary globally without local fluctuations -which manifests itself as a frequency-dependent learning speed. Intuitively, this property is in line with the observation that over-parameterized networks prioritize learning simple patterns that generalize across data samples. We also investigate the role of the shape of the data manifold by presenting empirical and theoretical evidence that, somewhat counter-intuitively, learning higher frequencies gets easier with increasing manifold complexity.
translated by 谷歌翻译
过度参数化神经网络(NNS)的小概括误差可以通过频率偏见现象来部分解释,在频率偏置现象中,基于梯度的算法将低频失误最小化,然后再减少高频残差。使用神经切线内核(NTK),可以为训练提供理论上严格的分析,其中数据是从恒定或分段构剂概率密度绘制的数据。由于大多数训练数据集不是从此类分布中汲取的,因此我们使用NTK模型和数据依赖性的正交规则来理论上量化NN训练的频率偏差,给定完全不均匀的数据。通过用精心选择的Sobolev规范替换损失函数,我们可以进一步扩大,抑制,平衡或逆转NN训练中的内在频率偏差。
translated by 谷歌翻译
我们研究了具有由完全连接的神经网络产生的密度场的固体各向同性物质惩罚(SIMP)方法,将坐标作为输入。在大的宽度限制中,我们表明DNN的使用导致滤波效果类似于SIMP的传统过滤技术,具有由神经切线内核(NTK)描述的过滤器。然而,这种过滤器在翻译下不是不变的,导致视觉伪像和非最佳形状。我们提出了两个输入坐标的嵌入,导致NTK和滤波器的空间不变性。我们经验证实了我们的理论观察和研究了过滤器大小如何受网络架构的影响。我们的解决方案可以很容易地应用于任何其他基于坐标的生成方法。
translated by 谷歌翻译
表征过度参数化神经网络的显着概括性能仍然是一个开放的问题。在本文中,我们促进了将重点转移到初始化而不是神经结构或(随机)梯度下降的转变,以解释这种隐式的正则化。通过傅立叶镜头,我们得出了神经网络光谱偏置的一般结果,并表明神经网络的概括与它们的初始化密切相关。此外,我们在经验上使用实用的深层网络巩固了开发的理论见解。最后,我们反对有争议的平米尼猜想,并表明傅立叶分析为理解神经网络的概括提供了更可靠的框架。
translated by 谷歌翻译
低维歧管假设认为,在许多应用中发现的数据,例如涉及自然图像的数据(大约)位于嵌入高维欧几里得空间中的低维歧管上。在这种情况下,典型的神经网络定义了一个函数,该函数在嵌入空间中以有限数量的向量作为输入。但是,通常需要考虑在训练分布以外的点上评估优化网络。本文考虑了培训数据以$ \ mathbb r^d $的线性子空间分配的情况。我们得出对由神经网络定义的学习函数变化的估计值,沿横向子空间的方向。我们研究了数据歧管的编纂中与网络的深度和噪声相关的潜在正则化效应。由于存在噪声,我们还提出了训练中的其他副作用。
translated by 谷歌翻译
We show that passing input points through a simple Fourier feature mapping enables a multilayer perceptron (MLP) to learn high-frequency functions in lowdimensional problem domains. These results shed light on recent advances in computer vision and graphics that achieve state-of-the-art results by using MLPs to represent complex 3D objects and scenes. Using tools from the neural tangent kernel (NTK) literature, we show that a standard MLP fails to learn high frequencies both in theory and in practice. To overcome this spectral bias, we use a Fourier feature mapping to transform the effective NTK into a stationary kernel with a tunable bandwidth. We suggest an approach for selecting problem-specific Fourier features that greatly improves the performance of MLPs for low-dimensional regression tasks relevant to the computer vision and graphics communities.
translated by 谷歌翻译
光谱分析是一种强大的工具,将任何功能分解成更简单的部件。在机器学习中,Mercer的定理概括了这个想法,为任何内核和输入分布提供了增加频率的自然基础。最近,几种作品通过神经切线内核的框架将此分析扩展到深度神经网络。在这项工作中,我们分析了深度神经网络的层面频谱偏压,并将其与不同层的贡献相关联在给定的目标函数的泛化误差减少中的贡献。我们利用Hermite多项式和球面谐波的性质来证明初始层朝着单位球体上定义的高频函数呈现较大偏差。我们进一步提供了验证我们在深神经网络的高维数据集中的理论的实证结果。
translated by 谷歌翻译
通过新的设计推动,允许规避光谱偏差,隐式神经表示(INRS)最近被出现为具有古典离散化表示的有希望的替代方案。尽管如此,尽管他们的实际成功,我们仍然缺乏inrs代表信号的正确理论表征。在这项工作中,我们的目标是填补这一差距,我们提出了一种在理论上分析inrs的新颖统一视角。利用谐波分析和深度学习理论的结果,我们表明大多数INR系列类似于结构化信号词典,其原子是初始映射频率集的整数谐波。该结构允许INR使用只有许多只能与深度线性增长的参数表达频率支持的信号。之后,我们探讨了初步结果关于经验神经切线内核(NTK)的近期结果的归纳偏见。具体地,我们表明NTK的特征功能可以被视为其内部产品与目标信号的内部产品确定其重建的最终性能。在这方面,我们揭示了Meta学习初始化具有类似于字典学习的NTK的重塑效果,构建字典原子作为在Meta训练期间看到的例子的组合。我们的业绩允许设计和调整小说INR架构,但对更广泛的深度学习理论界也可能感兴趣。
translated by 谷歌翻译
我们提出了一种简单的架构,用于通过将输入嵌入到学习的傅立叶基础上进行深度加强学习,并表明它提高了基于状态和基于图像的RL的样本效率。我们使用神经切线内核执行我们的架构的无限宽度分析,从理论上表明调整傅立叶基础的初始方差等同于学习的深网络的功能正则化。也就是说,这些学习了傅里叶功能允许调整训练数据中网络欠下或过度频率的网络的程度,因此提供了一种受控机制,以提高RL优化的稳定性和性能。经验上,这使我们可以通过降低网络优化过程中的网络对噪声的敏感性来优先考虑学习低频功能并加速学习,例如在贝尔曼更新期间。基于标准的和基于图像的RL基准测试的实验显示了我们在基线上的明显好处。网站https://alexanderli.com/learned-fourier-features.
translated by 谷歌翻译
最近的工作表明,不同体系结构的卷积神经网络学会按照相同的顺序对图像进行分类。为了理解这种现象,我们重新审视了过度参数的深度线性网络模型。我们的分析表明,当隐藏层足够宽时,该模型参数的收敛速率沿数据的较大主组件的方向呈指数级数,该方向由由相应的奇异值控制的速率。我们称这种收敛模式主成分偏差(PC偏置)。从经验上讲,我们展示了PC偏差如何简化线性和非线性网络的学习顺序,在学习的早期阶段更为突出。然后,我们将结果与简单性偏见进行比较,表明可以独立看到这两个偏见,并以不同的方式影响学习顺序。最后,我们讨论了PC偏差如何解释早期停止及其与PCA的联系的一些好处,以及为什么深网与随机标签更慢地收敛。
translated by 谷歌翻译
Helmholtz方程已被用于在谐波负载下建模声压场。通过求解Helmholtz方程计算谐波声压场,如果想要研究许多不同的几何形状,可以迅速变得不可行,以便频率范围。我们提出了一种机器学习方法,即前馈密集神经网络,用于在频率范围内计算平均声压。通过数值计算平均声压的响应,通过对压力的特征模分分解来产生数据。我们分析近似的准确性,并确定需要多少训练数据,以便在平均压力响应的预测中达到一定的准确性。
translated by 谷歌翻译
虽然深入学习算法在科学计算中表现出巨大的潜力,但其对多种问题的应用仍然是一个很大的挑战。这表明了神经网络倾向于首先学习低频分量的“频率原理”。提出了多种深度神经网络(MSCALEDNN)等新颖架构,以在一定程度上缓解此问题。在本文中,我们通过组合传统的数值分析思路和MscaledNN算法来构建基于子空间分解的DNN(被称为SD $ ^ 2 $ NN)架构。所提出的架构包括一个低频正常DNN子模块,以及一个(或几个)高频Mscalednn子模块,其旨在分别捕获多尺度解决方案的平滑部分和振荡部分。此外,在SD $ ^ 2 $ NN模型中包含了一种新的三角激活函数。我们通过常规或不规则几何域中的几个基准多尺度问题展示SD $ ^ 2 $ NN架构的性能。数值结果表明,SD $ ^ 2 $ NN模型优于现有的现有型号,如MSCALEDNN。
translated by 谷歌翻译
神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括,以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似,使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外,我们介绍了四类运算符参数化:基于图形的运算符,低秩运算符,基于多极图形的运算符和傅里叶运算符,并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的:它们在底层函数空间的不同离散化之间共享相同的网络参数,并且可以用于零击超分辨率。在数值上,与现有的基于机器学习的方法,达西流程和Navier-Stokes方程相比,所提出的模型显示出卓越的性能,而与传统的PDE求解器相比,与现有的基于机器学习的方法有关的基于机器学习的方法。
translated by 谷歌翻译
我们证明了由例如He等人提出的广泛使用的方法。(2015年)并使用梯度下降对最小二乘损失进行训练并不普遍。具体而言,我们描述了一大批一维数据生成分布,较高的概率下降只会发现优化景观的局部最小值不好,因为它无法将其偏离偏差远离其初始化,以零移动。。事实证明,在这些情况下,即使目标函数是非线性的,发现的网络也基本执行线性回归。我们进一步提供了数值证据,表明在实际情况下,对于某些多维分布而发生这种情况,并且随机梯度下降表现出相似的行为。我们还提供了有关初始化和优化器的选择如何影响这种行为的经验结果。
translated by 谷歌翻译
我们研究了使用尖刺,现场依赖的随机矩阵理论研究迷你批次对深神经网络损失景观的影响。我们表明,批量黑森州的极值值的大小大于经验丰富的黑森州。我们还获得了类似的结果对Hessian的概括高斯牛顿矩阵近似。由于我们的定理,我们推导出作为批量大小的最大学习速率的分析表达式,为随机梯度下降(线性缩放)和自适应算法(例如ADAM(Square Root Scaling)提供了通知实际培训方案,例如光滑,非凸深神经网络。虽然随机梯度下降的线性缩放是在我们概括的更多限制性条件下导出的,但是适应优化者的平方根缩放规则是我们的知识,完全小说。随机二阶方法和自适应方法的百分比,我们得出了最小阻尼系数与学习率与批量尺寸的比率成比例。我们在Cifar-$ 100 $和ImageNet数据集上验证了我们的VGG / WimerEsnet架构上的索赔。根据我们对象检的调查,我们基于飞行学习率和动量学习者开发了一个随机兰齐齐竞争,这避免了对这些关键的超参数进行昂贵的多重评估的需求,并在预残留的情况下显示出良好的初步结果Cifar的architecure - $ 100 $。
translated by 谷歌翻译
Implicitly defined, continuous, differentiable signal representations parameterized by neural networks have emerged as a powerful paradigm, offering many possible benefits over conventional representations. However, current network architectures for such implicit neural representations are incapable of modeling signals with fine detail, and fail to represent a signal's spatial and temporal derivatives, despite the fact that these are essential to many physical signals defined implicitly as the solution to partial differential equations. We propose to leverage periodic activation functions for implicit neural representations and demonstrate that these networks, dubbed sinusoidal representation networks or SIRENs, are ideally suited for representing complex natural signals and their derivatives. We analyze SIREN activation statistics to propose a principled initialization scheme and demonstrate the representation of images, wavefields, video, sound, and their derivatives. Further, we show how SIRENs can be leveraged to solve challenging boundary value problems, such as particular Eikonal equations (yielding signed distance functions), the Poisson equation, and the Helmholtz and wave equations. Lastly, we combine SIRENs with hypernetworks to learn priors over the space of SIREN functions. Please see the project website for a video overview of the proposed method and all applications.
translated by 谷歌翻译
这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言,我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中,我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式,并解决了与神经网络性能相关的一些问题,包括选择激活功能,成本功能,过度适应问题和正则化。在第2章中,我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念,尤其是研究实现连续函数的Stone-WeierStrass定理。然后,在线性近似的框架内,我们回顾了馈电网络的密度和收敛速率的一些经典结果,然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中,利用非线性近似理论,我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。
translated by 谷歌翻译
最近的发现(例如ARXIV:2103.00065)表明,通过全批梯度下降训练的现代神经网络通常进入一个称为稳定边缘(EOS)的政权。在此制度中,清晰度(即最大的Hessian特征值)首先增加到值2/(步长尺寸)(渐进锐化阶段),然后在该值(EOS相)周围振荡。本文旨在分析沿优化轨迹的GD动力学和清晰度。我们的分析自然将GD轨迹分为四个阶段,具体取决于清晰度的变化。从经验上,我们将输出层重量的规范视为清晰动力学的有趣指标。基于这一经验观察,我们尝试从理论和经验上解释导致EOS每个阶段清晰度变化的各种关键量的动力学。此外,基于某些假设,我们提供了两层完全连接的线性神经网络中EOS制度的清晰度行为的理论证明。我们还讨论了其他一些经验发现以及我们的理论结果的局限性。
translated by 谷歌翻译
学习将模型分布与观察到的数据区分开来是统计和机器学习中的一个基本问题,而高维数据仍然是这些问题的挑战性环境。量化概率分布差异的指标(例如Stein差异)在高维度的统计测试中起重要作用。在本文中,我们考虑了一个希望区分未知概率分布和名义模型分布的数据的设置。虽然最近的研究表明,最佳$ l^2 $ regularized Stein评论家等于两个概率分布的分数函数的差异,最多是乘法常数,但我们研究了$ l^2 $正则化的作用,训练神经网络时差异评论家功能。由训练神经网络的神经切线内核理论的激励,我们开发了一种新的分期程序,用于训练时间的正则化重量。这利用了早期培训的优势,同时还可以延迟过度拟合。从理论上讲,我们将训练动态与大的正则重量与在早期培训时间的“懒惰训练”制度的内核回归优化相关联。在模拟的高维分布漂移数据和评估图像数据的生成模型的应用中,证明了分期$ l^2 $正则化的好处。
translated by 谷歌翻译