最近引入的普通微分方程网络(ODE-网)在深度学习和动态系统之间建立了丰富的连接。在这项工作中,我们使用基础函数的线性组合重新考虑重量作为连续的函数,这使我们能够利用诸如功能投影的参数变换。反过来,这个视图允许我们制定处理有状态层的新型有状态ode-块。这个新的ode-块的好处是双重的:首先,它使得能够纳入有意义的连续深度批量归一代化层以实现最先进的性能;其次,它使得能够通过改变来压缩权重,而不会再培训,同时保持近最先进的性能并降低推理时间和存储器占用。使用卷积单元和(b)使用变压器编码器单元将(b)句子标记任务应用于(a)图像分类任务来证明性能。
translated by 谷歌翻译
Neural ordinary differential equations (neural ODEs) have emerged as a novel network architecture that bridges dynamical systems and deep learning. However, the gradient obtained with the continuous adjoint method in the vanilla neural ODE is not reverse-accurate. Other approaches suffer either from an excessive memory requirement due to deep computational graphs or from limited choices for the time integration scheme, hampering their application to large-scale complex dynamical systems. To achieve accurate gradients without compromising memory efficiency and flexibility, we present a new neural ODE framework, PNODE, based on high-level discrete adjoint algorithmic differentiation. By leveraging discrete adjoint time integrators and advanced checkpointing strategies tailored for these integrators, PNODE can provide a balance between memory and computational costs, while computing the gradients consistently and accurately. We provide an open-source implementation based on PyTorch and PETSc, one of the most commonly used portable, scalable scientific computing libraries. We demonstrate the performance through extensive numerical experiments on image classification and continuous normalizing flow problems. We show that PNODE achieves the highest memory efficiency when compared with other reverse-accurate methods. On the image classification problems, PNODE is up to two times faster than the vanilla neural ODE and up to 2.3 times faster than the best existing reverse-accurate method. We also show that PNODE enables the use of the implicit time integration methods that are needed for stiff dynamical systems.
translated by 谷歌翻译
These notes were compiled as lecture notes for a course developed and taught at the University of the Southern California. They should be accessible to a typical engineering graduate student with a strong background in Applied Mathematics. The main objective of these notes is to introduce a student who is familiar with concepts in linear algebra and partial differential equations to select topics in deep learning. These lecture notes exploit the strong connections between deep learning algorithms and the more conventional techniques of computational physics to achieve two goals. First, they use concepts from computational physics to develop an understanding of deep learning algorithms. Not surprisingly, many concepts in deep learning can be connected to similar concepts in computational physics, and one can utilize this connection to better understand these algorithms. Second, several novel deep learning algorithms can be used to solve challenging problems in computational physics. Thus, they offer someone who is interested in modeling a physical phenomena with a complementary set of tools.
translated by 谷歌翻译
神经架构的创新促进了语言建模和计算机视觉中的重大突破。不幸的是,如果网络参数未正确初始化,新颖的架构通常会导致挑战超参数选择和培训不稳定。已经提出了许多架构特定的初始化方案,但这些方案并不总是可移植到新体系结构。本文介绍了毕业,一种用于初始化神经网络的自动化和架构不可知论由方法。毕业基础是一个简单的启发式;调整每个网络层的规范,使得具有规定的超参数的SGD或ADAM的单个步骤导致可能的损耗值最小。通过在每个参数块前面引入标量乘数变量,然后使用简单的数字方案优化这些变量来完成此调整。 GradInit加速了许多卷积架构的收敛性和测试性能,无论是否有跳过连接,甚至没有归一化层。它还提高了机器翻译的原始变压器架构的稳定性,使得在广泛的学习速率和动量系数下使用ADAM或SGD来训练它而无需学习速率预热。代码可在https://github.com/zhuchen03/gradinit上获得。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括,以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似,使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外,我们介绍了四类运算符参数化:基于图形的运算符,低秩运算符,基于多极图形的运算符和傅里叶运算符,并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的:它们在底层函数空间的不同离散化之间共享相同的网络参数,并且可以用于零击超分辨率。在数值上,与现有的基于机器学习的方法,达西流程和Navier-Stokes方程相比,所提出的模型显示出卓越的性能,而与传统的PDE求解器相比,与现有的基于机器学习的方法有关的基于机器学习的方法。
translated by 谷歌翻译
我们研究了科学计算的数值算法的元学习,它将一般算法结构的数学驱动,手工设计与特定的任务类的数据驱动的适应相结合。这表示从数值分析中的经典方法的偏离,这通常不具有这种基于学习的自适应。作为一个案例研究,我们开发了一种机器学习方法,基于Runge-Kutta(RK)Integrator架构,自动学习用于常用方程式(ODES)形式的初始值问题的有效求解器。通过组合神经网络近似和元学习,我们表明我们可以获得针对目标差分方程系的高阶集成商,而无需手头计算积分器系数。此外,我们证明,在某些情况下,我们可以获得古典RK方法的卓越性能。这可以归因于通过该方法识别和利用ode系列的某些属性。总的来说,这项工作展示了基于学习的基于学习的方法,用于设计差分方程的数值解的算法,一种方法可以容易地扩展到其他数值任务。
translated by 谷歌翻译
可以使用求解动态系统的数值方法来构建卷积神经网络,因为网络的正向通行证可以视为动力学系统的轨迹。但是,基于数值求解器的现有模型无法避免隐式方法的迭代,这使得模型在推理时效率低下。在本文中,我们从动态系统视图中重新解释了预激活残差网络(RESNET)及其变体。我们认为,隐式runge-kutta方法的迭代融合到了这些模型的训练中。此外,我们提出了一种基于高阶runge-kutta方法来构建网络模型的新方法,以实现更高的效率。我们提出的模型称为Runge-Kutta卷积神经网络(RKCNNS)。在多个基准数据集上评估了RKCNN。实验结果表明,RKCNN优于其他动态系统网络模型:它们具有更高的精度,资源较少。他们还基于动态系统的数值方法扩展了网络模型家族。
translated by 谷歌翻译
神经普通微分方程(神经ODE)是残留神经网络(RESNETS)的连续类似物。我们研究了重新NET定义的离散动力学是否接近连续的神经颂歌。我们首先量化了Resnet的隐藏状态轨迹与其相应神经ODE的解之间的距离。我们的界限很紧,在负面的一侧,如果残留函数的深度不光滑,则不会以深度为0。在正面,我们表明这种平滑度是通过梯度下降来保留的,该梯度下降具有线性残留功能和足够小的初始损失的重新系统。它确保在n上以1的速率1均匀地沿速率1的速率和优化时间对极限神经的隐式正则化。作为我们分析的副产品,我们考虑使用不含内存的离散伴随方法来训练重新NET,通过通过网络的向后传动恢复激活,并证明该方法理论上在大深度上取得了成功,如果残留功能是带有输入的Lipschitz。然后,我们证明HEUN的方法是一种二阶Ode集成方案,当残留函数及其深度平滑时,使用伴随方法进行更好的梯度估计。我们通过实验验证我们的伴随方法在很大程度上取得了成功,并且Heun方法需要更少的层才能成功。我们最终成功地使用了伴随方法来微调非常深的重新连接,而无需残留层的内存消耗。
translated by 谷歌翻译
神经运营商最近成为设计神经网络形式的功能空间之间的解决方案映射的流行工具。不同地,从经典的科学机器学习方法,以固定分辨率为输入参数的单个实例学习参数,神经运算符近似PDE系列的解决方案图。尽管他们取得了成功,但是神经运营商的用途迄今为止仅限于相对浅的神经网络,并限制了学习隐藏的管理法律。在这项工作中,我们提出了一种新颖的非局部神经运营商,我们将其称为非本体内核网络(NKN),即独立的分辨率,其特征在于深度神经网络,并且能够处理各种任务,例如学习管理方程和分类图片。我们的NKN源于神经网络的解释,作为离散的非局部扩散反应方程,在无限层的极限中,相当于抛物线非局部方程,其稳定性通过非本种载体微积分分析。与整体形式的神经运算符相似允许NKN捕获特征空间中的远程依赖性,而节点到节点交互的持续处理使NKNS分辨率独立于NKNS分辨率。与神经杂物中的相似性,在非本体意义上重新解释,并且层之间的稳定网络动态允许NKN的最佳参数从浅到深网络中的概括。这一事实使得能够使用浅层初始化技术。我们的测试表明,NKNS在学习管理方程和图像分类任务中占据基线方法,并概括到不同的分辨率和深度。
translated by 谷歌翻译
We introduce a novel gated recurrent unit (GRU) with a weighted time-delay feedback mechanism in order to improve the modeling of long-term dependencies in sequential data. This model is a discretized version of a continuous-time formulation of a recurrent unit, where the dynamics are governed by delay differential equations (DDEs). By considering a suitable time-discretization scheme, we propose $\tau$-GRU, a discrete-time gated recurrent unit with delay. We prove the existence and uniqueness of solutions for the continuous-time model, and we demonstrate that the proposed feedback mechanism can help improve the modeling of long-term dependencies. Our empirical results show that $\tau$-GRU can converge faster and generalize better than state-of-the-art recurrent units and gated recurrent architectures on a range of tasks, including time-series classification, human activity recognition, and speech recognition.
translated by 谷歌翻译
我们为深度残留网络(RESNETS)提出了一种全球收敛的多级训练方法。设计的方法可以看作是递归多级信任区域(RMTR)方法的新型变体,该方法通过在训练过程中自适应调节迷你批量,在混合(随机确定性)设置中运行。多级层次结构和传输运算符是通过利用动力学系统的观点来构建的,该观点通过重新连接来解释远期传播作为对初始值问题的正向Euler离散化。与传统的培训方法相反,我们的新型RMTR方法还通过有限的内存SR1方法结合了有关多级层次结构各个级别的曲率信息。使用分类和回归领域的示例,对我们的多级训练方法的总体性能和收敛属性进行了数值研究。
translated by 谷歌翻译
We propose a simultaneous learning and pruning algorithm capable of identifying and eliminating irrelevant structures in a neural network during the early stages of training. Thus, the computational cost of subsequent training iterations, besides that of inference, is considerably reduced. Our method, based on variational inference principles using Gaussian scale mixture priors on neural network weights, learns the variational posterior distribution of Bernoulli random variables multiplying the units/filters similarly to adaptive dropout. Our algorithm, ensures that the Bernoulli parameters practically converge to either 0 or 1, establishing a deterministic final network. We analytically derive a novel hyper-prior distribution over the prior parameters that is crucial for their optimal selection and leads to consistent pruning levels and prediction accuracy regardless of weight initialization or the size of the starting network. We prove the convergence properties of our algorithm establishing theoretical and practical pruning conditions. We evaluate the proposed algorithm on the MNIST and CIFAR-10 data sets and the commonly used fully connected and convolutional LeNet and VGG16 architectures. The simulations show that our method achieves pruning levels on par with state-of the-art methods for structured pruning, while maintaining better test-accuracy and more importantly in a manner robust with respect to network initialization and initial size.
translated by 谷歌翻译
We introduce a new family of deep neural network models. Instead of specifying a discrete sequence of hidden layers, we parameterize the derivative of the hidden state using a neural network. The output of the network is computed using a blackbox differential equation solver. These continuous-depth models have constant memory cost, adapt their evaluation strategy to each input, and can explicitly trade numerical precision for speed. We demonstrate these properties in continuous-depth residual networks and continuous-time latent variable models. We also construct continuous normalizing flows, a generative model that can train by maximum likelihood, without partitioning or ordering the data dimensions. For training, we show how to scalably backpropagate through any ODE solver, without access to its internal operations. This allows end-to-end training of ODEs within larger models.
translated by 谷歌翻译
与古典浅表示学习技术相比,深神经网络在几乎每个应用基准中都实现了卓越的性能。但尽管他们明确的经验优势,但它仍然没有很好地理解,是什么让他们如此有效。为了解决这个问题,我们引入了深度框架近似:用结构化超常帧的受限表示学习的统一框架。虽然精确推断需要迭代优化,但是可以通过前馈深神经网络的操作来近似。我们间接分析模型容量如何涉及由架构超参数,如深度,宽度和跳过连接引起的帧结构。我们通过深度框架电位量化这些结构差异,与表示唯一性和稳定性相关的数据无关的相干措施。作为模型选择的标准,我们将与各种常见的深网络架构和数据集的泛化误差显示相关性。我们还证明了实现迭代优化算法的复发网络如何实现与其前馈近似的性能相当,同时提高对抗鲁棒性。这种与既定的过度符合表达理论的联系表明,具有较少对临时工程依赖的原则深网络架构设计的新方向。
translated by 谷歌翻译
Recent years have witnessed a growth in mathematics for deep learning--which seeks a deeper understanding of the concepts of deep learning with mathematics, and explores how to make it more robust--and deep learning for mathematics, where deep learning algorithms are used to solve problems in mathematics. The latter has popularised the field of scientific machine learning where deep learning is applied to problems in scientific computing. Specifically, more and more neural network architectures have been developed to solve specific classes of partial differential equations (PDEs). Such methods exploit properties that are inherent to PDEs and thus solve the PDEs better than classical feed-forward neural networks, recurrent neural networks, and convolutional neural networks. This has had a great impact in the area of mathematical modeling where parametric PDEs are widely used to model most natural and physical processes arising in science and engineering, In this work, we review such methods and extend them for parametric studies as well as for solving the related inverse problems. We equally proceed to show their relevance in some industrial applications.
translated by 谷歌翻译
时间序列对齐方法要求高度表达,可区分和可逆的翘曲功能,这些功能保留时间拓扑,即差异性。可以通过普通微分方程(ODE)控制的速度场的集成来产生差异翘曲函数。基于梯度的优化框架包含差异转换需要根据模型参数(即灵敏度分析)计算微分方程解决方案的衍生物。不幸的是,深度学习框架通常缺乏自动差异兼容的灵敏度分析方法。和隐式功能,例如ODE的解决方案,都需要特殊护理。当前的解决方案吸引了伴随灵敏度方法,临时数值求解器或Resnet的Eulerian离散化。在这项工作中,我们在连续的分段(CPA)速度函数下呈现ODE溶液及其梯度的封闭式表达。我们提出了对CPU和GPU结果的高度优化实现。此外,我们在几个数据集上进行了广泛的实验,以验证模型对时间序列关节对齐的看不见数据的概括能力。结果在效率和准确性方面表现出显着改善。
translated by 谷歌翻译
在本文中,我们提出了解决稳定性和卷积神经网络(CNN)的稳定性和视野的问题的神经网络。作为提高网络深度或宽度以提高性能的替代方案,我们提出了与全球加权拉普拉斯,分数拉普拉斯和逆分数拉普拉斯算子有关的基于积分的空间非识别算子,其在物理科学中的几个问题中出现。这种网络的前向传播由部分积分微分方程(PIDE)启发。我们在自动驾驶中测试基准图像分类数据集和语义分段任务的提出神经架构的有效性。此外,我们调查了这些密集的运营商的额外计算成本以及提出神经网络的前向传播的稳定性。
translated by 谷歌翻译
卷积神经网络(CNN)的量化是缓解CNN部署的计算负担,尤其是在低资源边缘设备上的常见方法。但是,对于神经网络所涉及的计算类型,固定点算术并不是自然的。在这项工作中,我们探索了使用基于PDE的观点和分析来改善量化CNN的方法。首先,我们利用总变化方法(电视)方法将边缘意识平滑应用于整个网络的特征图。这旨在减少值分布的异常值并促进零件恒定图,这更适合量化。其次,我们考虑用于图像分类的常见CNN的对称和稳定变体,以及用于图源分类的图形卷积网络(GCN)。我们通过几个实验证明,正向稳定性的性质保留了在不同量化速率下网络的作用。结果,稳定的量化网络的行为与非量化的网络相似,即使它们依赖于较少的参数。我们还发现,有时,稳定性甚至有助于提高准确性。对于敏感,资源受限,低功率或实时应用(例如自动驾驶),这些属性特别感兴趣。
translated by 谷歌翻译
我们为研究通过将噪声注入隐藏状态而训练的经常性神经网络(RNN)提供了一般框架。具体地,我们考虑RNN,其可以被视为由输入数据驱动的随机微分方程的离散化。该框架允许我们通过在小噪声制度中导出近似显式规范器来研究一般噪声注入方案的隐式正则化效果。我们发现,在合理的假设下,这种隐含的正规化促进了更平坦的最小值;它偏向具有更稳定动态的模型;并且,在分类任务中,它有利于具有较大分类余量的模型。获得了全局稳定性的充分条件,突出了随机稳定的现象,其中噪音注入可以在训练期间提高稳定性。我们的理论得到了经验结果支持,证明RNN对各种输入扰动具有改善的鲁棒性。
translated by 谷歌翻译