深层剩余网络(RESNET)在各种现实世界应用中显示出最先进的性能。最近,重新聚集了重新分解模型并将其解释为连续的普通微分方程或神经模型的解决方案。在这项研究中,我们提出了一个具有层变化参数的神经通用的普通微分方程(神经 - 理)模型,以进一步扩展神经模块以近似离散的重新NET。具体而言,我们使用非参数B-Spline函数来参数化神经形成,以便可以轻松平衡模型复杂性和计算效率之间的权衡。证明重新结构和神经码模型是所提出的神经形模型的特殊情况。基于两个基准数据集,MNIST和CIFAR-10,我们表明,与标准神经模板相比,与层变化的神经形成更加灵活和通用。此外,神经学享有计算和记忆益处,同时在预测准确性方面具有相当的性能。
translated by 谷歌翻译
可以使用求解动态系统的数值方法来构建卷积神经网络,因为网络的正向通行证可以视为动力学系统的轨迹。但是,基于数值求解器的现有模型无法避免隐式方法的迭代,这使得模型在推理时效率低下。在本文中,我们从动态系统视图中重新解释了预激活残差网络(RESNET)及其变体。我们认为,隐式runge-kutta方法的迭代融合到了这些模型的训练中。此外,我们提出了一种基于高阶runge-kutta方法来构建网络模型的新方法,以实现更高的效率。我们提出的模型称为Runge-Kutta卷积神经网络(RKCNNS)。在多个基准数据集上评估了RKCNN。实验结果表明,RKCNN优于其他动态系统网络模型:它们具有更高的精度,资源较少。他们还基于动态系统的数值方法扩展了网络模型家族。
translated by 谷歌翻译
最近引入的普通微分方程网络(ODE-网)在深度学习和动态系统之间建立了丰富的连接。在这项工作中,我们使用基础函数的线性组合重新考虑重量作为连续的函数,这使我们能够利用诸如功能投影的参数变换。反过来,这个视图允许我们制定处理有状态层的新型有状态ode-块。这个新的ode-块的好处是双重的:首先,它使得能够纳入有意义的连续深度批量归一代化层以实现最先进的性能;其次,它使得能够通过改变来压缩权重,而不会再培训,同时保持近最先进的性能并降低推理时间和存储器占用。使用卷积单元和(b)使用变压器编码器单元将(b)句子标记任务应用于(a)图像分类任务来证明性能。
translated by 谷歌翻译
Neural ordinary differential equations (neural ODEs) have emerged as a novel network architecture that bridges dynamical systems and deep learning. However, the gradient obtained with the continuous adjoint method in the vanilla neural ODE is not reverse-accurate. Other approaches suffer either from an excessive memory requirement due to deep computational graphs or from limited choices for the time integration scheme, hampering their application to large-scale complex dynamical systems. To achieve accurate gradients without compromising memory efficiency and flexibility, we present a new neural ODE framework, PNODE, based on high-level discrete adjoint algorithmic differentiation. By leveraging discrete adjoint time integrators and advanced checkpointing strategies tailored for these integrators, PNODE can provide a balance between memory and computational costs, while computing the gradients consistently and accurately. We provide an open-source implementation based on PyTorch and PETSc, one of the most commonly used portable, scalable scientific computing libraries. We demonstrate the performance through extensive numerical experiments on image classification and continuous normalizing flow problems. We show that PNODE achieves the highest memory efficiency when compared with other reverse-accurate methods. On the image classification problems, PNODE is up to two times faster than the vanilla neural ODE and up to 2.3 times faster than the best existing reverse-accurate method. We also show that PNODE enables the use of the implicit time integration methods that are needed for stiff dynamical systems.
translated by 谷歌翻译
我们提出了特征神经常规差分方程(C节点),该框架用于扩展神经常规微分方程(节点)之外的缺点。虽然节点模型将潜在状态的演变为对颂歌的解决方案,但是所提出的C节点模拟了潜在的潜在的演变作为其特征的一阶准线性部分微分方程(PDE)的解决方案,定义为PDE减少到ODES的曲线。反过来,还原允许应用标准框架,以解决PDE设置的杂散。另外,所提出的框架可以作为现有节点架构的扩展来投用,从而允许使用现有的黑盒颂歌求解器。我们证明了C节点框架通过展示不能由节点表示的功能来扩展经典节点,而是由C节点表示。我们通过在许多合成和实际数据场景中展示其性能,进一步研究了C节点框架的功效。经验结果展示了CIFAR-10,SVHN和MNIST数据集的提出方法提供的改进,如类似的计算预算作为现有节点方法。
translated by 谷歌翻译
物理信息的神经网络(PINN)是神经网络(NNS),它们作为神经网络本身的组成部分编码模型方程,例如部分微分方程(PDE)。如今,PINN是用于求解PDE,分数方程,积分分化方程和随机PDE的。这种新颖的方法已成为一个多任务学习框架,在该框架中,NN必须在减少PDE残差的同时拟合观察到的数据。本文对PINNS的文献进行了全面的综述:虽然该研究的主要目标是表征这些网络及其相关的优势和缺点。该综述还试图将出版物纳入更广泛的基于搭配的物理知识的神经网络,这些神经网络构成了香草·皮恩(Vanilla Pinn)以及许多其他变体,例如物理受限的神经网络(PCNN),各种HP-VPINN,变量HP-VPINN,VPINN,VPINN,变体。和保守的Pinn(CPINN)。该研究表明,大多数研究都集中在通过不同的激活功能,梯度优化技术,神经网络结构和损耗功能结构来定制PINN。尽管使用PINN的应用范围广泛,但通过证明其在某些情况下比有限元方法(FEM)等经典数值技术更可行的能力,但仍有可能的进步,最著名的是尚未解决的理论问题。
translated by 谷歌翻译
基于预测方法的深度学习已成为时间序列预测或预测的许多应用中的首选方法,通常通常优于其他方法。因此,在过去的几年中,这些方法现在在大规模的工业预测应用中无处不在,并且一直在预测竞赛(例如M4和M5)中排名最佳。这种实践上的成功进一步提高了学术兴趣,以理解和改善深厚的预测方法。在本文中,我们提供了该领域的介绍和概述:我们为深入预测的重要构建块提出了一定深度的深入预测;随后,我们使用这些构建块,调查了最近的深度预测文献的广度。
translated by 谷歌翻译
不规则的时间序列数据在现实世界中很普遍,并且具有简单的复发性神经网络(RNN)的建模具有挑战性。因此,提出了一种结合使用普通微分方程(ODE)和RNN使用的模型(ODE-RNN),以模拟不规则时间序列的精度,但其计算成本很高。在本文中,我们通过使用不同的有效批处理策略提出了ODE-RNN的运行时间的改进。我们的实验表明,新模型将ODE-RNN的运行时间显着从2次降低到49次,具体取决于数据的不规则性,同时保持可比较的精度。因此,我们的模型可以对建模更大的不规则数据集建模。
translated by 谷歌翻译
Deep neural networks provide unprecedented performance gains in many real world problems in signal and image processing. Despite these gains, future development and practical deployment of deep networks is hindered by their blackbox nature, i.e., lack of interpretability, and by the need for very large training sets. An emerging technique called algorithm unrolling or unfolding offers promise in eliminating these issues by providing a concrete and systematic connection between iterative algorithms that are used widely in signal processing and deep neural networks. Unrolling methods were first proposed to develop fast neural network approximations for sparse coding. More recently, this direction has attracted enormous attention and is rapidly growing both in theoretic investigations and practical applications. The growing popularity of unrolled deep networks is due in part to their potential in developing efficient, high-performance and yet interpretable network architectures from reasonable size training sets. In this article, we review algorithm unrolling for signal and image processing. We extensively cover popular techniques for algorithm unrolling in various domains of signal and image processing including imaging, vision and recognition, and speech processing. By reviewing previous works, we reveal the connections between iterative algorithms and neural networks and present recent theoretical results. Finally, we provide a discussion on current limitations of unrolling and suggest possible future research directions.
translated by 谷歌翻译
增加片上光子神经网络(PNN)的层数对于改善其模型性能至关重要。但是,网络隐藏层的连续级联导致更大的集成光子芯片区域。为了解决此问题,我们提出了光学神经常规微分方程(ON-ON-ON-OD-ON-OD-ON-OD-ON-OD-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ODINE),该架构用光ODE求解器参数化了隐藏层的连续动力学。 On-Ode包括PNN,然后是光子积分器和光反馈回路,可以配置为代表残留的神经网络(RESNET)和复发性神经网络,并有效地降低了芯片面积占用率。对于基于干扰的光电非线性隐藏层,数值实验表明,单个隐藏层ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ONE表示与图像分类任务中的两层光学重新系统大致相同。此外,Onode提高了基于衍射的全光线性隐藏层的模型分类精度。 On-Eod的时间依赖性动力学属性进一步应用于高精度的轨迹预测。
translated by 谷歌翻译
We introduce a new family of deep neural network models. Instead of specifying a discrete sequence of hidden layers, we parameterize the derivative of the hidden state using a neural network. The output of the network is computed using a blackbox differential equation solver. These continuous-depth models have constant memory cost, adapt their evaluation strategy to each input, and can explicitly trade numerical precision for speed. We demonstrate these properties in continuous-depth residual networks and continuous-time latent variable models. We also construct continuous normalizing flows, a generative model that can train by maximum likelihood, without partitioning or ordering the data dimensions. For training, we show how to scalably backpropagate through any ODE solver, without access to its internal operations. This allows end-to-end training of ODEs within larger models.
translated by 谷歌翻译
Relying on recent research results on Neural ODEs, this paper presents a methodology for the design of state observers for nonlinear systems based on Neural ODEs, learning Luenberger-like observers and their nonlinear extension (Kazantzis-Kravaris-Luenberger (KKL) observers) for systems with partially-known nonlinear dynamics and fully unknown nonlinear dynamics, respectively. In particular, for tuneable KKL observers, the relationship between the design of the observer and its trade-off between convergence speed and robustness is analysed and used as a basis for improving the robustness of the learning-based observer in training. We illustrate the advantages of this approach in numerical simulations.
translated by 谷歌翻译
许多物理过程,例如天气现象或流体力学由部分微分方程(PDE)管辖。使用神经网络建模这种动态系统是一个新兴的研究领域。然而,目前的方法以各种方式限制:它们需要关于控制方程的先验知识,并限于线性或一阶方程。在这项工作中,我们提出了一种将卷积神经网络(CNNS)与可微分的颂歌求解器结合到模型动力系统的模型。我们表明,标准PDE求解器中使用的线路方法可以使用卷曲来表示,这使得CNN是对参数化任意PDE动态的自然选择。我们的模型可以应用于任何数据而不需要任何关于管理PDE的知识。我们评估通过求解各种PDE而产生的数据集的NeuralPDE,覆盖更高的订单,非线性方程和多个空间尺寸。
translated by 谷歌翻译
大多数机器学习方法都用作建模的黑匣子。我们可能会尝试从基于物理学的训练方法中提取一些知识,例如神经颂(普通微分方程)。神经ODE具有可能具有更高类的代表功能的优势,与黑盒机器学习模型相比,扩展的可解释性,描述趋势和局部行为的能力。这种优势对于具有复杂趋势的时间序列尤其重要。但是,已知的缺点是与自回归模型和长期术语内存(LSTM)网络相比,广泛用于数据驱动的时间序列建模的高训练时间。因此,我们应该能够平衡可解释性和训练时间,以在实践中应用神经颂歌。该论文表明,现代神经颂歌不能简化为时间序列建模应用程序的模型。将神经ODE的复杂性与传统的时间序列建模工具进行比较。唯一可以提取的解释是操作员的特征空间,这对于大型系统来说是一个不适的问题。可以使用不同的经典分析方法提取光谱,这些方法没有延长时间的缺点。因此,我们将神经ODE缩小为更简单的线性形式,并使用合并的神经网络和ODE系统方法对时间序列建模进行了新的视图。
translated by 谷歌翻译
在科学的背景下,众所周知的格言“一张图片胜过千言万语”可能是“一个型号胜过一千个数据集”。在本手稿中,我们将Sciml软件生态系统介绍作为混合物理法律和科学模型的信息,并使用数据驱动的机器学习方法。我们描述了一个数学对象,我们表示通用微分方程(UDE),作为连接生态系统的统一框架。我们展示了各种各样的应用程序,从自动发现解决高维汉密尔顿 - Jacobi-Bellman方程的生物机制,可以通过UDE形式主义和工具进行措辞和有效地处理。我们展示了软件工具的一般性,以处理随机性,延迟和隐式约束。这使得各种SCIML应用程序变为核心训练机构的核心集,这些训练机构高度优化,稳定硬化方程,并与分布式并行性和GPU加速器兼容。
translated by 谷歌翻译
We show that Neural Ordinary Differential Equations (ODEs) learn representations that preserve the topology of the input space and prove that this implies the existence of functions Neural ODEs cannot represent. To address these limitations, we introduce Augmented Neural ODEs which, in addition to being more expressive models, are empirically more stable, generalize better and have a lower computational cost than Neural ODEs.
translated by 谷歌翻译
我们提出了一种新颖的二阶优化框架,用于训练新兴的深度连续时间模型,特别是神经常规方程(神经杂物杂物)。由于他们的训练已经涉及昂贵的梯度计算来通过求解向后ode,因此导出有效的二阶方法变得高度不变。然而,灵感来自最近的最佳控制(OC)对训练深网络的解释,我们表明,可以采用称为差分编程的特定连续时间oC方法,以获得同一O(1 )内存成本。我们进一步探索了二阶衍生品的低级别表示,并表明它导致借助基于Kronecker的分子化的有效的预处理更新。由此产生的方法 - 命名的snopt - 收敛于壁钟时间中的一阶基线的速度要快得多,并且改进仍然在各种应用中保持一致,例如,图像分类,生成流量和时间序列预测。我们的框架还实现了直接的架构优化,例如神经杂物的集成时间,具有二阶反馈策略,加强了OC视角作为深度学习中优化的原则性工具。我们的代码可在https://github.com/ghliu/snopt上获得。
translated by 谷歌翻译
像长期短期内存网络(LSTMS)和门控复发单元(GRUS)相同的经常性神经网络(RNN)是建模顺序数据的流行选择。它们的门控机构允许以来自传入观测的新信息在隐藏状态中编码的先前历史。在许多应用程序中,例如医疗记录,观察时间是不规则的并且携带重要信息。然而,LSTM和GRUS在观察之间假设恒定的时间间隔。为了解决这一挑战,我们提出了连续的经常性单位(CRU)-A神经结构,可以自然地处理观察之间的不规则时间间隔。 CRU的浇注机制采用卡尔曼滤波器的连续制剂,并且根据线性随机微分方程(SDE)和(2)潜伏状态在新观察进入时,在(1)之间的连续潜在传播之间的交替。在实证研究,我们表明CRU可以比神经常规差分方程(神经颂歌)的模型更好地插值不规则时间序列。我们还表明,我们的模型可以从IM-AGES推断动力学,并且卡尔曼有效地单挑出候选人的候选人,从而从嘈杂的观察中获得有价值的状态更新。
translated by 谷歌翻译
在过去的几年中,连续的深度学习模型(称为神经普通微分方程(神经odes))受到了广泛关注。尽管它们迅速产生影响,但对于这些系统缺乏正式的分析技术。在本文中,我们考虑了具有不同架构和层次的一般神经odes类,并引入了一种新颖的可及性框架,可以对其行为进行正式分析。为神经ODE的可及性分析而开发的方法是在称为NNVODE的新工具中实现的。具体而言,我们的工作扩展了现有的神经网络验证工具以支持神经ODE。我们通过分析包括用于分类的神经ODE的一组基准以及控制和动态系统的一组基准来证明我们方法的功能和功效,包括评估我们方法对我们方法在现有软件工具中的功效和能力的评估。如果可以这样做,则连续的时间系统可达性文献。
translated by 谷歌翻译
本文介绍了独立的神经颂歌(Snode),这是一种连续深入的神经模型,能够描述完整的深神经网络。这使用了一种新型的非线性结合梯度(NCG)下降优化方案,用于训练,在该方案中可以合并Sobolev梯度以提高模型权重的平滑度。我们还提出了神经敏感性问题的一般表述,并显示了它在NCG训练中的使用方式。灵敏度分析提供了整个网络中不确定性传播的可靠度量,可用于研究模型鲁棒性并产生对抗性攻击。我们的评估表明,与Resnet模型相比,我们的新型配方会提高鲁棒性和性能,并且为设计和开发机器学习的新机会提供了改善的解释性。
translated by 谷歌翻译