Recurrent neural networks (RNNs) have brought a lot of advancements in sequence labeling tasks and sequence data. However, their effectiveness is limited when the observations in the sequence are irregularly sampled, where the observations arrive at irregular time intervals. To address this, continuous time variants of the RNNs were introduced based on neural ordinary differential equations (NODE). They learn a better representation of the data using the continuous transformation of hidden states over time, taking into account the time interval between the observations. However, they are still limited in their capability as they use the discrete transformations and a fixed discrete number of layers (depth) over an input in the sequence to produce the output observation. We intend to address this limitation by proposing RNNs based on differential equations which model continuous transformations over both depth and time to predict an output for a given input in the sequence. Specifically, we propose continuous depth recurrent neural differential equations (CDR-NDE) which generalizes RNN models by continuously evolving the hidden states in both the temporal and depth dimensions. CDR-NDE considers two separate differential equations over each of these dimensions and models the evolution in the temporal and depth directions alternatively. We also propose the CDR-NDE-heat model based on partial differential equations which treats the computation of hidden states as solving a heat equation over time. We demonstrate the effectiveness of the proposed models by comparing against the state-of-the-art RNN models on real world sequence labeling problems and data.
translated by 谷歌翻译
由于文本的嘈杂和短暂性质,诸如Twitter等社交媒体中的帖子的分类。基于经常性神经网络(RNN)的序列分类模型是对分类本质上连续的帖子的流行。RNNS假设隐藏的表示动态以离散方式演变,并且不考虑发布的确切时间。在这项工作中,我们建议使用反复性神经普通微分方程(RNODE)来进行社交媒体的分类,这考虑发布的时间并允许隐藏的表示以时间敏感的连续方式演变。另外,我们提出了一种新颖的模型,双向rnode(Bi-rnode),其可以考虑发布时间前向和向后方向的信息流动以预测柱状标签。我们的实验表明,RNODE和BI-RNODE对社交媒体中谣言的姿态分类问题是有效的。
translated by 谷歌翻译
虽然外源变量对时间序列分析的性能改善有重大影响,但在当前的连续方法中很少考虑这些序列间相关性和时间依赖性。多元时间序列的动力系统可以用复杂的未知偏微分方程(PDE)进行建模,这些方程(PDE)在科学和工程的许多学科中都起着重要作用。在本文中,我们提出了一个任意步骤预测的连续时间模型,以学习多元时间序列中的未知PDE系统,其管理方程是通过自我注意和封闭的复发神经网络参数化的。所提出的模型\下划线{变量及其对目标系列的影响。重要的是,使用特殊设计的正则化指南可以将模型简化为正则化的普通微分方程(ODE)问题,这使得可以触犯的PDE问题以获得数值解决方案,并且可行,以预测目标序列的多个未来值。广泛的实验表明,我们提出的模型可以在强大的基准中实现竞争精度:平均而言,它通过降低RMSE的$ 9.85 \%$和MAE的MAE $ 13.98 \%$的基线表现优于最佳基准,以获得任意步骤预测的MAE $。
translated by 谷歌翻译
部分微分方程(PDE)在研究大量科学和工程问题方面发挥着至关重要的作用。数值求解的非线性和/或高维PDE通常是一个具有挑战性的任务。灵感来自传统有限差分和有限元的方法和机器学习的新兴进步,我们提出了一个名为神经PDE的序列深度学习框架,这允许通过使用双向来自动学习从现有数据的任何时间依赖于现有数据的管理规则LSTM编码器,并预测下一个时间步长数据。我们所提出的框架的一个关键特征是,神经PDE能够同时学习和模拟多尺度变量。我们通过一维PDE的一系列示例测试神经PDE到高维和非线性复杂流体模型。结果表明,神经PDE能够学习初始条件,边界条件和差分运营商,而不知道PDE系统的特定形式。在我们的实验中,神经PDE可以有效地提取20个时期训练内的动态,并产生准确的预测。此外,与在学习PDE中的传统机器学习方法不同,例如CNN和MLP,这需要用于模型精度的巨大参数,神经PDE在所有时间步骤中共享参数,从而显着降低了计算复杂性并导致快速学习算法。
translated by 谷歌翻译
Ordinary Differential Equations (ODE)-based models have become popular foundation models to solve many time-series problems. Combining neural ODEs with traditional RNN models has provided the best representation for irregular time series. However, ODE-based models require the trajectory of hidden states to be defined based on the initial observed value or the last available observation. This fact raises questions about how long the generated hidden state is sufficient and whether it is effective when long sequences are used instead of the typically used shorter sequences. In this article, we introduce CrossPyramid, a novel ODE-based model that aims to enhance the generalizability of sequences representation. CrossPyramid does not rely only on the hidden state from the last observed value; it also considers ODE latent representations learned from other samples. The main idea of our proposed model is to define the hidden state for the unobserved values based on the non-linear correlation between samples. Accordingly, CrossPyramid is built with three distinctive parts: (1) ODE Auto-Encoder to learn the best data representation. (2) Pyramidal attention method to categorize the learned representations (hidden state) based on the relationship characteristics between samples. (3) Cross-level ODE-RNN to integrate the previously learned information and provide the final latent state for each sample. Through extensive experiments on partially-observed synthetic and real-world datasets, we show that the proposed architecture can effectively model the long gaps in intermittent series and outperforms state-of-the-art approaches. The results show an average improvement of 10\% on univariate and multivariate datasets for both forecasting and classification tasks.
translated by 谷歌翻译
We introduce a new family of deep neural network models. Instead of specifying a discrete sequence of hidden layers, we parameterize the derivative of the hidden state using a neural network. The output of the network is computed using a blackbox differential equation solver. These continuous-depth models have constant memory cost, adapt their evaluation strategy to each input, and can explicitly trade numerical precision for speed. We demonstrate these properties in continuous-depth residual networks and continuous-time latent variable models. We also construct continuous normalizing flows, a generative model that can train by maximum likelihood, without partitioning or ordering the data dimensions. For training, we show how to scalably backpropagate through any ODE solver, without access to its internal operations. This allows end-to-end training of ODEs within larger models.
translated by 谷歌翻译
像长期短期内存网络(LSTMS)和门控复发单元(GRUS)相同的经常性神经网络(RNN)是建模顺序数据的流行选择。它们的门控机构允许以来自传入观测的新信息在隐藏状态中编码的先前历史。在许多应用程序中,例如医疗记录,观察时间是不规则的并且携带重要信息。然而,LSTM和GRUS在观察之间假设恒定的时间间隔。为了解决这一挑战,我们提出了连续的经常性单位(CRU)-A神经结构,可以自然地处理观察之间的不规则时间间隔。 CRU的浇注机制采用卡尔曼滤波器的连续制剂,并且根据线性随机微分方程(SDE)和(2)潜伏状态在新观察进入时,在(1)之间的连续潜在传播之间的交替。在实证研究,我们表明CRU可以比神经常规差分方程(神经颂歌)的模型更好地插值不规则时间序列。我们还表明,我们的模型可以从IM-AGES推断动力学,并且卡尔曼有效地单挑出候选人的候选人,从而从嘈杂的观察中获得有价值的状态更新。
translated by 谷歌翻译
We introduce a novel gated recurrent unit (GRU) with a weighted time-delay feedback mechanism in order to improve the modeling of long-term dependencies in sequential data. This model is a discretized version of a continuous-time formulation of a recurrent unit, where the dynamics are governed by delay differential equations (DDEs). By considering a suitable time-discretization scheme, we propose $\tau$-GRU, a discrete-time gated recurrent unit with delay. We prove the existence and uniqueness of solutions for the continuous-time model, and we demonstrate that the proposed feedback mechanism can help improve the modeling of long-term dependencies. Our empirical results show that $\tau$-GRU can converge faster and generalize better than state-of-the-art recurrent units and gated recurrent architectures on a range of tasks, including time-series classification, human activity recognition, and speech recognition.
translated by 谷歌翻译
受微分方程式启发的深度学习是最近的研究趋势,它标志着许多机器学习任务的最先进的表现。其中,具有神经控制的微分方程(NCDE)的时间序列建模被认为是突破。在许多情况下,基于NCDE的模型不仅比复发性神经网络(RNN)提供了更好的准确性,而且还可以处理不规则的时间序列。在这项工作中,我们通过重新设计其核心部分,即从离散的时间序列输入产生连续路径来增强NCDES。 NCDE通常使用插值算法将离散的时间序列样本转换为连续路径。但是,我们向i)提出建议,使用编码器解码器体系结构生成另一个潜在的连续路径,该架构对应于NCDE的插值过程,即我们的基于神经网络的插值与现有的显式插值相对于现有的显式插值以及II)解码器的外推超出了原始数据的时域的外推。因此,我们的NCDE设计可以同时使用插值和外推信息进行下游机器学习任务。在我们使用5个现实世界数据集和12个基线的实验中,我们的外推和基于插值的NCDES超过了非平凡的边缘的现有基线。
translated by 谷歌翻译
物理信息的神经网络(PINN)是神经网络(NNS),它们作为神经网络本身的组成部分编码模型方程,例如部分微分方程(PDE)。如今,PINN是用于求解PDE,分数方程,积分分化方程和随机PDE的。这种新颖的方法已成为一个多任务学习框架,在该框架中,NN必须在减少PDE残差的同时拟合观察到的数据。本文对PINNS的文献进行了全面的综述:虽然该研究的主要目标是表征这些网络及其相关的优势和缺点。该综述还试图将出版物纳入更广泛的基于搭配的物理知识的神经网络,这些神经网络构成了香草·皮恩(Vanilla Pinn)以及许多其他变体,例如物理受限的神经网络(PCNN),各种HP-VPINN,变量HP-VPINN,VPINN,VPINN,变体。和保守的Pinn(CPINN)。该研究表明,大多数研究都集中在通过不同的激活功能,梯度优化技术,神经网络结构和损耗功能结构来定制PINN。尽管使用PINN的应用范围广泛,但通过证明其在某些情况下比有限元方法(FEM)等经典数值技术更可行的能力,但仍有可能的进步,最著名的是尚未解决的理论问题。
translated by 谷歌翻译
许多物理过程,例如天气现象或流体力学由部分微分方程(PDE)管辖。使用神经网络建模这种动态系统是一个新兴的研究领域。然而,目前的方法以各种方式限制:它们需要关于控制方程的先验知识,并限于线性或一阶方程。在这项工作中,我们提出了一种将卷积神经网络(CNNS)与可微分的颂歌求解器结合到模型动力系统的模型。我们表明,标准PDE求解器中使用的线路方法可以使用卷曲来表示,这使得CNN是对参数化任意PDE动态的自然选择。我们的模型可以应用于任何数据而不需要任何关于管理PDE的知识。我们评估通过求解各种PDE而产生的数据集的NeuralPDE,覆盖更高的订单,非线性方程和多个空间尺寸。
translated by 谷歌翻译
已经提出了神经常规差分方程(节点)作为流行深度学习模型的连续深度概括,例如残留网络(RESNET)。它们提供参数效率并在一定程度上在深度学习模型中自动化模型选择过程。然而,它们缺乏大量的不确定性建模和稳健性能力,这对于他们在几个现实世界应用中的使用至关重要,例如自主驾驶和医疗保健。我们提出了一种新颖的和独特的方法来通过考虑在ode求解器的结束时间$ t $上的分布来模拟节点的不确定性。所提出的方法,潜在的时间节点(LT节点)将$ T $视为潜在变量,并应用贝叶斯学习,以获得超过数据的$ $ $。特别地,我们使用变分推理来学习近似后的后验和模型参数。通过考虑来自后部的不同样本的节点表示来完成预测,并且可以使用单个向前通过有效地完成。由于$ t $隐含地定义节点的深度,超过$ t $的后部分发也会有助于节点的模型选择。我们还提出了一种自适应潜在的时间节点(Alt-Node),其允许每个数据点在终点上具有不同的后分布。 Alt-Node使用摊销变分推理来使用推理网络学习近似后的后验。我们展示了通过合成和几个现实世界图像分类数据的实验来建立不确定性和鲁棒性的提出方法的有效性。
translated by 谷歌翻译
不规则的时间序列数据在现实世界中很普遍,并且具有简单的复发性神经网络(RNN)的建模具有挑战性。因此,提出了一种结合使用普通微分方程(ODE)和RNN使用的模型(ODE-RNN),以模拟不规则时间序列的精度,但其计算成本很高。在本文中,我们通过使用不同的有效批处理策略提出了ODE-RNN的运行时间的改进。我们的实验表明,新模型将ODE-RNN的运行时间显着从2次降低到49次,具体取决于数据的不规则性,同时保持可比较的精度。因此,我们的模型可以对建模更大的不规则数据集建模。
translated by 谷歌翻译
由于深层学习技术的显着发展,有一系列努力建立基于深入的学习的气候模型。然而,其中大多数利用经常性的神经网络和/或图形神经网络,我们设计了一种基于两个概念,神经常规差分方程(节点)和扩散方程的新型气候模型。可以通过扩散方程描述涉及棕色运动的许多物理过程,结果是广泛用于建模气候。另一方面,神经常规差分方程(节点)是学习来自数据的颂歌的潜在管理方程。在我们提出的方法中,我们将它们与一个框架相结合,并提出了一种称为神经扩散方程(NDE)的概念。我们的NDE配备了扩散方程和一个更额外的神经网络来模拟固有的不确定性,可以学习最能描述给定的气候数据集的适当潜在的控制方程。在我们用两个现实世界和一个合成数据集和11个基线的实验中,我们的方法始终如一地通过非琐碎的边缘地表达现有的基线。
translated by 谷歌翻译
我们提出了特征神经常规差分方程(C节点),该框架用于扩展神经常规微分方程(节点)之外的缺点。虽然节点模型将潜在状态的演变为对颂歌的解决方案,但是所提出的C节点模拟了潜在的潜在的演变作为其特征的一阶准线性部分微分方程(PDE)的解决方案,定义为PDE减少到ODES的曲线。反过来,还原允许应用标准框架,以解决PDE设置的杂散。另外,所提出的框架可以作为现有节点架构的扩展来投用,从而允许使用现有的黑盒颂歌求解器。我们证明了C节点框架通过展示不能由节点表示的功能来扩展经典节点,而是由C节点表示。我们通过在许多合成和实际数据场景中展示其性能,进一步研究了C节点框架的功效。经验结果展示了CIFAR-10,SVHN和MNIST数据集的提出方法提供的改进,如类似的计算预算作为现有节点方法。
translated by 谷歌翻译
在本文中,我们在用于生成时间序列建模的变形式自动统计器设置中实现神经常规方程。以对象为导向的代码方法是为了允许更容易的开发和研究以及本文中使用的所有代码可以在这里找到:https://github.com/simonmoesorensen/neural-ode-project最初是重新创建的结果与基线长短短期内存AutoEncoder相比的重建。然后用LSTM编码器扩展该模型,并受到弹簧振荡形式的时间序列组成的更复杂数据的攻击。该模型显示了承诺,并且能够为所有复杂的数据重建真正的轨迹,而不是基线模型的RMSE较小。然而,它能够捕获解码器中已知数据的时间序列的动态行为,但是对于弹簧数据的任何复杂性,不能够在真正的轨迹之后产生外推。最后进行了最终实验,其中模型也以68天的太阳能生产数据呈现,并且能够重建,即使在空间很少的数据时,也能够重建和基线。最后,将模型培训时间与基线进行比较。结果发现,对于少量数据,节点方法在训练中显着较慢,而不是基线,而对于较大量的数据,节点方法将在训练中等于或更快。本文以未来的工作部分结束,该部分描述了本文中提供的工作的许多自然扩展,其中示例正在研究输入数据的重要性,包括基线模型中的外推或测试更多特定的模型设置。
translated by 谷歌翻译
异步时间序列是一个多元时间序列,在该时间序列中,所有通道都被观察到异步独立的,使得时间序列在对齐时极为稀疏。我们经常在具有复杂的观察过程(例如医疗保健,气候科学和天文学)的应用中观察到这种影响,仅举几例。由于异步性质,它们对深度学习体系结构构成了重大挑战,假定给他们的时间序列定期采样,完全观察并与时间对齐。本文提出了一个新颖的框架,我们称深卷积集功能(DCSF),该功能高度可扩展且有效,对于异步时间序列分类任务。随着深度学习体系结构的最新进展,我们引入了一个模型,该模型不变了,在此订单中呈现了时间序列的频道。我们探索卷积神经网络,该网络对定期采样和完全观察到的时间序列的紧密相关的问题分类进行了很好的研究,以编码设置元素。我们评估DCSF的ASTS分类和在线(每个时间点)ASTS分类。我们在多个现实世界和合成数据集上进行的广泛实验验证了建议的模型在准确性和运行时间方面的表现优于一系列最新模型。
translated by 谷歌翻译
Methods based on ordinary differential equations (ODEs) are widely used to build generative models of time-series. In addition to high computational overhead due to explicitly computing hidden states recurrence, existing ODE-based models fall short in learning sequence data with sharp transitions - common in many real-world systems - due to numerical challenges during optimization. In this work, we propose LS4, a generative model for sequences with latent variables evolving according to a state space ODE to increase modeling capacity. Inspired by recent deep state space models (S4), we achieve speedups by leveraging a convolutional representation of LS4 which bypasses the explicit evaluation of hidden states. We show that LS4 significantly outperforms previous continuous-time generative models in terms of marginal distribution, classification, and prediction scores on real-world datasets in the Monash Forecasting Repository, and is capable of modeling highly stochastic data with sharp temporal transitions. LS4 sets state-of-the-art for continuous-time latent generative models, with significant improvement of mean squared error and tighter variational lower bounds on irregularly-sampled datasets, while also being x100 faster than other baselines on long sequences.
translated by 谷歌翻译
来自数据的顺序模式是各种时间序列预测任务的核心。深度学习模型大大优于许多传统模型,但是这些黑框模型通常缺乏预测和决策的解释性。为了揭示具有可理解的数学表达式的潜在趋势,科学家和经济学家倾向于使用部分微分方程(PDE)来解释顺序模式的高度非线性动力学。但是,它通常需要领域专家知识和一系列简化的假设,这些假设并不总是实用的,并且可能偏离不断变化的世界。是否可以动态地学习与数据的差异关系以解释时间不断发展的动态?在这项工作中,我们提出了一个学习框架,该框架可以自动从顺序数据中获取可解释的PDE模型。特别是,该框架由可学习的差分块组成,称为$ p $ blocks,事实证明,该框架能够近似于理论上随着时间不断变化的复杂连续功能。此外,为了捕获动力学变化,该框架引入了元学习控制器,以动态优化混合PDE模型的超参数。 《时代》系列预测金融,工程和健康数据的广泛实验表明,我们的模型可以提供有价值的解释性并实现与最先进模型相当的性能。从经验研究中,我们发现学习一些差异操作员可能会捕获无需大量计算复杂性的顺序动力学的主要趋势。
translated by 谷歌翻译
21世纪的现代旅游面临着许多挑战。这些挑战之一是太空有限地区的游客数量迅速增长,例如历史城市中心,博物馆或地理瓶颈,例如狭窄的山谷。在这种情况下,对特定领域内的旅游量和旅游流程的正确准确预测对于游客管理任务,例如游客流量控制和预防人满为患至关重要。静态流量控制方法,例如限制对热点或使用常规低级控制器的访问,无法解决问题。在本文中,我们通过使用旅游区提供的可用粒状数据,并将结果与​​Arima进行比较,并将结果与​​Arima进行比较经典统计方法。我们的结果表明,与Arima方法相比,深度学习模型可以产生更好的预测,同时具有更快的推理时间和能够结合其他输入功能。
translated by 谷歌翻译