The problem of broad practical interest in spatiotemporal data analysis, i.e., discovering interpretable dynamic patterns from spatiotemporal data, is studied in this paper. Towards this end, we develop a time-varying reduced-rank vector autoregression (VAR) model whose coefficient matrices are parameterized by low-rank tensor factorization. Benefiting from the tensor factorization structure, the proposed model can simultaneously achieve model compression and pattern discovery. In particular, the proposed model allows one to characterize nonstationarity and time-varying system behaviors underlying spatiotemporal data. To evaluate the proposed model, extensive experiments are conducted on various spatiotemporal data representing different nonlinear dynamical systems, including fluid dynamics, sea surface temperature, USA surface temperature, and NYC taxi trips. Experimental results demonstrate the effectiveness of modeling spatiotemporal data and characterizing spatial/temporal patterns with the proposed model. In the spatial context, the spatial patterns can be automatically extracted and intuitively characterized by the spatial modes. In the temporal context, the complex time-varying system behaviors can be revealed by the temporal modes in the proposed model. Thus, our model lays an insightful foundation for understanding complex spatiotemporal data in real-world dynamical systems. The adapted datasets and Python implementation are publicly available at https://github.com/xinychen/vars.
translated by 谷歌翻译
现代时间序列数据集通常是高维,不完整/稀疏和非组织的。这些属性阻碍了时间序列预测和分析的可扩展和高效解决方案的开发。为了应对这些挑战,我们提出了一个非平稳的时间矩阵分解(NOTMF)模型,其中使用矩阵分解来重建整个时间序列矩阵和矢量自回旋(var)过程,该过程施加在适当差异的时间因子矩阵的副本上。这种方法不仅保留了数据的低级属性,还提供了一致的时间动力。 NOTMF的学习过程涉及两个因子矩阵和VAR系数矩阵集合的优化。为了有效地解决优化问题,我们得出了一个交替的最小化框架,其中使用共轭梯度和最小二乘方法来解决子问题。特别是,使用共轭梯度方法提供了有效的例程,并允许我们在大规模问题上应用NOTMF。通过对Uber运动速度数据集进行的广泛实验,我们证明了NOTMF的卓越准确性和有效性,而不是其他基线模型。我们的结果还证实了解决现实世界中时间序列数据(如时空交通流/速度)的非平稳性的重要性。
translated by 谷歌翻译
Spatiotemporal traffic data imputation is of great significance in intelligent transportation systems and data-driven decision-making processes. To make an accurate reconstruction on partially observed traffic data, we assert the importance of characterizing both global and local trends in traffic time series. In the literature, substantial prior works have demonstrated the effectiveness of utilizing low-rankness property of traffic data by matrix/tensor completion models. In this study, we first introduce a Laplacian kernel to temporal regularization for characterizing local trends in traffic time series, which can be formulated in the form of circular convolution. Then, we develop a low-rank Laplacian convolutional representation (LCR) model by putting the nuclear norm of a circulant matrix and the Laplacian temporal regularization together, which is proved to meet a unified framework that takes a fast Fourier transform solution in a relatively low time complexity. Through extensive experiments on some traffic datasets, we demonstrate the superiority of LCR for imputing traffic time series of various time series behaviors (e.g., data noises and strong/weak periodicity). The proposed LCR model is an efficient and effective solution to large-scale traffic data imputation over the existing baseline models. The adapted datasets and Python implementation are publicly available at https://github.com/xinychen/transdim.
translated by 谷歌翻译
多维时空数据的概率建模对于许多现实世界应用至关重要。然而,现实世界时空数据通常表现出非平稳性的复杂依赖性,即相关结构随位置/时间而变化,并且在空间和时间之间存在不可分割的依赖性,即依赖关系。开发有效和计算有效的统计模型,以适应包含远程和短期变化的非平稳/不可分割的过程,成为一项艰巨的任务,尤其是对于具有各种腐败/缺失结构的大规模数据集。在本文中,我们提出了一个新的统计框架 - 贝叶斯互补内核学习(BCKL),以实现多维时空数据的可扩展概率建模。为了有效地描述复杂的依赖性,BCKL与短距离时空高斯过程(GP)相结合的内核低级分解(GP),其中两个组件相互补充。具体而言,我们使用多线性低级分组组件来捕获数据中的全局/远程相关性,并基于紧凑的核心函数引入加法短尺度GP,以表征其余的局部变异性。我们为模型推断开发了有效的马尔可夫链蒙特卡洛(MCMC)算法,并在合成和现实世界时空数据集上评估了所提出的BCKL框架。我们的结果证实了BCKL在提供准确的后均值和高质量不确定性估计方面的出色表现。
translated by 谷歌翻译
流量数据长期遭受缺失和腐败的困扰,从而导致随后的智能运输系统(ITS)应用程序的准确性和效用降低。注意到流量数据的固有低级属性,大量研究将缺少的流量数据恢复为低级张量完成(LRTC)问题。由于LRTC中的秩最小化的非跨性别性和离散性,现有方法要么用凸面替代等级代替等级替代等级函数,要么以涉及许多参数的非convex替代物,或近似等级。在这项研究中,我们提出了一个用于交通数据恢复的无参数的非凸张量完成模型(TC-PFNC),其中设计了基于日志的松弛项以近似张量代数级别。此外,以前的研究通常认为观察结果是可靠的,没有任何异常值。因此,我们通过对潜在的流量数据异常值进行建模,将TC-PFNC扩展到了强大的版本(RTC-PFNC),该数据可以从部分和损坏的观测值中恢复缺失的值并在观测中删除异常。基于交替的方向乘数法(ADMM)详细阐述了TC-PFNC和RTC-PFNC的数值解。在四个现实世界流量数据集上进行的广泛实验结果表明,所提出的方法在缺失和损坏的数据恢复中都优于其他最先进的方法。本文使用的代码可在以下网址获得:https://github.com/younghe49/t-ITSPFNC。
translated by 谷歌翻译
本文使用移动传感器的稀疏观测来研究交通状态估计问题(TSE)问题。大多数现有的TSE方法要么依赖定义明确的物理交通流模型,要么需要大量的仿真数据作为训练机器学习模型的输入。与以前的研究不同,我们在本文中提出了纯粹的数据驱动和模型的解决方案。我们将TSE视为时空矩阵完成/插值问题,并应用时空延迟嵌入以将原始不完整的矩阵转换为四阶Hankel结构张量。通过对这种张量结构施加低级假设,我们可以以数据驱动的方式近似和表征全局和局部时空模式。我们使用平衡时空展开的截断核定标(其中每一列代表原始矩阵中小斑块的矢量化)来近似张量等级。开发了基于乘数交替方向方法(ADMM)的有效解决方案算法用于模型学习。所提出的框架仅涉及两个超参数,即空间和时间窗口长度,鉴于数据稀少度的程度,它们易于设置。我们对现实世界高分辨率轨迹数据进行数值实验,我们的结果证明了在某些具有挑战性的情况下所提出模型的有效性和优势。
translated by 谷歌翻译
我们使用张量奇异值分解(T-SVD)代数框架提出了一种新的快速流算法,用于抵抗缺失的低管级张量的缺失条目。我们展示T-SVD是三阶张量的研究型块术语分解的专业化,我们在该模型下呈现了一种算法,可以跟踪从不完全流2-D数据的可自由子模块。所提出的算法使用来自子空间的基层歧管的增量梯度下降的原理,以解决线性复杂度和时间样本的恒定存储器的张量完成问题。我们为我们的算法提供了局部预期的线性收敛结果。我们的经验结果在精确态度上具有竞争力,但在计算时间内比实际应用上的最先进的张量完成算法更快,以在有限的采样下恢复时间化疗和MRI数据。
translated by 谷歌翻译
从数据中发现复杂系统的基本动力是一个重要的实践主题。受限的优化算法被广泛使用并带来许多成功。但是,这种纯粹的数据驱动方法可能会在存在随机噪声的情况下会导致物理不正确,并且无法轻易通过不完整的数据来处理情况。在本文中,开发了一种具有部分观察结果的复杂湍流系统的新迭代学习算法,该算法在识别模型结构,恢复未观察到的变量和估计参数之间交替。首先,将基于因果关系的学习方法用于模型结构的稀疏识别,该方法考虑了从数据中预先学习的某些物理知识。它在应对特征之间的间接耦合方面具有独特的优势,并且与随机噪声具有鲁棒性。实用算法旨在促进高维系统的因果推断。接下来,构建了系统的非线性随机参数化,以表征未观察到的变量的时间演变。通过有效的非线性数据同化的封闭分析公式被利用以采样未观察到的变量的轨迹,然后将其视为合成观测值,以提高快速参数估计。此外,状态变量依赖性和物理约束的本地化已纳入学习过程,从而减轻维度的诅咒并防止有限的时间爆破问题。数值实验表明,新算法成功地识别模型结构并为许多具有混乱动力学,时空多尺度结构,间歇性和极端事件的复杂非线性系统提供合适的随机参数化。
translated by 谷歌翻译
AutoEncoder技术在减少秩序建模中发现越来越常见的用途作为创建潜在空间的手段。这种缩小的订单表示为与时间序列预测模型集成时的非线性动力系统提供了模块化数据驱动建模方法。在这封信中,我们提出了一个非线性适当的正交分解(POD)框架,它是一个端到端的Galerkin的模型,组合AutoEncoders,用于动态的长短期内存网络。通过消除由于Galerkin模型的截断导致的投影误差,所提出的非流体方法的关键推动器是在POD系数的全级扩展和动态发展的潜空间之间的非线性映射的运动结构。我们测试我们的模型减少对流主导系统的框架,这通常是针对减少订单模型的具有挑战性。我们的方法不仅提高了准确性,而且显着降低了培训和测试的计算成本。
translated by 谷歌翻译
低级张力完成已广泛用于计算机视觉和机器学习。本文开发了一种新型多模态核心张量分解(MCTF)方法,与张量低秩测量和该措施的更好的非凸弛豫形式(NC-MCTF)。所提出的模型编码由Tucker和T-SVD提供的一般张量的低秩见解,因此预计将在多个方向上同时模拟光谱低秩率,并准确地恢复基于几个观察到的条目的内在低秩结构的数据。此外,我们研究了MCTF和NC-MCTF正则化最小化问题,并设计了一个有效的块连续上限最小化(BSUM)算法来解决它们。该高效的求解器可以将MCTF扩展到各种任务,例如张量完成。一系列实验,包括高光谱图像(HSI),视频和MRI完成,确认了所提出的方法的卓越性能。
translated by 谷歌翻译
This survey provides an overview of higher-order tensor decompositions, their applications, and available software. A tensor is a multidimensional or N -way array. Decompositions of higher-order tensors (i.e., N -way arrays with N ≥ 3) have applications in psychometrics, chemometrics, signal processing, numerical linear algebra, computer vision, numerical analysis, data mining, neuroscience, graph analysis, and elsewhere. Two particular tensor decompositions can be considered to be higher-order extensions of the matrix singular value decomposition: CANDECOMP/PARAFAC (CP) decomposes a tensor as a sum of rank-one tensors, and the Tucker decomposition is a higher-order form of principal component analysis. There are many other tensor decompositions, including INDSCAL, PARAFAC2, CANDELINC, DEDICOM, and PARATUCK2 as well as nonnegative variants of all of the above. The N-way Toolbox, Tensor Toolbox, and Multilinear Engine are examples of software packages for working with tensors.
translated by 谷歌翻译
在线张量分解(OTF)是一种从流媒体多模态数据学习低维解释特征的基本工具。虽然最近已经调查了OTF的各种算法和理论方面,但仍然甚至缺乏任何不连贯或稀疏假设的客观函数的静止点的一般会聚保证仍然缺乏仍然缺乏缺乏。案件。在这项工作中,我们介绍了一种新颖的算法,该算法从一般约束下的给定的张力值数据流中学习了CANDECOMP / PARAFAC(CP),包括诱导学习CP的解释性的非承诺约束。我们证明我们的算法几乎肯定会收敛到目标函数的一组静止点,在该假设下,数据张集的序列由底层马尔可夫链产生。我们的环境涵盖了古典的i.i.d.案例以及广泛的应用程序上下文,包括由独立或MCMC采样生成的数据流。我们的结果缩小了OTF和在线矩阵分解在全局融合分析中的OTF和在线矩阵分解之间的差距\ Commhl {对于CP - 分解}。实验,我们表明我们的算法比合成和实际数据的非负张量分解任务的标准算法更快地收敛得多。此外,我们通过图像,视频和时间序列数据展示了我们算法对来自图像,视频和时间序列数据的多样化示例的实用性,示出了通过以多种方式利用张量结构来利用张量结构,如何从相同的张量数据中学习定性不同的CP字典。 。
translated by 谷歌翻译
在本文中,我们提供了有关Hankel低级近似和完成工作的综述和书目,特别强调了如何将这种方法用于时间序列分析和预测。我们首先描述问题的可能表述,并就获得全球最佳解决方案的相关主题和挑战提供评论。提供了关键定理,并且纸张以一些说明性示例关闭。
translated by 谷歌翻译
高维时空动力学通常可以在低维子空间中编码。用于建模,表征,设计和控制此类大规模系统的工程应用通常依赖于降低尺寸,以实时计算解决方案。降低维度的常见范例包括线性方法,例如奇异值分解(SVD)和非线性方法,例如卷积自动编码器(CAE)的变体。但是,这些编码技术缺乏有效地表示与时空数据相关的复杂性的能力,后者通常需要可变的几何形状,非均匀的网格分辨率,自适应网格化和/或参数依赖性。为了解决这些实用的工程挑战,我们提出了一个称为神经隐式流(NIF)的一般框架,该框架可以实现大型,参数,时空数据的网格不稳定,低级别表示。 NIF由两个修改的多层感知器(MLP)组成:(i)shapenet,它分离并代表空间复杂性,以及(ii)参数,该参数解释了任何其他输入复杂性,包括参数依赖关系,时间和传感器测量值。我们演示了NIF用于参数替代建模的实用性,从而实现了复杂时空动力学的可解释表示和压缩,有效的多空间质量任务以及改善了稀疏重建的通用性能。
translated by 谷歌翻译
数字双胞胎是一个代孕模型,具有反映原始过程行为的主要功能。将动力学过程与降低复杂性的数字双模型相关联具有很大的优势,可以将动力学以高精度和CPU时间和硬件的成本降低到遭受重大变化的时间表,因此很难探索。本文介绍了一个新的框架,用于创建有效的数字双流体流量流量。我们介绍了一种新型算法,该算法结合了基于Krylov的动态模式分解的优势和正确的正交分解,并优于选择最有影响力的模式。我们证明,随机正交分解算法提供了比SVD经验正交分解方法的几个优点,并减轻了对多目标优化问题的投影误差。我们涉及最先进的艺术人工智能(DL)以执行实时的实时学习(DL)数字双胞胎模型的自适应校准,富裕性的增加。该输出是流体流动动力学的高保真数字双数据数据模型,具有降低的复杂性。在三波现象的数值模拟中,随着复杂性的增加,研究了新的建模工具。我们表明,输出与原始源数据一致。我们在数值准确性和计算效率方面对新数字数据模型的性能进行彻底评估,包括时间模拟响应功能研究。
translated by 谷歌翻译
从观察到的数据中推断因果结构在揭示系统的基本动力学方面起着关键作用。本文揭示了一种新的方法,称为多阶段 - 造成结构学习(MS-Castle),以估计在不同时间尺度上发生的线性因果关系的结构。与现有方法不同,MS-Castle明确考虑了多个时间序列之间的即时和滞后相互关系,以不同的尺度表示,呈现固定小波变换和非凸线优化。 MS-Castle将其作为特殊情况融合了一个名为SS-Castle的单个尺度版本,该版本在计算效率,性能和鲁棒性方面相对于合成数据而言是有利的。我们使用MS-Castle研究了Covid-19-19大流行期间15个全球股票市场风险的多阶段因果结构,这说明了MS-Castle如何通过其多尺度分析(优于SS-Castle)提取有意义的信息。我们发现,最持久和最强烈的互动发生在中期决议。此外,我们确定了在经过考虑的时期内推动风险的股票市场:巴西,加拿大和意大利。拟议的方法可以由金融投资者利用,这些投资者取决于其投资视野,可以从因果关系的角度管理股票投资组合中的风险。
translated by 谷歌翻译
Nonnegative Tucker Factorization (NTF) minimizes the euclidean distance or Kullback-Leibler divergence between the original data and its low-rank approximation which often suffers from grossly corruptions or outliers and the neglect of manifold structures of data. In particular, NTF suffers from rotational ambiguity, whose solutions with and without rotation transformations are equally in the sense of yielding the maximum likelihood. In this paper, we propose three Robust Manifold NTF algorithms to handle outliers by incorporating structural knowledge about the outliers. They first applies a half-quadratic optimization algorithm to transform the problem into a general weighted NTF where the weights are influenced by the outliers. Then, we introduce the correntropy induced metric, Huber function and Cauchy function for weights respectively, to handle the outliers. Finally, we introduce a manifold regularization to overcome the rotational ambiguity of NTF. We have compared the proposed method with a number of representative references covering major branches of NTF on a variety of real-world image databases. Experimental results illustrate the effectiveness of the proposed method under two evaluation metrics (accuracy and nmi).
translated by 谷歌翻译
许多现代数据集,从神经影像和地统计数据等领域都以张量数据的随机样本的形式来说,这可以被理解为对光滑的多维随机功能的嘈杂观察。来自功能数据分析的大多数传统技术被维度的诅咒困扰,并且随着域的尺寸增加而迅速变得棘手。在本文中,我们提出了一种学习从多维功能数据样本的持续陈述的框架,这些功能是免受诅咒的几种表现形式的。这些表示由一组可分离的基函数构造,该函数被定义为最佳地适应数据。我们表明,通过仔细定义的数据的仔细定义的减少转换的张测仪分解可以有效地解决所得到的估计问题。使用基于差分运算符的惩罚,并入粗糙的正则化。也建立了相关的理论性质。在模拟研究中证明了我们对竞争方法的方法的优点。我们在神经影像动物中得出真正的数据应用。
translated by 谷歌翻译
考虑以张量流的形式实时收集多个季节性时间序列。现实世界的张量流通常包括缺少条目(例如,由于网络断开连接)和同时出现的意外离群值(例如,由于系统错误)。鉴于这样的现实张量流,我们如何估计缺失条目并实时准确预测未来的进化?在这项工作中,我们通过引入索非亚来回答这个问题,索非亚是现实世界张量流的强大分解方法。简而言之,索非亚平稳并紧密地整合了张量分解,离群值的去除和颞模式检测,它们自然会相互加强。此外,尽管缺少条目,索非亚以线性的方式将它们整合在一起。我们通过实验表明,索非亚是(a)稳健而准确的:屈服误差降低了76%,预测误差降低了71%; (b)快速:比第二准确的竞争对手快935倍; (c)可扩展:与每个时间步长的新条目数量缩放。
translated by 谷歌翻译