考虑以张量流的形式实时收集多个季节性时间序列。现实世界的张量流通常包括缺少条目(例如,由于网络断开连接)和同时出现的意外离群值(例如,由于系统错误)。鉴于这样的现实张量流,我们如何估计缺失条目并实时准确预测未来的进化?在这项工作中,我们通过引入索非亚来回答这个问题,索非亚是现实世界张量流的强大分解方法。简而言之,索非亚平稳并紧密地整合了张量分解,离群值的去除和颞模式检测,它们自然会相互加强。此外,尽管缺少条目,索非亚以线性的方式将它们整合在一起。我们通过实验表明,索非亚是(a)稳健而准确的:屈服误差降低了76%,预测误差降低了71%; (b)快速:比第二准确的竞争对手快935倍; (c)可扩展:与每个时间步长的新条目数量缩放。
translated by 谷歌翻译
我们使用张量奇异值分解(T-SVD)代数框架提出了一种新的快速流算法,用于抵抗缺失的低管级张量的缺失条目。我们展示T-SVD是三阶张量的研究型块术语分解的专业化,我们在该模型下呈现了一种算法,可以跟踪从不完全流2-D数据的可自由子模块。所提出的算法使用来自子空间的基层歧管的增量梯度下降的原理,以解决线性复杂度和时间样本的恒定存储器的张量完成问题。我们为我们的算法提供了局部预期的线性收敛结果。我们的经验结果在精确态度上具有竞争力,但在计算时间内比实际应用上的最先进的张量完成算法更快,以在有限的采样下恢复时间化疗和MRI数据。
translated by 谷歌翻译
张量完成旨在通过利用其低级别结构来恢复部分观察到的张量的缺失条目,并已应用于视觉数据恢复。在数据依次到达(例如流视频完成)的应用程序中,需要以流式的方式动态恢复张量的缺失条目。传统的流张量完成算法将整个视觉数据视为张量,当沿时间尺寸的张量子空间发生巨大变化时,可能无法令人满意地工作,例如由于视频框架上的强劲运动。在本文中,我们开发了一种基于贴片跟踪的新型流张量张量环完成框架,以进行视觉数据恢复。给定一个新传入的框架,从上一个帧跟踪小补丁。同时,对于每个跟踪的补丁,通过从新框架中堆叠类似的贴片来构建一个补丁张量。然后,使用流张量环完成算法完成补丁张量,并使用完整的补丁张量恢复了传入框架。我们提出了一种新的补丁跟踪策略,可以通过缺少数据准确有效地跟踪补丁程序。此外,提出了一种新的流张量环完成算法,该算法可以有效,准确地更新潜在的核心张量并完成补丁张量的缺失条目。广泛的实验结果表明,与批处理和流媒体最新张量的完成方法相比,所提出的算法的表现出色。
translated by 谷歌翻译
现代时间序列数据集通常是高维,不完整/稀疏和非组织的。这些属性阻碍了时间序列预测和分析的可扩展和高效解决方案的开发。为了应对这些挑战,我们提出了一个非平稳的时间矩阵分解(NOTMF)模型,其中使用矩阵分解来重建整个时间序列矩阵和矢量自回旋(var)过程,该过程施加在适当差异的时间因子矩阵的副本上。这种方法不仅保留了数据的低级属性,还提供了一致的时间动力。 NOTMF的学习过程涉及两个因子矩阵和VAR系数矩阵集合的优化。为了有效地解决优化问题,我们得出了一个交替的最小化框架,其中使用共轭梯度和最小二乘方法来解决子问题。特别是,使用共轭梯度方法提供了有效的例程,并允许我们在大规模问题上应用NOTMF。通过对Uber运动速度数据集进行的广泛实验,我们证明了NOTMF的卓越准确性和有效性,而不是其他基线模型。我们的结果还证实了解决现实世界中时间序列数据(如时空交通流/速度)的非平稳性的重要性。
translated by 谷歌翻译
Spatiotemporal traffic data imputation is of great significance in intelligent transportation systems and data-driven decision-making processes. To make an accurate reconstruction on partially observed traffic data, we assert the importance of characterizing both global and local trends in traffic time series. In the literature, substantial prior works have demonstrated the effectiveness of utilizing low-rankness property of traffic data by matrix/tensor completion models. In this study, we first introduce a Laplacian kernel to temporal regularization for characterizing local trends in traffic time series, which can be formulated in the form of circular convolution. Then, we develop a low-rank Laplacian convolutional representation (LCR) model by putting the nuclear norm of a circulant matrix and the Laplacian temporal regularization together, which is proved to meet a unified framework that takes a fast Fourier transform solution in a relatively low time complexity. Through extensive experiments on some traffic datasets, we demonstrate the superiority of LCR for imputing traffic time series of various time series behaviors (e.g., data noises and strong/weak periodicity). The proposed LCR model is an efficient and effective solution to large-scale traffic data imputation over the existing baseline models. The adapted datasets and Python implementation are publicly available at https://github.com/xinychen/transdim.
translated by 谷歌翻译
我们介绍和分析了多元奇异频谱分析(MSSA)的变体,这是一种流行的时间序列方法,用于启用和预测多元时间序列。在我们介绍的时空因素模型下,给定$ n $时间序列和$ t $观测时间序列,我们为插补和样本外预测均有效地扩展为$ 1 / \ sqrt,为预测和样本预测有效地缩放均值{\ min(n,t)t} $。这是一个改进:(i)$ 1 /\ sqrt {t} $ SSA的错误缩放,MSSA限制对单变量时间序列; (ii)$ 1/\ min(n,t)$对于不利用数据中时间结构的矩阵估计方法的错误缩放。我们引入的时空模型包括:谐波,多项式,可区分的周期函数和持有人连续函数的任何有限总和和产物。在时空因素模型下,我们的样本外预测结果可能对在线学习具有独立的兴趣。从经验上讲,在基准数据集上,我们的MSSA变体通过最先进的神经网络时间序列方法(例如,DEEPAR,LSTM)竞争性能,并且明显优于诸如矢量自动化(VAR)之类的经典方法。最后,我们提出了MSSA的扩展:(i)估计时间序列的时变差异的变体; (ii)一种张量变体,对于$ n $和$ t $的某些制度具有更好的样本复杂性。
translated by 谷歌翻译
张量完成是从部分观察到的条目中估算高阶数据缺失值的问题。由于盛行异常值而引起的数据腐败对传统的张量完成算法提出了重大挑战,这促进了减轻异常值效果的强大算法的发展。但是,现有的强大方法在很大程度上假定腐败很少,这可能在实践中可能不存在。在本文中,我们开发了一种两阶段的稳健张量完成方法,以处理张张量的视觉数据,并具有大量的严重损坏。提出了一个新颖的粗到精细框架,该框架使用全局粗完成结果来指导局部贴剂细化过程。为了有效地减轻大量异常值对张量恢复的影响,我们开发了一种新的基于M估计器的稳健张环回收方法,该方法可以自适应地识别异常值并减轻其在优化中的负面影响。实验结果表明,所提出的方法优于最先进的稳定算法以完成张量。
translated by 谷歌翻译
流量数据长期遭受缺失和腐败的困扰,从而导致随后的智能运输系统(ITS)应用程序的准确性和效用降低。注意到流量数据的固有低级属性,大量研究将缺少的流量数据恢复为低级张量完成(LRTC)问题。由于LRTC中的秩最小化的非跨性别性和离散性,现有方法要么用凸面替代等级代替等级替代等级函数,要么以涉及许多参数的非convex替代物,或近似等级。在这项研究中,我们提出了一个用于交通数据恢复的无参数的非凸张量完成模型(TC-PFNC),其中设计了基于日志的松弛项以近似张量代数级别。此外,以前的研究通常认为观察结果是可靠的,没有任何异常值。因此,我们通过对潜在的流量数据异常值进行建模,将TC-PFNC扩展到了强大的版本(RTC-PFNC),该数据可以从部分和损坏的观测值中恢复缺失的值并在观测中删除异常。基于交替的方向乘数法(ADMM)详细阐述了TC-PFNC和RTC-PFNC的数值解。在四个现实世界流量数据集上进行的广泛实验结果表明,所提出的方法在缺失和损坏的数据恢复中都优于其他最先进的方法。本文使用的代码可在以下网址获得:https://github.com/younghe49/t-ITSPFNC。
translated by 谷歌翻译
在数据挖掘,神经科学和化学计量学在内的各个领域,分析各种数据集中的多路测量结果是一个挑战。例如,测量可能会随着时间的流逝而发展或具有不一致的时间曲线。 PARAFAC2模型已成功地用于分析此类数据,通过在一种模式(即演变模式)下允许基础因子矩阵跨切片进行更改。拟合PARAFAC2模型的传统方法是使用基于最小二乘的交替算法,该算法通过隐式估计不断发展的因子矩阵来处理Parafac2模型的恒定交叉产生约束。这种方法使对这些因素矩阵充满挑战。目前尚无算法可以灵活地将这种正规化施加,并具有一般的惩罚功能和硬性约束。为了应对这一挑战并避免隐性估计,在本文中,我们提出了一种算法,用于拟合PARAFAC2基于与乘数交替方向方法(AO-ADMM)的交替优化拟合parafac2。通过在模拟数据上进行数值实验,我们表明所提出的PARAFAC2 AO-ADMM方法允许灵活约束,准确地恢复了基础模式,并且与先进的ART相比,计算有效。我们还将模型应用于神经科学和化学计量学的两个现实世界数据集,并表明限制发展模式可改善提取模式的解释性。
translated by 谷歌翻译
本文使用移动传感器的稀疏观测来研究交通状态估计问题(TSE)问题。大多数现有的TSE方法要么依赖定义明确的物理交通流模型,要么需要大量的仿真数据作为训练机器学习模型的输入。与以前的研究不同,我们在本文中提出了纯粹的数据驱动和模型的解决方案。我们将TSE视为时空矩阵完成/插值问题,并应用时空延迟嵌入以将原始不完整的矩阵转换为四阶Hankel结构张量。通过对这种张量结构施加低级假设,我们可以以数据驱动的方式近似和表征全局和局部时空模式。我们使用平衡时空展开的截断核定标(其中每一列代表原始矩阵中小斑块的矢量化)来近似张量等级。开发了基于乘数交替方向方法(ADMM)的有效解决方案算法用于模型学习。所提出的框架仅涉及两个超参数,即空间和时间窗口长度,鉴于数据稀少度的程度,它们易于设置。我们对现实世界高分辨率轨迹数据进行数值实验,我们的结果证明了在某些具有挑战性的情况下所提出模型的有效性和优势。
translated by 谷歌翻译
多维时空数据的概率建模对于许多现实世界应用至关重要。然而,现实世界时空数据通常表现出非平稳性的复杂依赖性,即相关结构随位置/时间而变化,并且在空间和时间之间存在不可分割的依赖性,即依赖关系。开发有效和计算有效的统计模型,以适应包含远程和短期变化的非平稳/不可分割的过程,成为一项艰巨的任务,尤其是对于具有各种腐败/缺失结构的大规模数据集。在本文中,我们提出了一个新的统计框架 - 贝叶斯互补内核学习(BCKL),以实现多维时空数据的可扩展概率建模。为了有效地描述复杂的依赖性,BCKL与短距离时空高斯过程(GP)相结合的内核低级分解(GP),其中两个组件相互补充。具体而言,我们使用多线性低级分组组件来捕获数据中的全局/远程相关性,并基于紧凑的核心函数引入加法短尺度GP,以表征其余的局部变异性。我们为模型推断开发了有效的马尔可夫链蒙特卡洛(MCMC)算法,并在合成和现实世界时空数据集上评估了所提出的BCKL框架。我们的结果证实了BCKL在提供准确的后均值和高质量不确定性估计方面的出色表现。
translated by 谷歌翻译
This survey provides an overview of higher-order tensor decompositions, their applications, and available software. A tensor is a multidimensional or N -way array. Decompositions of higher-order tensors (i.e., N -way arrays with N ≥ 3) have applications in psychometrics, chemometrics, signal processing, numerical linear algebra, computer vision, numerical analysis, data mining, neuroscience, graph analysis, and elsewhere. Two particular tensor decompositions can be considered to be higher-order extensions of the matrix singular value decomposition: CANDECOMP/PARAFAC (CP) decomposes a tensor as a sum of rank-one tensors, and the Tucker decomposition is a higher-order form of principal component analysis. There are many other tensor decompositions, including INDSCAL, PARAFAC2, CANDELINC, DEDICOM, and PARATUCK2 as well as nonnegative variants of all of the above. The N-way Toolbox, Tensor Toolbox, and Multilinear Engine are examples of software packages for working with tensors.
translated by 谷歌翻译
最近,刘和张研究了从压缩传感的角度研究了时间序列预测的相当具有挑战性的问题。他们提出了一个没有学习的方法,名为卷积核规范最小化(CNNM),并证明了CNNM可以完全从其观察到的部分恢复一系列系列的部分,只要该系列是卷积的低级。虽然令人印象深刻,但是每当系列远离季节性时可能不满足卷积的低秩条件,并且实际上是脆弱的趋势和动态的存在。本文试图通过将学习,正常的转换集成到CNNM中,以便将一系列渐开线结构转换为卷积低等级的常规信号的目的。我们证明,由于系列的变换是卷积低级的转换,所以,所产生的模型是基于学习的基于学习的CNNM(LBCNM),严格成功地识别了一个系列的未来部分。为了学习可能符合所需成功条件的适当转换,我们设计了一种基于主成分追求(PCP)的可解释方法。配备了这种学习方法和一些精心设计的数据论证技巧,LBCNM不仅可以处理时间序列的主要组成部分(包括趋势,季节性和动态),还可以利用其他一些预测方法提供的预测;这意味着LBCNNM可以用作模型组合的一般工具。从时间序列数据库(TSDL)和M4竞争(M4)的100,452个现实世界时间序列的大量实验证明了LBCNNM的卓越性能。
translated by 谷歌翻译
越来越多的数据科学和机器学习问题依赖于张量的计算,这些计算比矩阵更好地捕获数据的多路关系和相互作用。当利用这一关键优势时,一个关键的挑战是开发计算上有效的算法,以从张量数据中提取有用的信息,这些信息同时构成腐败和不良条件。本文解决了张量强大的主成分分析(RPCA),该分析旨在从塔克分解下的稀疏腐败污染的观察结果中回收低排名的张量。为了最大程度地减少计算和内存足迹,我们建议通过缩放梯度下降(scaledgd)直接恢复低维张量因子(从量身定制的光谱初始化开始),并与迭代变化的阈值操作相结合腐败。从理论上讲,我们确定所提出的算法以恒定的速率与真实的低级张量线性收敛,而恒定的速率与其条件编号无关,只要损坏的水平不大。从经验上讲,我们证明,通过合成实验和现实世界应用,提出的算法比最先进的矩阵和张量RPCA算法更好,更可扩展的性能。
translated by 谷歌翻译
在线张量分解(OTF)是一种从流媒体多模态数据学习低维解释特征的基本工具。虽然最近已经调查了OTF的各种算法和理论方面,但仍然甚至缺乏任何不连贯或稀疏假设的客观函数的静止点的一般会聚保证仍然缺乏仍然缺乏缺乏。案件。在这项工作中,我们介绍了一种新颖的算法,该算法从一般约束下的给定的张力值数据流中学习了CANDECOMP / PARAFAC(CP),包括诱导学习CP的解释性的非承诺约束。我们证明我们的算法几乎肯定会收敛到目标函数的一组静止点,在该假设下,数据张集的序列由底层马尔可夫链产生。我们的环境涵盖了古典的i.i.d.案例以及广泛的应用程序上下文,包括由独立或MCMC采样生成的数据流。我们的结果缩小了OTF和在线矩阵分解在全局融合分析中的OTF和在线矩阵分解之间的差距\ Commhl {对于CP - 分解}。实验,我们表明我们的算法比合成和实际数据的非负张量分解任务的标准算法更快地收敛得多。此外,我们通过图像,视频和时间序列数据展示了我们算法对来自图像,视频和时间序列数据的多样化示例的实用性,示出了通过以多种方式利用张量结构来利用张量结构,如何从相同的张量数据中学习定性不同的CP字典。 。
translated by 谷歌翻译
本文从压缩感测的角度研究时间序列预测(TSF)的问题。首先,我们将TSF转换为具有任意采样(TCAS)的更加包容性问题,称为TCOR完成,该问题是从其条目的子集中以任意方式恢复张量。虽然已知在Tucker低级别的框架中,但理论上是不可能根据一些任意选择的条目识别目标张量,在这项工作中,我们将表明TCAS根据称为新概念的光明粘附卷积低秩,这是众所周知的傅立叶稀疏性的概括。然后我们介绍了一个凸面的卷积核规范最小化(CNNM),我们证明CNNM在求解TCA时,只要采样条件取决于目标张量的卷积等级 - 遵守。该理论为制作给定数量预测所需的最小采样大小提供了有意义的答案。单变量时间序列,图像和视频的实验显示令人鼓舞的结果。
translated by 谷歌翻译
我们的目标是在沿着张量模式的协变量信息存在中可获得稀疏和高度缺失的张量。我们的动机来自在线广告,在各种设备上的广告上的用户点击率(CTR)形成了大约96%缺失条目的CTR张量,并且在非缺失条目上有许多零,这使得独立的张量完井方法不满意。除了CTR张量旁边,额外的广告功能或用户特性通常可用。在本文中,我们提出了协助协助的稀疏张力完成(Costco),以合并复苏恢复稀疏张量的协变量信息。关键思想是共同提取来自张量和协变矩阵的潜伏组分以学习合成表示。从理论上讲,我们导出了恢复的张量组件的错误绑定,并明确地量化了由于协变量引起的显露概率条件和张量恢复精度的改进。最后,我们将Costco应用于由CTR张量和广告协变矩阵组成的广告数据集,从而通过基线的23%的准确性改进。重要的副产品是来自Costco的广告潜在组件显示有趣的广告集群,这对于更好的广告目标是有用的。
translated by 谷歌翻译
提供了一种强大而灵活的模型,可用于代表多属数据和多种方式相互作用,在科学和工程中的各个领域中发挥着现代数据科学中的不可或缺的作用。基本任务是忠实地以统计和计算的有效方式从高度不完整的测量中恢复张量。利用Tucker分解中的张量的低级别结构,本文开发了一个缩放的梯度下降(Scaledgd)算法,可以直接恢复具有定制频谱初始化的张量因子,并表明它以与条件号无关的线性速率收敛对于两个规范问题的地面真理张量 - 张量完成和张量回归 - 一旦样本大小高于$ n ^ {3/2} $忽略其他参数依赖项,$ n $是维度张量。这导致与现有技术相比的低秩张力估计的极其可扩展的方法,这些方法具有以下至少一个缺点:对记忆和计算方面的对不良,偏移成本高的极度敏感性,或差样本复杂性保证。据我们所知,Scaledgd是第一算法,它可以同时实现近最佳统计和计算复杂性,以便与Tucker分解进行低级张力完成。我们的算法突出了加速非耦合统计估计在加速非耦合统计估计中的适当预处理的功率,其中迭代改复的预处理器促进轨迹的所需的不变性属性相对于低级张量分解中的底层对称性。
translated by 谷歌翻译
从高度不足的数据中恢复颜色图像和视频是面部识别和计算机视觉中的一项基本且具有挑战性的任务。通过颜色图像和视频的多维性质,在本文中,我们提出了一种新颖的张量完成方法,该方法能够有效探索离散余弦变换(DCT)下张量数据的稀疏性。具体而言,我们介绍了两个``稀疏 +低升级''张量完成模型,以及两种可实现的算法来找到其解决方案。第一个是基于DCT的稀疏加权核标准诱导低级最小化模型。第二个是基于DCT的稀疏加上$ P $换图映射引起的低秩优化模型。此外,我们因此提出了两种可实施的增强拉格朗日算法,以解决基础优化模型。一系列数值实验在内,包括颜色图像介入和视频数据恢复表明,我们所提出的方法的性能要比许多现有的最新张量完成方法更好,尤其是对于缺少数据比率较高的情况。
translated by 谷歌翻译
约束的张量和矩阵分子化模型允许从多道数据中提取可解释模式。因此,对于受约束的低秩近似度的可识别性特性和有效算法是如此重要的研究主题。这项工作涉及低秩近似的因子矩阵的列,以众所周知的和可能的过度顺序稀疏,该模型包括基于字典的低秩近似(DLRA)。虽然早期的贡献集中在候选列字典内的发现因子列,即一稀疏的近似值,这项工作是第一个以大于1的稀疏性解决DLRA。我建议专注于稀疏编码的子问题,在解决DLRA时出现的混合稀疏编码(MSC)以交替的优化策略在解决DLRA时出现。提供了基于稀疏编码启发式的几种算法(贪婪方法,凸起放松)以解决MSC。在模拟数据上评估这些启发式的性能。然后,我展示了如何基于套索来调整一个有效的MSC求解器,以计算高光谱图像处理和化学测量学的背景下的基于词典的基于矩阵分解和规范的多adic分解。这些实验表明,DLRA扩展了低秩近似的建模能力,有助于降低估计方差并提高估计因子的可识别性和可解释性。
translated by 谷歌翻译