基于多维时间序列预测的歧管学习,我们解决了三层数值框架。在第一步,我们使用诸如局部线性嵌入和扩散图的非线性歧管学习算法将时间序列嵌入到降低的低维空间中。在第二步,我们在歧管中构建倒计阶回归模型,特别是多变量自回归(MVAR)和高斯过程回归(GPR)模型,以预测嵌入式动态。在最后一步,我们使用径向基函数插值和几何谐波将嵌入的时间序列抬回原始的高维空间。对于我们的插图,我们使用四组时间序列测试所提出的数值方案的预测性能:三种合成随机等于具有不同模型订单的线性和非线性随机模型的EEG信号,以及包含每日时间的一个真实数据集跨越时间段03 / 09/2001-29 / 10/2020的10个关键外汇汇率(外汇)系列。使用歧管学习,建模和提升方法的组合评估所提出的数值方案的预测性能。我们还提供与主成分分析算法以及天真随机步道模型的比较,以及培训的MVAR和GPR模型直接在高维空间中实现。
translated by 谷歌翻译
我们提供了一个方程/可变的免费机器学习(EVFML)框架,以控制通过基于微观/代理模拟器建模的复杂/多尺度系统的集体动力学。该方法避免了构建替代物,还原级模型的需求。〜所提出的实现包括三个步骤:(a)来自基于高维代理的模拟,机器学习(尤其是非线性歧管学习(扩散图)(扩散地图) (DMS))有助于确定一组粗粒变量,该变量参数化了出现/集体动力学的低维歧管。从高维输入空间到低维歧管和背部,通过将DMS与NyStrom扩展和几何谐波耦合来求解;(b)已确定了歧管及其坐标,我们将方程式的方法利用了方程的方法对出现动力学执行数值分叉分析;然后,基于先前的步骤(C),我们设计了数据驱动的嵌入式洗涤控制器,该控制器将基于代理的模拟器驱动其内在的IM精确知道的,新兴的开环不稳定稳态,因此表明该方案对数值近似误差和建模不确定性是可靠的。交通动态模型和(ii)与哑剧的随机金融市场代理模型的平衡。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
Experimental sciences have come to depend heavily on our ability to organize, interpret and analyze high-dimensional datasets produced from observations of a large number of variables governed by natural processes. Natural laws, conservation principles, and dynamical structure introduce intricate inter-dependencies among these observed variables, which in turn yield geometric structure, with fewer degrees of freedom, on the dataset. We show how fine-scale features of this structure in data can be extracted from \emph{discrete} approximations to quantum mechanical processes given by data-driven graph Laplacians and localized wavepackets. This data-driven quantization procedure leads to a novel, yet natural uncertainty principle for data analysis induced by limited data. We illustrate the new approach with algorithms and several applications to real-world data, including the learning of patterns and anomalies in social distancing and mobility behavior during the COVID-19 pandemic.
translated by 谷歌翻译
我们介绍了一种算法,用于计算采样歧管的测量测量算法,其依赖于对采样数据的植物嵌入的曲线图的模拟。我们的方法利用经典的结果在半导体分析和量子古典对应中,并形成用于学习数据集的歧管的技术的基础,随后用于高维数据集的非线性维度降低。我们以基于CoVID-19移动数据的聚类演示,从模型歧管中采样数据采样的数据,并通过集群演示来说明新的算法。最后,我们的方法揭示了数据采样和量化提供的离散化之间有趣的连接。
translated by 谷歌翻译
本文提出了一个无网格的计算框架和机器学习理论,用于在未知的歧管上求解椭圆形PDE,并根据扩散地图(DM)和深度学习确定点云。 PDE求解器是作为监督的学习任务制定的,以解决最小二乘回归问题,该问题施加了近似PDE的代数方程(如果适用)。该代数方程涉及通过DM渐近扩展获得的图形拉平型矩阵,该基质是二阶椭圆差差算子的一致估计器。最终的数值方法是解决受神经网络假设空间解决方案的高度非凸经验最小化问题。在体积良好的椭圆PDE设置中,当假设空间由具有无限宽度或深度的神经网络组成时,我们表明,经验损失函数的全球最小化器是大型训练数据极限的一致解决方案。当假设空间是一个两层神经网络时,我们表明,对于足够大的宽度,梯度下降可以识别经验损失函数的全局最小化器。支持数值示例证明了解决方案的收敛性,范围从具有低和高共限度的简单歧管到具有和没有边界的粗糙表面。我们还表明,所提出的NN求解器可以在具有概括性误差的新数据点上稳健地概括PDE解决方案,这些误差几乎与训练错误相同,从而取代了基于Nystrom的插值方法。
translated by 谷歌翻译
我们提出了一种基于物理知识的随机投影神经网络的数值方法,用于解决常微分方程(ODES)的初始值问题(IVPS)的解决方案,重点是僵硬的问题。我们使用具有径向基函数的单个隐藏层来解决一个极端学习机,其具有宽度均匀分布的随机变量,而输入和隐藏层之间的权重的值设置为等于1。通过构造非线性代数方程的系统来获得IVPS的数值解决方案,该系统由高斯-Nythto方法通过Gauss-Newton方法解决了输出权重,以调整集成时间间隔的简单自适应方案。为了评估其性能,我们应用了四个基准僵硬IVPS解决方案的提议方法,即预热罗宾逊,梵德,罗伯和雇用问题。我们的方法与基于Dormand-Prince对的自适应跳动-Kutta方法进行比较,以及基于数值差分公式的可变步骤可变序列多步解算器,如\ texttt {ode45}和\ texttt {ode15s}所实现的MATLAB功能分别。我们表明所提出的方案产生良好的近似精度,从而优于\ texttt {ode45}和\ texttt {ode15s},尤其是在出现陡峭梯度的情况下。此外,我们的方法的计算时间与两种Matlab溶剂的计算时间用于实际目的。
translated by 谷歌翻译
我们介绍了一类小说的预计方法,对实际线上的概率分布数据集进行统计分析,具有2-Wassersein指标。我们特别关注主成分分析(PCA)和回归。为了定义这些模型,我们通过将数据映射到合适的线性空间并使用度量投影运算符来限制Wassersein空间中的结果来利用与其弱利米结构密切相关的Wasserstein空间的表示。通过仔细选择切线,我们能够推出快速的经验方法,利用受约束的B样条近似。作为我们方法的副产品,我们还能够为PCA的PCA进行更快的例程来获得分布。通过仿真研究,我们将我们的方法与先前提出的方法进行比较,表明我们预计的PCA具有类似的性能,即使在拼盘下也是极其灵活的。研究了模型的若干理论性质,并证明了渐近一致性。讨论了两个真实世界应用于美国和风速预测的Covid-19死亡率。
translated by 谷歌翻译
这是针对非线性维度和特征提取方法的教程和调查论文,该方法基于数据图的拉普拉斯语。我们首先介绍邻接矩阵,拉普拉斯矩阵的定义和拉普拉斯主义的解释。然后,我们涵盖图形和光谱聚类的切割,该谱图应用于数据子空间。解释了Laplacian征收及其样本外扩展的不同优化变体。此后,我们将保留投影的局部性及其内核变体作为拉普拉斯征本征的线性特殊案例。然后解释了图嵌入的版本,这些版本是Laplacian eigenmap和局部保留投影的广义版本。最后,引入了扩散图,这是基于数据图和随机步行的方法。
translated by 谷歌翻译
我们提出了一种从数据模拟动态系统的数值方法。我们使用最近引入的方法可扩展的概率近似(SPA)从欧几里德空间到凸多台的项目点,并表示在新的低维坐标中的系统的预计状态,表示其在多晶硅中的位置。然后,我们介绍特定的非线性变换,以构建多特渗透中动力学的模型,并转换回原始状态空间。为了克服投影到低维层的潜在信息损失,我们在局部延迟嵌入定理的意义上使用记忆。通过施工,我们的方法产生稳定的模型。我们说明了在各种示例上具有多个连接组件的甚至复制混沌动力学和吸引子的方法的能力。
translated by 谷歌翻译
提出了用于基于合奏的估计和模拟高维动力系统(例如海洋或大气流)的方法学框架。为此,动态系统嵌入了一个由动力学驱动的内核功能的繁殖核Hilbert空间的家族中。这个家庭因其吸引人的财产而被昵称为仙境。在梦游仙境中,Koopman和Perron-Frobenius操作员是统一且均匀的。该属性保证它们可以在一系列可对角线的无限发电机中表达。访问Lyapunov指数和切线线性动力学的精确集合表达式也可以直接可用。仙境使我们能够根据轨迹样本的恒定时间线性组合来设计出惊人的简单集合数据同化方法。通过几个基本定理的完全合理的叠加原则,使这种令人尴尬的简单策略成为可能。
translated by 谷歌翻译
在金融时序预测时,我们调查特征选择,非线性建模和在线学习的好处。我们考虑在线学习的顺序和持续学习子类型。我们进行的实验表明,以径向基函数网络的形式,在线转移学习存在益处,超出了递归最小二乘模型的顺序更新。我们表明,利用聚类算法构建核克矩阵的径向基函数网络比将每个训练矢量视为单独的基本函数,与内核脊回归发生的更有益。我们展示了定量程序来确定径向基函数网络的结构非常结构。最后,我们对金融时间序列的日志回报进行了实验,并表明在线学习模型,特别是径向基函数网络,能够优于随机的散步基线,而离线学习模型努力这样做。
translated by 谷歌翻译
我们研究具有流形结构的物理系统的langevin动力学$ \ MATHCAL {M} \ subset \ Mathbb {r}^p $,基于收集的样品点$ \ {\ Mathsf {x} _i \} _ {_i \} _ {i = 1} ^n \ subset \ mathcal {m} $探测未知歧管$ \ mathcal {m} $。通过扩散图,我们首先了解反应坐标$ \ {\ MATHSF {y} _i \} _ {i = 1}^n \ subset \ subset \ mathcal {n} $对应于$ \ {\ {\ mathsf {x} _i _i \ \ \ \ \ _i \ \ \ \ {x} } _ {i = 1}^n $,其中$ \ mathcal {n} $是$ \ mathcal {m} $的歧义diffeomorphic,并且与$ \ mathbb {r}^\ ell $ insometryally嵌入了$ \ ell $,带有$ \ ell \ ell \ ell \ ell \ el \ ell \ el \ el \ ell \ el \ LL P $。在$ \ Mathcal {n} $上的诱导Langevin动力学在反应坐标方面捕获了缓慢的时间尺度动力学,例如生化反应的构象变化。要构建$ \ Mathcal {n} $上的Langevin Dynamics的高效稳定近似,我们利用反应坐标$ \ MATHSF {y} n effertold $ \ Mathcal {n} $上的歧管$ \ Mathcal {n} $上的相应的fokker-planck方程$。我们为此Fokker-Planck方程提出了可实施的,无条件稳定的数据驱动的有限卷方程,该方程将自动合并$ \ Mathcal {n} $的歧管结构。此外,我们在$ \ Mathcal {n} $上提供了有限卷方案的加权$ L^2 $收敛分析。所提出的有限体积方案在$ \ {\ Mathsf {y} _i \} _ {i = 1}^n $上导致Markov链,并具有近似的过渡概率和最近的邻居点之间的跳跃速率。在无条件稳定的显式时间离散化之后,数据驱动的有限体积方案为$ \ Mathcal {n} $上的Langevin Dynamics提供了近似的Markov进程,并且近似的Markov进程享有详细的平衡,Ergodicity和其他良好的属性。
translated by 谷歌翻译
在机器学习中调用多种假设需要了解歧管的几何形状和维度,理论决定了需要多少样本。但是,在应用程序数据中,采样可能不均匀,歧管属性是未知的,并且(可能)非纯化;这意味着社区必须适应本地结构。我们介绍了一种用于推断相似性内核提供数据的自适应邻域的算法。从本地保守的邻域(Gabriel)图开始,我们根据加权对应物进行迭代率稀疏。在每个步骤中,线性程序在全球范围内产生最小的社区,并且体积统计数据揭示了邻居离群值可能违反了歧管几何形状。我们将自适应邻域应用于非线性维度降低,地球计算和维度估计。与标准算法的比较,例如使用K-Nearest邻居,证明了它们的实用性。
translated by 谷歌翻译
我们开发一种方法来构造来自表示基本上非线性(或不可连锁的)动态系统的数据集构成低维预测模型,其中具有由有限许多频率的外部强制进行外部矫正的双曲线线性部分。我们的数据驱动,稀疏,非线性模型获得为低维,吸引动力系统的光谱子纤维(SSM)的降低的动态的延长正常形式。我们说明了数据驱动的SSM降低了高维数值数据集的功率和涉及梁振荡,涡旋脱落和水箱中的晃动的实验测量。我们发现,在未加工的数据上培训的SSM减少也在额外的外部强制下准确预测非线性响应。
translated by 谷歌翻译
This paper revisits building machine learning algorithms that involve interactions between entities, such as those between financial assets in an actively managed portfolio, or interactions between users in a social network. Our goal is to forecast the future evolution of ensembles of multivariate time series in such applications (e.g., the future return of a financial asset or the future popularity of a Twitter account). Designing ML algorithms for such systems requires addressing the challenges of high-dimensional interactions and non-linearity. Existing approaches usually adopt an ad-hoc approach to integrating high-dimensional techniques into non-linear models and recent studies have shown these approaches have questionable efficacy in time-evolving interacting systems. To this end, we propose a novel framework, which we dub as the additive influence model. Under our modeling assumption, we show that it is possible to decouple the learning of high-dimensional interactions from the learning of non-linear feature interactions. To learn the high-dimensional interactions, we leverage kernel-based techniques, with provable guarantees, to embed the entities in a low-dimensional latent space. To learn the non-linear feature-response interactions, we generalize prominent machine learning techniques, including designing a new statistically sound non-parametric method and an ensemble learning algorithm optimized for vector regressions. Extensive experiments on two common applications demonstrate that our new algorithms deliver significantly stronger forecasting power compared to standard and recently proposed methods.
translated by 谷歌翻译
预测组合在预测社区中蓬勃发展,近年来,已经成为预测研究和活动主流的一部分。现在,由单个(目标)系列产生的多个预测组合通过整合来自不同来源收集的信息,从而提高准确性,从而减轻了识别单个“最佳”预测的风险。组合方案已从没有估计的简单组合方法演变为涉及时间变化的权重,非线性组合,组件之间的相关性和交叉学习的复杂方法。它们包括结合点预测和结合概率预测。本文提供了有关预测组合的广泛文献的最新评论,并参考可用的开源软件实施。我们讨论了各种方法的潜在和局限性,并突出了这些思想如何随着时间的推移而发展。还调查了有关预测组合实用性的一些重要问题。最后,我们以当前的研究差距和未来研究的潜在见解得出结论。
translated by 谷歌翻译
在本文中,我们提供了有关Hankel低级近似和完成工作的综述和书目,特别强调了如何将这种方法用于时间序列分析和预测。我们首先描述问题的可能表述,并就获得全球最佳解决方案的相关主题和挑战提供评论。提供了关键定理,并且纸张以一些说明性示例关闭。
translated by 谷歌翻译
Many scientific fields study data with an underlying structure that is a non-Euclidean space. Some examples include social networks in computational social sciences, sensor networks in communications, functional networks in brain imaging, regulatory networks in genetics, and meshed surfaces in computer graphics. In many applications, such geometric data are large and complex (in the case of social networks, on the scale of billions), and are natural targets for machine learning techniques. In particular, we would like to use deep neural networks, which have recently proven to be powerful tools for a broad range of problems from computer vision, natural language processing, and audio analysis. However, these tools have been most successful on data with an underlying Euclidean or grid-like structure, and in cases where the invariances of these structures are built into networks used to model them.Geometric deep learning is an umbrella term for emerging techniques attempting to generalize (structured) deep neural models to non-Euclidean domains such as graphs and manifolds. The purpose of this paper is to overview different examples of geometric deep learning problems and present available solutions, key difficulties, applications, and future research directions in this nascent field.
translated by 谷歌翻译
我们合并计算力学的因果状态(预测等同历史)的定义与再现 - 内核希尔伯特空间(RKHS)表示推断。结果是一种广泛适用的方法,可直接从系统行为的观察中迁移因果结构,无论它们是否超过离散或连续事件或时间。结构表示 - 有限或无限状态内核$ \ epsilon $ -Machine - 由减压变换提取,其提供了有效的因果状态及其拓扑。以这种方式,系统动态由用于在因果状态上的随机(普通或部分)微分方程表示。我们介绍了一种算法来估计相关的演化运营商。平行于Fokker-Plank方程,它有效地发展了因果状态分布,并通过RKHS功能映射在原始数据空间中进行预测。我们展示了这些技术,以及他们的预测能力,在离散时间的离散时间离散 - 有限的无限值Markov订单流程,其中有限状态隐藏马尔可夫模型与(i)有限或(ii)不可数 - 无限因果态和(iii)连续时间,由热驱动的混沌流产生的连续值处理。该方法在存在不同的外部和测量噪声水平和非常高的维数据存在下鲁棒地估计因果结构。
translated by 谷歌翻译