本文探讨了一个问题:如何从数据中识别减少的订单模型。有三种将数据与模型联系起来的方法:不变叶,不变歧管和自动编码器。除非使用循环系统中的硬件,否则不变的歧管不能安装到数据中。自动编码器仅标识数据所在的相空间的一部分,这不一定是不变的歧管。因此,对于离线数据,唯一的选择是不变的叶面。我们注意到,Koopman本征函数也定义了不变的叶子,但是它们受到线性和产生的单一岩的假设的限制。寻找不变的叶面需要近似高维函数。我们提出了两种解决方案。如果寻求准确的降级模型,则使用稀疏的多项式近似,具有稀疏分层张量的多项式系数。如果寻求不变的歧管,作为叶的叶片,则可以通过低维多项式近似所需的高维函数。可以将这两种方法组合在一起以找到准确的减少订单模型和不变歧管。我们还分析了在机械系统中典型的焦点类型平衡的情况下,降低的订单模型。我们注意到,由不变叶叶定义的非线性坐标系和不变的歧管扭曲了瞬时频率和阻尼比,我们是正确的。通过示例,我们说明了不变叶和歧管的计算,同时表明,Koopman eigenfunctions和AutoCododer无法在相同条件下捕获准确的减少订单模型。
translated by 谷歌翻译
我们开发一种方法来构造来自表示基本上非线性(或不可连锁的)动态系统的数据集构成低维预测模型,其中具有由有限许多频率的外部强制进行外部矫正的双曲线线性部分。我们的数据驱动,稀疏,非线性模型获得为低维,吸引动力系统的光谱子纤维(SSM)的降低的动态的延长正常形式。我们说明了数据驱动的SSM降低了高维数值数据集的功率和涉及梁振荡,涡旋脱落和水箱中的晃动的实验测量。我们发现,在未加工的数据上培训的SSM减少也在额外的外部强制下准确预测非线性响应。
translated by 谷歌翻译
我们提出了一种从数据模拟动态系统的数值方法。我们使用最近引入的方法可扩展的概率近似(SPA)从欧几里德空间到凸多台的项目点,并表示在新的低维坐标中的系统的预计状态,表示其在多晶硅中的位置。然后,我们介绍特定的非线性变换,以构建多特渗透中动力学的模型,并转换回原始状态空间。为了克服投影到低维层的潜在信息损失,我们在局部延迟嵌入定理的意义上使用记忆。通过施工,我们的方法产生稳定的模型。我们说明了在各种示例上具有多个连接组件的甚至复制混沌动力学和吸引子的方法的能力。
translated by 谷歌翻译
Experimental sciences have come to depend heavily on our ability to organize, interpret and analyze high-dimensional datasets produced from observations of a large number of variables governed by natural processes. Natural laws, conservation principles, and dynamical structure introduce intricate inter-dependencies among these observed variables, which in turn yield geometric structure, with fewer degrees of freedom, on the dataset. We show how fine-scale features of this structure in data can be extracted from \emph{discrete} approximations to quantum mechanical processes given by data-driven graph Laplacians and localized wavepackets. This data-driven quantization procedure leads to a novel, yet natural uncertainty principle for data analysis induced by limited data. We illustrate the new approach with algorithms and several applications to real-world data, including the learning of patterns and anomalies in social distancing and mobility behavior during the COVID-19 pandemic.
translated by 谷歌翻译
Koopman运算符是无限维的运算符,可全球线性化非线性动态系统,使其光谱信息可用于理解动态。然而,Koopman运算符可以具有连续的光谱和无限维度的子空间,使得它们的光谱信息提供相当大的挑战。本文介绍了具有严格融合的数据驱动算法,用于从轨迹数据计算Koopman运算符的频谱信息。我们引入了残余动态模式分解(ResDMD),它提供了第一种用于计算普通Koopman运算符的Spectra和PseudtoStra的第一种方案,无需光谱污染。使用解析器操作员和RESDMD,我们还计算与测量保存动态系统相关的光谱度量的平滑近似。我们证明了我们的算法的显式收敛定理,即使计算连续频谱和离散频谱的密度,也可以实现高阶收敛即使是混沌系统。我们展示了在帐篷地图,高斯迭代地图,非线性摆,双摆,洛伦茨系统和11美元延长洛伦兹系统的算法。最后,我们为具有高维状态空间的动态系统提供了我们的算法的核化变体。这使我们能够计算与具有20,046维状态空间的蛋白质分子的动态相关的光谱度量,并计算出湍流流过空气的误差界限的非线性Koopman模式,其具有雷诺数为$> 10 ^ 5 $。一个295,122维的状态空间。
translated by 谷歌翻译
如果机器人曾经实现与动物所展示的机器人相当的自动运动,则它们必须获得在损害,故障或环境条件下快速恢复运动行为的能力,从而损害了其有效移动的能力。我们提出了一种方法,该方法使我们的机器人和模拟机器人能够在几十次尝试中恢复自由运动行为的高度。我们的方法采用行为规范,以等级的差异约束来表达所需的行为。我们展示了如何通过编码模板来考虑这些约束,从而产生了将先前优化的行为推广到新情况下以快速学习的形式概括的秘诀。我们进一步说明,在数据驱动的上下文中,足够的限制通常很容易确定。作为例证,我们证明了我们在物理7 DOF六型六杆元机器人上的恢复方法,以及对6 DOF 2D运动机制的模拟。在这两种情况下,我们恢复了与先前优化的运动在功能上无法区分的行为。
translated by 谷歌翻译
我们介绍了一种确定全局特征解耦的方法,并显示其适用于提高数据分析性能的适用性,并开放了新的场所以进行功能传输。我们提出了一种新的形式主义,该形式主义是基于沿特征梯度遵循轨迹来定义对子曼群的转换的。通过这些转换,我们定义了一个归一化,我们证明,它允许解耦可区分的特征。通过将其应用于采样矩,我们获得了用于正骨的准分析溶液,正尾肌肉是峰度的归一化版本,不仅与平均值和方差相关,而且还与偏度相关。我们将此方法应用于原始数据域和过滤器库的输出中,以基于全局描述符的回归和分类问题,与使用经典(未删除)描述符相比,性能得到一致且显着的改进。
translated by 谷歌翻译
We investigate the problem of recovering a partially observed high-rank matrix whose columns obey a nonlinear structure such as a union of subspaces, an algebraic variety or grouped in clusters. The recovery problem is formulated as the rank minimization of a nonlinear feature map applied to the original matrix, which is then further approximated by a constrained non-convex optimization problem involving the Grassmann manifold. We propose two sets of algorithms, one arising from Riemannian optimization and the other as an alternating minimization scheme, both of which include first- and second-order variants. Both sets of algorithms have theoretical guarantees. In particular, for the alternating minimization, we establish global convergence and worst-case complexity bounds. Additionally, using the Kurdyka-Lojasiewicz property, we show that the alternating minimization converges to a unique limit point. We provide extensive numerical results for the recovery of union of subspaces and clustering under entry sampling and dense Gaussian sampling. Our methods are competitive with existing approaches and, in particular, high accuracy is achieved in the recovery using Riemannian second-order methods.
translated by 谷歌翻译
我们介绍了一种算法,用于计算采样歧管的测量测量算法,其依赖于对采样数据的植物嵌入的曲线图的模拟。我们的方法利用经典的结果在半导体分析和量子古典对应中,并形成用于学习数据集的歧管的技术的基础,随后用于高维数据集的非线性维度降低。我们以基于CoVID-19移动数据的聚类演示,从模型歧管中采样数据采样的数据,并通过集群演示来说明新的算法。最后,我们的方法揭示了数据采样和量化提供的离散化之间有趣的连接。
translated by 谷歌翻译
本文通过引入几何深度学习(GDL)框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型,从而解决了对非欧国人数据进行处理的需求。我们表明,我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反,我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数,任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件,确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现,任何“现实世界”(即有限)数据集始终满足我们的状况,相反,如果目标函数平滑,则任何数据集都满足我们的要求。作为应用,我们确认了以下GDL模型的通用近似功能:Ganea等。 (2018)的双波利馈电网络,实施Krishnan等人的体系结构。 (2015年)的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了:Meyer等人的SPD-Matrix回归剂的通用扩展/变体。 (2011)和Fletcher(2003)的Procrustean回归剂。在欧几里得的环境中,我们的结果暗示了Kidger和Lyons(2020)的近似定理和Yarotsky和Zhevnerchuk(2019)无估计近似率的数据依赖性版本的定量版本。
translated by 谷歌翻译
在本文中,我们研究了多视图几何中基本和基本矩阵估计的5-和7点问题的数值不太稳定性。在这两种情况下,我们表征了末极估计的条件号是无限的呈现不良世界场景。我们还以给定的图像数据表征不良实例。为了达到这些结果,我们提出了一般的框架,用于分析基于Riemannian歧管的多视图几何体中最小问题的调理。综合性和现实世界数据的实验然后揭示了一个引人注目的结论:在结构 - 从 - 动作(SFM)中的随机样本共识(RANSAC)不仅用于过滤输出异常值,而且RANSAC还选择用于良好的良好的图像数据,足够分离我们的理论预测的不良座位。我们的研究结果表明,在未来的工作中,人们可以试图通过仅测试良好的图像数据来加速和增加Ransac的成功。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
量子哈密顿学习和量子吉布斯采样的双重任务与物理和化学中的许多重要问题有关。在低温方案中,这些任务的算法通常会遭受施状能力,例如因样本或时间复杂性差而遭受。为了解决此类韧性,我们将量子自然梯度下降的概括引入了参数化的混合状态,并提供了稳健的一阶近似算法,即量子 - 固定镜下降。我们使用信息几何学和量子计量学的工具证明了双重任务的数据样本效率,因此首次将经典Fisher效率的开创性结果推广到变异量子算法。我们的方法扩展了以前样品有效的技术,以允许模型选择的灵活性,包括基于量子汉密尔顿的量子模型,包括基于量子的模型,这些模型可能会规避棘手的时间复杂性。我们的一阶算法是使用经典镜下降二元性的新型量子概括得出的。两种结果都需要特殊的度量选择,即Bogoliubov-Kubo-Mori度量。为了从数值上测试我们提出的算法,我们将它们的性能与现有基准进行了关于横向场ISING模型的量子Gibbs采样任务的现有基准。最后,我们提出了一种初始化策略,利用几何局部性来建模状态的序列(例如量子 - 故事过程)的序列。我们从经验上证明了它在实际和想象的时间演化的经验上,同时定义了更广泛的潜在应用。
translated by 谷歌翻译
Low-rank matrix approximations, such as the truncated singular value decomposition and the rank-revealing QR decomposition, play a central role in data analysis and scientific computing. This work surveys and extends recent research which demonstrates that randomization offers a powerful tool for performing low-rank matrix approximation. These techniques exploit modern computational architectures more fully than classical methods and open the possibility of dealing with truly massive data sets.This paper presents a modular framework for constructing randomized algorithms that compute partial matrix decompositions. These methods use random sampling to identify a subspace that captures most of the action of a matrix. The input matrix is then compressed-either explicitly or implicitly-to this subspace, and the reduced matrix is manipulated deterministically to obtain the desired low-rank factorization. In many cases, this approach beats its classical competitors in terms of accuracy, speed, and robustness. These claims are supported by extensive numerical experiments and a detailed error analysis.The specific benefits of randomized techniques depend on the computational environment. Consider the model problem of finding the k dominant components of the singular value decomposition of an m × n matrix. (i) For a dense input matrix, randomized algorithms require O(mn log(k)) floating-point operations (flops) in contrast with O(mnk) for classical algorithms. (ii) For a sparse input matrix, the flop count matches classical Krylov subspace methods, but the randomized approach is more robust and can easily be reorganized to exploit multi-processor architectures. (iii) For a matrix that is too large to fit in fast memory, the randomized techniques require only a constant number of passes over the data, as opposed to O(k) passes for classical algorithms. In fact, it is sometimes possible to perform matrix approximation with a single pass over the data.
translated by 谷歌翻译
本论文主要涉及解决深层(时间)高斯过程(DGP)回归问题的状态空间方法。更具体地,我们代表DGP作为分层组合的随机微分方程(SDES),并且我们通过使用状态空间过滤和平滑方法来解决DGP回归问题。由此产生的状态空间DGP(SS-DGP)模型生成丰富的电视等级,与建模许多不规则信号/功能兼容。此外,由于他们的马尔可道结构,通过使用贝叶斯滤波和平滑方法可以有效地解决SS-DGPS回归问题。本论文的第二次贡献是我们通过使用泰勒力矩膨胀(TME)方法来解决连续离散高斯滤波和平滑问题。这诱导了一类滤波器和SmooThers,其可以渐近地精确地预测随机微分方程(SDES)解决方案的平均值和协方差。此外,TME方法和TME过滤器和SmoOthers兼容模拟SS-DGP并解决其回归问题。最后,本文具有多种状态 - 空间(深)GPS的应用。这些应用主要包括(i)来自部分观察到的轨迹的SDES的未知漂移功能和信号的光谱 - 时间特征估计。
translated by 谷歌翻译
Riemannian优化是解决优化问题的原则框架,其中所需的最佳被限制为光滑的歧管$ \ Mathcal {M} $。在此框架中设计的算法通常需要对歧管的几何描述,该描述通常包括切线空间,缩回和成本函数的梯度。但是,在许多情况下,由于缺乏信息或棘手的性能,只能访问这些元素的子集(或根本没有)。在本文中,我们提出了一种新颖的方法,可以在这种情况下执行近似Riemannian优化,其中约束歧管是$ \ r^{d} $的子手机。至少,我们的方法仅需要一组无噪用的成本函数$(\ x_ {i},y_ {i})\ in {\ mathcal {m}} \ times \ times \ times \ times \ times \ mathbb {r} $和内在的歧管$ \ MATHCAL {M} $的维度。使用样品,并利用歧管-MLS框架(Sober和Levin 2020),我们构建了缺少的组件的近似值,这些组件娱乐可证明的保证并分析其计算成本。如果某些组件通过分析给出(例如,如果成本函数及其梯度明确给出,或者可以计算切线空间),则可以轻松地适应该算法以使用准确的表达式而不是近似值。我们使用我们的方法分析了基于Riemannian梯度的方法的全球收敛性,并从经验上证明了该方法的强度,以及基于类似原理的共轭梯度类型方法。
translated by 谷歌翻译
潜在变量模型(LVM)的无监督学习被广泛用于表示机器学习中的数据。当这样的模型反映了地面真理因素和将它们映射到观察的机制时,有理由期望它们允许在下游任务中进行概括。但是,众所周知,如果不在模型类上施加限制,通常无法实现此类可识别性保证。非线性独立组件分析是如此,其中LVM通过确定性的非线性函数将统计上独立的变量映射到观察。几个伪造解决方案的家庭完全适合数据,但是可以在通用环境中构建与地面真相因素相对应的。但是,最近的工作表明,限制此类模型的功能类别可能会促进可识别性。具体而言,已经提出了在Jacobian矩阵中收集的部分衍生物的函数类,例如正交坐标转换(OCT),它们强加了Jacobian柱的正交性。在目前的工作中,我们证明了这些转换的子类,共形图,是可识别的,并提供了新颖的理论结果,这表明OCT具有防止虚假解决方案家族在通用环境中破坏可识别性的特性。
translated by 谷歌翻译
我们介绍了一类小说的预计方法,对实际线上的概率分布数据集进行统计分析,具有2-Wassersein指标。我们特别关注主成分分析(PCA)和回归。为了定义这些模型,我们通过将数据映射到合适的线性空间并使用度量投影运算符来限制Wassersein空间中的结果来利用与其弱利米结构密切相关的Wasserstein空间的表示。通过仔细选择切线,我们能够推出快速的经验方法,利用受约束的B样条近似。作为我们方法的副产品,我们还能够为PCA的PCA进行更快的例程来获得分布。通过仿真研究,我们将我们的方法与先前提出的方法进行比较,表明我们预计的PCA具有类似的性能,即使在拼盘下也是极其灵活的。研究了模型的若干理论性质,并证明了渐近一致性。讨论了两个真实世界应用于美国和风速预测的Covid-19死亡率。
translated by 谷歌翻译
提出了用于基于合奏的估计和模拟高维动力系统(例如海洋或大气流)的方法学框架。为此,动态系统嵌入了一个由动力学驱动的内核功能的繁殖核Hilbert空间的家族中。这个家庭因其吸引人的财产而被昵称为仙境。在梦游仙境中,Koopman和Perron-Frobenius操作员是统一且均匀的。该属性保证它们可以在一系列可对角线的无限发电机中表达。访问Lyapunov指数和切线线性动力学的精确集合表达式也可以直接可用。仙境使我们能够根据轨迹样本的恒定时间线性组合来设计出惊人的简单集合数据同化方法。通过几个基本定理的完全合理的叠加原则,使这种令人尴尬的简单策略成为可能。
translated by 谷歌翻译
马尔可夫链是一类概率模型,在定量科学中已广泛应用。这部分是由于它们的多功能性,但是可以通过分析探测的便利性使其更加复杂。本教程为马尔可夫连锁店提供了深入的介绍,并探索了它们与图形和随机步行的联系。我们利用从线性代数和图形论的工具来描述不同类型的马尔可夫链的过渡矩阵,特别着眼于探索与这些矩阵相对应的特征值和特征向量的属性。提出的结果与机器学习和数据挖掘中的许多方法有关,我们在各个阶段描述了这些方法。本文并没有本身就成为一项新颖的学术研究,而是提出了一些已知结果的集合以及一些新概念。此外,该教程的重点是向读者提供直觉,而不是正式的理解,并且仅假定对线性代数和概率理论的概念的基本曝光。因此,来自各种学科的学生和研究人员可以访问它。
translated by 谷歌翻译