The circular coordinates algorithm of de Silva, Morozov, and Vejdemo-Johansson takes as input a dataset together with a cohomology class representing a $1$-dimensional hole in the data; the output is a map from the data into the circle that captures this hole, and that is of minimum energy in a suitable sense. However, when applied to several cohomology classes, the output circle-valued maps can be "geometrically correlated" even if the chosen cohomology classes are linearly independent. It is shown in the original work that less correlated maps can be obtained with suitable integer linear combinations of the cohomology classes, with the linear combinations being chosen by inspection. In this paper, we identify a formal notion of geometric correlation between circle-valued maps which, in the Riemannian manifold case, corresponds to the Dirichlet form, a bilinear form derived from the Dirichlet energy. We describe a systematic procedure for constructing low energy torus-valued maps on data, starting from a set of linearly independent cohomology classes. We showcase our procedure with computational examples. Our main algorithm is based on the Lenstra--Lenstra--Lov\'asz algorithm from computational number theory.
translated by 谷歌翻译
具有非平凡大规模拓扑的数据集可能很难嵌入具有现有维度降低算法的低维欧几里得空间中。我们建议使用向量束对拓扑复杂的数据集建模,以使基本空间解释大型拓扑,而纤维则解释了局部几何形状。这使人们可以在保留大规模拓扑的同时降低纤维的尺寸。我们将此观点形式化,并且作为一个应用程序,我们描述了一种算法,该算法将数据集和在欧几里得空间中的初始表示形式一起作为输入,假定其大规模拓扑的一部分,并输出了一种新的表示,并输出一种新的表示形式,该表示是集成了沿着初始全局表示,通过局部线性维度降低获得的局部表示。我们在来自动态系统和化学的示例上证明了这种算法。在这些示例中,与各种基于众所周知的基于度量的降低算法相比,我们的算法能够在较低的目标维度中学习拓扑忠实的数据嵌入。
translated by 谷歌翻译
在本文中,我们使用拓扑数据分析技术来构造合适的神经网络分类器,用于根据其参考指定系统来构建整个发电厂的传感器信号的任务。我们使用持久性图的表示来推导必要的预处理步骤并可视化大量数据。我们使用一维卷积层的深度架构,与堆叠的长短期存储器相结合,作为适合于处理持久性特征的剩余网络。我们组合了三个单独的子网,获得了输入时间序列本身和零级持续同源的表示。我们为大多数使用的超参数提供了数学推导。为了验证,使用来自相同结构类型的四个发电厂的传感器数据进行数值实验。
translated by 谷歌翻译
本文通过引入几何深度学习(GDL)框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型,从而解决了对非欧国人数据进行处理的需求。我们表明,我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反,我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数,任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件,确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现,任何“现实世界”(即有限)数据集始终满足我们的状况,相反,如果目标函数平滑,则任何数据集都满足我们的要求。作为应用,我们确认了以下GDL模型的通用近似功能:Ganea等。 (2018)的双波利馈电网络,实施Krishnan等人的体系结构。 (2015年)的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了:Meyer等人的SPD-Matrix回归剂的通用扩展/变体。 (2011)和Fletcher(2003)的Procrustean回归剂。在欧几里得的环境中,我们的结果暗示了Kidger和Lyons(2020)的近似定理和Yarotsky和Zhevnerchuk(2019)无估计近似率的数据依赖性版本的定量版本。
translated by 谷歌翻译
深度神经网络被广泛用于解决多个科学领域的复杂问题,例如语音识别,机器翻译,图像分析。用于研究其理论特性的策略主要依赖于欧几里得的几何形状,但是在过去的几年中,已经开发了基于Riemannian几何形状的新方法。在某些开放问题的动机中,我们研究了歧管之间的特定地图序列,该序列的最后一个歧管配备了riemannian指标。我们研究了序列的其他歧管和某些相关商的结构引起的槽撤回。特别是,我们表明,最终的riemannian度量的回调到该序列的任何歧管是一个退化的riemannian度量,诱导了伪模空间的结构,我们表明,该伪仪的kolmogorov商均产生了平滑的歧管,这是基础的,这是基础,这是基础的基础。特定垂直束的空间。我们研究了此类序列图的理论属性,最终我们着重于实施实际关注神经网络的流形之间的地图,并介绍了本文第一部分中引入的几何框架的某些应用。
translated by 谷歌翻译
在此备忘录中,我们开发了一般框架,它允许同时研究$ \ MathBB R ^ D $和惠特尼在$ \ Mathbb r的离散和非离散子集附近的insoctry扩展问题附近的标签和未标记的近对准数据问题。^ d $与某些几何形状。此外,我们调查了与集群,维度减少,流形学习,视觉以及最小的能量分区,差异和最小最大优化的相关工作。给出了谐波分析,计算机视觉,歧管学习和与我们工作的信号处理中的众多开放问题。本发明内容中的一部分工作基于纸张中查尔斯Fefferman的联合研究[48],[49],[50],[51]。
translated by 谷歌翻译
Riemannian优化是解决优化问题的原则框架,其中所需的最佳被限制为光滑的歧管$ \ Mathcal {M} $。在此框架中设计的算法通常需要对歧管的几何描述,该描述通常包括切线空间,缩回和成本函数的梯度。但是,在许多情况下,由于缺乏信息或棘手的性能,只能访问这些元素的子集(或根本没有)。在本文中,我们提出了一种新颖的方法,可以在这种情况下执行近似Riemannian优化,其中约束歧管是$ \ r^{d} $的子手机。至少,我们的方法仅需要一组无噪用的成本函数$(\ x_ {i},y_ {i})\ in {\ mathcal {m}} \ times \ times \ times \ times \ times \ mathbb {r} $和内在的歧管$ \ MATHCAL {M} $的维度。使用样品,并利用歧管-MLS框架(Sober和Levin 2020),我们构建了缺少的组件的近似值,这些组件娱乐可证明的保证并分析其计算成本。如果某些组件通过分析给出(例如,如果成本函数及其梯度明确给出,或者可以计算切线空间),则可以轻松地适应该算法以使用准确的表达式而不是近似值。我们使用我们的方法分析了基于Riemannian梯度的方法的全球收敛性,并从经验上证明了该方法的强度,以及基于类似原理的共轭梯度类型方法。
translated by 谷歌翻译
Riemannian geometry provides powerful tools to explore the latent space of generative models while preserving the inherent structure of the data manifold. Lengths, energies and volume measures can be derived from a pullback metric, defined through the immersion that maps the latent space to the data space. With this in mind, most generative models are stochastic, and so is the pullback metric. Manipulating stochastic objects is strenuous in practice. In order to perform operations such as interpolations, or measuring the distance between data points, we need a deterministic approximation of the pullback metric. In this work, we are defining a new metric as the expected length derived from the stochastic pullback metric. We show this metric is Finslerian, and we compare it with the expected pullback metric. In high dimensions, we show that the metrics converge to each other at a rate of $\mathcal{O}\left(\frac{1}{D}\right)$.
translated by 谷歌翻译
In this work we study statistical properties of graph-based algorithms for multi-manifold clustering (MMC). In MMC the goal is to retrieve the multi-manifold structure underlying a given Euclidean data set when this one is assumed to be obtained by sampling a distribution on a union of manifolds $\mathcal{M} = \mathcal{M}_1 \cup\dots \cup \mathcal{M}_N$ that may intersect with each other and that may have different dimensions. We investigate sufficient conditions that similarity graphs on data sets must satisfy in order for their corresponding graph Laplacians to capture the right geometric information to solve the MMC problem. Precisely, we provide high probability error bounds for the spectral approximation of a tensorized Laplacian on $\mathcal{M}$ with a suitable graph Laplacian built from the observations; the recovered tensorized Laplacian contains all geometric information of all the individual underlying manifolds. We provide an example of a family of similarity graphs, which we call annular proximity graphs with angle constraints, satisfying these sufficient conditions. We contrast our family of graphs with other constructions in the literature based on the alignment of tangent planes. Extensive numerical experiments expand the insights that our theory provides on the MMC problem.
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
本文介绍了一组数字方法,用于在不变(弹性)二阶Sobolev指标的设置中对3D表面进行Riemannian形状分析。更具体地说,我们解决了代表为3D网格的参数化或未参数浸入式表面之间的测量学和地球距离的计算。在此基础上,我们为表面集的统计形状分析开发了工具,包括用于估算Karcher均值并在形状群体上执行切线PCA的方法,以及计算沿表面路径的平行传输。我们提出的方法从根本上依赖于通过使用Varifold Fidelity术语来为地球匹配问题提供轻松的变异配方,这使我们能够在计算未参数化表面之间的地理位置时强制执行重新训练的独立性,同时还可以使我们能够与多用途算法相比,使我们能够将表面与vare表面进行比较。采样或网状结构。重要的是,我们演示了如何扩展放松的变分框架以解决部分观察到的数据。在合成和真实的各种示例中,说明了我们的数值管道的不同好处。
translated by 谷歌翻译
矢量值随机变量的矩序列可以表征其定律。我们通过使用所谓的稳健签名矩来研究路径值随机变量(即随机过程)的类似问题。这使我们能够为随机过程定律得出最大平均差异类型的度量,并研究其在随机过程定律方面引起的拓扑。可以使用签名内核对该度量进行内核,从而有效地计算它。作为应用程序,我们为随机过程定律提供了非参数的两样本假设检验。
translated by 谷歌翻译
拓扑数据分析(TDA)提供了新的方法,使我们能够分析数据集的几何形状和拓扑结构。作为一个重要应用,TDA可用于数据可视化和尺寸减少。我们遵循圆形坐标表示的框架,这使我们能够使用持续的协调学上对Corus上的高维数据集进行维度降低和可视化。在本文中,我们提出了一种方法来调整圆形坐标框架,以考虑变换点和高维应用中圆形坐标的粗糙度。我们在传统的圆坐标算法中使用广义惩罚功能而不是$ l_ {2} $罚金。我们提供仿真实验和实际数据分析,支持我们的索赔,具有广义惩罚的圆形坐标将在保留拓扑结构的同时检测不同采样方案下的高维数据集的变化。
translated by 谷歌翻译
我们研究了紧凑型歧管M上的回归问题。为了利用数据的基本几何形状和拓扑结构,回归任务是基于歧管的前几个特征函数执行的,该特征是歧管的laplace-beltrami操作员,通过拓扑处罚进行正规化。提出的惩罚基于本征函数或估计功能的子级集的拓扑。显示总体方法可在合成和真实数据集上对各种应用产生有希望的和竞争性能。我们还根据回归函数估计,其预测误差及其平滑度(从拓扑意义上)提供理论保证。综上所述,这些结果支持我们方法在目标函数“拓扑平滑”的情况下的相关性。
translated by 谷歌翻译
Experimental sciences have come to depend heavily on our ability to organize, interpret and analyze high-dimensional datasets produced from observations of a large number of variables governed by natural processes. Natural laws, conservation principles, and dynamical structure introduce intricate inter-dependencies among these observed variables, which in turn yield geometric structure, with fewer degrees of freedom, on the dataset. We show how fine-scale features of this structure in data can be extracted from \emph{discrete} approximations to quantum mechanical processes given by data-driven graph Laplacians and localized wavepackets. This data-driven quantization procedure leads to a novel, yet natural uncertainty principle for data analysis induced by limited data. We illustrate the new approach with algorithms and several applications to real-world data, including the learning of patterns and anomalies in social distancing and mobility behavior during the COVID-19 pandemic.
translated by 谷歌翻译
我们将最初在多维扩展和降低多元数据的降低领域发展为功能设置。我们专注于经典缩放和ISOMAP - 在这些领域中起重要作用的原型方法 - 并在功能数据分析的背景下展示它们的使用。在此过程中,我们强调了环境公制扮演的关键作用。
translated by 谷歌翻译
我们提出了一种从数据模拟动态系统的数值方法。我们使用最近引入的方法可扩展的概率近似(SPA)从欧几里德空间到凸多台的项目点,并表示在新的低维坐标中的系统的预计状态,表示其在多晶硅中的位置。然后,我们介绍特定的非线性变换,以构建多特渗透中动力学的模型,并转换回原始状态空间。为了克服投影到低维层的潜在信息损失,我们在局部延迟嵌入定理的意义上使用记忆。通过施工,我们的方法产生稳定的模型。我们说明了在各种示例上具有多个连接组件的甚至复制混沌动力学和吸引子的方法的能力。
translated by 谷歌翻译
我们研究由线性卷积神经网络(LCN)代表的功能家族。这些函数形成了从输入空间到输出空间的线性地图集的半代数子集。相比之下,由完全连接的线性网络表示的函数家族形成代数集。我们观察到,LCN代表的功能可以通过接受某些因素化的多项式来识别,我们使用此视角来描述网络体系结构对所得功能空间几何形状的影响。我们进一步研究了在LCN上的目标函数的优化,分析了功能空间和参数空间中的临界点,并描述了梯度下降的动态不变性。总体而言,我们的理论预测,LCN的优化参数通常对应于跨层的重复过滤器,或可以分解为重复过滤器的过滤器。我们还进行了数值和符号实验,以说明我们的结果,并对小体系结构的景​​观进行深入分析。
translated by 谷歌翻译
我们提出了一种针对非等级地标的非刚性形状匹配的原则方法。我们的方法基于功能地图框架,但我们没有促进异构体,而是集中在近乎符号的地图上,这些图可准确地保留地标。首先,我们通过使用固有的Dirichlet-Steklov本本特征来引入新颖的地标适应性基础来实现这一目标。其次,我们建立了在此基础上表达的保形图的功能分解。最后,我们制定了一种构成形式不变的能量,该能量促进了高质量的具有里程碑式的保留地图,并展示了如何通过我们扩展到设置的最近提出的Zoomout方法的变体来求解它。我们的方法是无描述符,有效且可靠的,可显着网格变异性。我们在一系列基准数据集上评估了我们的方法,并在非等法基准测试和等距范围内的最新性能上展示了最先进的性能。
translated by 谷歌翻译
量子哈密顿学习和量子吉布斯采样的双重任务与物理和化学中的许多重要问题有关。在低温方案中,这些任务的算法通常会遭受施状能力,例如因样本或时间复杂性差而遭受。为了解决此类韧性,我们将量子自然梯度下降的概括引入了参数化的混合状态,并提供了稳健的一阶近似算法,即量子 - 固定镜下降。我们使用信息几何学和量子计量学的工具证明了双重任务的数据样本效率,因此首次将经典Fisher效率的开创性结果推广到变异量子算法。我们的方法扩展了以前样品有效的技术,以允许模型选择的灵活性,包括基于量子汉密尔顿的量子模型,包括基于量子的模型,这些模型可能会规避棘手的时间复杂性。我们的一阶算法是使用经典镜下降二元性的新型量子概括得出的。两种结果都需要特殊的度量选择,即Bogoliubov-Kubo-Mori度量。为了从数值上测试我们提出的算法,我们将它们的性能与现有基准进行了关于横向场ISING模型的量子Gibbs采样任务的现有基准。最后,我们提出了一种初始化策略,利用几何局部性来建模状态的序列(例如量子 - 故事过程)的序列。我们从经验上证明了它在实际和想象的时间演化的经验上,同时定义了更广泛的潜在应用。
translated by 谷歌翻译