我们提出了新的WASSTEREIN图形集群,用于动态更改图形。Wassersein聚类惩罚了图之间的拓扑差异。Wassersein聚类显示出优于广泛使用的K-Means聚类。该方法应用于更准确地确定动态变化功能性脑网络的状态空间。
translated by 谷歌翻译
许多真实网络展出的拓扑模式激励了基于拓扑的方法的发展,以评估网络的相似性。然而,提取拓扑结构是困难的,特别是对于节点度范围超过多个数量级的大型和密集网络。在本文中,我们提出了一种新颖的和计算实用的拓扑集群聚类方法,将复杂网络与复杂的拓扑结构从持续的同源性和最优运输中使用主治理论。这种网络通过基于其拓扑和几何结构的基于质心的聚类策略聚合到集群中,在不同网络中保留了节点之间的对应关系。拓扑接近和质心的概念使用新颖的和有效的方法来计算Wassersein距离和持久性条形码的持久条形码计算,以及与连接的分量和循环相关联的持久性条形码。所提出的方法被证明使用模拟网络和测量的功能性脑网络有效。
translated by 谷歌翻译
时间序列分析中产生的最重要的问题之一是分叉或变化点检测。也就是说,给定时间序列的集合在不同的参数上,何时基础动力系统的结构发生了变化?对于此任务,我们转向拓扑数据分析(TDA)的领域,该领域编码有关数据形状和结构的信息。近年来,利用TDA的工具用于信号处理任务(称为拓扑信号处理(TSP)(TSP))的想法在很大程度上通过标准管道获得了很多关注,该标准管道计算出Takens嵌入产生的点云的持久同源性。但是,此过程受到计算时间的限制,因为在这种情况下生成的简单复合物很大,但也有很多冗余数据。因此,我们求助于编码吸引子结构的最新方法,该方法构建了代表有关何时在状态空间区域之间动态系统传递的信息的序数分区网络(OPN)。结果是一个加权图,其结构编码有关基础吸引子的信息。我们以前的工作开始寻找以TDA适合的方式包装OPN信息的方法。但是,这项工作仅使用网络结构,而没有采取任何行动来编码其他加权信息。在本文中,我们采取下一步:构建管道来分析使用TDA的加权OPN,并表明该框架为系统中的噪声或扰动提供了更大的弹性,并提高了动态状态检测的准确性。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
适当地表示数据库中的元素,以便可以准确匹配查询是信息检索的核心任务;最近,通过使用各种指标将数据库的图形结构嵌入层次结构的方式中来实现。持久性同源性是一种在拓扑数据分析中常用的工具,能够严格地以其层次结构和连接结构来表征数据库。计算各种嵌入式数据集上的持续同源性表明,一些常用的嵌入式无法保留连接性。我们表明,那些成功保留数据库拓扑的嵌入通过引入两种扩张不变的比较措施来捕获这种效果,尤其是解决了对流形的度量扭曲问题。我们为它们的计算提供了一种算法,该算法大大降低了现有方法的时间复杂性。我们使用这些措施来执行基于拓扑的信息检索的第一个实例,并证明了其在持久同源性的标准瓶颈距离上的性能提高。我们在不同数据品种的数据库中展示了我们的方法,包括文本,视频和医学图像。
translated by 谷歌翻译
在机器学习中调用多种假设需要了解歧管的几何形状和维度,理论决定了需要多少样本。但是,在应用程序数据中,采样可能不均匀,歧管属性是未知的,并且(可能)非纯化;这意味着社区必须适应本地结构。我们介绍了一种用于推断相似性内核提供数据的自适应邻域的算法。从本地保守的邻域(Gabriel)图开始,我们根据加权对应物进行迭代率稀疏。在每个步骤中,线性程序在全球范围内产生最小的社区,并且体积统计数据揭示了邻居离群值可能违反了歧管几何形状。我们将自适应邻域应用于非线性维度降低,地球计算和维度估计。与标准算法的比较,例如使用K-Nearest邻居,证明了它们的实用性。
translated by 谷歌翻译
We propose a novel method for constructing wavelet transforms of functions defined on the vertices of an arbitrary finite weighted graph. Our approach is based on defining scaling using the the graph analogue of the Fourier domain, namely the spectral decomposition of the discrete graph Laplacian L. Given a wavelet generating kernel g and a scale parameter t, we define the scaled wavelet operator T t g = g(tL). The spectral graph wavelets are then formed by localizing this operator by applying it to an indicator function. Subject to an admissibility condition on g, this procedure defines an invertible transform. We explore the localization properties of the wavelets in the limit of fine scales. Additionally, we present a fast Chebyshev polynomial approximation algorithm for computing the transform that avoids the need for diagonalizing L. We highlight potential applications of the transform through examples of wavelets on graphs corresponding to a variety of different problem domains.
translated by 谷歌翻译
马尔可夫链是一类概率模型,在定量科学中已广泛应用。这部分是由于它们的多功能性,但是可以通过分析探测的便利性使其更加复杂。本教程为马尔可夫连锁店提供了深入的介绍,并探索了它们与图形和随机步行的联系。我们利用从线性代数和图形论的工具来描述不同类型的马尔可夫链的过渡矩阵,特别着眼于探索与这些矩阵相对应的特征值和特征向量的属性。提出的结果与机器学习和数据挖掘中的许多方法有关,我们在各个阶段描述了这些方法。本文并没有本身就成为一项新颖的学术研究,而是提出了一些已知结果的集合以及一些新概念。此外,该教程的重点是向读者提供直觉,而不是正式的理解,并且仅假定对线性代数和概率理论的概念的基本曝光。因此,来自各种学科的学生和研究人员可以访问它。
translated by 谷歌翻译
聚类是基于它们的相似性对组对象的重要探索性数据分析技术。广泛使用的$ k $ -MEANS聚类方法依赖于一些距离的概念将数据划分为较少数量的组。在欧几里得空间中,$ k $ -Means的基于质心和基于距离的公式相同。在现代机器学习应用中,数据通常是作为概率分布而出现的,并且可以使用最佳运输指标来处理测量值数据。由于瓦斯坦斯坦空间的非负亚历山德罗夫曲率,巴里中心遭受了规律性和非舒适性问题。 Wasserstein Barycenters的特殊行为可能使基于质心的配方无法代表集群内的数据点,而基于距离的$ K $ -MEANS方法及其半决赛计划(SDP)可以恢复真实的方法集群标签。在聚集高斯分布的特殊情况下,我们表明SDP放松的Wasserstein $ k $ - 金钱可以实现精确的恢复,因为这些集群按照$ 2 $ - WASSERSTEIN MERTRIC进行了良好的分离。我们的仿真和真实数据示例还表明,基于距离的$ K $ -Means可以比基于标准的基于质心的$ k $ -Means获得更好的分类性能,用于聚类概率分布和图像。
translated by 谷歌翻译
本文介绍了合并树木主要测量分析(MT-PGA)的计算框架,这是对著名的主要组件分析(PCA)框架[87]对合并树的瓦斯坦斯坦度量空间[92]的新颖调整。我们将MT-PGA计算作为一个约束优化问题,旨在调整正交测量轴的基础,同时最大程度地减少拟合能量。我们引入了一种有效的,迭代的算法,该算法利用了共享记忆并行性以及拟合能量梯度的分析表达,以确保快速迭代。我们的方法还琐碎地扩展到极值持久图。对公共集合的广泛实验证明了我们方法的效率 - 最大示例中的MT -PGA计算在分钟内进行了计算。我们通过扩展了两个典型的PCA应用程序来展示我们的贡献的实用性。首先,我们将MT-PGA应用于数据降低,并通过以MT-PGA为基础的第一批坐标来可靠地压缩合并树。其次,我们提出一个利用MT-PGA基础的前两个方向来生成合奏的二维布局,提出了一个维度降低框架。我们以持久性相关视图来增强这些布局,从而实现整体和局部视觉检查集合中的特征可变性。在这两种应用中,定量实验评估我们框架的相关性。最后,我们提供了轻巧的C ++实现,可用于复制我们的结果。
translated by 谷歌翻译
大多数图形神经网络(GNNS)使用传递范例的消息,其中节点特征在输入图上传播。最近的作品指出,从远处节点流动的信息失真,作为限制依赖于长途交互的任务的消息的效率。这种现象称为“过度挤压”,已经启动到图形瓶颈,其中$ k $ -hop邻居的数量以$ k $迅速增长。我们在GNNS中提供了精确描述了GNNS中的过度挤压现象,并分析了它如何从图中的瓶颈引发。为此目的,我们介绍了一种新的基于边缘的组合曲率,并证明了负曲面负责过度挤压问题。我们还提出并通过实验测试了一种基于曲率的曲线图重新挖掘方法,以减轻过度挤压。
translated by 谷歌翻译
Tools of Topological Data Analysis provide stable summaries encapsulating the shape of the considered data. Persistent homology, the most standard and well studied data summary, suffers a number of limitations; its computations are hard to distribute, it is hard to generalize to multifiltrations and is computationally prohibitive for big data-sets. In this paper we study the concept of Euler Characteristics Curves, for one parameter filtrations and Euler Characteristic Profiles, for multi-parameter filtrations. While being a weaker invariant in one dimension, we show that Euler Characteristic based approaches do not possess some handicaps of persistent homology; we show efficient algorithms to compute them in a distributed way, their generalization to multifiltrations and practical applicability for big data problems. In addition we show that the Euler Curves and Profiles enjoys certain type of stability which makes them robust tool in data analysis. Lastly, to show their practical applicability, multiple use-cases are considered.
translated by 谷歌翻译
封闭曲线的建模和不确定性量化是形状分析领域的重要问题,并且可以对随后的统计任务产生重大影响。这些任务中的许多涉及封闭曲线的集合,这些曲线通常在多个层面上表现出结构相似性。以有效融合这种曲线间依赖性的方式对多个封闭曲线进行建模仍然是一个具有挑战性的问题。在这项工作中,我们提出并研究了一个多数输出(又称多输出),多维高斯流程建模框架。我们说明了提出的方法学进步,并在几个曲线和形状相关的任务上证明了有意义的不确定性量化的实用性。这种基于模型的方法不仅解决了用内核构造对封闭曲线(及其形状)的推断问题,而且还为通常对功能对象的多层依赖性的非参数建模打开了门。
translated by 谷歌翻译
大脑中的功能连接通常由加权网络表示,其中节点表示大脑中的位置,并且边缘表示这些位置之间的连接强度。分析这些数据的一个挑战是各个边缘水平的推断并不是特别生物学上的意义;解释在所谓的功能区域或节点组和它们之间的连接级别更有用;这通常被称为神经影像学文献中的“图表感知”推断。然而,汇集功能区域导致信息损失和更低的准确性。另一个挑战是主题内的边缘权重之间的相关性,这使得基于独立假设不可靠的推断。我们通过线性混合效果模型来解决这两种挑战,该挑战涉及功能区域和边缘依赖性,同时仍然建模各个边缘权重,以避免丢失信息。该模型允许将两种群体(例如患者和健康对照)进行比较,无论是在功能区水平和各个边缘水平,都导致生物学上有意义的解释。我们将该模型符合精神分裂症和健康控制的休息状态FMRI数据,获得与精神分裂症文献一致的可解释结果。
translated by 谷歌翻译
We introduce and analyze NetOTC, a procedure for the comparison and soft alignment of weighted networks. Given two networks and a cost function relating their vertices, NetOTC finds an appropriate coupling of their associated random walks having minimum expected cost. The minimizing cost provides a numerical measure of the difference between the networks, while the optimal transport plan itself provides interpretable, probabilistic alignments of the vertices and edges of the two networks. The cost function employed can be based, for example, on vertex degrees, externally defined features, or Euclidean embeddings. Coupling of the full random walks, rather than their stationary distributions, ensures that NetOTC captures local and global information about the given networks. NetOTC applies to networks of different size and structure, and does not the require specification of free parameters. NetOTC respects edges, in the sense that vertex pairs in the given networks are aligned with positive probability only if they are adjacent in the given networks. We investigate a number of theoretical properties of NetOTC that support its use, including metric properties of the minimizing cost and its connection with short- and long-run average cost. In addition, we introduce a new notion of factor for weighted networks, and establish a close connection between factors and NetOTC. Complementing the theory, we present simulations and numerical experiments showing that NetOTC is competitive with, and sometimes superior to, other optimal transport-based network comparison methods in the literature. In particular, NetOTC shows promise in identifying isomorphic networks using a local (degree-based) cost function.
translated by 谷歌翻译
调整Bjerkevik和Lesnick给出的Multiparameter持久模块给出的定义,我们介绍了合并树的交织距离的$ \ ell ^ p $ intertepe扩展。我们表明我们的距离是一个指标,它是上限于相关条形码之间的$ p $ -wasserstein距离。对于[1,\ infty] $中的每个$ p \,我们证明,对于蜂窝浮度过滤,该距离是稳定的,并且它是满足该稳定性的通用(即最大)距离。在$ p = \ infty $案例中,这为合并树上的交织距离提供了一种新颖的普遍性证明。
translated by 谷歌翻译
本文旨在通过一种称为拓扑数据分析的方法来讨论一种量化数据“形状”的方法。拓扑数据分析中的主要工具是持续的同源性。这是从简单复合物的同源物中测量数据形状的一种手段,该方法在一系列值范围内计算出来。此处介绍了所需的背景理论和计算持续同源性的方法,并具有针对结构健康监测的应用。这些结果允许拓扑推断和推断高维数据中的功能的能力,否则可能会被忽略。为给定距离参数的数据构建了一个简单复合物。该复合物编码有关数据点局部接近性的信息。可以从这个简单复合物中计算出奇异的同源性值。扩展此想法,为一系列值提供了距离参数,并且在此范围内计算同源性。持续的同源性是在此间隔中如何持续存在数据的同源特征的一种表示。结果是数据的特征。还讨论了一种允许比较不同数据集的持续同源性的方法。
translated by 谷歌翻译
在本文中,我们使用拓扑数据分析技术来构造合适的神经网络分类器,用于根据其参考指定系统来构建整个发电厂的传感器信号的任务。我们使用持久性图的表示来推导必要的预处理步骤并可视化大量数据。我们使用一维卷积层的深度架构,与堆叠的长短期存储器相结合,作为适合于处理持久性特征的剩余网络。我们组合了三个单独的子网,获得了输入时间序列本身和零级持续同源的表示。我们为大多数使用的超参数提供了数学推导。为了验证,使用来自相同结构类型的四个发电厂的传感器数据进行数值实验。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
Research in Graph Signal Processing (GSP) aims to develop tools for processing data defined on irregular graph domains. In this paper we first provide an overview of core ideas in GSP and their connection to conventional digital signal processing, along with a brief historical perspective to highlight how concepts recently developed in GSP build on top of prior research in other areas. We then summarize recent advances in developing basic GSP tools, including methods for sampling, filtering or graph learning. Next, we review progress in several application areas using GSP, including processing and analysis of sensor network data, biological data, and applications to image processing and machine learning.
translated by 谷歌翻译