数据表示的比较是一个复杂的多个方面问题,尚未享受完整的解决方案。我们提出了一种用于比较两个数据表示的方法。我们介绍了表示拓扑分歧(RTD),测量在两点云之间的多尺度拓扑中的异常相同,在点之间的一对一的对应关系。数据点云被允许位于不同的环境空间中。RTD是少数基于TDA的实用方法之一,适用于真实机器学习数据集。实验表明,提议的RTD同意对数据表示相似性的直观评估,对其拓扑结构敏感。我们申请RTD在各种问题的计算机视觉和NLP域中获得神经网络表示的见解:培训动力学分析,数据分配转移,转移学习,集合学习,解剖学评估。
translated by 谷歌翻译
适当地表示数据库中的元素,以便可以准确匹配查询是信息检索的核心任务;最近,通过使用各种指标将数据库的图形结构嵌入层次结构的方式中来实现。持久性同源性是一种在拓扑数据分析中常用的工具,能够严格地以其层次结构和连接结构来表征数据库。计算各种嵌入式数据集上的持续同源性表明,一些常用的嵌入式无法保留连接性。我们表明,那些成功保留数据库拓扑的嵌入通过引入两种扩张不变的比较措施来捕获这种效果,尤其是解决了对流形的度量扭曲问题。我们为它们的计算提供了一种算法,该算法大大降低了现有方法的时间复杂性。我们使用这些措施来执行基于拓扑的信息检索的第一个实例,并证明了其在持久同源性的标准瓶颈距离上的性能提高。我们在不同数据品种的数据库中展示了我们的方法,包括文本,视频和医学图像。
translated by 谷歌翻译
从模型分析和机器学习中的比较到医疗数据集集合中的趋势发现,需要有效地比较和表示具有未知字段的数据集跨越各个字段。我们使用歧管学习来比较不同数据集的固有几何结构,通过比较其扩散操作员,对称阳性定义(SPD)矩阵,这些矩阵与连续的拉普拉斯 - 贝特拉米操作员与离散样品的近似相关。现有方法通常假设已知的数据对齐,并以点数的方式比较此类运算符。取而代之的是,我们利用SPD矩阵的Riemannian几何形状比较了这些操作员并根据log-euclidean Metric的下限定义了新的理论动机距离。我们的框架有助于比较具有不同大小,功能数量和测量方式的数据集中表达的数据歧管的比较。我们的日志 - 欧几里德签名(LES)距离恢复了有意义的结构差异,在各种应用领域的表现都优于竞争方法。
translated by 谷歌翻译
持续的同源性(PH)是拓扑数据分析中最流行的方法之一。尽管PH已用于许多不同类型的应用程序中,但其成功背后的原因仍然难以捉摸。特别是,尚不知道哪种类别的问题最有效,或者在多大程度上可以检测几何或拓扑特征。这项工作的目的是确定pH在数据分析中比其他方法更好甚至更好的问题。我们考虑三个基本形状分析任务:从形状采样的2D和3D点云中检测孔数,曲率和凸度。实验表明,pH在这些任务中取得了成功,超过了几个基线,包括PointNet,这是一个精确地受到点云的属性启发的体系结构。此外,我们观察到,pH对于有限的计算资源和有限的培训数据以及分布外测试数据,包括各种数据转换和噪声,仍然有效。
translated by 谷歌翻译
在发育过程中,细胞细胞共同居住与其新兴动态之间没有常规关联,这阻碍了我们对细胞种群如何扩散,分化和竞争的理解,即细胞生态学。随着单细胞RNA-Sequencing(RNA-Seq)的最新进展,我们可以通过构造表征细胞特异性转录程序基因表达谱的相似性的网络图来描述这种链接,并分析这些图系统地使用代数拓扑信息的摘要统计数据。我们提出了单细胞拓扑简单分析(SCTSA)。将这种方法应用于不同发展阶段的不同发育阶段的局部细胞网络的单细胞基因表达谱,这揭示了以前看不见的细胞生态拓扑结构。这些网络包含大量的单细胞剖面丛中的腔体,这些腔体指导了更复杂的居住形式的出现。与无效模型相比,我们使用这些网络的拓扑简单架构可视化这些生态模式。斑马鱼胚胎发生的单细胞RNA-seq数据跨越了38,731个细胞,25种细胞类型和12个时间步,我们的方法突出了胃肠道是最关键的阶段,与发育生物学的共识一致。作为非线性,独立和无监督的框架,我们的方法也可以应用于追踪多规模的细胞谱系,识别关键阶段或创建伪时间序列。
translated by 谷歌翻译
深神经网络实施了一系列逐层操作,每个操作都相对容易理解,但是总的总体计算通常很难理解。我们开发了一个简单的想法,可以解释有用表示的逐层结构:每一层的作用是重新格式化信息以减少目标输出的“距离”。我们通过利用最近的指标代表性相似性的工作来形式化“距离”的直观概念,并展示它如何导致几何概念的丰富空间。通过此框架,深度神经网络实施的层计算可以被视为高维表示空间中的路径。我们开发工具以在距离,角度和大地学方面表征这些几何形状。然后,我们提出在CIFAR-10训练的残留网络的三组问题:(1)路径的直线程度如何,以及每层对目标有何贡献? (2)这些特性如何在培训上出现? (3)更广泛的网络与更深的网络采取的路径有多相似?我们通过勾勒出其他方式来结论,这种代表性几何形状可用于理解和解释网络培训,或者规定改善网络体系结构以适合任务。
translated by 谷歌翻译
Topological data analysis (TDA) is a branch of computational mathematics, bridging algebraic topology and data science, that provides compact, noise-robust representations of complex structures. Deep neural networks (DNNs) learn millions of parameters associated with a series of transformations defined by the model architecture, resulting in high-dimensional, difficult-to-interpret internal representations of input data. As DNNs become more ubiquitous across multiple sectors of our society, there is increasing recognition that mathematical methods are needed to aid analysts, researchers, and practitioners in understanding and interpreting how these models' internal representations relate to the final classification. In this paper, we apply cutting edge techniques from TDA with the goal of gaining insight into the interpretability of convolutional neural networks used for image classification. We use two common TDA approaches to explore several methods for modeling hidden-layer activations as high-dimensional point clouds, and provide experimental evidence that these point clouds capture valuable structural information about the model's process. First, we demonstrate that a distance metric based on persistent homology can be used to quantify meaningful differences between layers, and we discuss these distances in the broader context of existing representational similarity metrics for neural network interpretability. Second, we show that a mapper graph can provide semantic insight into how these models organize hierarchical class knowledge at each layer. These observations demonstrate that TDA is a useful tool to help deep learning practitioners unlock the hidden structures of their models.
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
不服从统计学习理论的古典智慧,即使它们通常包含数百万参数,现代深度神经网络也概括了井。最近,已经表明迭代优化算法的轨迹可以具有分形结构,并且它们的泛化误差可以与这种分形的复杂性正式连接。这种复杂性由分形的内在尺寸测量,通常比网络中的参数数量小得多。尽管这种透视提供了对为什么跨分层化的网络不会过度装备的解释,但计算内在尺寸(例如,在训练期间进行监测泛化)是一种臭名昭着的困难任务,即使在中等环境维度中,现有方法也通常失败。在这项研究中,我们考虑了从拓扑数据分析(TDA)的镜头上的这个问题,并开发了一个基于严格的数学基础的通用计算工具。通过在学习理论和TDA之间进行新的联系,我们首先说明了泛化误差可以在称为“持久同源维度”(PHD)的概念中,与先前工作相比,我们的方法不需要关于培训动态的任何额外几何或统计假设。然后,通过利用最近建立的理论结果和TDA工具,我们开发了一种高效的算法来估计现代深度神经网络的规模中的博士,并进一步提供可视化工具,以帮助理解深度学习中的概括。我们的实验表明,所提出的方法可以有效地计算网络的内在尺寸,这些设置在各种设置中,这是预测泛化误差的。
translated by 谷歌翻译
在本文中,我们定义了一种新的非Archimedian度量标准结构,称为CopHenetic度量标准,对所有度的持久同源性等级。然后,我们将Zeroth持续同源与许多不同度量的核心度量和分层聚类算法一起,根据我们在不同的数据集上获得的实验结果,提供统计上可靠的相应拓扑信息。我们还观察到来自坐骨距离的所产生的集群在内部和外部评估措施(如轮廓分数和Rand指数)方面都能发光。此外,由于为所有同源度定义了CopHenetic度量,因此现在可以通过植根树显示所有度的持续同源类别的关系。
translated by 谷歌翻译
拓扑方法可以提供一种提出新的指标和审查数据的方法的方法,否则可能会忽略这一点。在这项工作中,将引入一种量化数据形状的方法,通过称为拓扑数据分析的主题。拓扑数据分析(TDA)中的主要工具是持续的同源性。持续的同源性是一种在长度范围内量化数据形状的方法。在这项工作中简要讨论了所需的背景和计算持续同源性的方法。然后,来自拓扑数据分析的思想被用于非线性动力学,以通过计算其嵌入维度,然后评估其一般拓扑来分析一些常见的吸引子。还将提出一种方法,该方法使用拓扑数据分析来确定时间延迟嵌入的最佳延迟。 TDA还将应用于结构健康监测中的Z24桥案例研究,在该Z24桥梁案例研究中,它将用于仔细检查不同的数据分区,并根据收集数据的条件进行分类。来自拓扑数据分析的度量标准用于比较分区之间的数据。提出的结果表明,损害的存在比温度所产生的影响更大。
translated by 谷歌翻译
了解生物和人造网络的运作仍然是一个艰难而重要的挑战。为了确定一般原则,研究人员越来越有兴趣测量培训的大量网络,或者在培训或生物学地适应类似的任务。现在需要一种标准化的分析工具来确定网络级协变量 - 例如架构,解剖脑区和模型生物 - 影响神经表示(隐藏层激活)。在这里,我们通过定义量化代表性异化的广泛的公制空间,为这些分析提供严格的基础。使用本框架,我们根据规范相关分析修改现有的代表性相似度量,以满足三角形不等式,制定致扫描层中的感应偏差的新型度量,并识别使网络表示能够结合到基本上的近似的欧几里德嵌入物。货架机学习方法。我们展示了来自生物学(Allen Institute脑观测所)和深度学习(NAS-BENCH-101)的大规模数据集的这些方法。在这样做时,我们识别在解剖特征和模型性能方面可解释的神经表现之间的关系。
translated by 谷歌翻译
In this paper, we present the findings of various methodologies for measuring the similarity of synthetic data generated from tabular data samples. We particularly apply our research to the case where the synthetic data has many more samples than the real data. This task has a special complexity: validating the reliability of this synthetically generated data with a much higher number of samples than the original. We evaluated the most commonly used global metrics found in the literature. We introduced a novel approach based on the data's topological signature analysis. Topological data analysis has several advantages in addressing this latter challenge. The study of qualitative geometric information focuses on geometric properties while neglecting quantitative distance function values. This is especially useful with high-dimensional synthetic data where the sample size has been significantly increased. It is comparable to introducing new data points into the data space within the limits set by the original data. Then, in large synthetic data spaces, points will be much more concentrated than in the original space, and their analysis will become much more sensitive to both the metrics used and noise. Instead, the concept of "closeness" between points is used for qualitative geometric information. Finally, we suggest an approach based on data Eigen vectors for evaluating the level of noise in synthetic data. This approach can also be used to assess the similarity of original and synthetic data.
translated by 谷歌翻译
无监督的特征学习通常会发现捕获复杂数据结构的低维嵌入。对于专家的任务可获得专家,将其纳入学习的代表可能会导致更高质量的嵌入品。例如,这可以帮助人们将数据嵌入给定的簇数,或者容纳阻止一个人直接在模型上衍生数据分布的噪声,然后可以更有效地学习。然而,缺乏将不同的先前拓扑知识集成到嵌入中的一般工具。虽然最近已经开发了可微分的拓扑层,但可以(重新)形状嵌入预定的拓扑模型,他们对代表学习有两个重要的局限性,我们在本文中解决了这一点。首先,目前建议的拓扑损失未能以自然的方式代表诸如群集和耀斑的简单模型。其次,这些损失忽略了对学习有用的数据中的所有原始结构(例如邻域)信息。我们通过引入一组新的拓扑损失来克服这些限制,并提出其用法作为拓扑正规规范数据嵌入来自然代表预定模型的一种方法。我们包括彻底的综合和实际数据实验,突出了这种方法的有用性和多功能性,其中应用范围从建模高维单胞胎数据进行建模到绘图嵌入。
translated by 谷歌翻译
每个已知的人工深神经网络(DNN)都对应于规范Grothendieck的拓扑中的一个物体。它的学习动态对应于此拓扑中的形态流动。层中的不变结构(例如CNNS或LSTMS)对应于Giraud的堆栈。这种不变性应该是对概括属性的原因,即从约束下的学习数据中推断出来。纤维代表语义前类别(Culioli,Thom),在该类别上定义了人工语言,内部逻辑,直觉主义者,古典或线性(Girard)。网络的语义功能是其能够用这种语言表达理论的能力,以回答输出数据中有关输出的问题。语义信息的数量和空间是通过类比与2015年香农和D.Bennequin的Shannon熵的同源解释来定义的。他们概括了Carnap和Bar-Hillel(1952)发现的措施。令人惊讶的是,上述语义结构通过封闭模型类别的几何纤维对象进行了分类,然后它们产生了DNNS及其语义功能的同位不变。故意类型的理论(Martin-Loef)组织了这些物体和它们之间的纤维。 Grothendieck的导数分析了信息内容和交流。
translated by 谷歌翻译
本文介绍了用于持久图计算的有效算法,给定一个输入分段线性标量字段f在D上定义的d二维简单复杂k,并带有$ d \ leq 3 $。我们的方法通过引入三个主要加速度来扩展开创性的“ Paircells”算法。首先,我们在离散摩尔斯理论的设置中表达了该算法,该算法大大减少了要考虑的输入简单数量。其次,我们介绍了问题的分层方法,我们称之为“夹心”。具体而言,minima-saddle持久性对($ d_0(f)$)和鞍 - 最大持久对($ d_ {d-1}(f)$)是通过与Union-Find-Find-Find-Find-Find-Find-Find-Find-find-find-find-find-find-find-find-find-find-find-find-find-find of nourstable组的1个有效计算的。 - addles和(D-1)addles的稳定集。尺寸为0和(D-1)的快速处理进一步减少,并且大幅度降低了$ d_1(f)$,即三明治的中间层的计算$ d_1(f)$的关键简单数量。第三,我们通过共享记忆并行性记录了几个绩效改进。我们为可重复性目的提供了算法的开源实施。我们还贡献了一个可重复的基准软件包,该基准软件包利用了公共存储库中的三维数据,并将我们的算法与各种公开可用的实现进行了比较。广泛的实验表明,我们的算法提高了两个数量级,即它扩展的开创性“ Paircells”算法的时间性能。此外,它还改善了14种竞争方法的选择,改善了记忆足迹和时间性能,比最快的可用方法具有可观的增长,同时产生了严格的输出。我们通过应用于表面,音量数据和高维点云的持续性一维发电机的快速和稳健提取的应用来说明我们的贡献实用性。
translated by 谷歌翻译
简单的复合物可以看作是图形的高维概括,这些图表一次在不同分辨率下的顶点之间明确编码多路有序关系。这个概念是检测数据的较高拓扑特征的核心,图形仅编码成对关系的图形仍然遗忘。尽管已尝试将图形神经网络(GNN)扩展到简单复杂设置,但这些方法并未固有地利用网络的基本拓扑结构。我们提出了一个图形卷积模型,用于学习由简单复合物的$ K $学术特征参数化的学习功能。通过频谱操纵其组合$ k $二维的霍奇laplacians,提议的模型可以实现基础简单复合物的学习拓扑特征,特别是,每个$ k $ simplex的距离与最接近的“最佳” $ k $ k $ - $ k $ - $ k $ - th $ k $ - ,有效地提供同源性本地化的替代方案。
translated by 谷歌翻译
在过去十年中,图形内核引起了很多关注,并在结构化数据上发展成为一种快速发展的学习分支。在过去的20年中,该领域发生的相当大的研究活动导致开发数十个图形内核,每个图形内核都对焦于图形的特定结构性质。图形内核已成功地成功地在广泛的域中,从社交网络到生物信息学。本调查的目标是提供图形内核的文献的统一视图。特别是,我们概述了各种图形内核。此外,我们对公共数据集的几个内核进行了实验评估,并提供了比较研究。最后,我们讨论图形内核的关键应用,并概述了一些仍有待解决的挑战。
translated by 谷歌翻译
拓扑数据分析(TDA)的主要挑战之一是从机器学习算法直接可用的持久图中提取功能。实际上,持久性图是R2中的本质上(多级)点,并且不能以直接的方式视为向量。在本文中,我们介绍了持平性器,这是一个接受持久图作为输入的第一变压器神经网络架构。坚持不懈的体系结构显着优于古典合成基准数据集上以前的拓扑神经网络架构。此外,它满足了通用近似定理。这使我们能够介绍一种用于拓扑机学习的第一解释方法,我们在两个示例中探讨。
translated by 谷歌翻译
Image segmentation is a largely researched field where neural networks find vast applications in many facets of technology. Some of the most popular approaches to train segmentation networks employ loss functions optimizing pixel-overlap, an objective that is insufficient for many segmentation tasks. In recent years, their limitations fueled a growing interest in topology-aware methods, which aim to recover the correct topology of the segmented structures. However, so far, none of the existing approaches achieve a spatially correct matching between the topological features of ground truth and prediction. In this work, we propose the first topologically and feature-wise accurate metric and loss function for supervised image segmentation, which we term Betti matching. We show how induced matchings guarantee the spatially correct matching between barcodes in a segmentation setting. Furthermore, we propose an efficient algorithm to compute the Betti matching of images. We show that the Betti matching error is an interpretable metric to evaluate the topological correctness of segmentations, which is more sensitive than the well-established Betti number error. Moreover, the differentiability of the Betti matching loss enables its use as a loss function. It improves the topological performance of segmentation networks across six diverse datasets while preserving the volumetric performance. Our code is available in https://github.com/nstucki/Betti-matching.
translated by 谷歌翻译