本文介绍了用于持久图计算的有效算法,给定一个输入分段线性标量字段f在D上定义的d二维简单复杂k,并带有$ d \ leq 3 $。我们的方法通过引入三个主要加速度来扩展开创性的“ Paircells”算法。首先,我们在离散摩尔斯理论的设置中表达了该算法,该算法大大减少了要考虑的输入简单数量。其次,我们介绍了问题的分层方法,我们称之为“夹心”。具体而言,minima-saddle持久性对($ d_0(f)$)和鞍 - 最大持久对($ d_ {d-1}(f)$)是通过与Union-Find-Find-Find-Find-Find-Find-Find-Find-find-find-find-find-find-find-find-find-find-find-find-find-find of nourstable组的1个有效计算的。 - addles和(D-1)addles的稳定集。尺寸为0和(D-1)的快速处理进一步减少,并且大幅度降低了$ d_1(f)$,即三明治的中间层的计算$ d_1(f)$的关键简单数量。第三,我们通过共享记忆并行性记录了几个绩效改进。我们为可重复性目的提供了算法的开源实施。我们还贡献了一个可重复的基准软件包,该基准软件包利用了公共存储库中的三维数据,并将我们的算法与各种公开可用的实现进行了比较。广泛的实验表明,我们的算法提高了两个数量级,即它扩展的开创性“ Paircells”算法的时间性能。此外,它还改善了14种竞争方法的选择,改善了记忆足迹和时间性能,比最快的可用方法具有可观的增长,同时产生了严格的输出。我们通过应用于表面,音量数据和高维点云的持续性一维发电机的快速和稳健提取的应用来说明我们的贡献实用性。
translated by 谷歌翻译
本文介绍了合并树木主要测量分析(MT-PGA)的计算框架,这是对著名的主要组件分析(PCA)框架[87]对合并树的瓦斯坦斯坦度量空间[92]的新颖调整。我们将MT-PGA计算作为一个约束优化问题,旨在调整正交测量轴的基础,同时最大程度地减少拟合能量。我们引入了一种有效的,迭代的算法,该算法利用了共享记忆并行性以及拟合能量梯度的分析表达,以确保快速迭代。我们的方法还琐碎地扩展到极值持久图。对公共集合的广泛实验证明了我们方法的效率 - 最大示例中的MT -PGA计算在分钟内进行了计算。我们通过扩展了两个典型的PCA应用程序来展示我们的贡献的实用性。首先,我们将MT-PGA应用于数据降低,并通过以MT-PGA为基础的第一批坐标来可靠地压缩合并树。其次,我们提出一个利用MT-PGA基础的前两个方向来生成合奏的二维布局,提出了一个维度降低框架。我们以持久性相关视图来增强这些布局,从而实现整体和局部视觉检查集合中的特征可变性。在这两种应用中,定量实验评估我们框架的相关性。最后,我们提供了轻巧的C ++实现,可用于复制我们的结果。
translated by 谷歌翻译
本申请论文对拓扑数据分析(TDA)的适用性进行了全面的实验评估,以进行湍流的定量比较。具体而言,我们的研究记录了流动肠的最大值(已建立的涡度指标)的持续图,用于180个集合成员的拓扑表示,这是由五个数值求解器的参数空间的粗略采样而产生的。我们记录了域专家报告的五个主要假设,描述了他们对不同求解器配置产生的流量变异性的期望。我们贡献了三种评估方案,以通过两种比较度量评估上述假设的验证:(i)科学成像(L2规范)中使用的标准距离和(ii)持久图之间的已建立拓扑距离(L2-Wasserstein Metricric )。在输入集合上进行的广泛实验表明,由于其涡旋的配置,拓扑距离(II)报告彼此相近的流量相似,预计将与域专家相似。总体而言,我们的研究报告的见解带来了TDA代表和比较湍流的适用性的实验证据,从而使流体动态社区对未来工作的使用量提供了信心。此外,我们的流数据和评估协议为TDA社区提供了一个由应用程序批准的基准测试,用于评估和设计进一步的拓扑距离。
translated by 谷歌翻译
Tools of Topological Data Analysis provide stable summaries encapsulating the shape of the considered data. Persistent homology, the most standard and well studied data summary, suffers a number of limitations; its computations are hard to distribute, it is hard to generalize to multifiltrations and is computationally prohibitive for big data-sets. In this paper we study the concept of Euler Characteristics Curves, for one parameter filtrations and Euler Characteristic Profiles, for multi-parameter filtrations. While being a weaker invariant in one dimension, we show that Euler Characteristic based approaches do not possess some handicaps of persistent homology; we show efficient algorithms to compute them in a distributed way, their generalization to multifiltrations and practical applicability for big data problems. In addition we show that the Euler Curves and Profiles enjoys certain type of stability which makes them robust tool in data analysis. Lastly, to show their practical applicability, multiple use-cases are considered.
translated by 谷歌翻译
无监督的特征学习通常会发现捕获复杂数据结构的低维嵌入。对于专家的任务可获得专家,将其纳入学习的代表可能会导致更高质量的嵌入品。例如,这可以帮助人们将数据嵌入给定的簇数,或者容纳阻止一个人直接在模型上衍生数据分布的噪声,然后可以更有效地学习。然而,缺乏将不同的先前拓扑知识集成到嵌入中的一般工具。虽然最近已经开发了可微分的拓扑层,但可以(重新)形状嵌入预定的拓扑模型,他们对代表学习有两个重要的局限性,我们在本文中解决了这一点。首先,目前建议的拓扑损失未能以自然的方式代表诸如群集和耀斑的简单模型。其次,这些损失忽略了对学习有用的数据中的所有原始结构(例如邻域)信息。我们通过引入一组新的拓扑损失来克服这些限制,并提出其用法作为拓扑正规规范数据嵌入来自然代表预定模型的一种方法。我们包括彻底的综合和实际数据实验,突出了这种方法的有用性和多功能性,其中应用范围从建模高维单胞胎数据进行建模到绘图嵌入。
translated by 谷歌翻译
量子计算为某些问题提供了指数加速的潜力。但是,许多具有可证明加速的现有算法都需要当前不可用的耐故障量子计算机。我们提出了NISQ-TDA,这是第一个完全实现的量子机学习算法,其在任意经典(非手动)数据上具有可证明的指数加速,并且仅需要线性电路深度。我们报告了我们的NISQ-TDA算法的成功执行,该算法应用于在量子计算设备以及嘈杂的量子模拟器上运行的小数据集。我们从经验上证实,该算法对噪声是可靠的,并提供了目标深度和噪声水平,以实现现实世界中问题的近期,无耐受耐受性的量子优势。我们独特的数据加载投影方法是噪声鲁棒性的主要来源,引入了一种新的自我校正数据加载方法。
translated by 谷歌翻译
适当地表示数据库中的元素,以便可以准确匹配查询是信息检索的核心任务;最近,通过使用各种指标将数据库的图形结构嵌入层次结构的方式中来实现。持久性同源性是一种在拓扑数据分析中常用的工具,能够严格地以其层次结构和连接结构来表征数据库。计算各种嵌入式数据集上的持续同源性表明,一些常用的嵌入式无法保留连接性。我们表明,那些成功保留数据库拓扑的嵌入通过引入两种扩张不变的比较措施来捕获这种效果,尤其是解决了对流形的度量扭曲问题。我们为它们的计算提供了一种算法,该算法大大降低了现有方法的时间复杂性。我们使用这些措施来执行基于拓扑的信息检索的第一个实例,并证明了其在持久同源性的标准瓶颈距离上的性能提高。我们在不同数据品种的数据库中展示了我们的方法,包括文本,视频和医学图像。
translated by 谷歌翻译
我们考虑了$ d $维图像的新拓扑效率化,该图像通过在计算持久性之前与各种过滤器进行卷积。将卷积滤波器视为图像中的图案,结果卷积的持久图描述了图案在整个图像中分布的方式。我们称之为卷积持久性的管道扩展了拓扑结合图像数据中模式的能力。的确,我们证明(通常说)对于任何两个图像,人们都可以找到某些过滤器,它们会为其产生不同的持久图,以便给定图像的所有可能的卷积持久性图的收集是一个不变的不变性。通过表现出卷积的持久性是另一种拓扑不变的持续性副学变换的特殊情况,这证明了这一点。卷积持久性的其他优势是提高噪声的稳定性和鲁棒性,对数据依赖性矢量化的更大灵活性以及对具有较大步幅向量的卷积的计算复杂性降低。此外,我们还有一套实验表明,即使人们使用随机过滤器并通过仅记录其总持久性,卷积大大提高了持久性的预测能力,即使一个人使用随机过滤器并将结果图进行量化。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
拓扑数据分析(TDA)是来自数据科学和数学的工具,它开始在环境科学领域引起波浪。在这项工作中,我们寻求对TDA工具的直观且可理解的介绍,该工具对于分析图像(即持续存在同源性)特别有用。我们简要讨论理论背景,但主要关注理解该工具的输出并讨论它可以收集的信息。为此,我们围绕着一个指导示例进行讨论,该指导示例是对RASP等人研究的糖,鱼类,花朵和砾石数据集进行分类。 al。 2020年(Arxiv:1906:01906)。我们证明了如何使用简单的机器学习算法来获得良好的结果,并详细探讨了如何用图像级特征来解释这种行为。持续同源性的核心优势之一是它的解释性是可解释的,因此在本文中,我们不仅讨论了我们发现的模式,而且要考虑到为什么我们对持续性同源性理论的了解,因此可以期待这些结果。我们的目标是,本文的读者将更好地了解TDA和持续的同源性,能够确定自己的问题和数据集,为此,持续的同源性可能会有所帮助,并从应用程序中获得对结果的理解包括GitHub示例代码。
translated by 谷歌翻译
本文旨在通过一种称为拓扑数据分析的方法来讨论一种量化数据“形状”的方法。拓扑数据分析中的主要工具是持续的同源性。这是从简单复合物的同源物中测量数据形状的一种手段,该方法在一系列值范围内计算出来。此处介绍了所需的背景理论和计算持续同源性的方法,并具有针对结构健康监测的应用。这些结果允许拓扑推断和推断高维数据中的功能的能力,否则可能会被忽略。为给定距离参数的数据构建了一个简单复合物。该复合物编码有关数据点局部接近性的信息。可以从这个简单复合物中计算出奇异的同源性值。扩展此想法,为一系列值提供了距离参数,并且在此范围内计算同源性。持续的同源性是在此间隔中如何持续存在数据的同源特征的一种表示。结果是数据的特征。还讨论了一种允许比较不同数据集的持续同源性的方法。
translated by 谷歌翻译
持续的同源性(PH)是拓扑数据分析中最流行的方法之一。尽管PH已用于许多不同类型的应用程序中,但其成功背后的原因仍然难以捉摸。特别是,尚不知道哪种类别的问题最有效,或者在多大程度上可以检测几何或拓扑特征。这项工作的目的是确定pH在数据分析中比其他方法更好甚至更好的问题。我们考虑三个基本形状分析任务:从形状采样的2D和3D点云中检测孔数,曲率和凸度。实验表明,pH在这些任务中取得了成功,超过了几个基线,包括PointNet,这是一个精确地受到点云的属性启发的体系结构。此外,我们观察到,pH对于有限的计算资源和有限的培训数据以及分布外测试数据,包括各种数据转换和噪声,仍然有效。
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
时间序列分析中产生的最重要的问题之一是分叉或变化点检测。也就是说,给定时间序列的集合在不同的参数上,何时基础动力系统的结构发生了变化?对于此任务,我们转向拓扑数据分析(TDA)的领域,该领域编码有关数据形状和结构的信息。近年来,利用TDA的工具用于信号处理任务(称为拓扑信号处理(TSP)(TSP))的想法在很大程度上通过标准管道获得了很多关注,该标准管道计算出Takens嵌入产生的点云的持久同源性。但是,此过程受到计算时间的限制,因为在这种情况下生成的简单复合物很大,但也有很多冗余数据。因此,我们求助于编码吸引子结构的最新方法,该方法构建了代表有关何时在状态空间区域之间动态系统传递的信息的序数分区网络(OPN)。结果是一个加权图,其结构编码有关基础吸引子的信息。我们以前的工作开始寻找以TDA适合的方式包装OPN信息的方法。但是,这项工作仅使用网络结构,而没有采取任何行动来编码其他加权信息。在本文中,我们采取下一步:构建管道来分析使用TDA的加权OPN,并表明该框架为系统中的噪声或扰动提供了更大的弹性,并提高了动态状态检测的准确性。
translated by 谷歌翻译
拓扑方法可以提供一种提出新的指标和审查数据的方法的方法,否则可能会忽略这一点。在这项工作中,将引入一种量化数据形状的方法,通过称为拓扑数据分析的主题。拓扑数据分析(TDA)中的主要工具是持续的同源性。持续的同源性是一种在长度范围内量化数据形状的方法。在这项工作中简要讨论了所需的背景和计算持续同源性的方法。然后,来自拓扑数据分析的思想被用于非线性动力学,以通过计算其嵌入维度,然后评估其一般拓扑来分析一些常见的吸引子。还将提出一种方法,该方法使用拓扑数据分析来确定时间延迟嵌入的最佳延迟。 TDA还将应用于结构健康监测中的Z24桥案例研究,在该Z24桥梁案例研究中,它将用于仔细检查不同的数据分区,并根据收集数据的条件进行分类。来自拓扑数据分析的度量标准用于比较分区之间的数据。提出的结果表明,损害的存在比温度所产生的影响更大。
translated by 谷歌翻译
在发育过程中,细胞细胞共同居住与其新兴动态之间没有常规关联,这阻碍了我们对细胞种群如何扩散,分化和竞争的理解,即细胞生态学。随着单细胞RNA-Sequencing(RNA-Seq)的最新进展,我们可以通过构造表征细胞特异性转录程序基因表达谱的相似性的网络图来描述这种链接,并分析这些图系统地使用代数拓扑信息的摘要统计数据。我们提出了单细胞拓扑简单分析(SCTSA)。将这种方法应用于不同发展阶段的不同发育阶段的局部细胞网络的单细胞基因表达谱,这揭示了以前看不见的细胞生态拓扑结构。这些网络包含大量的单细胞剖面丛中的腔体,这些腔体指导了更复杂的居住形式的出现。与无效模型相比,我们使用这些网络的拓扑简单架构可视化这些生态模式。斑马鱼胚胎发生的单细胞RNA-seq数据跨越了38,731个细胞,25种细胞类型和12个时间步,我们的方法突出了胃肠道是最关键的阶段,与发育生物学的共识一致。作为非线性,独立和无监督的框架,我们的方法也可以应用于追踪多规模的细胞谱系,识别关键阶段或创建伪时间序列。
translated by 谷歌翻译
Image segmentation is a largely researched field where neural networks find vast applications in many facets of technology. Some of the most popular approaches to train segmentation networks employ loss functions optimizing pixel-overlap, an objective that is insufficient for many segmentation tasks. In recent years, their limitations fueled a growing interest in topology-aware methods, which aim to recover the correct topology of the segmented structures. However, so far, none of the existing approaches achieve a spatially correct matching between the topological features of ground truth and prediction. In this work, we propose the first topologically and feature-wise accurate metric and loss function for supervised image segmentation, which we term Betti matching. We show how induced matchings guarantee the spatially correct matching between barcodes in a segmentation setting. Furthermore, we propose an efficient algorithm to compute the Betti matching of images. We show that the Betti matching error is an interpretable metric to evaluate the topological correctness of segmentations, which is more sensitive than the well-established Betti number error. Moreover, the differentiability of the Betti matching loss enables its use as a loss function. It improves the topological performance of segmentation networks across six diverse datasets while preserving the volumetric performance. Our code is available in https://github.com/nstucki/Betti-matching.
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
本文介绍了一组数字方法,用于在不变(弹性)二阶Sobolev指标的设置中对3D表面进行Riemannian形状分析。更具体地说,我们解决了代表为3D网格的参数化或未参数浸入式表面之间的测量学和地球距离的计算。在此基础上,我们为表面集的统计形状分析开发了工具,包括用于估算Karcher均值并在形状群体上执行切线PCA的方法,以及计算沿表面路径的平行传输。我们提出的方法从根本上依赖于通过使用Varifold Fidelity术语来为地球匹配问题提供轻松的变异配方,这使我们能够在计算未参数化表面之间的地理位置时强制执行重新训练的独立性,同时还可以使我们能够与多用途算法相比,使我们能够将表面与vare表面进行比较。采样或网状结构。重要的是,我们演示了如何扩展放松的变分框架以解决部分观察到的数据。在合成和真实的各种示例中,说明了我们的数值管道的不同好处。
translated by 谷歌翻译
In computer-aided drug discovery (CADD), virtual screening (VS) is used for identifying the drug candidates that are most likely to bind to a molecular target in a large library of compounds. Most VS methods to date have focused on using canonical compound representations (e.g., SMILES strings, Morgan fingerprints) or generating alternative fingerprints of the compounds by training progressively more complex variational autoencoders (VAEs) and graph neural networks (GNNs). Although VAEs and GNNs led to significant improvements in VS performance, these methods suffer from reduced performance when scaling to large virtual compound datasets. The performance of these methods has shown only incremental improvements in the past few years. To address this problem, we developed a novel method using multiparameter persistence (MP) homology that produces topological fingerprints of the compounds as multidimensional vectors. Our primary contribution is framing the VS process as a new topology-based graph ranking problem by partitioning a compound into chemical substructures informed by the periodic properties of its atoms and extracting their persistent homology features at multiple resolution levels. We show that the margin loss fine-tuning of pretrained Triplet networks attains highly competitive results in differentiating between compounds in the embedding space and ranking their likelihood of becoming effective drug candidates. We further establish theoretical guarantees for the stability properties of our proposed MP signatures, and demonstrate that our models, enhanced by the MP signatures, outperform state-of-the-art methods on benchmark datasets by a wide and highly statistically significant margin (e.g., 93% gain for Cleves-Jain and 54% gain for DUD-E Diverse dataset).
translated by 谷歌翻译