In this paper, we present the findings of various methodologies for measuring the similarity of synthetic data generated from tabular data samples. We particularly apply our research to the case where the synthetic data has many more samples than the real data. This task has a special complexity: validating the reliability of this synthetically generated data with a much higher number of samples than the original. We evaluated the most commonly used global metrics found in the literature. We introduced a novel approach based on the data's topological signature analysis. Topological data analysis has several advantages in addressing this latter challenge. The study of qualitative geometric information focuses on geometric properties while neglecting quantitative distance function values. This is especially useful with high-dimensional synthetic data where the sample size has been significantly increased. It is comparable to introducing new data points into the data space within the limits set by the original data. Then, in large synthetic data spaces, points will be much more concentrated than in the original space, and their analysis will become much more sensitive to both the metrics used and noise. Instead, the concept of "closeness" between points is used for qualitative geometric information. Finally, we suggest an approach based on data Eigen vectors for evaluating the level of noise in synthetic data. This approach can also be used to assess the similarity of original and synthetic data.
translated by 谷歌翻译
适当地表示数据库中的元素,以便可以准确匹配查询是信息检索的核心任务;最近,通过使用各种指标将数据库的图形结构嵌入层次结构的方式中来实现。持久性同源性是一种在拓扑数据分析中常用的工具,能够严格地以其层次结构和连接结构来表征数据库。计算各种嵌入式数据集上的持续同源性表明,一些常用的嵌入式无法保留连接性。我们表明,那些成功保留数据库拓扑的嵌入通过引入两种扩张不变的比较措施来捕获这种效果,尤其是解决了对流形的度量扭曲问题。我们为它们的计算提供了一种算法,该算法大大降低了现有方法的时间复杂性。我们使用这些措施来执行基于拓扑的信息检索的第一个实例,并证明了其在持久同源性的标准瓶颈距离上的性能提高。我们在不同数据品种的数据库中展示了我们的方法,包括文本,视频和医学图像。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
本地解释性方法 - 由于需要从业者将其模型输出合理化,因此寻求为每次预测产生解释的人越来越普遍。然而,比较本地解释性方法很难,因为它们每个都会在各种尺度和尺寸中产生输出。此外,由于一些可解释性方法的随机性质,可以不同地运行方法以产生给定观察的矛盾解释。在本文中,我们提出了一种基于拓扑的框架来从一组本地解释中提取简化的表示。我们通过首先为标量函数设计解释空间和模型预测之间的关系来实现。然后,我们计算这个功能的拓扑骨架。这种拓扑骨架作为这样的功能的签名,我们用于比较不同的解释方法。我们证明我们的框架不仅可以可靠地识别可解释性技术之间的差异,而且提供稳定的表示。然后,我们展示了我们的框架如何用于标识本地解释性方法的适当参数。我们的框架很简单,不需要复杂的优化,并且可以广泛应用于大多数本地解释方法。我们认为,我们的方法的实用性和多功能性将有助于促进基于拓扑的方法作为理解和比较解释方法的工具。
translated by 谷歌翻译
We propose a framework for analyzing and comparing distributions, which we use to construct statistical tests to determine if two samples are drawn from different distributions. Our test statistic is the largest difference in expectations over functions in the unit ball of a reproducing kernel Hilbert space (RKHS), and is called the maximum mean discrepancy (MMD). We present two distributionfree tests based on large deviation bounds for the MMD, and a third test based on the asymptotic distribution of this statistic. The MMD can be computed in quadratic time, although efficient linear time approximations are available. Our statistic is an instance of an integral probability metric, and various classical metrics on distributions are obtained when alternative function classes are used in place of an RKHS. We apply our two-sample tests to a variety of problems, including attribute matching for databases using the Hungarian marriage method, where they perform strongly. Excellent performance is also obtained when comparing distributions over graphs, for which these are the first such tests.
translated by 谷歌翻译
在本文中,我们定义了一种新的非Archimedian度量标准结构,称为CopHenetic度量标准,对所有度的持久同源性等级。然后,我们将Zeroth持续同源与许多不同度量的核心度量和分层聚类算法一起,根据我们在不同的数据集上获得的实验结果,提供统计上可靠的相应拓扑信息。我们还观察到来自坐骨距离的所产生的集群在内部和外部评估措施(如轮廓分数和Rand指数)方面都能发光。此外,由于为所有同源度定义了CopHenetic度量,因此现在可以通过植根树显示所有度的持续同源类别的关系。
translated by 谷歌翻译
我们研究了紧凑型歧管M上的回归问题。为了利用数据的基本几何形状和拓扑结构,回归任务是基于歧管的前几个特征函数执行的,该特征是歧管的laplace-beltrami操作员,通过拓扑处罚进行正规化。提出的惩罚基于本征函数或估计功能的子级集的拓扑。显示总体方法可在合成和真实数据集上对各种应用产生有希望的和竞争性能。我们还根据回归函数估计,其预测误差及其平滑度(从拓扑意义上)提供理论保证。综上所述,这些结果支持我们方法在目标函数“拓扑平滑”的情况下的相关性。
translated by 谷歌翻译
在发育过程中,细胞细胞共同居住与其新兴动态之间没有常规关联,这阻碍了我们对细胞种群如何扩散,分化和竞争的理解,即细胞生态学。随着单细胞RNA-Sequencing(RNA-Seq)的最新进展,我们可以通过构造表征细胞特异性转录程序基因表达谱的相似性的网络图来描述这种链接,并分析这些图系统地使用代数拓扑信息的摘要统计数据。我们提出了单细胞拓扑简单分析(SCTSA)。将这种方法应用于不同发展阶段的不同发育阶段的局部细胞网络的单细胞基因表达谱,这揭示了以前看不见的细胞生态拓扑结构。这些网络包含大量的单细胞剖面丛中的腔体,这些腔体指导了更复杂的居住形式的出现。与无效模型相比,我们使用这些网络的拓扑简单架构可视化这些生态模式。斑马鱼胚胎发生的单细胞RNA-seq数据跨越了38,731个细胞,25种细胞类型和12个时间步,我们的方法突出了胃肠道是最关键的阶段,与发育生物学的共识一致。作为非线性,独立和无监督的框架,我们的方法也可以应用于追踪多规模的细胞谱系,识别关键阶段或创建伪时间序列。
translated by 谷歌翻译
无监督的特征学习通常会发现捕获复杂数据结构的低维嵌入。对于专家的任务可获得专家,将其纳入学习的代表可能会导致更高质量的嵌入品。例如,这可以帮助人们将数据嵌入给定的簇数,或者容纳阻止一个人直接在模型上衍生数据分布的噪声,然后可以更有效地学习。然而,缺乏将不同的先前拓扑知识集成到嵌入中的一般工具。虽然最近已经开发了可微分的拓扑层,但可以(重新)形状嵌入预定的拓扑模型,他们对代表学习有两个重要的局限性,我们在本文中解决了这一点。首先,目前建议的拓扑损失未能以自然的方式代表诸如群集和耀斑的简单模型。其次,这些损失忽略了对学习有用的数据中的所有原始结构(例如邻域)信息。我们通过引入一组新的拓扑损失来克服这些限制,并提出其用法作为拓扑正规规范数据嵌入来自然代表预定模型的一种方法。我们包括彻底的综合和实际数据实验,突出了这种方法的有用性和多功能性,其中应用范围从建模高维单胞胎数据进行建模到绘图嵌入。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
内核平均嵌入是表示和比较概率度量的有用工具。尽管具有有用性,但内核的意思是考虑无限维度的特征,在差异私有数据生成的背景下,这是具有挑战性的。最近的一项工作建议使用有限维的随机特征近似数据分布的内核平均值嵌入,从而产生可分析的敏感性。但是,所需的随机特征的数量过高,通常是一千到十万,这会使隐私准确的权衡加剧。为了改善权衡取舍,我们建议用Hermite多项式特征替换随机功能。与随机特征不同,储能多项式特征是排序的,其中低订单的特征包含的分布更多的信息比高订单处的分布更多。因此,与明显更高的随机特征相比,HERMITE多项式特征的相对较低的阶多项式特征可以更准确地近似数据分布的平均嵌入。正如在几个表格和图像数据集中所证明的那样,Hermite多项式特征似乎比随机傅立叶功能更适合私人数据生成。
translated by 谷歌翻译
拓扑方法可以提供一种提出新的指标和审查数据的方法的方法,否则可能会忽略这一点。在这项工作中,将引入一种量化数据形状的方法,通过称为拓扑数据分析的主题。拓扑数据分析(TDA)中的主要工具是持续的同源性。持续的同源性是一种在长度范围内量化数据形状的方法。在这项工作中简要讨论了所需的背景和计算持续同源性的方法。然后,来自拓扑数据分析的思想被用于非线性动力学,以通过计算其嵌入维度,然后评估其一般拓扑来分析一些常见的吸引子。还将提出一种方法,该方法使用拓扑数据分析来确定时间延迟嵌入的最佳延迟。 TDA还将应用于结构健康监测中的Z24桥案例研究,在该Z24桥梁案例研究中,它将用于仔细检查不同的数据分区,并根据收集数据的条件进行分类。来自拓扑数据分析的度量标准用于比较分区之间的数据。提出的结果表明,损害的存在比温度所产生的影响更大。
translated by 谷歌翻译
矢量值随机变量的矩序列可以表征其定律。我们通过使用所谓的稳健签名矩来研究路径值随机变量(即随机过程)的类似问题。这使我们能够为随机过程定律得出最大平均差异类型的度量,并研究其在随机过程定律方面引起的拓扑。可以使用签名内核对该度量进行内核,从而有效地计算它。作为应用程序,我们为随机过程定律提供了非参数的两样本假设检验。
translated by 谷歌翻译
本文旨在通过一种称为拓扑数据分析的方法来讨论一种量化数据“形状”的方法。拓扑数据分析中的主要工具是持续的同源性。这是从简单复合物的同源物中测量数据形状的一种手段,该方法在一系列值范围内计算出来。此处介绍了所需的背景理论和计算持续同源性的方法,并具有针对结构健康监测的应用。这些结果允许拓扑推断和推断高维数据中的功能的能力,否则可能会被忽略。为给定距离参数的数据构建了一个简单复合物。该复合物编码有关数据点局部接近性的信息。可以从这个简单复合物中计算出奇异的同源性值。扩展此想法,为一系列值提供了距离参数,并且在此范围内计算同源性。持续的同源性是在此间隔中如何持续存在数据的同源特征的一种表示。结果是数据的特征。还讨论了一种允许比较不同数据集的持续同源性的方法。
translated by 谷歌翻译
在过去的几年中,已经引入了许多基于输入数据扰动的解释方法,以提高我们对黑盒模型做出的决策的理解。这项工作的目的是引入一种新颖的扰动方案,以便可以获得更忠实和强大的解释。我们的研究重点是扰动方向对数据拓扑的影响。我们表明,在对离散的Gromov-Hausdorff距离的最坏情况分析以及通过持久的同源性的平均分析中,沿输入歧管的正交方向的扰动更好地保留了数据拓扑。从这些结果中,我们引入EMAP算法,实现正交扰动方案。我们的实验表明,EMAP不仅改善了解释者的性能,而且还可以帮助他们克服最近对基于扰动的方法的攻击。
translated by 谷歌翻译
我们讨论集群分析的拓扑方面,并表明在聚类之前推断数据集的拓扑结构可以大大增强群集检测:理论论证和经验证据表明,聚类嵌入向量,代表数据歧管的结构,而不是观察到的特征矢量他们自己是非常有益的。为了证明,我们将流形学习方法与基于密度的聚类方法DBSCAN结合了歧管学习方法UMAP。合成和真实数据结果表明,这既简化和改善了多种低维问题,包括密度变化和/或纠缠形状的群集。我们的方法简化了聚类,因为拓扑预处理始终降低DBSCAN的参数灵敏度。然后,用dbscan聚类所得的嵌入可以超过诸如spectacl和clustergan之类的复杂方法。最后,我们的调查表明,聚类中的关键问题似乎不是数据的标称维度或其中包含多少不相关的功能,而是\ textIt {可分离}群集在环境观察空间中的\ textit {可分离},它们嵌入了它们中。 ,通常是数据特征定义的(高维)欧几里得空间。我们的方法之所以成功,是因为我们将数据投影到更合适的空间后,从某种意义上说,我们执行了群集分析。
translated by 谷歌翻译
NYSTR \“ OM方法是提高内核方法可伸缩性的最流行技术之一。但是,它尚未与经典PCA一致的核PCA得出。在本文中,我们使用NyStr \”来得出核PCA。OM方法,从而提供了使内核PCA可扩展的少数可用选项之一。我们通过与完整方法相比,通过有限样本的置信度结合了经验重建误差,进一步研究其统计精度。该方法和绑定的行为通过在多个现实世界数据集上的计算机实验进行说明。作为该方法的应用,我们使用NyStr \“ Om方法表示内核主成分回归,作为NyStr \“ Om内核脊回归的替代方案,可用于使用核有效正规化回归。
translated by 谷歌翻译
从模型分析和机器学习中的比较到医疗数据集集合中的趋势发现,需要有效地比较和表示具有未知字段的数据集跨越各个字段。我们使用歧管学习来比较不同数据集的固有几何结构,通过比较其扩散操作员,对称阳性定义(SPD)矩阵,这些矩阵与连续的拉普拉斯 - 贝特拉米操作员与离散样品的近似相关。现有方法通常假设已知的数据对齐,并以点数的方式比较此类运算符。取而代之的是,我们利用SPD矩阵的Riemannian几何形状比较了这些操作员并根据log-euclidean Metric的下限定义了新的理论动机距离。我们的框架有助于比较具有不同大小,功能数量和测量方式的数据集中表达的数据歧管的比较。我们的日志 - 欧几里德签名(LES)距离恢复了有意义的结构差异,在各种应用领域的表现都优于竞争方法。
translated by 谷歌翻译
数据表示的比较是一个复杂的多个方面问题,尚未享受完整的解决方案。我们提出了一种用于比较两个数据表示的方法。我们介绍了表示拓扑分歧(RTD),测量在两点云之间的多尺度拓扑中的异常相同,在点之间的一对一的对应关系。数据点云被允许位于不同的环境空间中。RTD是少数基于TDA的实用方法之一,适用于真实机器学习数据集。实验表明,提议的RTD同意对数据表示相似性的直观评估,对其拓扑结构敏感。我们申请RTD在各种问题的计算机视觉和NLP域中获得神经网络表示的见解:培训动力学分析,数据分配转移,转移学习,集合学习,解剖学评估。
translated by 谷歌翻译
集成不同学科的数据集很难,因为数据通常在含义,规模和可靠性中的定性不同。当两个数据集描述相同的实体时,许多科学问题可以围绕这种不同数据保守的(DIS)是否保守。我们的方法,清晰度,量化数据集的一致性,识别出现不一致的地方,并辅助其解释。我们使用三种不同的比较来说明这一点:基因甲基化与表达,语言的演变声音与单词使用,以及国家级经济指标与文化信仰。非参数方法对噪声和缩放的差异很强大,并且只有关于如何生成数据的弱假设。它通过将相似性分解为两个组件:类似于聚类的“结构”组件,以及这些结构之间的底层的“关系”。这允许使用从“结构”的可预测性的两个相似性矩阵之间的“结构比较”。在适合每个数据集的重新采样的帮助下评估重要性。本软件清晰度,可作为来自https://github.com/danjlawson/trarity的R包。
translated by 谷歌翻译