Persistence diagrams are common descriptors of the topological structure of data appearing in various classification and regression tasks. They can be generalized to Radon measures supported on the birth-death plane and endowed with an optimal transport distance. Examples of such measures are expectations of probability distributions on the space of persistence diagrams. In this paper, we develop methods for approximating continuous functions on the space of Radon measures supported on the birth-death plane, as well as their utilization in supervised learning tasks. Indeed, we show that any continuous function defined on a compact subset of the space of such measures (e.g., a classifier or regressor) can be approximated arbitrarily well by polynomial combinations of features computed using a continuous compactly supported function on the birth-death plane (a template). We provide insights into the structure of relatively compact subsets of the space of Radon measures, and test our approximation methodology on various data sets and supervised learning tasks.
translated by 谷歌翻译
比较概率分布是许多机器学习算法的关键。最大平均差异(MMD)和最佳运输距离(OT)是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件,可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习(CSL)理论的推动,资源有效的大规模学习的一般框架,其中训练数据总结在单个向量(称为草图)中,该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发,我们介绍了H \“较旧的较低限制的等距属性(H \”较旧的LRIP)并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系,我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证,即概率分布之间的某些特定于特定的特定度量,可以由Wassersein界定距离。
translated by 谷歌翻译
Entropic regularization provides a generalization of the original optimal transport problem. It introduces a penalty term defined by the Kullback-Leibler divergence, making the problem more tractable via the celebrated Sinkhorn algorithm. Replacing the Kullback-Leibler divergence with a general $f$-divergence leads to a natural generalization. The case of divergences defined by superlinear functions was recently studied by Di Marino and Gerolin. Using convex analysis, we extend the theory developed so far to include all $f$-divergences defined by functions of Legendre type, and prove that under some mild conditions, strong duality holds, optimums in both the primal and dual problems are attained, the generalization of the $c$-transform is well-defined, and we give sufficient conditions for the generalized Sinkhorn algorithm to converge to an optimal solution. We propose a practical algorithm for computing an approximate solution of the optimal transport problem with $f$-divergence regularization via the generalized Sinkhorn algorithm. Finally, we present experimental results on synthetic 2-dimensional data, demonstrating the effects of using different $f$-divergences for regularization, which influences convergence speed, numerical stability and sparsity of the optimal coupling.
translated by 谷歌翻译
我们考虑了$ d $维图像的新拓扑效率化,该图像通过在计算持久性之前与各种过滤器进行卷积。将卷积滤波器视为图像中的图案,结果卷积的持久图描述了图案在整个图像中分布的方式。我们称之为卷积持久性的管道扩展了拓扑结合图像数据中模式的能力。的确,我们证明(通常说)对于任何两个图像,人们都可以找到某些过滤器,它们会为其产生不同的持久图,以便给定图像的所有可能的卷积持久性图的收集是一个不变的不变性。通过表现出卷积的持久性是另一种拓扑不变的持续性副学变换的特殊情况,这证明了这一点。卷积持久性的其他优势是提高噪声的稳定性和鲁棒性,对数据依赖性矢量化的更大灵活性以及对具有较大步幅向量的卷积的计算复杂性降低。此外,我们还有一套实验表明,即使人们使用随机过滤器并通过仅记录其总持久性,卷积大大提高了持久性的预测能力,即使一个人使用随机过滤器并将结果图进行量化。
translated by 谷歌翻译
矢量值随机变量的矩序列可以表征其定律。我们通过使用所谓的稳健签名矩来研究路径值随机变量(即随机过程)的类似问题。这使我们能够为随机过程定律得出最大平均差异类型的度量,并研究其在随机过程定律方面引起的拓扑。可以使用签名内核对该度量进行内核,从而有效地计算它。作为应用程序,我们为随机过程定律提供了非参数的两样本假设检验。
translated by 谷歌翻译
本文通过引入几何深度学习(GDL)框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型,从而解决了对非欧国人数据进行处理的需求。我们表明,我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反,我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数,任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件,确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现,任何“现实世界”(即有限)数据集始终满足我们的状况,相反,如果目标函数平滑,则任何数据集都满足我们的要求。作为应用,我们确认了以下GDL模型的通用近似功能:Ganea等。 (2018)的双波利馈电网络,实施Krishnan等人的体系结构。 (2015年)的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了:Meyer等人的SPD-Matrix回归剂的通用扩展/变体。 (2011)和Fletcher(2003)的Procrustean回归剂。在欧几里得的环境中,我们的结果暗示了Kidger和Lyons(2020)的近似定理和Yarotsky和Zhevnerchuk(2019)无估计近似率的数据依赖性版本的定量版本。
translated by 谷歌翻译
适当地表示数据库中的元素,以便可以准确匹配查询是信息检索的核心任务;最近,通过使用各种指标将数据库的图形结构嵌入层次结构的方式中来实现。持久性同源性是一种在拓扑数据分析中常用的工具,能够严格地以其层次结构和连接结构来表征数据库。计算各种嵌入式数据集上的持续同源性表明,一些常用的嵌入式无法保留连接性。我们表明,那些成功保留数据库拓扑的嵌入通过引入两种扩张不变的比较措施来捕获这种效果,尤其是解决了对流形的度量扭曲问题。我们为它们的计算提供了一种算法,该算法大大降低了现有方法的时间复杂性。我们使用这些措施来执行基于拓扑的信息检索的第一个实例,并证明了其在持久同源性的标准瓶颈距离上的性能提高。我们在不同数据品种的数据库中展示了我们的方法,包括文本,视频和医学图像。
translated by 谷歌翻译
本文介绍了一种新的基于仿真的推理程序,以对访问I.I.D. \ samples的多维概率分布进行建模和样本,从而规避明确建模密度函数或设计Markov Chain Monte Carlo的通常方法。我们提出了一个称为可逆的Gromov-monge(RGM)距离的新概念的距离和同构的动机,并研究了RGM如何用于设计新的转换样本,以执行基于模拟的推断。我们的RGM采样器还可以估计两个异质度量度量空间之间的最佳对齐$(\ cx,\ mu,c _ {\ cx})$和$(\ cy,\ cy,\ nu,c _ {\ cy})$从经验数据集中,估计的地图大约将一个量度$ \ mu $推向另一个$ \ nu $,反之亦然。我们研究了RGM距离的分析特性,并在轻度条件下得出RGM等于经典的Gromov-Wasserstein距离。奇怪的是,与Brenier的两极分解结合了连接,我们表明RGM采样器以$ C _ {\ cx} $和$ C _ {\ cy} $的正确选择诱导了强度同构的偏见。研究了有关诱导采样器的收敛,表示和优化问题的统计率。还展示了展示RGM采样器有效性的合成和现实示例。
translated by 谷歌翻译
拓扑数据分析(TDA)的主要挑战之一是从机器学习算法直接可用的持久图中提取功能。实际上,持久性图是R2中的本质上(多级)点,并且不能以直接的方式视为向量。在本文中,我们介绍了持平性器,这是一个接受持久图作为输入的第一变压器神经网络架构。坚持不懈的体系结构显着优于古典合成基准数据集上以前的拓扑神经网络架构。此外,它满足了通用近似定理。这使我们能够介绍一种用于拓扑机学习的第一解释方法,我们在两个示例中探讨。
translated by 谷歌翻译
我们研究了使用前馈神经网络实施其支持集的同时近似紧凑型积分功能的问题。我们的第一个主要结果将这个“结构化”近似问题转录为普遍性问题。我们通过在空间上构建通常的拓扑结构来做到这一点,$ l^1 _ {\ propatatorName {loc}}(\ m athbb {r}^d,\ m athbb {r}^d)locally-intellable-intellable-intellable-intellable-intellable-in紧凑型函数只能通过具有匹配的离散支持的函数来近似于$ l^1 $ norm。我们建立了Relu Feedforwward网络的普遍性,并在此精致拓扑结构中具有双线性池层。因此,我们发现具有双线性池的Relu FeedForward网络可以在实施其离散支持的同时近似紧凑的功能。我们在紧凑型Lipschitz函数的致密亚类中得出了通用近似定理的定量均匀版本。该定量结果表达了通过目标函数的规律性,其基本支持的度量和直径以及输入和输出空间的尺寸来构建此relu网络所需的双线性池层层的深度,宽度和数量。相反,我们表明多项式回归器和分析前馈网络在该空间中并非通用。
translated by 谷歌翻译
我们研究了紧凑型歧管M上的回归问题。为了利用数据的基本几何形状和拓扑结构,回归任务是基于歧管的前几个特征函数执行的,该特征是歧管的laplace-beltrami操作员,通过拓扑处罚进行正规化。提出的惩罚基于本征函数或估计功能的子级集的拓扑。显示总体方法可在合成和真实数据集上对各种应用产生有希望的和竞争性能。我们还根据回归函数估计,其预测误差及其平滑度(从拓扑意义上)提供理论保证。综上所述,这些结果支持我们方法在目标函数“拓扑平滑”的情况下的相关性。
translated by 谷歌翻译
我们研究了随着正则化参数的消失,差异调节的最佳转运的收敛性消失。一般差异的尖锐费率包括相对熵或$ l^{p} $正则化,一般运输成本和多边界问题。使用量化和Martingale耦合的新方法适用于非紧密的边际和实现,特别是对于所有有限$(2+ \ delta)$ - 时刻的边缘的熵正规化2-wasserstein距离的尖锐前阶项。
translated by 谷歌翻译
Wassersein距离,植根于最佳运输(OT)理论,是在统计和机器学习的各种应用程序之间的概率分布之间的流行差异测量。尽管其结构丰富,但效用,但Wasserstein距离对所考虑的分布中的异常值敏感,在实践中阻碍了适用性。灵感来自Huber污染模型,我们提出了一种新的异常值 - 强大的Wasserstein距离$ \ mathsf {w} _p ^ \ varepsilon $,它允许从每个受污染的分布中删除$ \ varepsilon $异常块。与以前考虑的框架相比,我们的配方达到了高度定期的优化问题,使其更好地分析。利用这一点,我们对$ \ mathsf {w} _p ^ \ varepsilon $的彻底理论研究,包括最佳扰动,规律性,二元性和统计估算和鲁棒性结果的表征。特别是,通过解耦优化变量,我们以$ \ mathsf {w} _p ^ \ varepsilon $到达一个简单的双重形式,可以通过基于标准的基于二元性的OT响音器的基本修改来实现。我们通过应用程序来说明我们的框架的好处,以与受污染的数据集进行生成建模。
translated by 谷歌翻译
对抗性鲁棒性是各种现代机器学习应用中的关键财产。虽然它是最近几个理论研究的主题,但与对抗性稳健性有关的许多重要问题仍然是开放的。在这项工作中,我们研究了有关对抗对抗鲁棒性的贝叶斯最优性的根本问题。我们提供了一般的充分条件,可以保证贝叶斯最佳分类器的存在,以满足对抗性鲁棒性。我们的结果可以提供一种有用的工具,用于随后研究对抗性鲁棒性及其一致性的替代损失。这份稿件是“关于普通贝叶斯分类器的存在”在神经潮端中发表的延伸版本。原始纸张的结果不适用于一些非严格凸的规范。在这里,我们将结果扩展到所有可能的规范。
translated by 谷歌翻译
We study a family of adversarial multiclass classification problems and provide equivalent reformulations in terms of: 1) a family of generalized barycenter problems introduced in the paper and 2) a family of multimarginal optimal transport problems where the number of marginals is equal to the number of classes in the original classification problem. These new theoretical results reveal a rich geometric structure of adversarial learning problems in multiclass classification and extend recent results restricted to the binary classification setting. A direct computational implication of our results is that by solving either the barycenter problem and its dual, or the MOT problem and its dual, we can recover the optimal robust classification rule and the optimal adversarial strategy for the original adversarial problem. Examples with synthetic and real data illustrate our results.
translated by 谷歌翻译
我们引入了一个深度学习模型,该模型通常可以近似于常规条件分布(RCD)。所提出的模型分为三个阶段:首先从给定的度量空间$ \ mathcal {x} $到$ \ mathbb {r}^d $通过功能映射进行线性化输入,然后这些线性化的功能由深层馈电的神经网络处理,然后通过Bahdanau等人引入的注意机制的概率扩展,将网络的输出转换为$ 1 $ -WASSERSTEIN SPACE $ \ MATHCAL {P} _1(\ Mathbb {r}^d)$。 (2014)。我们发现,使用我们的框架构建的模型可以从$ \ mathbb {r}^d $到$ \ mathcal {p} _1(\ mathbb {r}^d)$均匀地在紧凑的集合上近似任何连续功能。当近似$ \ mathcal {p} _1(\ mathbb {r}^d)$ - 有价值的函数时,我们确定了两种避免维数的诅咒的方法。第一个策略描述了$ c(\ mathbb {r}^d,\ mathcal {p} _1(\ mathbb {r}^d))$中的函数,可以在$ \ mathbb {r}的任何紧凑子集上有效地近似地近似^D $。第二种方法描述了$ \ mathbb {r}^d $的紧凑子集,其中最多的$ c(\ mathbb {r}^d,\ mathcal {p} _1 _1(\ mathbb {r}^d))$可以有效地近似。结果经过实验验证。
translated by 谷歌翻译
概率分布之间的差异措施,通常被称为统计距离,在概率理论,统计和机器学习中普遍存在。为了在估计这些距离的距离时,对维度的诅咒,最近的工作已经提出了通过带有高斯内核的卷积在测量的分布中平滑局部不规则性。通过该框架的可扩展性至高维度,我们研究了高斯平滑$ P $ -wassersein距离$ \ mathsf {w} _p ^ {(\ sigma)} $的结构和统计行为,用于任意$ p \ GEQ 1 $。在建立$ \ mathsf {w} _p ^ {(\ sigma)} $的基本度量和拓扑属性之后,我们探索$ \ mathsf {w} _p ^ {(\ sigma)}(\ hat {\ mu} _n,\ mu)$,其中$ \ hat {\ mu} _n $是$ n $独立观察的实证分布$ \ mu $。我们证明$ \ mathsf {w} _p ^ {(\ sigma)} $享受$ n ^ { - 1/2} $的参数经验融合速率,这对比$ n ^ { - 1 / d} $率对于未平滑的$ \ mathsf {w} _p $ why $ d \ geq 3 $。我们的证明依赖于控制$ \ mathsf {w} _p ^ {(\ sigma)} $ by $ p $ th-sting spoollow sobolev restion $ \ mathsf {d} _p ^ {(\ sigma)} $并导出限制$ \ sqrt {n} \,\ mathsf {d} _p ^ {(\ sigma)}(\ hat {\ mu} _n,\ mu)$,适用于所有尺寸$ d $。作为应用程序,我们提供了使用$ \ mathsf {w} _p ^ {(\ sigma)} $的两个样本测试和最小距离估计的渐近保证,使用$ p = 2 $的实验使用$ \ mathsf {d} _2 ^ {(\ sigma)} $。
translated by 谷歌翻译
我们在非参数二进制分类的一个对抗性训练问题之间建立了等价性,以及规范器是非识别范围功能的正则化风险最小化问题。由此产生的正常风险最小化问题允许在图像分析和基于图形学习中常常研究的$ L ^ 1 + $(非本地)$ \ Operatorvers {TV} $的精确凸松弛。这种重构揭示了丰富的几何结构,这反过来允许我们建立原始问题的最佳解决方案的一系列性能,包括存在最小和最大解决方案(以合适的意义解释),以及常规解决方案的存在(也以合适的意义解释)。此外,我们突出了对抗性训练和周长最小化问题的联系如何为涉及周边/总变化的正规风险最小化问题提供一种新颖的直接可解释的统计动机。我们的大部分理论结果与用于定义对抗性攻击的距离无关。
translated by 谷歌翻译
Wassersein梯度流通概率措施在各种优化问题中发现了许多应用程序。它们通常由于由涉及梯度型电位的一些平均场相互作用而发展的可交换粒子系统的连续极限。然而,在许多问题中,例如在多层神经网络中,所谓的粒子是在节点可更换的大图上的边缘权重。已知这样的大图可以收敛到连续的限制,称为Graphons,因为它们的大小增长到无穷大。我们表明,边缘权重的合适功能的欧几里德梯度流量会聚到可以被适当地描述为梯度流的曲线上的曲线给出的新型连续轴限制,或者更重要的是最大斜率的曲线。我们的设置涵盖了诸如同性恋功能和标量熵的石墨源上的几种自然功能,并详细介绍了示例。
translated by 谷歌翻译
最大平均差异(MMD)(例如内核Stein差异(KSD))已成为广泛应用的中心,包括假设测试,采样器选择,分布近似和变异推断。在每种情况下,这些基于内核的差异度量都需要(i)(i)将目标p与其他概率度量分开,甚至(ii)控制弱收敛到P。在本文中,我们得出了新的足够和必要的条件,以确保(i) (ii)。对于可分开的度量空间上的MMD,我们表征了那些将BOCHNER嵌入量度分开的内核,并引入了简单条件,以将所有措施用无限的内核分开,并控制与有界内核的收敛。我们在$ \ mathbb {r}^d $上使用这些结果来实质性地扩大了KSD分离和收敛控制的已知条件,并开发了已知的第一个KSD,以恰好将弱收敛到P。我们的假设检验,测量和改善样本质量以及用Stein变异梯度下降进行抽样的结果。
translated by 谷歌翻译