智能论文笔记

Optimal 1-Wasserstein Distance for WGANs

Arthur Stéphanovitch , Ugo Tanielian , Benoît Cadre , Nicolas Klutchnikoff , Gérard Biau

分类： (统计)机器学习 | 机器学习

2022-01-08

生成的对抗网络后面的数学力量提高了具有挑战性的理论问题。通过表征产生的分布的几何特性的重要问题，我们在有限的样本和渐近制度中对Wassersein Gans（WGAN）进行了彻底分析。我们研究了潜伏空间是单变量的特定情况，并且不管输出空间的尺寸如何有效。我们特别地显示出用于固定的样本大小，最佳WGAN与连接路径紧密相连，最小化采样点之间的平方欧几里德距离的总和。我们还强调了WGAN能够接近的事实（对于1-Wasserstein距离）目标分布，因为样本大小趋于无穷大，在给定的会聚速率下，并且提供了生成的Lipschitz函数的家族适当地增长。我们在半离散环境中获得了在最佳运输理论上传递新结果。

translated by 谷歌翻译

Controlling Wasserstein distances by Kernel norms with application to Compressive Statistical Learning

Titouan Vayer , Rémi Gribonval

分类： (统计)机器学习 | 机器学习

2021-12-01

比较概率分布是许多机器学习算法的关键。最大平均差异（MMD）和最佳运输距离（OT）是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件，可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习（CSL）理论的推动，资源有效的大规模学习的一般框架，其中训练数据总结在单个向量（称为草图）中，该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发，我们介绍了H \“较旧的较低限制的等距属性（H \”较旧的LRIP）并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系，我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证，即概率分布之间的某些特定于特定的特定度量，可以由Wassersein界定距离。

translated by 谷歌翻译

Distribution Approximation and Statistical Estimation Guarantees of Generative Adversarial Networks

Minshuo Chen , Wenjing Liao , Hongyuan Zha , Tuo Zhao

分类：机器学习 | (统计)机器学习

2020-02-10

生成的对抗网络（GAN）在无监督学习方面取得了巨大的成功。尽管具有显着的经验表现，但关于gan的统计特性的理论研究有限。本文提供了gan的近似值和统计保证，以估算具有H \“ {o} lder空间密度的数据分布。我们的主要结果表明，如果正确选择了生成器和鉴别器网络架构，则gan是一致的估计器在较强的差异指标下的数据分布（例如Wasserstein-1距离。，这不受环境维度的诅咒。我们对低维数据的分析基于具有Lipschitz连续性保证的神经网络的通用近似理论，这可能具有独立的兴趣。

translated by 谷歌翻译

Smooth $p$-Wasserstein Distance: Structure, Empirical Approximation, and Statistical Applications

Sloan Nietert , Ziv Goldfeld , Kengo Kato

分类： (统计)机器学习

2021-01-11

概率分布之间的差异措施，通常被称为统计距离，在概率理论，统计和机器学习中普遍存在。为了在估计这些距离的距离时，对维度的诅咒，最近的工作已经提出了通过带有高斯内核的卷积在测量的分布中平滑局部不规则性。通过该框架的可扩展性至高维度，我们研究了高斯平滑$ P $ -wassersein距离$ \ mathsf {w} _p ^ {（\ sigma）} $的结构和统计行为，用于任意$ p \ GEQ 1 $。在建立$ \ mathsf {w} _p ^ {（\ sigma）} $的基本度量和拓扑属性之后，我们探索$ \ mathsf {w} _p ^ {（\ sigma）}（\ hat {\ mu} _n，\ mu）$，其中$ \ hat {\ mu} _n $是$ n $独立观察的实证分布$ \ mu $。我们证明$ \ mathsf {w} _p ^ {（\ sigma）} $享受$ n ^ { - 1/2} $的参数经验融合速率，这对比$ n ^ { - 1 / d} $率对于未平滑的$ \ mathsf {w} _p $ why $ d \ geq 3 $。我们的证明依赖于控制$ \ mathsf {w} _p ^ {（\ sigma）} $ by $ p $ th-sting spoollow sobolev restion $ \ mathsf {d} _p ^ {（\ sigma）} $并导出限制$ \ sqrt {n} \，\ mathsf {d} _p ^ {（\ sigma）}（\ hat {\ mu} _n，\ mu）$，适用于所有尺寸$ d $。作为应用程序，我们提供了使用$ \ mathsf {w} _p ^ {（\ sigma）} $的两个样本测试和最小距离估计的渐近保证，使用$ p = 2 $的实验使用$ \ mathsf {d} _2 ^ {（\ sigma）} $。

translated by 谷歌翻译

The Performance of Wasserstein Distributionally Robust M-Estimators in High Dimensions

Liviu Aolaritei , Soroosh Shafieezadeh-Abadeh , Florian Dörfler

分类： (统计)机器学习 | 机器学习

2022-06-27

Wasserstein的分布在强大的优化方面已成为强大估计的有力框架，享受良好的样本外部性能保证，良好的正则化效果以及计算上可易处理的双重重新纠正。在这样的框架中，通过将最接近经验分布的所有概率分布中最接近的所有概率分布中最小化的最差预期损失来最大程度地减少估计量。在本文中，我们提出了一个在噪声线性测量中估算未知参数的Wasserstein分布稳定的M估计框架，我们专注于分析此类估计器的平方误差性能的重要且具有挑战性的任务。我们的研究是在现代的高维比例状态下进行的，在该状态下，环境维度和样品数量都以相对的速度进行编码，该速率以编码问题的下/过度参数化的比例。在各向同性高斯特征假设下，我们表明可以恢复平方误差作为凸 - 串联优化问题的解，令人惊讶的是，它在最多四个标量变量中都涉及。据我们所知，这是在Wasserstein分布强劲的M估计背景下研究此问题的第一项工作。

translated by 谷歌翻译

Outlier-Robust Optimal Transport: Duality, Structure, and Statistical Applications

Sloan Nietert , Rachel Cummings , Ziv Goldfeld

分类： (统计)机器学习 | 机器学习

2021-11-02

Wassersein距离，植根于最佳运输（OT）理论，是在统计和机器学习的各种应用程序之间的概率分布之间的流行差异测量。尽管其结构丰富，但效用，但Wasserstein距离对所考虑的分布中的异常值敏感，在实践中阻碍了适用性。灵感来自Huber污染模型，我们提出了一种新的异常值 - 强大的Wasserstein距离$ \ mathsf {w} _p ^ \ varepsilon $，它允许从每个受污染的分布中删除$ \ varepsilon $异常块。与以前考虑的框架相比，我们的配方达到了高度定期的优化问题，使其更好地分析。利用这一点，我们对$ \ mathsf {w} _p ^ \ varepsilon $的彻底理论研究，包括最佳扰动，规律性，二元性和统计估算和鲁棒性结果的表征。特别是，通过解耦优化变量，我们以$ \ mathsf {w} _p ^ \ varepsilon $到达一个简单的双重形式，可以通过基于标准的基于二元性的OT响音器的基本修改来实现。我们通过应用程序来说明我们的框架的好处，以与受污染的数据集进行生成建模。

translated by 谷歌翻译

Reweighting samples under covariate shift using a Wasserstein distance criterion

Julien Reygner , Adrien Touboul

分类： (统计)机器学习

2020-10-19

考虑两个随机变量具有不同定律的变量，我们只能通过有限尺寸的IID样品访问，我们解决了如何重量重量的第一个样本，以使其经验分布收敛于第二个样本的真实定律，因为两个样本的大小都属于无穷大。我们研究了最佳的重新加权，该重量可以最大程度地减少两个样本的经验度量之间的沃斯汀距离，并以最近的邻居的形式导致权重表达。从预期的瓦斯汀距离方面，一致性和某些渐近收敛速率被得出，并且不需要一个随机变量相对于另一个随机变量的绝对连续性的假设。这些结果在不确定性定量中进行了一定的应用，以进行解耦估计，并在协变量偏移下最近的邻居回归的概括误差的边界。

translated by 谷歌翻译

Statistical and Topological Properties of Sliced Probability Divergences

Kimia Nadjahi , Alain Durmus , Lénaïc Chizat , Soheil Kolouri , Shahin Shahrampour , Umut Şimşekli

分类： (统计)机器学习 | 机器学习

2020-03-12

在包括生成建模的各种机器学习应用中的两个概率措施中，已经证明了切片分歧的想法是成功的，并且包括计算两种测量的一维随机投影之间的“基地分歧”的预期值。然而，这种技术的拓扑，统计和计算后果尚未完整地确定。在本文中，我们的目标是弥合这种差距并导出切片概率分歧的各种理论特性。首先，我们表明切片保留了公制公理和分歧的弱连续性，这意味着切片分歧将共享相似的拓扑性质。然后，我们在基本发散属于积分概率度量类别的情况下精确结果。另一方面，我们在轻度条件下建立了切片分歧的样本复杂性并不依赖于问题尺寸。我们终于将一般结果应用于几个基地分歧，并说明了我们对合成和实际数据实验的理论。

translated by 谷歌翻译

Local versions of sum-of-norms clustering

Alexander Dunlap , Jean-Christophe Mourrat

分类：机器学习 | (统计)机器学习

2021-09-20

总体总和聚类是一个凸优化问题，其解决方案可用于多元数据的聚类。我们提出并研究了该方法的局部版本，并特别表明它可以将随机球模型中的任意关闭球分开。更确切地说，我们证明了一个定量绑定在连接的分离集合集群中发生的误差。我们的界限是根据数据点数和功能的本地化长度表示的。

translated by 谷歌翻译

Beyond IID: data-driven decision-making in heterogeneous environments

Omar Besbes , Will Ma , Omar Mouchtaki

分类：机器学习 | (统计)机器学习

2022-06-20

在这项工作中，我们研究了数据驱动的决策，并偏离了经典的相同和独立分布（I.I.D.）假设。我们提出了一个新的框架，其中我们将历史样本从未知和不同的分布中产生，我们将其配置为异质环境。假定这些分布位于具有已知半径的异质球中，并围绕（也是）未知的未来（样本外）分布，将评估决策的表现。我们量化了中央数据驱动的策略（例如样本平均近似值，也可以通过速率优势）来量化的渐近性最坏案例遗憾，这是异质性球半径的函数。我们的工作表明，在问题类别和异质性概念的不同组合中，可实现的性能类型的变化很大。我们通过比较广泛研究的数据驱动问题（例如定价，滑雪租赁和新闻顾问）的异质版本来证明框架的多功能性。在途中，我们在数据驱动的决策和分配强大的优化之间建立了新的联系。

translated by 谷歌翻译

Wasserstein GANs with Gradient Penalty Compute Congested Transport

Tristan Milne , Adrian Nachman

分类：机器学习 | (统计)机器学习

2021-09-01

Wasserstein Gans具有梯度惩罚（WGAN-GP）是一种非常流行的方法，用于培训生成模型以产生高质量的合成数据。虽然最初开发了WGAN-GP来计算生成数据和真实数据之间的Wasserstein 1距离，但最近的工作（例如[23]）提供了经验证据，表明这没有发生，并认为WGAN-GP表现不佳，尽管没有很好地表现这个问题，但由于此问题。在本文中，我们首次表明WGAN-GP计算了最小的最佳运输问题的最小值，即所谓的拥挤运输[7]。拥挤的运输决定了在惩罚拥塞的运输模型下将一个分配转移到另一种分配的成本。对于WGAN-GP，我们发现拥塞的罚款具有由[12]中使用的采样策略所确定的空间变化的组件，其作用像是局部速度限制，使某些地区的拥塞成本比其他地区少。拥挤的运输问题的这一方面是新的，因为事实证明，拥塞的罚款是无限的，并且取决于要运输的分配，因此我们为这种情况提供了必要的数学证明。我们发现的一个方面是一个公式，将解决方案的梯度连接到WGAN-GP中的优化问题与最佳质量流量的平均动量。这与Wasserstein 1距离Kantorovich电位的梯度相反，Wasserstein 1距离仅是流动的归一化方向。基于此和其他考虑因素，我们推测我们的结果如何解释了观察到的WGAN-GP的性能。除了对gan的应用外，我们的定理还指出，使用神经网络技术大致解决大规模拥堵的运输问题的可能性。

translated by 谷歌翻译

A Convenient Infinite Dimensional Framework for Generative Adversarial Learning

Hayk Asatryan , Hanno Gottschalk , Marieke Lippert , Matthias Rottmann

分类：机器学习

2020-11-24

近年来，生成的对抗性网络（GANS）已经证明了令人印象深刻的实验结果，同时只有一些作品促进了统计学习理论。在这项工作中，我们提出了一种用于生成对抗性学习的无限尺寸理论框架。假设统一界限的$ k $-times $ \ alpha $ -h \“较旧的可分辨率和统一的正密度，我们表明Rosenblatt的转换引起了最佳发电机，可在$ \ alpha $的假设空间中可实现H \“较旧的微分发电机。通过一致的鉴别者假设空间的定义，我们进一步表明，在我们的框架中，由发电机引起的分布与来自对手学习过程的分布之间的jensen-shannon发散，并且数据生成分布会聚到零。在足够严格的规律性假设下对数据产生过程密度的假设，我们还基于浓度和链接提供会聚率。

translated by 谷歌翻译

Neural Estimation of Statistical Divergences

Sreejith Sreekumar , Ziv Goldfeld

分类： (统计)机器学习

2021-10-07

量化概率分布之间的异化的统计分歧（SDS）是统计推理和机器学习的基本组成部分。用于估计这些分歧的现代方法依赖于通过神经网络（NN）进行参数化经验变化形式并优化参数空间。这种神经估算器在实践中大量使用，但相应的性能保证是部分的，并呼吁进一步探索。特别是，涉及的两个错误源之间存在基本的权衡：近似和经验估计。虽然前者需要NN课程富有富有表现力，但后者依赖于控制复杂性。我们通过非渐近误差界限基于浅NN的基于浅NN的估计的估算权，重点关注四个流行的$ \ mathsf {f} $ - 分离 - kullback-leibler，chi squared，squared hellinger，以及总变异。我们分析依赖于实证过程理论的非渐近功能近似定理和工具。界限揭示了NN尺寸和样品数量之间的张力，并使能够表征其缩放速率，以确保一致性。对于紧凑型支持的分布，我们进一步表明，上述上三次分歧的神经估算器以适当的NN生长速率接近Minimax率 - 最佳，实现了对数因子的参数速率。

translated by 谷歌翻译

Reversible Gromov-Monge Sampler for Simulation-Based Inference

YoonHaeng Hur , Wenxuan Guo , Tengyuan Liang

分类：机器学习 | (统计)机器学习

2021-09-28

本文介绍了一种新的基于仿真的推理程序，以对访问I.I.D. \ samples的多维概率分布进行建模和样本，从而规避明确建模密度函数或设计Markov Chain Monte Carlo的通常方法。我们提出了一个称为可逆的Gromov-monge（RGM）距离的新概念的距离和同构的动机，并研究了RGM如何用于设计新的转换样本，以执行基于模拟的推断。我们的RGM采样器还可以估计两个异质度量度量空间之间的最佳对齐$（\ cx，\ mu，c _ {\ cx}）$和$（\ cy，\ cy，\ nu，c _ {\ cy}）$从经验数据集中，估计的地图大约将一个量度$ \ mu $推向另一个$ \ nu $，反之亦然。我们研究了RGM距离的分析特性，并在轻度条件下得出RGM等于经典的Gromov-Wasserstein距离。奇怪的是，与Brenier的两极分解结合了连接，我们表明RGM采样器以$ C _ {\ cx} $和$ C _ {\ cy} $的正确选择诱导了强度同构的偏见。研究了有关诱导采样器的收敛，表示和优化问题的统计率。还展示了展示RGM采样器有效性的合成和现实示例。

translated by 谷歌翻译

Transport in reservoir computing

G Manjunath , Juan-Pablo Ortega

分类：神经与进化计算

2022-09-16

储层计算系统是使用驱动的动力系统构建的，在该系统中，外部输入可以改变系统的发展状态。这些范例用于信息处理，机器学习和计算。在此框架中需要解决的一个基本问题是输入与系统状态之间的统计关系。本文提供的条件可以保证驱动系统的渐近措施的存在和唯一性，并表明当输入和输出过程的集合赋予了Wasserstein距离时，它们对输入过程的依赖性是连续的。这些发展中的主要工具是将这些不变的度量表征为在这种情况下出现并在论文中进行了大量研究的自然定义的FOIA算子的固定点。这些固定点是通过在驱动系统中施加新引入的随机状态合同性来获得的，该系统在示例中很容易验证。可以通过非国家缩减的系统来满足随机状态的合同性，这通常是为了保证储层计算中的回声状态属性的需求。结果，即使不存在Echo State属性，也可能会得到满足。

translated by 谷歌翻译

Distribution Estimation of Contaminated Data via DNN-based MoM-GANs

Fang Xie , Lihu Xu , Qiuran Yao , Huiming Zhang

分类： (统计)机器学习 | 机器学习

2022-12-28

This paper studies the distribution estimation of contaminated data by the MoM-GAN method, which combines generative adversarial net (GAN) and median-of-mean (MoM) estimation. We use a deep neural network (DNN) with a ReLU activation function to model the generator and discriminator of the GAN. Theoretically, we derive a non-asymptotic error bound for the DNN-based MoM-GAN estimator measured by integral probability metrics with the $b$-smoothness H\"{o}lder class. The error bound decreases essentially as $n^{-b/p}\vee n^{-1/2}$, where $n$ and $p$ are the sample size and the dimension of input data. We give an algorithm for the MoM-GAN method and implement it through two real applications. The numerical results show that the MoM-GAN outperforms other competitive methods when dealing with contaminated data.

translated by 谷歌翻译

Instance-Dependent Generalization Bounds via Optimal Transport

Songyan Hou , Parnian Kassraie , Anastasis Kratsios , Jonas Rothfuss , Andreas Krause

分类： (统计)机器学习 | 机器学习

2022-11-02

Existing generalization bounds fail to explain crucial factors that drive generalization of modern neural networks. Since such bounds often hold uniformly over all parameters, they suffer from over-parametrization, and fail to account for the strong inductive bias of initialization and stochastic gradient descent. As an alternative, we propose a novel optimal transport interpretation of the generalization problem. This allows us to derive instance-dependent generalization bounds that depend on the local Lipschitz regularity of the earned prediction function in the data space. Therefore, our bounds are agnostic to the parametrization of the model and work well when the number of training samples is much smaller than the number of parameters. With small modifications, our approach yields accelerated rates for data on low-dimensional manifolds, and guarantees under distribution shifts. We empirically analyze our generalization bounds for neural networks, showing that the bound values are meaningful and capture the effect of popular regularization methods during training.

translated by 谷歌翻译

Uniform Convergence Rates for Lipschitz Learning on Graphs

Leon Bungert , Jeff Calder , Tim Roith

分类：机器学习

2021-11-24

Lipschitz Learning是一种基于图的半监督学习方法，其中一个人通过在加权图上求解Infinity Laplace方程来扩展标签到未标记的数据集的标签。在这项工作中，随着顶点的数量生长到无穷大，我们证明了图形无穷大行道方程的解决方案的统一收敛速率。它们的连续内容是绝对最小化LipsChitz扩展，即关于从图形顶点采样图形顶点的域的测地度量。我们在图表权重的非常一般的假设下工作，标记顶点的集合和连续域。我们的主要贡献是，即使对于非常稀疏的图形，我们也获得了定量的收敛速率，因为它们通常出现在半监督学习等应用中。特别是，我们的框架允许绘制到连接半径的图形带宽。为了证明，我们首先显示图表距离函数的定量收敛性声明，在连续体中的测量距离功能。使用“与距离函数的比较”原理，我们可以将这些收敛语句传递给无限谐波函数，绝对最小化Lipschitz扩展。

translated by 谷歌翻译

Optimal transport with $f$-divergence regularization and generalized Sinkhorn algorithm

Dávid Terjék , Diego González-Sánchez

分类：机器学习 | (统计)机器学习

2021-05-29

Entropic regularization provides a generalization of the original optimal transport problem. It introduces a penalty term defined by the Kullback-Leibler divergence, making the problem more tractable via the celebrated Sinkhorn algorithm. Replacing the Kullback-Leibler divergence with a general $f$-divergence leads to a natural generalization. The case of divergences defined by superlinear functions was recently studied by Di Marino and Gerolin. Using convex analysis, we extend the theory developed so far to include all $f$-divergences defined by functions of Legendre type, and prove that under some mild conditions, strong duality holds, optimums in both the primal and dual problems are attained, the generalization of the $c$-transform is well-defined, and we give sufficient conditions for the generalized Sinkhorn algorithm to converge to an optimal solution. We propose a practical algorithm for computing an approximate solution of the optimal transport problem with $f$-divergence regularization via the generalized Sinkhorn algorithm. Finally, we present experimental results on synthetic 2-dimensional data, demonstrating the effects of using different $f$-divergences for regularization, which influences convergence speed, numerical stability and sparsity of the optimal coupling.

translated by 谷歌翻译

The Voronoigram: Minimax Estimation of Bounded Variation Functions From Scattered Data

Addison J. Hu , Alden Green , Ryan J. Tibshirani

分类： (统计)机器学习 | 机器学习

2022-12-30

We consider the problem of estimating a multivariate function $f_0$ of bounded variation (BV), from noisy observations $y_i = f_0(x_i) + z_i$ made at random design points $x_i \in \mathbb{R}^d$, $i=1,\ldots,n$. We study an estimator that forms the Voronoi diagram of the design points, and then solves an optimization problem that regularizes according to a certain discrete notion of total variation (TV): the sum of weighted absolute differences of parameters $\theta_i,\theta_j$ (which estimate the function values $f_0(x_i),f_0(x_j)$) at all neighboring cells $i,j$ in the Voronoi diagram. This is seen to be equivalent to a variational optimization problem that regularizes according to the usual continuum (measure-theoretic) notion of TV, once we restrict the domain to functions that are piecewise constant over the Voronoi diagram. The regression estimator under consideration hence performs (shrunken) local averaging over adaptively formed unions of Voronoi cells, and we refer to it as the Voronoigram, following the ideas in Koenker (2005), and drawing inspiration from Tukey's regressogram (Tukey, 1961). Our contributions in this paper span both the conceptual and theoretical frontiers: we discuss some of the unique properties of the Voronoigram in comparison to TV-regularized estimators that use other graph-based discretizations; we derive the asymptotic limit of the Voronoi TV functional; and we prove that the Voronoigram is minimax rate optimal (up to log factors) for estimating BV functions that are essentially bounded.

translated by 谷歌翻译