切片 - Wasserstein距离(SW)越来越多地用于机器学习应用,作为Wassersein距离的替代方案,并提供了显着的计算和统计效益。由于它被定义为随机投影的期望,因此SW通常由Monte Carlo近似。我们通过利用测量现象的浓度来采用新的视角来近似SW:在温和的假设下,高维随机向量的一维突起大致高斯。基于此观察,我们为SW开发了一个简单的确定性近似。我们的方法不需要采样许多随机投影,因此与通常的Monte Carlo近似相比,准确且易于使用。我们派生了我们的方法的非对应保证,并且显示近似误差随着数据分布的弱依赖条件下的弱依赖条件而变为零。我们验证了对合成数据集的理论发现,并说明了在生成建模问题上提出的近似。
translated by 谷歌翻译
在包括生成建模的各种机器学习应用中的两个概率措施中,已经证明了切片分歧的想法是成功的,并且包括计算两种测量的一维随机投影之间的“基地分歧”的预期值。然而,这种技术的拓扑,统计和计算后果尚未完整地确定。在本文中,我们的目标是弥合这种差距并导出切片概率分歧的各种理论特性。首先,我们表明切片保留了公制公理和分歧的弱连续性,这意味着切片分歧将共享相似的拓扑性质。然后,我们在基本发散属于积分概率度量类别的情况下精确结果。另一方面,我们在轻度条件下建立了切片分歧的样本复杂性并不依赖于问题尺寸。我们终于将一般结果应用于几个基地分歧,并说明了我们对合成和实际数据实验的理论。
translated by 谷歌翻译
传统的切成薄片的瓦斯汀定义在两个具有矢量的概率度量之间。当比较图像的两个概率度量时,从业人员首先需要使用样品矩阵和投影矩阵之间的矩阵乘法来矢量化图像,然后将它们投影到一维空间。之后,通过平均两种相应的一维投影概率度量来评估切片的瓦斯汀。但是,这种方法有两个局限性。第一个限制是,图像的空间结构不会通过矢量化步骤有效地捕获。因此,后来的切片过程变得越来越难以收集差异信息。第二个限制是内存效率低下,因为每个切片方向是具有与图像相同的尺寸的向量。为了解决这些局限性,我们提出了针对基于卷积算子的图像的概率度量,用于切成薄片的新型切片方法。我们通过将步幅,扩张和非线性激活函数纳入卷积算子来得出卷积切成薄片的Wasserstein(CSW)及其变体。我们研究了CSW的指标及其样品复杂性,其计算复杂性以及与常规切片的Wasserstein距离的联系。最后,我们证明了CSW在比较图像和训练图像上的深层生成模型中的概率度量方面的良好性能比传统切成薄片的Wasserstein相比。
translated by 谷歌翻译
切成薄片的距离(SW)是一种计算有效的,理论上是Wasserstein距离的替代方案。然而,关于切片的分布,其统计特性(超出统一度量)的文献很少。为了为这一研究带来新的贡献,我们利用了Pac-bayesian理论和SW实际取决于切片分布依赖的Gibbs风险的中心观察,而Pac-Bayesian的数量范围已经设计为表征。我们提供四种类型的结果:i)在我们称为自适应切片的距离距离的豆豆泛化范围,即针对任何切片的分布定义的距离,ii)学习切片分布的过程最大歧视性的SW,通过优化我们的Pac-bayesian边界,iii)关于如何通过我们的理论来解释所谓的分布分布切片的距离,以及我们发现的经验例证。
translated by 谷歌翻译
切成薄片的Wasserstein(SW)距离已在不同的应用程序场景中广泛使用,因为它可以缩放到大量的支撑量,而不会受到维数的诅咒。切成薄片的瓦斯坦距离的值是通过radon变换(RT)获得的原始度量的一维表示(投影)之间运输成本的平均值。尽管估计切成薄片的瓦斯坦族的支持效率,但仍需要在高维环境中进行相对较大的预测。因此,对于与维度相比,支撑次数相对较少的应用,例如,使用微型批量方法的几个深度学习应用,radon transform的矩阵乘法中的复杂性成为主要计算瓶颈。为了解决这个问题,我们建议通过线性和随机组合少量的预测来得出预测,这些预测被称为瓶颈预测。我们通过引入层次ra transform(HRT)来解释这些投影的用法,该层rad rad transform(HRT)是通过递归应用radon变换变体构建的。然后,我们将方法制定为措施之间的新指标,该指标命名为分层切片瓦斯坦(HSW)距离。通过证明HRT的注入性,我们得出了HSW的指标。此外,我们研究了HSW的理论特性,包括其与SW变体的联系及其计算和样品复杂性。最后,我们将HSW的计算成本和生成质量与常规SW进行比较,使用包括CIFAR10,Celeba和Tiny Imagenet在内的各种基准数据集进行深层生成建模的任务。
translated by 谷歌翻译
分发比较在许多机器学习任务中起着核心作用,例如数据分类和生成建模。在这项研究中,我们提出了一种称为希尔伯特曲线投影(HCP)距离的新型度量,以测量具有高鲁棒性和低复杂性的两个概率分布之间的距离。特别是,我们首先使用希尔伯特曲线投射两个高维概率密度,以获得它们之间的耦合,然后根据耦合在原始空间中这两个密度之间的传输距离进行计算。我们表明,HCP距离是一个适当的度量标准,对于绝对连续的概率度量,定义明确。此外,我们证明,经验HCP距离在规律性条件下以不超过$ O(n^{ - 1/2d})$的速度收敛到其人口。为了抑制差异性的诅咒,我们还使用(可学习的)子空间投影开发了HCP距离的两个变体。合成数据和现实世界数据的实验表明,我们的HCP距离是瓦斯汀距离的有效替代,其复杂性低并克服了切成薄片的瓦斯坦距离的缺点。
translated by 谷歌翻译
概率分布之间的差异措施,通常被称为统计距离,在概率理论,统计和机器学习中普遍存在。为了在估计这些距离的距离时,对维度的诅咒,最近的工作已经提出了通过带有高斯内核的卷积在测量的分布中平滑局部不规则性。通过该框架的可扩展性至高维度,我们研究了高斯平滑$ P $ -wassersein距离$ \ mathsf {w} _p ^ {(\ sigma)} $的结构和统计行为,用于任意$ p \ GEQ 1 $。在建立$ \ mathsf {w} _p ^ {(\ sigma)} $的基本度量和拓扑属性之后,我们探索$ \ mathsf {w} _p ^ {(\ sigma)}(\ hat {\ mu} _n,\ mu)$,其中$ \ hat {\ mu} _n $是$ n $独立观察的实证分布$ \ mu $。我们证明$ \ mathsf {w} _p ^ {(\ sigma)} $享受$ n ^ { - 1/2} $的参数经验融合速率,这对比$ n ^ { - 1 / d} $率对于未平滑的$ \ mathsf {w} _p $ why $ d \ geq 3 $。我们的证明依赖于控制$ \ mathsf {w} _p ^ {(\ sigma)} $ by $ p $ th-sting spoollow sobolev restion $ \ mathsf {d} _p ^ {(\ sigma)} $并导出限制$ \ sqrt {n} \,\ mathsf {d} _p ^ {(\ sigma)}(\ hat {\ mu} _n,\ mu)$,适用于所有尺寸$ d $。作为应用程序,我们提供了使用$ \ mathsf {w} _p ^ {(\ sigma)} $的两个样本测试和最小距离估计的渐近保证,使用$ p = 2 $的实验使用$ \ mathsf {d} _2 ^ {(\ sigma)} $。
translated by 谷歌翻译
Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.
translated by 谷歌翻译
寻求信息丰富的投影方向是利用切片的瓦斯坦距离在应用中的重要任务。但是,找到这些方向通常需要在投影方向的空间上进行迭代优化程序,这在计算上很昂贵。此外,在深度学习应用中,计算问题甚至更为严重,其中重复了两次小批次概率度量之间的距离。这个嵌套的环路一直是阻止基于良好预测在实践中的良好预测的切片瓦斯汀距离的主要挑战之一。为了应对这一挑战,我们建议利用学习到优化的技术或摊销优化,以预测任何给定的两种微型批次概率措施的信息方向。据我们所知,这是桥梁摊销优化和切成薄片的生成模型的第一部作品。特别是,我们得出了线性摊销模型,广义线性摊销模型和非线性摊销模型,这些模型对应于三种类型的新型迷你批次损失,称为摊销的切片瓦斯坦。我们证明了在标准基准数据集中深层生成模型中提出的切片损失的良好性能。
translated by 谷歌翻译
我们研究了有限空间中值的静止随机过程的最佳运输。为了反映潜在流程的实向性,我们限制了对固定联轴器的关注,也称为联系。由此产生的最佳连接问题捕获感兴趣过程的长期平均行为的差异。我们介绍了最优联接的估算和最佳的加入成本,我们建立了温和条件下估算器的一致性。此外,在更强的混合假设下,我们为估计的最佳连接成本建立有限样本误差速率,其延伸了IID案件中的最佳已知结果。最后,我们将一致性和速率分析扩展到最佳加入问题的熵惩罚版本。
translated by 谷歌翻译
在概率密度范围内相对于Wassersein度量的空间的梯度流程通常具有很好的特性,并且已在几种机器学习应用中使用。计算Wasserstein梯度流量的标准方法是有限差异,使网格上的基础空间离散,并且不可扩展。在这项工作中,我们提出了一种可扩展的近端梯度型算法,用于Wassersein梯度流。我们的方法的关键是目标函数的变分形式,这使得可以通过引流 - 双重优化实现JKO近端地图。可以通过替代地更新内部和外环中的参数来有效地解决该原始问题。我们的框架涵盖了包括热方程和多孔介质方程的所有经典Wasserstein梯度流。我们展示了若干数值示例的算法的性能和可扩展性。
translated by 谷歌翻译
Empirical risk minimization (ERM) and distributionally robust optimization (DRO) are popular approaches for solving stochastic optimization problems that appear in operations management and machine learning. Existing generalization error bounds for these methods depend on either the complexity of the cost function or dimension of the uncertain parameters; consequently, the performance of these methods is poor for high-dimensional problems with objective functions under high complexity. We propose a simple approach in which the distribution of uncertain parameters is approximated using a parametric family of distributions. This mitigates both sources of complexity; however, it introduces a model misspecification error. We show that this new source of error can be controlled by suitable DRO formulations. Our proposed parametric DRO approach has significantly improved generalization bounds over existing ERM / DRO methods and parametric ERM for a wide variety of settings. Our method is particularly effective under distribution shifts. We also illustrate the superior performance of our approach on both synthetic and real-data portfolio optimization and regression tasks.
translated by 谷歌翻译
在本文中,我们在使用离散的Langevin扩散的三个方案中从目标密度采样的误差提供非渐近上限。第一个方案是Langevin Monte Carlo(LMC)算法,歌曲的欧拉分散化的歌曲扩散。第二个和第三种方案分别是用于可微分电位和动力学Langevin Monte Carlo的动力学Langevin Monte Carlo(KLMC),用于两次可分视电位(KLMC2)。主要焦点是在$ \ mathbb r ^ p $的目标密度上,但不一定强烈地抖动。在两种类型的平滑假设下获得计算复杂度的界限:电位具有嘴唇连续梯度,并且电位具有嘴角连续的Hessian基质。采样误差由Wassersein-$ Q $距离测量。我们倡导在计算复杂性定义中使用新的维度适应缩放,当考虑Wasserstein-$ Q $距离时。所获得的结果表明,实现小于规定值的缩放误差的迭代次数仅取决于多项尺寸。
translated by 谷歌翻译
切成薄片的相互信息(SMI)定义为在随机变量的一维随机投影之间的平均值(MI)项。它是对经典MI依赖的替代度量,该量子保留了许多特性,但更可扩展到高维度。但是,对SMI本身和其估计率的定量表征取决于环境维度,这对于理解可伸缩性至关重要,仍然晦涩难懂。这项工作将原始的SMI定义扩展到$ K $ -SMI,该定义将预测视为$ k $维二维子空间,并提供了有关其依赖性尺寸的多方面帐户。在2-Wasserstein指标中使用差分熵连续性的新结果,我们对Monte Carlo(MC)基于$ K $ -SMI的估计的错误得出了尖锐的界限,并明确依赖于$ K $和环境维度,揭示了他们与样品数量的相互作用。然后,我们将MC Integrator与神经估计框架相结合,以提供端到端$ K $ -SMI估算器,为此建立了最佳的收敛率。随着尺寸的增长,我们还探索了人口$ k $ -smi的渐近学,从而为高斯近似结果提供了在适当的力矩范围下衰减的残差。我们的理论通过数值实验验证,并适用于切片Infogan,该切片完全提供了$ k $ -smi的可伸缩性问题的全面定量说明,包括SMI作为特殊情况,当$ k = 1 $。
translated by 谷歌翻译
对复杂模型执行精确的贝叶斯推理是计算的难治性的。马尔可夫链蒙特卡罗(MCMC)算法可以提供后部分布的可靠近似,但对于大型数据集和高维模型昂贵。减轻这种复杂性的标准方法包括使用子采样技术或在群集中分发数据。然而,这些方法通常在高维方案中不可靠。我们在此处专注于最近的替代类别的MCMC方案,利用类似于乘客(ADMM)优化算法的庆祝交替方向使用的分裂策略。这些方法似乎提供了凭经验最先进的性能,但其高维层的理论行为目前未知。在本文中,我们提出了一个详细的理论研究,该算法之一称为分裂Gibbs采样器。在规律条件下,我们使用RICCI曲率和耦合思路为此方案建立了明确的收敛速率。我们以数字插图支持我们的理论。
translated by 谷歌翻译
Wasserstein barycenter, built on the theory of optimal transport, provides a powerful framework to aggregate probability distributions, and it has increasingly attracted great attention within the machine learning community. However, it suffers from severe computational burden, especially for high dimensional and continuous settings. To this end, we develop a novel continuous approximation method for the Wasserstein barycenters problem given sample access to the input distributions. The basic idea is to introduce a variational distribution as the approximation of the true continuous barycenter, so as to frame the barycenters computation problem as an optimization problem, where parameters of the variational distribution adjust the proxy distribution to be similar to the barycenter. Leveraging the variational distribution, we construct a tractable dual formulation for the regularized Wasserstein barycenter problem with c-cyclical monotonicity, which can be efficiently solved by stochastic optimization. We provide theoretical analysis on convergence and demonstrate the practical effectiveness of our method on real applications of subset posterior aggregation and synthetic data.
translated by 谷歌翻译
我们考虑使用随机球形代码的高维信号$ x $的有损压缩表示之间的分布连接,并在添加白色高斯噪声(AWGN)下的$ X $观察$ x $。我们展示了比特率 - $ R $压缩版的Wassersein距离$ x $及其在AWGN-噪声比率下的AWGN噪声比率下的观察2 ^ {2R} -1 $ 2 ^ {2r} -1 $中的下线性。我们利用此事实基于AWGN损坏的$ x $的AWGN损坏版本的估算者的风险连接到与其比特率 - $ r $量化版本相同的估算器所获得的风险。我们通过在压缩约束下导出推导问题的各种新结果来展示这种联系的有用性,包括Minimax估计,稀疏回归,压缩感和远程源编码中的线性估计的普遍性。
translated by 谷歌翻译
我们介绍了一类小说的预计方法,对实际线上的概率分布数据集进行统计分析,具有2-Wassersein指标。我们特别关注主成分分析(PCA)和回归。为了定义这些模型,我们通过将数据映射到合适的线性空间并使用度量投影运算符来限制Wassersein空间中的结果来利用与其弱利米结构密切相关的Wasserstein空间的表示。通过仔细选择切线,我们能够推出快速的经验方法,利用受约束的B样条近似。作为我们方法的副产品,我们还能够为PCA的PCA进行更快的例程来获得分布。通过仿真研究,我们将我们的方法与先前提出的方法进行比较,表明我们预计的PCA具有类似的性能,即使在拼盘下也是极其灵活的。研究了模型的若干理论性质,并证明了渐近一致性。讨论了两个真实世界应用于美国和风速预测的Covid-19死亡率。
translated by 谷歌翻译
We study distributionally robust optimization (DRO) with Sinkhorn distance -- a variant of Wasserstein distance based on entropic regularization. We provide convex programming dual reformulation for a general nominal distribution. Compared with Wasserstein DRO, it is computationally tractable for a larger class of loss functions, and its worst-case distribution is more reasonable. We propose an efficient first-order algorithm with bisection search to solve the dual reformulation. We demonstrate that our proposed algorithm finds $\delta$-optimal solution of the new DRO formulation with computation cost $\tilde{O}(\delta^{-3})$ and memory cost $\tilde{O}(\delta^{-2})$, and the computation cost further improves to $\tilde{O}(\delta^{-2})$ when the loss function is smooth. Finally, we provide various numerical examples using both synthetic and real data to demonstrate its competitive performance and light computational speed.
translated by 谷歌翻译
引入了Wasserstein距离的许多变体,以减轻其原始计算负担。尤其是切成薄片的距离(SW),该距离(SW)利用了一维投影,可以使用封闭式的瓦斯汀距离解决方案。然而,它仅限于生活在欧几里得空间中的数据,而Wasserstein距离已被研究和最近在歧管上使用。我们更具体地专门地关注球体,为此定义了新颖的SW差异,我们称之为球形切片 - 拖鞋,这是朝着定义SW差异的第一步。我们的构造明显基于圆圈上瓦斯汀距离的封闭式解决方案,以及新的球形ra径。除了有效的算法和相应的实现外,我们在几个机器学习用例中说明了它的属性,这些用例中,数据的球形表示受到威胁:在球体上的密度估计,变异推理或超球体自动编码器。
translated by 谷歌翻译