传统的切成薄片的瓦斯汀定义在两个具有矢量的概率度量之间。当比较图像的两个概率度量时,从业人员首先需要使用样品矩阵和投影矩阵之间的矩阵乘法来矢量化图像,然后将它们投影到一维空间。之后,通过平均两种相应的一维投影概率度量来评估切片的瓦斯汀。但是,这种方法有两个局限性。第一个限制是,图像的空间结构不会通过矢量化步骤有效地捕获。因此,后来的切片过程变得越来越难以收集差异信息。第二个限制是内存效率低下,因为每个切片方向是具有与图像相同的尺寸的向量。为了解决这些局限性,我们提出了针对基于卷积算子的图像的概率度量,用于切成薄片的新型切片方法。我们通过将步幅,扩张和非线性激活函数纳入卷积算子来得出卷积切成薄片的Wasserstein(CSW)及其变体。我们研究了CSW的指标及其样品复杂性,其计算复杂性以及与常规切片的Wasserstein距离的联系。最后,我们证明了CSW在比较图像和训练图像上的深层生成模型中的概率度量方面的良好性能比传统切成薄片的Wasserstein相比。
translated by 谷歌翻译
寻求信息丰富的投影方向是利用切片的瓦斯坦距离在应用中的重要任务。但是,找到这些方向通常需要在投影方向的空间上进行迭代优化程序,这在计算上很昂贵。此外,在深度学习应用中,计算问题甚至更为严重,其中重复了两次小批次概率度量之间的距离。这个嵌套的环路一直是阻止基于良好预测在实践中的良好预测的切片瓦斯汀距离的主要挑战之一。为了应对这一挑战,我们建议利用学习到优化的技术或摊销优化,以预测任何给定的两种微型批次概率措施的信息方向。据我们所知,这是桥梁摊销优化和切成薄片的生成模型的第一部作品。特别是,我们得出了线性摊销模型,广义线性摊销模型和非线性摊销模型,这些模型对应于三种类型的新型迷你批次损失,称为摊销的切片瓦斯坦。我们证明了在标准基准数据集中深层生成模型中提出的切片损失的良好性能。
translated by 谷歌翻译
切成薄片的Wasserstein(SW)距离已在不同的应用程序场景中广泛使用,因为它可以缩放到大量的支撑量,而不会受到维数的诅咒。切成薄片的瓦斯坦距离的值是通过radon变换(RT)获得的原始度量的一维表示(投影)之间运输成本的平均值。尽管估计切成薄片的瓦斯坦族的支持效率,但仍需要在高维环境中进行相对较大的预测。因此,对于与维度相比,支撑次数相对较少的应用,例如,使用微型批量方法的几个深度学习应用,radon transform的矩阵乘法中的复杂性成为主要计算瓶颈。为了解决这个问题,我们建议通过线性和随机组合少量的预测来得出预测,这些预测被称为瓶颈预测。我们通过引入层次ra transform(HRT)来解释这些投影的用法,该层rad rad transform(HRT)是通过递归应用radon变换变体构建的。然后,我们将方法制定为措施之间的新指标,该指标命名为分层切片瓦斯坦(HSW)距离。通过证明HRT的注入性,我们得出了HSW的指标。此外,我们研究了HSW的理论特性,包括其与SW变体的联系及其计算和样品复杂性。最后,我们将HSW的计算成本和生成质量与常规SW进行比较,使用包括CIFAR10,Celeba和Tiny Imagenet在内的各种基准数据集进行深层生成建模的任务。
translated by 谷歌翻译
切片 - Wasserstein距离(SW)越来越多地用于机器学习应用,作为Wassersein距离的替代方案,并提供了显着的计算和统计效益。由于它被定义为随机投影的期望,因此SW通常由Monte Carlo近似。我们通过利用测量现象的浓度来采用新的视角来近似SW:在温和的假设下,高维随机向量的一维突起大致高斯。基于此观察,我们为SW开发了一个简单的确定性近似。我们的方法不需要采样许多随机投影,因此与通常的Monte Carlo近似相比,准确且易于使用。我们派生了我们的方法的非对应保证,并且显示近似误差随着数据分布的弱依赖条件下的弱依赖条件而变为零。我们验证了对合成数据集的理论发现,并说明了在生成建模问题上提出的近似。
translated by 谷歌翻译
分发比较在许多机器学习任务中起着核心作用,例如数据分类和生成建模。在这项研究中,我们提出了一种称为希尔伯特曲线投影(HCP)距离的新型度量,以测量具有高鲁棒性和低复杂性的两个概率分布之间的距离。特别是,我们首先使用希尔伯特曲线投射两个高维概率密度,以获得它们之间的耦合,然后根据耦合在原始空间中这两个密度之间的传输距离进行计算。我们表明,HCP距离是一个适当的度量标准,对于绝对连续的概率度量,定义明确。此外,我们证明,经验HCP距离在规律性条件下以不超过$ O(n^{ - 1/2d})$的速度收敛到其人口。为了抑制差异性的诅咒,我们还使用(可学习的)子空间投影开发了HCP距离的两个变体。合成数据和现实世界数据的实验表明,我们的HCP距离是瓦斯汀距离的有效替代,其复杂性低并克服了切成薄片的瓦斯坦距离的缺点。
translated by 谷歌翻译
引入了Wasserstein距离的许多变体,以减轻其原始计算负担。尤其是切成薄片的距离(SW),该距离(SW)利用了一维投影,可以使用封闭式的瓦斯汀距离解决方案。然而,它仅限于生活在欧几里得空间中的数据,而Wasserstein距离已被研究和最近在歧管上使用。我们更具体地专门地关注球体,为此定义了新颖的SW差异,我们称之为球形切片 - 拖鞋,这是朝着定义SW差异的第一步。我们的构造明显基于圆圈上瓦斯汀距离的封闭式解决方案,以及新的球形ra径。除了有效的算法和相应的实现外,我们在几个机器学习用例中说明了它的属性,这些用例中,数据的球形表示受到威胁:在球体上的密度估计,变异推理或超球体自动编码器。
translated by 谷歌翻译
切成薄片的距离(SW)是一种计算有效的,理论上是Wasserstein距离的替代方案。然而,关于切片的分布,其统计特性(超出统一度量)的文献很少。为了为这一研究带来新的贡献,我们利用了Pac-bayesian理论和SW实际取决于切片分布依赖的Gibbs风险的中心观察,而Pac-Bayesian的数量范围已经设计为表征。我们提供四种类型的结果:i)在我们称为自适应切片的距离距离的豆豆泛化范围,即针对任何切片的分布定义的距离,ii)学习切片分布的过程最大歧视性的SW,通过优化我们的Pac-bayesian边界,iii)关于如何通过我们的理论来解释所谓的分布分布切片的距离,以及我们发现的经验例证。
translated by 谷歌翻译
在包括生成建模的各种机器学习应用中的两个概率措施中,已经证明了切片分歧的想法是成功的,并且包括计算两种测量的一维随机投影之间的“基地分歧”的预期值。然而,这种技术的拓扑,统计和计算后果尚未完整地确定。在本文中,我们的目标是弥合这种差距并导出切片概率分歧的各种理论特性。首先,我们表明切片保留了公制公理和分歧的弱连续性,这意味着切片分歧将共享相似的拓扑性质。然后,我们在基本发散属于积分概率度量类别的情况下精确结果。另一方面,我们在轻度条件下建立了切片分歧的样本复杂性并不依赖于问题尺寸。我们终于将一般结果应用于几个基地分歧,并说明了我们对合成和实际数据实验的理论。
translated by 谷歌翻译
在共享潜在空间中对齐两个或更多个分布的无监督任务具有许多应用,包括公平表示,批量效果缓解和无监督域适应。现有的基于流动的方法独立估计多个流动,这相当于学习多个完整的生成模型。其他方法需要对抗性学习,这可以是可以计算地昂贵和挑战的优化。因此,我们的目标是在避免对抗性学习的同时联合对齐多个分布。通过从最佳运输(OT)理论的高效对准算法的启发,我们开发了一种简单的迭代方法来构建深层和富有效力的流动。我们的方法将每次迭代分成两个子问题:1)形成分配分配的变化近似,并且2)通过基于已知的OT结果的闭合形式可逆对准映射最小化该变分近似。我们的经验结果证明了这种迭代算法以低计算成本实现了竞争分布对准,同时能够自然地处理两个以上的分布。
translated by 谷歌翻译
在概率密度范围内相对于Wassersein度量的空间的梯度流程通常具有很好的特性,并且已在几种机器学习应用中使用。计算Wasserstein梯度流量的标准方法是有限差异,使网格上的基础空间离散,并且不可扩展。在这项工作中,我们提出了一种可扩展的近端梯度型算法,用于Wassersein梯度流。我们的方法的关键是目标函数的变分形式,这使得可以通过引流 - 双重优化实现JKO近端地图。可以通过替代地更新内部和外环中的参数来有效地解决该原始问题。我们的框架涵盖了包括热方程和多孔介质方程的所有经典Wasserstein梯度流。我们展示了若干数值示例的算法的性能和可扩展性。
translated by 谷歌翻译
本文通过采取完全几何学的角度引入了对变异自动编码器框架的新解释。我们认为,香草vae自然而然地揭示了其潜在空间中的riemannian结构,并且考虑到这些几何方面可以导致更好的插值和改进的生成程序。这种新提出的采样方法包括从统一分布中的采样组成,该分布本质地从学到的利曼式潜在空间中得出,我们表明,使用此方案可以使香草VAE竞争性且比几个基准数据集中更先进的版本更好。由于已知生成模型对训练样品的数量很敏感,因此我们还强调了该方法在低数据状态下的鲁棒性。
translated by 谷歌翻译
比较概率分布是许多机器学习算法的关键。最大平均差异(MMD)和最佳运输距离(OT)是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件,可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习(CSL)理论的推动,资源有效的大规模学习的一般框架,其中训练数据总结在单个向量(称为草图)中,该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发,我们介绍了H \“较旧的较低限制的等距属性(H \”较旧的LRIP)并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系,我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证,即概率分布之间的某些特定于特定的特定度量,可以由Wassersein界定距离。
translated by 谷歌翻译
本文介绍了一种新的基于仿真的推理程序,以对访问I.I.D. \ samples的多维概率分布进行建模和样本,从而规避明确建模密度函数或设计Markov Chain Monte Carlo的通常方法。我们提出了一个称为可逆的Gromov-monge(RGM)距离的新概念的距离和同构的动机,并研究了RGM如何用于设计新的转换样本,以执行基于模拟的推断。我们的RGM采样器还可以估计两个异质度量度量空间之间的最佳对齐$(\ cx,\ mu,c _ {\ cx})$和$(\ cy,\ cy,\ nu,c _ {\ cy})$从经验数据集中,估计的地图大约将一个量度$ \ mu $推向另一个$ \ nu $,反之亦然。我们研究了RGM距离的分析特性,并在轻度条件下得出RGM等于经典的Gromov-Wasserstein距离。奇怪的是,与Brenier的两极分解结合了连接,我们表明RGM采样器以$ C _ {\ cx} $和$ C _ {\ cy} $的正确选择诱导了强度同构的偏见。研究了有关诱导采样器的收敛,表示和优化问题的统计率。还展示了展示RGM采样器有效性的合成和现实示例。
translated by 谷歌翻译
通过从最佳运输理论的思想启发,我们呈现了信任评论家(TTC),一种新的生成型材算法。该算法消除了来自Wassersein GaN的可培训发电机;相反,它迭代地使用培训批评网络序列的梯度下降来修改源数据。这部分是由我们在评论者的梯度提供的最佳运输方向之间观察到的未对准,以及在由可训练发电机参数化的数据点实际移动的方向之间的最佳运输方向之间观察到的未对准。以前的工作已经从不同的观点到达类似的想法,但我们在最佳运输理论中的基础是激励自适应步长的选择,与恒定步长相比大大加速了会聚。使用此步骤规则,我们在具有密度的源分布的情况下证明了初始几何收敛速率。这些融合率仅停止仅在非可忽略的生成数据与真实数据中无法区分时申请。解决未对准问题提高了性能,我们在实验中表明,显示给出了定期的训练时期,TTC产生更高的质量图像,尽管在增加的内存要求上。此外,TTC提供了转化密度的迭代公式,传统的WGAN没有。最后,可以应用TTC将任何源分布映射到任何目标上;我们通过实验证明TTC可以在没有专用算法的图像生成,翻译和去噪中获得竞争性能。
translated by 谷歌翻译
Learning high-dimensional distributions is often done with explicit likelihood modeling or implicit modeling via minimizing integral probability metrics (IPMs). In this paper, we expand this learning paradigm to stochastic orders, namely, the convex or Choquet order between probability measures. Towards this end, exploiting the relation between convex orders and optimal transport, we introduce the Choquet-Toland distance between probability measures, that can be used as a drop-in replacement for IPMs. We also introduce the Variational Dominance Criterion (VDC) to learn probability measures with dominance constraints, that encode the desired stochastic order between the learned measure and a known baseline. We analyze both quantities and show that they suffer from the curse of dimensionality and propose surrogates via input convex maxout networks (ICMNs), that enjoy parametric rates. We provide a min-max framework for learning with stochastic orders and validate it experimentally on synthetic and high-dimensional image generation, with promising results. Finally, our ICMNs class of convex functions and its derived Rademacher Complexity are of independent interest beyond their application in convex orders.
translated by 谷歌翻译
多边缘最佳运输使人们能够比较多种概率措施,这些措施越来越多地发现在多任务学习问题中的应用。多边缘运输的一个实际限制是测量,样品和维度数量的计算可扩展性。在这项工作中,我们提出了一种基于随机一维投影的多边缘最佳运输范例,其(广义)距离我们术语切片的多边缘Wasserstein距离。为了构建该距离,我们介绍了一维多边缘Kantorovich问题的表征,并使用它来突出切片的多边缘Wasserstein距离的许多属性。特别是,我们表明(i)切片的多边缘Wasserstein距离是一种(概括的)指标,其诱导与标准的Wasserstein距离相同的拓扑,(ii)它承认无维样本复杂度,(iii)是与切片沃斯斯坦度量标准下的双重Centric的问题紧密连接。我们通过说明切片的多边缘Wasserstein对多任务密度估计和多动力增强学习问题的结论。
translated by 谷歌翻译
我们介绍了用于生成建模的广义能量模型(GEBM)。这些模型组合了两个训练有素的组件:基本分布(通常是隐式模型),可以在高维空间中学习具有低固有尺寸的数据的支持;和能量功能,优化学习支持的概率质量。能量函数和基座都共同构成了最终模型,与GANS不同,它仅保留基本分布(“发电机”)。通过在学习能量和基础之间交替进行培训GEBMS。我们表明,两种培训阶段都明确定义:通过最大化广义可能性来学习能量,并且由此产生的能源的损失提供了学习基础的信息梯度。可以通过MCMC获得来自训练模型的潜在空间的后部的样品,从而在该空间中找到产生更好的质量样本的区域。经验上,图像生成任务上的GEBM样本比来自学习发电机的图像更好,表明所有其他相同,GEBM将优于同样复杂性的GAN。当使用归一化流作为基础测量时,GEBMS成功地启动密度建模任务,返回相当的性能以直接相同网络的最大可能性。
translated by 谷歌翻译
We investigate the training and performance of generative adversarial networks using the Maximum Mean Discrepancy (MMD) as critic, termed MMD GANs. As our main theoretical contribution, we clarify the situation with bias in GAN loss functions raised by recent work: we show that gradient estimators used in the optimization process for both MMD GANs and Wasserstein GANs are unbiased, but learning a discriminator based on samples leads to biased gradients for the generator parameters. We also discuss the issue of kernel choice for the MMD critic, and characterize the kernel corresponding to the energy distance used for the Cramér GAN critic. Being an integral probability metric, the MMD benefits from training strategies recently developed for Wasserstein GANs. In experiments, the MMD GAN is able to employ a smaller critic network than the Wasserstein GAN, resulting in a simpler and faster-training algorithm with matching performance. We also propose an improved measure of GAN convergence, the Kernel Inception Distance, and show how to use it to dynamically adapt learning rates during GAN training.
translated by 谷歌翻译
我们考虑人口Wasserstein Barycenter问题,用于随机概率措施支持有限一组点,由在线数据流生成。这导致了复杂的随机优化问题,其中目标是作为作为随机优化问题的解决方案给出的函数的期望。我们采用了问题的结构,并获得了这个问题的凸凹陷的随机鞍点重构。在设置随机概率措施的分布是离散的情况下,我们提出了一种随机优化算法并估计其复杂性。基于内核方法的第二个结果将前一个延伸到随机概率措施的任意分布。此外,这种新算法在许多情况下,与随机近似方法相结合的随机近似方法,具有优于随机近似方法的总复杂性。我们还通过一系列数值实验说明了我们的发展。
translated by 谷歌翻译
Projection robust Wasserstein (PRW) distance, or Wasserstein projection pursuit (WPP), is a robust variant of the Wasserstein distance. Recent work suggests that this quantity is more robust than the standard Wasserstein distance, in particular when comparing probability measures in high-dimensions. However, it is ruled out for practical application because the optimization model is essentially non-convex and non-smooth which makes the computation intractable. Our contribution in this paper is to revisit the original motivation behind WPP/PRW, but take the hard route of showing that, despite its non-convexity and lack of nonsmoothness, and even despite some hardness results proved by~\citet{Niles-2019-Estimation} in a minimax sense, the original formulation for PRW/WPP \textit{can} be efficiently computed in practice using Riemannian optimization, yielding in relevant cases better behavior than its convex relaxation. More specifically, we provide three simple algorithms with solid theoretical guarantee on their complexity bound (one in the appendix), and demonstrate their effectiveness and efficiency by conducing extensive experiments on synthetic and real data. This paper provides a first step into a computational theory of the PRW distance and provides the links between optimal transport and Riemannian optimization.
translated by 谷歌翻译