计算分布之间的最佳传输(OT)耦合在机器学习中起着越来越重要的作用。虽然可以将OT问题求解为线性程序,但添加熵平滑项会导致求解器对离群值更快,更强大,可区分且易于并行化。 Sinkhorn固定点算法是这些方法的基石,结果,已经进行了多次尝试以缩短其运行时,例如退火,动量或加速度。本文的前提是,\ textit {initialization}的sindhorn算法受到了相对较少的关注,可能是由于两个先入为主的:由于正规化的ot问题是凸的,因此可能不值得制定量身定制的初始化,因为\ textit {\ textit { }保证工作;其次,由于sindhorn算法在端到端管道中通常是区分的,因此数据依赖性初始化可能会通过展开迭代而获得的偏差梯度估计。我们挑战了这种传统的观点,并表明精心选择的初始化可能会导致巨大的加速,并且不会偏向梯度,这些梯度是通过隐式分化计算的。我们详细介绍如何使用1D或高斯设置中的已知结果从封闭形式或近似OT解决方案中恢复初始化。我们从经验上表明,这些初始化可以在现成的情况下使用,几乎没有调整,并且导致各种OT问题的速度持续加速。
translated by 谷歌翻译
我们研究了摊销优化的使用来预测输入度量的最佳运输(OT)图,我们称之为元。通过利用过去问题的知识和信息来快速预测和解决新问题,这有助于反复解决不同措施之间的类似OT问题。否则,标准方法忽略了过去解决方案的知识,并从头开始重新解决每个问题。元模型在离散设置中超过了log-sinkhorn求解器的标准收敛速率,并在连续设置中凸电势。我们通过在图像,球形数据和调色板之间的离散和连续传输设置中多个数量级来改善标准ot求解器的计算时间。我们的源代码可在http://github.com/facebookresearch/meta-ot上找到。
translated by 谷歌翻译
Wasserstein barycenter, built on the theory of optimal transport, provides a powerful framework to aggregate probability distributions, and it has increasingly attracted great attention within the machine learning community. However, it suffers from severe computational burden, especially for high dimensional and continuous settings. To this end, we develop a novel continuous approximation method for the Wasserstein barycenters problem given sample access to the input distributions. The basic idea is to introduce a variational distribution as the approximation of the true continuous barycenter, so as to frame the barycenters computation problem as an optimization problem, where parameters of the variational distribution adjust the proxy distribution to be similar to the barycenter. Leveraging the variational distribution, we construct a tractable dual formulation for the regularized Wasserstein barycenter problem with c-cyclical monotonicity, which can be efficiently solved by stochastic optimization. We provide theoretical analysis on convergence and demonstrate the practical effectiveness of our method on real applications of subset posterior aggregation and synthetic data.
translated by 谷歌翻译
The Sinkhorn algorithm (arXiv:1306.0895) is the state-of-the-art to compute approximations of optimal transport distances between discrete probability distributions, making use of an entropically regularized formulation of the problem. The algorithm is guaranteed to converge, no matter its initialization. This lead to little attention being paid to initializing it, and simple starting vectors like the n-dimensional one-vector are common choices. We train a neural network to compute initializations for the algorithm, which significantly outperform standard initializations. The network predicts a potential of the optimal transport dual problem, where training is conducted in an adversarial fashion using a second, generating network. The network is universal in the sense that it is able to generalize to any pair of distributions of fixed dimension. Furthermore, we show that for certain applications the network can be used independently.
translated by 谷歌翻译
在用于图形结构数据的几台机器学习任务中,所考虑的图形可以由不同数量的节点组成。因此,需要设计汇集方法,该方法将不同大小的图形表示聚合到固定大小的表示,其可以用于下游任务,例如图形分类。现有的图形池池方法没有关于图形表示的相似性和其汇总版的保证。在这项工作中,我们通过提出流池来解决这些限制,通过最小化其Wassersein距离,通过最佳地将图形表示的统计数据统计到其汇集的对应物。这是通过对汇集的图形表示来执行Wasserstein梯度流来实现的。我们提出了我们的方法,可以通过任何基础成本考虑表示空间的几何形状。该实施依赖于与最近提出的隐式差异化方案的Wasserstein距离的计算。我们的汇集方法可用于自动分化,可以集成在端到端的深度学习架构中。此外,流量池是不变的,因此可以与GNN中的置换设备提取层组合,以便获得与节点的排序无关的预测。实验结果表明,与现有在图形分类任务中的现有汇集方法相比,我们的方法导致性能增加。
translated by 谷歌翻译
比较图形等结构的对象是许多学习任务中涉及的基本操作。为此,基于最优传输(OT)的Gromov-Wasserstein(GW)距离已被证明可以成功处理相关对象的特定性质。更具体地说,通过节点连接关系,GW在图表上运行,视为特定空间上的概率测量。在OT的核心处是质量守恒的想法,这在两个被认为的图表中的所有节点之间施加了耦合。我们在本文中争辩说,这种财产可能对图形字典或分区学习等任务有害,我们通过提出新的半轻松的Gromov-Wasserstein发散来放松它。除了立即计算福利之外,我们讨论其属性,并表明它可以导致有效的图表字典学习算法。我们经验展示其对图形上的复杂任务的相关性,例如分区,聚类和完成。
translated by 谷歌翻译
最佳运输(OT)理论描述了定义和选择在许多可能的选择中,将概率度量映射到另一个概率的最有效方法。该理论主要用于估计,给定一对源和目标概率测量$(\ MU,\ nu)$,这是一个可以有效地将$ \ mu $映射到$ \ nu $的参数化映射$ t_ \ theta $。在许多应用程序中,例如预测细胞对治疗的响应,数据测量$ \ mu,\ nu $(未处理/处理过的单元的功能)定义了最佳运输问题并非孤立地出现,但与上下文$ c $相关联(治疗)。为了说明并将该上下文纳入OT估计,我们介绍了Condot,一种使用上下文标签$ C_I $标记的几对测量$(\ mu_i,\ nu_i)$使用几对测量$(\ mu_i,\ nu_i)$。我们的目标是从标记对的数据集$ \ {(c_i,((\ mu_i,\ nu_i))中提取%\})\} $学习全局映射$ \ mathcal {t} _ {\ theta} $,不仅是预期的适合数据集中的所有对$ \ {((c_i,(\ mu_i,\ nu_i)))\} $,即$,但应概括以产生有意义的地图$ \ Mathcal {t} _ {\ theta}(c _ {\ text {new}})$在未看到的上下文上调节的$ c _ {\ text {new}} $。我们的方法利用并为部分输入凸神经网络提供了新颖的用法,为此我们引入了受高斯近似启发的强大而有效的初始化策略。我们仅使用对所述扰动的作用观察到遗传或治疗性扰动对单个细胞的任意组合对单个细胞的任意组合的影响的能力。
translated by 谷歌翻译
瓦斯坦距离测量分布之间的差异,显示出各种类型的自然语言处理(NLP)和计算机视觉(CV)应用的功效。估计Wasserstein距离的挑战之一是,它在计算上很昂贵,并且对于许多分配比较任务而言,它的扩展不是很好。在本文中,我们的目标是通过树 - 瓦斯汀距离(TWD)近似1-wasserstein距离,其中TWD是带有基于树的嵌入的1-wasserstein距离,并且可以在线性时间内相对于节点的数量进行计算在树上。更具体地说,我们提出了一种简单而有效的L1调查方法来学习树中边缘的权重。为此,我们首先证明1-wasserstein近似问题可以使用树上的最短路径距离作为距离近似问题进行表述。然后,我们证明最短的路径距离可以用线性模型表示,并且可以作为基于LASSO的回归问题配方。由于凸公式,我们可以有效地获得全球最佳解决方案。此外,我们提出了这些方法的树形变体。通过实验,我们证明了加权TWD可以准确地近似原始的1-wasserstein距离。
translated by 谷歌翻译
Wasserstein BaryCenter是一种原理的方法来表示给定的一组概率分布的加权平均值,利用由最佳运输所引起的几何形状。在这项工作中,我们提出了一种新颖的可扩展算法,以近似于旨在在机器学习中的高维应用的Wassersein重构。我们所提出的算法基于Wassersein-2距离的Kantorovich双重制定以及最近的神经网络架构,输入凸神经网络,其已知参数化凸函数。我们方法的显着特征是:i)仅需要来自边缘分布的样本; ii)与现有方法不同,它代表了具有生成模型的重心,因此可以在不查询边际分布的情况下从重心产生无限样品; III)它与一个边际案例中的生成对抗性模型类似。我们通过在多个实验中将其与最先进的方法进行比较来证明我们的算法的功效。
translated by 谷歌翻译
引入了Wasserstein距离的许多变体,以减轻其原始计算负担。尤其是切成薄片的距离(SW),该距离(SW)利用了一维投影,可以使用封闭式的瓦斯汀距离解决方案。然而,它仅限于生活在欧几里得空间中的数据,而Wasserstein距离已被研究和最近在歧管上使用。我们更具体地专门地关注球体,为此定义了新颖的SW差异,我们称之为球形切片 - 拖鞋,这是朝着定义SW差异的第一步。我们的构造明显基于圆圈上瓦斯汀距离的封闭式解决方案,以及新的球形ra径。除了有效的算法和相应的实现外,我们在几个机器学习用例中说明了它的属性,这些用例中,数据的球形表示受到威胁:在球体上的密度估计,变异推理或超球体自动编码器。
translated by 谷歌翻译
Optimal transport (OT) has become exceedingly popular in machine learning, data science, and computer vision. The core assumption in the OT problem is the equal total amount of mass in source and target measures, which limits its application. Optimal Partial Transport (OPT) is a recently proposed solution to this limitation. Similar to the OT problem, the computation of OPT relies on solving a linear programming problem (often in high dimensions), which can become computationally prohibitive. In this paper, we propose an efficient algorithm for calculating the OPT problem between two non-negative measures in one dimension. Next, following the idea of sliced OT distances, we utilize slicing to define the sliced OPT distance. Finally, we demonstrate the computational and accuracy benefits of the sliced OPT-based method in various numerical experiments. In particular, we show an application of our proposed Sliced-OPT in noisy point cloud registration.
translated by 谷歌翻译
聚类是基于它们的相似性对组对象的重要探索性数据分析技术。广泛使用的$ k $ -MEANS聚类方法依赖于一些距离的概念将数据划分为较少数量的组。在欧几里得空间中,$ k $ -Means的基于质心和基于距离的公式相同。在现代机器学习应用中,数据通常是作为概率分布而出现的,并且可以使用最佳运输指标来处理测量值数据。由于瓦斯坦斯坦空间的非负亚历山德罗夫曲率,巴里中心遭受了规律性和非舒适性问题。 Wasserstein Barycenters的特殊行为可能使基于质心的配方无法代表集群内的数据点,而基于距离的$ K $ -MEANS方法及其半决赛计划(SDP)可以恢复真实的方法集群标签。在聚集高斯分布的特殊情况下,我们表明SDP放松的Wasserstein $ k $ - 金钱可以实现精确的恢复,因为这些集群按照$ 2 $ - WASSERSTEIN MERTRIC进行了良好的分离。我们的仿真和真实数据示例还表明,基于距离的$ K $ -Means可以比基于标准的基于质心的$ k $ -Means获得更好的分类性能,用于聚类概率分布和图像。
translated by 谷歌翻译
分发比较在许多机器学习任务中起着核心作用,例如数据分类和生成建模。在这项研究中,我们提出了一种称为希尔伯特曲线投影(HCP)距离的新型度量,以测量具有高鲁棒性和低复杂性的两个概率分布之间的距离。特别是,我们首先使用希尔伯特曲线投射两个高维概率密度,以获得它们之间的耦合,然后根据耦合在原始空间中这两个密度之间的传输距离进行计算。我们表明,HCP距离是一个适当的度量标准,对于绝对连续的概率度量,定义明确。此外,我们证明,经验HCP距离在规律性条件下以不超过$ O(n^{ - 1/2d})$的速度收敛到其人口。为了抑制差异性的诅咒,我们还使用(可学习的)子空间投影开发了HCP距离的两个变体。合成数据和现实世界数据的实验表明,我们的HCP距离是瓦斯汀距离的有效替代,其复杂性低并克服了切成薄片的瓦斯坦距离的缺点。
translated by 谷歌翻译
不平衡最佳传输(UOT)扩展了最佳传输(OT),以考虑质量变化以比较分布。这是使IT在ML应用程序中成功的至关重要,使其对数据标准化和异常值具有强大。基线算法陷入沉降,但其收敛速度可能比OT更慢。在这项工作中,我们确定了这种缺陷的原因,即缺乏迭代的全球正常化,其等效地对应于双口电的翻译。我们的第一款贡献利用了这种想法来开发一种可怕的加速陷阱算法(为UOT开发了一种可怕的陷阱算法(创建了“翻译不变的烟囱”),弥合了与OT的计算间隙。我们的第二次贡献侧重于1-D UOT,并提出了一个适用于这种翻译不变制剂的弗兰克 - 沃尔夫求解器。每个步骤的线性oracle都能求解1-D OT问题,从而导致每个迭代的线性时间复杂度。我们的最后贡献将这种方法扩展到计算1-D措施的UOT BaryCenter。数值模拟展示这三种方法带来的收敛速度改进。
translated by 谷歌翻译
Optimal Transport(OT)提供了一个多功能框架,以几何有意义的方式比较复杂的数据分布。计算Wasserstein距离和概率措施之间的大地测量方法的传统方法需要网络依赖性域离散化,并且受差异性的诅咒。我们提出了Geonet,这是一个网状不变的深神经操作员网络,该网络从输入对的初始和终端分布对到Wasserstein Geodesic连接两个端点分布的非线性映射。在离线训练阶段,Geonet了解了以耦合PDE系统为特征的原始和双空间中OT问题动态提出的鞍点最佳条件。随后的推理阶段是瞬时的,可以在在线学习环境中进行实时预测。我们证明,Geonet在模拟示例和CIFAR-10数据集上达到了与标准OT求解器的可比测试精度,其推断阶段计算成本大大降低了。
translated by 谷歌翻译
最佳运输(OT)背后的匹配原理在机器学习中起着越来越重要的作用,这一趋势可以观察到ot被用来消除应用程序中的数据集(例如,单细胞基因组学)或用于改善更复杂的方法(例如,平衡平衡)注意变形金刚或自我监督的学习)。为了扩展到更具挑战性的问题,越来越多的共识要求求解器可以在数百万而不是数千点上运作。在\ cite {scetbon2021lowrank}中提倡的低级最佳运输方法(LOT)方法在这方面有几个诺言,并被证明可以补充更确定的熵正则化方法,能够将自己插入更复杂的管道中,例如Quadratic OT。批次将低成本耦合的搜索限制在具有低位级等级的耦合方面,在感兴趣的情况下产生线性时间算法。但是,只有在比较感兴趣的属性时,只有将批次方法视为熵正则化的合法竞争者,这些诺言才能实现,记分卡通常包含理论属性(统计复杂性和与其他方法)或实际方面(偏见,偏见,偏见,依据,,依据,统计复杂性和关系)高参数调整,初始化)。我们针对本文中的每个领域,以巩固计算OT中低级别方法的影响。
translated by 谷歌翻译
Optimal transport distances are a fundamental family of distances for probability measures and histograms of features. Despite their appealing theoretical properties, excellent performance in retrieval tasks and intuitive formulation, their computation involves the resolution of a linear program whose cost can quickly become prohibitive whenever the size of the support of these measures or the histograms' dimension exceeds a few hundred. We propose in this work a new family of optimal transport distances that look at transport problems from a maximumentropy perspective. We smooth the classic optimal transport problem with an entropic regularization term, and show that the resulting optimum is also a distance which can be computed through Sinkhorn's matrix scaling algorithm at a speed that is several orders of magnitude faster than that of transport solvers. We also show that this regularized distance improves upon classic optimal transport distances on the MNIST classification problem.
translated by 谷歌翻译
在概率密度范围内相对于Wassersein度量的空间的梯度流程通常具有很好的特性,并且已在几种机器学习应用中使用。计算Wasserstein梯度流量的标准方法是有限差异,使网格上的基础空间离散,并且不可扩展。在这项工作中,我们提出了一种可扩展的近端梯度型算法,用于Wassersein梯度流。我们的方法的关键是目标函数的变分形式,这使得可以通过引流 - 双重优化实现JKO近端地图。可以通过替代地更新内部和外环中的参数来有效地解决该原始问题。我们的框架涵盖了包括热方程和多孔介质方程的所有经典Wasserstein梯度流。我们展示了若干数值示例的算法的性能和可扩展性。
translated by 谷歌翻译
Global pooling is one of the most significant operations in many machine learning models and tasks, which works for information fusion and structured data (like sets and graphs) representation. However, without solid mathematical fundamentals, its practical implementations often depend on empirical mechanisms and thus lead to sub-optimal, even unsatisfactory performance. In this work, we develop a novel and generalized global pooling framework through the lens of optimal transport. The proposed framework is interpretable from the perspective of expectation-maximization. Essentially, it aims at learning an optimal transport across sample indices and feature dimensions, making the corresponding pooling operation maximize the conditional expectation of input data. We demonstrate that most existing pooling methods are equivalent to solving a regularized optimal transport (ROT) problem with different specializations, and more sophisticated pooling operations can be implemented by hierarchically solving multiple ROT problems. Making the parameters of the ROT problem learnable, we develop a family of regularized optimal transport pooling (ROTP) layers. We implement the ROTP layers as a new kind of deep implicit layer. Their model architectures correspond to different optimization algorithms. We test our ROTP layers in several representative set-level machine learning scenarios, including multi-instance learning (MIL), graph classification, graph set representation, and image classification. Experimental results show that applying our ROTP layers can reduce the difficulty of the design and selection of global pooling -- our ROTP layers may either imitate some existing global pooling methods or lead to some new pooling layers fitting data better. The code is available at \url{https://github.com/SDS-Lab/ROT-Pooling}.
translated by 谷歌翻译
我们考虑人口Wasserstein Barycenter问题,用于随机概率措施支持有限一组点,由在线数据流生成。这导致了复杂的随机优化问题,其中目标是作为作为随机优化问题的解决方案给出的函数的期望。我们采用了问题的结构,并获得了这个问题的凸凹陷的随机鞍点重构。在设置随机概率措施的分布是离散的情况下,我们提出了一种随机优化算法并估计其复杂性。基于内核方法的第二个结果将前一个延伸到随机概率措施的任意分布。此外,这种新算法在许多情况下,与随机近似方法相结合的随机近似方法,具有优于随机近似方法的总复杂性。我们还通过一系列数值实验说明了我们的发展。
translated by 谷歌翻译