在各种机器学习问题中,包括转移,多任务,连续和元学习在内,衡量不同任务之间的相似性至关重要。最新的测量任务相似性的方法依赖于体系结构:1)依靠预训练的模型,或2)在任务上进行培训网络,并将正向转移用作任务相似性的代理。在本文中,我们利用了最佳运输理论,并定义了一个新颖的任务嵌入监督分类,该分类是模型的,无训练的,并且能够处理(部分)脱节标签集。简而言之,给定带有地面标签的数据集,我们通过多维缩放和串联数据集样品进行嵌入标签,并具有相应的标签嵌入。然后,我们将两个数据集之间的距离定义为其更新样品之间的2-Wasserstein距离。最后,我们利用2-wasserstein嵌入框架将任务嵌入到矢量空间中,在该空间中,嵌入点之间的欧几里得距离近似于任务之间提出的2-wasserstein距离。我们表明,与最佳传输数据集距离(OTDD)等相关方法相比,所提出的嵌入导致任务的比较显着更快。此外,我们通过各种数值实验证明了我们提出的嵌入的有效性,并显示了我们所提出的距离与任务之间的前进和向后转移之间的统计学意义相关性。
translated by 谷歌翻译
在本文中,我们提出了一种对无监督域适应的新方法,与最佳运输,学习概率措施和无监督学习的概念相关。所提出的方法Hot-DA基于最佳运输的分层制定,其利用了由地面度量捕获的几何信息,源和目标域中的结构信息更丰富的结构信息。通过根据其类标签将样本分组到结构中,本质地形成标记的源域中的附加信息。在探索未标记的目标域中的隐藏结构的同时,通过Wassersein BaryCenter的学习概率措施的问题,我们证明是等同于光谱聚类。具有可控复杂性的玩具数据集的实验和两个具有挑战性的视觉适应数据集显示了所提出的方法的优越性。
translated by 谷歌翻译
瓦斯坦距离测量分布之间的差异,显示出各种类型的自然语言处理(NLP)和计算机视觉(CV)应用的功效。估计Wasserstein距离的挑战之一是,它在计算上很昂贵,并且对于许多分配比较任务而言,它的扩展不是很好。在本文中,我们的目标是通过树 - 瓦斯汀距离(TWD)近似1-wasserstein距离,其中TWD是带有基于树的嵌入的1-wasserstein距离,并且可以在线性时间内相对于节点的数量进行计算在树上。更具体地说,我们提出了一种简单而有效的L1调查方法来学习树中边缘的权重。为此,我们首先证明1-wasserstein近似问题可以使用树上的最短路径距离作为距离近似问题进行表述。然后,我们证明最短的路径距离可以用线性模型表示,并且可以作为基于LASSO的回归问题配方。由于凸公式,我们可以有效地获得全球最佳解决方案。此外,我们提出了这些方法的树形变体。通过实验,我们证明了加权TWD可以准确地近似原始的1-wasserstein距离。
translated by 谷歌翻译
从集合结构的数据学习是一种基本上在机器学习和计算机视觉中的应用程序的重要问题。本文侧重于使用近似最近邻(ANN)解决方案,特别是地区敏感的散列来源的非参数和数据独立于无关的学习。我们考虑从输入集查询设置检索的问题。这样的检索问题需要:1)一种有效的机制来计算集合和2)的距离/异化,以及快速最近邻南搜索的适当数据结构。为此,我们提出切片 - Wasserstein将嵌入作为计算上高效的“Set-2-向量”机制,使下游ANN能够具有理论担保。该组元素被视为来自未知底层分布的样本,并且切片 - Wasserstein距离用于比较集合。我们展示了算法的有效性,表示在各种集合检索数据集上的设定局部敏感散列(Slosh),并将我们提出的嵌入方法与标准集嵌入方法进行比较,包括泛化均值(Gem)嵌入/池,具有额定排序池(FSpool )和协方差汇总并显示出检索结果的一致性。用于复制我们的结果的代码可在此处提供:\ href {https://github.com/mint-vu/slosh} {https://github.com/mint-vu/slosh}。
translated by 谷歌翻译
我们研究了摊销优化的使用来预测输入度量的最佳运输(OT)图,我们称之为元。通过利用过去问题的知识和信息来快速预测和解决新问题,这有助于反复解决不同措施之间的类似OT问题。否则,标准方法忽略了过去解决方案的知识,并从头开始重新解决每个问题。元模型在离散设置中超过了log-sinkhorn求解器的标准收敛速率,并在连续设置中凸电势。我们通过在图像,球形数据和调色板之间的离散和连续传输设置中多个数量级来改善标准ot求解器的计算时间。我们的源代码可在http://github.com/facebookresearch/meta-ot上找到。
translated by 谷歌翻译
我们提出了两个新颖的可传递性指标F-OTCE(基于快速最佳运输的条件熵)和JC-otce(联合通信OTCE),以评估源模型(任务)可以使目标任务的学习受益多少,并学习更可转移的表示形式。用于跨域交叉任务转移学习。与需要评估辅助任务的经验可转让性的现有指标不同,我们的指标是无辅助的,以便可以更有效地计算它们。具体而言,F-otce通过首先求解源和目标分布之间的最佳传输(OT)问题来估计可转移性,然后使用最佳耦合来计算源和目标标签之间的负条件熵。它还可以用作损失函数,以最大化目标任务填充源模型的可传递性。同时,JC-OTCE通过在OT问题中包含标签距离来提高F-otce的可转移性鲁棒性,尽管它可能会产生额外的计算成本。广泛的实验表明,F-otce和JC-otce优于最先进的无辅助指标,分别为18.85%和28.88%,与基础真相转移精度相关系数。通过消除辅助任务的训练成本,两个指标将前一个方法的总计算时间从43分钟减少到9.32s和10.78,用于一对任务。当用作损失函数时,F-otce在几个射击分类实验中显示出源模型的传输精度的一致性提高,精度增益高达4.41%。
translated by 谷歌翻译
Wasserstein barycenter, built on the theory of optimal transport, provides a powerful framework to aggregate probability distributions, and it has increasingly attracted great attention within the machine learning community. However, it suffers from severe computational burden, especially for high dimensional and continuous settings. To this end, we develop a novel continuous approximation method for the Wasserstein barycenters problem given sample access to the input distributions. The basic idea is to introduce a variational distribution as the approximation of the true continuous barycenter, so as to frame the barycenters computation problem as an optimization problem, where parameters of the variational distribution adjust the proxy distribution to be similar to the barycenter. Leveraging the variational distribution, we construct a tractable dual formulation for the regularized Wasserstein barycenter problem with c-cyclical monotonicity, which can be efficiently solved by stochastic optimization. We provide theoretical analysis on convergence and demonstrate the practical effectiveness of our method on real applications of subset posterior aggregation and synthetic data.
translated by 谷歌翻译
分发比较在许多机器学习任务中起着核心作用,例如数据分类和生成建模。在这项研究中,我们提出了一种称为希尔伯特曲线投影(HCP)距离的新型度量,以测量具有高鲁棒性和低复杂性的两个概率分布之间的距离。特别是,我们首先使用希尔伯特曲线投射两个高维概率密度,以获得它们之间的耦合,然后根据耦合在原始空间中这两个密度之间的传输距离进行计算。我们表明,HCP距离是一个适当的度量标准,对于绝对连续的概率度量,定义明确。此外,我们证明,经验HCP距离在规律性条件下以不超过$ O(n^{ - 1/2d})$的速度收敛到其人口。为了抑制差异性的诅咒,我们还使用(可学习的)子空间投影开发了HCP距离的两个变体。合成数据和现实世界数据的实验表明,我们的HCP距离是瓦斯汀距离的有效替代,其复杂性低并克服了切成薄片的瓦斯坦距离的缺点。
translated by 谷歌翻译
转移学习已成为利用计算机视觉中预先训练模型的流行方法。然而,在不执行计算上昂贵的微调的情况下,难以量化哪个预先训练的源模型适用于特定目标任务,或者相反地,可以容易地适应预先训练的源模型的任务。在这项工作中,我们提出了高斯Bhattacharyya系数(GBC),一种用于量化源模型和目标数据集之间的可转换性的新方法。在第一步中,我们在由源模型定义的特征空间中嵌入所有目标图像,并表示使用每类高斯。然后,我们使用Bhattacharyya系数估计它们的成对类可分离性,从而产生了一种简单有效的源模型转移到目标任务的程度。我们在数据集和架构选择的上下文中评估GBC在图像分类任务上。此外,我们还对更复杂的语义分割转移性估算任务进行实验。我们证明GBC在语义分割设置中大多数评估标准上的最先进的可转移性度量,匹配图像分类中的数据集转移性的最高方法的性能,并且在图像分类中执行最佳的架构选择问题。
translated by 谷歌翻译
In this paper, we propose Wasserstein Isometric Mapping (Wassmap), a nonlinear dimensionality reduction technique that provides solutions to some drawbacks in existing global nonlinear dimensionality reduction algorithms in imaging applications. Wassmap represents images via probability measures in Wasserstein space, then uses pairwise Wasserstein distances between the associated measures to produce a low-dimensional, approximately isometric embedding. We show that the algorithm is able to exactly recover parameters of some image manifolds including those generated by translations or dilations of a fixed generating measure. Additionally, we show that a discrete version of the algorithm retrieves parameters from manifolds generated from discrete measures by providing a theoretical bridge to transfer recovery results from functional data to discrete data. Testing of the proposed algorithms on various image data manifolds show that Wassmap yields good embeddings compared with other global and local techniques.
translated by 谷歌翻译
利用机器学习来促进优化过程是一个新兴领域,该领域有望绕过经典迭代求解器在需要接近实时优化的关键应用中引起的基本计算瓶颈。现有的大多数方法都集中在学习数据驱动的优化器上,这些优化器可在解决优化方面更少迭代。在本文中,我们采用了不同的方法,并建议将迭代求解器完全替换为可训练的参数集功能,该功能在单个feed向前输出优化问题的最佳参数/参数。我们将我们的方法表示为学习优化优化过程(循环)。我们显示了学习此类参数功能的可行性,以解决各种经典优化问题,包括线性/非线性回归,主成分分析,基于运输的核心和二次编程在供应管理应用程序中。此外,我们提出了两种学习此类参数函数的替代方法,在循环中有和没有求解器。最后,通过各种数值实验,我们表明训练有素的求解器的数量级可能比经典的迭代求解器快,同时提供了接近最佳的解决方案。
translated by 谷歌翻译
在计算机视觉中,面对域转移是很常见的:具有相同类但采集条件不同的图像。在域适应性(DA)中,人们希望使用源标记的图像对未标记的目标图像进行分类。不幸的是,在源训练集中训练的深度神经网络在不属于训练领域的目标图像上表现不佳。改善这些性能的一种策略是使用最佳传输(OT)在嵌入式空间中对齐源和目标图像分布。但是,OT会导致负转移,即与不同标签的样品对齐,这导致过度拟合,尤其是在域之间存在标签移动的情况下。在这项工作中,我们通过将其解释为针对目标图像的嘈杂标签分配来减轻负相位。然后,我们通过适当的正则化来减轻其效果。我们建议将混合正则化\ citep {zhang2018mixup}与噪音标签强大的损失,以提高域的适应性性能。我们在一项广泛的消融研究中表明,这两种技术的结合对于提高性能至关重要。最后,我们在几个基准和现实世界DA问题上评估了称为\ textsc {mixunbot}的方法。
translated by 谷歌翻译
The Sinkhorn algorithm (arXiv:1306.0895) is the state-of-the-art to compute approximations of optimal transport distances between discrete probability distributions, making use of an entropically regularized formulation of the problem. The algorithm is guaranteed to converge, no matter its initialization. This lead to little attention being paid to initializing it, and simple starting vectors like the n-dimensional one-vector are common choices. We train a neural network to compute initializations for the algorithm, which significantly outperform standard initializations. The network predicts a potential of the optimal transport dual problem, where training is conducted in an adversarial fashion using a second, generating network. The network is universal in the sense that it is able to generalize to any pair of distributions of fixed dimension. Furthermore, we show that for certain applications the network can be used independently.
translated by 谷歌翻译
聚类是基于它们的相似性对组对象的重要探索性数据分析技术。广泛使用的$ k $ -MEANS聚类方法依赖于一些距离的概念将数据划分为较少数量的组。在欧几里得空间中,$ k $ -Means的基于质心和基于距离的公式相同。在现代机器学习应用中,数据通常是作为概率分布而出现的,并且可以使用最佳运输指标来处理测量值数据。由于瓦斯坦斯坦空间的非负亚历山德罗夫曲率,巴里中心遭受了规律性和非舒适性问题。 Wasserstein Barycenters的特殊行为可能使基于质心的配方无法代表集群内的数据点,而基于距离的$ K $ -MEANS方法及其半决赛计划(SDP)可以恢复真实的方法集群标签。在聚集高斯分布的特殊情况下,我们表明SDP放松的Wasserstein $ k $ - 金钱可以实现精确的恢复,因为这些集群按照$ 2 $ - WASSERSTEIN MERTRIC进行了良好的分离。我们的仿真和真实数据示例还表明,基于距离的$ K $ -Means可以比基于标准的基于质心的$ k $ -Means获得更好的分类性能,用于聚类概率分布和图像。
translated by 谷歌翻译
在数据集中定义样本之间有意义的距离是机器学习中的一个基本问题。最佳传输(OT)在样品之间提高特征(“地面度量”)到几何意义上的距离之间的距离。但是,通常没有直接的地面度量选择。有监督的地面度量学习方法存在,但需要标记的数据。在没有标签的情况下,仅保留临时地面指标。因此,无监督的地面学习是启用数据驱动的OT应用程序的基本问题。在本文中,我们首次通过同时计算样本之间和数据集功能之间的OT距离来提出规范答案。这些距离矩阵自然出现,作为函数映射接地指标的正奇异向量。我们提供标准以确保这些奇异向量的存在和独特性。然后,我们使用随机近似和熵正则化引入可扩展的计算方法以在高维设置中近似它们。最后,我们在单细胞RNA测序数据集上展示了Wasserstein奇异向量。
translated by 谷歌翻译
本文介绍了一个新颖而通用的框架,以利用最佳运输工具来解决监督标记的图形预测的旗舰任务。我们将问题提出为融合Gromov-Wasserstein(FGW)损失的回归,并提出了一个依靠FGW Barycenter的预测模型,该模型的权重取决于输入。首先,我们基于内核脊回归引入了一个非参数估计量,该估计量得到了理论结果,例如一致性和过量风险绑定。接下来,我们提出了一个可解释的参数模型,其中Barycenter权重用神经网络建模,并进一步学习了FGW Barycenter的图形。数值实验表明了该方法的强度及其在模拟数据上标记的图形空间以及难以实现的代谢识别问题上插值的能力,在这种情况下,它几乎没有工程学才能达到非常好的性能。
translated by 谷歌翻译
Optimal transport (OT) has become exceedingly popular in machine learning, data science, and computer vision. The core assumption in the OT problem is the equal total amount of mass in source and target measures, which limits its application. Optimal Partial Transport (OPT) is a recently proposed solution to this limitation. Similar to the OT problem, the computation of OPT relies on solving a linear programming problem (often in high dimensions), which can become computationally prohibitive. In this paper, we propose an efficient algorithm for calculating the OPT problem between two non-negative measures in one dimension. Next, following the idea of sliced OT distances, we utilize slicing to define the sliced OPT distance. Finally, we demonstrate the computational and accuracy benefits of the sliced OPT-based method in various numerical experiments. In particular, we show an application of our proposed Sliced-OPT in noisy point cloud registration.
translated by 谷歌翻译
Optimal Transport (OT) provides a useful geometric framework to estimate the permutation matrix under unsupervised cross-lingual word embedding (CLWE) models that pose the alignment task as a Wasserstein-Procrustes problem. However, linear programming algorithms and approximate OT solvers via Sinkhorn for computing the permutation matrix come with a significant computational burden since they scale cubically and quadratically, respectively, in the input size. This makes it slow and infeasible to compute OT distances exactly for a larger input size, resulting in a poor approximation quality of the permutation matrix and subsequently a less robust learned transfer function or mapper. This paper proposes an unsupervised projection-based CLWE model called quantized Wasserstein Procrustes (qWP). qWP relies on a quantization step of both the source and target monolingual embedding space to estimate the permutation matrix given a cheap sampling procedure. This approach substantially improves the approximation quality of empirical OT solvers given fixed computational cost. We demonstrate that qWP achieves state-of-the-art results on the Bilingual lexicon Induction (BLI) task.
translated by 谷歌翻译
从模型分析和机器学习中的比较到医疗数据集集合中的趋势发现,需要有效地比较和表示具有未知字段的数据集跨越各个字段。我们使用歧管学习来比较不同数据集的固有几何结构,通过比较其扩散操作员,对称阳性定义(SPD)矩阵,这些矩阵与连续的拉普拉斯 - 贝特拉米操作员与离散样品的近似相关。现有方法通常假设已知的数据对齐,并以点数的方式比较此类运算符。取而代之的是,我们利用SPD矩阵的Riemannian几何形状比较了这些操作员并根据log-euclidean Metric的下限定义了新的理论动机距离。我们的框架有助于比较具有不同大小,功能数量和测量方式的数据集中表达的数据歧管的比较。我们的日志 - 欧几里德签名(LES)距离恢复了有意义的结构差异,在各种应用领域的表现都优于竞争方法。
translated by 谷歌翻译
最佳运输距离(OT)已广泛应用于最近的机器学习工作作为比较概率分布的方法。当数据在高尺寸处生存时,这些都是昂贵的。Paty等人的最新工作是,2019年,专门针对使用数据的低级别投影(视为离散措施)来降低这一成本。我们扩展了这种方法,并表明,通过使用更多地图的地图族可以近距离近距离近距离。通过在给定的家庭上最大化OT来获得最佳估计。随着在将数据映射到较低维度空间之后进行OT计算,我们的方法使用原始数据维度缩放。我们用神经网络展示了这个想法。
translated by 谷歌翻译