多边缘最优运输(MOT)是最佳运输到多个边缘的概括。最佳运输已经进化为许多机器学习应用中的重要工具,其多边缘扩展开辟了解决机器学习领域的新挑战。然而,MOT的使用很大程度上受到其计算复杂性的影响,其在边缘数量中呈指数级尺度。幸运的是,在许多应用程序中,例如重心或插值问题,成本函数遵守结构,最近被利用以开发有效的计算方法。在这项工作中,我们可以为这些方法推导计算范围。以$ N $积分支持$ M $ M $ M $ Myginal发行版,我们提供了$ \ Mathcal {\ Tilde O}(D(g)Mn ^ 2 \ epsilon ^ { - 2})$ \ \ epsilon $-Accuracy当问题与直径为D(g)$的树相关联时。对于Wassersein的特殊情况,这对应于星形树,我们的界限与现有的复杂性对齐。
translated by 谷歌翻译
由于机器学习,统计和科学的应用,多边缘最佳运输(MOT)引起了极大的兴趣。但是,在大多数应用中,MOT的成功受到缺乏有效算法的严重限制。实际上,MOT一般需要在边际K及其支撑大小n的数量中指数时间n。本文开发了一个关于“结构”在poly(n,k)时间中可溶解的一般理论。我们开发了一个统一的算法框架,用于通过表征不同算法所需的“结构”来解决poly(n,k)时间中的MOT,这是根据双重可行性甲骨文的简单变体所需的。该框架有几个好处。首先,它使我们能够证明当前是最流行的MOT算法的Sinkhorn算法比其他算法要在poly(n,k)时间中求解MOT所需的结构更严格。其次,我们的框架使得为给定的MOT问题开发poly(n,k)时间算法变得更加简单。特别是(大约)解决双重可行性Oracle是必要和足够的 - 这更适合标准算法技术。我们通过为三个通用类成本结构类别的poly(n,k)时间算法开发poly(n,k)时间算法来说明这种易用性:(1)图形结构; (2)设定优化结构; (3)低阶和稀疏结构。对于结构(1),我们恢复了Sindhorn具有poly(n,k)运行时的已知结果;此外,我们为计算精确且稀疏的解决方案提供了第一个poly(n,k)时间算法。对于结构(2) - (3),我们给出了第一个poly(n,k)时间算法,甚至用于近似计算。这三个结构一起涵盖了许多MOT的当前应用。
translated by 谷歌翻译
在这项工作中,我们提出了一批Greenkhorn算法的多压正规化最佳运输问题。我们的框架足够普遍,可以涵盖一些现有的案例,如烟囱和Greenkhorn算法,用于双边缘设置,(贪婪)多光线灯,用于多压最佳运输。我们提供完整的汇聚分析,这是基于具有贪婪控制的迭代BREGMAN投影(IBP)方法的属性。获得了迭代复杂性的全局的收敛性和显式界限。当专门提到上述算法时,我们的结果提供了新的见解和/或改善现有的。
translated by 谷歌翻译
我们提供了传递用于使用图形模型推断的新消息传递算法。我们的方法是为最困难的推理问题而设计的,即循环信念传播和其他启发式方法无法融合。当基础图形模型是无环时,信念的传播可以保证会收敛,但是当基础图具有复杂的拓扑结构时,可能会收敛,并且对初始化敏感。本文描述了对标准信念传播算法的修改,这些算法导致方法会收敛到具有任意拓扑和潜在功能的图形模型上的独特解决方案。
translated by 谷歌翻译
我们研究数据近似和优化中的关键工具之一:低分配颜色。正式地,给定有限集系统$(x,\ nathcal s)$,两颜色的$ \ chi的\ emph {vrionpancy}:x \ to \ to \ to \ { - 1,1 \} $定义为$ \ max_ {s \ in \ Mathcal s} | {\ chi(s)} | $,其中$ \ chi(s)= \ sum \ limits_ {x \ in s} \ chi(x)$。我们提出了一种随机算法,对于任何$ d> 0 $和$(x,\ mathcal s)$,带有双重粉碎功能$ \ pi^*(k)= o(k^d)$,返回带有预期的着色差异$ o \ left({\ sqrt {| x |^{1-1/d} \ log | \ mathcal s |}}}} \ right)$(此绑定是紧密的)时间$ \ tilde o \ left({{ | \ Mathcal S | \ CDOT | X |^{1/d}+| X |^{2+1/d}}} \ right)$,在$ o \ left的先前最佳时间(| \ Mathcal)改进s | \ cdot | x |^3 \ right)$至少为$ | x |^{2-1/d} $时,当$ | \ | \ Mathcal S | \ geq | x | $。该设置包括许多几何类别,有界双VC维度的家庭等。直接的结果,我们获得了一种改进的算法来构建子分数大小的$ \ varepsilon $ approximations。我们的方法使用原始偶重新升高,通过对随机更新的权重进行了改进的分析,并通过匹配度的匹配数低 - 计算几何形状的基本结构。特别是,我们获得了相同的$ | x |^{2-1/d} $ factor factor factor factor facter intherting the Match of crotsing number $ o \ left的施工时间({| x |^{1-1/d} } \ right)$,这是自1980年代以来的第一个改进。所提出的算法非常简单,这使得首次有可能具有近乎最佳差异的颜色,并且在高于$ 2 $的尺寸的抽象和几何套装系统中,对于抽象和几何设置系统的近似近似值。
translated by 谷歌翻译
Projection robust Wasserstein (PRW) distance, or Wasserstein projection pursuit (WPP), is a robust variant of the Wasserstein distance. Recent work suggests that this quantity is more robust than the standard Wasserstein distance, in particular when comparing probability measures in high-dimensions. However, it is ruled out for practical application because the optimization model is essentially non-convex and non-smooth which makes the computation intractable. Our contribution in this paper is to revisit the original motivation behind WPP/PRW, but take the hard route of showing that, despite its non-convexity and lack of nonsmoothness, and even despite some hardness results proved by~\citet{Niles-2019-Estimation} in a minimax sense, the original formulation for PRW/WPP \textit{can} be efficiently computed in practice using Riemannian optimization, yielding in relevant cases better behavior than its convex relaxation. More specifically, we provide three simple algorithms with solid theoretical guarantee on their complexity bound (one in the appendix), and demonstrate their effectiveness and efficiency by conducing extensive experiments on synthetic and real data. This paper provides a first step into a computational theory of the PRW distance and provides the links between optimal transport and Riemannian optimization.
translated by 谷歌翻译
我们研究了两种可能不同质量的度量之间的不平衡最佳运输(UOT),其中最多是$ n $组件,其中标准最佳运输(OT)的边际约束是通过kullback-leibler差异与正则化因子$ \ tau $放松的。尽管仅在文献中分析了具有复杂性$ o \ big(\ tfrac {\ tau n^2 \ log(n)} {\ varepsilon} \ log \ big(\ tfrac {\ log( n)} {{{\ varepsilon}} \ big)\ big)$)$用于实现错误$ \ varepsilon $,它们与某些深度学习模型和密集的输出运输计划不兼容,强烈阻碍了实用性。虽然被广泛用作计算现代深度学习应用中UOT的启发式方法,并且在稀疏的OT中表现出成功,但尚未正式研究用于UOT的梯度方法。为了填补这一空白,我们提出了一种基于梯度外推法(Gem-uot)的新颖算法,以找到$ \ varepsilon $ -Approximate解决方案,以解决$ o \ big中的UOT问题(\ kappa n^2 \ log \ log \ big(big) \ frac {\ tau n} {\ varepsilon} \ big)\ big)$,其中$ \ kappa $是条件号,具体取决于两个输入度量。我们的算法是通过优化平方$ \ ell_2 $ -norm UOT目标的新的双重配方设计的,从而填补了缺乏稀疏的UOT文献。最后,我们在运输计划和运输距离方面建立了UOT和OT之间近似误差的新颖表征。该结果阐明了一个新的主要瓶颈,该瓶颈被强大的OT文献忽略了:尽管OT放松了OT,因为UOT承认对离群值的稳健性,但计算出的UOT距离远离原始OT距离。我们通过基于Gem-uot从UOT中检索的原则方法来解决此类限制,并使用微调的$ \ tau $和后进程投影步骤来解决。关于合成和真实数据集的实验验证了我们的理论,并证明了我们的方法的良好性能。
translated by 谷歌翻译
我们研究了用$ q $ modes $ a \ in \ mathbb {r}^{n \ times \ ldots \ times n} $的近似给定张量的问题。图$ g =(v,e)$,其中$ | v | = q $,以及张张量的集合$ \ {u_v \ mid v \ in v \} $,以$ g $指定的方式收缩以获取张量$ t $。对于$ u_v $的每种模式,对应于$ v $的边缘事件,尺寸为$ k $,我们希望找到$ u_v $,以便最小化$ t $和$ a $之间的frobenius norm距离。这概括了许多众所周知的张量网络分解,例如张量列,张量环,塔克和PEPS分解。我们大约是二进制树网络$ t'$带有$ o(q)$核的大约$ a $,因此该网络的每个边缘上的尺寸最多是$ \ widetilde {o}(k^{o(dt) } \ cdot q/\ varepsilon)$,其中$ d $是$ g $的最大度,$ t $是其树宽,因此$ \ | a -t'-t'\ | _f^2 \ leq(1 + \ Varepsilon)\ | a -t \ | _f^2 $。我们算法的运行时间为$ o(q \ cdot \ text {nnz}(a)) + n \ cdot \ text {poly}(k^{dt} q/\ varepsilon)$,其中$ \ text {nnz }(a)$是$ a $的非零条目的数量。我们的算法基于一种可能具有独立感兴趣的张量分解的新维度降低技术。我们还开发了固定参数可处理的$(1 + \ varepsilon)$ - 用于张量火车和塔克分解的近似算法,改善了歌曲的运行时间,Woodruff和Zhong(Soda,2019),并避免使用通用多项式系统求解器。我们表明,我们的算法对$ 1/\ varepsilon $具有几乎最佳的依赖性,假设没有$ O(1)$ - 近似算法的$ 2 \至4 $ norm,并且运行时间比蛮力更好。最后,我们通过可靠的损失函数和固定参数可拖动CP分解给出了塔克分解的其他结果。
translated by 谷歌翻译
计算Wassersein BaryCenters(A.K.A.最佳运输重构)是由于数据科学的许多应用,最近引起了相当大的关注的几何问题。虽然存在任何固定维度的多项式时间算法,但所有已知的运行时间都在维度中呈指数级。这是一个开放的问题,无论是这种指数依赖性是否可改进到多项式依赖性。本文证明,除非P = NP,答案是否定的。这揭示了Wassersein的BaryCenter计算的“维度诅咒”,其不会发生最佳运输计算。此外,我们对计算Wassersein的硬度结果延伸到近似计算,看似简单的问题案例,以及在其他最佳运输指标中平均概率分布。
translated by 谷歌翻译
作为度量度量空间的有效度量,Gromov-Wasserstein(GW)距离显示了匹配结构化数据(例如点云和图形)问题的潜力。但是,由于其较高的计算复杂性,其实践中的应用受到限制。为了克服这一挑战,我们提出了一种新颖的重要性稀疏方法,称为SPAR-GW,以有效地近似GW距离。特别是,我们的方法没有考虑密集的耦合矩阵,而是利用一种简单但有效的采样策略来构建稀疏的耦合矩阵,并使用几个计算进行更新。我们证明了所提出的SPAR-GW方法适用于GW距离,并以任意地面成本适用于GW距离,并且将复杂性从$ \ Mathcal {o}(n^4)$降低到$ \ Mathcal {o}(n^{2) +\ delta})$对于任意的小$ \ delta> 0 $。另外,该方法可以扩展到近似GW距离的变体,包括熵GW距离,融合的GW距离和不平衡的GW距离。实验表明,在合成和现实世界任务中,我们的SPAR-GW对最先进的方法的优越性。
translated by 谷歌翻译
我们提出了改进的算法,并为身份测试$ n $维分布的问题提供了统计和计算下限。在身份测试问题中,我们将作为输入作为显式分发$ \ mu $,$ \ varepsilon> 0 $,并访问对隐藏分布$ \ pi $的采样甲骨文。目标是区分两个分布$ \ mu $和$ \ pi $是相同的还是至少$ \ varepsilon $ -far分开。当仅从隐藏分布$ \ pi $中访问完整样本时,众所周知,可能需要许多样本,因此以前的作品已经研究了身份测试,并额外访问了各种有条件采样牙齿。我们在这里考虑一个明显弱的条件采样甲骨文,称为坐标Oracle,并在此新模型中提供了身份测试问题的相当完整的计算和统计表征。我们证明,如果一个称为熵的分析属性为可见分布$ \ mu $保留,那么对于任何使用$ \ tilde {o}(n/\ tilde {o}),有一个有效的身份测试算法Varepsilon)$查询坐标Oracle。熵的近似张力是一种经典的工具,用于证明马尔可夫链的最佳混合时间边界用于高维分布,并且最近通过光谱独立性为许多分布族建立了最佳的混合时间。我们将算法结果与匹配的$ \ omega(n/\ varepsilon)$统计下键进行匹配的算法结果补充,以供坐标Oracle下的查询数量。我们还证明了一个计算相变:对于$ \ {+1,-1,-1 \}^n $以上的稀疏抗抗铁磁性模型,在熵失败的近似张力失败的状态下,除非RP = np,否则没有有效的身份测试算法。
translated by 谷歌翻译
我们考虑从数据学习树结构ising模型的问题,使得使用模型计算的后续预测是准确的。具体而言,我们的目标是学习一个模型,使得小组变量$ S $的后海报$ p(x_i | x_s)$。自推出超过50年以来,有效计算最大似然树的Chow-Liu算法一直是学习树结构图形模型的基准算法。 [BK19]示出了关于以预测的局部总变化损耗的CHOW-LIU算法的样本复杂性的界限。虽然这些结果表明,即使在恢复真正的基础图中也可以学习有用的模型是不可能的,它们的绑定取决于相互作用的最大强度,因此不会达到信息理论的最佳选择。在本文中,我们介绍了一种新的算法,仔细结合了Chow-Liu算法的元素,以便在预测的损失下有效地和最佳地学习树ising模型。我们的算法对模型拼写和对抗损坏具有鲁棒性。相比之下,我们表明庆祝的Chow-Liu算法可以任意次优。
translated by 谷歌翻译
我们考虑人口Wasserstein Barycenter问题,用于随机概率措施支持有限一组点,由在线数据流生成。这导致了复杂的随机优化问题,其中目标是作为作为随机优化问题的解决方案给出的函数的期望。我们采用了问题的结构,并获得了这个问题的凸凹陷的随机鞍点重构。在设置随机概率措施的分布是离散的情况下,我们提出了一种随机优化算法并估计其复杂性。基于内核方法的第二个结果将前一个延伸到随机概率措施的任意分布。此外,这种新算法在许多情况下,与随机近似方法相结合的随机近似方法,具有优于随机近似方法的总复杂性。我们还通过一系列数值实验说明了我们的发展。
translated by 谷歌翻译
最佳运输(OT)理论下潜许多新兴机器学习(ML)方法现在解决了各种任务,例如生成建模,转移学习和信息检索。然而,这些后者通常会在传统的OT设置上具有两个分布,同时留下更一般的多边缘OT配方,稍微探索。在本文中,我们研究了多边缘OT(MMOT)问题,并通过促进关于耦合的结构信息,统一其伞下的几种流行的OT方法。我们表明将这种结构信息结合到MMOT中,在允许我们在数值上解决它的不同凸(DC)编程问题的实例。尽管后一级的计算成本高,但DC优化提供的解决方案通常与使用当前采用的优化方案获得的解决方案一样定性。
translated by 谷歌翻译
最佳运输(OT)自然地出现在广泛的机器学习应用中,但可能经常成为计算瓶颈。最近,一行作品建议大致通过在低秩子空间中搜索\ emph {transport计划}来解决OT。然而,最佳运输计划通常不是低秩,这往往会产生大的近似误差。例如,当存在Monge的\ EMPH {Transport Map}时,运输计划是完整的排名。本文涉及具有足够精度和效率的OT距离的计算。提出了一种用于OT的新颖近似,其中运输计划可以分解成低级矩阵和稀疏矩阵的总和。理论上我们分析近似误差。然后设计增强拉格朗日方法以有效地计算运输计划。
translated by 谷歌翻译
我们研究了有限空间中值的静止随机过程的最佳运输。为了反映潜在流程的实向性,我们限制了对固定联轴器的关注,也称为联系。由此产生的最佳连接问题捕获感兴趣过程的长期平均行为的差异。我们介绍了最优联接的估算和最佳的加入成本,我们建立了温和条件下估算器的一致性。此外,在更强的混合假设下,我们为估计的最佳连接成本建立有限样本误差速率,其延伸了IID案件中的最佳已知结果。最后,我们将一致性和速率分析扩展到最佳加入问题的熵惩罚版本。
translated by 谷歌翻译
本文介绍了一种新的基于仿真的推理程序,以对访问I.I.D. \ samples的多维概率分布进行建模和样本,从而规避明确建模密度函数或设计Markov Chain Monte Carlo的通常方法。我们提出了一个称为可逆的Gromov-monge(RGM)距离的新概念的距离和同构的动机,并研究了RGM如何用于设计新的转换样本,以执行基于模拟的推断。我们的RGM采样器还可以估计两个异质度量度量空间之间的最佳对齐$(\ cx,\ mu,c _ {\ cx})$和$(\ cy,\ cy,\ nu,c _ {\ cy})$从经验数据集中,估计的地图大约将一个量度$ \ mu $推向另一个$ \ nu $,反之亦然。我们研究了RGM距离的分析特性,并在轻度条件下得出RGM等于经典的Gromov-Wasserstein距离。奇怪的是,与Brenier的两极分解结合了连接,我们表明RGM采样器以$ C _ {\ cx} $和$ C _ {\ cy} $的正确选择诱导了强度同构的偏见。研究了有关诱导采样器的收敛,表示和优化问题的统计率。还展示了展示RGM采样器有效性的合成和现实示例。
translated by 谷歌翻译
最佳运输(OT)背后的匹配原理在机器学习中起着越来越重要的作用,这一趋势可以观察到ot被用来消除应用程序中的数据集(例如,单细胞基因组学)或用于改善更复杂的方法(例如,平衡平衡)注意变形金刚或自我监督的学习)。为了扩展到更具挑战性的问题,越来越多的共识要求求解器可以在数百万而不是数千点上运作。在\ cite {scetbon2021lowrank}中提倡的低级最佳运输方法(LOT)方法在这方面有几个诺言,并被证明可以补充更确定的熵正则化方法,能够将自己插入更复杂的管道中,例如Quadratic OT。批次将低成本耦合的搜索限制在具有低位级等级的耦合方面,在感兴趣的情况下产生线性时间算法。但是,只有在比较感兴趣的属性时,只有将批次方法视为熵正则化的合法竞争者,这些诺言才能实现,记分卡通常包含理论属性(统计复杂性和与其他方法)或实际方面(偏见,偏见,偏见,依据,,依据,统计复杂性和关系)高参数调整,初始化)。我们针对本文中的每个领域,以巩固计算OT中低级别方法的影响。
translated by 谷歌翻译
分层聚类研究将数据集的递归分区设置为连续较小尺寸的簇,并且是数据分析中的基本问题。在这项工作中,我们研究了Dasgupta引入的分层聚类的成本函数,并呈现了两个多项式时间近似算法:我们的第一个结果是高度电导率图的$ O(1)$ - 近似算法。我们简单的建筑绕过了在文献中已知的稀疏切割的复杂递归常规。我们的第二个和主要结果是一个US(1)$ - 用于展示群集明确结构的宽族图形的近似算法。该结果推出了以前的最先进的,该现有技术仅适用于从随机模型产生的图表。通过对合成和现实世界数据集的实证分析,我们所呈现的算法的实证分析表明了我们的工作的重要性,以其具有明确定义的集群结构的先前所提出的图表算法。
translated by 谷歌翻译
We study the following independence testing problem: given access to samples from a distribution $P$ over $\{0,1\}^n$, decide whether $P$ is a product distribution or whether it is $\varepsilon$-far in total variation distance from any product distribution. For arbitrary distributions, this problem requires $\exp(n)$ samples. We show in this work that if $P$ has a sparse structure, then in fact only linearly many samples are required. Specifically, if $P$ is Markov with respect to a Bayesian network whose underlying DAG has in-degree bounded by $d$, then $\tilde{\Theta}(2^{d/2}\cdot n/\varepsilon^2)$ samples are necessary and sufficient for independence testing.
translated by 谷歌翻译