我们研究了两种可能不同质量的度量之间的不平衡最佳运输(UOT),其中最多是$ n $组件,其中标准最佳运输(OT)的边际约束是通过kullback-leibler差异与正则化因子$ \ tau $放松的。尽管仅在文献中分析了具有复杂性$ o \ big(\ tfrac {\ tau n^2 \ log(n)} {\ varepsilon} \ log \ big(\ tfrac {\ log( n)} {{{\ varepsilon}} \ big)\ big)$)$用于实现错误$ \ varepsilon $,它们与某些深度学习模型和密集的输出运输计划不兼容,强烈阻碍了实用性。虽然被广泛用作计算现代深度学习应用中UOT的启发式方法,并且在稀疏的OT中表现出成功,但尚未正式研究用于UOT的梯度方法。为了填补这一空白,我们提出了一种基于梯度外推法(Gem-uot)的新颖算法,以找到$ \ varepsilon $ -Approximate解决方案,以解决$ o \ big中的UOT问题(\ kappa n^2 \ log \ log \ big(big) \ frac {\ tau n} {\ varepsilon} \ big)\ big)$,其中$ \ kappa $是条件号,具体取决于两个输入度量。我们的算法是通过优化平方$ \ ell_2 $ -norm UOT目标的新的双重配方设计的,从而填补了缺乏稀疏的UOT文献。最后,我们在运输计划和运输距离方面建立了UOT和OT之间近似误差的新颖表征。该结果阐明了一个新的主要瓶颈,该瓶颈被强大的OT文献忽略了:尽管OT放松了OT,因为UOT承认对离群值的稳健性,但计算出的UOT距离远离原始OT距离。我们通过基于Gem-uot从UOT中检索的原则方法来解决此类限制,并使用微调的$ \ tau $和后进程投影步骤来解决。关于合成和真实数据集的实验验证了我们的理论,并证明了我们的方法的良好性能。
translated by 谷歌翻译
最佳运输(OT)自然地出现在广泛的机器学习应用中,但可能经常成为计算瓶颈。最近,一行作品建议大致通过在低秩子空间中搜索\ emph {transport计划}来解决OT。然而,最佳运输计划通常不是低秩,这往往会产生大的近似误差。例如,当存在Monge的\ EMPH {Transport Map}时,运输计划是完整的排名。本文涉及具有足够精度和效率的OT距离的计算。提出了一种用于OT的新颖近似,其中运输计划可以分解成低级矩阵和稀疏矩阵的总和。理论上我们分析近似误差。然后设计增强拉格朗日方法以有效地计算运输计划。
translated by 谷歌翻译
Projection robust Wasserstein (PRW) distance, or Wasserstein projection pursuit (WPP), is a robust variant of the Wasserstein distance. Recent work suggests that this quantity is more robust than the standard Wasserstein distance, in particular when comparing probability measures in high-dimensions. However, it is ruled out for practical application because the optimization model is essentially non-convex and non-smooth which makes the computation intractable. Our contribution in this paper is to revisit the original motivation behind WPP/PRW, but take the hard route of showing that, despite its non-convexity and lack of nonsmoothness, and even despite some hardness results proved by~\citet{Niles-2019-Estimation} in a minimax sense, the original formulation for PRW/WPP \textit{can} be efficiently computed in practice using Riemannian optimization, yielding in relevant cases better behavior than its convex relaxation. More specifically, we provide three simple algorithms with solid theoretical guarantee on their complexity bound (one in the appendix), and demonstrate their effectiveness and efficiency by conducing extensive experiments on synthetic and real data. This paper provides a first step into a computational theory of the PRW distance and provides the links between optimal transport and Riemannian optimization.
translated by 谷歌翻译
最佳运输(OT)背后的匹配原理在机器学习中起着越来越重要的作用,这一趋势可以观察到ot被用来消除应用程序中的数据集(例如,单细胞基因组学)或用于改善更复杂的方法(例如,平衡平衡)注意变形金刚或自我监督的学习)。为了扩展到更具挑战性的问题,越来越多的共识要求求解器可以在数百万而不是数千点上运作。在\ cite {scetbon2021lowrank}中提倡的低级最佳运输方法(LOT)方法在这方面有几个诺言,并被证明可以补充更确定的熵正则化方法,能够将自己插入更复杂的管道中,例如Quadratic OT。批次将低成本耦合的搜索限制在具有低位级等级的耦合方面,在感兴趣的情况下产生线性时间算法。但是,只有在比较感兴趣的属性时,只有将批次方法视为熵正则化的合法竞争者,这些诺言才能实现,记分卡通常包含理论属性(统计复杂性和与其他方法)或实际方面(偏见,偏见,偏见,依据,,依据,统计复杂性和关系)高参数调整,初始化)。我们针对本文中的每个领域,以巩固计算OT中低级别方法的影响。
translated by 谷歌翻译
这项工作研究如何在不平衡最佳运输(OT)模型中引入熵正则化术语可能会改变其同质性相对于输入措施的均匀性。我们观察到在共同设置中(包括平衡OT和不平衡的OT,带有kullback-Leibler对边缘的分歧),尽管最佳的运输成本本身不是均匀的,最佳的运输计划和所谓的烟道分流确实是均匀的。然而,同质性不会在更一般的不平衡正则化最佳运输(围绕)模型中,例如使用总变化与边际的分歧的更常见的模型。我们建议修改熵正则化术语以检索围类的屏幕模型,同时保留标准屏幕模型的大多数属性。我们展示在用边界进行最佳运输时使用我们的同质围嘴(Hurot)模型的重要性,运输模型涉及到标准(不均匀)围局模型将产生不恰当行为的边缘地区的空间变化的差异。
translated by 谷歌翻译
我们研究稀疏的线性回归在一个代理网络上,建模为无向图(没有集中式节点)。估计问题被制定为当地套索损失函数的最小化,加上共识约束的二次惩罚 - 后者是获取分布式解决方案方法的工具。虽然在优化文献中广泛研究了基于惩罚的共识方法,但其高维设置中的统计和计算保证仍不清楚。这项工作提供了对此公开问题的答案。我们的贡献是两倍。 First, we establish statistical consistency of the estimator: under a suitable choice of the penalty parameter, the optimal solution of the penalized problem achieves near optimal minimax rate $\mathcal{O}(s \log d/N)$ in $\ell_2 $ -loss,$ s $是稀疏性值,$ d $是环境维度,$ n $是网络中的总示例大小 - 这与集中式采样率相匹配。其次,我们表明,应用于惩罚问题的近端梯度算法,它自然导致分布式实现,线性地收敛到集中统计误差的顺序的公差 - 速率比例为$ \ mathcal {o}( d)$,揭示不可避免的速度准确性困境。数值结果证明了衍生的采样率和收敛速率缩放的紧张性。
translated by 谷歌翻译
不平衡最佳传输(UOT)扩展了最佳传输(OT),以考虑质量变化以比较分布。这是使IT在ML应用程序中成功的至关重要,使其对数据标准化和异常值具有强大。基线算法陷入沉降,但其收敛速度可能比OT更慢。在这项工作中,我们确定了这种缺陷的原因,即缺乏迭代的全球正常化,其等效地对应于双口电的翻译。我们的第一款贡献利用了这种想法来开发一种可怕的加速陷阱算法(为UOT开发了一种可怕的陷阱算法(创建了“翻译不变的烟囱”),弥合了与OT的计算间隙。我们的第二次贡献侧重于1-D UOT,并提出了一个适用于这种翻译不变制剂的弗兰克 - 沃尔夫求解器。每个步骤的线性oracle都能求解1-D OT问题,从而导致每个迭代的线性时间复杂度。我们的最后贡献将这种方法扩展到计算1-D措施的UOT BaryCenter。数值模拟展示这三种方法带来的收敛速度改进。
translated by 谷歌翻译
广义自我符合是许多重要学习问题的目标功能中存在的关键属性。我们建立了一个简单的Frank-Wolfe变体的收敛速率,该变体使用开环步数策略$ \ gamma_t = 2/(t+2)$,获得了$ \ Mathcal {o}(1/t)$收敛率对于这类功能,就原始差距和弗兰克 - 沃尔夫差距而言,$ t $是迭代计数。这避免了使用二阶信息或估计以前工作的局部平滑度参数的需求。我们还显示了各种常见病例的收敛速率的提高,例如,当所考虑的可行区域均匀地凸或多面体时。
translated by 谷歌翻译
本文认为具有非线性耦合约束的多块非斜率非凸优化问题。通过开发使用信息区和提出的自适应制度的想法[J.Bolte,S。Sabach和M. Teboulle,NonConvex Lagrangian优化:监视方案和全球收敛性,运营研究数学,43:1210--1232,2018],我们提出了一种多键交替方向来解决此问题的多块交替方向方法。我们通过在每个块更新中采用大量最小化过程来指定原始变量的更新。进行了独立的收敛分析,以证明生成的序列与增强Lagrangian的临界点的随后和全局收敛。我们还建立了迭代复杂性,并为所提出的算法提供初步的数值结果。
translated by 谷歌翻译
在随机上下文的强盗设置中,对遗憾最小化算法进行了广泛的研究,但是他们的实例最少的最佳武器识别对应物仍然很少研究。在这项工作中,我们将重点关注$(\ epsilon,\ delta)$ - $ \ textit {pac} $设置:给定策略类$ \ pi $,学习者的目标是返回策略的目标, $ \ pi \ in \ pi $的预期奖励在最佳政策的$ \ epsilon $之内,概率大于$ 1- \ delta $。我们表征了第一个$ \ textit {实例依赖性} $ PAC样品通过数量$ \ rho _ {\ pi} $的上下文匪徒的复杂性,并根据$ \ rho _ {\ pi} $提供匹配的上和下限不可知论和线性上下文最佳武器标识设置。我们表明,对于遗憾的最小化和实例依赖性PAC而言,无法同时最小化算法。我们的主要结果是一种新的实例 - 最佳和计算有效算法,该算法依赖于多项式呼叫对Argmax Oracle的调用。
translated by 谷歌翻译
现代统计应用常常涉及最小化可能是非流动和/或非凸起的目标函数。本文侧重于广泛的Bregman-替代算法框架,包括本地线性近似,镜像下降,迭代阈值,DC编程以及许多其他实例。通过广义BREGMAN功能的重新发出使我们能够构建合适的误差测量并在可能高维度下建立非凸起和非凸起和非球形目标的全球收敛速率。对于稀疏的学习问题,在一些规律性条件下,所获得的估算器作为代理人的固定点,尽管不一定是局部最小化者,但享受可明确的统计保障,并且可以证明迭代顺序在所需的情况下接近统计事实准确地快速。本文还研究了如何通过仔细控制步骤和放松参数来设计基于适应性的动力的加速度而不假设凸性或平滑度。
translated by 谷歌翻译
通过在线规范相关性分析的问题,我们提出了\ emph {随机缩放梯度下降}(SSGD)算法,以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想,允许使用缩放的随机梯度而不是随机梯度。在特殊情况下,球形约束的特殊情况,在广义特征向量问题中产生的,我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本,并表明该速率最佳最佳,直至具有积极的积极因素相关参数。在渐近方面,一种新的轨迹平均争论使我们能够实现局部渐近常态,其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析,从事文献中的第一次获得了最佳的一次性尺度算法,其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。
translated by 谷歌翻译
我们考虑人口Wasserstein Barycenter问题,用于随机概率措施支持有限一组点,由在线数据流生成。这导致了复杂的随机优化问题,其中目标是作为作为随机优化问题的解决方案给出的函数的期望。我们采用了问题的结构,并获得了这个问题的凸凹陷的随机鞍点重构。在设置随机概率措施的分布是离散的情况下,我们提出了一种随机优化算法并估计其复杂性。基于内核方法的第二个结果将前一个延伸到随机概率措施的任意分布。此外,这种新算法在许多情况下,与随机近似方法相结合的随机近似方法,具有优于随机近似方法的总复杂性。我们还通过一系列数值实验说明了我们的发展。
translated by 谷歌翻译
BREGMAN近端点算法(BPPA)是优化工具箱中的核心之一,一直在目睹新兴应用程序。通过简单易于实现更新规则,该算法对实证成功进行了几种引人注目的直觉,但严格的理由仍然很大程度上是未开发的。我们通过具有可分离数据的分类任务研究BPPA的计算属性,并证明与BPPA相关的可提供算法正则化效果。我们表明BPPA达到了非平凡的余量,这密切依赖于诱导BREGMAN发散的距离产生功能的条件数。我们进一步证明,对于一类问题,对条件数量的依赖性是紧张的,从而表明发散在影响所获得的解决方案的质量方面的重要性。此外,我们还将我们的调查结果扩展到镜像血统(MD),我们建立了边缘和BREGMAN发散之间的类似联系。我们通过具体示例演示,并显示BPPA / MD在相对于Mahalanobis距离的最大边缘解决方案方向上会聚。我们的理论调查结果是第一个展示良性学习特性BPPA / MD的态度,并且还提供校正算法设计中仔细选择的腐败。
translated by 谷歌翻译
Convex function constrained optimization has received growing research interests lately. For a special convex problem which has strongly convex function constraints, we develop a new accelerated primal-dual first-order method that obtains an $\Ocal(1/\sqrt{\vep})$ complexity bound, improving the $\Ocal(1/{\vep})$ result for the state-of-the-art first-order methods. The key ingredient to our development is some novel techniques to progressively estimate the strong convexity of the Lagrangian function, which enables adaptive step-size selection and faster convergence performance. In addition, we show that the complexity is further improvable in terms of the dependence on some problem parameter, via a restart scheme that calls the accelerated method repeatedly. As an application, we consider sparsity-inducing constrained optimization which has a separable convex objective and a strongly convex loss constraint. In addition to achieving fast convergence, we show that the restarted method can effectively identify the sparsity pattern (active-set) of the optimal solution in finite steps. To the best of our knowledge, this is the first active-set identification result for sparsity-inducing constrained optimization.
translated by 谷歌翻译
在这项工作中,我们提出了一批Greenkhorn算法的多压正规化最佳运输问题。我们的框架足够普遍,可以涵盖一些现有的案例,如烟囱和Greenkhorn算法,用于双边缘设置,(贪婪)多光线灯,用于多压最佳运输。我们提供完整的汇聚分析,这是基于具有贪婪控制的迭代BREGMAN投影(IBP)方法的属性。获得了迭代复杂性的全局的收敛性和显式界限。当专门提到上述算法时,我们的结果提供了新的见解和/或改善现有的。
translated by 谷歌翻译
最近,已经显示,与流行的基于Kullback Leibler(KL)的正则化不同,基于最佳运输(OT)的最大平均差异(MMD)正则化导致了对估计样品复杂性的无维度。另一方面,分别使用总变异和基于KL的正规化来定义有趣的指标类别(GHK)等有趣的指标类别和高斯 - 赫林格 - 坎托维奇(GHK)指标。但是,如果可以使用样品有效的MMD正则化定义适当的指标,则是一个空旷的问题。在这项工作中,我们不仅弥合了这一差距,而且进一步考虑了基于积分概率指标(IPM)的通用正规化家族,其中包括MMD作为特殊情况。我们提出了新颖的IPM正规化$ P $ - WASSERSTEIN风格的OT配方,并证明它们确实诱导了指标。尽管其中一些新型指标可以解释为IPM的虚拟卷积,但有趣的是,事实证明是GW和GHK指标的IPM-Analogues。最后,我们提出了基于样品的有限公式,用于估计平方-MMD正则化度量和相应的barycenter。我们从经验上研究了拟议指标的其他理想特性,并显示了它们在各种机器学习应用中的适用性。
translated by 谷歌翻译
K-Subspaces(KSS)方法是用于子空间聚类的K-均值方法的概括。在这项工作中,我们介绍了KSS的本地收敛分析和恢复保证,假设数据是由Smari-random的子空间模型生成的,其中$ n $点是从$ k \ ge 2 $重叠子空间随机采样的。我们表明,如果KSS方法的初始分配位于真实聚类的邻域内,则它以高等的速率收敛,并在$ \ theta(\ log \ log \ log n)$迭代中找到正确的群集。此外,我们提出了一种基于阈值的基于内部产品的光谱方法来初始化,并证明它在该社区中产生了一个点。我们还提出了研究方法的数值结果,以支持我们的理论发展。
translated by 谷歌翻译
最近表明,在光滑状态下,可以通过吸引统计误差上限可以有效地计算两个分布之间的平方Wasserstein距离。然而,而不是距离本身,生成建模等应用的感兴趣对象是底层的最佳运输地图。因此,需要为估计的地图本身获得计算和统计保证。在本文中,我们提出了第一种统计$ L ^ 2 $错误的第一批量算法几乎匹配了现有的最低限度用于平滑地图估计。我们的方法是基于解决具有无限尺寸的平方和重构的最佳运输的半双向配方,并导致样品数量的无尺寸多项式速率的算法,具有潜在指数的维度依赖性常数。
translated by 谷歌翻译
我们研究了平均奖励马尔可夫决策过程(AMDP)的问题,并开发了具有强大理论保证的新型一阶方法,以进行政策评估和优化。由于缺乏勘探,现有的彻底评估方法遭受了次优融合率以及处理不足的随机策略(例如确定性政策)的失败。为了解决这些问题,我们开发了一种新颖的差异时间差异(VRTD)方法,具有随机策略的线性函数近似以及最佳收敛保证,以及一种探索性方差降低的时间差(EVRTD)方法,用于不充分的随机策略,可相当的融合保证。我们进一步建立了政策评估偏见的线性收敛速率,这对于改善策略优化的总体样本复杂性至关重要。另一方面,与对MDP的政策梯度方法的有限样本分析相比,对AMDP的策略梯度方法的现有研究主要集中在基础马尔可夫流程的限制性假设下(例如,参见Abbasi-e, Yadkori等人,2019年),他们通常缺乏整体样本复杂性的保证。为此,我们开发了随机策略镜下降(SPMD)的平均奖励变体(LAN,2022)。我们建立了第一个$ \ widetilde {\ Mathcal {o}}(\ epsilon^{ - 2})$样品复杂性,用于在生成模型(带有UNICHAIN假设)和Markovian Noise模型(使用Ergodicicic Modele(具有核能的模型)下,使用策略梯度方法求解AMDP假设)。该界限可以进一步改进到$ \ widetilde {\ Mathcal {o}}}(\ epsilon^{ - 1})$用于求解正则化AMDPS。我们的理论优势通过数值实验来证实。
translated by 谷歌翻译