我们研究了可以写入欧几里得凸函数的差异的地质凸(G-Convex)问题。这种结构出现在统计和机器学习中的几个优化问题中,例如,用于矩阵缩放,协方差的M估计器和Brascamp-Lieb不平等。我们的工作提供有效的算法,一方面利用G-Convexity来确保全球最优性以及保证迭代复杂性。另一方面,拆分结构使我们能够开发欧几里得最小化算法,这些算法可以帮助我们绕开计算昂贵的Riemannian操作(例如指数型地图和并行运输)的需求。我们通过将其专门针对机器学习文献中以前研究过的一些具体优化问题来说明我们的结果。最终,我们希望我们的工作有助于激励人们更广泛地寻找混合的欧几罗南优化算法。
translated by 谷歌翻译
我们研究无限制的黎曼优化的免投影方法。特别是,我们提出了黎曼弗兰克 - 沃尔夫(RFW)方法。我们将RFW的非渐近收敛率分析为最佳(高音)凸起问题,以及非凸起目标的临界点。我们还提出了一种实用的设置,其中RFW可以获得线性收敛速度。作为一个具体的例子,我们将RFW专用于正定矩阵的歧管,并将其应用于两个任务:(i)计算矩阵几何平均值(riemannian质心); (ii)计算Bures-Wasserstein重心。这两个任务都涉及大量凸间间隔约束,为此,我们表明RFW要求的Riemannian“线性”Oracle承认了闭合形式的解决方案;该结果可能是独立的兴趣。我们进一步专门从事RFW到特殊正交组,并表明这里也可以以封闭形式解决riemannian“线性”甲骨文。在这里,我们描述了数据矩阵同步的应用程序(促使问题)。我们补充了我们的理论结果,并对RFW对最先进的riemananian优化方法进行了实证比较,并观察到RFW竞争性地对计算黎曼心质的任务进行竞争性。
translated by 谷歌翻译
从最佳运输到稳健的维度降低,可以将大量的机器学习应用程序放入Riemannian歧管上的Min-Max优化问题中。尽管在欧几里得的环境中已经分析了许多最小的最大算法,但事实证明,将这些结果转化为Riemannian案例已被证明是难以捉摸的。张等。 [2022]最近表明,测量凸凹入的凹入问题总是容纳鞍点解决方案。受此结果的启发,我们研究了Riemannian和最佳欧几里得空间凸入concove算法之间的性能差距。我们在负面的情况下回答了这个问题,证明Riemannian校正的外部(RCEG)方法在地球上强烈convex-concove案例中以线性速率实现了最后近期收敛,与欧几里得结果匹配。我们的结果还扩展到随机或非平滑案例,在这种情况下,RCEG和Riemanian梯度上升下降(RGDA)达到了近乎最佳的收敛速率,直到因歧管的曲率而定为因素。
translated by 谷歌翻译
黎曼优化中加速梯度方法的研究最近见证了显着的进展。然而,与欧几里德的环境相比,利莫曼环境仍然缺乏对加速的系统理解。我们重新审视\ citet {monteiro2013accelerated}的\ citet {monteiro2013accelerated}的\ citeterated {monteiro2013accelerated},这是一个强大的框架,用于获得加速的欧几里德方法。随后,我们提出了一个Riemannian版的A-HPE。我们对Riemannian A-HPE分析的基础是欧几里德A-HPE的一系列洞察力,我们将仔细控制Riemannian几何形状引起的扭曲。我们描述了许多riemannian加速梯度方法作为我们框架的具体实例。
translated by 谷歌翻译
We consider a class of Riemannian optimization problems where the objective is the sum of a smooth function and a nonsmooth function, considered in the ambient space. This class of problems finds important applications in machine learning and statistics such as the sparse principal component analysis, sparse spectral clustering, and orthogonal dictionary learning. We propose a Riemannian alternating direction method of multipliers (ADMM) to solve this class of problems. Our algorithm adopts easily computable steps in each iteration. The iteration complexity of the proposed algorithm for obtaining an $\epsilon$-stationary point is analyzed under mild assumptions. To the best of our knowledge, this is the first Riemannian ADMM with provable convergence guarantee for solving Riemannian optimization problem with nonsmooth objective. Numerical experiments are conducted to demonstrate the advantage of the proposed method.
translated by 谷歌翻译
在本文中,我们通过推断在歧管上的迭代来提出一种简单的加速度方案,用于利曼梯度方法。我们显示何时从Riemannian梯度下降法生成迭代元素,加速方案是渐近地达到最佳收敛速率,并且比最近提出的Riemannian Nesterov加速梯度方法在计算上更有利。我们的实验验证了新型加速策略的实际好处。
translated by 谷歌翻译
Variance parameter estimation in linear mixed models is a challenge for many classical nonlinear optimization algorithms due to the positive-definiteness constraint of the random effects covariance matrix. We take a completely novel view on parameter estimation in linear mixed models by exploiting the intrinsic geometry of the parameter space. We formulate the problem of residual maximum likelihood estimation as an optimization problem on a Riemannian manifold. Based on the introduced formulation, we give geometric higher-order information on the problem via the Riemannian gradient and the Riemannian Hessian. Based on that, we test our approach with Riemannian optimization algorithms numerically. Our approach yields a higher quality of the variance parameter estimates compared to existing approaches.
translated by 谷歌翻译
现代统计应用常常涉及最小化可能是非流动和/或非凸起的目标函数。本文侧重于广泛的Bregman-替代算法框架,包括本地线性近似,镜像下降,迭代阈值,DC编程以及许多其他实例。通过广义BREGMAN功能的重新发出使我们能够构建合适的误差测量并在可能高维度下建立非凸起和非凸起和非球形目标的全球收敛速率。对于稀疏的学习问题,在一些规律性条件下,所获得的估算器作为代理人的固定点,尽管不一定是局部最小化者,但享受可明确的统计保障,并且可以证明迭代顺序在所需的情况下接近统计事实准确地快速。本文还研究了如何通过仔细控制步骤和放松参数来设计基于适应性的动力的加速度而不假设凸性或平滑度。
translated by 谷歌翻译
Projection robust Wasserstein (PRW) distance, or Wasserstein projection pursuit (WPP), is a robust variant of the Wasserstein distance. Recent work suggests that this quantity is more robust than the standard Wasserstein distance, in particular when comparing probability measures in high-dimensions. However, it is ruled out for practical application because the optimization model is essentially non-convex and non-smooth which makes the computation intractable. Our contribution in this paper is to revisit the original motivation behind WPP/PRW, but take the hard route of showing that, despite its non-convexity and lack of nonsmoothness, and even despite some hardness results proved by~\citet{Niles-2019-Estimation} in a minimax sense, the original formulation for PRW/WPP \textit{can} be efficiently computed in practice using Riemannian optimization, yielding in relevant cases better behavior than its convex relaxation. More specifically, we provide three simple algorithms with solid theoretical guarantee on their complexity bound (one in the appendix), and demonstrate their effectiveness and efficiency by conducing extensive experiments on synthetic and real data. This paper provides a first step into a computational theory of the PRW distance and provides the links between optimal transport and Riemannian optimization.
translated by 谷歌翻译
高斯混合模型是数据科学和统计数据中的强大工具,主要用于聚类和密度近似。估计模型参数的任务实际上是通过预期最大化(EM)算法来解决的,该算法在简单性和低介质成本方面具有好处。但是,如果存在大量隐藏信息或重叠簇,则EM收敛缓慢。高斯混合模型的多种流形优化方面的最新进展已引起人们的兴趣越来越大。我们为Riemannian Hessian引入了高斯混合模型的明确公式。最重要的是,我们提出了一种新的Riemannian Newton Trust-Region方法,该方法在运行时和迭代次数方面都优于当前方法。我们将方法应用于聚类问题和密度近似任务。与现有方法相比,我们的方法对于具有大量隐藏信息的数据非常强大。
translated by 谷歌翻译
通过在线规范相关性分析的问题,我们提出了\ emph {随机缩放梯度下降}(SSGD)算法,以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想,允许使用缩放的随机梯度而不是随机梯度。在特殊情况下,球形约束的特殊情况,在广义特征向量问题中产生的,我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本,并表明该速率最佳最佳,直至具有积极的积极因素相关参数。在渐近方面,一种新的轨迹平均争论使我们能够实现局部渐近常态,其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析,从事文献中的第一次获得了最佳的一次性尺度算法,其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。
translated by 谷歌翻译
Riemannian geometry provides powerful tools to explore the latent space of generative models while preserving the inherent structure of the data manifold. Lengths, energies and volume measures can be derived from a pullback metric, defined through the immersion that maps the latent space to the data space. With this in mind, most generative models are stochastic, and so is the pullback metric. Manipulating stochastic objects is strenuous in practice. In order to perform operations such as interpolations, or measuring the distance between data points, we need a deterministic approximation of the pullback metric. In this work, we are defining a new metric as the expected length derived from the stochastic pullback metric. We show this metric is Finslerian, and we compare it with the expected pullback metric. In high dimensions, we show that the metrics converge to each other at a rate of $\mathcal{O}\left(\frac{1}{D}\right)$.
translated by 谷歌翻译
Riemannian优化是解决优化问题的原则框架,其中所需的最佳被限制为光滑的歧管$ \ Mathcal {M} $。在此框架中设计的算法通常需要对歧管的几何描述,该描述通常包括切线空间,缩回和成本函数的梯度。但是,在许多情况下,由于缺乏信息或棘手的性能,只能访问这些元素的子集(或根本没有)。在本文中,我们提出了一种新颖的方法,可以在这种情况下执行近似Riemannian优化,其中约束歧管是$ \ r^{d} $的子手机。至少,我们的方法仅需要一组无噪用的成本函数$(\ x_ {i},y_ {i})\ in {\ mathcal {m}} \ times \ times \ times \ times \ times \ mathbb {r} $和内在的歧管$ \ MATHCAL {M} $的维度。使用样品,并利用歧管-MLS框架(Sober和Levin 2020),我们构建了缺少的组件的近似值,这些组件娱乐可证明的保证并分析其计算成本。如果某些组件通过分析给出(例如,如果成本函数及其梯度明确给出,或者可以计算切线空间),则可以轻松地适应该算法以使用准确的表达式而不是近似值。我们使用我们的方法分析了基于Riemannian梯度的方法的全球收敛性,并从经验上证明了该方法的强度,以及基于类似原理的共轭梯度类型方法。
translated by 谷歌翻译
本文研究了关于Riemannian流形的大规模优化问题,其目标函数是负面概要损失的有限总和。这些问题在各种机器学习和信号处理应用中出现。通过在歧管环境中引入Fisher信息矩阵的概念,我们提出了一种新型的Riemannian自然梯度方法,可以将其视为自然梯度方法的自然扩展,从欧几里得环境到歧管设置。我们在标准假设下建立了我们提出的方法的几乎纯净的全球融合。此外,我们表明,如果损失函数满足某些凸度和平稳性条件,并且输入输出图满足了雅各布稳定条件,那么我们提出的方法享有局部线性 - 或在Riemannian jacobian的Lipschitz连续性下,输入输出图,甚至二次 - 收敛速率。然后,我们证明,如果网络的宽度足够大,则可以通过具有批归归量的两层完全连接的神经网络来满足Riemannian Jacobian稳定性条件。这证明了我们的收敛率结果的实际相关性。对机器学习产生的应用的数值实验证明了该方法比最先进的方法的优势。
translated by 谷歌翻译
这项工作考虑了嵌套形式的功能组成优化,而每个函数都包含期望。这种类型的问题是在诸如增强学习中的策略评估或元学习中的模型定制中越来越受欢迎。不能直接应用用于非复合优化的标准riemannian随机梯度方法,因为内部功能的随机近似在外部函数的梯度中造成了偏见。为了进行两级组成优化,我们提出了一个Riemannian随机成分梯度下降(R-SCGD)方法,该方法找到了一个近似的固定点,预期平方的Riemannian梯度小于$ \ epsilon $,in $ O(\ epsilon^{-2 {-2) })$调用内部功能的外部功能和随机函数的随机梯度甲骨文的呼叫。此外,我们将R-SCGD算法概括为多层嵌套组成结构的问题,对于一阶随机甲骨文而言,具有$ O(\ epsilon^{ - 2})$的复杂性相同。最后,对R-SCGD方法的性能进行了数值评估,该方法在强化学习中的策略评估问题上进行了数值评估。
translated by 谷歌翻译
量子哈密顿学习和量子吉布斯采样的双重任务与物理和化学中的许多重要问题有关。在低温方案中,这些任务的算法通常会遭受施状能力,例如因样本或时间复杂性差而遭受。为了解决此类韧性,我们将量子自然梯度下降的概括引入了参数化的混合状态,并提供了稳健的一阶近似算法,即量子 - 固定镜下降。我们使用信息几何学和量子计量学的工具证明了双重任务的数据样本效率,因此首次将经典Fisher效率的开创性结果推广到变异量子算法。我们的方法扩展了以前样品有效的技术,以允许模型选择的灵活性,包括基于量子汉密尔顿的量子模型,包括基于量子的模型,这些模型可能会规避棘手的时间复杂性。我们的一阶算法是使用经典镜下降二元性的新型量子概括得出的。两种结果都需要特殊的度量选择,即Bogoliubov-Kubo-Mori度量。为了从数值上测试我们提出的算法,我们将它们的性能与现有基准进行了关于横向场ISING模型的量子Gibbs采样任务的现有基准。最后,我们提出了一种初始化策略,利用几何局部性来建模状态的序列(例如量子 - 故事过程)的序列。我们从经验上证明了它在实际和想象的时间演化的经验上,同时定义了更广泛的潜在应用。
translated by 谷歌翻译
矩阵正常模型,高斯矩阵变化分布的系列,其协方差矩阵是两个较低尺寸因子的Kronecker乘积,经常用于模拟矩阵变化数据。张量正常模型将该家庭推广到三个或更多因素的Kronecker产品。我们研究了矩阵和张量模型中协方差矩阵的Kronecker因子的估计。我们向几个自然度量中的最大似然估计器(MLE)实现的误差显示了非因素界限。与现有范围相比,我们的结果不依赖于条件良好或稀疏的因素。对于矩阵正常模型,我们所有的所有界限都是最佳的对数因子最佳,对于张量正常模型,我们对最大因数和整体协方差矩阵的绑定是最佳的,所以提供足够的样品以获得足够的样品以获得足够的样品常量Frobenius错误。在与我们的样本复杂性范围相同的制度中,我们表明迭代程序计算称为触发器算法称为触发器算法的MLE的线性地收敛,具有高概率。我们的主要工具是Fisher信息度量诱导的正面矩阵的几何中的测地强凸性。这种强大的凸起由某些随机量子通道的扩展来决定。我们还提供了数值证据,使得将触发器算法与简单的收缩估计器组合可以提高缺乏采样制度的性能。
translated by 谷歌翻译
We investigate the problem of recovering a partially observed high-rank matrix whose columns obey a nonlinear structure such as a union of subspaces, an algebraic variety or grouped in clusters. The recovery problem is formulated as the rank minimization of a nonlinear feature map applied to the original matrix, which is then further approximated by a constrained non-convex optimization problem involving the Grassmann manifold. We propose two sets of algorithms, one arising from Riemannian optimization and the other as an alternating minimization scheme, both of which include first- and second-order variants. Both sets of algorithms have theoretical guarantees. In particular, for the alternating minimization, we establish global convergence and worst-case complexity bounds. Additionally, using the Kurdyka-Lojasiewicz property, we show that the alternating minimization converges to a unique limit point. We provide extensive numerical results for the recovery of union of subspaces and clustering under entry sampling and dense Gaussian sampling. Our methods are competitive with existing approaches and, in particular, high accuracy is achieved in the recovery using Riemannian second-order methods.
translated by 谷歌翻译
许多重要的学习算法,例如随机梯度方法,通常被部署以解决Riemannian歧管上的非线性问题。在这些应用中,我们提出了一个概括和扩展Robbins和Monro的精确随机近似框架的Riemannian算法家族。与他们的欧几里得对应物相比,由于歧管上缺乏全局线性结构,Riemannian迭代算法的理解要少得多。我们通过引入扩展的费米坐标框架来克服这一困难,该框架使我们能够绘制拟议的Riemannian Robbins-Monro(RRM)算法类别的渐近行为,以在基础歧管上非常轻微的假设下,在相关的确定性动力学系统下的算法。这样一来,我们提供了一个几乎肯定的收敛结果的一般模板,该模板镜像并扩展了欧几里得robbins-Monro方案的现有理论,尽管其分析要大得多,需要大量的新几何成分。我们通过使用该框架来建立基于回缩的类似物的融合来展示提出的RRM框架的灵活性,以解决最小化问题和游戏的流行乐观 /额外梯度方法,并且我们为其收敛提供了统一的处理。
translated by 谷歌翻译
我们提出了一种基于langevin扩散的算法,以在球体的产物歧管上进行非凸优化和采样。在对数Sobolev不平等的情况下,我们根据Kullback-Leibler Divergence建立了有限的迭代迭代收敛到Gibbs分布的保证。我们表明,有了适当的温度选择,可以保证,次级最小值的次数差距很小,概率很高。作为一种应用,我们考虑了使用对角线约束解决半决赛程序(SDP)的burer- monteiro方法,并分析提出的langevin算法以优化非凸目标。特别是,我们为Burer建立了对数Sobolev的不平等现象 - 当没有虚假的局部最小值时,但在鞍点下,蒙蒂罗问题。结合结果,我们为SDP和最大切割问题提供了全局最佳保证。更确切地说,我们证明了Langevin算法在$ \ widetilde {\ omega}(\ epsilon^{ - 5})$ tererations $ tererations $ \ widetilde {\ omega}(\ omega}中,具有很高的概率。
translated by 谷歌翻译