最近,优化衍生的学习(ODL)吸引了学习和视觉领域的关注,该学习和视觉领域从优化的角度设计了学习模型。但是,以前的ODL方法将训练和超训练程序视为两个分离的阶段,这意味着在训练过程中必须固定超训练变量,因此也不可能同时获得训练和超级培训的收敛性训练变量。在这项工作中,我们将基于定点迭代的广义Krasnoselkii-Mann(GKM)计划设计为我们的基本ODL模块,该模块将现有的ODL方法统一为特殊情况。在GKM方案下,构建了双级元优化(BMO)算法框架,以共同解决最佳训练和超训练变量。我们严格地证明了训练定点迭代的基本关节融合以及优化超训练的超训练的过程,无论是在近似质量方面还是在固定分析上。实验证明了BMO在稀疏编码和现实世界中的竞争性能的效率,例如图像反卷积和降雨的删除。
translated by 谷歌翻译
近年来,已经开发出各种基于梯度的方法来解决机器学习和计算机视觉地区的双层优化(BLO)问题。然而,这些现有方法的理论正确性和实际有效性总是依赖于某些限制性条件(例如,下层单身,LLS),这在现实世界中可能很难满足。此外,以前的文献仅证明了基于其特定的迭代策略的理论结果,因此缺乏一般的配方,以统一分析不同梯度的BLO的收敛行为。在这项工作中,我们从乐观的双级视点制定BLOS,并建立一个名为Bi-Level血液血统聚合(BDA)的新梯度的算法框架,以部分地解决上述问题。具体而言,BDA提供模块化结构,以分级地聚合上层和下层子问题以生成我们的双级迭代动态。从理论上讲,我们建立了一般会聚分析模板,并导出了一种新的证据方法,以研究基于梯度的BLO方法的基本理论特性。此外,这项工作系统地探讨了BDA在不同优化场景中的收敛行为,即,考虑从解决近似子问题返回的各种解决方案质量(即,全局/本地/静止解决方案)。广泛的实验证明了我们的理论结果,并展示了所提出的超参数优化和元学习任务算法的优越性。源代码可在https://github.com/vis-opt-group/bda中获得。
translated by 谷歌翻译
本文首先提出了一种凸双翼优化范例,可以在现实世界场景中制定和优化流行的学习和视觉问题。与传统方法不同,直接基于给定的问题制定设计其迭代方案,我们将任务导向的能量引入我们的潜在约束,这集成了更丰富的任务信息。通过明确地重新表征可行性,我们建立了一种高效且灵活的算法框架,可以使用缩小解决方案空间和强大的辅助(基于任务的域知识和数据分布)来解决凸模型。理论上,我们提出了基于潜在可行性重新表征的数值策略的收敛分析。我们还在计算误差扰动下分析了理论会聚的稳定性。进行了广泛的数值实验,以验证我们的理论调查结果,并评估我们对不同应用方法的实际表现。
translated by 谷歌翻译
二重优化发现在现代机器学习问题中发现了广泛的应用,例如超参数优化,神经体系结构搜索,元学习等。而具有独特的内部最小点(例如,内部功能是强烈凸的,都具有唯一的内在最小点)的理解,这是充分理解的,多个内部最小点的问题仍然是具有挑战性和开放的。为此问题设计的现有算法适用于限制情况,并且不能完全保证融合。在本文中,我们采用了双重优化的重新制定来限制优化,并通过原始的双二线优化(PDBO)算法解决了问题。 PDBO不仅解决了多个内部最小挑战,而且还具有完全一阶效率的情况,而无需涉及二阶Hessian和Jacobian计算,而不是大多数现有的基于梯度的二杆算法。我们进一步表征了PDBO的收敛速率,它是与多个内部最小值的双光线优化的第一个已知的非质合收敛保证。我们的实验证明了所提出的方法的预期性能。
translated by 谷歌翻译
我们研究了具有有限和结构的平滑非凸化优化问题的随机重新洗脱(RR)方法。虽然该方法在诸如神经网络的训练之类的实践中广泛利用,但其会聚行为仅在几个有限的环境中被理解。在本文中,在众所周知的Kurdyka-LojasiewiCz(KL)不等式下,我们建立了具有适当递减步长尺寸的RR的强极限点收敛结果,即,RR产生的整个迭代序列是会聚并会聚到单个静止点几乎肯定的感觉。 In addition, we derive the corresponding rate of convergence, depending on the KL exponent and the suitably selected diminishing step sizes.当KL指数在$ [0,\ FRAC12] $以$ [0,\ FRAC12] $时,收敛率以$ \ mathcal {o}(t ^ { - 1})$的速率计算,以$ t $ counting迭代号。当KL指数属于$(\ FRAC12,1)$时,我们的派生收敛速率是FORM $ \ MATHCAL {O}(T ^ { - Q})$,$ Q \ IN(0,1)$取决于在KL指数上。基于标准的KL不等式的收敛分析框架仅适用于具有某种阶段性的算法。我们对基于KL不等式的步长尺寸减少的非下降RR方法进行了新的收敛性分析,这概括了标准KL框架。我们总结了我们在非正式分析框架中的主要步骤和核心思想,这些框架是独立的兴趣。作为本框架的直接应用,我们还建立了类似的强极限点收敛结果,为重组的近端点法。
translated by 谷歌翻译
一类非平滑实践优化问题可以写成,以最大程度地减少平滑且部分平滑的功能。我们考虑了这种结构化问题,这些问题也取决于参数矢量,并研究了将其解决方案映射相对于参数的问题,该参数在灵敏度分析和参数学习选择材料问题中具有很大的应用。我们表明,在部分平滑度和其他温和假设下,近端分裂算法产生的序列的自动分化(AD)会收敛于溶液映射的衍生物。对于一种自动分化的变体,我们称定点自动分化(FPAD),我们纠正了反向模式AD的内存开销问题,此外,理论上提供了更快的收敛。我们从数值上说明了套索和组套索问题的AD和FPAD的收敛性和收敛速率,并通过学习正则化项来证明FPAD在原型实用图像deoise问题上的工作。
translated by 谷歌翻译
我们提出了一个基于一般学习的框架,用于解决非平滑和非凸图像重建问题。我们将正则函数建模为$ l_ {2,1} $ norm的组成,并将平滑但非convex功能映射参数化为深卷积神经网络。我们通过利用Nesterov的平滑技术和残留学习的概念来开发一种可证明的趋同的下降型算法来解决非平滑非概念最小化问题,并学习网络参数,以使算法的输出与培训数据中的参考匹配。我们的方法用途广泛,因为人们可以将各种现代网络结构用于正规化,而所得网络继承了算法的保证收敛性。我们还表明,所提出的网络是参数有效的,其性能与实践中各种图像重建问题中的最新方法相比有利。
translated by 谷歌翻译
插件播放(PNP)方法通过迭代近端算法解决了不良的逆问题,通过替换近端操作员通过denoisising操作来解决。当使用深层神经网络Denoisers应用时,这些方法显示出用于图像恢复问题的最先进的视觉性能。但是,他们的理论收敛分析仍然不完整。大多数现有的融合结果都考虑非现实的非专业转换器,或者将其分析限制为在逆问题中强烈凸出数据验证项。最近,提议将DeNoiser作为梯度下降步骤训练,以通过深神经网络参数为参数。使用这样的DeNoiser保证PNP版本的半季度分解(PNP-HQS)迭代算法的收敛性。在本文中,我们表明该梯度Denoiser实际上可以对应于另一个标量函数的近端操作员。鉴于这一新结果,我们利用了非convex设置中近端算法的收敛理论,以获得PNP-PGD(近端梯度下降)和PNP-ADMM(乘数的交替方向方法)的收敛结果。当建立在光滑的梯度Denoiser之上时,我们表明PNP-PGD和PNP-ADMM是显式功能的收敛性和目标固定点。这些收敛结果通过数值实验进行了脱毛,超分辨率和内化。
translated by 谷歌翻译
基于梯度的高参数调整的优化方法可确保理论收敛到固定解决方案时,对于固定的上层变量值,双光线程序的下层级别强烈凸(LLSC)和平滑(LLS)。对于在许多机器学习算法中调整超参数引起的双重程序,不满足这种情况。在这项工作中,我们开发了一种基于不精确度(VF-IDCA)的基于依次收敛函数函数算法。我们表明,该算法从一系列的超级参数调整应用程序中实现了无LLSC和LLS假设的固定解决方案。我们的广泛实验证实了我们的理论发现,并表明,当应用于调子超参数时,提出的VF-IDCA会产生较高的性能。
translated by 谷歌翻译
每次使用新的(但类似)数据的应用程序都必须重复解决优化问题的应用。可以手动设计分析优化算法以迭代方式解决这些问题。一方面,数据驱动的算法可以“学习优化”(L2O),其迭代率较少,而每次迭代的成本与通用优化算法相似。另一方面,不幸的是,许多L2O算法缺乏融合保证。为了融合这些方法的优势,我们提出了一个安全的L2O框架。 Safe-L2O更新结合了保障措施,以保证近端和/或梯度甲状管的凸问题收敛。安全性在实现方面很简单且计算便宜,并且只有在数据驱动的L2O更新性能较差或似乎差异时,它才会被激活。这产生了使用机器学习来创建快速L2O算法的数值好处,同时仍然保证收敛。我们的数值示例表明,即使提供的数据不是来自培训数据的分布,Safe-L2O算法的收敛性也是如此。
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
在本文中,我们研究了一类二聚体优化问题,也称为简单的双重优化,在其中,我们将光滑的目标函数最小化,而不是另一个凸的约束优化问题的最佳解决方案集。已经开发了几种解决此类问题的迭代方法。 las,它们的收敛保证并不令人满意,因为它们要么渐近,要么渐近,要么是收敛速度缓慢且最佳的。为了解决这个问题,在本文中,我们介绍了Frank-Wolfe(FW)方法的概括,以解决考虑的问题。我们方法的主要思想是通过切割平面在局部近似低级问题的解决方案集,然后运行FW型更新以减少上层目标。当上层目标是凸面时,我们表明我们的方法需要$ {\ mathcal {o}}(\ max \ {1/\ epsilon_f,1/\ epsilon_g \})$迭代才能找到$ \ \ \ \ \ \ epsilon_f $ - 最佳目标目标和$ \ epsilon_g $ - 最佳目标目标。此外,当高级目标是非convex时,我们的方法需要$ {\ MATHCAL {o}}(\ max \ {1/\ epsilon_f^2,1/(\ epsilon_f \ epsilon_g})查找$(\ epsilon_f,\ epsilon_g)$ - 最佳解决方案。我们进一步证明了在“较低级别问题的老年人错误约束假设”下的更强的融合保证。据我们所知,我们的方法实现了所考虑的二聚体问题的最著名的迭代复杂性。我们还向数值实验提出了数值实验。与最先进的方法相比,展示了我们方法的出色性能。
translated by 谷歌翻译
现代统计应用常常涉及最小化可能是非流动和/或非凸起的目标函数。本文侧重于广泛的Bregman-替代算法框架,包括本地线性近似,镜像下降,迭代阈值,DC编程以及许多其他实例。通过广义BREGMAN功能的重新发出使我们能够构建合适的误差测量并在可能高维度下建立非凸起和非凸起和非球形目标的全球收敛速率。对于稀疏的学习问题,在一些规律性条件下,所获得的估算器作为代理人的固定点,尽管不一定是局部最小化者,但享受可明确的统计保障,并且可以证明迭代顺序在所需的情况下接近统计事实准确地快速。本文还研究了如何通过仔细控制步骤和放松参数来设计基于适应性的动力的加速度而不假设凸性或平滑度。
translated by 谷歌翻译
在许多机器学习应用程序中出现了非convex-concave min-max问题,包括最大程度地减少一组非凸函数的最大程度,并对神经网络的强大对抗训练。解决此问题的一种流行方法是梯度下降(GDA)算法,不幸的是,在非凸性的情况下可以表现出振荡。在本文中,我们引入了一种“平滑”方案,该方案可以与GDA结合以稳定振荡并确保收敛到固定溶液。我们证明,稳定的GDA算法可以实现$ O(1/\ epsilon^2)$迭代复杂性,以最大程度地减少有限的非convex函数收集的最大值。此外,平滑的GDA算法达到了$ O(1/\ epsilon^4)$ toseration复杂性,用于一般的nonconvex-concave问题。提出了这种稳定的GDA算法的扩展到多块情况。据我们所知,这是第一个实现$ o(1/\ epsilon^2)$的算法,用于一类NonConvex-Concave问题。我们说明了稳定的GDA算法在健壮训练中的实际效率。
translated by 谷歌翻译
Theoretical properties of bilevel problems are well studied when the lower-level problem is strongly convex. In this work, we focus on bilevel optimization problems without the strong-convexity assumption. In these cases, we first show that the common local optimality measures such as KKT condition or regularization can lead to undesired consequences. Then, we aim to identify the mildest conditions that make bilevel problems tractable. We identify two classes of growth conditions on the lower-level objective that leads to continuity. Under these assumptions, we show that the local optimality of the bilevel problem can be defined via the Goldstein stationarity condition of the hyper-objective. We then propose the Inexact Gradient-Free Method (IGFM) to solve the bilevel problem, using an approximate zeroth order oracle that is of independent interest. Our non-asymptotic analysis demonstrates that the proposed method can find a $(\delta, \varepsilon)$ Goldstein stationary point for bilevel problems with a zeroth order oracle complexity that is polynomial in $d, 1/\delta$ and $1/\varepsilon$.
translated by 谷歌翻译
本文考虑了一个规范聚类问题,其中一个人从两个椭圆分布的平衡混合物中获取未标记的样本,并旨在估计标签的分类器。许多流行的方法包括PCA和K-Meanse需要混合物的各个组分在稍微球形,并且在拉伸时表现不佳。为了克服这个问题,我们提出了一个非凸面的程序寻求仿射变换,将数据转换为一维点云集中在$ -1 $和1美元之后,之后群集变得容易。我们的理论贡献是两倍:(1)我们表明,当样品大小超过维度的一些恒定倍数时,非凸损耗功能表现出理想的几何特性,以及(2)我们利用这一点,以证明这是一个有效的第一 - 订单算法在没有良好的初始化的情况下实现了近最佳统计精度。我们还提出了一般的方法,用于聚类,具有灵活的特征变换和损失目标。
translated by 谷歌翻译
在本文中,我们介绍了泰坦(Titan),这是一种新型的惯性块最小化框架,用于非平滑非凸优化问题。据我们所知,泰坦是块坐标更新方法的第一个框架,该方法依赖于大型最小化框架,同时将惯性力嵌入到块更新的每个步骤中。惯性力是通过外推算子获得的,该操作员累积了重力和Nesterov型加速度,以作为特殊情况作为块近端梯度方法。通过选择各种替代功能,例如近端,Lipschitz梯度,布雷格曼,二次和复合替代功能,并通过改变外推操作员来生成一组丰富的惯性块坐标坐标更新方法。我们研究了泰坦生成序列的子顺序收敛以及全局收敛。我们说明了泰坦对两个重要的机器学习问题的有效性,即稀疏的非负矩阵分解和矩阵完成。
translated by 谷歌翻译
Iterative regularization is a classic idea in regularization theory, that has recently become popular in machine learning. On the one hand, it allows to design efficient algorithms controlling at the same time numerical and statistical accuracy. On the other hand it allows to shed light on the learning curves observed while training neural networks. In this paper, we focus on iterative regularization in the context of classification. After contrasting this setting with that of regression and inverse problems, we develop an iterative regularization approach based on the use of the hinge loss function. More precisely we consider a diagonal approach for a family of algorithms for which we prove convergence as well as rates of convergence. Our approach compares favorably with other alternatives, as confirmed also in numerical simulations.
translated by 谷歌翻译
本文提出了一种针对分布式凸复合优化问题的新型双重不精确拆分算法(DISA),其中本地损耗函数由$ L $ -SMOOTH的项组成,可能是由线性操作员组成的非平滑项。我们证明,当原始和双重尺寸$ \ tau $,$ \ beta $满足$ 0 <\ tau <{2}/{l} $和$ 0 <\ tau \ beta <1 $时,我们证明了DISA是收敛的。与现有的原始双侧近端分裂算法(PD-PSA)相比,DISA克服了收敛步骤范围对线性操作员欧几里得范围的依赖性。这意味着当欧几里得规范大时,DISA允许更大的步骤尺寸,从而确保其快速收敛。此外,我们分别在一般凸度和度量次级性下分别建立了disa的均值和线性收敛速率。此外,还提供了DISA的近似迭代版本,并证明了该近似版本的全局收敛性和sublinear收敛速率。最后,数值实验不仅证实了理论分析,而且还表明,与现有的PD-PSA相比,DISA达到了显着的加速度。
translated by 谷歌翻译
在张等人提出的意义上,我们研究了产生$(\ delta,\ epsilon)$固定点的甲骨复杂性。[2020]。虽然存在无尺寸的随机算法用于在$ \ widetilde {o}(1/\ delta \ epsilon^3)$一阶Oracle调用中产生此类点算法。另一方面,我们指出,可以将此速率取代以获得平滑函数,仅对对数依赖平滑度参数。此外,我们为此任务建立了几个下限,这些界限适用于任何随机算法,无论有或没有凸度。最后,我们展示了如何找到$(\ delta,\ epsilon)$ - 固定点的收敛速率,以防函数为凸,我们通过证明一般没有有限的时间算法可以使用点来激励这种设置凸功能的小亚级别也小。
translated by 谷歌翻译