每次使用新的(但类似)数据的应用程序都必须重复解决优化问题的应用。可以手动设计分析优化算法以迭代方式解决这些问题。一方面,数据驱动的算法可以“学习优化”(L2O),其迭代率较少,而每次迭代的成本与通用优化算法相似。另一方面,不幸的是,许多L2O算法缺乏融合保证。为了融合这些方法的优势,我们提出了一个安全的L2O框架。 Safe-L2O更新结合了保障措施,以保证近端和/或梯度甲状管的凸问题收敛。安全性在实现方面很简单且计算便宜,并且只有在数据驱动的L2O更新性能较差或似乎差异时,它才会被激活。这产生了使用机器学习来创建快速L2O算法的数值好处,同时仍然保证收敛。我们的数值示例表明,即使提供的数据不是来自培训数据的分布,Safe-L2O算法的收敛性也是如此。
translated by 谷歌翻译
近年来,在诸如denoing,压缩感应,介入和超分辨率等反问题中使用深度学习方法的使用取得了重大进展。尽管这种作品主要是由实践算法和实验驱动的,但它也引起了各种有趣的理论问题。在本文中,我们调查了这一作品中一些突出的理论发展,尤其是生成先验,未经训练的神经网络先验和展开算法。除了总结这些主题中的现有结果外,我们还强调了一些持续的挑战和开放问题。
translated by 谷歌翻译
最近有兴趣的兴趣在教师学生环境中的各种普遍性线性估计问题中的渐近重建性能研究,特别是对于I.I.D标准正常矩阵的案例。在这里,我们超越这些矩阵,并证明了具有具有任意界限频谱的旋转不变数据矩阵的凸遍的线性模型的重建性能的分析公式,严格地确认使用来自统计物理的副本衍生的猜想。该公式包括许多问题,例如压缩感测或稀疏物流分类。通过利用消息通过算法和迭代的统计特性来实现证明,允许表征估计器的渐近实证分布。我们的证据是基于构建Oracle多层向量近似消息传递算法的会聚序列的构建,其中通过检查等效动态系统的稳定性来完成收敛分析。我们说明了我们对主流学习方法的数值示例的要求,例如稀疏的逻辑回归和线性支持矢量分类器,显示中等大小模拟和渐近预测之间的良好一致性。
translated by 谷歌翻译
一类非平滑实践优化问题可以写成,以最大程度地减少平滑且部分平滑的功能。我们考虑了这种结构化问题,这些问题也取决于参数矢量,并研究了将其解决方案映射相对于参数的问题,该参数在灵敏度分析和参数学习选择材料问题中具有很大的应用。我们表明,在部分平滑度和其他温和假设下,近端分裂算法产生的序列的自动分化(AD)会收敛于溶液映射的衍生物。对于一种自动分化的变体,我们称定点自动分化(FPAD),我们纠正了反向模式AD的内存开销问题,此外,理论上提供了更快的收敛。我们从数值上说明了套索和组套索问题的AD和FPAD的收敛性和收敛速率,并通过学习正则化项来证明FPAD在原型实用图像deoise问题上的工作。
translated by 谷歌翻译
我们提出了一个基于一般学习的框架,用于解决非平滑和非凸图像重建问题。我们将正则函数建模为$ l_ {2,1} $ norm的组成,并将平滑但非convex功能映射参数化为深卷积神经网络。我们通过利用Nesterov的平滑技术和残留学习的概念来开发一种可证明的趋同的下降型算法来解决非平滑非概念最小化问题,并学习网络参数,以使算法的输出与培训数据中的参考匹配。我们的方法用途广泛,因为人们可以将各种现代网络结构用于正规化,而所得网络继承了算法的保证收敛性。我们还表明,所提出的网络是参数有效的,其性能与实践中各种图像重建问题中的最新方法相比有利。
translated by 谷歌翻译
在本文中,我们研究了一类二聚体优化问题,也称为简单的双重优化,在其中,我们将光滑的目标函数最小化,而不是另一个凸的约束优化问题的最佳解决方案集。已经开发了几种解决此类问题的迭代方法。 las,它们的收敛保证并不令人满意,因为它们要么渐近,要么渐近,要么是收敛速度缓慢且最佳的。为了解决这个问题,在本文中,我们介绍了Frank-Wolfe(FW)方法的概括,以解决考虑的问题。我们方法的主要思想是通过切割平面在局部近似低级问题的解决方案集,然后运行FW型更新以减少上层目标。当上层目标是凸面时,我们表明我们的方法需要$ {\ mathcal {o}}(\ max \ {1/\ epsilon_f,1/\ epsilon_g \})$迭代才能找到$ \ \ \ \ \ \ epsilon_f $ - 最佳目标目标和$ \ epsilon_g $ - 最佳目标目标。此外,当高级目标是非convex时,我们的方法需要$ {\ MATHCAL {o}}(\ max \ {1/\ epsilon_f^2,1/(\ epsilon_f \ epsilon_g})查找$(\ epsilon_f,\ epsilon_g)$ - 最佳解决方案。我们进一步证明了在“较低级别问题的老年人错误约束假设”下的更强的融合保证。据我们所知,我们的方法实现了所考虑的二聚体问题的最著名的迭代复杂性。我们还向数值实验提出了数值实验。与最先进的方法相比,展示了我们方法的出色性能。
translated by 谷歌翻译
广义线性模型(GLM)形成了一类广泛的回归和分类模型,其中预测是输入变量的线性组合的函数。对于高维度的统计推断,事实证明,诱导正规化的稀疏性在提供统计保证时很有用。但是,解决最终的优化问题可能具有挑战性:即使对于流行的迭代算法,例如协调下降,也需要在大量变量上循环。为了减轻这种情况,称为筛选规则和工作集的技术可以通过逐步删除变量或解决增长的较小问题的序列来减少手头优化问题的大小。对于这两种技术,都可以鉴定出大量变量,这要归功于凸双重性论点。在本文中,我们表明,GLM的双重迭代在标志识别后表现出矢量自回归(VAR)行为,当使用近端梯度下降或环状坐标下降解决原始问题时。利用这种规律性,可以构建双重点,以提供最佳的最佳证书,增强筛选规则的性能并帮助设计竞争性的工作集算法。
translated by 谷歌翻译
最近,优化衍生的学习(ODL)吸引了学习和视觉领域的关注,该学习和视觉领域从优化的角度设计了学习模型。但是,以前的ODL方法将训练和超训练程序视为两个分离的阶段,这意味着在训练过程中必须固定超训练变量,因此也不可能同时获得训练和超级培训的收敛性训练变量。在这项工作中,我们将基于定点迭代的广义Krasnoselkii-Mann(GKM)计划设计为我们的基本ODL模块,该模块将现有的ODL方法统一为特殊情况。在GKM方案下,构建了双级元优化(BMO)算法框架,以共同解决最佳训练和超训练变量。我们严格地证明了训练定点迭代的基本关节融合以及优化超训练的超训练的过程,无论是在近似质量方面还是在固定分析上。实验证明了BMO在稀疏编码和现实世界中的竞争性能的效率,例如图像反卷积和降雨的删除。
translated by 谷歌翻译
稀疏数据的恢复是机器学习和信号处理中许多应用的核心。虽然可以使用$ \ ell_1 $ -regularization在套索估算器中使用此类问题,但在基础上,通常需要专用算法来解决大型实例的相应高维非平滑优化。迭代地重新重复的最小二乘(IRLS)是一种广泛使用的算法,其出于其优异的数值性能。然而,虽然现有理论能够保证该算法的收敛到最小化器,但它不提供全局收敛速度。在本文中,我们证明了IRLS的变型以全局线性速率收敛到稀疏解决方案,即,如果测量结果满足通常的空空间属性假设,则立即发生线性误差。我们通过数值实验支持我们的理论,表明我们的线性速率捕获了正确的维度依赖性。我们预计我们的理论调查结果将导致IRLS算法的许多其他用例的新见解,例如在低级矩阵恢复中。
translated by 谷歌翻译
本文提出了弗兰克 - 沃尔夫(FW)的新变种​​,称为$ k $ fw。标准FW遭受缓慢的收敛性:迭代通常是Zig-zag作为更新方向振荡约束集的极端点。新变种,$ k $ fw,通过在每次迭代中使用两个更强的子问题oracelles克服了这个问题。第一个是$ k $线性优化Oracle($ k $ loo),计算$ k $最新的更新方向(而不是一个)。第二个是$ k $方向搜索($ k $ ds),最大限度地减少由$ k $最新更新方向和之前迭代表示的约束组的目标。当问题解决方案承认稀疏表示时,奥克斯都易于计算,而且$ k $ FW会迅速收敛,以便平滑凸起目标和几个有趣的约束集:$ k $ fw实现有限$ \ frac {4l_f ^ 3d ^} { \ Gamma \ Delta ^ 2} $融合在多台和集团规范球上,以及光谱和核规范球上的线性收敛。数值实验验证了$ k $ fw的有效性,并展示了现有方法的数量级加速。
translated by 谷歌翻译
目前的论文研究了最小化损失$ f(\ boldsymbol {x})$的问题,而在s $ \ boldsymbol {d} \ boldsymbol {x} \的约束,其中$ s $是一个关闭的集合,凸面或非,$ \ boldsymbol {d} $是熔化参数的矩阵。融合约束可以捕获平滑度,稀疏或更一般的约束模式。为了解决这个通用的问题,我们将Beltrami-Courant罚球方法与近距离原则相结合。后者是通过最小化惩罚目标的推动$ f(\ boldsymbol {x})+ \ frac {\ rho} {2} \ text {dist}(\ boldsymbol {d} \ boldsymbol {x},s)^ 2 $涉及大型调整常量$ \ rho $和$ \ boldsymbol {d} \ boldsymbol {x} $的平方欧几里德距离$ s $。通过最小化大多数代理函数$ f(\ boldsymbol {x},从当前迭代$ \ boldsymbol {x} _n $构建相应的近距离算法的下一个迭代$ \ boldsymbol {x} _ {n + 1} $。 )+ \ frac {\ rho} {2} \ | \ boldsymbol {d} \ boldsymbol {x} - \ mathcal {p} _ {s}(\ boldsymbol {d} \ boldsymbol {x} _n)\ | ^ 2 $。对于固定$ \ rho $和subanalytic损失$ f(\ boldsymbol {x})$和子质约束设置$ s $,我们证明了汇聚点。在更强大的假设下,我们提供了收敛速率并展示线性本地收敛性。我们还构造了一个最陡的下降(SD)变型,以避免昂贵的线性系统解决。为了基准我们的算法,我们比较乘法器(ADMM)的交替方向方法。我们广泛的数值测试包括在度量投影,凸回归,凸聚类,总变化图像去噪和矩阵的投影到良好状态数的问题。这些实验表明了我们在高维问题上最陡的速度和可接受的准确性。
translated by 谷歌翻译
Iterative regularization is a classic idea in regularization theory, that has recently become popular in machine learning. On the one hand, it allows to design efficient algorithms controlling at the same time numerical and statistical accuracy. On the other hand it allows to shed light on the learning curves observed while training neural networks. In this paper, we focus on iterative regularization in the context of classification. After contrasting this setting with that of regression and inverse problems, we develop an iterative regularization approach based on the use of the hinge loss function. More precisely we consider a diagonal approach for a family of algorithms for which we prove convergence as well as rates of convergence. Our approach compares favorably with other alternatives, as confirmed also in numerical simulations.
translated by 谷歌翻译
在线张量分解(OTF)是一种从流媒体多模态数据学习低维解释特征的基本工具。虽然最近已经调查了OTF的各种算法和理论方面,但仍然甚至缺乏任何不连贯或稀疏假设的客观函数的静止点的一般会聚保证仍然缺乏仍然缺乏缺乏。案件。在这项工作中,我们介绍了一种新颖的算法,该算法从一般约束下的给定的张力值数据流中学习了CANDECOMP / PARAFAC(CP),包括诱导学习CP的解释性的非承诺约束。我们证明我们的算法几乎肯定会收敛到目标函数的一组静止点,在该假设下,数据张集的序列由底层马尔可夫链产生。我们的环境涵盖了古典的i.i.d.案例以及广泛的应用程序上下文,包括由独立或MCMC采样生成的数据流。我们的结果缩小了OTF和在线矩阵分解在全局融合分析中的OTF和在线矩阵分解之间的差距\ Commhl {对于CP - 分解}。实验,我们表明我们的算法比合成和实际数据的非负张量分解任务的标准算法更快地收敛得多。此外,我们通过图像,视频和时间序列数据展示了我们算法对来自图像,视频和时间序列数据的多样化示例的实用性,示出了通过以多种方式利用张量结构来利用张量结构,如何从相同的张量数据中学习定性不同的CP字典。 。
translated by 谷歌翻译
约束的张量和矩阵分子化模型允许从多道数据中提取可解释模式。因此,对于受约束的低秩近似度的可识别性特性和有效算法是如此重要的研究主题。这项工作涉及低秩近似的因子矩阵的列,以众所周知的和可能的过度顺序稀疏,该模型包括基于字典的低秩近似(DLRA)。虽然早期的贡献集中在候选列字典内的发现因子列,即一稀疏的近似值,这项工作是第一个以大于1的稀疏性解决DLRA。我建议专注于稀疏编码的子问题,在解决DLRA时出现的混合稀疏编码(MSC)以交替的优化策略在解决DLRA时出现。提供了基于稀疏编码启发式的几种算法(贪婪方法,凸起放松)以解决MSC。在模拟数据上评估这些启发式的性能。然后,我展示了如何基于套索来调整一个有效的MSC求解器,以计算高光谱图像处理和化学测量学的背景下的基于词典的基于矩阵分解和规范的多adic分解。这些实验表明,DLRA扩展了低秩近似的建模能力,有助于降低估计方差并提高估计因子的可识别性和可解释性。
translated by 谷歌翻译
将数据作为几个原子的组合表示数据的字典学习问题,长期以来作为一种流行的学习统计信息和信号处理方法。最受欢迎的字典学习算法在稀疏编码和词典上的交替交替,富有的文献研究了其理论融合。神经卓越的展开稀疏编码网络的日益普及导致了经验发现,通过这种网络的反向化执行字典学习。本文通过Pudle提供了这些经验结果的第一个理论证明,可提供展开的展开字典学习方法。我们突出了损失,展开和背交对融合的影响。我们发现隐式加速:作为展开的函数,BackPropagated梯度会收敛得更快,比梯度从交替最小化更准确。我们通过合成和图像去噪实验补充我们的研究结果。调查结果支持使用加速深度学习优化器和展开网络用于字典学习。
translated by 谷歌翻译
由学习的迭代软阈值算法(Lista)的动机,我们介绍了一种适用于稀疏重建的一般性网络,从少数线性测量。通过在层之间允许各种重量共享度,我们为非常不同的神经网络类型提供统一分析,从复发到网络更类似于标准前馈神经网络。基于训练样本,通过经验风险最小化,我们旨在学习最佳网络参数,从而实现从其低维线性测量的最佳网络。我们通过分析由这种深网络组成的假设类的RadeMacher复杂性来衍生泛化界限,这也考虑了阈值参数。我们获得了对样本复杂性的估计,基本上只取决于参数和深度的数量。我们应用主要结果以获得几个实际示例的特定泛化界限,包括(隐式)字典学习和卷积神经网络的不同算法。
translated by 谷歌翻译
现代统计应用常常涉及最小化可能是非流动和/或非凸起的目标函数。本文侧重于广泛的Bregman-替代算法框架,包括本地线性近似,镜像下降,迭代阈值,DC编程以及许多其他实例。通过广义BREGMAN功能的重新发出使我们能够构建合适的误差测量并在可能高维度下建立非凸起和非凸起和非球形目标的全球收敛速率。对于稀疏的学习问题,在一些规律性条件下,所获得的估算器作为代理人的固定点,尽管不一定是局部最小化者,但享受可明确的统计保障,并且可以证明迭代顺序在所需的情况下接近统计事实准确地快速。本文还研究了如何通过仔细控制步骤和放松参数来设计基于适应性的动力的加速度而不假设凸性或平滑度。
translated by 谷歌翻译
我们在高维批处理设置中提出了统计上健壮和计算高效的线性学习方法,其中功能$ d $的数量可能超过样本量$ n $。在通用学习环境中,我们采用两种算法,具体取决于所考虑的损失函数是否为梯度lipschitz。然后,我们将我们的框架实例化,包括几种应用程序,包括香草稀疏,群 - 帕克斯和低升级矩阵恢复。对于每种应用,这导致了有效而强大的学习算法,这些算法在重尾分布和异常值的存在下达到了近乎最佳的估计率。对于香草$ S $ -SPARSITY,我们能够以重型尾巴和$ \ eta $ - 腐败的计算成本与非企业类似物相当的计算成本达到$ s \ log(d)/n $速率。我们通过开放源代码$ \ mathtt {python} $库提供了有效的算法实现文献中提出的最新方法。
translated by 谷歌翻译
Sparsity promoting regularizers are widely used to impose low-complexity structure (e.g. l1-norm for sparsity) to the regression coefficients of supervised learning. In the realm of deterministic optimization, the sequence generated by iterative algorithms (such as proximal gradient descent) exhibit "finite activity identification", namely, they can identify the low-complexity structure in a finite number of iterations. However, most online algorithms (such as proximal stochastic gradient descent) do not have the property owing to the vanishing step-size and non-vanishing variance. In this paper, by combining with a screening rule, we show how to eliminate useless features of the iterates generated by online algorithms, and thereby enforce finite activity identification. One consequence is that when combined with any convergent online algorithm, sparsity properties imposed by the regularizer can be exploited for computational gains. Numerically, significant acceleration can be obtained.
translated by 谷歌翻译
We study stochastic monotone inclusion problems, which widely appear in machine learning applications, including robust regression and adversarial learning. We propose novel variants of stochastic Halpern iteration with recursive variance reduction. In the cocoercive -- and more generally Lipschitz-monotone -- setup, our algorithm attains $\epsilon$ norm of the operator with $\mathcal{O}(\frac{1}{\epsilon^3})$ stochastic operator evaluations, which significantly improves over state of the art $\mathcal{O}(\frac{1}{\epsilon^4})$ stochastic operator evaluations required for existing monotone inclusion solvers applied to the same problem classes. We further show how to couple one of the proposed variants of stochastic Halpern iteration with a scheduled restart scheme to solve stochastic monotone inclusion problems with ${\mathcal{O}}(\frac{\log(1/\epsilon)}{\epsilon^2})$ stochastic operator evaluations under additional sharpness or strong monotonicity assumptions.
translated by 谷歌翻译