智能论文笔记

Implicit differentiation for fast hyperparameter selection in non-smooth convex learning

Quentin Bertrand , Quentin Klopfenstein , Mathurin Massias , Mathieu Blondel , Samuel Vaiter , Alexandre Gramfort , Joseph Salmon

分类： (统计)机器学习 | 机器学习

2021-05-04

找到模型的最佳超参数可以作为双重优化问题，通常使用零级技术解决。在这项工作中，当内部优化问题是凸但不平滑时，我们研究一阶方法。我们表明，近端梯度下降和近端坐标下降序列序列的前向模式分化，雅各比人会收敛到精确的雅各布式。使用隐式差异化，我们表明可以利用内部问题的非平滑度来加快计算。最后，当内部优化问题大约解决时，我们对高度降低的误差提供了限制。关于回归和分类问题的结果揭示了高参数优化的计算益处，尤其是在需要多个超参数时。

translated by 谷歌翻译

Dual Extrapolation for Sparse Generalized Linear Models

Mathurin Massias , Samuel Vaiter , Alexandre Gramfort , Joseph Salmon

分类： (统计)机器学习 | 机器学习

2019-07-12

广义线性模型（GLM）形成了一类广泛的回归和分类模型，其中预测是输入变量的线性组合的函数。对于高维度的统计推断，事实证明，诱导正规化的稀疏性在提供统计保证时很有用。但是，解决最终的优化问题可能具有挑战性：即使对于流行的迭代算法，例如协调下降，也需要在大量变量上循环。为了减轻这种情况，称为筛选规则和工作集的技术可以通过逐步删除变量或解决增长的较小问题的序列来减少手头优化问题的大小。对于这两种技术，都可以鉴定出大量变量，这要归功于凸双重性论点。在本文中，我们表明，GLM的双重迭代在标志识别后表现出矢量自回归（VAR）行为，当使用近端梯度下降或环状坐标下降解决原始问题时。利用这种规律性，可以构建双重点，以提供最佳的最佳证书，增强筛选规则的性能并帮助设计竞争性的工作集算法。

translated by 谷歌翻译

Fixed-Point Automatic Differentiation of Forward--Backward Splitting Algorithms for Partly Smooth Functions

Sheheryar Mehmood , Peter Ochs

分类：机器学习

2022-08-05

一类非平滑实践优化问题可以写成，以最大程度地减少平滑且部分平滑的功能。我们考虑了这种结构化问题，这些问题也取决于参数矢量，并研究了将其解决方案映射相对于参数的问题，该参数在灵敏度分析和参数学习选择材料问题中具有很大的应用。我们表明，在部分平滑度和其他温和假设下，近端分裂算法产生的序列的自动分化（AD）会收敛于溶液映射的衍生物。对于一种自动分化的变体，我们称定点自动分化（FPAD），我们纠正了反向模式AD的内存开销问题，此外，理论上提供了更快的收敛。我们从数值上说明了套索和组套索问题的AD和FPAD的收敛性和收敛速率，并通过学习正则化项来证明FPAD在原型实用图像deoise问题上的工作。

translated by 谷歌翻译

A framework for bilevel optimization that enables stochastic and global variance reduction algorithms

Mathieu Dagréou , Pierre Ablin , Samuel Vaiter , Thomas Moreau

分类： (统计)机器学习 | 机器学习

2022-01-31

Bilevel优化是在机器学习的许多领域中最小化涉及另一个功能的价值函数的问题。在大规模的经验风险最小化设置中，样品数量很大，开发随机方法至关重要，而随机方法只能一次使用一些样品进行进展。但是，计算值函数的梯度涉及求解线性系统，这使得很难得出无偏的随机估计。为了克服这个问题，我们引入了一个新颖的框架，其中内部问题的解决方案，线性系统的解和主要变量同时发展。这些方向是作为总和写成的，使其直接得出无偏估计。我们方法的简单性使我们能够开发全球差异算法，其中所有变量的动力学都会降低差异。我们证明，萨巴（Saba）是我们框架中著名的传奇算法的改编，具有$ o（\ frac1t）$收敛速度，并且在polyak-lojasciewicz的假设下实现了线性收敛。这是验证这些属性之一的双光线优化的第一种随机算法。数值实验验证了我们方法的实用性。

translated by 谷歌翻译

Value Function Based Difference-of-Convex Algorithm for Bilevel Hyperparameter Selection Problems

Lucy Gao , Jane J. Ye , Haian Yin , Shangzhi Zeng , Jin Zhang

分类：机器学习

2022-06-13

基于梯度的高参数调整的优化方法可确保理论收敛到固定解决方案时，对于固定的上层变量值，双光线程序的下层级别强烈凸（LLSC）和平滑（LLS）。对于在许多机器学习算法中调整超参数引起的双重程序，不满足这种情况。在这项工作中，我们开发了一种基于不精确度（VF-IDCA）的基于依次收敛函数函数算法。我们表明，该算法从一系列的超级参数调整应用程序中实现了无LLSC和LLS假设的固定解决方案。我们的广泛实验证实了我们的理论发现，并表明，当应用于调子超参数时，提出的VF-IDCA会产生较高的性能。

translated by 谷歌翻译

Bilevel Optimization with a Lower-level Contraction: Optimal Sample Complexity without Warm-Start

Riccardo Grazzi , Massimiliano Pontil , Saverio Salzo

分类： (统计)机器学习 | 机器学习

2022-02-07

我们分析了一类养生问题，其中高级问题在于平滑的目标函数的最小化和下层问题是找到平滑收缩图的固定点。这种类型的问题包括元学习，平衡模型，超参数优化和数据中毒对抗性攻击的实例。最近的几项作品提出了算法，这些算法温暖了较低级别的问题，即他们使用先前的下级近似解决方案作为低级求解器的凝视点。这种温暖的启动程序使人们可以在随机和确定性设置中提高样品复杂性，在某些情况下可以实现订单的最佳样品复杂性。但是，存在一些情况，例如元学习和平衡模型，其中温暖的启动程序不适合或无效。在这项工作中，我们表明没有温暖的启动，仍然可以实现订单的最佳或近乎最佳的样品复杂性。特别是，我们提出了一种简单的方法，该方法在下层下使用随机固定点迭代，并在上层处预测不精确的梯度下降，该梯度下降到达$ \ epsilon $ -Stationary Point，使用$ O（\ Epsilon^{-2） }）$和$ \ tilde {o}（\ epsilon^{ - 1}）$样本分别用于随机和确定性设置。最后，与使用温暖启动的方法相比，我们的方法产生了更简单的分析，不需要研究上层和下层迭代之间的耦合相互作用

translated by 谷歌翻译

Asymptotic Errors for Teacher-Student Convex Generalized Linear Models (or : How to Prove Kabashima's Replica Formula)

Cedric Gerbelot , Alia Abbara , Florent Krzakala

分类： (统计)机器学习 | 机器学习

2020-06-11

最近有兴趣的兴趣在教师学生环境中的各种普遍性线性估计问题中的渐近重建性能研究，特别是对于I.I.D标准正常矩阵的案例。在这里，我们超越这些矩阵，并证明了具有具有任意界限频谱的旋转不变数据矩阵的凸遍的线性模型的重建性能的分析公式，严格地确认使用来自统计物理的副本衍生的猜想。该公式包括许多问题，例如压缩感测或稀疏物流分类。通过利用消息通过算法和迭代的统计特性来实现证明，允许表征估计器的渐近实证分布。我们的证据是基于构建Oracle多层向量近似消息传递算法的会聚序列的构建，其中通过检查等效动态系统的稳定性来完成收敛分析。我们说明了我们对主流学习方法的数值示例的要求，例如稀疏的逻辑回归和线性支持矢量分类器，显示中等大小模拟和渐近预测之间的良好一致性。

translated by 谷歌翻译

Amortized Implicit Differentiation for Stochastic Bilevel Optimization

Michael Arbel , Julien Mairal

分类：机器学习

2021-11-29

我们研究了一类算法，用于在内部级别物镜强烈凸起时求解随机和确定性设置中的彼此优化问题。具体地，我们考虑基于不精确的隐含区分的算法，并且我们利用热门开始策略来摊销精确梯度的估计。然后，我们介绍了一个统一的理论框架，受到奇异的扰动系统（Habets，1974）的研究来分析这种摊销算法。通过使用此框架，我们的分析显示了匹配可以访问梯度无偏见估计的Oracle方法的计算复杂度的算法，从而优于彼此优化的许多现有结果。我们在合成实验中说明了这些发现，并展示了这些算法对涉及几千个变量的超参数优化实验的效率。

translated by 谷歌翻译

Continuation Path with Linear Convergence Rate

Eugene Ndiaye , Ichiro Takeuchi

分类：机器学习

2021-12-09

路径跟踪算法经常用于复合优化问题，其中一系列具有不同正则化超参数的子问题，顺序解决。通过将以前的解决方案重用为初始化，在数值上观察到更好的收敛速度。这使得它成为加速机器学习中优化算法的执行的相当有用的启发式。我们提出了路径跟踪算法的原始双重分析，并探索了如何设计其超参数，以及确定每个子问题的解决方案应该如何解决，以保证目标问题的线性收敛速度。此外，考虑用稀疏诱导惩罚的优化，我们分析了关于正则化参数的活动集的变化。然后可以自适应地校准后者以精细地确定沿解决方案路径选择的特征的数量。这导致简单的启发式校准主动集方法的超级参数，以降低他们的复杂性并提高他们的执行时间。

translated by 谷歌翻译

Iterative regularization in classification via hinge loss diagonal descent

Vassilis Apidopoulos , Tomaso Poggio , Lorenzo Rosasco , Silvia Villa

分类： (统计)机器学习 | 机器学习

2022-12-24

Iterative regularization is a classic idea in regularization theory, that has recently become popular in machine learning. On the one hand, it allows to design efficient algorithms controlling at the same time numerical and statistical accuracy. On the other hand it allows to shed light on the learning curves observed while training neural networks. In this paper, we focus on iterative regularization in the context of classification. After contrasting this setting with that of regression and inverse problems, we develop an iterative regularization approach based on the use of the hinge loss function. More precisely we consider a diagonal approach for a family of algorithms for which we prove convergence as well as rates of convergence. Our approach compares favorably with other alternatives, as confirmed also in numerical simulations.

translated by 谷歌翻译

Recent Theoretical Advances in Non-Convex Optimization

Marina Danilova , Pavel Dvurechensky , Alexander Gasnikov , Eduard Gorbunov , Sergey Guminov , Dmitry Kamzolov , Innokentiy Shibaev

分类：机器学习

2020-12-11

近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加，我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始，显示一般非凸面问题无法在合理的时间内有效地解决。然后，我们提供了一个问题列表，可以通过利用问题的结构来有效地找到全球最小化器，因为可能的问题。处理非凸性的另一种方法是放宽目标，从找到全局最小，以找到静止点或局部最小值。对于该设置，我们首先为确定性一阶方法的收敛速率提出了已知结果，然后是最佳随机和随机梯度方案的一般理论分析，以及随机第一阶方法的概述。之后，我们讨论了非常一般的非凸面问题，例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能，这仍然允许获得一阶的理论融合保证方法。然后，我们考虑更高阶和零序/衍生物的方法及其收敛速率，以获得非凸优化问题。

translated by 谷歌翻译

A Primal-Dual Approach to Bilevel Optimization with Multiple Inner Minima

Daouda Sow , Kaiyi Ji , Ziwei Guan , Yingbin Liang

分类：机器学习 | (统计)机器学习

2022-03-01

二重优化发现在现代机器学习问题中发现了广泛的应用，例如超参数优化，神经体系结构搜索，元学习等。而具有独特的内部最小点（例如，内部功能是强烈凸的，都具有唯一的内在最小点）的理解，这是充分理解的，多个内部最小点的问题仍然是具有挑战性和开放的。为此问题设计的现有算法适用于限制情况，并且不能完全保证融合。在本文中，我们采用了双重优化的重新制定来限制优化，并通过原始的双二线优化（PDBO）算法解决了问题。 PDBO不仅解决了多个内部最小挑战，而且还具有完全一阶效率的情况，而无需涉及二阶Hessian和Jacobian计算，而不是大多数现有的基于梯度的二杆算法。我们进一步表征了PDBO的收敛速率，它是与多个内部最小值的双光线优化的第一个已知的非质合收敛保证。我们的实验证明了所提出的方法的预期性能。

translated by 谷歌翻译

Differentiating Nonsmooth Solutions to Parametric Monotone Inclusion Problems

Jérôme Bolte , Edouard Pauwels , Antonio José Silveti-Falls

分类：机器学习

2022-12-15

We leverage path differentiability and a recent result on nonsmooth implicit differentiation calculus to give sufficient conditions ensuring that the solution to a monotone inclusion problem will be path differentiable, with formulas for computing its generalized gradient. A direct consequence of our result is that these solutions happen to be differentiable almost everywhere. Our approach is fully compatible with automatic differentiation and comes with assumptions which are easy to check, roughly speaking: semialgebraicity and strong monotonicity. We illustrate the scope of our results by considering three fundamental composite problem settings: strongly convex problems, dual solutions to convex minimization problems and primal-dual solutions to min-max problems.

translated by 谷歌翻译

Fast Convex Optimization for Two-Layer ReLU Networks: Equivalent Model Classes and Cone Decompositions

Aaron Mishkin , Arda Sahiner , Mert Pilanci

分类：机器学习

2022-02-02

我们开发了快速算法和可靠软件，以凸出具有Relu激活功能的两层神经网络的凸优化。我们的工作利用了标准的重量罚款训练问题作为一组组-YELL_1 $调查的数据本地模型的凸重新印度，其中局部由多面体锥体约束强制执行。在零规范化的特殊情况下，我们表明此问题完全等同于凸“ Gated Relu”网络的不受约束的优化。对于非零正则化的问题，我们表明凸面式relu模型获得了RELU训练问题的数据依赖性近似范围。为了优化凸的重新制定，我们开发了一种加速的近端梯度方法和实用的增强拉格朗日求解器。我们表明，这些方法比针对非凸问题（例如SGD）和超越商业内部点求解器的标准训练启发式方法要快。在实验上，我们验证了我们的理论结果，探索组-ELL_1 $正则化路径，并对神经网络进行比例凸的优化，以在MNIST和CIFAR-10上进行图像分类。

translated by 谷歌翻译

Primal and Dual Prediction-Correction Methods for Time-Varying Convex Optimization

Nicola Bastianello , Andrea Simonetto , Ruggero Carli

分类：机器学习

2020-04-24

我们提出了一个基于预测校正范式的统一框架，用于在原始和双空间中的预测校正范式。在此框架中，以固定的间隔进行了连续变化的优化问题，并且每个问题都通过原始或双重校正步骤近似解决。通过预测步骤的输出，该解决方案方法是温暖启动的，该步骤的输出可以使用过去的信息解决未来问题的近似。在不同的假设集中研究并比较了预测方法。该框架涵盖的算法的示例是梯度方法的时变版本，分裂方法和著名的乘数交替方向方法（ADMM）。

translated by 谷歌翻译

An Accelerated Doubly Stochastic Gradient Method with Faster Explicit Model Identification

Runxue Bao , Bin Gu , Heng Huang

分类：机器学习

2022-08-11

稀疏性损失最小化问题在包括机器学习，数据挖掘和现代统计的各个领域中起着重要作用。近端梯度下降法和坐标下降法是解决最小化问题的最流行方法。尽管现有方法可以实现隐式模型识别，但在有限数量的迭代中，也就是支持集合识别，但在高维情况下，这些方法仍然遭受巨大的计算成本和内存负担。原因是这些方法中的支持集识别是隐式的，因此无法明确识别实践中的低复杂性结构，即，它们无法通过降低尺寸丢弃相关特征的无用系数，以实现算法加速。为了应对这一挑战，我们提出了一种新颖的加速双随机梯度下降（ADSGD）方法，用于稀疏性损失最小化问题，这可以通过在优化过程中消除无效系数来减少块迭代次数的数量，并最终实现更快的显式模型识别和改进的模型识别和改进和改进的模型识别和改进速度算法效率。从理论上讲，我们首先证明ADSGD可以达到线性收敛速率并降低总体计算复杂性。更重要的是，我们证明ADSGD可以实现显式模型识别的线性速率。从数值上讲，基准数据集上的实验结果证实了我们提出的方法的效率。

translated by 谷歌翻译

Bilevel Programming for Hyperparameter Optimization and Meta-Learning

Luca Franceschi , Paolo Frasconi , Saverio Salzo , Riccardo Grazzi , Massimilano Pontil

分类：

2018-06-13

We introduce a framework based on bilevel programming that unifies gradient-based hyperparameter optimization and meta-learning. We show that an approximate version of the bilevel problem can be solved by taking into explicit account the optimization dynamics for the inner objective. Depending on the specific setting, the outer variables take either the meaning of hyperparameters in a supervised learning problem or parameters of a meta-learner. We provide sufficient conditions under which solutions of the approximate problem converge to those of the exact problem. We instantiate our approach for meta-learning in the case of deep learning where representation layers are treated as hyperparameters shared across a set of training episodes. In experiments, we confirm our theoretical findings, present encouraging results for few-shot learning and contrast the bilevel approach against classical approaches for learning-to-learn.

translated by 谷歌翻译

A General Descent Aggregation Framework for Gradient-based Bi-level Optimization

Risheng Liu , Pan Mu , Xiaoming Yuan , Shangzhi Zeng , Jin Zhang

分类：机器学习 | 计算机视觉

2021-02-16

近年来，已经开发出各种基于梯度的方法来解决机器学习和计算机视觉地区的双层优化（BLO）问题。然而，这些现有方法的理论正确性和实际有效性总是依赖于某些限制性条件（例如，下层单身，LLS），这在现实世界中可能很难满足。此外，以前的文献仅证明了基于其特定的迭代策略的理论结果，因此缺乏一般的配方，以统一分析不同梯度的BLO的收敛行为。在这项工作中，我们从乐观的双级视点制定BLOS，并建立一个名为Bi-Level血液血统聚合（BDA）的新梯度的算法框架，以部分地解决上述问题。具体而言，BDA提供模块化结构，以分级地聚合上层和下层子问题以生成我们的双级迭代动态。从理论上讲，我们建立了一般会聚分析模板，并导出了一种新的证据方法，以研究基于梯度的BLO方法的基本理论特性。此外，这项工作系统地探讨了BDA在不同优化场景中的收敛行为，即，考虑从解决近似子问题返回的各种解决方案质量（即，全局/本地/静止解决方案）。广泛的实验证明了我们的理论结果，并展示了所提出的超参数优化和元学习任务算法的优越性。源代码可在https://github.com/vis-opt-group/bda中获得。

translated by 谷歌翻译

Benchopt: Reproducible, efficient and collaborative optimization benchmarks

Thomas Moreau , Mathurin Massias , Alexandre Gramfort , Pierre Ablin , Pierre-Antoine Bannier , Benjamin Charlier , Mathieu Dagréou , Tom Dupré la Tour , Ghislain Durif , Cassio F. Dantas

分类：机器学习 | (统计)机器学习

2022-06-27

数值验证是机器学习研究的核心，因为它允许评估新方法的实际影响，并确认理论和实践之间的一致性。然而，该领域的快速发展构成了一些挑战：研究人员面临着大量的方法来比较，有限的透明度和最佳实践的共识以及乏味的重新实施工作。结果，验证通常是非常部分的，这可能会导致错误的结论，从而减慢研究的进展。我们提出了Benchopt，这是一个协作框架，旨在在跨编程语言和硬件体系结构的机器学习中自动化，复制和发布优化基准。 Benchopt通过提供用于运行，共享和扩展实验的现成工具来简化社区的基准测试。为了展示其广泛的可用性，我们在三个标准学习任务上展示基准：$ \ ell_2 $ regulaine的逻辑回归，套索和RESNET18用于图像分类的培训。这些基准强调了关键的实际发现，这些发现对这些问题的最新问题更加细微，这表明在实际评估中，魔鬼在细节上。我们希望Benchopt能在社区中促进合作工作，从而改善研究结果的可重复性。

translated by 谷歌翻译

BOME! Bilevel Optimization Made Easy: A Simple First-Order Approach

Mao Ye , Bo Liu , Stephen Wright , Peter Stone , Qiang Liu

分类：机器学习 | 人工智能

2022-09-19

二重优化（BO）可用于解决各种重要的机器学习问题，包括但不限于超参数优化，元学习，持续学习和增强学习。常规的BO方法需要通过与隐式分化的低级优化过程进行区分，这需要与Hessian矩阵相关的昂贵计算。最近，人们一直在寻求BO的一阶方法，但是迄今为止提出的方法对于大规模的深度学习应用程序往往是复杂且不切实际的。在这项工作中，我们提出了一种简单的一阶BO算法，仅取决于一阶梯度信息，不需要隐含的区别，并且对于大规模的非凸函数而言是实用和有效的。我们为提出的方法提供了非注重方法分析非凸目标的固定点，并提出了表明其出色实践绩效的经验结果。

translated by 谷歌翻译