智能论文笔记

Robust Distributed Optimization With Randomly Corrupted Gradients

Berkay Turan , Cesar A. Uribe , Hoi-To Wai , Mahnoosh Alizadeh

分类：机器学习 | (统计)机器学习

2021-06-28

在本文中，我们提出了一种一阶分布式优化算法，该算法对拜占庭式失败 - 肢体和潜在的对抗性行为非常强大，在该行为中，所有参与的药物都容易发生失败。我们随着时间的推移将每个代理的状态建模为两国马尔可夫链，该链在不同时间时指示拜占庭或可信赖的行为。我们在任何给定时间均未设置对拜占庭代理的最大数量的限制。我们根据三层防御设计我们的方法：1）时间稳健聚集，2）空间稳健聚集和3）梯度归一化。我们研究了两个用于随机优化的设置，即样品平均近似值和随机近似。我们提供了强烈凸出和平滑非凸成本功能的方法的收敛保证。

translated by 谷歌翻译

Byzantine-Robust Distributed Learning: Towards Optimal Statistical Rates

Dong Yin , Yudong Chen , Kannan Ramchandran , Peter Bartlett

分类：

2018-03-05

In large-scale distributed learning, security issues have become increasingly important. Particularly in a decentralized environment, some computing units may behave abnormally, or even exhibit Byzantine failures-arbitrary and potentially adversarial behavior. In this paper, we develop distributed learning algorithms that are provably robust against such failures, with a focus on achieving optimal statistical performance. A main result of this work is a sharp analysis of two robust distributed gradient descent algorithms based on median and trimmed mean operations, respectively. We prove statistical error rates for three kinds of population loss functions: strongly convex, nonstrongly convex, and smooth non-convex. In particular, these algorithms are shown to achieve order-optimal statistical error rates for strongly convex losses. To achieve better communication efficiency, we further propose a median-based distributed algorithm that is provably robust, and uses only one communication round. For strongly convex quadratic loss, we show that this algorithm achieves the same optimal error rate as the robust distributed gradient descent algorithms.

translated by 谷歌翻译

Convergence and Complexity of Stochastic Block Majorization-Minimization

Hanbaek Lyu

分类：机器学习 | (统计)机器学习

2022-01-05

随机多变最小化 - 最小化（SMM）是大多数变化最小化的经典原则的在线延伸，这包括采样I.I.D。来自固定数据分布的数据点，并最小化递归定义的主函数的主要替代。在本文中，我们引入了随机块大大化 - 最小化，其中替代品现在只能块多凸，在半径递减内的时间优化单个块。在SMM中的代理人放松标准的强大凸起要求，我们的框架在内提供了更广泛的适用性，包括在线CANDECOMP / PARAFAC（CP）字典学习，并且尤其是当问题尺寸大时产生更大的计算效率。我们对所提出的算法提供广泛的收敛性分析，我们在可能的数据流下派生，放松标准i.i.d。对数据样本的假设。我们表明，所提出的算法几乎肯定会收敛于速率$ O（（\ log n）^ {1+ \ eps} / n ^ {1/2}）$的约束下的非凸起物镜的静止点集合。实证丢失函数和$ O（（\ log n）^ {1+ \ eps} / n ^ {1/4}）$的预期丢失函数，其中$ n $表示处理的数据样本数。在一些额外的假设下，后一趋同率可以提高到$ o（（\ log n）^ {1+ \ eps} / n ^ {1/2}）$。我们的结果为一般马尔维亚数据设置提供了各种在线矩阵和张量分解算法的第一融合率界限。

translated by 谷歌翻译

A Two-Timescale Framework for Bilevel Optimization: Complexity Analysis and Application to Actor-Critic

Mingyi Hong , Hoi-To Wai , Zhaoran Wang , Zhuoran Yang

分类：机器学习

2020-07-10

本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题，其目标是使具有变量的外目标函数最小化，该变量被限制为对（内部）优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况，而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似（TTSA）算法。在算法中，使用较大步长的随机梯度更新用于内部问题，而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率：当外部问题强烈凸起（RESP。〜弱凸）时，TTSA算法查找$ \ MATHCAL {O}（k ^ { - 2/3}）$ -Optimal（resp。〜$ \ mathcal {o}（k ^ {-2/5}）$ - 静止）解决方案，其中$ k $是总迭代号。作为一个应用程序，我们表明，两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是，与全球最优政策相比，自然演员批评算法显示以预期折扣奖励的差距，以$ \ mathcal {o}（k ^ { - 1/4}）的速率收敛。

translated by 谷歌翻译

Formal guarantees for heuristic optimization algorithms used in machine learning

Xiaoyu Li

分类：机器学习 | (统计)机器学习

2022-07-31

最近，随机梯度下降（SGD）及其变体已成为机器学习（ML）问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸，从自适应步骤大小到启发式方法，以更改每次迭代中的步骤大小。此外，动力已被广泛用于ML任务以加速训练过程。然而，我们对它们的理论理解存在差距。在这项工作中，我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先，我们分析了凸面和非凸口设置的Adagrad（延迟Adagrad）步骤大小的广义版本，这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件，以确保梯度几乎融合到零。此外，我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次，我们用指数级和余弦的步骤分析了SGD，在经验上取得了成功，但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证，有或没有polyak-{\ l} ojasiewicz（pl）条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三，我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限，并以恒定的动量。此外，我们研究了一类跟随基于领先的领导者的动量算法，并随着动量和收缩的更新而增加。我们表明，他们的最后一个迭代具有最佳的收敛性，用于无约束的凸随机优化问题。

translated by 谷歌翻译

The Best of Many Worlds: Dual Mirror Descent for Online Allocation Problems

Santiago Balseiro , Haihao Lu , Vahab Mirrokni

分类：机器学习

2020-11-18

资源限制的在线分配问题是收入管理和在线广告中的核心问题。在这些问题中，请求在有限的地平线期间顺序到达，对于每个请求，决策者需要选择消耗一定数量资源并生成奖励的动作。目标是最大限度地提高累计奖励，这是对资源总消费的限制。在本文中，我们考虑一种数据驱动的设置，其中使用决策者未知的输入模型生成每个请求的奖励和资源消耗。我们设计了一般的算法算法，可以在各种输入模型中实现良好的性能，而不知道它们面临的类型类型。特别是，我们的算法在独立和相同的分布式输入以及各种非静止随机输入模型下是渐近的最佳选择，并且当输入是对抗性时，它们达到渐近最佳的固定竞争比率。我们的算法在Lagrangian双色空间中运行：它们为使用在线镜像血管更新的每个资源维护双倍乘数。通过相应地选择参考功能，我们恢复双梯度下降和双乘法权重更新算法。与现有的在线分配问题的现有方法相比，所产生的算法简单，快速，不需要在收入函数，消费函数和动作空间中凸起。我们将应用程序讨论到网络收入管理，在线竞标，重复拍卖，预算限制，与高熵的在线比例匹配，以及具有有限库存的个性化分类优化。

translated by 谷歌翻译

Recent Theoretical Advances in Non-Convex Optimization

Marina Danilova , Pavel Dvurechensky , Alexander Gasnikov , Eduard Gorbunov , Sergey Guminov , Dmitry Kamzolov , Innokentiy Shibaev

分类：机器学习

2020-12-11

近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加，我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始，显示一般非凸面问题无法在合理的时间内有效地解决。然后，我们提供了一个问题列表，可以通过利用问题的结构来有效地找到全球最小化器，因为可能的问题。处理非凸性的另一种方法是放宽目标，从找到全局最小，以找到静止点或局部最小值。对于该设置，我们首先为确定性一阶方法的收敛速率提出了已知结果，然后是最佳随机和随机梯度方案的一般理论分析，以及随机第一阶方法的概述。之后，我们讨论了非常一般的非凸面问题，例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能，这仍然允许获得一阶的理论融合保证方法。然后，我们考虑更高阶和零序/衍生物的方法及其收敛速率，以获得非凸优化问题。

translated by 谷歌翻译

BRIDGE: Byzantine-resilient Decentralized Gradient Descent

Cheng Fang , Zhixiong Yang , Waheed U. Bajwa

分类： (统计)机器学习 | 机器学习

2019-08-21

机器学习已开始在许多应用中发挥核心作用。这些应用程序中的许多应用程序通常还涉及由于设计约束（例如多元系统）或计算/隐私原因（例如，在智能手机数据上学习），这些数据集分布在多个计算设备/机器上。这样的应用程序通常需要以分散的方式执行学习任务，其中没有直接连接到所有节点的中央服务器。在现实世界中的分散设置中，由于设备故障，网络攻击等，节点容易出现未发现的故障，这可能会崩溃非稳固的学习算法。本文的重点是在发生拜占庭失败的节点的存在下对分散学习的鲁棒化。拜占庭故障模型允许故障节点任意偏离其预期行为，从而确保设计最健壮的算法的设计。但是，与分布式学习相反，对分散学习中拜占庭式的弹性的研究仍处于起步阶段。特别是，现有的拜占庭式分散学习方法要么不能很好地扩展到大规模的机器学习模型，要么缺乏统计收敛性可确保有助于表征其概括错误。在本文中，引入了一个可扩展的，拜占庭式的分散的机器学习框架，称为拜占庭的分散梯度下降（桥梁）。本文中还提供了强烈凸出问题和一类非凸问题的算法和统计收敛保证。此外，使用大规模的分散学习实验来确定桥梁框架是可扩展的，并且为拜占庭式弹性凸和非convex学习提供了竞争结果。

translated by 谷歌翻译

Decentralized Learning with Separable Data: Generalization and Fast Algorithms

Hossein Taheri , Christos Thrampoulidis

分类：机器学习

2022-09-15

当数据自然分配到通过基础图的代理商之间，分散学习提供了隐私和沟通效率。通过过度参数化的学习设置，在该设置中，在该设置中训练了零训练损失，我们研究了分散学习的分散学习算法和概括性能，并在可分离的数据上下降。具体而言，对于分散的梯度下降（DGD）和各种损失函数，在无穷大（包括指数损失和逻辑损失）中渐近为零，我们得出了新的有限时间泛化界限。这补充了一长串最近的工作，该工作研究了概括性能和梯度下降的隐含偏见，而不是可分离的数据，但迄今为止，梯度下降的偏见仅限于集中学习方案。值得注意的是，我们的概括范围匹配其集中式同行。这背后的关键和独立感兴趣的是，在一类自我结合的损失方面建立了关于训练损失和DGD的传记率的新界限。最后，在算法方面，我们设计了改进的基于梯度的例程，可分离数据，并在经验上证明了训练和概括性能方面的加速命令。

translated by 谷歌翻译

Stochastic Mirror Descent: Convergence Analysis and Adaptive Variants via the Mirror Stochastic Polyak Stepsize

Ryan D'Orazio , Nicolas Loizou , Issam Laradji , Ioannis Mitliagkas

分类：机器学习

2021-10-28

我们调查随机镜面下降（SMD）的趋同相对光滑和平滑凸优化。在相对平滑的凸优化中，我们为SMD提供了新的收敛保证，并持续步骤。对于平滑的凸优化，我们提出了一种新的自适应步骤方案 - 镜子随机Polyak Spectize（MSP）。值得注意的是，我们的收敛导致两个设置都不会使有界渐变假设或有界方差假设，并且我们向邻域显示在插值下消失的邻居的融合。MSP概括了最近提出的随机Polyak Spectize（SPS）（Loizou等，2021）以镜子血液镜子，并且在继承镜子血清的好处的同时，现代机器学习应用仍然是实用和高效的。我们将我们的结果与各种监督的学习任务和SMD的不同实例相结合，展示了MSP的有效性。

translated by 谷歌翻译

On the Universality of Langevin Diffusion for Private Euclidean (Convex) Optimization

Arun Ganesh , Abhradeep Thakurta , Jalaj Upadhyay

分类：机器学习

2022-04-04

在本文中，我们重新审视了私人经验风险最小化（DP-erm）和差异私有随机凸优化（DP-SCO）的问题。我们表明，来自统计物理学（Langevin Exfusion（LD））的经过良好研究的连续时间算法同时为DP-SCO和DP-SCO提供了最佳的隐私/实用性权衡，$ \ epsilon $ -DP和$ $ \ epsilon $ -DP和$ （\ epsilon，\ delta）$ - dp均用于凸和强烈凸损失函数。我们为LD提供新的时间和尺寸独立统一稳定性，并使用我们为$ \ epsilon $ -DP提供相应的最佳超额人口风险保证。 $ \ epsilon $ -DP的DP-SCO保证的一个重要属性是，它们将非私人最佳界限匹配为$ \ epsilon \与\ infty $。在此过程中，我们提供了各种技术工具，这些工具可能引起独立的关注：i）在两个相邻数据集上运行损失功能时，一个新的r \'enyi Divergence绑定了LD，ii）最后一个过多的经验风险范围迭代LD，类似于Shamir和Zhang的嘈杂随机梯度下降（SGD）和iii）的LD，对LD进行了两期多余的风险分析，其中第一阶段是当扩散在任何合理意义上都没有在任何合理意义上融合到固定分布时，在第二阶段扩散已收敛到吉布斯分布的变体。我们的普遍性结果至关重要地依赖于LD的动力学。当它融合到固定分布时，我们获得了$ \ epsilon $ -DP的最佳界限。当它仅在很短的时间内运行$ \ propto 1/p $时，我们在$（\ epsilon，\ delta）$ -DP下获得最佳界限。在这里，$ p $是模型空间的维度。

translated by 谷歌翻译

Reproducibility in Optimization: Theoretical Framework and Limits

Kwangjun Ahn , Prateek Jain , Ziwei Ji , Satyen Kale , Praneeth Netrapalli , Gil I. Shamir

分类：机器学习 | (统计)机器学习

2022-02-09

We initiate a formal study of reproducibility in optimization. We define a quantitative measure of reproducibility of optimization procedures in the face of noisy or error-prone operations such as inexact or stochastic gradient computations or inexact initialization. We then analyze several convex optimization settings of interest such as smooth, non-smooth, and strongly-convex objective functions and establish tight bounds on the limits of reproducibility in each setting. Our analysis reveals a fundamental trade-off between computation and reproducibility: more computation is necessary (and sufficient) for better reproducibility.

translated by 谷歌翻译

Push--Pull with Device Sampling

Yu-Guan Hsieh , Yassine Laguel , Franck Iutzeler , Jérôme Malick

分类：机器学习

2022-06-08

我们考虑分散的优化问题，其中许多代理通过在基础通信图上交换来最大程度地减少其本地功能的平均值。具体而言，我们将自己置于异步模型中，其中只有一个随机部分在每次迭代时执行计算，而信息交换可以在所有节点之间进行，并以不对称的方式进行。对于此设置，我们提出了一种算法，该算法结合了整个网络上梯度跟踪和差异的差异。这使每个节点能够跟踪目标函数梯度的平均值。我们的理论分析表明，在预期混合矩阵的轻度连通性条件下，当局部目标函数强烈凸面时，算法会汇聚。特别是，我们的结果不需要混合矩阵是双随机的。在实验中，我们研究了一种广播机制，该机制将信息从计算节点传输到其邻居，并确认我们方法在合成和现实世界数据集上的线性收敛性。

translated by 谷歌翻译

Learning with User-Level Privacy

Daniel Levy , Ziteng Sun , Kareem Amin , Satyen Kale , Alex Kulesza , Mehryar Mohri , Ananda Theertha Suresh

分类：机器学习 | (统计)机器学习

2021-02-23

我们提出并分析了算法，以解决用户级差分隐私约束下的一系列学习任务。用户级DP仅保证只保证个人样本的隐私，而是保护用户的整个贡献（$ M \ GE 1 $ Samples），而不是对信息泄漏提供更严格但更现实的保护。我们表明，对于高维平均估计，具有平稳损失，随机凸优化和学习假设类别的经验风险最小化，具有有限度量熵，隐私成本随着用户提供的$ O（1 / \ SQRT {M}）$减少更多样本。相比之下，在增加用户数量$ N $时，隐私成本以较快的价格降低（1 / n）$率。我们将这些结果与下界相提并论，显示了我们算法的最低限度估计和随机凸优化的算法。我们的算法依赖于私有平均估计的新颖技术，其任意维度与误差缩放为浓度半径$ \ tai $的分布而不是整个范围。

translated by 谷歌翻译

A simplified convergence theory for Byzantine resilient stochastic gradient descent

Lindon Roberts , Edward Smyth

分类：机器学习

2022-08-25

在分布式学习中，中央服务器根据持有本地数据样本的节点提供的更新来训练模型。在一个或多个发送不正确信息（拜占庭对手）的恶意服务器的情况下，用于模型训练的标准算法（例如随机梯度下降（SGD））无法收敛。在本文中，我们提出了Blanchard等人最初提出的通用拜占庭弹性SGD方法的简化收敛理论。[Neurips 2017]。与现有分析相比，我们在（可能是非convex）目标函数（可能是非凸）的标准假设和随机梯度上的灵活假设上表明了收敛到固定点的固定点。

translated by 谷歌翻译

HTML版本

Robust methods for high-dimensional linear learning

Ibrahim Merad , Stéphane Gaïffas

分类： (统计)机器学习 | 机器学习

2022-08-10

我们在高维批处理设置中提出了统计上健壮和计算高效的线性学习方法，其中功能$ d $的数量可能超过样本量$ n $。在通用学习环境中，我们采用两种算法，具体取决于所考虑的损失函数是否为梯度lipschitz。然后，我们将我们的框架实例化，包括几种应用程序，包括香草稀疏，群 - 帕克斯和低升级矩阵恢复。对于每种应用，这导致了有效而强大的学习算法，这些算法在重尾分布和异常值的存在下达到了近乎最佳的估计率。对于香草$ S $ -SPARSITY，我们能够以重型尾巴和$ \ eta $ - 腐败的计算成本与非企业类似物相当的计算成本达到$ s \ log（d）/n $速率。我们通过开放源代码$ \ mathtt {python} $库提供了有效的算法实现文献中提出的最新方法。

translated by 谷歌翻译

Differentially private inference via noisy optimization

Marco Avella-Medina , Casey Bradshaw , Po-Ling Loh

分类：机器学习 | (统计)机器学习

2021-03-19

我们提出了一种基于优化的基于优化的框架，用于计算差异私有M估算器以及构建差分私立置信区的新方法。首先，我们表明稳健的统计数据可以与嘈杂的梯度下降或嘈杂的牛顿方法结合使用，以便分别获得具有全局线性或二次收敛的最佳私人估算。我们在局部强大的凸起和自我协调下建立当地和全球融合保障，表明我们的私人估算变为对非私人M估计的几乎最佳附近的高概率。其次，我们通过构建我们私有M估计的渐近方差的差异私有估算来解决参数化推断的问题。这自然导致近似枢轴统计，用于构建置信区并进行假设检测。我们展示了偏置校正的有效性，以提高模拟中的小样本实证性能。我们说明了我们在若干数值例子中的方法的好处。

translated by 谷歌翻译

Analysis of Generalized Bregman Surrogate Algorithms for Nonsmooth Nonconvex Statistical Learning

Yiyuan She , Zhifeng Wang , Jiuwu Jin

分类： (统计)机器学习

2021-12-16

现代统计应用常常涉及最小化可能是非流动和/或非凸起的目标函数。本文侧重于广泛的Bregman-替代算法框架，包括本地线性近似，镜像下降，迭代阈值，DC编程以及许多其他实例。通过广义BREGMAN功能的重新发出使我们能够构建合适的误差测量并在可能高维度下建立非凸起和非凸起和非球形目标的全球收敛速率。对于稀疏的学习问题，在一些规律性条件下，所获得的估算器作为代理人的固定点，尽管不一定是局部最小化者，但享受可明确的统计保障，并且可以证明迭代顺序在所需的情况下接近统计事实准确地快速。本文还研究了如何通过仔细控制步骤和放松参数来设计基于适应性的动力的加速度而不假设凸性或平滑度。

translated by 谷歌翻译

Finite-Time Convergence Rates of Decentralized Stochastic Approximation with Applications in Multi-Agent and Multi-Task Learning

Sihan Zeng , Thinh T. Doan , Justin Romberg

分类：机器学习

2020-10-28

我们研究了随机近似的分散变体，这是一种数据驱动的方法，用于在嘈杂的测量中找到操作员的根。一个具有自己的操作员和数据观察的代理网络，合作地通过分散的通信图找到了聚合操作员的固定点。我们的主要贡献是在从马尔可夫过程中采样时在每个代理下观察到的数据时，对这种分散的随机近似方法提供有限的时间分析；这种缺乏独立性使迭代率偏向和（可能）无限。在相当标准的假设下，我们表明所提出方法的收敛速率与样本是独立的基本相同，仅由对数因子的差异而不同，该对数因素是说明了马尔可夫过程的混合时间。我们的分析中的关键思想是引入一种新型的Razumikhin-Lyapunov函数，该功能是由用于分析延迟普通微分方程的稳定性的一种动机。我们还讨论了拟议方法在多代理系统中许多有趣的学习问题上的应用。

translated by 谷歌翻译

Projection-free Constrained Stochastic Nonconvex Optimization with State-dependent Markov Data

Abhishek Roy , Krishnakumar Balasubramanian , Saeed Ghadimi

分类：机器学习 | (统计)机器学习

2022-06-22

我们研究了Markovian数据的受约束非凸的随机优化问题，研究了无投射条件梯度算法。特别是，我们专注于马尔可夫链的过渡内核是国家依赖的情况。这种随机优化问题在各种机器学习问题中出现，包括战略分类和强化学习。对于此问题，我们确定了随机一阶甲骨文的调用数量和线性最小化的甲骨文以获得适当定义的$ \ epsilon $ -Stationary点，是$ \ MATHCAL {O}（1/\Epsilon^{2.5}）$和$ \ Mathcal {O}（1/\ Epsilon^{5.5}）$。我们还从经验上证明了算法在神经网络中战略分类问题上的性能。

translated by 谷歌翻译