联合学习使用一组技术来有效地在拥有培训数据的几种设备上分发机器学习算法的培训。这些技术严重依赖于降低设备和中央服务器之间的通信成本 - 主要瓶颈。联合学习算法通常采用优化方法:它们是最大程度地减少培训损失的算法。在这项工作中,我们采用贝叶斯的方法来完成训练任务,并提出了Langevin算法的沟通效率变体来采样后验。后一种方法比其优化对应物更强大,并提供了更多关于\ textit {a后验分布的知识。我们在不假设目标分布强烈的对数符号的情况下分析了算法。取而代之的是,我们假设较弱的日志Sobolev不等式,它允许非概念性。
translated by 谷歌翻译
We consider the constrained sampling problem where the goal is to sample from a distribution $\pi(x)\propto e^{-f(x)}$ and $x$ is constrained on a convex body $\mathcal{C}\subset \mathbb{R}^d$. Motivated by penalty methods from optimization, we propose penalized Langevin Dynamics (PLD) and penalized Hamiltonian Monte Carlo (PHMC) that convert the constrained sampling problem into an unconstrained one by introducing a penalty function for constraint violations. When $f$ is smooth and the gradient is available, we show $\tilde{\mathcal{O}}(d/\varepsilon^{10})$ iteration complexity for PLD to sample the target up to an $\varepsilon$-error where the error is measured in terms of the total variation distance and $\tilde{\mathcal{O}}(\cdot)$ hides some logarithmic factors. For PHMC, we improve this result to $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ when the Hessian of $f$ is Lipschitz and the boundary of $\mathcal{C}$ is sufficiently smooth. To our knowledge, these are the first convergence rate results for Hamiltonian Monte Carlo methods in the constrained sampling setting that can handle non-convex $f$ and can provide guarantees with the best dimension dependency among existing methods with deterministic gradients. We then consider the setting where unbiased stochastic gradients are available. We propose PSGLD and PSGHMC that can handle stochastic gradients without Metropolis-Hasting correction steps. When $f$ is strongly convex and smooth, we obtain an iteration complexity of $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ and $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ respectively in the 2-Wasserstein distance. For the more general case, when $f$ is smooth and non-convex, we also provide finite-time performance bounds and iteration complexity results. Finally, we test our algorithms on Bayesian LASSO regression and Bayesian constrained deep learning problems.
translated by 谷歌翻译
联合学习(FL)是机器学习的一个子领域,在该子机学习中,多个客户试图在通信约束下通过网络进行协作学习模型。我们考虑在二阶功能相似性条件和强凸度下联合优化的有限和联合优化,并提出了两种新算法:SVRP和催化的SVRP。这种二阶相似性条件最近越来越流行,并且在包括分布式统计学习和差异性经验风险最小化在内的许多应用中得到满足。第一种算法SVRP结合了近似随机点评估,客户采样和降低方差。我们表明,当功能相似性足够高时,SVRP是沟通有效的,并且在许多现有算法上取得了卓越的性能。我们的第二个算法,催化的SVRP,是SVRP的催化剂加速变体,在二阶相似性和强凸度下,现有的联合优化算法可实现更好的性能,并均匀地改善了现有的算法。在分析这些算法的过程中,我们提供了可能具有独立关注的随机近端方法(SPPM)的新分析。我们对SPPM的分析很简单,允许进行近似近端评估,不需要任何平滑度假设,并且在通信复杂性上比普通分布式随机梯度下降显示出明显的好处。
translated by 谷歌翻译
连续时间扩散过程的离散化是一种广泛认可的采样方法。然而,当通常需要平滑(梯度Lipschitz)时,似乎是一个相当大的限制。本文研究了通过欧拉离散化进行采样的问题,其中潜在的功能被认为是弱平滑分布的混合物,满足弱耗散。我们在Kullback-Leibler(KL)发散中建立了迭代的趋势,以达到$ \ epsilon $ - 仅在维度上的多项式依赖性的目标分布。我们在放松\citet{}erdogdu2020convergence无穷条件退化凸和庞加莱下证明收敛担保\'{E}不平等或不强烈外凸球。此外,我们还提供了$ l _ {\ beta} $ - Wasserstein度量的融合,用于平滑潜力。
translated by 谷歌翻译
为了在带宽洪泛环境(例如无线网络)中启用大规模的机器学习,最近在设计借助通信压缩的帮助下,最近在设计沟通效率的联合学习算法方面取得了重大进展。另一方面,隐私保护,尤其是在客户层面上,是另一个重要的避税,在存在高级通信压缩技术的情况下尚未同时解决。在本文中,我们提出了一个统一的框架,以通过沟通压缩提高私人联邦学习的沟通效率。利用通用压缩操作员和局部差异隐私,我们首先检查了一种简单的算法,该算法将压缩直接应用于差异私密的随机梯度下降,并确定其局限性。然后,我们为私人联合学习提出了一个统一的框架Soteriafl,该框架适应了一般的局部梯度估计剂家庭,包括流行的随机方差减少梯度方法和最先进的变化压缩方案。我们在隐私,公用事业和沟通复杂性方面提供了其性能权衡的全面表征,在这种情况下,Soterafl被证明可以在不牺牲隐私或实用性的情况下实现更好的沟通复杂性,而不是其他私人联合联盟学习算法而没有沟通压缩。
translated by 谷歌翻译
在本文中,我们研究了非平滑凸函数的私人优化问题$ f(x)= \ mathbb {e} _i f_i(x)$ on $ \ mathbb {r}^d $。我们表明,通过将$ \ ell_2^2 $正规器添加到$ f(x)$并从$ \ pi(x)\ propto \ exp(-k(f(x)+\ mu \ \ | | x \ | _2^2/2))$恢复已知的最佳经验风险和$(\ epsilon,\ delta)$ - dp的已知最佳经验风险和人口损失。此外,我们将展示如何使用$ \ widetilde {o}(n \ min(d,n))$ QUERIES $ QUERIES $ f_i(x)$用于DP-SCO,其中$ n $是示例数/用户和$ d $是环境维度。我们还在评估查询的数量上给出了一个(几乎)匹配的下限$ \ widetilde {\ omega}(n \ min(d,n))$。我们的结果利用以下具有独立感兴趣的工具:(1)如果损失函数强烈凸出并且扰动是Lipschitz,则证明指数机制的高斯差异隐私(GDP)。我们的隐私约束是\ emph {optimal},因为它包括高斯机制的隐私性,并使用等仪不等式证明了强烈的对数concove措施。 (2)我们展示如何从$ \ exp(-f(x) - \ mu \ | x \ | |^2_2/2)$ g $ -lipschitz $ f $带有$ \ eta $的总变化中的错误(电视)使用$ \ widetilde {o}((g^2/\ mu)\ log^2(d/\ eta))$无偏查询到$ f(x)$。这是第一个在dimension $ d $和精度$ \ eta $上具有\ emph {polylogarithmic依赖的查询复杂性的采样器。
translated by 谷歌翻译
变性推理(VI)为基于传统的采样方法提供了一种吸引人的替代方法,用于实施贝叶斯推断,因为其概念性的简单性,统计准确性和计算可扩展性。然而,常见的变分近似方案(例如平均场(MF)近似)需要某些共轭结构以促进有效的计算,这可能会增加不必要的限制对可行的先验分布家族,并对变异近似族对差异进行进一步的限制。在这项工作中,我们开发了一个通用计算框架,用于实施MF-VI VIA WASSERSTEIN梯度流(WGF),这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时,我们将分析基于时间消化的WGF交替最小化方案的算法收敛,用于实现MF近似。特别是,所提出的算法类似于EM算法的分布版本,包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性,以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型,即高斯混合模型和回归模型的混合物。还进行了数值实验,以补充这两个模型下的理论发现。
translated by 谷歌翻译
Stein变异梯度下降(SVGD)是一种从目标密度采样的算法,该算法已知,该算法已知到乘法常数。尽管SVGD在实践中是一种流行的算法,但其理论研究仅限于最近的一些作品。我们研究了SVGD在人口限制(即具有无限数量的粒子)中的收敛性,以从不满意Talagrand的不平等T1的非concave目标分布中采样。我们首先建立算法的收敛性。然后,我们建立了一个依赖于维的复杂性,该复杂性是基于二键的Stein差异(KSD)。与现有作品不同,我们不认为KSD沿算法的轨迹界定。我们的方法依靠将SVGD解释为概率度量空间的梯度下降。
translated by 谷歌翻译
我们介绍了一个框架 - Artemis-,以解决分布式或联合设置中的学习问题,并具有通信约束和设备部分参与。几位工人(随机抽样)使用中央服务器执行优化过程来汇总其计算。为了减轻通信成本,Artemis允许在两个方向上(从工人到服务器,相反)将发送的信息与内存机制相结合。它改进了仅考虑单向压缩(对服务器)的现有算法,或在压缩操作员上使用非常强大的假设,并且通常不考虑设备的部分参与。我们在非I.I.D中的随机梯度(仅在最佳点界定的噪声方差)提供了快速的收敛速率(线性最高到阈值)。设置,突出显示内存对单向和双向压缩的影响,分析Polyak-Ruppert平均。我们在分布中使用收敛性,以获得渐近方差的下限,该方差突出了实际的压缩极限。我们提出了两种方法,以解决设备部分参与的具有挑战性的案例,并提供实验结果以证明我们的分析有效性。
translated by 谷歌翻译
在过去的几年中,各种通信压缩技术已经出现为一个不可或缺的工具,有助于缓解分布式学习中的通信瓶颈。然而,尽管{\ em偏见}压缩机经常在实践中显示出卓越的性能,但与更多的研究和理解的{\ EM无偏见}压缩机相比,非常少见。在这项工作中,我们研究了三类偏置压缩操作员,其中两个是新的,并且它们在施加到(随机)梯度下降和分布(随机)梯度下降时的性能。我们首次展示偏置压缩机可以在单个节点和分布式设置中导致线性收敛速率。我们证明了具有错误反馈机制的分布式压缩SGD方法,享受ergodic速率$ \ mathcal {o} \ left(\ delta l \ exp [ - \ frac {\ mu k} {\ delta l}] + \ frac {(c + \ delta d)} {k \ mu} \右)$,其中$ \ delta \ ge1 $是一个压缩参数,它在应用更多压缩时增长,$ l $和$ \ mu $是平滑性和强凸常数,$ C $捕获随机渐变噪声(如果在每个节点上计算完整渐变,则$ C = 0 $如果在每个节点上计算),则$ D $以最佳($ d = 0 $ for over参数化模型)捕获渐变的方差)。此外,通过对若干合成和经验的通信梯度分布的理论研究,我们阐明了为什么和通过多少偏置压缩机优于其无偏的变体。最后,我们提出了几种具有有希望理论担保和实际表现的新型偏置压缩机。
translated by 谷歌翻译
Federated learning is a distributed framework according to which a model is trained over a set of devices, while keeping data localized. This framework faces several systemsoriented challenges which include (i) communication bottleneck since a large number of devices upload their local updates to a parameter server, and (ii) scalability as the federated network consists of millions of devices. Due to these systems challenges as well as issues related to statistical heterogeneity of data and privacy concerns, designing a provably efficient federated learning method is of significant importance yet it remains challenging. In this paper, we present FedPAQ, a communication-efficient Federated Learning method with Periodic Averaging and Quantization. FedPAQ relies on three key features: (1) periodic averaging where models are updated locally at devices and only periodically averaged at the server; (2) partial device participation where only a fraction of devices participate in each round of the training; and (3) quantized messagepassing where the edge nodes quantize their updates before uploading to the parameter server. These features address the communications and scalability challenges in federated learning. We also show that FedPAQ achieves near-optimal theoretical guarantees for strongly convex and non-convex loss functions and empirically demonstrate the communication-computation tradeoff provided by our method.
translated by 谷歌翻译
我们为随机梯度Langevin Dynamics(SGLD)建立了一个急剧的均匀误差估计,该算法是一种流行的采样算法。在温和的假设下,我们获得了一个均匀的$ o(\ eta^2)$,限制了SGLD迭代与langevin扩散之间的KL差异,其中$ \ eta $是步骤尺寸(或学习率)。我们的分析也适用于不同的步骤尺寸。基于此,我们能够以wasserstein或总变异距离来获得SGLD迭代和Langevin扩散不变分布之间的距离的$ O(\ eta)$。
translated by 谷歌翻译
在本文中,我们在使用离散的Langevin扩散的三个方案中从目标密度采样的误差提供非渐近上限。第一个方案是Langevin Monte Carlo(LMC)算法,歌曲的欧拉分散化的歌曲扩散。第二个和第三种方案分别是用于可微分电位和动力学Langevin Monte Carlo的动力学Langevin Monte Carlo(KLMC),用于两次可分视电位(KLMC2)。主要焦点是在$ \ mathbb r ^ p $的目标密度上,但不一定强烈地抖动。在两种类型的平滑假设下获得计算复杂度的界限:电位具有嘴唇连续梯度,并且电位具有嘴角连续的Hessian基质。采样误差由Wassersein-$ Q $距离测量。我们倡导在计算复杂性定义中使用新的维度适应缩放,当考虑Wasserstein-$ Q $距离时。所获得的结果表明,实现小于规定值的缩放误差的迭代次数仅取决于多项尺寸。
translated by 谷歌翻译
在本说明中,我们建立了种群极限的下降引理,反映了Stein变异梯度方法〜(MSVGD)。此下降引理不依赖MSVGD的路径信息,而是对镜像分布的简单假设$ \ nabla \ psi _ {\#} \ pi \ propto \ propto \ exp(-v)$。我们的分析表明,MSVGD可以应用于非平滑$ V $的更广泛的约束采样问题。我们还研究人口的复杂性限制了MSVGD的尺寸$ d $。
translated by 谷歌翻译
三角形流量,也称为kn \“{o}的Rosenblatt测量耦合,包括用于生成建模和密度估计的归一化流模型的重要构建块,包括诸如实值的非体积保存变换模型的流行自回归流模型(真实的NVP)。我们提出了三角形流量统计模型的统计保证和样本复杂性界限。特别是,我们建立了KN的统计一致性和kullback-leibler估算器的rospblatt的kullback-leibler估计的有限样本会聚率使用实证过程理论的工具测量耦合。我们的结果突出了三角形流动下播放功能类的各向异性几何形状,优化坐标排序,并导致雅各比比流动的统计保证。我们对合成数据进行数值实验,以说明我们理论发现的实际意义。
translated by 谷歌翻译
对复杂模型执行精确的贝叶斯推理是计算的难治性的。马尔可夫链蒙特卡罗(MCMC)算法可以提供后部分布的可靠近似,但对于大型数据集和高维模型昂贵。减轻这种复杂性的标准方法包括使用子采样技术或在群集中分发数据。然而,这些方法通常在高维方案中不可靠。我们在此处专注于最近的替代类别的MCMC方案,利用类似于乘客(ADMM)优化算法的庆祝交替方向使用的分裂策略。这些方法似乎提供了凭经验最先进的性能,但其高维层的理论行为目前未知。在本文中,我们提出了一个详细的理论研究,该算法之一称为分裂Gibbs采样器。在规律条件下,我们使用RICCI曲率和耦合思路为此方案建立了明确的收敛速率。我们以数字插图支持我们的理论。
translated by 谷歌翻译
我们研究基于{\ em本地培训(LT)}范式的分布式优化方法:通过在参数平均之前对客户进行基于本地梯度的培训来实现沟通效率。回顾田地的进度,我们{\ em识别5代LT方法}:1)启发式,2)均匀,3)sublinear,4)线性和5)加速。由Mishchenko,Malinovsky,Stich和Richt \'{A} Rik(2022)发起的5 $ {}^{\ rm th} $生成,由Proxskip方法发起通信加速机制。受到最近进度的启发,我们通过证明可以使用{\ em差异}进一步增强它们,为5 $ {}^{\ rm th} $生成LT方法的生成。尽管LT方法的所有以前的所有理论结果都完全忽略了本地工作的成本,并且仅根据交流回合的数量而被构成,但我们证明我们的方法在{\ em总培训成本方面都比{\ em em总培训成本}大得多当本地计算足够昂贵时,在制度中的理论和实践中,最先进的方法是proxskip。我们从理论上表征了这个阈值,并通过经验结果证实了我们的理论预测。
translated by 谷歌翻译
We introduce and study a novel model-selection strategy for Bayesian learning, based on optimal transport, along with its associated predictive posterior law: the Wasserstein population barycenter of the posterior law over models. We first show how this estimator, termed Bayesian Wasserstein barycenter (BWB), arises naturally in a general, parameter-free Bayesian model-selection framework, when the considered Bayesian risk is the Wasserstein distance. Examples are given, illustrating how the BWB extends some classic parametric and non-parametric selection strategies. Furthermore, we also provide explicit conditions granting the existence and statistical consistency of the BWB, and discuss some of its general and specific properties, providing insights into its advantages compared to usual choices, such as the model average estimator. Finally, we illustrate how this estimator can be computed using the stochastic gradient descent (SGD) algorithm in Wasserstein space introduced in a companion paper arXiv:2201.04232v2 [math.OC], and provide a numerical example for experimental validation of the proposed method.
translated by 谷歌翻译
我们开发和分析码头:在异构数据集中的非凸分布式学习的新通信高效方法。 Marina采用了一种基于渐变差异的新颖沟通压缩策略,这些差异让人想起,但与Mishchenko等人的Diana方法中所采用的策略不同。 (2019)。与几乎所有竞争对手的分布式一阶方法不同,包括Diana,我们的基于精心设计的偏置渐变估计,这是其卓越理论和实践性能的关键。我们向码头证明的通信复杂性界限明显比以前所有的一阶方法的方式更好。此外,我们开发和分析码头的两种变体:VR-Marina和PP-Marina。当客户所拥有的本地丢失功能是有限和期望形式的局部丢失功能时,第一种方法设计了第一种方法,并且第二种方法允许客户端的部分参与 - 在联合学习中重要的功能。我们所有的方法都优于前面的oracle /通信复杂性的最先进的方法。最后,我们提供了满足Polyak-Lojasiewicz条件的所有方法的收敛分析。
translated by 谷歌翻译
梯度压缩是一种流行的技术,可改善机器学习模型分布式培训中随机一阶方法的沟通复杂性。但是,现有作品仅考虑随机梯度的替换采样。相比之下,在实践中众所周知,最近从理论上证实,基于没有替代抽样的随机方法,例如随机改组方法(RR)方法,其性能要比用更换梯度进行梯度的方法更好。在这项工作中,我们在文献中缩小了这一差距,并通过梯度压缩和没有替代抽样的方法提供了第一次分析方法。我们首先使用梯度压缩(Q-RR)开发一个随机重新填充的分布式变体,并展示如何通过使用控制迭代来减少梯度量化的方差。接下来,为了更好地适合联合学习应用程序,我们结合了本地计算,并提出了一种称为Q-Nastya的Q-RR的变体。 Q-Nastya使用本地梯度步骤以及不同的本地和全球步骤。接下来,我们还展示了如何在此设置中减少压缩差异。最后,我们证明了所提出的方法的收敛结果,并概述了它们在现有算法上改进的几种设置。
translated by 谷歌翻译