我们考虑通过连接到中央服务器的一组边缘设备的大规模分布式优化,其中服务器和边缘设备之间的有限通信带宽对优化过程提出了显着的瓶颈。灵感来自最近在联邦学习的进步,我们提出了一种分布式随机梯度下降(SGD)类型算法,该算法利用梯度的稀疏性,尽可能降低沟通负担。在算法的核心,用于使用压缩的感测技术来压缩器件侧的局部随机梯度;在服务器端,从嘈杂的聚合压缩的本地梯度恢复全局随机梯度的稀疏近似。我们对通信信道产生的噪声扰动的存在,对我们算法的收敛性进行了理论分析,并且还进行了数值实验以证实其有效性。
translated by 谷歌翻译
在过去的几年中,各种通信压缩技术已经出现为一个不可或缺的工具,有助于缓解分布式学习中的通信瓶颈。然而,尽管{\ em偏见}压缩机经常在实践中显示出卓越的性能,但与更多的研究和理解的{\ EM无偏见}压缩机相比,非常少见。在这项工作中,我们研究了三类偏置压缩操作员,其中两个是新的,并且它们在施加到(随机)梯度下降和分布(随机)梯度下降时的性能。我们首次展示偏置压缩机可以在单个节点和分布式设置中导致线性收敛速率。我们证明了具有错误反馈机制的分布式压缩SGD方法,享受ergodic速率$ \ mathcal {o} \ left(\ delta l \ exp [ - \ frac {\ mu k} {\ delta l}] + \ frac {(c + \ delta d)} {k \ mu} \右)$,其中$ \ delta \ ge1 $是一个压缩参数,它在应用更多压缩时增长,$ l $和$ \ mu $是平滑性和强凸常数,$ C $捕获随机渐变噪声(如果在每个节点上计算完整渐变,则$ C = 0 $如果在每个节点上计算),则$ D $以最佳($ d = 0 $ for over参数化模型)捕获渐变的方差)。此外,通过对若干合成和经验的通信梯度分布的理论研究,我们阐明了为什么和通过多少偏置压缩机优于其无偏的变体。最后,我们提出了几种具有有希望理论担保和实际表现的新型偏置压缩机。
translated by 谷歌翻译
Federated learning is a distributed framework according to which a model is trained over a set of devices, while keeping data localized. This framework faces several systemsoriented challenges which include (i) communication bottleneck since a large number of devices upload their local updates to a parameter server, and (ii) scalability as the federated network consists of millions of devices. Due to these systems challenges as well as issues related to statistical heterogeneity of data and privacy concerns, designing a provably efficient federated learning method is of significant importance yet it remains challenging. In this paper, we present FedPAQ, a communication-efficient Federated Learning method with Periodic Averaging and Quantization. FedPAQ relies on three key features: (1) periodic averaging where models are updated locally at devices and only periodically averaged at the server; (2) partial device participation where only a fraction of devices participate in each round of the training; and (3) quantized messagepassing where the edge nodes quantize their updates before uploading to the parameter server. These features address the communications and scalability challenges in federated learning. We also show that FedPAQ achieves near-optimal theoretical guarantees for strongly convex and non-convex loss functions and empirically demonstrate the communication-computation tradeoff provided by our method.
translated by 谷歌翻译
现代深度学习模型通常在分布式机器集合中并行培训,以减少训练时间。在这种情况下,机器之间模型更新的通信变成了一个重要的性能瓶颈,并且已经提出了各种有损的压缩技术来减轻此问题。在这项工作中,我们介绍了一种新的,简单但理论上和实践上有效的压缩技术:自然压缩(NC)。我们的技术分别应用于要进行压缩的更新向量的所有条目,并通过随机舍入到两个的(负或正)两种功能,可以通过忽略Mantissa来以“自然”方式计算。我们表明,与没有压缩相比,NC将压缩向量的第二刻增加不超过微小因子$ \ frac {9} {8} $,这意味着NC对流行训练算法的收敛速度的影响,例如分布式SGD,可以忽略不计。但是,NC启用的通信节省是可观的,导致$ 3 $ - $ 4 \ times $ $改善整体理论运行时间。对于需要更具侵略性压缩的应用,我们将NC推广到自然抖动,我们证明这比常见的随机抖动技术要好得多。我们的压缩操作员可以自行使用,也可以与现有操作员结合使用,从而产生更具侵略性的结合效果,并在理论和实践中提供新的最先进。
translated by 谷歌翻译
在本文中,我们提出了一种由量化压缩感测的通信高效的联合学习框架。呈现的框架包括用于参数服务器(PS)的无线设备和梯度重建的梯度压缩。我们对梯度压缩的策略是顺序执行块稀疏,尺寸减小和量化。由于梯度稀疏和量化,我们的策略可以实现比单位梯度压缩更高的压缩比。为了从PS的压缩信号中精确聚集局部梯度,我们使用期望最大化通用近似消息传递(EM-GAMP)算法来提出梯度重建的近似最小均方误差(MMSE)方法。假设Bernoulli高斯 - 混合的先前,该算法迭代地更新来自压缩信号的局部梯度的后均值和方差。我们还为梯度重建呈现出低复杂性的方法。在这种方法中,我们使用Bussgang定理来从压缩信号聚合本地梯度,然后使用EM-GAMP算法计算聚合梯度的近似MMSE估计。我们还提供了所提出的框架的收敛速度分析。使用Mnist DataSet,我们证明所呈现的框架几乎可以使用不执行压缩的情况实现几乎相同的性能,同时显着降低联合学习的通信开销。
translated by 谷歌翻译
联合学习(FL)是在分布式的数据上进行的有希望的隐私机器学习范式。在FL中,每个用户在本地保存数据。这样可以保护用户隐私,但也使服务器难以验证数据质量,尤其是在正确标记数据的情况下。用损坏的标签培训对联邦学习任务有害;但是,在标签噪声的情况下,很少关注FL。在本文中,我们专注于这个问题,并提出一种基于学习的重新加权方法,以减轻FL中嘈杂标签的效果。更确切地说,我们为每个训练样本调整了一个重量,以使学习模型在验证集上具有最佳的概括性能。更正式的是,该过程可以作为联合双层优化问题进行配合。二重优化问题是一种优化问题,具有两个纠缠问题的级别。非分布的二聚体问题最近通过新的有效算法见证了显着的进展。但是,解决联合学习设置下的二杆优化问题的研究不足。我们确定高级评估中的高沟通成本是主要的瓶颈。因此,我们建议\ textit {comm-fedbio}解决一般联合的双杆优化问题;更具体地说,我们提出了两个沟通效率的子例程,以估计高级别。还提供了所提出算法的收敛分析。最后,我们应用提出的算法来解决嘈杂的标签问题。与各种基线相比,我们的方法在几个现实世界数据集上表现出了出色的性能。
translated by 谷歌翻译
由于分布式和联合学习的高通信成本,依赖压缩通信的方法变得越来越受欢迎。此外,最好的理论上和实际上表演梯度类型方法总是依赖某种形式的加速/动量来减少通信数量(更快的收敛)(更快的收敛),例如,Nesterov的加速梯度下降(Nesterov,1983,2004)和Adam(Kingma和Kingma) BA,2014)。为了结合通信压缩和收敛加速的好处,我们提出了基于Anita(Li,2021)的Anita {压缩和加速}梯度方法进行分布式优化,我们称之为CANITA。我们的Canita实现了\ emph {First加速率} $ o \ bigg(\ sqrt {\ big(1+ \ sqrt {\ frac {\ oomega ^ 3} {n}} \ big)\ frac {l} {\ epsilon }} + \ oomega \ big(\ frac {1} {\ epsilon} \ big)^ {\ frac {1} {3}} {3}} \ bigg)$,从而提高了最先进的非加速RAY $ o \ left((1+ \ frac {\ oomega} {n})\ frac {l} {\ epsilon} + \ frac {\ oomega ^ 2 + \ oomega} {\ omega + n} \ frac {1 } {\ epsilon} \右)美元(khaled等,2020)用于分布式一般凸面问题,其中$ \ epsilon $是目标错误,$ l $是目标的平滑参数,$ n $机器/设备的数量和$ \ omega $是压缩参数(较大的$ \ omega $意味着可以应用更多压缩,并且没有压缩意味着$ \ omega = 0 $)。我们的结果表明,只要设备数量为$ n $很大(在分布式/联合学习中经常是真实的),或者压缩$ \ omega $不是很高,Canita达到了更快的收敛速度$ o \ big(\ sqrt {\ frac {l} {\ epsilon}} \ big)$,即通信轮的数量是$ o \ big(\ sqrt {\ frac {l} {\ epsilon}} \ big)$(与$ o \ big(\ frac {l} {\ epsilon} \ big)通过以前的作品实现)。因此,天堂岛享有压缩(每轮压缩通信)和加速度(较少的通信轮)的优点。
translated by 谷歌翻译
联合学习使用一组技术来有效地在拥有培训数据的几种设备上分发机器学习算法的培训。这些技术严重依赖于降低设备和中央服务器之间的通信成本 - 主要瓶颈。联合学习算法通常采用优化方法:它们是最大程度地减少培训损失的算法。在这项工作中,我们采用贝叶斯的方法来完成训练任务,并提出了Langevin算法的沟通效率变体来采样后验。后一种方法比其优化对应物更强大,并提供了更多关于\ textit {a后验分布的知识。我们在不假设目标分布强烈的对数符号的情况下分析了算法。取而代之的是,我们假设较弱的日志Sobolev不等式,它允许非概念性。
translated by 谷歌翻译
分布式优化和学习的最新进展表明,沟通压缩是减少交流的最有效手段之一。尽管在通信压缩下的收敛速率有很多结果,但理论下限仍然缺失。通过通信压缩的算法的分析将收敛归因于两个抽象属性:无偏见的属性或承包属性。它们可以通过单向压缩(仅从工人到服务器的消息被压缩)或双向压缩来应用它们。在本文中,我们考虑了分布式随机算法,以最大程度地减少通信压缩下的平滑和非凸目标函数。我们为算法建立了收敛的下限,无论是在单向或双向中使用无偏压缩机还是使用承包压缩机。为了缩小下限和现有上限之间的差距,我们进一步提出了一种新石器时代的算法,该算法在轻度条件下几乎达到了我们的下限(达到对数因素)。我们的结果还表明,使用承包双向压缩可以产生迭代方法,该方法的收敛速度与使用无偏见的单向压缩的方法一样快。实验结果验证了我们的发现。
translated by 谷歌翻译
联合学习可以使远程工作人员能够协作培训共享机器学习模型,同时允许在本地保持训练数据。在无线移动设备的用例中,由于功率和带宽有限,通信开销是关键瓶颈。前工作已经利用了各种数据压缩工具,例如量化和稀疏,以减少开销。在本文中,我们提出了一种用于联合学习的预测编码的压缩方案。该方案在所有设备中具有共享预测功能,并且允许每个工作人员发送来自参考的压缩残余矢量。在每个通信中,我们基于速率失真成本选择预测器和量化器,并进一步降低熵编码的冗余。广泛的模拟表明,与其他基线方法相比,甚至更好的学习性能,通信成本可以减少高达99%。
translated by 谷歌翻译
我们介绍了一个框架 - Artemis-,以解决分布式或联合设置中的学习问题,并具有通信约束和设备部分参与。几位工人(随机抽样)使用中央服务器执行优化过程来汇总其计算。为了减轻通信成本,Artemis允许在两个方向上(从工人到服务器,相反)将发送的信息与内存机制相结合。它改进了仅考虑单向压缩(对服务器)的现有算法,或在压缩操作员上使用非常强大的假设,并且通常不考虑设备的部分参与。我们在非I.I.D中的随机梯度(仅在最佳点界定的噪声方差)提供了快速的收敛速率(线性最高到阈值)。设置,突出显示内存对单向和双向压缩的影响,分析Polyak-Ruppert平均。我们在分布中使用收敛性,以获得渐近方差的下限,该方差突出了实际的压缩极限。我们提出了两种方法,以解决设备部分参与的具有挑战性的案例,并提供实验结果以证明我们的分析有效性。
translated by 谷歌翻译
我们开发了一种新方法来解决中央服务器中分布式学习问题中的通信约束。我们提出和分析了一种执行双向压缩的新算法,并仅使用uplink(从本地工人到中央服务器)压缩达到与算法相同的收敛速率。为了获得此改进,我们设计了MCM,一种算法,使下行链路压缩仅影响本地模型,而整体模型则保留。结果,与以前的工作相反,本地服务器上的梯度是在干扰模型上计算的。因此,融合证明更具挑战性,需要精确控制这种扰动。为了确保它,MCM还将模型压缩与存储机制相结合。该分析打开了新的门,例如纳入依赖工人的随机模型和部分参与。
translated by 谷歌翻译
由于培训数据集的大小爆炸,分布式学习近年来受到了日益增长的兴趣。其中一个主要瓶颈是中央服务器和本地工人之间的沟通成本。虽然已经证明错误反馈压缩以通过随机梯度下降(SGD)降低通信成本,但在培训大规模机器学习方面广泛用于培训的通信有效的适应性梯度方法楷模。在本文中,我们提出了一种新的通信 - 压缩AMSGRAD,用于分布式非透明的优化问题,可提供有效的效率。我们所提出的分布式学习框架具有有效的渐变压缩策略和工人侧模型更新设计。我们证明所提出的通信有效的分布式自适应梯度方法会聚到具有与随机非凸化优化设置中的未压缩的vanilla amsgrad相同的迭代复杂度的一阶静止点。关于各种基准备份我们理论的实验。
translated by 谷歌翻译
与训练数据中心的训练传统机器学习(ML)模型相反,联合学习(FL)训练ML模型,这些模型在资源受限的异质边缘设备上包含的本地数据集上。现有的FL算法旨在为所有参与的设备学习一个单一的全球模型,这对于所有参与培训的设备可能没有帮助,这是由于整个设备的数据的异质性。最近,Hanzely和Richt \'{A} Rik(2020)提出了一种新的配方,以培训个性化的FL模型,旨在平衡传统的全球模型与本地模型之间的权衡,该模型可以使用其私人数据对单个设备进行培训只要。他们得出了一种称为无环梯度下降(L2GD)的新算法,以解决该算法,并表明该算法会在需要更多个性化的情况下,可以改善沟通复杂性。在本文中,我们为其L2GD算法配备了双向压缩机制,以进一步减少本地设备和服务器之间的通信瓶颈。与FL设置中使用的其他基于压缩的算法不同,我们的压缩L2GD算法在概率通信协议上运行,在概率通信协议中,通信不会按固定的时间表进行。此外,我们的压缩L2GD算法在没有压缩的情况下保持与香草SGD相似的收敛速率。为了验证算法的效率,我们在凸和非凸问题上都进行了多种数值实验,并使用各种压缩技术。
translated by 谷歌翻译
分布式平均值估计(DME)是联邦学习中的一个中央构建块,客户将本地梯度发送到参数服务器,以平均和更新模型。由于通信限制,客户经常使用有损压缩技术来压缩梯度,从而导致估计不准确。当客户拥有多种网络条件(例如限制的通信预算和数据包损失)时,DME更具挑战性。在这种情况下,DME技术通常会导致估计误差显着增加,从而导致学习绩效退化。在这项工作中,我们提出了一种名为Eden的强大DME技术,该技术自然会处理异质通信预算和数据包损失。我们为伊甸园提供了有吸引力的理论保证,并通过经验进行评估。我们的结果表明,伊甸园对最先进的DME技术持续改进。
translated by 谷歌翻译
使用多个计算节点通常可以加速在大型数据集上的深度神经网络。这种方法称为分布式训练,可以通过专门的消息传递协议,例如环形全部减少。但是,以比例运行这些协议需要可靠的高速网络,其仅在专用集群中可用。相比之下,许多现实世界应用程序,例如联合学习和基于云的分布式训练,在具有不稳定的网络带宽的不可靠的设备上运行。因此,这些应用程序仅限于使用参数服务器或基于Gossip的平均协议。在这项工作中,我们通过提出MOSHPIT全部减少的迭代平均协议来提升该限制,该协议指数地收敛于全局平均值。我们展示了我们对具有强烈理论保证的分布式优化方案的效率。该实验显示了与使用抢占从头开始训练的竞争性八卦的策略和1.5倍的加速,显示了1.3倍的Imagenet培训的加速。
translated by 谷歌翻译
Federated learning allows collaborative workers to solve a machine learning problem while preserving data privacy. Recent studies have tackled various challenges in federated learning, but the joint optimization of communication overhead, learning reliability, and deployment efficiency is still an open problem. To this end, we propose a new scheme named federated learning via plurality vote (FedVote). In each communication round of FedVote, workers transmit binary or ternary weights to the server with low communication overhead. The model parameters are aggregated via weighted voting to enhance the resilience against Byzantine attacks. When deployed for inference, the model with binary or ternary weights is resource-friendly to edge devices. We show that our proposed method can reduce quantization error and converges faster compared with the methods directly quantizing the model updates.
translated by 谷歌翻译
大规模凸孔concave minimax问题在许多应用中出现,包括游戏理论,强大的培训和生成对抗网络的培训。尽管它们的适用性广泛,但使用现有的随机最小值方法在大量数据的情况下,有效,有效地解决此类问题是具有挑战性的。我们研究了一类随机最小值方法,并开发了一种沟通效率的分布式随机外算法Localadaseg,其自适应学习速率适合在参数 - 服务器模型中求解凸Conconcove minimax问题。 Localadaseg具有三个主要功能:(i)定期沟通策略,可降低工人与服务器之间的通信成本; (ii)在本地计算并允许无调实现的自适应学习率; (iii)从理论上讲,在随机梯度的估计中,相对于主要差异项的几乎线性加速在平滑和非平滑凸凸环设置中都证明了。 Localadaseg用于解决随机双线游戏,并训练生成的对抗网络。我们将localadaseg与几个用于最小问题的现有优化者进行了比较,并通过在均质和异质环境中的几个实验来证明其功效。
translated by 谷歌翻译
联邦学习是一种快速增长的研究领域,使大量客户能够在私人持有数据上共同列车机器学习模型。更广泛采用联合学习的最大障碍之一是向客户发送模型更新的通信成本,这是由于许多这些设备都是带宽约束的事实而强调的。在本文中,我们旨在通过优化在完整参数空间的子空间内的网络,称为机器学习理论界中的内在维度的思想来解决这个问题。我们使用内在维度和梯度可压缩性之间的对应关系来导出我们称之为内在梯度压缩算法的低带宽优化算法。具体而言,我们在这个家庭中展示了三种算法,其中包含不同级别的上传和下载带宽,以便在各种联合设置中使用,以及它们性能的理论保证。最后,在具有高达100米参数的模型的大型联合学习实验中,我们表明我们的算法与当前最先进的梯度压缩方法相比表现得非常好。
translated by 谷歌翻译
物联网(IoT)的扩散以及对设备进行感应,计算和通信功能的广泛使用,激发了人工智能增强的智能应用程序。经典人工智能算法需要集中的数据收集和处理,这些数据收集和处理在现实的智能物联网应用程序中,由于日益增长的数据隐私问题和分布式数据集。联合学习(FL)已成为一个分布式隐私的学习框架,该框架使IoT设备能够通过共享模型参数训练全局模型。但是,由于频繁的参数传输引起的效率低下会大大降低FL性能。现有的加速算法由两种主要类型组成,包括本地更新,考虑通信与计算之间的权衡以及参数压缩之间的权衡,考虑到通信和精度之间的权衡。共同考虑这两个权衡并适应平衡其对融合的影响尚未解决。为了解决该问题,本文提出了一种新型有效的自适应联合优化(EAFO)算法,以提高FL的效率,该算法通过共同考虑两个变量(包括本地更新和参数压缩)来最大程度地减少学习误差,并使FL能够自适应地调整两个变量和两个变量和两个变量。计算,沟通和精确度之间的平衡权衡。实验结果表明,与最先进的算法相比,提出的EAFO可以更快地实现更高的精度。
translated by 谷歌翻译