分布式学习的主要重点之一是沟通效率,因为每一轮训练的模型聚集可能包括数百万到数十亿个参数。已经提出了几种模型压缩方法,例如梯度量化和稀疏方法,以提高模型聚合的通信效率。但是,对于给定梯度估计器的给定扭曲的信息理论的最低通信成本仍然未知。在本文中,我们研究了从率延伸的角度研究分布式学习中模型聚集的基本限制。通过将模型聚合作为矢量高斯首席执行官问题,我们得出了模型聚合问题的速率区域和总成绩 - 距离函数,这揭示了在特定梯度失真上限处的最小通信速率。我们还根据现实世界数据集的梯度统计数据,分析了每次迭代和总通信成本的通信成本和总通信成本。发现通过利用工人节点之间的相关性来获得沟通增益,对于符号来说是显着的,并且梯度估计器的高扭曲可以实现梯度压缩中的较低总通信成本。
translated by 谷歌翻译
Federated learning is a distributed framework according to which a model is trained over a set of devices, while keeping data localized. This framework faces several systemsoriented challenges which include (i) communication bottleneck since a large number of devices upload their local updates to a parameter server, and (ii) scalability as the federated network consists of millions of devices. Due to these systems challenges as well as issues related to statistical heterogeneity of data and privacy concerns, designing a provably efficient federated learning method is of significant importance yet it remains challenging. In this paper, we present FedPAQ, a communication-efficient Federated Learning method with Periodic Averaging and Quantization. FedPAQ relies on three key features: (1) periodic averaging where models are updated locally at devices and only periodically averaged at the server; (2) partial device participation where only a fraction of devices participate in each round of the training; and (3) quantized messagepassing where the edge nodes quantize their updates before uploading to the parameter server. These features address the communications and scalability challenges in federated learning. We also show that FedPAQ achieves near-optimal theoretical guarantees for strongly convex and non-convex loss functions and empirically demonstrate the communication-computation tradeoff provided by our method.
translated by 谷歌翻译
联合学习可以使远程工作人员能够协作培训共享机器学习模型,同时允许在本地保持训练数据。在无线移动设备的用例中,由于功率和带宽有限,通信开销是关键瓶颈。前工作已经利用了各种数据压缩工具,例如量化和稀疏,以减少开销。在本文中,我们提出了一种用于联合学习的预测编码的压缩方案。该方案在所有设备中具有共享预测功能,并且允许每个工作人员发送来自参考的压缩残余矢量。在每个通信中,我们基于速率失真成本选择预测器和量化器,并进一步降低熵编码的冗余。广泛的模拟表明,与其他基线方法相比,甚至更好的学习性能,通信成本可以减少高达99%。
translated by 谷歌翻译
预计未来的无线网络将支持各种移动服务,包括人工智能(AI)服务和无处不在的数据传输。联合学习(FL)作为一种革命性的学习方法,可以跨分布式移动边缘设备进行协作AI模型培训。通过利用多访问通道的叠加属性,无线计算允许同时通过同一无线电资源从大型设备上传,因此大大降低了FL的通信成本。在本文中,我们研究了移动边缘网络中的无线信息和传统信息传输(IT)的共存。我们提出了一个共存的联合学习和信息传输(CFLIT)通信框架,其中FL和IT设备在OFDM系统中共享无线频谱。在此框架下,我们旨在通过优化长期无线电资源分配来最大化IT数据速率并确保给定的FL收敛性能。限制共存系统频谱效率的主要挑战在于,由于服务器和边缘设备之间的频繁通信以进行FL模型聚合,因此发生的大开销。为了应对挑战,我们严格地分析了计算与通信比对无线褪色通道中无线FL融合的影响。该分析揭示了存在最佳计算与通信比率的存在,该比率最大程度地降低了空中FL所需的无线电资源量,以收敛到给定的错误公差。基于分析,我们提出了一种低复杂性在线算法,以共同优化FL设备和IT设备的无线电资源分配。广泛的数值模拟验证了FL和IT设备在无线蜂窝系统中共存的拟议设计的出色性能。
translated by 谷歌翻译
在本文中,我们提出了一种由量化压缩感测的通信高效的联合学习框架。呈现的框架包括用于参数服务器(PS)的无线设备和梯度重建的梯度压缩。我们对梯度压缩的策略是顺序执行块稀疏,尺寸减小和量化。由于梯度稀疏和量化,我们的策略可以实现比单位梯度压缩更高的压缩比。为了从PS的压缩信号中精确聚集局部梯度,我们使用期望最大化通用近似消息传递(EM-GAMP)算法来提出梯度重建的近似最小均方误差(MMSE)方法。假设Bernoulli高斯 - 混合的先前,该算法迭代地更新来自压缩信号的局部梯度的后均值和方差。我们还为梯度重建呈现出低复杂性的方法。在这种方法中,我们使用Bussgang定理来从压缩信号聚合本地梯度,然后使用EM-GAMP算法计算聚合梯度的近似MMSE估计。我们还提供了所提出的框架的收敛速度分析。使用Mnist DataSet,我们证明所呈现的框架几乎可以使用不执行压缩的情况实现几乎相同的性能,同时显着降低联合学习的通信开销。
translated by 谷歌翻译
我们在限制下研究了一阶优化算法,即使用每个维度的$ r $ bits预算进行量化下降方向,其中$ r \ in(0,\ infty)$。我们提出了具有收敛速率的计算有效优化算法,与信息理论性能匹配:(i):(i)具有访问精确梯度甲骨文的平稳且强烈的符合目标,以及(ii)一般凸面和非平滑目标访问嘈杂的亚级别甲骨文。这些算法的关键是一种多项式复杂源编码方案,它在量化它之前将矢量嵌入随机子空间中。这些嵌入使得具有很高的概率,它们沿着转换空间的任何规范方向的投影很小。结果,量化这些嵌入,然后对原始空间进行逆变换产生一种源编码方法,具有最佳的覆盖效率,同时仅利用每个维度的$ r $ bits。我们的算法保证了位预算$ r $的任意值的最佳性,其中包括次线性预算制度($ r <1 $),以及高预算制度($ r \ geq 1 $),虽然需要$ o \ left(n^2 \右)$乘法,其中$ n $是尺寸。我们还提出了使用Hadamard子空间对这种编码方案的有效放松扩展以显着提高梯度稀疏方案的性能。数值模拟验证我们的理论主张。我们的实现可在https://github.com/rajarshisaha95/distoptconstrocncomm上获得。
translated by 谷歌翻译
由于客户端的通信资源有限和大量的模型参数,大规模分布式学习任务遭受通信瓶颈。梯度压缩是通过传输压缩梯度来减少通信负载的有效方法。由于在随机梯度下降的情况下,相邻轮的梯度可能具有高相关,因为他们希望学习相同的模型,提出了一种用于联合学习的实用梯度压缩方案,它使用历史梯度来压缩梯度并且基于Wyner-Ziv编码但没有任何概率的假设。我们还在实时数据集上实现了我们的渐变量化方法,我们的方法的性能优于前一个方案。
translated by 谷歌翻译
通过增加无线设备的计算能力,以及用户和设备生成的数据的前所未有的级别,已经出现了新的分布式机器学习(ML)方法。在无线社区中,由于其通信效率及其处理非IID数据问题的能力,联邦学习(FL)特别有趣。可以通过称为空中计算(AIRCOMP)的无线通信方法加速FL训练,其利用同时上行链路传输的干扰以有效地聚合模型更新。但是,由于Aircomp利用模拟通信,因此它引入了不可避免的估计错误。在本文中,我们研究了这种估计误差对FL的收敛性的影响,并提出了一种改进资源受限无线网络的方法的转移。首先,我们通过静态通道重新传输获得最佳Aircomp电源控制方案。然后,我们调查了传递的空中流体的性能,并在流失函数上找到两个上限。最后,我们提出了一种选择最佳重传的启发式,可以在训练ML模型之前计算。数值结果表明,引入重传可能导致ML性能提高,而不会在通信或计算方面产生额外的成本。此外,我们为我们的启发式提供了模拟结果,表明它可以正确地确定不同无线网络设置和机器学习问题的最佳重传次数。
translated by 谷歌翻译
联邦元学习(FML)已成为应对当今边缘学习竞技场中的数据限制和异质性挑战的承诺范式。然而,其性能通常受到缓慢的收敛性和相应的低通信效率的限制。此外,由于可用的无线电频谱和物联网设备的能量容量通常不足,因此在在实际无线网络中部署FML时,控制资源分配和能量消耗是至关重要的。为了克服挑战,在本文中,我们严格地分析了每个设备对每轮全球损失减少的贡献,并使用非统一的设备选择方案开发FML算法(称为Nufm)以加速收敛。之后,我们制定了集成NuFM在多通道无线系统中的资源分配问题,共同提高收敛速率并最小化壁钟时间以及能量成本。通过逐步解构原始问题,我们设计了一个联合设备选择和资源分配策略,以解决理论保证问题。此外,我们表明Nufm的计算复杂性可以通过$ O(d ^ 2)$至$ o(d)$(使用模型维度$ d $)通过组合两个一阶近似技术来降低。广泛的仿真结果表明,与现有基线相比,所提出的方法的有效性和优越性。
translated by 谷歌翻译
Emerging technologies and applications including Internet of Things (IoT), social networking, and crowd-sourcing generate large amounts of data at the network edge. Machine learning models are often built from the collected data, to enable the detection, classification, and prediction of future events. Due to bandwidth, storage, and privacy concerns, it is often impractical to send all the data to a centralized location. In this paper, we consider the problem of learning model parameters from data distributed across multiple edge nodes, without sending raw data to a centralized place. Our focus is on a generic class of machine learning models that are trained using gradientdescent based approaches. We analyze the convergence bound of distributed gradient descent from a theoretical point of view, based on which we propose a control algorithm that determines the best trade-off between local update and global parameter aggregation to minimize the loss function under a given resource budget. The performance of the proposed algorithm is evaluated via extensive experiments with real datasets, both on a networked prototype system and in a larger-scale simulated environment. The experimentation results show that our proposed approach performs near to the optimum with various machine learning models and different data distributions.
translated by 谷歌翻译
用于联合学习(FL)的最佳算法设计仍然是一个打开的问题。本文探讨了实用边缘计算系统中FL的全部潜力,其中工人可能具有不同的计算和通信功能,并且在服务器和工人之间发送量化的中间模型更新。首先,我们介绍了FL,即GenQSGD的一般量化并行迷你批量随机梯度下降(SGD)算法,即GenQSGD,其由全球迭代的数量参数化,所有工人的本地迭代的数量以及迷你批量大小。我们还分析了其算法参数的任何选择的收敛误差。然后,我们优化算法参数,以最小化时间约束和收敛误差约束下的能量成本。优化问题是具有非可分辨率约束函数的具有挑战性的非凸面问题。我们提出了一种迭代算法,可以使用高级优化技术获得KKT点。数值结果证明了现有的GenQSGD的显着增益,并揭示了最佳设计的重要性FL算法。
translated by 谷歌翻译
联合学习(FL)使移动设备能够在保留本地数据的同时协作学习共享的预测模型。但是,实际上在移动设备上部署FL存在两个主要的研究挑战:(i)频繁的无线梯度更新v.s.频谱资源有限,以及(ii)培训期间渴望的FL通信和本地计算V.S.电池约束的移动设备。为了应对这些挑战,在本文中,我们提出了一种新型的多位空天空计算(MAIRCOMP)方法,用于FL中本地模型更新的频谱有效聚合,并进一步介绍用于移动的能源有效的FL设计设备。具体而言,高精度数字调制方案是在MAIRCOMP中设计和合并的,允许移动设备同时在多访问通道中同时在所选位置上传模型更新。此外,我们理论上分析了FL算法的收敛性。在FL收敛分析的指导下,我们制定了联合传输概率和局部计算控制优化,旨在最大程度地减少FL移动设备的总体能源消耗(即迭代局部计算 +多轮通信)。广泛的仿真结果表明,我们提出的方案在频谱利用率,能源效率和学习准确性方面优于现有计划。
translated by 谷歌翻译
联合学习(FL)最近被揭示为有希望的技术,以便在网络边缘启用人工智能(AI),其中分布式移动设备在边缘服务器的协调下协同培训共享AI模型。为了显着提高FL的通信效率,通过利用无线多接入信道的叠加特性,遍布空中计算允许大量的移动设备通过利用无线多接入信道的叠加特性同时上传其本地模型。由于无线信道衰落,边缘服务器的模型聚合误差由所有设备中最弱的通道主导,导致严重的孤立问题。在本文中,我们提出了一种继电器协助的合作液计划,以有效地解决了斯塔格勒问题。特别是,我们部署了多个半双工继电器以协同协作在将本地模型更新上载到边缘服务器时的设备。空中计算的性质构成了与传统继电器通信系统中不同的系统目标和约束。此外,设计变量之间的强耦合使得这种系统具有挑战性的优化。为了解决问题,我们提出了一种基于交替优化的算法来优化收发器和中继操作,具有低复杂度。然后,我们在单个中继盒中分析模型聚合误差,并显示我们的继电器辅助方案实现比没有继电器的中继的误差较小的误差。该分析提供了对协同媒体实施中的继电器部署的关键见解。广泛的数值结果表明,与最先进的方案相比,我们的设计达到了更快的融合。
translated by 谷歌翻译
数据爆炸和模型尺寸的增加推动了大规模机器学习的显着进步,但也使模型训练时间耗时和模型存储变得困难。为了解决具有较高计算效率和设备限制的分布式模型培训设置中的上述问题,仍然存在两个主要困难。一方面,交换信息的沟通成本,例如,不同工人之间的随机梯度是分布式培训效率的关键瓶颈。另一方面,较少的参数模型容易用于存储和通信,但是损坏模型性能的风险。为了同时平衡通信成本,模型容量和模型性能,我们提出了量化的复合镜下降自适应亚基(QCMD Adagrad),并量化正规化双平均平均自适应亚级别(QRDA ADAGRAD)进行分布式培训。具体来说,我们探讨了梯度量化和稀疏模型的组合,以降低分布式培训中每次迭代的通信成本。构建了基于量化梯度的自适应学习率矩阵,以在沟通成本,准确性和模型稀疏性之间达到平衡。此外,从理论上讲,我们发现大量化误差会引起额外的噪声,从而影响模型的收敛性和稀疏性。因此,在QCMD Adagrad和QRDA Adagrad中采用了具有相对较小误差的阈值量化策略,以提高信噪比并保留模型的稀疏性。理论分析和经验结果都证明了所提出的算法的功效和效率。
translated by 谷歌翻译
用于解决具有量化消息传递的实际边缘计算系统中的一般机器学习(ML)问题的联邦学习(FL)算法的最佳设计仍然是一个打开问题。本文考虑了服务器和工人在发送消息之前具有不同的计算和通信能力以及使用量化的优势计算系统。为了探讨这种优势计算系统中的FL的全部潜力,我们首先介绍一般的FL算法,即GenQSGD,由全局和局部迭代,迷你批量大小和步骤尺寸序列参数化。然后,我们分析其对任意步长序列的融合,并指定三个常用的步大规则下的收敛结果,即常数,指数和递减的步长规则。接下来,我们优化算法参数,以最小化时间约束和收敛误差约束下的能量成本,重点是FL的整体实施过程。具体地,对于在每个考虑的步长规则下的任何给定的步骤尺寸序列,我们优化全局和本地迭代和迷你批量大小的数量,以最佳地实现具有预设步长序列的应用程序的FL。我们还优化了步骤序列以及这些算法参数,以探索FL的全部潜力。由此产生的优化问题是具有非可分性约束函数的非凸面问题。我们提出了使用通用内近似(GIA)的迭代算法来获得KKT点和用于解决互补几何编程(CGP)的技巧。最后,我们用现有的FL算法用优化的算法参数进行了数值展示了GenQSGD的显着收益,并揭示了最佳地设计了一般FL算法的重要性。
translated by 谷歌翻译
当上行链路和下行链路通信都有错误时联合学习(FL)工作吗?通信噪音可以处理多少,其对学习性能的影响是什么?这项工作致力于通过明确地纳入流水线中的上行链路和下行链路嘈杂的信道来回答这些实际重要的问题。我们在同时上行链路和下行链路嘈杂通信通道上提供了多种新的融合分析,其包括完整和部分客户端参与,直接模型和模型差分传输,以及非独立和相同分布的(IID)本地数据集。这些分析表征了嘈杂通道的流动条件,使其具有与无通信错误的理想情况相同的融合行为。更具体地,为了保持FEDAVG的O(1 / T)具有完美通信的O(1 / T)收敛速率,应控制用于直接模型传输的上行链路和下行链路信噪比(SNR),使得它们被缩放为O(t ^ 2)其中T是通信轮的索引,但可以保持常量的模型差分传输。这些理论结果的关键洞察力是“雷达下的飞行”原则 - 随机梯度下降(SGD)是一个固有的噪声过程,并且可以容忍上行链路/下行链路通信噪声,只要它们不占据时变的SGD噪声即可。我们举例说明了具有两种广泛采用的通信技术 - 传输功率控制和多样性组合的这些理论发现 - 并通过使用多个真实世界流动任务的广泛数值实验进一步通过标准方法验证它们的性能优势。
translated by 谷歌翻译
Parallel implementations of stochastic gradient descent (SGD) have received significant research attention, thanks to its excellent scalability properties. A fundamental barrier when parallelizing SGD is the high bandwidth cost of communicating gradient updates between nodes; consequently, several lossy compresion heuristics have been proposed, by which nodes only communicate quantized gradients. Although effective in practice, these heuristics do not always converge. In this paper, we propose Quantized SGD (QSGD), a family of compression schemes with convergence guarantees and good practical performance. QSGD allows the user to smoothly trade off communication bandwidth and convergence time: nodes can adjust the number of bits sent per iteration, at the cost of possibly higher variance. We show that this trade-off is inherent, in the sense that improving it past some threshold would violate information-theoretic lower bounds. QSGD guarantees convergence for convex and non-convex objectives, under asynchrony, and can be extended to stochastic variance-reduced techniques. When applied to training deep neural networks for image classification and automated speech recognition, QSGD leads to significant reductions in end-to-end training time. For instance, on 16GPUs, we can train the ResNet-152 network to full accuracy on ImageNet 1.8× faster than the full-precision variant. time to the same target accuracy is 2.7×. Further, even computationally-heavy architectures such as Inception and ResNet can benefit from the reduction in communication: on 16GPUs, QSGD reduces the end-to-end convergence time of ResNet152 by approximately 2×. Networks trained with QSGD can converge to virtually the same accuracy as full-precision variants, and that gradient quantization may even slightly improve accuracy in some settings. Related Work. One line of related research studies the communication complexity of convex optimization. In particular, [40] studied two-processor convex minimization in the same model, provided a lower bound of Ω(n(log n + log(1/ ))) bits on the communication cost of n-dimensional convex problems, and proposed a non-stochastic algorithm for strongly convex problems, whose communication cost is within a log factor of the lower bound. By contrast, our focus is on stochastic gradient methods. Recent work [5] focused on round complexity lower bounds on the number of communication rounds necessary for convex learning.Buckwild! [10] was the first to consider the convergence guarantees of low-precision SGD. It gave upper bounds on the error probability of SGD, assuming unbiased stochastic quantization, convexity, and gradient sparsity, and showed significant speedup when solving convex problems on CPUs. QSGD refines these results by focusing on the trade-off between communication and convergence. We view quantization as an independent source of variance for SGD, which allows us to employ standard convergence results [7]. The main differences from Buckw
translated by 谷歌翻译
分布式优化和学习的最新进展表明,沟通压缩是减少交流的最有效手段之一。尽管在通信压缩下的收敛速率有很多结果,但理论下限仍然缺失。通过通信压缩的算法的分析将收敛归因于两个抽象属性:无偏见的属性或承包属性。它们可以通过单向压缩(仅从工人到服务器的消息被压缩)或双向压缩来应用它们。在本文中,我们考虑了分布式随机算法,以最大程度地减少通信压缩下的平滑和非凸目标函数。我们为算法建立了收敛的下限,无论是在单向或双向中使用无偏压缩机还是使用承包压缩机。为了缩小下限和现有上限之间的差距,我们进一步提出了一种新石器时代的算法,该算法在轻度条件下几乎达到了我们的下限(达到对数因素)。我们的结果还表明,使用承包双向压缩可以产生迭代方法,该方法的收敛速度与使用无偏见的单向压缩的方法一样快。实验结果验证了我们的发现。
translated by 谷歌翻译
迄今为止,通信系统主要旨在可靠地交流位序列。这种方法提供了有效的工程设计,这些设计对消息的含义或消息交换所旨在实现的目标不可知。但是,下一代系统可以通过将消息语义和沟通目标折叠到其设计中来丰富。此外,可以使这些系统了解进行交流交流的环境,从而为新颖的设计见解提供途径。本教程总结了迄今为止的努力,从早期改编,语义意识和以任务为导向的通信开始,涵盖了基础,算法和潜在的实现。重点是利用信息理论提供基础的方法,以及学习在语义和任务感知通信中的重要作用。
translated by 谷歌翻译
在本文中,提出了一个绿色,量化的FL框架,该框架在本地培训和上行链路传输中代表具有有限精度水平的数据。在这里,有限的精度级别是通过使用量化的神经网络(QNN)来捕获的,该神经网络(QNN)以固定精确格式量化权重和激活。在考虑的FL模型中,每个设备训练其QNN并将量化的训练结果传输到基站。严格得出了局部训练和传输的能量模型。为了同时最大程度地减少能耗和交流的数量,相对于本地迭代的数量,选定设备的数量以及本地培训和传输的精确级别,在确保融合的同时,提出了多目标优化问题目标准确性约束。为了解决此问题,相对于系统控制变量,分析得出所提出的FL系统的收敛速率。然后,该问题的帕累托边界被表征为使用正常边界检查方法提供有效的解决方案。通过使用NASH讨价还价解决方案并分析派生的收敛速率,从两个目标之间平衡了两种目标之间的权衡的洞察力。仿真结果表明,与代表完全精确的数据相比,提出的FL框架可以减少能源消耗,直到收敛高达52%。
translated by 谷歌翻译