通过联合学习培训的机器学习模型的收敛速度受到异构数据分区的显着影响,甚至在没有中央服务器的完全分散的设置中。在本文中,我们表明,通过仔细设计潜在的通信拓扑,可以显着降低标签分布偏斜的影响,这是一种重要的数据异质性。我们呈现D-Cliques,一种新颖的拓扑,其通过在稀疏互连的批分中分组节点来减少梯度偏压,使得Clique中的标签分布代表全局标签分布。我们还展示了如何调整分散的SGD的更新,以获得不偏的渐变,并利用D-Cliques实现有效的动量。我们对MNIST和CIFAR10的广泛实证评估表明,我们的方法提供了类似的收敛速度作为完全连接的拓扑,这提供了数据异构设置中的最佳收敛性,并且在边缘和消息的数量下显着降低。在1000节点拓扑中,D-Cliques需要98%的边缘和96%的总信息,在跨越群体中使用小世界拓扑的进一步获得。
translated by 谷歌翻译
分散和联合学习的关键挑战之一是设计算法,这些算法有效地处理跨代理商的高度异构数据分布。在本文中,我们在数据异质性下重新审视分散的随机梯度下降算法(D-SGD)的分析。我们在D-SGD的收敛速率上展示了新数量的关键作用,称为\ emph {邻居异质性}。通过结合通信拓扑结构和异质性,我们的分析阐明了这两个分散学习中这两个概念之间的相互作用较低。然后,我们认为邻里的异质性提供了一种自然标准,可以学习数据依赖性拓扑结构,以减少(甚至可以消除)数据异质性对D-SGD收敛时间的有害影响。对于与标签偏度分类的重要情况,我们制定了学习这样一个良好拓扑的问题,例如我们使用Frank-Wolfe算法解决的可拖动优化问题。如一组模拟和现实世界实验所示,我们的方法提供了一种设计稀疏拓扑的方法,可以在数据异质性下平衡D-SGD的收敛速度和D-SGD的触电沟通成本。
translated by 谷歌翻译
Recently, local peer topology has been shown to influence the overall convergence of decentralized learning (DL) graphs in the presence of data heterogeneity. In this paper, we demonstrate the advantages of constructing a proxy-based locally heterogeneous DL topology to enhance convergence and maintain data privacy. In particular, we propose a novel peer clumping strategy to efficiently cluster peers before arranging them in a final training graph. By showing how locally heterogeneous graphs outperform locally homogeneous graphs of similar size and from the same global data distribution, we present a strong case for topological pre-processing. Moreover, we demonstrate the scalability of our approach by showing how the proposed topological pre-processing overhead remains small in large graphs while the performance gains get even more pronounced. Furthermore, we show the robustness of our approach in the presence of network partitions.
translated by 谷歌翻译
联合学习(FL)可以培训全球模型,而无需共享存储在多个设备上的分散的原始数据以保护数据隐私。由于设备的能力多样化,FL框架难以解决Straggler效应和过时模型的问题。此外,数据异质性在FL训练过程中会导致全球模型的严重准确性降解。为了解决上述问题,我们提出了一个层次同步FL框架,即Fedhisyn。 Fedhisyn首先根据其计算能力将所有可​​用的设备簇分为少数类别。经过一定的本地培训间隔后,将不同类别培训的模型同时上传到中央服务器。在单个类别中,设备根据环形拓扑会相互传达局部更新的模型权重。随着环形拓扑中训练的效率更喜欢具有均匀资源的设备,基于计算能力的分类减轻了Straggler效应的影响。此外,多个类别的同步更新与单个类别中的设备通信的组合有助于解决数据异质性问题,同时达到高精度。我们评估了基于MNIST,EMNIST,CIFAR10和CIFAR100数据集的提议框架以及设备的不同异质设置。实验结果表明,在训练准确性和效率方面,Fedhisyn的表现优于六种基线方法,例如FedAvg,脚手架和Fedat。
translated by 谷歌翻译
Federated Learning (FL) has become a key choice for distributed machine learning. Initially focused on centralized aggregation, recent works in FL have emphasized greater decentralization to adapt to the highly heterogeneous network edge. Among these, Hierarchical, Device-to-Device and Gossip Federated Learning (HFL, D2DFL \& GFL respectively) can be considered as foundational FL algorithms employing fundamental aggregation strategies. A number of FL algorithms were subsequently proposed employing multiple fundamental aggregation schemes jointly. Existing research, however, subjects the FL algorithms to varied conditions and gauges the performance of these algorithms mainly against Federated Averaging (FedAvg) only. This work consolidates the FL landscape and offers an objective analysis of the major FL algorithms through a comprehensive cross-evaluation for a wide range of operating conditions. In addition to the three foundational FL algorithms, this work also analyzes six derived algorithms. To enable a uniform assessment, a multi-FL framework named FLAGS: Federated Learning AlGorithms Simulation has been developed for rapid configuration of multiple FL algorithms. Our experiments indicate that fully decentralized FL algorithms achieve comparable accuracy under multiple operating conditions, including asynchronous aggregation and the presence of stragglers. Furthermore, decentralized FL can also operate in noisy environments and with a comparably higher local update rate. However, the impact of extremely skewed data distributions on decentralized FL is much more adverse than on centralized variants. The results indicate that it may not be necessary to restrict the devices to a single FL algorithm; rather, multi-FL nodes may operate with greater efficiency.
translated by 谷歌翻译
联合学习(FL)是一个蓬勃发展的分布式机器学习框架,其中中心参数服务器(PS)协调许多本地用户以训练全局一致的模型。传统的联合学习不可避免地依赖于具有PS的集中拓扑。因此,一旦PS失败,它将瘫痪。为了缓解如此单点故障,特别是在PS上,一些现有的工作已经提供了CDSGD和D-PSGD等分散的FL(DFL)实现,以便于分散拓扑中的流体。然而,这些方法仍存在一些问题,例如,在CDSGD中的用户最终模型和D-PSGD中的网络范围的模型平均必需品之间存在一些问题。为了解决这些缺陷,本文设计了一种作为DACFL的新DFL实现,其中每个用户使用自己的训练数据列举其模型,并通过对称和双随机矩阵将中间模型与其邻居交换。 DACFL将每个用户本地培训的进度视为离散时间过程,并采用第一个订单动态平均共识(FODAC)方法来跟踪\ Texit {平均模型}在没有PS的情况下。在本文中,我们还提供了DACFL的理论收敛性分析,即在I.I.D数据的前提下,以加强其合理性。 Mnist,Fashion-Mnist和CiFar-10的实验结果验证了我们在几间不变性和时变网络拓扑中的解决方案的可行性,并在大多数情况下声明DACFL优于D-PSGD和CDSGD。
translated by 谷歌翻译
分散的学习算法可以通过在不同设备和位置生成的大型分布式数据集对深度学习模型进行培训,而无需中央服务器。在实际情况下,分布式数据集可以在整个代理之间具有显着不同的数据分布。当前的最新分散算法主要假设数据分布是独立且分布相同的(IID)。本文的重点是用最小的计算和内存开销来改善非IID数据分布的分散学习。我们提出了邻居梯度聚类(NGC),这是一种新型的分散学习算法,使用自我和交叉梯度信息修改每个代理的局部梯度。特别是,所提出的方法用自级的加权平均值,模型变化的跨梯度(接收到的邻居模型参数相对于本地数据集的衍生物)和数据变化,将模型的局部梯度取代了模型变化的均值平均值交叉梯度(相对于其邻居数据集的本地模型的衍生物)。此外,我们提出了compngc,这是NGC的压缩版本,通过压缩交叉梯度将通信开销降低了$ 32 \ times $。我们证明了所提出的技术在各种模型体系结构和图形拓扑上采样的非IID数据分布上提出的技术的经验收敛性和效率。我们的实验表明,NGC和COMPNGC的表现优于现有的最先进的(SOTA)去中心化学习算法,而不是非IID数据的$ 1-5 \%$,其计算和内存需求明显降低。此外,我们还表明,所提出的NGC方法的表现优于$ 5-40 \%$,而没有其他交流。
translated by 谷歌翻译
跨核心联合学习利用了几百个可靠的数据筒仓,并具有高速访问链接,共同训练模型。尽管这种方法成为联合学习中的流行环境,但设计出强大的拓扑以减少训练时间仍然是一个开放的问题。在本文中,我们提出了一种用于跨核心联合学习的新的多编码拓扑。我们首先使用覆盖图构造多式图。然后,我们将此多数分析为具有孤立节点的不同简单图。隔离节点的存在使我们能够执行模型聚合而无需等待其他节点,从而减少训练时间。我们进一步提出了一种新的分布式学习算法,以与我们的多编码拓扑一起使用。公共数据集的密集实验表明,与最近的最新拓扑相比,我们提出的方法大大减少了训练时间,同时确保收敛并保持模型的准确性。
translated by 谷歌翻译
在本文中,我们建议在分散的设置中解决一个正规化的分布鲁棒性学习问题,并考虑到数据分配的变化。通过将Kullback-Liebler正则化功能添加到可靠的Min-Max优化问题中,可以将学习问题降低到修改的可靠最小化问题并有效地解决。利用新配制的优化问题,我们提出了一个强大的版本的分散的随机梯度下降(DSGD),分布在分布方面具有强大的分散性随机梯度下降(DR-DSGD)。在一些温和的假设下,前提是正则化参数大于一个,我们从理论上证明DR-DSGD达到了$ \ MATHCAL {O} \ left的收敛速率$,其中$ k $是设备的数量,而$ t $是迭代次数。仿真结果表明,我们提出的算法可以提高最差的分配测试精度,最高$ 10 \%$。此外,DR-DSGD比DSGD更有效,因为它需要更少的沟通回合(最高$ 20 $ $倍)才能达到相同的最差分配测试准确性目标。此外,进行的实验表明,在测试准确性方面,DR-DSGD会导致整个设备的性能更公平。
translated by 谷歌翻译
通信成本是有效分布式学习算法设计的主要瓶颈。最近,已经提出了事件触发的技术来减少计算节点之间的交换信息,从而减轻通信成本。但是,大多数现有的事件触发的方法只考虑启发式事件触发的阈值。它们还忽略了计算和网络延迟的影响,这在培训表现上起着重要作用。在本文中,我们提出了一种异步事件触发的随机梯度下降(SGD)框架,称为AET-SGD,至i)降低计算节点之间的通信成本,并且II)减轻延迟的影响。与基线事件触发的方法相比,AET-SGD采用线性增加样本大小事件触发阈值,并且可以显着降低通信成本,同时保持良好的收敛性能。我们实现AET-SGD并评估其在多个代表数据集中的性能,包括Mnist,FashionMnist,KMnist和CiFar10。实验结果验证了设计的正确性,与现有技术相比,验证了设计的正确性降低了44倍至120倍。我们的结果还表明,AET-SGD可以在获得体面的性能和所需的加速度的同时抵抗来自斯特拉格勒节点的大延迟。
translated by 谷歌翻译
联邦边缘学习(诱导)吸引了许多隐私范例的关注,以有效地纳入网络边缘的分布式数据来训练深度学习模型。然而,单个边缘服务器的有限覆盖范围导致参与者的客户节点数量不足,这可能会损害学习性能。在本文中,我们调查了一种新颖的感觉框架,即半分散的联邦边缘学习(SD-INES),其中采用多个边缘服务器集体协调大量客户端节点。通过利用边缘服务器之间的低延迟通信进行高效的模型共享,SD-Feels可以包含更多的培训数据,同时与传统联合学习相比享受更低的延迟。我们详细介绍了三个主要步骤的SD感觉的培训算法,包括本地模型更新,群集内部和群集间模型聚合。在非独立和相同分布的(非IID)数据上证明了该算法的收敛性,这也有助于揭示关键参数对培训效率的影响,并提供实用的设计指南。同时,边缘装置的异质性可能导致级体效应并降低SD感应的收敛速度。为了解决这个问题,我们提出了一种具有SD-Iave的稳定性舒长方案的异步训练算法,其中,还分析了收敛性能。模拟结果展示了所提出的SD感觉和证实我们分析的算法的有效性和效率。
translated by 谷歌翻译
在联合学习(FL)的新兴范式中,大量客户端(例如移动设备)用于在各自的数据上训练可能的高维模型。由于移动设备的带宽低,分散的优化方法需要将计算负担从那些客户端转移到计算服务器,同时保留隐私和合理的通信成本。在本文中,我们专注于深度,如多层神经网络的培训,在FL设置下。我们提供了一种基于本地模型的层状和维度更新的新型联合学习方法,减轻了非凸起和手头优化任务的多层性质的新型联合学习方法。我们为Fed-Lamb提供了一种彻底的有限时间收敛性分析,表征其渐变减少的速度有多速度。我们在IID和非IID设置下提供实验结果,不仅可以证实我们的理论,而且与最先进的方法相比,我们的方法的速度更快。
translated by 谷歌翻译
分布式学习已成为缩放机器学习并解决数据隐私需求不断增长的积分工具。虽然对网络拓扑的更强大,但分散的学习计划没有获得与其集中式同行相同的人气水平,因为它们具有较低的竞争性能。在这项工作中,我们将此问题归因于分散的学习工人之间缺乏同步,在经验和理论上表现出来,收敛速度与工人之间的同步水平相关联。我们认为,基于非线性漫步(非政府组织)的新型分散式学习框架,享有有吸引力的有限时间共识性,以实现更好的同步。我们对其收敛性提供了仔细分析,并讨论了现代分布式优化应用的优点,如深神经网络。我们对通信延迟和随机聊天如何影响学习的分析进一步实现了适应异步和随机通信的实际变体的推导。为了验证我们提案的有效性,我们通过广泛的测试,我们通过广泛的测试来利用竞争解决方案,令人鼓舞的结果报告。
translated by 谷歌翻译
在联合学习中,模型个性化可以是处理跨客户端的异构培训数据的非常有效的策略。我们介绍了华夫饼(联邦学习的加权平均),一个个性化的协作机器学习算法,利用随机控制变体进行更快的收敛。华夫饼使用客户在客户的更新之间的欧几里德距离来权衡他们的个人贡献,从而最大限度地减少了对特定意见代理人的个性化模型损失。通过一系列实验,我们将新方法与两个最近的个性化联邦学习方法进行比较 - 重量侵蚀和APFL - 以及两种通用方法 - 联邦平均和脚手架。使用两类非相同客户数据分布评估性能 - 概念移位和标签偏差 - 在两个图像数据集(MNIST和CIFAR10)上。我们的实验表明了华夫犬的比较有效性,因为它达到或提高了更快的收敛性的准确性。
translated by 谷歌翻译
联合学习是一种在不违反隐私限制的情况下对分布式数据集进行统计模型培训统计模型的最新方法。通过共享模型而不是客户和服务器之间的数据来保留数据位置原则。这带来了许多优势,但也带来了新的挑战。在本报告中,我们探讨了这个新的研究领域,并执行了几项实验,以加深我们对这些挑战的理解以及不同的问题设置如何影响最终模型的性能。最后,我们为这些挑战之一提供了一种新颖的方法,并将其与文献中的其他方法进行了比较。
translated by 谷歌翻译
在机器学习模型的数据并行优化中,工人协作以改善对模型的估计:更准确的梯度使他们可以使用更大的学习率并更快地优化。我们考虑所有工人从同一数据集进行采样的设置,并通过稀疏图(分散)进行通信。在这种情况下,当前的理论无法捕获现实世界行为的重要方面。首先,通信图的“光谱差距”不能预测其(深)学习中的经验表现。其次,当前的理论并不能解释合作可以比单独培训更大的学习率。实际上,它规定了较小的学习率,随着图表的变化而进一步降低,无法解释无限图中的收敛性。本文旨在在工人共享相同的数据分布时绘制出稀疏连接的分布式优化的准确图片。我们量化图形拓扑如何影响二次玩具问题中的收敛性,并为一般平滑和(强烈)凸目标提供理论结果。我们的理论与深度学习中的经验观察相匹配,并准确地描述了不同图形拓扑的相对优点。
translated by 谷歌翻译
Most distributed machine learning systems nowadays, including TensorFlow and CNTK, are built in a centralized fashion. One bottleneck of centralized algorithms lies on high communication cost on the central node. Motivated by this, we ask, can decentralized algorithms be faster than its centralized counterpart?Although decentralized PSGD (D-PSGD) algorithms have been studied by the control community, existing analysis and theory do not show any advantage over centralized PSGD (C-PSGD) algorithms, simply assuming the application scenario where only the decentralized network is available. In this paper, we study a D-PSGD algorithm and provide the first theoretical analysis that indicates a regime in which decentralized algorithms might outperform centralized algorithms for distributed stochastic gradient descent. This is because D-PSGD has comparable total computational complexities to C-PSGD but requires much less communication cost on the busiest node. We further conduct an empirical study to validate our theoretical analysis across multiple frameworks (CNTK and Torch), different network configurations, and computation platforms up to 112 GPUs. On network configurations with low bandwidth or high latency, D-PSGD can be up to one order of magnitude faster than its well-optimized centralized counterparts.
translated by 谷歌翻译
由于其在数据隐私保护,有效的沟通和并行数据处理方面的好处,联邦学习(FL)近年来引起了人们的兴趣。同样,采用适当的算法设计,可以实现fl中收敛效应的理想线性加速。但是,FL上的大多数现有作品仅限于I.I.D.的系统。数据和集中参数服务器以及与异质数据集分散的FL上的结果仍然有限。此外,在完全分散的FL下,与数据异质性在完全分散的FL下,可以实现收敛的线性加速仍然是一个悬而未决的问题。在本文中,我们通过提出一种称为Net-Fleet的新算法,以解决具有数据异质性的完全分散的FL系统,以解决这些挑战。我们算法的关键思想是通过合并递归梯度校正技术来处理异质数据集,以增强FL(最初旨在用于通信效率)的本地更新方案。我们表明,在适当的参数设置下,所提出的净型算法实现了收敛的线性加速。我们进一步进行了广泛的数值实验,以评估所提出的净化算法的性能并验证我们的理论发现。
translated by 谷歌翻译
联合学习(FL)是一个分布式的机器学习框架,可以减轻数据孤岛,在该筒仓中,分散的客户在不共享其私人数据的情况下协作学习全球模型。但是,客户的非独立且相同分布的(非IID)数据对训练有素的模型产生了负面影响,并且具有不同本地更新的客户可能会在每个通信回合中对本地梯度造成巨大差距。在本文中,我们提出了一种联合矢量平均(FedVeca)方法来解决上述非IID数据问题。具体而言,我们为与本地梯度相关的全球模型设定了一个新的目标。局部梯度定义为具有步长和方向的双向向量,其中步长为局部更新的数量,并且根据我们的定义将方向分为正和负。在FedVeca中,方向受步尺的影响,因此我们平均双向向量,以降低不同步骤尺寸的效果。然后,我们理论上分析了步骤大小与全球目标之间的关系,并在每个通信循环的步骤大小上获得上限。基于上限,我们为服务器和客户端设计了一种算法,以自适应调整使目标接近最佳的步骤大小。最后,我们通过构建原型系统对不同数据集,模型和场景进行实验,实验结果证明了FedVeca方法的有效性和效率。
translated by 谷歌翻译
在分布式和联合学习中实现全球融合的主要障碍是由于分布式数据的异质性和随机性的客户端跨越梯度的未对准。在这项工作中,我们表明,实际上可以利用数据异质性来通过隐式正规化提高泛化性能。缓解异质性影响的一种方法是在整个训练中鼓励在不同客户端中的渐变对齐。我们的分析表明,通过利用复制SGD的隐式正则化效果的正确优化方法可以实现这一目标,从而导致梯度对准以及测试精度的改进。由于SGD中该正则化的存在完全依赖于在训练期间的不同迷你批次的顺序使用,因此在用大型批次进行训练时固有地没有。为了在增加并行性的同时获得该正则化的泛化效益,我们提出了一种新的渐变算法,其诱导相同的隐式正则化,同时允许在每个更新中使用任意大的批次。我们通过在不同分布式和联合学习设置中实验验证我们算法的优势。
translated by 谷歌翻译