Federated学习(FL)作为保护分布式机器学习框架引起了很多关注,许多客户通过将模型更新与参数服务器交换而不是共享其原始数据来协作训练机器学习模型。然而,FL培训遭受了缓慢的收敛性和不稳定的性能,这是由于客户的异质计算资源引起的散乱者和沟通率的波动。本文提出了一个编码的FL框架来减轻Straggler问题,即随机编码的联合学习(SCFL)。在此框架中,每个客户端通过将附加噪声添加到其本地数据的随机线性组合中,从而生成一个隐私的编码数据集。服务器从所有客户端收集编码的数据集来构建复合数据集,这有助于补偿散布效果。在培训过程中,服务器和客户端执行迷你批次随机梯度下降(SGD),并且服务器在模型聚合中添加了一个化妆术语,以获得无偏的梯度估计。我们通过共同信息差异隐私(MI-DP)来表征隐私保证,并分析联合学习中的收敛性能。此外,我们通过分析隐私约束对收敛率的影响,证明了拟议的SCFL方法的隐私性绩效权衡。最后,数值实验证实了我们的分析,并显示了SCFL在保持数据隐私的同时实现快速收敛的好处。
translated by 谷歌翻译
Federated learning (FL) has achieved great success as a privacy-preserving distributed training paradigm, where many edge devices collaboratively train a machine learning model by sharing the model updates instead of the raw data with a server. However, the heterogeneous computational and communication resources of edge devices give rise to stragglers that significantly decelerate the training process. To mitigate this issue, we propose a novel FL framework named stochastic coded federated learning (SCFL) that leverages coded computing techniques. In SCFL, before the training process starts, each edge device uploads a privacy-preserving coded dataset to the server, which is generated by adding Gaussian noise to the projected local dataset. During training, the server computes gradients on the global coded dataset to compensate for the missing model updates of the straggling devices. We design a gradient aggregation scheme to ensure that the aggregated model update is an unbiased estimate of the desired global update. Moreover, this aggregation scheme enables periodical model averaging to improve the training efficiency. We characterize the tradeoff between the convergence performance and privacy guarantee of SCFL. In particular, a more noisy coded dataset provides stronger privacy protection for edge devices but results in learning performance degradation. We further develop a contract-based incentive mechanism to coordinate such a conflict. The simulation results show that SCFL learns a better model within the given time and achieves a better privacy-performance tradeoff than the baseline methods. In addition, the proposed incentive mechanism grants better training performance than the conventional Stackelberg game approach.
translated by 谷歌翻译
联邦边缘学习(诱导)吸引了许多隐私范例的关注,以有效地纳入网络边缘的分布式数据来训练深度学习模型。然而,单个边缘服务器的有限覆盖范围导致参与者的客户节点数量不足,这可能会损害学习性能。在本文中,我们调查了一种新颖的感觉框架,即半分散的联邦边缘学习(SD-INES),其中采用多个边缘服务器集体协调大量客户端节点。通过利用边缘服务器之间的低延迟通信进行高效的模型共享,SD-Feels可以包含更多的培训数据,同时与传统联合学习相比享受更低的延迟。我们详细介绍了三个主要步骤的SD感觉的培训算法,包括本地模型更新,群集内部和群集间模型聚合。在非独立和相同分布的(非IID)数据上证明了该算法的收敛性,这也有助于揭示关键参数对培训效率的影响,并提供实用的设计指南。同时,边缘装置的异质性可能导致级体效应并降低SD感应的收敛速度。为了解决这个问题,我们提出了一种具有SD-Iave的稳定性舒长方案的异步训练算法,其中,还分析了收敛性能。模拟结果展示了所提出的SD感觉和证实我们分析的算法的有效性和效率。
translated by 谷歌翻译
恶意攻击者和诚实但有趣的服务器可以从联合学习中上传的梯度中窃取私人客户数据。尽管当前的保护方法(例如,添加剂同构密码系统)可以保证联合学习系统的安全性,但它们带来了额外的计算和通信成本。为了减轻成本,我们提出了\ texttt {fedage}框架,该框架使服务器能够在编码域中汇总梯度,而无需访问任何单个客户端的原始梯度。因此,\ texttt {fedage}可以防止好奇的服务器逐渐窃取,同时保持相同的预测性能而没有额外的通信成本。此外,从理论上讲,我们证明所提出的编码编码框架是具有差异隐私的高斯机制。最后,我们在几个联合设置下评估\ texttt {fedage},结果证明了提出的框架的功效。
translated by 谷歌翻译
Federated learning seeks to address the issue of isolated data islands by making clients disclose only their local training models. However, it was demonstrated that private information could still be inferred by analyzing local model parameters, such as deep neural network model weights. Recently, differential privacy has been applied to federated learning to protect data privacy, but the noise added may degrade the learning performance much. Typically, in previous work, training parameters were clipped equally and noises were added uniformly. The heterogeneity and convergence of training parameters were simply not considered. In this paper, we propose a differentially private scheme for federated learning with adaptive noise (Adap DP-FL). Specifically, due to the gradient heterogeneity, we conduct adaptive gradient clipping for different clients and different rounds; due to the gradient convergence, we add decreasing noises accordingly. Extensive experiments on real-world datasets demonstrate that our Adap DP-FL outperforms previous methods significantly.
translated by 谷歌翻译
Federated learning (FL) is a collaborative machine learning framework that requires different clients (e.g., Internet of Things devices) to participate in the machine learning model training process by training and uploading their local models to an FL server in each global iteration. Upon receiving the local models from all the clients, the FL server generates a global model by aggregating the received local models. This traditional FL process may suffer from the straggler problem in heterogeneous client settings, where the FL server has to wait for slow clients to upload their local models in each global iteration, thus increasing the overall training time. One of the solutions is to set up a deadline and only the clients that can upload their local models before the deadline would be selected in the FL process. This solution may lead to a slow convergence rate and global model overfitting issues due to the limited client selection. In this paper, we propose the Latency awarE Semi-synchronous client Selection and mOdel aggregation for federated learNing (LESSON) method that allows all the clients to participate in the whole FL process but with different frequencies. That is, faster clients would be scheduled to upload their models more frequently than slow clients, thus resolving the straggler problem and accelerating the convergence speed, while avoiding model overfitting. Also, LESSON is capable of adjusting the tradeoff between the model accuracy and convergence rate by varying the deadline. Extensive simulations have been conducted to compare the performance of LESSON with the other two baseline methods, i.e., FedAvg and FedCS. The simulation results demonstrate that LESSON achieves faster convergence speed than FedAvg and FedCS, and higher model accuracy than FedCS.
translated by 谷歌翻译
Federated learning (FL), as a type of distributed machine learning, is capable of significantly preserving clients' private data from being exposed to adversaries. Nevertheless, private information can still be divulged by analyzing uploaded parameters from clients, e.g., weights trained in deep neural networks. In this paper, to effectively prevent information leakage, we propose a novel framework based on the concept of differential privacy (DP), in which artificial noises are added to parameters at the clients' side before aggregating, namely, noising before model aggregation FL (NbAFL). First, we prove that the NbAFL can satisfy DP under distinct protection levels by properly adapting different variances of artificial noises. Then we develop a theoretical convergence bound of the loss function of the trained FL model in the NbAFL. Specifically, the theoretical bound reveals the following three key properties: 1) There is a tradeoff between a convergence performance and privacy protection levels, i.e., better convergence performance leads to a lower protection level; 2) Given a fixed privacy protection level, increasing the number N of overall clients participating in FL can improve the convergence performance; and 3) There is an optimal number aggregation times (communication rounds) in terms of convergence performance for a given protection level. Furthermore, we propose a K-client random scheduling strategy, where K (1 ≤ K < N ) clients are randomly selected from the N overall clients to participate in each aggregation. We also develop a corresponding convergence bound for the loss function in this case and the K-client random scheduling strategy also retains the above three properties. Moreover, we find that there is an optimal K that achieves the best convergence performance at a
translated by 谷歌翻译
联邦边缘学习(诱导)被认为是一个隐私保留的移动边缘网络的分布式学习框架。在这项工作中,我们调查了一种新的半分散式感觉(SD-enve)架构,其中多个边缘服务器协作以将更多数据从边缘设备纳入训练中。尽管通过快速聚合使能低训练延迟,但计算资源中的设备异质性劣化了效率。本文提出了一种异步训练算法来克服这个问题,其中边缘服务器可以独立设置相关的客户端节点的截止日期并触发模型聚合。要处理不同层次的僵化,我们设计了一个僵化意识的聚合方案并分析其收敛性能。仿真结果展示了我们所提出的算法在实现更快的收敛性和更好的学习性能方面的有效性。
translated by 谷歌翻译
可扩展性和隐私是交叉设备联合学习(FL)系统的两个关键问题。在这项工作中,我们确定了FL中的客户端更新的同步流动聚合不能高效地缩放到几百个并行培训之外。它导致ModelPerforce和训练速度的回报递减,Ampanysto大批量培训。另一方面,FL(即异步FL)中的客户端更新的异步聚合减轻了可扩展性问题。但是,聚合个性链子更新与安全聚合不兼容,这可能导致系统的不良隐私水平。为了解决这些问题,我们提出了一种新颖的缓冲异步聚合方法FedBuff,这是不可知的优化器的选择,并结合了同步和异步FL的最佳特性。我们经验证明FEDBuff比同步FL更有效,比异步FL效率更高3.3倍,同时兼容保留保护技术,如安全聚合和差异隐私。我们在平滑的非凸设置中提供理论融合保证。最后,我们显示在差异私有培训下,FedBuff可以在低隐私设置下占FEDAVGM并实现更高隐私设置的相同实用程序。
translated by 谷歌翻译
联邦学习(FL)引起了人们对在存储在多个用户中的数据中启用隐私的机器学习的兴趣,同时避免将数据移动到偏离设备上。但是,尽管数据永远不会留下用户的设备,但仍然无法保证隐私,因为用户培训数据的重大计算以训练有素的本地模型的形式共享。最近,这些本地模型通过不同的隐私攻击(例如模型反演攻击)构成了实质性的隐私威胁。作为一种补救措施,通过保证服务器只能学习全局聚合模型更新,而不是单个模型更新,从而开发了安全汇总(SA)作为保护佛罗里达隐私的框架。尽管SA确保没有泄漏有关单个模型更新超出汇总模型更新的其他信息,但对于SA实际上可以提供多少私密性fl,没有正式的保证;由于有关单个数据集的信息仍然可以通过在服务器上计算的汇总模型泄漏。在这项工作中,我们对使用SA的FL的正式隐私保证进行了首次分析。具体而言,我们使用共同信息(MI)作为定量度量,并在每个用户数据集的信息上可以通过汇总的模型更新泄漏有关多少信息。当使用FEDSGD聚合算法时,我们的理论界限表明,隐私泄漏量随着SA参与FL的用户数量而线性减少。为了验证我们的理论界限,我们使用MI神经估计量来凭经验评估MNIST和CIFAR10数据集的不同FL设置下的隐私泄漏。我们的实验验证了FEDSGD的理论界限,随着用户数量和本地批量的增长,隐私泄漏的减少,并且随着培训回合的数量,隐私泄漏的增加。
translated by 谷歌翻译
联邦边缘学习(诱导)已成为一种有效的方法来减少基于云的机器学习解决方案的大型通信延迟,同时保留数据隐私。不幸的是,由于单边簇中的训练数据有限,感觉的学习性能可能会受到损害。在本文中,我们调查了一种新颖的感觉框架,即半分散的联邦边缘学习(SD-Inve)。通过允许不同边缘集群的模型聚合,SD-vee致力于减少培训延迟的感觉,同时通过访问来自多个边缘集群的更丰富的训练数据来提高学习性能。介绍了每轮三个主要过程的SD-ide的训练算法,包括本地模型更新,集群内部和群集间模型聚合,这被证明是在非独立和相同分布的(非IID)数据上收敛。我们还表征了边缘服务器的网络拓扑之间的相互作用以及在训练性能上群集间模型聚合的通信开销。实验结果证实了我们的分析,并展示了SD-FFEL在实现比传统联邦学习架构更快的收敛方面的有效性。此外,还提供了选择训练算法关键超参数的指导方针。
translated by 谷歌翻译
如今,信息技术的发展正在迅速增长。在大数据时代,个人信息的隐私更加明显。主要的挑战是找到一种方法来确保在发布和分析数据时不会披露敏感的个人信息。在信任的第三方数据策展人的假设上建立了集中式差异隐私。但是,这个假设在现实中并不总是正确的。作为一种新的隐私保护模型,当地的差异隐私具有相对强大的隐私保证。尽管联邦学习相对是一种用于分布式学习的隐私方法,但它仍然引入了各种隐私问题。为了避免隐私威胁并降低沟通成本,我们建议将联合学习和当地差异隐私与动量梯度下降整合在一起,以提高机器学习模型的性能。
translated by 谷歌翻译
如今,各种机器学习(ML)应用程序在无线网络边缘提供连续数据处理和实时数据分析。分布式ML解决方案受到资源异质性严重挑战,特别是所谓的脱柱效应。为了解决此问题,我们设计一种用于设备的新设备到设备(D2D)辅助编码联合学习方法(D2D-CFL),用于在特征隐私泄漏时跨设备负载平衡。所提出的解决方案捕获系统动态,包括数据(时间依赖学习模型,数据到达的各种强度),设备(不同的计算资源和培训数据量)和部署(各种位置和D2D图连接)。我们得出了最佳压缩速率,以实现最小处理时间并建立与收敛时间的连接。由此产生的优化问题提供了次优压缩参数,其提高了总培训时间。我们所提出的方法有利于实时协同应用,用户不断地生成培训数据。
translated by 谷歌翻译
联邦学习〜(FL)最近引起了学术界和行业的越来越多的关注,其最终目标是在隐私和沟通限制下进行协作培训。现有的基于FL算法的现有迭代模型需要大量的通信回合,以获得良好的模型,这是由于不同客户之间的极为不平衡和非平衡的I.D数据分配。因此,我们建议FedDM从多个本地替代功能中构建全球培训目标,这使服务器能够获得对损失格局的更全球视野。详细说明,我们在每个客户端构建了合成数据集,以在本地匹配从原始数据到分发匹配的损失景观。与笨拙的模型权重相比,FedDM通过传输更多信息和较小的合成数据来降低通信回合并提高模型质量。我们对三个图像分类数据集进行了广泛的实验,结果表明,在效率和模型性能方面,我们的方法可以优于其他FL的实验。此外,我们证明,FedDM可以适应使用高斯机制来保护差异隐私,并在相同的隐私预算下训练更好的模型。
translated by 谷歌翻译
当上行链路和下行链路通信都有错误时联合学习(FL)工作吗?通信噪音可以处理多少,其对学习性能的影响是什么?这项工作致力于通过明确地纳入流水线中的上行链路和下行链路嘈杂的信道来回答这些实际重要的问题。我们在同时上行链路和下行链路嘈杂通信通道上提供了多种新的融合分析,其包括完整和部分客户端参与,直接模型和模型差分传输,以及非独立和相同分布的(IID)本地数据集。这些分析表征了嘈杂通道的流动条件,使其具有与无通信错误的理想情况相同的融合行为。更具体地,为了保持FEDAVG的O(1 / T)具有完美通信的O(1 / T)收敛速率,应控制用于直接模型传输的上行链路和下行链路信噪比(SNR),使得它们被缩放为O(t ^ 2)其中T是通信轮的索引,但可以保持常量的模型差分传输。这些理论结果的关键洞察力是“雷达下的飞行”原则 - 随机梯度下降(SGD)是一个固有的噪声过程,并且可以容忍上行链路/下行链路通信噪声,只要它们不占据时变的SGD噪声即可。我们举例说明了具有两种广泛采用的通信技术 - 传输功率控制和多样性组合的这些理论发现 - 并通过使用多个真实世界流动任务的广泛数值实验进一步通过标准方法验证它们的性能优势。
translated by 谷歌翻译
联合学习(FL)是一个分布式的机器学习框架,可以减轻数据孤岛,在该筒仓中,分散的客户在不共享其私人数据的情况下协作学习全球模型。但是,客户的非独立且相同分布的(非IID)数据对训练有素的模型产生了负面影响,并且具有不同本地更新的客户可能会在每个通信回合中对本地梯度造成巨大差距。在本文中,我们提出了一种联合矢量平均(FedVeca)方法来解决上述非IID数据问题。具体而言,我们为与本地梯度相关的全球模型设定了一个新的目标。局部梯度定义为具有步长和方向的双向向量,其中步长为局部更新的数量,并且根据我们的定义将方向分为正和负。在FedVeca中,方向受步尺的影响,因此我们平均双向向量,以降低不同步骤尺寸的效果。然后,我们理论上分析了步骤大小与全球目标之间的关系,并在每个通信循环的步骤大小上获得上限。基于上限,我们为服务器和客户端设计了一种算法,以自适应调整使目标接近最佳的步骤大小。最后,我们通过构建原型系统对不同数据集,模型和场景进行实验,实验结果证明了FedVeca方法的有效性和效率。
translated by 谷歌翻译
联邦学习(FL)和分裂学习(SL)是两个流行的分布式机器学习方法。遵循模型到数据方案;客户培训和测试机器学习模型而不共享原始数据。由于客户端和服务器之间的机器学习模型架构,SL提供比FL更好的模型隐私。此外,分割模型使SL成为资源受限环境的更好选择。然而,由于基于中继的训练,SL表现在多个客户端的继电器训练引起的速度。在这方面,本文提出了一种名为Splitfed Learning(SFL)的新方法,该方法可分摊两种方法消除其固有缺点,以及包含差异隐私和PIXELD的精制架构配置,以增强数据隐私和模型鲁棒性。我们的分析和经验结果表明,(纯)SFL提供了类似的测试精度和通信效率,作为SL,同时每个全球时代显着降低其用于多个客户端的SL中的计算时间。此外,如SL在SL中,它的通信效率随着客户的数量而改善。此外,在扩展实验环境下进一步评估了具有隐私和鲁棒性度量的SFL的性能。
translated by 谷歌翻译
最近,基于区块链的联合学习(BFL)引起了密集的研究关注,因为培训过程是可审核的,并且该体系结构无助于避免了Vanilla Federated学习(VFL)中参数服务器的单点故障。然而,BFL大大升级了通信流量量,因为BFL客户端获得的所有本地模型更新(即,模型参数的更改)都将转移给所有矿工进行验证以及所有客户端以进行聚合。相比之下,参数服务器和VFL中的客户端仅保留汇总模型更新。因此,BFL的巨大沟通流量将不可避免地损害培训效率,并阻碍BFL现实的部署。为了提高BFL的实用性,我们是第一个通过压缩BFL中的通信(称为BCFL)来提出基于快速区块链的联合学习框架的人之一。同时,我们得出了BCFL的收敛速率,而非凸损失损失。为了最大化最终模型的准确性,我们进一步提出问题,以最大程度地减少收敛率的训练损失,而相对于压缩率和块生成速率的训练时间有限,这是BI-CONVEX优化问题,可以是有效解决。最后,为了证明BCFL的效率,我们对标准CIFAR-10和女权主义数据集进行了广泛的实验。我们的实验结果不仅验证了我们的分析的正确性,而且还表明BCFL可以显着将通信流量降低95-98%,或者与BFL相比,训练时间缩短了90-95%。
translated by 谷歌翻译
在金融和医疗保健等高度监管域中的机构通常存在围绕数据共享的限制性规则。联合学习是一种分布式学习框架,可以实现对分散数据的多机构合作,并改善了每个合作师的数据隐私的保护。在本文中,我们提出了一种用于分散的联邦学习的通信有效的方案,称为ProxyFL或基于代理的联合学习。 ProxyFL中的每个参与者都维护了两个模型,私人模型和旨在保护参与者隐私的公开共享代理模型。代理模型允许参与者之间的高效信息交换,使用PushSum方法而无需集中式服务器。所提出的方法通过允许模型异质性消除了规范联合学习的显着限制;每个参与者都可以拥有任何架构的私有模型。此外,我们通过代理通信的协议导致使用差异隐私分析的隐私保障更强。对流行的图像数据集的实验,以及使用超过30,000多个高质量的千兆的千兆子痫组织的泛癌诊断问题整个幻灯片图像,表明ProxyFL可以优于现有的现有替代方案,越来越少的沟通开销和更强大的隐私。
translated by 谷歌翻译
我们提出了两种新颖的编码联合学习(FL)方案,用于减轻乐曲设备的效果。第一种方案,CodedPaddedFL,减轻了乐谱装置的效果,同时保留了传统的隐私水平。特别地,它将一次性填充与梯度码相结合,以产生对讨论设备的弹性。要将一次性填充应用于真实数据,我们的计划利用数据的定点算术表示。对于具有25个设备的场景,CodedPaddedFL与传统FL相比,CodedPaddedFL分别在MM师和时尚-MNIST数据集中获得6.6和9.2的速度增速因子为6.6和9.2。此外,与Prakash \ Emph {等人}最近提出的方案相比,它在延迟方面产生了类似的性能。没有额外的私人数据泄漏的缺点。第二个方案CodedSecagg提供落后和防止模型反转攻击的稳健性,并基于Shamir的秘密共享。 CodedSecagg优先于最先进的安全聚合方案,如6.6-14.6的加速因子,这取决于拼写设备的数量,在具有120个设备的场景的MNIST数据集上,以牺牲与CodedPaddedFL相比,延迟增加了30 \%。
translated by 谷歌翻译