联合学习(FL)是使用Edge设备上可能可用的私人数据训练机器学习模型的新兴范式。 FL的分布式操作引起了集中式机器学习中未遇到的挑战,包括需要保留本地数据集的隐私以及由于重复交换更新模型而导致的通信负载。这些挑战通常通过引起更新模型的某些失真的技术来单独解决,例如当地差异隐私(LDP)机制和有损压缩。在这项工作中,我们提出了一种方法创造的联合隐私增强和量化(JOPEQ),该隐私和量化共同实现了FL环境中的有损压缩和隐私增强。特别是,Jopeq利用基于随机晶格的矢量量化,这是一种通用压缩技术,其副产品失真在统计学上等同于加性噪声。通过使用专用的多元隐私保护噪声来增强模型更新,可以利用这种失真来增强隐私。我们表明,JOPEQ在持有所需的隐私级别的同时,根据所需的比特率同时量化数据,而不会特别影响学习模型的实用性。这是通过分析的LDP保证,失真和收敛范围的推导以及数值研究所示的。最后,我们从经验上断言,乔普克(Jopeq)拆除了已知的普通攻击,以利用隐私泄漏。
translated by 谷歌翻译
深神经网络(DNN)的成功在很大程度上取决于计算资源。虽然DNN经常在云服务器上使用,但在边缘设备上运行DNN的需求越来越大。边缘设备的计算资源通常受到限制,但是,通常将多个边缘设备部署在相同的环境中,并且可以可靠地相互通信。在这项工作中,我们建议通过允许多个用户在推理过程中协作以提高其准确性来促进DNN在优势上的应用。我们的机制(创造的机制)基于每个设备的各种预测因子,在推理过程中构成了模型集合。为了减轻通信开销,用户共享量化的功能,我们提出了一种将多个决策汇总到单个推论规则中的方法。我们分析了边缘合奏所引起的延迟,表明其性能提高是以在通信网络上的共同假设下的较小延迟成本为代价的。我们的实验表明,配备紧凑型DNN的Edge合奏的协作推断显着提高了让每个用户在本地推断出的精度,并且可以使用大于整体中所有网络的单个集中式DNN胜过。
translated by 谷歌翻译
Federated learning (FL) has achieved great success as a privacy-preserving distributed training paradigm, where many edge devices collaboratively train a machine learning model by sharing the model updates instead of the raw data with a server. However, the heterogeneous computational and communication resources of edge devices give rise to stragglers that significantly decelerate the training process. To mitigate this issue, we propose a novel FL framework named stochastic coded federated learning (SCFL) that leverages coded computing techniques. In SCFL, before the training process starts, each edge device uploads a privacy-preserving coded dataset to the server, which is generated by adding Gaussian noise to the projected local dataset. During training, the server computes gradients on the global coded dataset to compensate for the missing model updates of the straggling devices. We design a gradient aggregation scheme to ensure that the aggregated model update is an unbiased estimate of the desired global update. Moreover, this aggregation scheme enables periodical model averaging to improve the training efficiency. We characterize the tradeoff between the convergence performance and privacy guarantee of SCFL. In particular, a more noisy coded dataset provides stronger privacy protection for edge devices but results in learning performance degradation. We further develop a contract-based incentive mechanism to coordinate such a conflict. The simulation results show that SCFL learns a better model within the given time and achieves a better privacy-performance tradeoff than the baseline methods. In addition, the proposed incentive mechanism grants better training performance than the conventional Stackelberg game approach.
translated by 谷歌翻译
隐私和沟通效率是联邦神经网络培训中的重要挑战,并将它们组合仍然是一个公开的问题。在这项工作中,我们开发了一种统一高度压缩通信和差异隐私(DP)的方法。我们引入基于相对熵编码(REC)到联合设置的压缩技术。通过对REC进行微小的修改,我们获得了一种可怕的私立学习算法,DP-REC,并展示了如何计算其隐私保证。我们的实验表明,DP-REC大大降低了通信成本,同时提供与最先进的隐私保证。
translated by 谷歌翻译
联合学习(FL)是一种从分散数据源训练机器学习模型的技术。我们根据当地的隐私约束概念研究FL,该概念通过在离开客户之前使数据混淆,为敏感数据披露提供了强烈的保护。我们确定了设计实用隐私的FL算法的两个主要问题:沟通效率和高维度的兼容性。然后,我们开发一种基于梯度的学习算法,称为\ emph {sqsgd}(选择性量化的随机梯度下降),以解决这两个问题。所提出的算法基于一种新颖的隐私量化方案,该方案使用每个客户每个维度的恒定位数。然后,我们通过三种方式改进基本算法:首先,我们采用梯度亚采样策略,同时在固定隐私预算下提供更好的培训性能和较小的沟通成本。其次,我们利用随机旋转作为预处理步骤来减少量化误差。第三,采用了自适应梯度标准上限策略来提高准确性和稳定训练。最后,在基准数据集中证明了拟议框架的实用性。实验结果表明,SQSGD成功地学习了Lenet和Resnet等局部隐私约束的大型模型。此外,凭借固定的隐私和通信水平,SQSGD的性能显着主导了各种基线算法。
translated by 谷歌翻译
联邦学习(FL)是大规模分布式学习的范例,它面临两个关键挑战:(i)从高度异构的用户数据和(ii)保护参与用户的隐私的高效培训。在这项工作中,我们提出了一种新颖的流动方法(DP-SCaffold)来通过将差异隐私(DP)约束结合到流行的脚手架算法中来解决这两个挑战。我们专注于有挑战性的环境,用户在没有任何可信中介的情况下与“诚实但奇怪的”服务器沟通,这需要确保隐私不仅可以访问最终模型的第三方,而且还要对服务器观察所有用户通信。使用DP理论的高级结果,我们建立了凸面和非凸面目标算法的融合。我们的分析清楚地突出了数据异质性下的隐私式折衷,并且当局部更新的数量和异质性水平增长时,展示了在最先进的算法DP-Fedivg上的DP-Scaffold的优越性。我们的数值结果证实了我们的分析,并表明DP-Scaffold在实践中提供了重大的收益。
translated by 谷歌翻译
我们考虑对跨用户设备分发的私人数据培训模型。为了确保隐私,我们添加了设备的噪声并使用安全的聚合,以便仅向服务器揭示嘈杂的总和。我们提出了一个综合的端到端系统,该系统适当地离散数据并在执行安全聚合之前添加离散的高斯噪声。我们为离散高斯人的总和提供了新的隐私分析,并仔细分析了数据量化和模块化求和算术的影响。我们的理论保证突出了沟通,隐私和准确性之间的复杂张力。我们广泛的实验结果表明,我们的解决方案基本上能够将准确性与中央差分隐私相匹配,而每个值的精度少于16位。
translated by 谷歌翻译
联邦学习(FL)引起了人们对在存储在多个用户中的数据中启用隐私的机器学习的兴趣,同时避免将数据移动到偏离设备上。但是,尽管数据永远不会留下用户的设备,但仍然无法保证隐私,因为用户培训数据的重大计算以训练有素的本地模型的形式共享。最近,这些本地模型通过不同的隐私攻击(例如模型反演攻击)构成了实质性的隐私威胁。作为一种补救措施,通过保证服务器只能学习全局聚合模型更新,而不是单个模型更新,从而开发了安全汇总(SA)作为保护佛罗里达隐私的框架。尽管SA确保没有泄漏有关单个模型更新超出汇总模型更新的其他信息,但对于SA实际上可以提供多少私密性fl,没有正式的保证;由于有关单个数据集的信息仍然可以通过在服务器上计算的汇总模型泄漏。在这项工作中,我们对使用SA的FL的正式隐私保证进行了首次分析。具体而言,我们使用共同信息(MI)作为定量度量,并在每个用户数据集的信息上可以通过汇总的模型更新泄漏有关多少信息。当使用FEDSGD聚合算法时,我们的理论界限表明,隐私泄漏量随着SA参与FL的用户数量而线性减少。为了验证我们的理论界限,我们使用MI神经估计量来凭经验评估MNIST和CIFAR10数据集的不同FL设置下的隐私泄漏。我们的实验验证了FEDSGD的理论界限,随着用户数量和本地批量的增长,隐私泄漏的减少,并且随着培训回合的数量,隐私泄漏的增加。
translated by 谷歌翻译
随着数据生成越来越多地在没有连接连接的设备上进行,因此与机器学习(ML)相关的流量将在无线网络中无处不在。许多研究表明,传统的无线协议高效或不可持续以支持ML,这创造了对新的无线通信方法的需求。在这项调查中,我们对最先进的无线方法进行了详尽的审查,这些方法是专门设计用于支持分布式数据集的ML服务的。当前,文献中有两个明确的主题,模拟的无线计算和针对ML优化的数字无线电资源管理。这项调查对这些方法进行了全面的介绍,回顾了最重要的作品,突出了开放问题并讨论了应用程序方案。
translated by 谷歌翻译
联合学习(FL)提供了一个有效的范式,可以共同培训分布式用户的数据的全球模型。由于本地培训数据来自可能不值得信赖的不同用户,因此一些研究表明,FL容易受到中毒攻击的影响。同时,为了保护本地用户的隐私,FL始终以差异性私人方式(DPFL)进行培训。因此,在本文中,我们问:我们是否可以利用DPFL的先天隐私权来提供对中毒攻击的认证鲁棒性?我们可以进一步改善FL的隐私以改善这种认证吗?我们首先研究了FL的用户级和实例级别的隐私,并提出了新的机制以获得改进的实例级隐私。然后,我们提供两个鲁棒性认证标准:两级DPFL的认证预测和认证攻击成本。从理论上讲,我们证明了DPFL在有限数量的对抗用户或实例下的认证鲁棒性。从经验上讲,我们进行了广泛的实验,以在对不同数据集的一系列攻击下验证我们的理论。我们表明,具有更严格的隐私保证的DPFL总是在认证攻击成本方面提供更强的鲁棒性认证,但是在隐私保护和公用事业损失之间的适当平衡下,获得了最佳认证预测。
translated by 谷歌翻译
In recent years, mobile devices are equipped with increasingly advanced sensing and computing capabilities. Coupled with advancements in Deep Learning (DL), this opens up countless possibilities for meaningful applications, e.g., for medical purposes and in vehicular networks. Traditional cloudbased Machine Learning (ML) approaches require the data to be centralized in a cloud server or data center. However, this results in critical issues related to unacceptable latency and communication inefficiency. To this end, Mobile Edge Computing (MEC) has been proposed to bring intelligence closer to the edge, where data is produced. However, conventional enabling technologies for ML at mobile edge networks still require personal data to be shared with external parties, e.g., edge servers. Recently, in light of increasingly stringent data privacy legislations and growing privacy concerns, the concept of Federated Learning (FL) has been introduced. In FL, end devices use their local data to train an ML model required by the server. The end devices then send the model updates rather than raw data to the server for aggregation. FL can serve as an enabling technology in mobile edge networks since it enables the collaborative training of an ML model and also enables DL for mobile edge network optimization. However, in a large-scale and complex mobile edge network, heterogeneous devices with varying constraints are involved. This raises challenges of communication costs, resource allocation, and privacy and security in the implementation of FL at scale. In this survey, we begin with an introduction to the background and fundamentals of FL. Then, we highlight the aforementioned challenges of FL implementation and review existing solutions. Furthermore, we present the applications of FL for mobile edge network optimization. Finally, we discuss the important challenges and future research directions in FL.
translated by 谷歌翻译
联合数据分析是一个用于分布式数据分析的框架,其中服务器从一组分布式的低型带宽用户设备中编译了嘈杂的响应,以估算总统计信息。该框架中的两个主要挑战是隐私,因为用户数据通常很敏感,并且压缩,因为用户设备的网络带宽较低。先前的工作通过将标准压缩算法与已知的隐私机制相结合,从而分别解决了这些挑战。在这项工作中,我们对问题进行了整体研究,并设计了一个适合任何给定沟通预算的隐私感知压缩机制。我们首先提出了一种在某些条件下传输具有最佳方差的单个实数的机制。然后,我们展示如何将其扩展到位置隐私用例以及向量的指标差异隐私,以应用于联合学习。我们的实验表明,在许多设置中,我们的机制可以导致更好的实用性与压缩权衡。
translated by 谷歌翻译
当上行链路和下行链路通信都有错误时联合学习(FL)工作吗?通信噪音可以处理多少,其对学习性能的影响是什么?这项工作致力于通过明确地纳入流水线中的上行链路和下行链路嘈杂的信道来回答这些实际重要的问题。我们在同时上行链路和下行链路嘈杂通信通道上提供了多种新的融合分析,其包括完整和部分客户端参与,直接模型和模型差分传输,以及非独立和相同分布的(IID)本地数据集。这些分析表征了嘈杂通道的流动条件,使其具有与无通信错误的理想情况相同的融合行为。更具体地,为了保持FEDAVG的O(1 / T)具有完美通信的O(1 / T)收敛速率,应控制用于直接模型传输的上行链路和下行链路信噪比(SNR),使得它们被缩放为O(t ^ 2)其中T是通信轮的索引,但可以保持常量的模型差分传输。这些理论结果的关键洞察力是“雷达下的飞行”原则 - 随机梯度下降(SGD)是一个固有的噪声过程,并且可以容忍上行链路/下行链路通信噪声,只要它们不占据时变的SGD噪声即可。我们举例说明了具有两种广泛采用的通信技术 - 传输功率控制和多样性组合的这些理论发现 - 并通过使用多个真实世界流动任务的广泛数值实验进一步通过标准方法验证它们的性能优势。
translated by 谷歌翻译
联合学习(FL)是一种机器学习范式,可从仍在设备上的分散数据中分发机器学习模型。尽管标准联合优化方法取得了成功,例如FL中的联邦平均(FedAvg),但在文献中,能源需求和硬件诱导的限制因素尚未得到足够的考虑。具体而言,对设备学习的基本需求是,根据整个联邦的能源需求和异质硬件设计,可以将经过训练的模型量化为各种位宽度。在这项工作中,我们介绍了多种联邦平均算法的多种变体,这些算法训练神经网络可靠地进行量化。这样的网络可以量化为各种位宽度,只有有限的精确模型精度降低有限。我们对标准FL基准测试进行了广泛的实验,以评估我们提出的FedAvg变体以量化稳健性,并为我们的fl中的量化变体提供收敛分析。我们的结果表明,整合量化鲁棒性会导致在量化的在设备推断期间,对不同的位宽度明显更健壮的FL模型。
translated by 谷歌翻译
联合学习是一种协作机器学习,参与客户在本地处理他们的数据,仅与协作模型共享更新。这使得能够建立隐私意识的分布式机器学习模型等。目的是通过最大程度地减少一组客户本地存储的数据集的成本函数来优化统计模型的参数。这个过程使客户遇到了两个问题:私人信息的泄漏和模型的个性化缺乏。另一方面,随着分析数据的最新进步,人们对侵犯参与客户的隐私行为的关注激增。为了减轻这种情况,差异隐私及其变体是提供正式隐私保证的标准。客户通常代表非常异构的社区,并拥有非常多样化的数据。因此,与FL社区的最新重点保持一致,以为代表其多样性的用户建立个性化模型框架,这对于防止潜在威胁免受客户的敏感和个人信息而言也是至关重要的。 $ d $ - 私人是对地理位置可区分性的概括,即最近普及的位置隐私范式,它使用了一种基于公制的混淆技术,可保留原始数据的空间分布。为了解决保护客户隐私并允许个性化模型培训以增强系统的公平性和实用性的问题,我们提出了一种提供团体隐私性的方法在FL的框架下。我们为对现实世界数据集的适用性和实验验证提供了理论上的理由,以说明该方法的工作。
translated by 谷歌翻译
联合学习可以使远程工作人员能够协作培训共享机器学习模型,同时允许在本地保持训练数据。在无线移动设备的用例中,由于功率和带宽有限,通信开销是关键瓶颈。前工作已经利用了各种数据压缩工具,例如量化和稀疏,以减少开销。在本文中,我们提出了一种用于联合学习的预测编码的压缩方案。该方案在所有设备中具有共享预测功能,并且允许每个工作人员发送来自参考的压缩残余矢量。在每个通信中,我们基于速率失真成本选择预测器和量化器,并进一步降低熵编码的冗余。广泛的模拟表明,与其他基线方法相比,甚至更好的学习性能,通信成本可以减少高达99%。
translated by 谷歌翻译
恶意攻击者和诚实但有趣的服务器可以从联合学习中上传的梯度中窃取私人客户数据。尽管当前的保护方法(例如,添加剂同构密码系统)可以保证联合学习系统的安全性,但它们带来了额外的计算和通信成本。为了减轻成本,我们提出了\ texttt {fedage}框架,该框架使服务器能够在编码域中汇总梯度,而无需访问任何单个客户端的原始梯度。因此,\ texttt {fedage}可以防止好奇的服务器逐渐窃取,同时保持相同的预测性能而没有额外的通信成本。此外,从理论上讲,我们证明所提出的编码编码框架是具有差异隐私的高斯机制。最后,我们在几个联合设置下评估\ texttt {fedage},结果证明了提出的框架的功效。
translated by 谷歌翻译
我们展示了一个联合学习框架,旨在强大地提供具有异构数据的各个客户端的良好预测性能。所提出的方法对基于SuperQualile的学习目标铰接,捕获异构客户端的误差分布的尾统计。我们提出了一种随机训练算法,其与联合平均步骤交织差异私人客户重新重量步骤。该提出的算法支持有限时间收敛保证,保证覆盖凸和非凸面设置。关于联邦学习的基准数据集的实验结果表明,我们的方法在平均误差方面与古典误差竞争,并且在误差的尾统计方面优于它们。
translated by 谷歌翻译
Federated learning (FL) has emerged as an instance of distributed machine learning paradigm that avoids the transmission of data generated on the users' side. Although data are not transmitted, edge devices have to deal with limited communication bandwidths, data heterogeneity, and straggler effects due to the limited computational resources of users' devices. A prominent approach to overcome such difficulties is FedADMM, which is based on the classical two-operator consensus alternating direction method of multipliers (ADMM). The common assumption of FL algorithms, including FedADMM, is that they learn a global model using data only on the users' side and not on the edge server. However, in edge learning, the server is expected to be near the base station and have direct access to rich datasets. In this paper, we argue that leveraging the rich data on the edge server is much more beneficial than utilizing only user datasets. Specifically, we show that the mere application of FL with an additional virtual user node representing the data on the edge server is inefficient. We propose FedTOP-ADMM, which generalizes FedADMM and is based on a three-operator ADMM-type technique that exploits a smooth cost function on the edge server to learn a global model parallel to the edge devices. Our numerical experiments indicate that FedTOP-ADMM has substantial gain up to 33\% in communication efficiency to reach a desired test accuracy with respect to FedADMM, including a virtual user on the edge server.
translated by 谷歌翻译
联合学习(FL)是一种保护隐私的范式,其中多个参与者共同解决机器学习问题而无需共享原始数据。与传统的分布式学习不同,FL的独特特征是统计异质性,即,跨参与者的数据分布彼此不同。同时,神经网络解释的最新进展已广泛使用神经切线核(NTK)进行收敛分析。在本文中,我们提出了一个新颖的FL范式,该范式由NTK框架赋予了能力。该范式通过传输比常规FL范式更具表现力的更新数据来解决统计异质性的挑战。具体而言,通过样本的雅各布矩阵,而不是模型的权重/梯度,由参与者上传。然后,服务器构建了经验内核矩阵,以更新全局模型,而无需明确执行梯度下降。我们进一步开发了一种具有提高沟通效率和增强隐私性的变体。数值结果表明,与联邦平均相比,所提出的范式可以达到相同的精度,同时将通信弹的数量减少数量级。
translated by 谷歌翻译