联邦学习(FL)和分裂学习(SL)是两个流行的分布式机器学习方法。遵循模型到数据方案;客户培训和测试机器学习模型而不共享原始数据。由于客户端和服务器之间的机器学习模型架构,SL提供比FL更好的模型隐私。此外,分割模型使SL成为资源受限环境的更好选择。然而,由于基于中继的训练,SL表现在多个客户端的继电器训练引起的速度。在这方面,本文提出了一种名为Splitfed Learning(SFL)的新方法,该方法可分摊两种方法消除其固有缺点,以及包含差异隐私和PIXELD的精制架构配置,以增强数据隐私和模型鲁棒性。我们的分析和经验结果表明,(纯)SFL提供了类似的测试精度和通信效率,作为SL,同时每个全球时代显着降低其用于多个客户端的SL中的计算时间。此外,如SL在SL中,它的通信效率随着客户的数量而改善。此外,在扩展实验环境下进一步评估了具有隐私和鲁棒性度量的SFL的性能。
translated by 谷歌翻译
联合学习(FL)和分裂学习(SL)是两种新兴的协作学习方法,可能会极大地促进物联网(IoT)中无处不在的智能。联合学习使机器学习(ML)模型在本地培训的模型使用私人数据汇总为全球模型。分裂学习使ML模型的不同部分可以在学习框架中对不同工人进行协作培训。联合学习和分裂学习,每个学习都有独特的优势和各自的局限性,可能会相互补充,在物联网中无处不在的智能。因此,联合学习和分裂学习的结合最近成为一个活跃的研究领域,引起了广泛的兴趣。在本文中,我们回顾了联合学习和拆分学习方面的最新发展,并介绍了有关最先进技术的调查,该技术用于将这两种学习方法组合在基于边缘计算的物联网环境中。我们还确定了一些开放问题,并讨论了该领域未来研究的可能方向,希望进一步引起研究界对这个新兴领域的兴趣。
translated by 谷歌翻译
Federated learning seeks to address the issue of isolated data islands by making clients disclose only their local training models. However, it was demonstrated that private information could still be inferred by analyzing local model parameters, such as deep neural network model weights. Recently, differential privacy has been applied to federated learning to protect data privacy, but the noise added may degrade the learning performance much. Typically, in previous work, training parameters were clipped equally and noises were added uniformly. The heterogeneity and convergence of training parameters were simply not considered. In this paper, we propose a differentially private scheme for federated learning with adaptive noise (Adap DP-FL). Specifically, due to the gradient heterogeneity, we conduct adaptive gradient clipping for different clients and different rounds; due to the gradient convergence, we add decreasing noises accordingly. Extensive experiments on real-world datasets demonstrate that our Adap DP-FL outperforms previous methods significantly.
translated by 谷歌翻译
Split学习(SL)通过允许客户在不共享原始数据的情况下协作培训深度学习模型来实现数据隐私保护。但是,SL仍然有限制,例如潜在的数据隐私泄漏和客户端的高计算。在这项研究中,我们建议将SL局部层进行二线以进行更快的计算(在移动设备上的培训和推理阶段的前进时间少17.5倍)和减少内存使用情况(最多减少32倍的内存和带宽要求) 。更重要的是,二进制的SL(B-SL)模型可以减少SL污染数据中的隐私泄漏,而模型精度的降解仅小。为了进一步增强隐私保护,我们还提出了两种新颖的方法:1)培训额外的局部泄漏损失,2)应用差异隐私,可以单独或同时集成到B-SL模型中。与多种基准模型相比,使用不同数据集的实验结果肯定了B-SL模型的优势。还说明了B-SL模型针对功能空间劫持攻击(FSHA)的有效性。我们的结果表明,B-SL模型对于具有高隐私保护要求(例如移动医疗保健应用程序)的轻巧的物联网/移动应用程序很有希望。
translated by 谷歌翻译
近年来,与私人数据的分散学习领域有很大进展。联合学习(FL)和分裂学习(SL)是两个拥有其优点和缺点的矛头,并分别适用于许多用户客户和大型型号。为了享受这两个好处,斯普利特这样的混合方法已经出现了迟到,但他们的基本面仍然是虚幻的。在这项工作中,我们首先识别SL的基本瓶颈,从而提出可伸缩的SL框架,被卷曲的SGLR。 SGLR下的服务器在分裂层上广播了平均的公共梯度,在没有横跨客户端的情况下仿真FL而没有任何额外的通信。同时,SGLR将学习率分解为服务器端和客户端速率,并单独调整它们以支持许多客户端。仿真结果证实了SGLR实现比其他基线SL方法更高的精度,包括分裂,这甚至是与耗能更高的能量和通信成本的影响。作为次要结果,我们通过使用SLGR通过基线通过相互信息观察更大的敏感信息泄漏。
translated by 谷歌翻译
通常利用机器学习方法并有效地将智能电表读数从家庭级别分解为设备级消耗,可以帮助分析用户的电力消耗行为并启用实用智能能源和智能网格申请。最近的研究提出了许多基于联邦深度学习(FL)的新型NILM框架。但是,缺乏综合研究,探讨了不同基于FL的NILM应用程序方案中的实用性优化方案和隐私保护方案。在本文中,我们首次尝试通过开发分布式和隐私的尼尔姆(DP2-NILM)框架来进行基于FL的NILM,重点关注实用程序优化和隐私保护,并在实用的NILM场景上进行比较实验基于现实世界的智能电表数据集。具体而言,在实用程序优化方案(即FedAvg和FedProx)中检查了两种替代联合学习策略。此外,DP2-NILM提供了不同级别的隐私保证,即联合学习的当地差异隐私学习和联合的全球差异隐私学习。在三个现实世界数据集上进行了广泛的比较实验,以评估所提出的框架。
translated by 谷歌翻译
Federated Learning (FL) and Split Learning (SL) are privacy-preserving Machine-Learning (ML) techniques that enable training ML models over data distributed among clients without requiring direct access to their raw data. Existing FL and SL approaches work on horizontally or vertically partitioned data and cannot handle sequentially partitioned data where segments of multiple-segment sequential data are distributed across clients. In this paper, we propose a novel federated split learning framework, FedSL, to train models on distributed sequential data. The most common ML models to train on sequential data are Recurrent Neural Networks (RNNs). Since the proposed framework is privacy-preserving, segments of multiple-segment sequential data cannot be shared between clients or between clients and server. To circumvent this limitation, we propose a novel SL approach tailored for RNNs. A RNN is split into sub-networks, and each sub-network is trained on one client containing single segments of multiple-segment training sequences. During local training, the sub-networks on different clients communicate with each other to capture latent dependencies between consecutive segments of multiple-segment sequential data on different clients, but without sharing raw data or complete model parameters. After training local sub-networks with local sequential data segments, all clients send their sub-networks to a federated server where sub-networks are aggregated to generate a global model. The experimental results on simulated and real-world datasets demonstrate that the proposed method successfully trains models on distributed sequential data, while preserving privacy, and outperforms previous FL and centralized learning approaches in terms of achieving higher accuracy in fewer communication rounds.
translated by 谷歌翻译
传统的深度学习方法(DL)需要在中央服务器上收集和处理的培训数据,这些中央服务器通常在保健等隐私敏感域中挑战。为此,提出了一种新的学习范式,称为联合学习(FL),在解决隐私和数据所有权问题的同时将DL的潜力带到了这些域。 FL使远程客户端能够在保持数据本地时学习共享ML模型。然而,传统的FL系统面临多种挑战,例如可扩展性,复杂的基础设施管理,并且由于空闲客户端而被浪费的计算和产生的成本。 FL系统的这些挑战与无服务器计算和功能 - AS-Service(FAAS)平台旨在解决的核心问题密切对齐。这些包括快速可扩展性,无基础设施管理,自动缩放为空闲客户端,以及每次使用付费计费模型。为此,我们为无服务器FL展示了一个新颖的系统和框架,称为不发烟。我们的系统支持多个商业和自主主机的FAAS提供商,可以在机构数据中心和边缘设备上部署在云端,内部部署。据我们所知,我们是第一个能够在一大面料的异构FAAS提供商中启用FL,同时提供安全性和差异隐私等重要功能。我们展示了全面的实验,即使用我们的系统可以成功地培训多达200个客户功能的不同任务,更容易实现。此外,我们通过将其与传统的FL系统进行比较来证明我们的方法的实际可行性,并表明它可以更便宜,更资源效率更便宜。
translated by 谷歌翻译
如今,信息技术的发展正在迅速增长。在大数据时代,个人信息的隐私更加明显。主要的挑战是找到一种方法来确保在发布和分析数据时不会披露敏感的个人信息。在信任的第三方数据策展人的假设上建立了集中式差异隐私。但是,这个假设在现实中并不总是正确的。作为一种新的隐私保护模型,当地的差异隐私具有相对强大的隐私保证。尽管联邦学习相对是一种用于分布式学习的隐私方法,但它仍然引入了各种隐私问题。为了避免隐私威胁并降低沟通成本,我们建议将联合学习和当地差异隐私与动量梯度下降整合在一起,以提高机器学习模型的性能。
translated by 谷歌翻译
在金融和医疗保健等高度监管域中的机构通常存在围绕数据共享的限制性规则。联合学习是一种分布式学习框架,可以实现对分散数据的多机构合作,并改善了每个合作师的数据隐私的保护。在本文中,我们提出了一种用于分散的联邦学习的通信有效的方案,称为ProxyFL或基于代理的联合学习。 ProxyFL中的每个参与者都维护了两个模型,私人模型和旨在保护参与者隐私的公开共享代理模型。代理模型允许参与者之间的高效信息交换,使用PushSum方法而无需集中式服务器。所提出的方法通过允许模型异质性消除了规范联合学习的显着限制;每个参与者都可以拥有任何架构的私有模型。此外,我们通过代理通信的协议导致使用差异隐私分析的隐私保障更强。对流行的图像数据集的实验,以及使用超过30,000多个高质量的千兆的千兆子痫组织的泛癌诊断问题整个幻灯片图像,表明ProxyFL可以优于现有的现有替代方案,越来越少的沟通开销和更强大的隐私。
translated by 谷歌翻译
联合学习是一种数据解散隐私化技术,用于以安全的方式执行机器或深度学习。在本文中,我们介绍了有关联合学习的理论方面客户次数有所不同的用例。具体而言,使用从开放数据存储库中获得的胸部X射线图像提出了医学图像分析的用例。除了与隐私相关的优势外,还将研究预测的改进(就曲线下的准确性和面积而言)和减少执行时间(集中式方法)。将从培训数据中模拟不同的客户,以不平衡的方式选择,即,他们并非都有相同数量的数据。考虑三个或十个客户之间的结果与集中案件相比。间歇性客户将分析两种遵循方法,就像在实际情况下,某些客户可能会离开培训,一些新的新方法可能会进入培训。根据准确性,曲线下的区域和执行时间的结果,结果的结果的演变显示为原始数据被划分的客户次数。最后,提出了该领域的改进和未来工作。
translated by 谷歌翻译
A fundamental challenge to providing edge-AI services is the need for a machine learning (ML) model that achieves personalization (i.e., to individual clients) and generalization (i.e., to unseen data) properties concurrently. Existing techniques in federated learning (FL) have encountered a steep tradeoff between these objectives and impose large computational requirements on edge devices during training and inference. In this paper, we propose SplitGP, a new split learning solution that can simultaneously capture generalization and personalization capabilities for efficient inference across resource-constrained clients (e.g., mobile/IoT devices). Our key idea is to split the full ML model into client-side and server-side components, and impose different roles to them: the client-side model is trained to have strong personalization capability optimized to each client's main task, while the server-side model is trained to have strong generalization capability for handling all clients' out-of-distribution tasks. We analytically characterize the convergence behavior of SplitGP, revealing that all client models approach stationary points asymptotically. Further, we analyze the inference time in SplitGP and provide bounds for determining model split ratios. Experimental results show that SplitGP outperforms existing baselines by wide margins in inference time and test accuracy for varying amounts of out-of-distribution samples.
translated by 谷歌翻译
隐私和沟通效率是联邦神经网络培训中的重要挑战,并将它们组合仍然是一个公开的问题。在这项工作中,我们开发了一种统一高度压缩通信和差异隐私(DP)的方法。我们引入基于相对熵编码(REC)到联合设置的压缩技术。通过对REC进行微小的修改,我们获得了一种可怕的私立学习算法,DP-REC,并展示了如何计算其隐私保证。我们的实验表明,DP-REC大大降低了通信成本,同时提供与最先进的隐私保证。
translated by 谷歌翻译
Split Learning (SL) and Federated Learning (FL) are two prominent distributed collaborative learning techniques that maintain data privacy by allowing clients to never share their private data with other clients and servers, and fined extensive IoT applications in smart healthcare, smart cities, and smart industry. Prior work has extensively explored the security vulnerabilities of FL in the form of poisoning attacks. To mitigate the effect of these attacks, several defenses have also been proposed. Recently, a hybrid of both learning techniques has emerged (commonly known as SplitFed) that capitalizes on their advantages (fast training) and eliminates their intrinsic disadvantages (centralized model updates). In this paper, we perform the first ever empirical analysis of SplitFed's robustness to strong model poisoning attacks. We observe that the model updates in SplitFed have significantly smaller dimensionality as compared to FL that is known to have the curse of dimensionality. We show that large models that have higher dimensionality are more susceptible to privacy and security attacks, whereas the clients in SplitFed do not have the complete model and have lower dimensionality, making them more robust to existing model poisoning attacks. Our results show that the accuracy reduction due to the model poisoning attack is 5x lower for SplitFed compared to FL.
translated by 谷歌翻译
分布式深度学习框架,如联合学习(FL)及其变体都是在广泛的Web客户端和移动/ IOT设备上实现个性化体验。然而,由于模型参数的爆炸增长(例如,十亿参数模型),基于FL的框架受到客户的计算资源的限制。拆分学习(SL),最近的框架,通过拆分客户端和服务器之间的模型培训来减少客户端计算负载。这种灵活性对于低计算设置非常有用,但通常以带宽消耗的增加成本而实现,并且可能导致次优化会聚,尤其是当客户数据异构时。在这项工作中,我们介绍了adasplit,通过降低带宽消耗并提高异构客户端的性能,使得能够将SL有效地缩放到低资源场景。为了捕获和基准的分布式深度学习的多维性质,我们还介绍了C3分数,是评估资源预算下的性能。我们通过与强大联邦和分裂学习基线的大量实验比较进行了大量实验比较,验证了adasplit在有限的资源下的有效性。我们还展示了adasplit中关键设计选择的敏感性分析,该选择验证了adasplit在可变资源预算中提供适应性权衡的能力。
translated by 谷歌翻译
联邦学习〜(FL)最近引起了学术界和行业的越来越多的关注,其最终目标是在隐私和沟通限制下进行协作培训。现有的基于FL算法的现有迭代模型需要大量的通信回合,以获得良好的模型,这是由于不同客户之间的极为不平衡和非平衡的I.D数据分配。因此,我们建议FedDM从多个本地替代功能中构建全球培训目标,这使服务器能够获得对损失格局的更全球视野。详细说明,我们在每个客户端构建了合成数据集,以在本地匹配从原始数据到分发匹配的损失景观。与笨拙的模型权重相比,FedDM通过传输更多信息和较小的合成数据来降低通信回合并提高模型质量。我们对三个图像分类数据集进行了广泛的实验,结果表明,在效率和模型性能方面,我们的方法可以优于其他FL的实验。此外,我们证明,FedDM可以适应使用高斯机制来保护差异隐私,并在相同的隐私预算下训练更好的模型。
translated by 谷歌翻译
联合学习用于大量(数百万)边缘移动设备的机器学习模型的分散培训。它充满挑战,因为移动设备通常具有有限的通信带宽和本地计算资源。因此,提高联合学习的效率对于可扩展性和可用性至关重要。在本文中,我们建议利用部分训练的神经网络,该网络在整个训练过程中冻结了一部分模型参数,以降低对模型性能的影响几乎没有影响的通信成本。通过广泛的实验,我们经验证明,部分培训的神经网络(FEDPT)的联合学习可能导致卓越的通信准确性权衡,通信成本高达46美元,以小的准确度成本。我们的方法还实现了更快的培训,具有较小的内存占用空间,更好的效用,以便强​​大的差异隐私保证。对于推动设备上学习中的过度参数化的局限性,所提出的FEDPT方法可以特别有趣。
translated by 谷歌翻译
可扩展性和隐私是交叉设备联合学习(FL)系统的两个关键问题。在这项工作中,我们确定了FL中的客户端更新的同步流动聚合不能高效地缩放到几百个并行培训之外。它导致ModelPerforce和训练速度的回报递减,Ampanysto大批量培训。另一方面,FL(即异步FL)中的客户端更新的异步聚合减轻了可扩展性问题。但是,聚合个性链子更新与安全聚合不兼容,这可能导致系统的不良隐私水平。为了解决这些问题,我们提出了一种新颖的缓冲异步聚合方法FedBuff,这是不可知的优化器的选择,并结合了同步和异步FL的最佳特性。我们经验证明FEDBuff比同步FL更有效,比异步FL效率更高3.3倍,同时兼容保留保护技术,如安全聚合和差异隐私。我们在平滑的非凸设置中提供理论融合保证。最后,我们显示在差异私有培训下,FedBuff可以在低隐私设置下占FEDAVGM并实现更高隐私设置的相同实用程序。
translated by 谷歌翻译
联合学习(FL)使分布式设备能够共同培训共享模型,同时保持培训数据本地。与水平FL(HFL)设置不同,每个客户都有部分数据样本,即垂直FL(VFL),该设置允许每个客户收集部分特征,它最近吸引了密集的研究工作。在本文中,我们确定了最先进的VFL框架面临的两个挑战:(1)某些作品直接平均水平的学习功能嵌入,因此可能会失去每个本地功能集的独特属性; (2)服务器需要与客户进行每个培训步骤的梯度交流,从而产生高沟通成本,从而导致快速消费隐私预算。在本文中,我们旨在应对上述挑战,并提出一个具有多个线性头(VIM)框架的有效VFL,每个头部通过考虑每个客户的单独贡献来对应于本地客户。此外,我们提出了一种乘数的交替方向方法(ADMM)的方法来解决我们的优化问题,从而通过允许在每个步骤中允许多个本地更新来降低通信成本,从而在不同的隐私下导致更好的性能。我们考虑各种设置,包括具有模型分割的VFL,而无需模型分裂。对于这两种设置,我们仔细分析了框架的差异隐私机制。此外,我们表明我们框架的副产品是学习线性头的权重反映了当地客户的重要性。我们进行了广泛的评估,并表明,在四个现实世界数据集上,VIM与最先进的表现相比,vim的性能和更快的收敛性要高得多。我们还明确评估了本地客户的重要性,并表明VIM可以启用客户级解释和客户端Denoising等功能。
translated by 谷歌翻译
正在进行的“数字化转型”从根本上改变了审计证据的性质,记录和数量。如今,国际审计标准(ISA)要求审计师检查财务报表的大量基础数字会计记录。结果,审计公司还“数字化”了他们的分析能力并投资深度学习(DL),这是机器学习的成功子学科。 DL的应用提供了从多个客户(例如在同一行业或管辖权中运营的组织)学习专业审计模型的能力。通常,法规要求审核员遵守严格的数据机密性措施。同时,最近有趣的发现表明,大规模的DL模型容易受到泄漏敏感培训数据信息的影响。如今,尚不清楚审计公司在遵守数据保护法规的同时如何应用DL模型。在这项工作中,我们提出了一个联合学习框架,以培训DL模型,以审核多个客户的相关会计数据。该框架涵盖了差异隐私和拆分学习能力,以减轻模型推断中的数据机密性风险。我们评估了在三个现实世界中付款数据集中检测会计异常的方法。我们的结果提供了经验证据,表明审计师可以从DL模型中受益,这些模型从专有客户数据的多个来源积累知识。
translated by 谷歌翻译