自然语言处理(NLP)技术可以使用人的话语来帮助诊断诸如抑郁症之类的医疗状况。抑郁症是一种严重的医学疾病,可能会对人们的感觉,思维和行为产生不利影响,这可能导致情绪和身体上的问题。由于此类数据的敏感性,需要采取隐私措施来使用此类数据处理和培训模型。在这项工作中,我们研究了差异隐私(DP)在集中式学习和联合学习(FL)设置中对培训上下文化语言模型(Bert,Albert,Roberta和Distilbert)的影响。我们提供有关如何私下培训NLP模型以及哪些架构和设置提供更理想的隐私公用事业权衡的见解。我们设想这项工作将用于未来的医疗保健和心理健康研究,以使病史保持私密。因此,我们提供了这项工作的开源实施。
translated by 谷歌翻译
用户每天在各种社交网络平台上暴露于大量有害内容。一种解决方案是使用机器学习技术开发在线审核工具。但是,通过在线平台处理用户数据需要遵守隐私政策。联合学习(FL)是ML范式,在该范围内,在用户设备上本地进行培训。尽管FL框架符合GDPR政策,但仍然可能发生隐私泄漏。例如,访问最终训练模型的攻击者可以成功地对参与培训过程的用户的数据进行不必要的推断。在本文中,我们为包含差异隐私(DP)的在线内容审核提出了一个隐私的FL框架。为了证明我们的方法的可行性,我们专注于在Twitter上检测有害内容 - 但总体概念可以推广到其他类型的不当行为。我们以FL方式模拟了文本分类器,该分类器可以检测具有有害内容的推文。我们表明,对于DP和非DP FL版本,提出的FL框架的性能可以接近集中式方法。此外,即使有少数客户(每个数据点)可用于FL培训,它也具有高性能。当减少客户端数量(从50到10)或每个客户端的数据点(从1K到0.1K)时,分类器仍然可以达到约81%的AUC。此外,我们将评估扩展到其他四个Twitter数据集,这些数据集捕获了不同类型的用户行为不当,并且仍然获得了有希望的性能(61%-80%的AUC)。最后,我们在FL培训阶段探索用户设备上的开销,并表明本地培训不会引入过多的CPU利用率和内存消耗开销。
translated by 谷歌翻译
联合学习(FL)是一个系统,中央聚合器协调多个客户解决机器学习问题的努力。此设置允许分散培训数据以保护隐私。本文的目的是提供针对医疗保健的FL系统的概述。 FL在此根据其框架,架构和应用程序进行评估。这里显示的是,FL通过中央聚合器服务器通过共享的全球深度学习(DL)模型解决了前面的问题。本文研究了最新的发展,并提供了来自FL研究的快速增长的启发,列出了未解决的问题。在FL的背景下,描述了几种隐私方法,包括安全的多方计算,同态加密,差异隐私和随机梯度下降。此外,还提供了对各种FL类的综述,例如水平和垂直FL以及联合转移学习。 FL在无线通信,服务建议,智能医学诊断系统和医疗保健方面有应用,本文将在本文中进行讨论。我们还对现有的FL挑战进行了彻底的审查,例如隐私保护,沟通成本,系统异质性和不可靠的模型上传,然后是未来的研究指示。
translated by 谷歌翻译
如今,信息技术的发展正在迅速增长。在大数据时代,个人信息的隐私更加明显。主要的挑战是找到一种方法来确保在发布和分析数据时不会披露敏感的个人信息。在信任的第三方数据策展人的假设上建立了集中式差异隐私。但是,这个假设在现实中并不总是正确的。作为一种新的隐私保护模型,当地的差异隐私具有相对强大的隐私保证。尽管联邦学习相对是一种用于分布式学习的隐私方法,但它仍然引入了各种隐私问题。为了避免隐私威胁并降低沟通成本,我们建议将联合学习和当地差异隐私与动量梯度下降整合在一起,以提高机器学习模型的性能。
translated by 谷歌翻译
Federated learning seeks to address the issue of isolated data islands by making clients disclose only their local training models. However, it was demonstrated that private information could still be inferred by analyzing local model parameters, such as deep neural network model weights. Recently, differential privacy has been applied to federated learning to protect data privacy, but the noise added may degrade the learning performance much. Typically, in previous work, training parameters were clipped equally and noises were added uniformly. The heterogeneity and convergence of training parameters were simply not considered. In this paper, we propose a differentially private scheme for federated learning with adaptive noise (Adap DP-FL). Specifically, due to the gradient heterogeneity, we conduct adaptive gradient clipping for different clients and different rounds; due to the gradient convergence, we add decreasing noises accordingly. Extensive experiments on real-world datasets demonstrate that our Adap DP-FL outperforms previous methods significantly.
translated by 谷歌翻译
联邦学习一直是一个热门的研究主题,使不同组织的机器学习模型的协作培训在隐私限制下。随着研究人员试图支持更多具有不同隐私方法的机器学习模型,需要开发系统和基础设施,以便于开发各种联合学习算法。类似于Pytorch和Tensorflow等深度学习系统,可以增强深度学习的发展,联邦学习系统(FLSS)是等效的,并且面临各个方面的面临挑战,如有效性,效率和隐私。在本调查中,我们对联合学习系统进行了全面的审查。为实现流畅的流动和引导未来的研究,我们介绍了联合学习系统的定义并分析了系统组件。此外,我们根据六种不同方面提供联合学习系统的全面分类,包括数据分布,机器学习模型,隐私机制,通信架构,联合集市和联合的动机。分类可以帮助设计联合学习系统,如我们的案例研究所示。通过系统地总结现有联合学习系统,我们展示了设计因素,案例研究和未来的研究机会。
translated by 谷歌翻译
联合学习(FL)通过汇总模型更新,以隐私的方式对分散数据进行了全球模型培训。但是,对于使用具有大量参数的预训练的语言模型(PLM)的许多自然语言处理(NLP)任务,与FL相关的沟通成本相当大。最近,迅速调整了一些不修改PLM的软提示的调音,它作为新的学习范式取得了出色的表现。因此,我们要组合两种方法,并探索在FL下迅速调整的效果。在本文中,我们提出“ FedPrompt”作为第一个工作研究促使使用FL以模型分开学习方式进行调整,并证明该研究大大降低了沟通成本,只有PLMS参数的0.01%,而准确性几乎没有降低。在IID和非IID数据分布上。这提高了FL方法的效率,同时还可以在及时调整中保护数据隐私。此外,PLMS,提示在公共平台和个人用户之间被上传和下载,因此我们试图弄清楚是否仍然只有使用后门威胁在FL场景中软提示。我们通过对FedPrompt的数据中毒进一步进行后门攻击。我们的实验表明,正常的后门攻击无法实现高攻击成功率,证明了FedPrompt的稳健性。我们希望这项工作能够促进FL的应用,并提高对可能的安全威胁的认识。
translated by 谷歌翻译
在金融和医疗保健等高度监管域中的机构通常存在围绕数据共享的限制性规则。联合学习是一种分布式学习框架,可以实现对分散数据的多机构合作,并改善了每个合作师的数据隐私的保护。在本文中,我们提出了一种用于分散的联邦学习的通信有效的方案,称为ProxyFL或基于代理的联合学习。 ProxyFL中的每个参与者都维护了两个模型,私人模型和旨在保护参与者隐私的公开共享代理模型。代理模型允许参与者之间的高效信息交换,使用PushSum方法而无需集中式服务器。所提出的方法通过允许模型异质性消除了规范联合学习的显着限制;每个参与者都可以拥有任何架构的私有模型。此外,我们通过代理通信的协议导致使用差异隐私分析的隐私保障更强。对流行的图像数据集的实验,以及使用超过30,000多个高质量的千兆的千兆子痫组织的泛癌诊断问题整个幻灯片图像,表明ProxyFL可以优于现有的现有替代方案,越来越少的沟通开销和更强大的隐私。
translated by 谷歌翻译
隐私保护是联合学习中的一个重要和有关的主题,特别是对于自然语言处理。在客户端设备中,用户每天由用户产生大量包含个人信息的文本。由于来自用户信息的直接应用可能会引起个人隐私,因此在联合学习中提出了许多方法来阻止来自客户端设备中的原始信息的中心模型。在本文中,我们尝试通过在保留语义时扭曲文本来更新语言。在实践中,我们利用最近提出的公制,邻近分布分配,以评估失真期间的语义保存。基于度量标准,我们提出了两个用于语义保存的失真,生成的一个和替代的框架。由于目前的自然语言处理领域中缺乏隐私相关任务,我们对命名实体识别和选区解析进行实验。我们的实验结果表明了我们扭曲的合理性和效率,作为个人隐私保护的方法。
translated by 谷歌翻译
本文提出并表征了联合学习(OARF)的开放应用程序存储库,是联合机器学习系统的基准套件。以前可用的联合学习基准主要集中在合成数据集上,并使用有限数量的应用程序。 OARF模仿更现实的应用方案,具有公开的数据集,如图像,文本和结构数据中的不同数据孤岛。我们的表征表明,基准套件在数据大小,分布,特征分布和学习任务复杂性中多样化。与参考实施的广泛评估显示了联合学习系统的重要方面的未来研究机会。我们开发了参考实现,并评估了联合学习的重要方面,包括模型准确性,通信成本,吞吐量和收敛时间。通过这些评估,我们发现了一些有趣的发现,例如联合学习可以有效地提高端到端吞吐量。
translated by 谷歌翻译
联合学习用于大量(数百万)边缘移动设备的机器学习模型的分散培训。它充满挑战,因为移动设备通常具有有限的通信带宽和本地计算资源。因此,提高联合学习的效率对于可扩展性和可用性至关重要。在本文中,我们建议利用部分训练的神经网络,该网络在整个训练过程中冻结了一部分模型参数,以降低对模型性能的影响几乎没有影响的通信成本。通过广泛的实验,我们经验证明,部分培训的神经网络(FEDPT)的联合学习可能导致卓越的通信准确性权衡,通信成本高达46美元,以小的准确度成本。我们的方法还实现了更快的培训,具有较小的内存占用空间,更好的效用,以便强​​大的差异隐私保证。对于推动设备上学习中的过度参数化的局限性,所提出的FEDPT方法可以特别有趣。
translated by 谷歌翻译
通常利用机器学习方法并有效地将智能电表读数从家庭级别分解为设备级消耗,可以帮助分析用户的电力消耗行为并启用实用智能能源和智能网格申请。最近的研究提出了许多基于联邦深度学习(FL)的新型NILM框架。但是,缺乏综合研究,探讨了不同基于FL的NILM应用程序方案中的实用性优化方案和隐私保护方案。在本文中,我们首次尝试通过开发分布式和隐私的尼尔姆(DP2-NILM)框架来进行基于FL的NILM,重点关注实用程序优化和隐私保护,并在实用的NILM场景上进行比较实验基于现实世界的智能电表数据集。具体而言,在实用程序优化方案(即FedAvg和FedProx)中检查了两种替代联合学习策略。此外,DP2-NILM提供了不同级别的隐私保证,即联合学习的当地差异隐私学习和联合的全球差异隐私学习。在三个现实世界数据集上进行了广泛的比较实验,以评估所提出的框架。
translated by 谷歌翻译
临床NLP任务,例如文本的心理健康评估,必须考虑社会限制 - 绩效最大化必须受保证用户数据隐私的最大重要性来限制。消费者保护法规(例如GDPR)通常通过限制数据可用性来处理隐私,例如要求将用户数据限制为给定目的的“必要内容”。在这项工作中,我们认为提供更严格的正式隐私保证,同时增加模型中用户数据量的同时,在大多数情况下,为所有涉及的各方(尤其是对用户)增加了收益。我们在Twitter和Reddit帖子的两个现有自杀风险评估数据集上演示了我们的论点。我们提出了第一个分析并置用户历史记录长度和差异隐私预算,并详细说明建模其他用户上下文如何实现公用事业保存,同时保持可接受的用户隐私保证。
translated by 谷歌翻译
Privacy preserving deep learning is an emerging field in machine learning that aims to mitigate the privacy risks in the use of deep neural networks. One such risk is training data extraction from language models that have been trained on datasets , which contain personal and privacy sensitive information. In our study, we investigate the extent of named entity memorization in fine-tuned BERT models. We use single-label text classification as representative downstream task and employ three different fine-tuning setups in our experiments, including one with Differentially Privacy (DP). We create a large number of text samples from the fine-tuned BERT models utilizing a custom sequential sampling strategy with two prompting strategies. We search in these samples for named entities and check if they are also present in the fine-tuning datasets. We experiment with two benchmark datasets in the domains of emails and blogs. We show that the application of DP has a huge effect on the text generation capabilities of BERT. Furthermore, we show that a fine-tuned BERT does not generate more named entities entities specific to the fine-tuning dataset than a BERT model that is pre-trained only. This suggests that BERT is unlikely to emit personal or privacy sensitive named entities. Overall, our results are important to understand to what extent BERT-based services are prone to training data extraction attacks.
translated by 谷歌翻译
Federated学习(FL)最近作为一种增强隐私的工具而受到了极大的关注,可以由多个参与者共同培训机器学习模型。FL的先前工作主要研究了如何在模型培训期间保护标签隐私。但是,FL中的模型评估也可能导致私人标签信息的潜在泄漏。在这项工作中,我们提出了一种评估算法,该算法可以准确计算使用FL中的标签差异隐私(DP)时,可以准确计算广泛使用的AUC(曲线下)度量。通过广泛的实验,我们显示我们的算法可以计算与地面真相相比的准确AUC。
translated by 谷歌翻译
随着物联网,AI和ML/DL算法的出现,数据驱动的医疗应用已成为一种有前途的工具,用于从医学数据设计可靠且可扩展的诊断和预后模型。近年来,这引起了从学术界到工业的广泛关注。这无疑改善了医疗保健提供的质量。但是,由于这些基于AI的医疗应用程序在满足严格的安全性,隐私和服务标准(例如低延迟)方面的困难,因此仍然采用较差。此外,医疗数据通常是分散的和私人的,这使得在人群之间产生强大的结果具有挑战性。联邦学习(FL)的最新发展使得以分布式方式训练复杂的机器学习模型成为可能。因此,FL已成为一个积极的研究领域,尤其是以分散的方式处理网络边缘的医疗数据,以保护隐私和安全问题。为此,本次调查论文重点介绍了数据共享是重大负担的医疗应用中FL技术的当前和未来。它还审查并讨论了当前的研究趋势及其设计可靠和可扩展模型的结果。我们概述了FL将军的统计问题,设备挑战,安全性,隐私问题及其在医疗领域的潜力。此外,我们的研究还集中在医疗应用上,我们重点介绍了全球癌症的负担以及有效利用FL来开发计算机辅助诊断工具来解决这些诊断工具。我们希望这篇评论是一个检查站,以彻底的方式阐明现有的最新最新作品,并为该领域提供开放的问题和未来的研究指示。
translated by 谷歌翻译
The use of emojis affords a visual modality to, often private, textual communication. The task of predicting emojis however provides a challenge for machine learning as emoji use tends to cluster into the frequently used and the rarely used emojis. Much of the machine learning research on emoji use has focused on high resource languages and has conceptualised the task of predicting emojis around traditional server-side machine learning approaches. However, traditional machine learning approaches for private communication can introduce privacy concerns, as these approaches require all data to be transmitted to a central storage. In this paper, we seek to address the dual concerns of emphasising high resource languages for emoji prediction and risking the privacy of people's data. We introduce a new dataset of $118$k tweets (augmented from $25$k unique tweets) for emoji prediction in Hindi, and propose a modification to the federated learning algorithm, CausalFedGSD, which aims to strike a balance between model performance and user privacy. We show that our approach obtains comparative scores with more complex centralised models while reducing the amount of data required to optimise the models and minimising risks to user privacy.
translated by 谷歌翻译
隐私法规法(例如GDPR)将透明度和安全性作为数据处理算法的设计支柱。在这种情况下,联邦学习是保护隐私的分布式机器学习的最具影响力的框架之一,从而实现了许多自然语言处理和计算机视觉任务的惊人结果。一些联合学习框架采用差异隐私,以防止私人数据泄漏到未经授权的政党和恶意攻击者。但是,许多研究突出了标准联邦学习对中毒和推理的脆弱性,因此引起了人们对敏感数据潜在风险的担忧。为了解决此问题,我们提出了SGDE,这是一种生成数据交换协议,可改善跨索洛联合会中的用户安全性和机器学习性能。 SGDE的核心是共享具有强大差异隐私的数据生成器,保证了对私人数据培训的培训,而不是通信显式梯度信息。这些发电机合成了任意大量数据,这些数据保留了私人样品的独特特征,但有很大差异。我们展示了将SGDE纳入跨核心联合网络如何提高对联邦学习最有影响力的攻击的弹性。我们在图像和表格数据集上测试我们的方法,利用β变量自动编码器作为数据生成器,并突出了对非生成数据的本地和联合学习的公平性和绩效改进。
translated by 谷歌翻译
联合学习是一种数据解散隐私化技术,用于以安全的方式执行机器或深度学习。在本文中,我们介绍了有关联合学习的理论方面客户次数有所不同的用例。具体而言,使用从开放数据存储库中获得的胸部X射线图像提出了医学图像分析的用例。除了与隐私相关的优势外,还将研究预测的改进(就曲线下的准确性和面积而言)和减少执行时间(集中式方法)。将从培训数据中模拟不同的客户,以不平衡的方式选择,即,他们并非都有相同数量的数据。考虑三个或十个客户之间的结果与集中案件相比。间歇性客户将分析两种遵循方法,就像在实际情况下,某些客户可能会离开培训,一些新的新方法可能会进入培训。根据准确性,曲线下的区域和执行时间的结果,结果的结果的演变显示为原始数据被划分的客户次数。最后,提出了该领域的改进和未来工作。
translated by 谷歌翻译
Federated Learning (FL) has emerged as a promising distributed learning paradigm with an added advantage of data privacy. With the growing interest in having collaboration among data owners, FL has gained significant attention of organizations. The idea of FL is to enable collaborating participants train machine learning (ML) models on decentralized data without breaching privacy. In simpler words, federated learning is the approach of ``bringing the model to the data, instead of bringing the data to the mode''. Federated learning, when applied to data which is partitioned vertically across participants, is able to build a complete ML model by combining local models trained only using the data with distinct features at the local sites. This architecture of FL is referred to as vertical federated learning (VFL), which differs from the conventional FL on horizontally partitioned data. As VFL is different from conventional FL, it comes with its own issues and challenges. In this paper, we present a structured literature review discussing the state-of-the-art approaches in VFL. Additionally, the literature review highlights the existing solutions to challenges in VFL and provides potential research directions in this domain.
translated by 谷歌翻译