我们提出了一种小说隐私保留的联邦对冲域适应方法($ \ textbf {prada} $),以解决在学习的下面但实际的跨筒仓联合域适应问题,其中目标域的一方在两个样本中不足和特色。通过通过常规联合学习将特征空间扩展到具有功能丰富的派对来解决缺乏特征问题,并通过从富含样品富裕的源党对目标方进行对抗域适应来解决样本稀缺问题。在这项工作中,我们专注于可解释性至关重要的财务应用。然而,现有的对抗域适配方法通常应用单个特征提取器来学习对于目标任务的低解释是低解释的特征表示。为了提高可解释性,我们利用域专业知识将要素空间拆分为多个组,每个组都保存相关功能,并且我们从每个功能组中学习语义有意义的高阶功能。此外,我们将特征提取器(以及域鉴别器以及域鉴别器一起)应用于每个特征组以启用细粒度的域自适应。我们设计一种安全的协议,以安全有效地执行PRADA。我们在两个表格数据集中评估我们的方法。实验表明了我们方法的有效性和实用性。
translated by 谷歌翻译
联合学习(FL)使独立方能够在保护数据隐私的同时协作建立机器学习(ML)模型。 FL的变体垂直联合学习(VFL)最近引起了人们的注意,因为VFL与企业对利用更有价值的功能的需求相匹配,以实现更好的模型性能而不会损害数据隐私。但是,传统的VFL可能会陷入数据缺陷,因为它只能用标签来利用标签的对准​​样品(属于不同的各方),而通常将大多数未对齐和未标记的样品均未使用。数据缺乏阻碍了联邦的努力。在这项工作中,我们提出了一个联合的混合自我监督的学习框架,即Fedhssl,以利用参与者的所有可用数据(包括未对准和未标记的样本)来培训联合VFL模型。 FEDHSSL的核心思想是利用各方之间对齐的样本的跨党派观点(即分散特征)和各方的本地观点(即增强)来提高通过SSL(SSL)的表示能力(例如,simsiam)。 FEDHSSL进一步利用各方共享的通用特征,以通过部分模型聚合来提高联合模型的性能。我们从经验上证明,与基线方法相比,我们的FEDHSSL实现了显着的性能增长,尤其是当标记样品数量较小时。我们对FedHSSL提供有关隐私泄漏的深入分析,这在现有的自我监督的VFL作品中很少讨论。我们研究了FEDHSSL的保护机制。结果表明,我们的保护可以阻止最先进的标签推理攻击。
translated by 谷歌翻译
联合学习(FL)已成为解决数据筒仓问题的实用解决方案,而不会损害用户隐私。它的一种变体垂直联合学习(VFL)最近引起了人们的关注,因为VFL与企业对利用更有价值的功能的需求相匹配,以构建更好的机器学习模型,同时保留用户隐私。当前在VFL中的工作集中于为特定VFL算法开发特定的保护或攻击机制。在这项工作中,我们提出了一个评估框架,该框架提出了隐私 - 私人评估问题。然后,我们将此框架作为指南,以全面评估针对三种广泛依据的VFL算法的大多数最先进的隐私攻击的广泛保护机制。这些评估可以帮助FL从业人员在特定要求下选择适当的保护机制。我们的评估结果表明:模型反转和大多数标签推理攻击可能会因现有保护机制而挫败;很难防止模型完成(MC)攻击,这需要更高级的MC靶向保护机制。根据我们的评估结果,我们为提高VFL系统的隐私保护能力提供具体建议。
translated by 谷歌翻译
由于对隐私保护的关注不断增加,因此如何在不同数据源上建立机器学习(ML)模型具有安全保证,这越来越受欢迎。垂直联合学习(VFL)描述了这种情况,其中ML模型建立在不同参与方的私人数据上,该数据与同一集合相同的实例中拥有不相交的功能,这适合许多现实世界中的协作任务。但是,我们发现VFL现有的解决方案要么支持有限的输入功能,要么在联合执行过程中遭受潜在数据泄漏的损失。为此,本文旨在研究VFL方案中ML模式的功能和安全性。具体来说,我们介绍了BlindFL,这是VFL训练和推理的新型框架。首先,为了解决VFL模型的功能,我们建议联合源层团结不同各方的数据。联合源层可以有效地支持各种特征,包括密集,稀疏,数值和分类特征。其次,我们在联合执行期间仔细分析了安全性,并正式化了隐私要求。基于分析,我们设计了安全,准确的算法协议,并进一步证明了在理想真实的仿真范式下的安全保证。广泛的实验表明,BlindFL支持各种数据集和模型,同时获得强大的隐私保证。
translated by 谷歌翻译
Today's AI still faces two major challenges. One is that in most industries, data exists in the form of isolated islands. The other is the strengthening of data privacy and security. We propose a possible solution to these challenges: secure federated learning. Beyond the federated learning framework first proposed by Google in 2016, we introduce a comprehensive secure federated learning framework, which includes horizontal federated learning, vertical federated learning and federated transfer learning. We provide definitions, architectures and applications for the federated learning framework, and provide a comprehensive survey of existing works on this subject. In addition, we propose building data networks among organizations based on federated mechanisms as an effective solution to allow knowledge to be shared without compromising user privacy.
translated by 谷歌翻译
Federated Learning (FL) has emerged as a promising distributed learning paradigm with an added advantage of data privacy. With the growing interest in having collaboration among data owners, FL has gained significant attention of organizations. The idea of FL is to enable collaborating participants train machine learning (ML) models on decentralized data without breaching privacy. In simpler words, federated learning is the approach of ``bringing the model to the data, instead of bringing the data to the mode''. Federated learning, when applied to data which is partitioned vertically across participants, is able to build a complete ML model by combining local models trained only using the data with distinct features at the local sites. This architecture of FL is referred to as vertical federated learning (VFL), which differs from the conventional FL on horizontally partitioned data. As VFL is different from conventional FL, it comes with its own issues and challenges. In this paper, we present a structured literature review discussing the state-of-the-art approaches in VFL. Additionally, the literature review highlights the existing solutions to challenges in VFL and provides potential research directions in this domain.
translated by 谷歌翻译
We propose a framework in which multiple entities collaborate to build a machine learning model while preserving privacy of their data. The approach utilizes feature embeddings from shared/per-entity feature extractors transforming data into a feature space for cooperation between entities. We propose two specific methods and compare them with a baseline method. In Shared Feature Extractor (SFE) Learning, the entities use a shared feature extractor to compute feature embeddings of samples. In Locally Trained Feature Extractor (LTFE) Learning, each entity uses a separate feature extractor and models are trained using concatenated features from all entities. As a baseline, in Cooperatively Trained Feature Extractor (CTFE) Learning, the entities train models by sharing raw data. Secure multi-party algorithms are utilized to train models without revealing data or features in plain text. We investigate the trade-offs among SFE, LTFE, and CTFE in regard to performance, privacy leakage (using an off-the-shelf membership inference attack), and computational cost. LTFE provides the most privacy, followed by SFE, and then CTFE. Computational cost is lowest for SFE and the relative speed of CTFE and LTFE depends on network architecture. CTFE and LTFE provide the best accuracy. We use MNIST, a synthetic dataset, and a credit card fraud detection dataset for evaluations.
translated by 谷歌翻译
物联网中的智能汽车,智能手机和其他设备(物联网)通常具有多个传感器,会产生多模式数据。联合学习支持从不同设备收集大量多模式数据,而无需共享原始数据。转移学习方法有助于将知识从某些设备传输到其他设备。联合转移学习方法受益于联合学习和转移学习。这个新提出的联合转移学习框架旨在将数据岛与隐私保护联系起来。我们的构建基于联合学习和转移学习。与以前的联合转移学习相比,每个用户应具有相同模式的数据(所有单峰或全模式),我们的新框架更为通用,它允许使用用户数据的混合分布。核心策略是为我们的两种用户使用两种不同但固有连接的培训方法。仅对单峰数据(类型1)的用户采用监督学习,而自我监督的学习则用于使用多模式数据(类型2)的用户,以适用于每种模式的功能及其之间的连接。类型2的这种联系知识将在培训的后期阶段有助于1键入1。新框架中的培训可以分为三个步骤。在第一步中,将具有相同模式的数据的用户分组在一起。例如,仅具有声音信号的用户在第一组中,只有图像的用户在第二组中,并且具有多模式数据的用户在第三组中,依此类推。在第二步中,在小组内执行联合学习,在该小组中,根据小组的性质,使用监督的学习和自学学习。大多数转移学习发生在第三步中,从前步骤获得的网络中的相关部分是汇总的(联合)。
translated by 谷歌翻译
多源域的适应性已深入研究。特定域固有的特征的分布变化会导致负转移降低模型的一般性,从而看不见任务。在联合学习(FL)中,为了利用来自不同领域的知识,共享学习的模型参数以训练全球模型。但是,FL的数据机密性阻碍了需要先验了解不同域数据的传统领域适应方法的有效性。为此,我们提出了一种称为联合知识一致性(FEDKA)的新联合领域生成方法。 FEDKA利用全局工作区中的特征分布匹配,以便全局模型可以在未知域数据的约束下学习域不变的客户端功能。设计了一种联合投票机制,以基于促进全球模型微调的客户的共识来生成目标域伪标签。我们进行了广泛的实验,包括消融研究,以评估拟议方法在图像分类任务和基于具有不同复杂性的模型体系结构的文本分类任务中的有效性。经验结果表明,FEDKA可以分别在数字五和办公室-Caltech10中实现8.8%和3.5%的绩效增长,并且在亚马逊审查中获得了0.7%的增长,并且培训数据极为有限。
translated by 谷歌翻译
联合学习(FL)和分裂学习(SL)是两种新兴的协作学习方法,可能会极大地促进物联网(IoT)中无处不在的智能。联合学习使机器学习(ML)模型在本地培训的模型使用私人数据汇总为全球模型。分裂学习使ML模型的不同部分可以在学习框架中对不同工人进行协作培训。联合学习和分裂学习,每个学习都有独特的优势和各自的局限性,可能会相互补充,在物联网中无处不在的智能。因此,联合学习和分裂学习的结合最近成为一个活跃的研究领域,引起了广泛的兴趣。在本文中,我们回顾了联合学习和拆分学习方面的最新发展,并介绍了有关最先进技术的调查,该技术用于将这两种学习方法组合在基于边缘计算的物联网环境中。我们还确定了一些开放问题,并讨论了该领域未来研究的可能方向,希望进一步引起研究界对这个新兴领域的兴趣。
translated by 谷歌翻译
联邦学习一直是一个热门的研究主题,使不同组织的机器学习模型的协作培训在隐私限制下。随着研究人员试图支持更多具有不同隐私方法的机器学习模型,需要开发系统和基础设施,以便于开发各种联合学习算法。类似于Pytorch和Tensorflow等深度学习系统,可以增强深度学习的发展,联邦学习系统(FLSS)是等效的,并且面临各个方面的面临挑战,如有效性,效率和隐私。在本调查中,我们对联合学习系统进行了全面的审查。为实现流畅的流动和引导未来的研究,我们介绍了联合学习系统的定义并分析了系统组件。此外,我们根据六种不同方面提供联合学习系统的全面分类,包括数据分布,机器学习模型,隐私机制,通信架构,联合集市和联合的动机。分类可以帮助设计联合学习系统,如我们的案例研究所示。通过系统地总结现有联合学习系统,我们展示了设计因素,案例研究和未来的研究机会。
translated by 谷歌翻译
无监督域适应(UDA)的突破可以帮助将富含标签的源域的模型调整为未标记的目标域。尽管有这些进步,但缺乏对UDA算法的缺乏研究,特别是基于对抗性学习的算法,可以在分布式设置中工作。在现实世界应用中,目标域通常分布在数千个设备上,并且现有的对抗UDA算法 - 这些算法中集中在本质上 - 无法应用于这些设置。为了解决这一重要问题,我们介绍了弗鲁加:分布式对策UDA的端到端框架。通过对UDA文献进行仔细分析,我们确定了分布式UDA系统的设计目标,并提出了两种新算法,以提高分布式环境中对抗性UDA的适应准确性和培训效率。我们对具有五个图像和语音数据集的弗鲁加的评估表明,它可以将目标域精度升高至50%,并提高对抗越野UDA的培训效率至少11次。
translated by 谷歌翻译
本文提出了一个传感器数据匿名模型,该模型接受了分散数据的培训,并在数据实用程序和隐私之间进行了理想的权衡,即使在收集到的传感器数据具有不同的基础分布的异质环境中也是如此。我们称为Blinder的匿名模型基于以对抗性方式训练的变异自动编码器和歧视网络。我们使用模型 - 不合稳定元学习框架来调整通过联合学习训练的匿名模型,以适应每个用户的数据分布。我们在不同的设置下评估了盲人,并表明它提供了端到端的隐私保护,以增加隐私损失高达4.00%,并将数据实用程序降低高达4.24%,而最新的数据实用程序则将其降低了4.24%。对集中数据培训的匿名模型。我们的实验证实,Blinder可以一次掩盖多个私人属性,并且具有足够低的功耗和计算开销,以便将其部署在边缘设备和智能手机上,以执行传感器数据的实时匿名化。
translated by 谷歌翻译
Collaborative machine learning and related techniques such as federated learning allow multiple participants, each with his own training dataset, to build a joint model by training locally and periodically exchanging model updates. We demonstrate that these updates leak unintended information about participants' training data and develop passive and active inference attacks to exploit this leakage. First, we show that an adversarial participant can infer the presence of exact data points-for example, specific locations-in others' training data (i.e., membership inference). Then, we show how this adversary can infer properties that hold only for a subset of the training data and are independent of the properties that the joint model aims to capture. For example, he can infer when a specific person first appears in the photos used to train a binary gender classifier. We evaluate our attacks on a variety of tasks, datasets, and learning configurations, analyze their limitations, and discuss possible defenses.
translated by 谷歌翻译
在联合学习(FL)中,数据不会在联合培训机器学习模型时留下个人设备。相反,这些设备与中央党(例如,公司)共享梯度。因为数据永远不会“离开”个人设备,因此FL作为隐私保留呈现。然而,最近显示这种保护是一个薄的外观,甚至是一种被动攻击者观察梯度可以重建各个用户的数据。在本文中,我们争辩说,事先工作仍然很大程度上低估了FL的脆弱性。这是因为事先努力专门考虑被动攻击者,这些攻击者是诚实但好奇的。相反,我们介绍了一个活跃和不诚实的攻击者,作为中央会,他们能够在用户计算模型渐变之前修改共享模型的权重。我们称之为修改的重量“陷阱重量”。我们的活跃攻击者能够完全恢复用户数据,并在接近零成本时:攻击不需要复杂的优化目标。相反,它利用了模型梯度的固有数据泄漏,并通过恶意改变共享模型的权重来放大这种效果。这些特异性使我们的攻击能够扩展到具有大型迷你批次数据的模型。如果来自现有工作的攻击者需要小时才能恢复单个数据点,我们的方法需要毫秒来捕获完全连接和卷积的深度神经网络的完整百分之批次数据。最后,我们考虑缓解。我们观察到,FL中的差异隐私(DP)的当前实现是有缺陷的,因为它们明确地信任中央会,并在增加DP噪音的关键任务,因此不提供对恶意中央党的保护。我们还考虑其他防御,并解释为什么它们类似地不足。它需要重新设计FL,为用户提供任何有意义的数据隐私。
translated by 谷歌翻译
关于数据隐私和安全性的越来越多的担忧驱动了从孤立的数据源,即联合学习的隐私保留机学习的新兴领域。一类联合学习,\ Texit {垂直联合学习},不同的各方对共同用户的不同特征,具有促进许多领域企业之间各种业务合作的潜力。在机器学习中,诸如梯度提升决策树(GBDT)和随机森林等决策树集合被广泛应用强大的型号,具有高的可解释性和建模效率。然而,最先进的垂直联合学习框架适应匿名功能以避免可能的数据泄露,使模型受到损害的可解释性。为了解决推理过程中的这个问题,在本文中,我们首先在垂直联合学习中对客场党的特征披露含义的必要性进行了问题分析。然后,我们发现树的预测结果可以表示为所有各方持有的树的子模型结果的交叉点。利用这种关键观察,我们通过隐藏决策路径来保护数据隐私并允许公开特征含义,并适应推理输出的通信有效的安全计算方法。通过理论分析和广泛的数值结果,将证明FED-EINI的优点。我们通过披露特征的含义来提高模型的可解释性,同时确保效率和准确性。
translated by 谷歌翻译
在联合学习等协作学习环境中,好奇的疗程可能是诚实的,但正在通过推理攻击试图通过推断攻击推断其他方的私人数据,而恶意缔约方可能会通过后门攻击操纵学习过程。但是,大多数现有的作品只考虑通过样本(HFL)划分数据的联合学习场景。特征分区联合学习(VFL)可以是许多真实应用程序中的另一个重要方案。当攻击者和防守者无法访问其他参与者的功能或模型参数时,这种情况下的攻击和防御尤其挑战。以前的作品仅显示了可以从每个样本渐变重建私有标签。在本文中,我们首先表明,只有批量平均梯度被揭示时,可以重建私人标签,这是针对常见的推定。此外,我们表明VFL中的被动派对甚至可以通过梯度替换攻击将其相应的标签用目标标签替换为目标标签。为了防御第一次攻击,我们介绍了一种基于AutoEncoder和熵正则化的混乱自动化器(CoAE)的新技术。我们证明,与现有方法相比,这种技术可以成功阻止标签推理攻击,同时损害较少的主要任务准确性。我们的COAE技术在捍卫梯度替代后门攻击方面也有效,使其成为一个普遍和实用的防御策略,没有改变原来的VFL协议。我们展示了我们双方和多方VFL设置下的方法的有效性。据我们所知,这是第一次处理特征分区联合学习框架中的标签推理和后门攻击的第一个系统研究。
translated by 谷歌翻译
联邦学习的出现在维持隐私的同时,促进了机器学习模型之间的大规模数据交换。尽管历史悠久,但联邦学习正在迅速发展,以使更广泛的使用更加实用。该领域中最重要的进步之一是将转移学习纳入联邦学习,这克服了主要联合学习的基本限制,尤其是在安全方面。本章从安全的角度进行了有关联合和转移学习的交集的全面调查。这项研究的主要目标是发现可能损害使用联合和转移学习的系统的隐私和性能的潜在脆弱性和防御机制。
translated by 谷歌翻译
联合学习(FL)使一组客户能够在集中式服务器的帮助下共同列车机器学习模型。客户端不需要在培训期间向服务器提交本地数据,因此保护客户的本地培训数据受到保护。在FL中,分布式客户端独立收集其本地数据,因此每个客户端的数据集可以自然地形成不同的源域。在实践中,在多个源域培训的模型可能对看不见的目标域具有较差的泛化性能。为了解决这个问题,我们提出了FedAdg以用域泛化能力装备联合学习。 FedAdg采用联合的对冲学习方法来测量并对准不同源域之间的分布,并通过将每个分发与参考分布匹配。协同分布被自适应地生成(通过容纳所有源极域)以最小化对齐期间的域移位距离。在FEDADG中,对准是细粒度,因为每个类独立对齐。以这种方式,学习的特征表示应该是普遍的,因此它可以在看不见的域中概括很好。关于各种数据集的广泛实验表明,即使它们具有允许集中数据访问的额外优势,FedAdg也具有比主要的大多数解决方案更好的性能。为了支持研究重现性,项目代码可在https://github.com/wzml/fedadg中获得
translated by 谷歌翻译
联邦学习(FL)是一个有前途的机器学习范式,可以以隐私保留和法律规范的方式实现现实世界AI应用的交联数据合作。如何估值缔约方的数据是一个关键而挑战的流逝。在文献中,数据估值要么依赖于给定任务运行特定模型,或者只是任务无关;但是,在尚未确定的FL模型时,常常为派对选择的必要条件。因此,这项工作填补了差距并提出了\ {FedValue},以我们的最佳知识,第一个隐私保留,任务特定的任务,但无模型的无模式数据估值方法,用于垂直流动任务。具体而言,FedValue包含一种新的信息 - 理论度量,称为福普利-CMI,以评估来自游戏理论观点的多方的数据值。此外,一种新颖的服务器辅助联合计算机制被设计为计算Shapley-CMI,并且同时保护每个方免受数据泄漏。我们还提出了几种技术来加速福利-CMI计算在实践中。六个开放数据集的广泛实验验证了FedValue对垂直流动任务数据估值的效力和效率。特别是,福芙-CMI作为无模型度量,与依赖于运行良好的良好模型的集合的措施相当执行。
translated by 谷歌翻译