我们提出了一个用于机器学习应用的基于区块链的安全数据交易市场的Omnilytics。利用omnilytics,许多分布式数据所有者可以贡献他们的私人数据,以集体培训某些型号所有者请求的ML模型,并获得数据贡献的补偿。 Omnilytics使这种模型培训能够同时为奇怪的数据所有者提供1)模型安全; 2)对奇怪的模型和数据所有者的数据安全; 3)对恶意数据所有者的弹性,为毒药模型培训提供有错误的结果; 4)打算逃避付款的恶意模型所有者的弹性。 Omnilytics被实施为一个区块链智能合同,以保证付款的原子。在omnilytics中,模型所有者将其模型分成私人和公共部分,并在合同上发布公共部分。通过执行合同,参与的数据所有者将其当地培训的模型安全地汇总以更新模型所有者的公共模式,并通过合同获得报销。我们在以Ethereum区块链中实施了Omnilytics的工作原型,并在各种参数组合下进行了广泛的实验,以测量其天然气成本,执行时间和模型质量。为了在MNIST数据集上训练CNN,MO能够将其模型精度从平板ChangchConsion Time的500毫秒内的62%提升到83%。这证明了Omnilytics对实际部署的有效性。
translated by 谷歌翻译
由于机器学习(ML)模型变得越来越复杂,其中一个中央挑战是它们在规模的部署,使得公司和组织可以通过人工智能(AI)创造价值。 ML中的新兴范式是一种联合方法,其中学习模型部分地将其交付给一组异构剂,允许代理与自己的数据一起培训模型。然而,模型的估值问题,以及数据/模型的协作培训和交易的激励问题,在文献中获得了有限的待遇。本文提出了一种在基于信任区块基网络上交易的ML模型交易的新生态系统。买方可以获得ML市场的兴趣模型,兴趣的卖家将本地计算花在他们的数据上,以增强该模型的质量。在这样做时,考虑了本地数据与训练型型号的质量之间的比例关系,并且通过分布式数据福价(DSV)估计了销售课程中的训练中的数据的估值。同时,通过分布式分区技术(DLT)提供整个交易过程的可信度。对拟议方法的广泛实验评估显示出具有竞争力的运行时间绩效,在参与者的激励方面下降了15 \%。
translated by 谷歌翻译
联合学习(FL)是一种机器学习(ML)技术,旨在减少对用户数据隐私的威胁。培训是使用用户设备上的原始数据(称为客户端)进行的,只有称为梯度的培训结果被发送到服务器进行汇总并生成更新的模型。但是,我们不能假设可以使用私人信息来信任服务器,例如与数据所有者或数据源相关的元数据。因此,将客户信息隐藏在服务器中有助于减少与隐私相关的攻击。因此,客户身份的隐私以及客户数据的隐私是使此类攻击更加困难的必要条件。本文提出了基于组签名的FL的高效和隐私权协议。一个名为GSFL的新组合签名旨在保护客户数据和身份的隐私,而且考虑考虑到联合学习的迭代过程,还大大降低了计算和通信成本。我们表明,在计算,通信和信号成本方面,GSFL优于现有方法。另外,我们表明所提出的协议可以在联合学习环境中处理各种安全攻击。
translated by 谷歌翻译
联合学习(FL)已成为工业物联网(IIOT)网络中数字双胞胎的必不可少的技术。但是,由于FL的主/奴隶结构,抵制主聚合器的单点失败以及恶意IIOT设备的攻击是非常具有挑战性的,同时保证了模型收敛速度和准确性。最近,区块链已进入FL系统,将范式转换为分散的方式,从而进一步提高了系统的安全性和学习可靠性。不幸的是,由于资源消耗庞大,交易量有限和高度沟通复杂性,区块链系统的传统共识机制和架构几乎无法处理大规模的FL任务并在IIT设备上运行。为了解决这些问题,本文提出了一个两层区块链驱动的FL系统,称为Chainfl,该系统将IIOT网络分为多个碎片,作为限制信息交换的标准层,并采用直接的无循环图(DAG) - 基于主链作为主链层,以实现平行和异步的横断面验证。此外,FL程序是定制的,以与区块链深入集成,并提出了修改的DAG共识机制来减轻由异常模型引起的失真。为了提供概念验证的实施和评估,部署了基于HyperLeDger面料和基于自发DAG的Mainchain的多个子链。广泛的实验结果表明,我们提出的链条系统以可接受和快速的训练效率(最高14%)和更强的鲁棒性(最多3次)优于现有的主要FL系统。
translated by 谷歌翻译
通过参与大规模联合学习(FL)优化的设备的异构性质的激励,我们专注于由区块链(BC)技术赋予的异步服务器的FL解决方案。与主要采用的FL方法相比,假设同步操作,我们提倡一个异步方法,由此,模型聚合作为客户端提交本地更新。异步设置与具有异构客户端的实际大规模设置中的联合优化思路非常适合。因此,它可能导致通信开销和空闲时段的效率提高。为了评估启用了BC启用的FL的学习完成延迟,我们提供了基于批量服务队列理论的分析模型。此外,我们提供仿真结果以评估同步和异步机制的性能。涉及BC启用的流量的重要方面,例如网络大小,链路容量或用户要求,并分析并分析。随着我们的结果表明,同步设置导致比异步案例更高的预测精度。然而,异步联合优化在许多情况下提供了更低的延迟,从而在处理大数据集时成为一种吸引力的FL解决方案,严重的时序约束(例如,近实时应用)或高度不同的训练数据。
translated by 谷歌翻译
联合学习(FL)和分裂学习(SL)是两种新兴的协作学习方法,可能会极大地促进物联网(IoT)中无处不在的智能。联合学习使机器学习(ML)模型在本地培训的模型使用私人数据汇总为全球模型。分裂学习使ML模型的不同部分可以在学习框架中对不同工人进行协作培训。联合学习和分裂学习,每个学习都有独特的优势和各自的局限性,可能会相互补充,在物联网中无处不在的智能。因此,联合学习和分裂学习的结合最近成为一个活跃的研究领域,引起了广泛的兴趣。在本文中,我们回顾了联合学习和拆分学习方面的最新发展,并介绍了有关最先进技术的调查,该技术用于将这两种学习方法组合在基于边缘计算的物联网环境中。我们还确定了一些开放问题,并讨论了该领域未来研究的可能方向,希望进一步引起研究界对这个新兴领域的兴趣。
translated by 谷歌翻译
联邦学习一直是一个热门的研究主题,使不同组织的机器学习模型的协作培训在隐私限制下。随着研究人员试图支持更多具有不同隐私方法的机器学习模型,需要开发系统和基础设施,以便于开发各种联合学习算法。类似于Pytorch和Tensorflow等深度学习系统,可以增强深度学习的发展,联邦学习系统(FLSS)是等效的,并且面临各个方面的面临挑战,如有效性,效率和隐私。在本调查中,我们对联合学习系统进行了全面的审查。为实现流畅的流动和引导未来的研究,我们介绍了联合学习系统的定义并分析了系统组件。此外,我们根据六种不同方面提供联合学习系统的全面分类,包括数据分布,机器学习模型,隐私机制,通信架构,联合集市和联合的动机。分类可以帮助设计联合学习系统,如我们的案例研究所示。通过系统地总结现有联合学习系统,我们展示了设计因素,案例研究和未来的研究机会。
translated by 谷歌翻译
Vanilla联合学习(FL)依赖于集中的全球聚合机制,并假设所有客户都是诚实的。这使得FL减轻单一失败和不诚实客户的挑战。由于FL和区块链的好处(例如,民主,激励性和不变性),FL的设计理念中的这些即将到来的挑战呼吁基于区块链的联邦学习(BFL)。但是,香草BFL中的一个问题是,它的功能不会以动态的方式遵循采用者的需求。此外,Vanilla BFL依赖于无法验证的客户的自我报告的贡献,例如数据大小,因为在FL中不允许检查客户的原始数据是否存在隐私问题。我们设计和评估了一种新型的BFL框架,并以更大的灵活性和激励机制(称为Fair-BFL)解决了香草BFL中确定的挑战。与现有作品相反,Fair-BFL通过模块化设计提供了前所未有的灵活性,使采用者可以按照动态的方式调整其业务需求的能力。我们的设计说明了BFL量化每个客户对全球学习过程的贡献的能力。这种量化提供了一个合理的指标,可以在联邦客户之间分配奖励,并帮助发现可能毒害全球模型的恶意参与者。
translated by 谷歌翻译
Federated learning (FL) is a promising way to allow multiple data owners (clients) to collaboratively train machine learning models without compromising data privacy. Yet, existing FL solutions usually rely on a centralized aggregator for model weight aggregation, while assuming clients are honest. Even if data privacy can still be preserved, the problem of single-point failure and data poisoning attack from malicious clients remains unresolved. To tackle this challenge, we propose to use distributed ledger technology (DLT) to achieve FLock, a secure and reliable decentralized Federated Learning system built on blockchain. To guarantee model quality, we design a novel peer-to-peer (P2P) review and reward/slash mechanism to detect and deter malicious clients, powered by on-chain smart contracts. The reward/slash mechanism, in addition, serves as incentives for participants to honestly upload and review model parameters in the FLock system. FLock thus improves the performance and the robustness of FL systems in a fully P2P manner.
translated by 谷歌翻译
The advent of Federated Learning (FL) has ignited a new paradigm for parallel and confidential decentralized Machine Learning (ML) with the potential of utilizing the computational power of a vast number of IoT, mobile and edge devices without data leaving the respective device, ensuring privacy by design. Yet, in order to scale this new paradigm beyond small groups of already entrusted entities towards mass adoption, the Federated Learning Framework (FLF) has to become (i) truly decentralized and (ii) participants have to be incentivized. This is the first systematic literature review analyzing holistic FLFs in the domain of both, decentralized and incentivized federated learning. 422 publications were retrieved, by querying 12 major scientific databases. Finally, 40 articles remained after a systematic review and filtering process for in-depth examination. Although having massive potential to direct the future of a more distributed and secure AI, none of the analyzed FLF is production-ready. The approaches vary heavily in terms of use-cases, system design, solved issues and thoroughness. We are the first to provide a systematic approach to classify and quantify differences between FLF, exposing limitations of current works and derive future directions for research in this novel domain.
translated by 谷歌翻译
通信技术和互联网的最新进展与人工智能(AI)启用了智能医疗保健。传统上,由于现代医疗保健网络的高性性和日益增长的数据隐私问题,AI技术需要集中式数据收集和处理,这可能在现实的医疗环境中可能是不可行的。作为一个新兴的分布式协作AI范例,通过协调多个客户(例如,医院)来执行AI培训而不共享原始数据,对智能医疗保健特别有吸引力。因此,我们对智能医疗保健的使用提供了全面的调查。首先,我们在智能医疗保健中展示了近期进程,动机和使用FL的要求。然后讨论了近期智能医疗保健的FL设计,从资源感知FL,安全和隐私感知到激励FL和个性化FL。随后,我们对关键医疗领域的FL新兴应用提供了最先进的综述,包括健康数据管理,远程健康监测,医学成像和Covid-19检测。分析了几个最近基于智能医疗保健项目,并突出了从调查中学到的关键经验教训。最后,我们讨论了智能医疗保健未来研究的有趣研究挑战和可能的指示。
translated by 谷歌翻译
随着物联网,AI和ML/DL算法的出现,数据驱动的医疗应用已成为一种有前途的工具,用于从医学数据设计可靠且可扩展的诊断和预后模型。近年来,这引起了从学术界到工业的广泛关注。这无疑改善了医疗保健提供的质量。但是,由于这些基于AI的医疗应用程序在满足严格的安全性,隐私和服务标准(例如低延迟)方面的困难,因此仍然采用较差。此外,医疗数据通常是分散的和私人的,这使得在人群之间产生强大的结果具有挑战性。联邦学习(FL)的最新发展使得以分布式方式训练复杂的机器学习模型成为可能。因此,FL已成为一个积极的研究领域,尤其是以分散的方式处理网络边缘的医疗数据,以保护隐私和安全问题。为此,本次调查论文重点介绍了数据共享是重大负担的医疗应用中FL技术的当前和未来。它还审查并讨论了当前的研究趋势及其设计可靠和可扩展模型的结果。我们概述了FL将军的统计问题,设备挑战,安全性,隐私问题及其在医疗领域的潜力。此外,我们的研究还集中在医疗应用上,我们重点介绍了全球癌症的负担以及有效利用FL来开发计算机辅助诊断工具来解决这些诊断工具。我们希望这篇评论是一个检查站,以彻底的方式阐明现有的最新最新作品,并为该领域提供开放的问题和未来的研究指示。
translated by 谷歌翻译
Today's AI still faces two major challenges. One is that in most industries, data exists in the form of isolated islands. The other is the strengthening of data privacy and security. We propose a possible solution to these challenges: secure federated learning. Beyond the federated learning framework first proposed by Google in 2016, we introduce a comprehensive secure federated learning framework, which includes horizontal federated learning, vertical federated learning and federated transfer learning. We provide definitions, architectures and applications for the federated learning framework, and provide a comprehensive survey of existing works on this subject. In addition, we propose building data networks among organizations based on federated mechanisms as an effective solution to allow knowledge to be shared without compromising user privacy.
translated by 谷歌翻译
Differentially private federated learning (DP-FL) has received increasing attention to mitigate the privacy risk in federated learning. Although different schemes for DP-FL have been proposed, there is still a utility gap. Employing central Differential Privacy in FL (CDP-FL) can provide a good balance between the privacy and model utility, but requires a trusted server. Using Local Differential Privacy for FL (LDP-FL) does not require a trusted server, but suffers from lousy privacy-utility trade-off. Recently proposed shuffle DP based FL has the potential to bridge the gap between CDP-FL and LDP-FL without a trusted server; however, there is still a utility gap when the number of model parameters is large. In this work, we propose OLIVE, a system that combines the merits from CDP-FL and LDP-FL by leveraging Trusted Execution Environment (TEE). Our main technical contributions are the analysis and countermeasures against the vulnerability of TEE in OLIVE. Firstly, we theoretically analyze the memory access pattern leakage of OLIVE and find that there is a risk for sparsified gradients, which is common in FL. Secondly, we design an inference attack to understand how the memory access pattern could be linked to the training data. Thirdly, we propose oblivious yet efficient algorithms to prevent the memory access pattern leakage in OLIVE. Our experiments on real-world data demonstrate that OLIVE is efficient even when training a model with hundreds of thousands of parameters and effective against side-channel attacks on TEE.
translated by 谷歌翻译
传统的深度学习方法(DL)需要在中央服务器上收集和处理的培训数据,这些中央服务器通常在保健等隐私敏感域中挑战。为此,提出了一种新的学习范式,称为联合学习(FL),在解决隐私和数据所有权问题的同时将DL的潜力带到了这些域。 FL使远程客户端能够在保持数据本地时学习共享ML模型。然而,传统的FL系统面临多种挑战,例如可扩展性,复杂的基础设施管理,并且由于空闲客户端而被浪费的计算和产生的成本。 FL系统的这些挑战与无服务器计算和功能 - AS-Service(FAAS)平台旨在解决的核心问题密切对齐。这些包括快速可扩展性,无基础设施管理,自动缩放为空闲客户端,以及每次使用付费计费模型。为此,我们为无服务器FL展示了一个新颖的系统和框架,称为不发烟。我们的系统支持多个商业和自主主机的FAAS提供商,可以在机构数据中心和边缘设备上部署在云端,内部部署。据我们所知,我们是第一个能够在一大面料的异构FAAS提供商中启用FL,同时提供安全性和差异隐私等重要功能。我们展示了全面的实验,即使用我们的系统可以成功地培训多达200个客户功能的不同任务,更容易实现。此外,我们通过将其与传统的FL系统进行比较来证明我们的方法的实际可行性,并表明它可以更便宜,更资源效率更便宜。
translated by 谷歌翻译
联合机器学习(FL)允许将敏感数据中的模型集体列车,而不是客户的模型,而不是需要共享其培训数据。然而,尽管对FL的研究有所关注,但概念仍然缺乏广泛的采用。其中一个主要原因是实现FL系统的巨大挑战,即同时实现所有参与客户的公平,完整性和隐私保存。为了解决解决这个问题,我们的论文提出了一种包含区块链技术,局部差异隐私和零知识证据的流系统。我们的实施具有多元线性回归的概念验证说明了这些最先进的技术可以组合到一个对准可扩展和透明系统中的经济激励,信任和机密性要求的流系统。
translated by 谷歌翻译
机器学习能力已成为跨行业,应用和行业各种解决方案的重要组成部分。许多组织试图利用其在业务服务中基于AI的解决方案,以释放提高效率并提高生产率。但是,如果缺乏用于AI模型培训,可伸缩性和维护的质量数据,可能会出现问题。我们建议通过公共区块链和智能合约利用以数据为中心的联合学习体系结构来克服这一重大问题。我们提出的解决方案提供了一个虚拟的公共市场,开发人员,数据科学家和AI工程师可以发布其模型,并协作创建和访问培训的质量数据。我们通过激励机制增强了数据质量和完整性,该机制奖励了数据贡献和验证。那些与所提出的框架相结合的人只有一个用户模拟训练数据集,平均每天100个输入,模型准确性约为4 \%。
translated by 谷歌翻译
如今,信息技术的发展正在迅速增长。在大数据时代,个人信息的隐私更加明显。主要的挑战是找到一种方法来确保在发布和分析数据时不会披露敏感的个人信息。在信任的第三方数据策展人的假设上建立了集中式差异隐私。但是,这个假设在现实中并不总是正确的。作为一种新的隐私保护模型,当地的差异隐私具有相对强大的隐私保证。尽管联邦学习相对是一种用于分布式学习的隐私方法,但它仍然引入了各种隐私问题。为了避免隐私威胁并降低沟通成本,我们建议将联合学习和当地差异隐私与动量梯度下降整合在一起,以提高机器学习模型的性能。
translated by 谷歌翻译
Federated learning is a collaborative method that aims to preserve data privacy while creating AI models. Current approaches to federated learning tend to rely heavily on secure aggregation protocols to preserve data privacy. However, to some degree, such protocols assume that the entity orchestrating the federated learning process (i.e., the server) is not fully malicious or dishonest. We investigate vulnerabilities to secure aggregation that could arise if the server is fully malicious and attempts to obtain access to private, potentially sensitive data. Furthermore, we provide a method to further defend against such a malicious server, and demonstrate effectiveness against known attacks that reconstruct data in a federated learning setting.
translated by 谷歌翻译
随着机器学习(ml)的进步及其日益增长的意识,许多拥有数据但不是ML专业知识(数据所有者)的组织希望汇集他们的数据并与那些具有专业知识的人合作,但需要来自不同来源的数据,以便训练真正普遍的资料模型(模型所有者)。在这种协作ML中,数据所有者希望保护其培训数据的隐私,而模型所有者希望模型的机密性和可能包含知识产权的培训方法。但是,现有的私人ML解决方案,如联合学习和分裂学习,不能同时满足数据和模型所有者的隐私要求。本文介绍了城可扩展的协作ML系统,可根据英特尔SGX在不受信任的基础架构中保护两个数据所有者和模型所有者的隐私。 CITADEL在代表数据所有者和代表模型所有者运行的多个训练环路中执行分布式训练。 CITADEL通过零和屏蔽和分层聚合进一步在这些外地之间建立了强大的信息屏障,以防止在协同培训期间防止数据/模型泄漏。与现有的SGX保护培训系统相比,Citadel实现了合作ML的更好的可扩展性和更强大的隐私保障。具有各种ML模型的云部署显示,Citadel缩放到大量的环路,由SGX引起的小于1.73x放缓。
translated by 谷歌翻译