事实证明,联邦学习(FL)是利用分布式资源的最有希望的范式之一,使一组客户能够协作培训机器学习模型,同时保持数据分散。对该主题兴趣的爆炸性增长导致了几个核心方面的快速发展,例如沟通效率,处理非IID数据,隐私和安全能力。但是,假设客户的培训集被标记,大多数FL仅处理监督任务。为了利用分布式边缘设备上的巨大未标记数据,我们旨在通过解决分散设置中的异常检测问题来扩展FL范式到无监督任务。特别是,我们提出了一种新颖的方法,在这种方法中,通过预处理阶段,客户分组为社区,每个社区都具有相似的多数(即近距离)模式。随后,每个客户社区都以联合方式训练相同的异常检测模型(即自动编码器)。然后共享所得模型并用于检测加入相应联合过程的同一社区客户端内的异常情况。实验表明我们的方法是强大的,它可以检测到与理想分区一致的社区,在这种分区中,知道具有相同近距离模式的客户组。此外,性能要比客户专门培训模型在本地数据上训练,并且与理想社区分区的联合模型相当的性能要好得多。
translated by 谷歌翻译
这项工作调查了联合学习的可能性,了解IOT恶意软件检测,并研究该新学习范式固有的安全问题。在此上下文中,呈现了一种使用联合学习来检测影响物联网设备的恶意软件的框架。 n-baiot,一个数据集在由恶意软件影响的几个实际物联网设备的网络流量,已被用于评估所提出的框架。经过培训和评估监督和无监督和无监督的联邦模型(多层Perceptron和AutoEncoder)能够检测到MATEN和UNEEN的IOT设备的恶意软件,并进行了培训和评估。此外,它们的性能与两种传统方法进行了比较。第一个允许每个参与者在本地使用自己的数据局面训练模型,而第二个包括使参与者与负责培训全局模型的中央实体共享他们的数据。这种比较表明,在联合和集中方法中完成的使用更多样化和大数据,对模型性能具有相当大的积极影响。此外,联邦模型,同时保留了参与者的隐私,将类似的结果与集中式相似。作为额外的贡献,并衡量联邦方法的稳健性,已经考虑了具有若干恶意参与者中毒联邦模型的对抗性设置。即使使用单个对手,大多数联邦学习算法中使用的基线模型聚合平均步骤也很容易受到不同攻击的影响。因此,在相同的攻击方案下评估了作为对策的其他模型聚合函数的性能。这些职能对恶意参与者提供了重大改善,但仍然需要更多的努力来使联邦方法强劲。
translated by 谷歌翻译
提出了联合学习(FL),以促进分布式环境中模型的培训。它支持(本地)数据隐私的保护,并使用本地资源进行模型培训。到目前为止,大多数研究一直致力于“核心问题”,例如机器学习算法对FL,数据隐私保护或处理客户之间不均匀数据分布的影响。此贡献锚定在实际的用例中,在这种情况下,FL将实际部署在生态系统的互联网中。因此,在文献中发现了一些流行的考虑之外,还需要考虑一些不同的问题。此外,引入了一种构建灵活和适应性的FL解决方案的体系结构。
translated by 谷歌翻译
联合学习(FL)和分裂学习(SL)是两种新兴的协作学习方法,可能会极大地促进物联网(IoT)中无处不在的智能。联合学习使机器学习(ML)模型在本地培训的模型使用私人数据汇总为全球模型。分裂学习使ML模型的不同部分可以在学习框架中对不同工人进行协作培训。联合学习和分裂学习,每个学习都有独特的优势和各自的局限性,可能会相互补充,在物联网中无处不在的智能。因此,联合学习和分裂学习的结合最近成为一个活跃的研究领域,引起了广泛的兴趣。在本文中,我们回顾了联合学习和拆分学习方面的最新发展,并介绍了有关最先进技术的调查,该技术用于将这两种学习方法组合在基于边缘计算的物联网环境中。我们还确定了一些开放问题,并讨论了该领域未来研究的可能方向,希望进一步引起研究界对这个新兴领域的兴趣。
translated by 谷歌翻译
联合学习(FL)根据多个本地客户端协同聚合共享全球模型,同时保持培训数据分散以保护数据隐私。但是,标准的FL方法忽略了嘈杂的客户问题,这可能会损害聚合模型的整体性能。在本文中,我们首先分析了嘈杂的客户声明,然后用不同的噪声分布模型噪声客户端(例如,Bernoulli和截断的高斯分布)。要使用嘈杂的客户,我们提出了一个简单但有效的FL框架,名为联邦嘈杂的客户学习(FED-NCL),它是一个即插即用算法,并包含两个主要组件:动态的数据质量测量(DQM)量化每个参与客户端的数据质量,以及噪声鲁棒聚合(NRA),通过共同考虑本地训练数据和每个客户端的数据质量来自适应地聚合每个客户端的本地模型。我们的FED-NCL可以轻松应用于任何标准的流行流以处理嘈杂的客户端问题。各种数据集的实验结果表明,我们的算法提高了具有嘈杂客户端的不同现实系统的性能。
translated by 谷歌翻译
空中接入网络已被识别为各种事物互联网(物联网)服务和应用程序的重要驾驶员。特别是,以无人机互联网为中心的空中计算网络基础设施已经掀起了自动图像识别的新革命。这种新兴技术依赖于共享地面真理标记的无人机(UAV)群之间的数据,以培训高质量的自动图像识别模型。但是,这种方法将带来数据隐私和数据可用性挑战。为了解决这些问题,我们首先向一个半监督的联邦学习(SSFL)框架提供隐私保留的UAV图像识别。具体而言,我们提出了模型参数混合策略,以改善两个现实场景下的FL和半监督学习方法的天真组合(标签 - 客户端和标签 - 服务器),其被称为联合混合(FEDMIX)。此外,在不同环境中使用不同的相机模块,在不同环境中使用不同的相机模块,在不同的相机模块,即统计异质性,存在显着差异。为了减轻统计异质性问题,我们提出了基于客户参与训练的频率的聚合规则,即FedFReq聚合规则,可以根据其频率调整相应的本地模型的权重。数值结果表明,我们提出的方法的性能明显优于当前基线的性能,并且对不同的非IID等级的客户数据具有强大。
translated by 谷歌翻译
Federated Learning (FL) has become a key choice for distributed machine learning. Initially focused on centralized aggregation, recent works in FL have emphasized greater decentralization to adapt to the highly heterogeneous network edge. Among these, Hierarchical, Device-to-Device and Gossip Federated Learning (HFL, D2DFL \& GFL respectively) can be considered as foundational FL algorithms employing fundamental aggregation strategies. A number of FL algorithms were subsequently proposed employing multiple fundamental aggregation schemes jointly. Existing research, however, subjects the FL algorithms to varied conditions and gauges the performance of these algorithms mainly against Federated Averaging (FedAvg) only. This work consolidates the FL landscape and offers an objective analysis of the major FL algorithms through a comprehensive cross-evaluation for a wide range of operating conditions. In addition to the three foundational FL algorithms, this work also analyzes six derived algorithms. To enable a uniform assessment, a multi-FL framework named FLAGS: Federated Learning AlGorithms Simulation has been developed for rapid configuration of multiple FL algorithms. Our experiments indicate that fully decentralized FL algorithms achieve comparable accuracy under multiple operating conditions, including asynchronous aggregation and the presence of stragglers. Furthermore, decentralized FL can also operate in noisy environments and with a comparably higher local update rate. However, the impact of extremely skewed data distributions on decentralized FL is much more adverse than on centralized variants. The results indicate that it may not be necessary to restrict the devices to a single FL algorithm; rather, multi-FL nodes may operate with greater efficiency.
translated by 谷歌翻译
Federated Learning (FL) is a machine learning paradigm that enables the training of a shared global model across distributed clients while keeping the training data local. While most prior work on designing systems for FL has focused on using stateful always running components, recent work has shown that components in an FL system can greatly benefit from the usage of serverless computing and Function-as-a-Service technologies. To this end, distributed training of models with severless FL systems can be more resource-efficient and cheaper than conventional FL systems. However, serverless FL systems still suffer from the presence of stragglers, i.e., slow clients due to their resource and statistical heterogeneity. While several strategies have been proposed for mitigating stragglers in FL, most methodologies do not account for the particular characteristics of serverless environments, i.e., cold-starts, performance variations, and the ephemeral stateless nature of the function instances. Towards this, we propose FedLesScan, a novel clustering-based semi-asynchronous training strategy, specifically tailored for serverless FL. FedLesScan dynamically adapts to the behaviour of clients and minimizes the effect of stragglers on the overall system. We implement our strategy by extending an open-source serverless FL system called FedLess. Moreover, we comprehensively evaluate our strategy using the 2nd generation Google Cloud Functions with four datasets and varying percentages of stragglers. Results from our experiments show that compared to other approaches FedLesScan reduces training time and cost by an average of 8% and 20% respectively while utilizing clients better with an average increase in the effective update ratio of 17.75%.
translated by 谷歌翻译
联邦学习(FL)最近成为网络攻击检测系统的有效方法,尤其是在互联网上(物联网)网络。通过在IOT网关中分配学习过程,FL可以提高学习效率,降低通信开销并增强网络内人检测系统的隐私。在这种系统中实施FL的挑战包括不同物联网中的数据特征的标记数据和不可用的不可用。在本文中,我们提出了一种新的协作学习框架,利用转移学习(TL)来克服这些挑战。特别是,我们开发一种新颖的协作学习方法,使目标网络能够有效地和快速学习来自拥有丰富标记数据的源网络的知识。重要的是,最先进的研究要求网络的参与数据集具有相同的特征,从而限制了入侵检测系统的效率,灵活性以及可扩展性。但是,我们所提出的框架可以通过在各种深度学习模型中交换学习知识来解决这些问题,即使他们的数据集具有不同的功能。关于最近的真实网络安全数据集的广泛实验表明,与基于最先进的深度学习方法相比,拟议的框架可以提高超过40%。
translated by 谷歌翻译
联合学习(FL)是一个分布式的机器学习范式,可从分散的私人数据集中进行学习模型,在该数据集中将标签工作委托给客户。尽管大多数现有的FL方法都假定用户的设备很容易获得高质量的标签。实际上,标签噪声自然会发生在FL中,并遵循非i.i.d。客户之间的分布。由于非IID的挑战,现有的最先进的集中式方法表现出不令人满意的性能,而先前的FL研究依靠数据交换或重复的服务器端援助来提高模型的性能。在这里,我们提出了Fedln,这是一个框架,可以在不同的FL训练阶段处理标签噪声;即,FL初始化,设备模型培训和服务器模型聚合。具体而言,FedLN在单个联合回合中计算每客户噪声级估计,并通过纠正(或限制)噪声样本的效果来改善模型的性能。与其他现有方法相比,对各种公开视觉和音频数据集的广泛实验平均提高了24%,标签噪声水平为70%。我们进一步验证了FedLN在人类通知的现实世界嘈杂数据集中的效率,并报告了模型的识别率平均增长了9%,这强调了FEDLN对于改善提供给日常用户的FL服务很有用。
translated by 谷歌翻译
自从联合学习(FL)被引入具有隐私保护的分散学习技术以来,分布式数据的统计异质性是实现FL应用中实现稳健性能和稳定收敛性的主要障碍。已经研究了模型个性化方法来克服这个问题。但是,现有的方法主要是在完全标记的数据的先决条件下,这在实践中是不现实的,由于需要专业知识。由部分标记的条件引起的主要问题是,标记数据不足的客户可能会遭受不公平的性能增益,因为他们缺乏足够的本地分销见解来自定义全球模型。为了解决这个问题,1)我们提出了一个新型的个性化的半监督学习范式,该范式允许部分标记或未标记的客户寻求与数据相关的客户(助手代理)的标签辅助,从而增强他们对本地数据的认识; 2)基于此范式,我们设计了一个基于不确定性的数据关系度量,以确保选定的帮助者可以提供值得信赖的伪标签,而不是误导当地培训; 3)为了减轻助手搜索引入的网络过载,我们进一步开发了助手选择协议,以实现有效的绩效牺牲的有效沟通。实验表明,与其他具有部分标记数据的相关作品相比,我们提出的方法可以获得卓越的性能和更稳定的收敛性,尤其是在高度异质的环境中。
translated by 谷歌翻译
Continuous behavioural authentication methods add a unique layer of security by allowing individuals to verify their unique identity when accessing a device. Maintaining session authenticity is now feasible by monitoring users' behaviour while interacting with a mobile or Internet of Things (IoT) device, making credential theft and session hijacking ineffective. Such a technique is made possible by integrating the power of artificial intelligence and Machine Learning (ML). Most of the literature focuses on training machine learning for the user by transmitting their data to an external server, subject to private user data exposure to threats. In this paper, we propose a novel Federated Learning (FL) approach that protects the anonymity of user data and maintains the security of his data. We present a warmup approach that provides a significant accuracy increase. In addition, we leverage the transfer learning technique based on feature extraction to boost the models' performance. Our extensive experiments based on four datasets: MNIST, FEMNIST, CIFAR-10 and UMDAA-02-FD, show a significant increase in user authentication accuracy while maintaining user privacy and data security.
translated by 谷歌翻译
联合学习允许一组分布式客户端培训私有数据的公共机器学习模型。模型更新的交换由中央实体或以分散的方式管理,例如,由一个区间的。但是,所有客户端的强大概括都使得这些方法不合适,不合适地分布(非IID)数据。我们提出了一个统一的统一方法,在联合学习中的权力下放和个性化,该方法是基于模型更新的定向非循环图(DAG)。客户端代替培训单个全局模型,客户端专门从事来自其他客户端的模型更新的本地数据,而不是依赖于各自数据的相似性。这种专业化从基于DAG的沟通和模型更新的选择隐含地出现。因此,我们启用专业模型的演变,它专注于数据的子集,因此覆盖非IID数据,而不是在基于区块的基于区块的设置中的联合学习。据我们所知,拟议的解决方案是第一个在完全分散的联邦学习中团结的个性化和中毒鲁棒性。我们的评价表明,模型的专业化直接从基于DAG的模型更新通信到三个不同的数据集。此外,与联合平均相比,我们在客户端展示稳定的模型精度和更少的方差。
translated by 谷歌翻译
用户每天在各种社交网络平台上暴露于大量有害内容。一种解决方案是使用机器学习技术开发在线审核工具。但是,通过在线平台处理用户数据需要遵守隐私政策。联合学习(FL)是ML范式,在该范围内,在用户设备上本地进行培训。尽管FL框架符合GDPR政策,但仍然可能发生隐私泄漏。例如,访问最终训练模型的攻击者可以成功地对参与培训过程的用户的数据进行不必要的推断。在本文中,我们为包含差异隐私(DP)的在线内容审核提出了一个隐私的FL框架。为了证明我们的方法的可行性,我们专注于在Twitter上检测有害内容 - 但总体概念可以推广到其他类型的不当行为。我们以FL方式模拟了文本分类器,该分类器可以检测具有有害内容的推文。我们表明,对于DP和非DP FL版本,提出的FL框架的性能可以接近集中式方法。此外,即使有少数客户(每个数据点)可用于FL培训,它也具有高性能。当减少客户端数量(从50到10)或每个客户端的数据点(从1K到0.1K)时,分类器仍然可以达到约81%的AUC。此外,我们将评估扩展到其他四个Twitter数据集,这些数据集捕获了不同类型的用户行为不当,并且仍然获得了有希望的性能(61%-80%的AUC)。最后,我们在FL培训阶段探索用户设备上的开销,并表明本地培训不会引入过多的CPU利用率和内存消耗开销。
translated by 谷歌翻译
跨不同边缘设备(客户)局部数据的分布不均匀,导致模型训练缓慢,并降低了联合学习的准确性。幼稚的联合学习(FL)策略和大多数替代解决方案试图通过加权跨客户的深度学习模型来实现更多公平。这项工作介绍了在现实世界数据集中遇到的一种新颖的非IID类型,即集群键,其中客户组具有具有相似分布的本地数据,从而导致全局模型收敛到过度拟合的解决方案。为了处理非IID数据,尤其是群集串数据的数据,我们提出了FedDrl,这是一种新型的FL模型,它采用了深厚的强化学习来适应每个客户的影响因素(将用作聚合过程中的权重)。在一组联合数据集上进行了广泛的实验证实,拟议的FEDDR可以根据CIFAR-100数据集的平均平均为FedAvg和FedProx方法提高了有利的改进,例如,高达4.05%和2.17%。
translated by 谷歌翻译
为了满足下一代无线通信网络的极其异构要求,研究界越来越依赖于使用机器学习解决方案进行实时决策和无线电资源管理。传统的机器学习采用完全集中的架构,其中整个培训数据在一个节点上收集,即云服务器,显着提高了通信开销,并提高了严重的隐私问题。迄今为止,最近提出了作为联合学习(FL)称为联合学习的分布式机器学习范式。在FL中,每个参与边缘设备通过使用自己的培训数据列举其本地模型。然后,通过无线信道,本地训练模型的权重或参数被发送到中央ps,聚合它们并更新全局模型。一方面,FL对优化无线通信网络的资源起着重要作用,另一方面,无线通信对于FL至关重要。因此,FL和无线通信之间存在“双向”关系。虽然FL是一个新兴的概念,但许多出版物已经在FL的领域发表了发布及其对下一代无线网络的应用。尽管如此,我们注意到没有任何作品突出了FL和无线通信之间的双向关系。因此,本调查纸的目的是通过提供关于FL和无线通信之间的相互依存性的及时和全面的讨论来弥合文学中的这种差距。
translated by 谷歌翻译
Time series anomaly detection strives to uncover potential abnormal behaviors and patterns from temporal data, and has fundamental significance in diverse application scenarios. Constructing an effective detection model usually requires adequate training data stored in a centralized manner, however, this requirement sometimes could not be satisfied in realistic scenarios. As a prevailing approach to address the above problem, federated learning has demonstrated its power to cooperate with the distributed data available while protecting the privacy of data providers. However, it is still unclear that how existing time series anomaly detection algorithms perform with decentralized data storage and privacy protection through federated learning. To study this, we conduct a federated time series anomaly detection benchmark, named FedTADBench, which involves five representative time series anomaly detection algorithms and four popular federated learning methods. We would like to answer the following questions: (1)How is the performance of time series anomaly detection algorithms when meeting federated learning? (2) Which federated learning method is the most appropriate one for time series anomaly detection? (3) How do federated time series anomaly detection approaches perform on different partitions of data in clients? Numbers of results as well as corresponding analysis are provided from extensive experiments with various settings. The source code of our benchmark is publicly available at https://github.com/fanxingliu2020/FedTADBench.
translated by 谷歌翻译
联合学习是一种数据解散隐私化技术,用于以安全的方式执行机器或深度学习。在本文中,我们介绍了有关联合学习的理论方面客户次数有所不同的用例。具体而言,使用从开放数据存储库中获得的胸部X射线图像提出了医学图像分析的用例。除了与隐私相关的优势外,还将研究预测的改进(就曲线下的准确性和面积而言)和减少执行时间(集中式方法)。将从培训数据中模拟不同的客户,以不平衡的方式选择,即,他们并非都有相同数量的数据。考虑三个或十个客户之间的结果与集中案件相比。间歇性客户将分析两种遵循方法,就像在实际情况下,某些客户可能会离开培训,一些新的新方法可能会进入培训。根据准确性,曲线下的区域和执行时间的结果,结果的结果的演变显示为原始数据被划分的客户次数。最后,提出了该领域的改进和未来工作。
translated by 谷歌翻译
联邦学习对分布式数据利用率和隐私保护表达了极大的潜力。大多数现有的联合学习方法侧重于监督设置,这意味着存储在每个客户端中的所有数据都有标签。但是,在现实世界应用中,客户数据无法完全标记。因此,如何利用未标记的数据应该是联邦学习的新挑战。虽然一些研究正在试图克服这一挑战,但它们可能会遭受信息泄漏或误导性信息使用问题。为了解决这些问题,在本文中,我们提出了一种名为Fedtrinet的新型联合半监督学习方法,该方法由两个学习阶段组成。在第一阶段,我们使用带有FADVG的标记数据预先列教Fedtrinet。在第二阶段,我们的目标是使大部分未标记的数据来帮助模型学习。特别是,我们建议使用三个网络和动态质量控制机制来为未标记数据产生高质量的伪标签,该数据被添加到训练集中。最后,Fedtrinet使用新的训练设置来重新培训模型。在三个公共数据集上的实验结果表明,提出的Fedtrinet在IID和非IID设置下优于最先进的基线。
translated by 谷歌翻译
联合学习是一种新颖的框架,允许多个设备或机构在保留其私有数据时协同地培训机器学习模型。这种分散的方法易于遭受数据统计异质性的后果,无论是在不同的实体还是随着时间的推移,这可能导致缺乏会聚。为避免此类问题,在过去几年中提出了不同的方法。然而,数据可能在许多不同的方式中是异构的,并且当前的建议并不总是确定他们正在考虑的异质性的那种。在这项工作中,我们正式地分类数据统计异质性,并审查能够面对它的最显着的学习策略。与此同时,我们介绍了其他机器学习框架的方法,例如持续学习,也处理数据异质性,并且可以很容易地适应联邦学习设置。
translated by 谷歌翻译