联合学习(FL)是一个分布式的机器学习范式,可从分散的私人数据集中进行学习模型,在该数据集中将标签工作委托给客户。尽管大多数现有的FL方法都假定用户的设备很容易获得高质量的标签。实际上,标签噪声自然会发生在FL中,并遵循非i.i.d。客户之间的分布。由于非IID的挑战,现有的最先进的集中式方法表现出不令人满意的性能,而先前的FL研究依靠数据交换或重复的服务器端援助来提高模型的性能。在这里,我们提出了Fedln,这是一个框架,可以在不同的FL训练阶段处理标签噪声;即,FL初始化,设备模型培训和服务器模型聚合。具体而言,FedLN在单个联合回合中计算每客户噪声级估计,并通过纠正(或限制)噪声样本的效果来改善模型的性能。与其他现有方法相比,对各种公开视觉和音频数据集的广泛实验平均提高了24%,标签噪声水平为70%。我们进一步验证了FedLN在人类通知的现实世界嘈杂数据集中的效率,并报告了模型的识别率平均增长了9%,这强调了FEDLN对于改善提供给日常用户的FL服务很有用。
translated by 谷歌翻译
联邦学习(FL)旨在以隐私的方式从大规模的分散设备中学习联合知识。但是,由于高质量标记的数据需要昂贵的人类智能和努力,因此带有错误标签的数据(称为嘈杂标签)无处不在,实际上不可避免地会导致性能退化。尽管提出了许多直接处理嘈杂标签的方法,但这些方法要么需要过多的计算开销,要么违反FL的隐私保护原则。为此,我们将重点放在FL上,目的是减轻嘈杂标签所产生的性能退化,同时保证数据隐私。具体而言,我们提出了一种局部自我调节方法,该方法通过隐式阻碍模型记忆噪声标签并明确地缩小了使用自我蒸馏之间的原始实例和增强实例之间的模型输出差异,从而有效地规范了局部训练过程。实验结果表明,我们提出的方法可以在三个基准数据集上的各种噪声水平中获得明显的抵抗力。此外,我们将方法与现有的最新方法集成在一起,并在实际数据集服装1M上实现卓越的性能。该代码可在https://github.com/sprinter1999/fedlsr上找到。
translated by 谷歌翻译
联合学习(FL)根据多个本地客户端协同聚合共享全球模型,同时保持培训数据分散以保护数据隐私。但是,标准的FL方法忽略了嘈杂的客户问题,这可能会损害聚合模型的整体性能。在本文中,我们首先分析了嘈杂的客户声明,然后用不同的噪声分布模型噪声客户端(例如,Bernoulli和截断的高斯分布)。要使用嘈杂的客户,我们提出了一个简单但有效的FL框架,名为联邦嘈杂的客户学习(FED-NCL),它是一个即插即用算法,并包含两个主要组件:动态的数据质量测量(DQM)量化每个参与客户端的数据质量,以及噪声鲁棒聚合(NRA),通过共同考虑本地训练数据和每个客户端的数据质量来自适应地聚合每个客户端的本地模型。我们的FED-NCL可以轻松应用于任何标准的流行流以处理嘈杂的客户端问题。各种数据集的实验结果表明,我们的算法提高了具有嘈杂客户端的不同现实系统的性能。
translated by 谷歌翻译
鲁棒性正成为联合学习的另一个重要挑战,因为每个客户的数据收集过程自然都伴有嘈杂的标签。但是,由于客户的数据异质性和噪音的不同程度,这加剧了客户到客户的性能差异,因此它更加复杂且具有挑战性。在这项工作中,我们提出了一种名为FedRn的强大联合学习方法,该方法利用具有高数据专业知识或相似性的K邻居邻居。我们的方法仅通过一组选定的干净示例训练,通过其结合混合模型确定,有助于减轻低绩效客户端之间的差距。我们通过对三个现实世界或合成基准数据集进行广泛评估来证明FedRN的优势。与现有的强大训练方法相比,结果表明,在嘈杂标签的存在下,联邦烷可显着提高测试准确性。
translated by 谷歌翻译
跨不同边缘设备(客户)局部数据的分布不均匀,导致模型训练缓慢,并降低了联合学习的准确性。幼稚的联合学习(FL)策略和大多数替代解决方案试图通过加权跨客户的深度学习模型来实现更多公平。这项工作介绍了在现实世界数据集中遇到的一种新颖的非IID类型,即集群键,其中客户组具有具有相似分布的本地数据,从而导致全局模型收敛到过度拟合的解决方案。为了处理非IID数据,尤其是群集串数据的数据,我们提出了FedDrl,这是一种新型的FL模型,它采用了深厚的强化学习来适应每个客户的影响因素(将用作聚合过程中的权重)。在一组联合数据集上进行了广泛的实验证实,拟议的FEDDR可以根据CIFAR-100数据集的平均平均为FedAvg和FedProx方法提高了有利的改进,例如,高达4.05%和2.17%。
translated by 谷歌翻译
联合学习(FL)可以对机器学习模型进行分布式培训,同时将个人数据保存在用户设备上。尽管我们目睹了FL在移动传感领域的越来越多的应用,例如人类活动识别(HAR),但在多设备环境(MDE)的背景下,尚未对FL进行研究,其中每个用户都拥有多个数据生产设备。随着移动设备和可穿戴设备的扩散,MDE在Ubicomp设置中越来越受欢迎,因此需要对其中的FL进行研究。 MDE中的FL的特征是在客户和设备异质性的存在中并不复杂,并不是独立的,并且在客户端之间并非独立分布(非IID)。此外,确保在MDE中有效利用佛罗里达州客户的系统资源仍然是一个重要的挑战。在本文中,我们提出了以用户为中心的FL培训方法来应对MDE中的统计和系统异质性,并在设备之间引起推理性能的一致性。火焰功能(i)以用户为中心的FL培训,利用同一用户的设备之间的时间对齐; (ii)准确性和效率感知设备的选择; (iii)对设备的个性化模型。我们还提出了具有现实的能量流量和网络带宽配置文件的FL评估测试,以及一种基于类的新型数据分配方案,以将现有HAR数据集扩展到联合设置。我们在三个多设备HAR数据集上的实验结果表明,火焰的表现优于各种基准,F1得分高4.3-25.8%,能源效率提高1.02-2.86倍,并高达2.06倍的收敛速度,以通过FL的公平分布来获得目标准确性工作量。
translated by 谷歌翻译
自从联合学习(FL)被引入具有隐私保护的分散学习技术以来,分布式数据的统计异质性是实现FL应用中实现稳健性能和稳定收敛性的主要障碍。已经研究了模型个性化方法来克服这个问题。但是,现有的方法主要是在完全标记的数据的先决条件下,这在实践中是不现实的,由于需要专业知识。由部分标记的条件引起的主要问题是,标记数据不足的客户可能会遭受不公平的性能增益,因为他们缺乏足够的本地分销见解来自定义全球模型。为了解决这个问题,1)我们提出了一个新型的个性化的半监督学习范式,该范式允许部分标记或未标记的客户寻求与数据相关的客户(助手代理)的标签辅助,从而增强他们对本地数据的认识; 2)基于此范式,我们设计了一个基于不确定性的数据关系度量,以确保选定的帮助者可以提供值得信赖的伪标签,而不是误导当地培训; 3)为了减轻助手搜索引入的网络过载,我们进一步开发了助手选择协议,以实现有效的绩效牺牲的有效沟通。实验表明,与其他具有部分标记数据的相关作品相比,我们提出的方法可以获得卓越的性能和更稳定的收敛性,尤其是在高度异质的环境中。
translated by 谷歌翻译
空中接入网络已被识别为各种事物互联网(物联网)服务和应用程序的重要驾驶员。特别是,以无人机互联网为中心的空中计算网络基础设施已经掀起了自动图像识别的新革命。这种新兴技术依赖于共享地面真理标记的无人机(UAV)群之间的数据,以培训高质量的自动图像识别模型。但是,这种方法将带来数据隐私和数据可用性挑战。为了解决这些问题,我们首先向一个半监督的联邦学习(SSFL)框架提供隐私保留的UAV图像识别。具体而言,我们提出了模型参数混合策略,以改善两个现实场景下的FL和半监督学习方法的天真组合(标签 - 客户端和标签 - 服务器),其被称为联合混合(FEDMIX)。此外,在不同环境中使用不同的相机模块,在不同环境中使用不同的相机模块,在不同的相机模块,即统计异质性,存在显着差异。为了减轻统计异质性问题,我们提出了基于客户参与训练的频率的聚合规则,即FedFReq聚合规则,可以根据其频率调整相应的本地模型的权重。数值结果表明,我们提出的方法的性能明显优于当前基线的性能,并且对不同的非IID等级的客户数据具有强大。
translated by 谷歌翻译
随着人们的生活水平的增强和通信技术的快速增长,住宅环境变得聪明且连接,从而大大增加了整体能源消耗。由于家用电器是主要的能源消费者,因此他们的认可对于避免无人看管的用途至关重要,从而节省了能源并使智能环境更可持续。传统上,通过从客户(消费者)收集通过智能插头记录的电力消耗数据,在中央服务器(服务提供商)中培训设备识别模型,从而导致隐私漏洞。除此之外,当设备连接到非指定的智能插头时,数据易受嘈杂的标签。在共同解决这些问题的同时,我们提出了一种新型的联合学习方法来识别设备识别,即Fedar+,即使使用错误的培训数据,也可以以隐私的方式跨客户进行分散的模型培训。 Fedar+引入了一种自适应噪声处理方法,本质上是包含权重和标签分布的关节损耗函数,以增强设备识别模型的能力,以抵制嘈杂标签。通过将智能插头部署在公寓大楼中,我们收集了一个标记的数据集,该数据集以及两个现有数据集可用于评估Fedar+的性能。实验结果表明,我们的方法可以有效地处理高达$ 30 \%$的嘈杂标签,同时以较大的准确性优于先前的解决方案。
translated by 谷歌翻译
Federated Learning (FL) enables the training of Deep Learning models without centrally collecting possibly sensitive raw data. This paves the way for stronger privacy guarantees when building predictive models. The most used algorithms for FL are parameter-averaging based schemes (e.g., Federated Averaging) that, however, have well known limits: (i) Clients must implement the same model architecture; (ii) Transmitting model weights and model updates implies high communication cost, which scales up with the number of model parameters; (iii) In presence of non-IID data distributions, parameter-averaging aggregation schemes perform poorly due to client model drifts. Federated adaptations of regular Knowledge Distillation (KD) can solve and/or mitigate the weaknesses of parameter-averaging FL algorithms while possibly introducing other trade-offs. In this article, we provide a review of KD-based algorithms tailored for specific FL issues.
translated by 谷歌翻译
Federated Learning(FL)是一种流行的分散和保护隐私的机器学习(FL)框架,近年来一直受到广泛的研究关注。现有的大多数作品都集中在监督学习(SL)问题上,在这些问题上假定客户在服务器没有数据时携带标签的数据集。但是,在现实的情况下,由于缺乏专业知识和动力,客户通常无法在服务器托管少量标记数据的情况下标记其数据。因此,如何合理地利用服务器标记的数据和客户端的未标记数据至关重要。在本文中,我们提出了一种新的FL算法,称为FEDSEAL,以解决该半监督联邦学习(SSFL)问题。我们的算法利用自我安装的学习和互补的负面学习来提高客户对未标记数据无监督学习的准确性和效率,并在服务器方和客户方面进行了模型培训。我们对SSFL设置中的时尚摄影和CIFAR10数据集的实验结果验证了我们方法的有效性,该方法的效率超过了最先进的SSFL方法。
translated by 谷歌翻译
Decentralized learning with private data is a central problem in machine learning. We propose a novel distillation-based decentralized learning technique that allows multiple agents with private non-iid data to learn from each other, without having to share their data, weights or weight updates. Our approach is communication efficient, utilizes an unlabeled public dataset and uses multiple auxiliary heads for each client, greatly improving training efficiency in the case of heterogeneous data. This approach allows individual models to preserve and enhance performance on their private tasks while also dramatically improving their performance on the global aggregated data distribution. We study the effects of data and model architecture heterogeneity and the impact of the underlying communication graph topology on learning efficiency and show that our agents can significantly improve their performance compared to learning in isolation.
translated by 谷歌翻译
联邦学习(FL)最近由于其在保留隐私而使用分散数据的能力,最近引起了人们的关注。但是,这也提出了与参与设备的异质性有关的其他挑战,无论是在其计算能力和贡献数据方面。同时,神经体系结构搜索(NAS)已成功用于集中式数据集,从而产生了最新的结果,从而获得了受限(硬件意识)和不受约束的设置。但是,即使是在NAS和FL的交集的最新工作,也假定了与数据中心硬件的均匀计算环境,并且无法解决使用受约束,异质设备的问题。结果,在联合环境中对NAS的实际用法仍然是我们在工作中解决的一个空旷的问题。我们设计我们的系统Fedoras,在处理具有非IID分布数据的不同功能的设备时发现和培训有希望的体系结构,并提供了其在不同环境中有效性的经验证据。具体而言,我们在跨越三种不同模式(视觉,语音,文本)的数据集中评估了Fedoras,并且与最先进的联合解决方案相比,其性能更好,同时保持资源效率。
translated by 谷歌翻译
Recent advancements in deep learning methods bring computer-assistance a step closer to fulfilling promises of safer surgical procedures. However, the generalizability of such methods is often dependent on training on diverse datasets from multiple medical institutions, which is a restrictive requirement considering the sensitive nature of medical data. Recently proposed collaborative learning methods such as Federated Learning (FL) allow for training on remote datasets without the need to explicitly share data. Even so, data annotation still represents a bottleneck, particularly in medicine and surgery where clinical expertise is often required. With these constraints in mind, we propose FedCy, a federated semi-supervised learning (FSSL) method that combines FL and self-supervised learning to exploit a decentralized dataset of both labeled and unlabeled videos, thereby improving performance on the task of surgical phase recognition. By leveraging temporal patterns in the labeled data, FedCy helps guide unsupervised training on unlabeled data towards learning task-specific features for phase recognition. We demonstrate significant performance gains over state-of-the-art FSSL methods on the task of automatic recognition of surgical phases using a newly collected multi-institutional dataset of laparoscopic cholecystectomy videos. Furthermore, we demonstrate that our approach also learns more generalizable features when tested on data from an unseen domain.
translated by 谷歌翻译
Federated Learning (FL) allows training machine learning models in privacy-constrained scenarios by enabling the cooperation of edge devices without requiring local data sharing. This approach raises several challenges due to the different statistical distribution of the local datasets and the clients' computational heterogeneity. In particular, the presence of highly non-i.i.d. data severely impairs both the performance of the trained neural network and its convergence rate, increasing the number of communication rounds requested to reach a performance comparable to that of the centralized scenario. As a solution, we propose FedSeq, a novel framework leveraging the sequential training of subgroups of heterogeneous clients, i.e. superclients, to emulate the centralized paradigm in a privacy-compliant way. Given a fixed budget of communication rounds, we show that FedSeq outperforms or match several state-of-the-art federated algorithms in terms of final performance and speed of convergence. Finally, our method can be easily integrated with other approaches available in the literature. Empirical results show that combining existing algorithms with FedSeq further improves its final performance and convergence speed. We test our method on CIFAR-10 and CIFAR-100 and prove its effectiveness in both i.i.d. and non-i.i.d. scenarios.
translated by 谷歌翻译
Continuous behavioural authentication methods add a unique layer of security by allowing individuals to verify their unique identity when accessing a device. Maintaining session authenticity is now feasible by monitoring users' behaviour while interacting with a mobile or Internet of Things (IoT) device, making credential theft and session hijacking ineffective. Such a technique is made possible by integrating the power of artificial intelligence and Machine Learning (ML). Most of the literature focuses on training machine learning for the user by transmitting their data to an external server, subject to private user data exposure to threats. In this paper, we propose a novel Federated Learning (FL) approach that protects the anonymity of user data and maintains the security of his data. We present a warmup approach that provides a significant accuracy increase. In addition, we leverage the transfer learning technique based on feature extraction to boost the models' performance. Our extensive experiments based on four datasets: MNIST, FEMNIST, CIFAR-10 and UMDAA-02-FD, show a significant increase in user authentication accuracy while maintaining user privacy and data security.
translated by 谷歌翻译
联合学习是一种在不违反隐私限制的情况下对分布式数据集进行统计模型培训统计模型的最新方法。通过共享模型而不是客户和服务器之间的数据来保留数据位置原则。这带来了许多优势,但也带来了新的挑战。在本报告中,我们探讨了这个新的研究领域,并执行了几项实验,以加深我们对这些挑战的理解以及不同的问题设置如何影响最终模型的性能。最后,我们为这些挑战之一提供了一种新颖的方法,并将其与文献中的其他方法进行了比较。
translated by 谷歌翻译
联合学习(FL)是一个有希望的策略,用于使用客户端(即边缘设备)的网络进行隐私保留,分布式学习。然而,客户之间的数据分布通常是非IID的,使得有效优化困难。为了缓解这个问题,许多流行算法专注于通过引入各种近似术语,一些产生可观的计算和/或内存开销来减轻客户端跨客户端的影响,以限制关于全局模型的本地更新。相反,我们考虑重新思考的解决方案,以重点关注局部学习一般性而不是近端限制。为此,我们首先提出了一项系统的研究,通过二阶指标通知,更好地了解FL中的算法效果。有趣的是,我们发现标准的正则化方法令人惊讶的是减轻数据异质性效应的强烈表现者。根据我们的调查结果,我们进一步提出了一种简单有效的方法,努力克服数据异质性和先前方法的陷阱。 FedAlign在各种设置中使用最先进的FL方法实现了竞争准确性,同时最大限度地减少计算和内存开销。代码将公开。
translated by 谷歌翻译
联合学习是一种新颖的框架,允许多个设备或机构在保留其私有数据时协同地培训机器学习模型。这种分散的方法易于遭受数据统计异质性的后果,无论是在不同的实体还是随着时间的推移,这可能导致缺乏会聚。为避免此类问题,在过去几年中提出了不同的方法。然而,数据可能在许多不同的方式中是异构的,并且当前的建议并不总是确定他们正在考虑的异质性的那种。在这项工作中,我们正式地分类数据统计异质性,并审查能够面对它的最显着的学习策略。与此同时,我们介绍了其他机器学习框架的方法,例如持续学习,也处理数据异质性,并且可以很容易地适应联邦学习设置。
translated by 谷歌翻译
The heterogeneity of hardware and data is a well-known and studied problem in the community of Federated Learning (FL) as running under heterogeneous settings. Recently, custom-size client models trained with Knowledge Distillation (KD) has emerged as a viable strategy for tackling the heterogeneity challenge. However, previous efforts in this direction are aimed at client model tuning rather than their impact onto the knowledge aggregation of the global model. Despite performance of global models being the primary objective of FL systems, under heterogeneous settings client models have received more attention. Here, we provide more insights into how the chosen approach for training custom client models has an impact on the global model, which is essential for any FL application. We show the global model can fully leverage the strength of KD with heterogeneous data. Driven by empirical observations, we further propose a new approach that combines KD and Learning without Forgetting (LwoF) to produce improved personalised models. We bring heterogeneous FL on pair with the mighty FedAvg of homogeneous FL, in realistic deployment scenarios with dropping clients.
translated by 谷歌翻译