联邦学习对分布式数据利用率和隐私保护表达了极大的潜力。大多数现有的联合学习方法侧重于监督设置,这意味着存储在每个客户端中的所有数据都有标签。但是,在现实世界应用中,客户数据无法完全标记。因此,如何利用未标记的数据应该是联邦学习的新挑战。虽然一些研究正在试图克服这一挑战,但它们可能会遭受信息泄漏或误导性信息使用问题。为了解决这些问题,在本文中,我们提出了一种名为Fedtrinet的新型联合半监督学习方法,该方法由两个学习阶段组成。在第一阶段,我们使用带有FADVG的标记数据预先列教Fedtrinet。在第二阶段,我们的目标是使大部分未标记的数据来帮助模型学习。特别是,我们建议使用三个网络和动态质量控制机制来为未标记数据产生高质量的伪标签,该数据被添加到训练集中。最后,Fedtrinet使用新的训练设置来重新培训模型。在三个公共数据集上的实验结果表明,提出的Fedtrinet在IID和非IID设置下优于最先进的基线。
translated by 谷歌翻译
空中接入网络已被识别为各种事物互联网(物联网)服务和应用程序的重要驾驶员。特别是,以无人机互联网为中心的空中计算网络基础设施已经掀起了自动图像识别的新革命。这种新兴技术依赖于共享地面真理标记的无人机(UAV)群之间的数据,以培训高质量的自动图像识别模型。但是,这种方法将带来数据隐私和数据可用性挑战。为了解决这些问题,我们首先向一个半监督的联邦学习(SSFL)框架提供隐私保留的UAV图像识别。具体而言,我们提出了模型参数混合策略,以改善两个现实场景下的FL和半监督学习方法的天真组合(标签 - 客户端和标签 - 服务器),其被称为联合混合(FEDMIX)。此外,在不同环境中使用不同的相机模块,在不同环境中使用不同的相机模块,在不同的相机模块,即统计异质性,存在显着差异。为了减轻统计异质性问题,我们提出了基于客户参与训练的频率的聚合规则,即FedFReq聚合规则,可以根据其频率调整相应的本地模型的权重。数值结果表明,我们提出的方法的性能明显优于当前基线的性能,并且对不同的非IID等级的客户数据具有强大。
translated by 谷歌翻译
Federated Learning(FL)是一种流行的分散和保护隐私的机器学习(FL)框架,近年来一直受到广泛的研究关注。现有的大多数作品都集中在监督学习(SL)问题上,在这些问题上假定客户在服务器没有数据时携带标签的数据集。但是,在现实的情况下,由于缺乏专业知识和动力,客户通常无法在服务器托管少量标记数据的情况下标记其数据。因此,如何合理地利用服务器标记的数据和客户端的未标记数据至关重要。在本文中,我们提出了一种新的FL算法,称为FEDSEAL,以解决该半监督联邦学习(SSFL)问题。我们的算法利用自我安装的学习和互补的负面学习来提高客户对未标记数据无监督学习的准确性和效率,并在服务器方和客户方面进行了模型培训。我们对SSFL设置中的时尚摄影和CIFAR10数据集的实验结果验证了我们方法的有效性,该方法的效率超过了最先进的SSFL方法。
translated by 谷歌翻译
自从联合学习(FL)被引入具有隐私保护的分散学习技术以来,分布式数据的统计异质性是实现FL应用中实现稳健性能和稳定收敛性的主要障碍。已经研究了模型个性化方法来克服这个问题。但是,现有的方法主要是在完全标记的数据的先决条件下,这在实践中是不现实的,由于需要专业知识。由部分标记的条件引起的主要问题是,标记数据不足的客户可能会遭受不公平的性能增益,因为他们缺乏足够的本地分销见解来自定义全球模型。为了解决这个问题,1)我们提出了一个新型的个性化的半监督学习范式,该范式允许部分标记或未标记的客户寻求与数据相关的客户(助手代理)的标签辅助,从而增强他们对本地数据的认识; 2)基于此范式,我们设计了一个基于不确定性的数据关系度量,以确保选定的帮助者可以提供值得信赖的伪标签,而不是误导当地培训; 3)为了减轻助手搜索引入的网络过载,我们进一步开发了助手选择协议,以实现有效的绩效牺牲的有效沟通。实验表明,与其他具有部分标记数据的相关作品相比,我们提出的方法可以获得卓越的性能和更稳定的收敛性,尤其是在高度异质的环境中。
translated by 谷歌翻译
Federated learning achieves joint training of deep models by connecting decentralized data sources, which can significantly mitigate the risk of privacy leakage. However, in a more general case, the distributions of labels among clients are different, called ``label distribution skew''. Directly applying conventional federated learning without consideration of label distribution skew issue significantly hurts the performance of the global model. To this end, we propose a novel federated learning method, named FedMGD, to alleviate the performance degradation caused by the label distribution skew issue. It introduces a global Generative Adversarial Network to model the global data distribution without access to local datasets, so the global model can be trained using the global information of data distribution without privacy leakage. The experimental results demonstrate that our proposed method significantly outperforms the state-of-the-art on several public benchmarks. Code is available at \url{https://github.com/Sheng-T/FedMGD}.
translated by 谷歌翻译
Federated学习(FL)最近已成为流行的隐私合作学习范式。但是,它遭受了客户之间非独立和相同分布的(非IID)数据的困扰。在本文中,我们提出了一个新颖的框架,称为合成数据辅助联合学习(SDA-FL),以通过共享合成数据来解决这一非IID挑战。具体而言,每个客户端都预测了本地生成对抗网络(GAN)以生成差异化私有合成数据,这些数据被上传到参数服务器(PS)以构建全局共享的合成数据集。为了为合成数据集生成自信的伪标签,我们还提出了PS执行的迭代伪标记机制。本地私人数据集和合成数据集与自信的伪标签的结合可导致客户之间的数据分布几乎相同,从而提高了本地模型之间的一致性并使全球聚合受益。广泛的实验证明,在监督和半监督的设置下,所提出的框架在几个基准数据集中的大幅度优于基线方法。
translated by 谷歌翻译
我们研究了在联合环境中从积极和未标记的(PU)数据中学习的问题,由于资源和时间的限制,每个客户仅标记其数据集的一小部分。与传统的PU学习中的设置不同,负面类是由单个类组成的,而由客户在联合设置中无法识别的否定样本可能来自客户未知的多个类。因此,在这种情况下,几乎无法应用现有的PU学习方法。为了解决这个问题,我们提出了一个新颖的框架,即使用正面和未标记的数据(FEDPU)联合学习,以通过利用其他客户的标记数据来最大程度地降低多个负面类别的预期风险。我们理论上分析了拟议的FedPU的概括结合。经验实验表明,FedPU比常规监督和半监督联盟的学习方法取得更好的性能。
translated by 谷歌翻译
联合学习(FL)根据多个本地客户端协同聚合共享全球模型,同时保持培训数据分散以保护数据隐私。但是,标准的FL方法忽略了嘈杂的客户问题,这可能会损害聚合模型的整体性能。在本文中,我们首先分析了嘈杂的客户声明,然后用不同的噪声分布模型噪声客户端(例如,Bernoulli和截断的高斯分布)。要使用嘈杂的客户,我们提出了一个简单但有效的FL框架,名为联邦嘈杂的客户学习(FED-NCL),它是一个即插即用算法,并包含两个主要组件:动态的数据质量测量(DQM)量化每个参与客户端的数据质量,以及噪声鲁棒聚合(NRA),通过共同考虑本地训练数据和每个客户端的数据质量来自适应地聚合每个客户端的本地模型。我们的FED-NCL可以轻松应用于任何标准的流行流以处理嘈杂的客户端问题。各种数据集的实验结果表明,我们的算法提高了具有嘈杂客户端的不同现实系统的性能。
translated by 谷歌翻译
联邦学习(FL)旨在以隐私的方式从大规模的分散设备中学习联合知识。但是,由于高质量标记的数据需要昂贵的人类智能和努力,因此带有错误标签的数据(称为嘈杂标签)无处不在,实际上不可避免地会导致性能退化。尽管提出了许多直接处理嘈杂标签的方法,但这些方法要么需要过多的计算开销,要么违反FL的隐私保护原则。为此,我们将重点放在FL上,目的是减轻嘈杂标签所产生的性能退化,同时保证数据隐私。具体而言,我们提出了一种局部自我调节方法,该方法通过隐式阻碍模型记忆噪声标签并明确地缩小了使用自我蒸馏之间的原始实例和增强实例之间的模型输出差异,从而有效地规范了局部训练过程。实验结果表明,我们提出的方法可以在三个基准数据集上的各种噪声水平中获得明显的抵抗力。此外,我们将方法与现有的最新方法集成在一起,并在实际数据集服装1M上实现卓越的性能。该代码可在https://github.com/sprinter1999/fedlsr上找到。
translated by 谷歌翻译
一滴联合学习(FL)最近被出现为有希望的方法,允许中央服务器在单个通信中学习模型。尽管通信成本低,但现有的一次性的单次方法大多是不切实际或面临的固有限制,例如,需要公共数据集,客户的型号是同质的,需要上传其他数据/型号信息。为了克服这些问题,我们提出了一种更实用的无数据方法,名为FEDSYN的一枪框架,具有异质性。我们的Fedsyn通过数据生成阶段和模型蒸馏阶段列出全球模型。据我们所知,FEDSYN是由于以下优点,FEDSYN可以实际应用于各种实际应用程序的方法:(1)FEDSYN不需要在客户端之间传输的其他信息(模型参数除外)服务器; (2)FEDSYN不需要任何用于培训的辅助数据集; (3)FEDSYN是第一个考虑FL中的模型和统计异质性,即客户的数据是非IID,不同的客户端可能具有不同的模型架构。关于各种现实世界数据集的实验表明了我们的Fedsyn的优越性。例如,当数据是非IID时,FEDSYN在CIFAR10数据集中优于CEFAR10数据集的最佳基线方法FED-ADI的最佳基准方法。
translated by 谷歌翻译
我们介绍了一个新颖的联合学习框架FedD3,该框架减少了整体沟通量,并开放了联合学习的概念,从而在网络受限的环境中进行了更多的应用程序场景。它通过利用本地数据集蒸馏而不是传统的学习方法(i)大大减少沟通量,并(ii)将转移限制为一击通信,而不是迭代的多路交流来实现这一目标。 FedD3允许连接的客户独立提炼本地数据集,然后汇总那些去中心化的蒸馏数据集(通常以几个无法识别的图像,通常小于模型小于模型),而不是像其他联合学习方法共享模型更新,而是允许连接的客户独立提炼本地数据集。在整个网络上仅一次形成最终模型。我们的实验结果表明,FedD3在所需的沟通量方面显着优于其他联合学习框架,同时,根据使用情况或目标数据集,它为能够在准确性和沟通成本之间的权衡平衡。例如,要在具有10个客户的非IID CIFAR-10数据集上训练Alexnet模型,FedD3可以通过相似的通信量增加准确性超过71%,或者节省98%的通信量,同时达到相同的准确性与其他联合学习方法相比。
translated by 谷歌翻译
在全球范围内,皮肤癌是最致命的疾病之一。每年有数百万人被诊断出患有这种癌症。窗台,早期检测可以大大降低药物成本和死亡率。最近使用深度学习方法的自动癌症分类的改进已经达到了需要在一个位置组装的大量注释数据的人级性能,但发现这种情况通常是不可行的。最近,已经提出联合学习(FL)以隐私保存的方式培训分散模型,具体取决于客户端的标记数据,通常不可用且昂贵。为了解决这个问题,我们提出了一个半监督联合学习方法的Fedperl。我们的方法是通过从教育心理学和委员会机器的平均的同伴学习的启发。 FedPerl基于客户的相似性构建社区。然后它鼓励社区成员彼此学习,以为未标记的数据生成更准确的伪标签。我们还提出了对PEER匿名化(PA)技术来提高隐私。作为我们方法的核心组件,PA与其他方法正交而无需额外复杂性并且在增强性能的同时降低通信成本。最后,我们提出了一种动态的同伴学习策略,可以控制学习流,以避免性能下的任何劣化,特别是对于各个客户端。我们的实验设置由来自5个公共数据集收集的71,000个皮肤病变图像组成。凭借很少的注释数据,Fedperl分别优于最先进的SSFL和基线,分别为1.8%和15.8%。此外,它将更好地概括为一个看不见的客户,同时对噪音不太敏感。
translated by 谷歌翻译
本文介绍了无监督的联合学习框架FEDX。我们的模型从分散和异质的局部数据中学习无偏的表示。它采用对比度学习作为核心组件的双面知识蒸馏,使联合系统可以在不要求客户共享任何数据功能的情况下运行。此外,它的适应性体系结构可以用作联合设置中现有无监督算法的附加模块。实验表明,我们的模型可显着提高五种无监督算法的性能(1.58--5.52pp)。
translated by 谷歌翻译
尽管最近在半监督联合学习(FL)进行医学图像诊断方面取得了进展,但未确定未标记的客户之间的类别分布不平衡的问题仍未解决。在本文中,我们研究了类不平衡的半监督FL(IMFED-SEMI)的实用但具有挑战性的问题,该问题使所有客户端仅具有未标记的数据,而服务器只有少量标记的数据。新型动态银行学习计划解决了这个IMFED-SEMI问题,该计划通过利用班级比例信息来改善客户培训。该方案由两个部分组成,即,为每个本地客户端提取各种类比例的动态银行构建,以及分类分类,以强加本地模型以学习不同的类比例。我们评估了两个公共现实世界中医学数据集的方法,包括25,000 CT切片的颅内出血诊断和10,015个皮肤镜图像的皮肤病变诊断。与第二好的精度以及全面的分析研究相比,我们的方法的有效性已得到了显着改善(7.61%和4.69%)的验证(7.61%和4.69%)。代码可在https://github.com/med-air/imfedsemi上找到。
translated by 谷歌翻译
Recent advancements in deep learning methods bring computer-assistance a step closer to fulfilling promises of safer surgical procedures. However, the generalizability of such methods is often dependent on training on diverse datasets from multiple medical institutions, which is a restrictive requirement considering the sensitive nature of medical data. Recently proposed collaborative learning methods such as Federated Learning (FL) allow for training on remote datasets without the need to explicitly share data. Even so, data annotation still represents a bottleneck, particularly in medicine and surgery where clinical expertise is often required. With these constraints in mind, we propose FedCy, a federated semi-supervised learning (FSSL) method that combines FL and self-supervised learning to exploit a decentralized dataset of both labeled and unlabeled videos, thereby improving performance on the task of surgical phase recognition. By leveraging temporal patterns in the labeled data, FedCy helps guide unsupervised training on unlabeled data towards learning task-specific features for phase recognition. We demonstrate significant performance gains over state-of-the-art FSSL methods on the task of automatic recognition of surgical phases using a newly collected multi-institutional dataset of laparoscopic cholecystectomy videos. Furthermore, we demonstrate that our approach also learns more generalizable features when tested on data from an unseen domain.
translated by 谷歌翻译
Existing federated classification algorithms typically assume the local annotations at every client cover the same set of classes. In this paper, we aim to lift such an assumption and focus on a more general yet practical non-IID setting where every client can work on non-identical and even disjoint sets of classes (i.e., client-exclusive classes), and the clients have a common goal which is to build a global classification model to identify the union of these classes. Such heterogeneity in client class sets poses a new challenge: how to ensure different clients are operating in the same latent space so as to avoid the drift after aggregation? We observe that the classes can be described in natural languages (i.e., class names) and these names are typically safe to share with all parties. Thus, we formulate the classification problem as a matching process between data representations and class representations and break the classification model into a data encoder and a label encoder. We leverage the natural-language class names as the common ground to anchor the class representations in the label encoder. In each iteration, the label encoder updates the class representations and regulates the data representations through matching. We further use the updated class representations at each round to annotate data samples for locally-unaware classes according to similarity and distill knowledge to local models. Extensive experiments on four real-world datasets show that the proposed method can outperform various classical and state-of-the-art federated learning methods designed for learning with non-IID data.
translated by 谷歌翻译
联合学习(FL)是一种新兴技术,用于协作训练全球机器学习模型,同时将数据局限于用户设备。FL实施实施的主要障碍是用户之间的非独立且相同的(非IID)数据分布,这会减慢收敛性和降低性能。为了解决这个基本问题,我们提出了一种方法(comfed),以增强客户端和服务器侧的整个培训过程。舒适的关键思想是同时利用客户端变量减少技术来促进服务器聚合和全局自适应更新技术以加速学习。我们在CIFAR-10分类任务上的实验表明,Comfed可以改善专用于非IID数据的最新算法。
translated by 谷歌翻译
The ubiquity of edge devices has led to a growing amount of unlabeled data produced at the edge. Deep learning models deployed on edge devices are required to learn from these unlabeled data to continuously improve accuracy. Self-supervised representation learning has achieved promising performances using centralized unlabeled data. However, the increasing awareness of privacy protection limits centralizing the distributed unlabeled image data on edge devices. While federated learning has been widely adopted to enable distributed machine learning with privacy preservation, without a data selection method to efficiently select streaming data, the traditional federated learning framework fails to handle these huge amounts of decentralized unlabeled data with limited storage resources on edge. To address these challenges, we propose a Federated on-device Contrastive learning framework with Coreset selection, which we call FedCoCo, to automatically select a coreset that consists of the most representative samples into the replay buffer on each device. It preserves data privacy as each client does not share raw data while learning good visual representations. Experiments demonstrate the effectiveness and significance of the proposed method in visual representation learning.
translated by 谷歌翻译
跨不同边缘设备(客户)局部数据的分布不均匀,导致模型训练缓慢,并降低了联合学习的准确性。幼稚的联合学习(FL)策略和大多数替代解决方案试图通过加权跨客户的深度学习模型来实现更多公平。这项工作介绍了在现实世界数据集中遇到的一种新颖的非IID类型,即集群键,其中客户组具有具有相似分布的本地数据,从而导致全局模型收敛到过度拟合的解决方案。为了处理非IID数据,尤其是群集串数据的数据,我们提出了FedDrl,这是一种新型的FL模型,它采用了深厚的强化学习来适应每个客户的影响因素(将用作聚合过程中的权重)。在一组联合数据集上进行了广泛的实验证实,拟议的FEDDR可以根据CIFAR-100数据集的平均平均为FedAvg和FedProx方法提高了有利的改进,例如,高达4.05%和2.17%。
translated by 谷歌翻译
With the development and progress of science and technology, the Internet of Things(IoT) has gradually entered people's lives, bringing great convenience to our lives and improving people's work efficiency. Specifically, the IoT can replace humans in jobs that they cannot perform. As a new type of IoT vehicle, the current status and trend of research on Unmanned Aerial Vehicle(UAV) is gratifying, and the development prospect is very promising. However, privacy and communication are still very serious issues in drone applications. This is because most drones still use centralized cloud-based data processing, which may lead to leakage of data collected by drones. At the same time, the large amount of data collected by drones may incur greater communication overhead when transferred to the cloud. Federated learning as a means of privacy protection can effectively solve the above two problems. However, federated learning when applied to UAV networks also needs to consider the heterogeneity of data, which is caused by regional differences in UAV regulation. In response, this paper proposes a new algorithm FedBA to optimize the global model and solves the data heterogeneity problem. In addition, we apply the algorithm to some real datasets, and the experimental results show that the algorithm outperforms other algorithms and improves the accuracy of the local model for UAVs.
translated by 谷歌翻译