我们研究了在联合环境中从积极和未标记的(PU)数据中学习的问题,由于资源和时间的限制,每个客户仅标记其数据集的一小部分。与传统的PU学习中的设置不同,负面类是由单个类组成的,而由客户在联合设置中无法识别的否定样本可能来自客户未知的多个类。因此,在这种情况下,几乎无法应用现有的PU学习方法。为了解决这个问题,我们提出了一个新颖的框架,即使用正面和未标记的数据(FEDPU)联合学习,以通过利用其他客户的标记数据来最大程度地降低多个负面类别的预期风险。我们理论上分析了拟议的FedPU的概括结合。经验实验表明,FedPU比常规监督和半监督联盟的学习方法取得更好的性能。
translated by 谷歌翻译
自从联合学习(FL)被引入具有隐私保护的分散学习技术以来,分布式数据的统计异质性是实现FL应用中实现稳健性能和稳定收敛性的主要障碍。已经研究了模型个性化方法来克服这个问题。但是,现有的方法主要是在完全标记的数据的先决条件下,这在实践中是不现实的,由于需要专业知识。由部分标记的条件引起的主要问题是,标记数据不足的客户可能会遭受不公平的性能增益,因为他们缺乏足够的本地分销见解来自定义全球模型。为了解决这个问题,1)我们提出了一个新型的个性化的半监督学习范式,该范式允许部分标记或未标记的客户寻求与数据相关的客户(助手代理)的标签辅助,从而增强他们对本地数据的认识; 2)基于此范式,我们设计了一个基于不确定性的数据关系度量,以确保选定的帮助者可以提供值得信赖的伪标签,而不是误导当地培训; 3)为了减轻助手搜索引入的网络过载,我们进一步开发了助手选择协议,以实现有效的绩效牺牲的有效沟通。实验表明,与其他具有部分标记数据的相关作品相比,我们提出的方法可以获得卓越的性能和更稳定的收敛性,尤其是在高度异质的环境中。
translated by 谷歌翻译
空中接入网络已被识别为各种事物互联网(物联网)服务和应用程序的重要驾驶员。特别是,以无人机互联网为中心的空中计算网络基础设施已经掀起了自动图像识别的新革命。这种新兴技术依赖于共享地面真理标记的无人机(UAV)群之间的数据,以培训高质量的自动图像识别模型。但是,这种方法将带来数据隐私和数据可用性挑战。为了解决这些问题,我们首先向一个半监督的联邦学习(SSFL)框架提供隐私保留的UAV图像识别。具体而言,我们提出了模型参数混合策略,以改善两个现实场景下的FL和半监督学习方法的天真组合(标签 - 客户端和标签 - 服务器),其被称为联合混合(FEDMIX)。此外,在不同环境中使用不同的相机模块,在不同环境中使用不同的相机模块,在不同的相机模块,即统计异质性,存在显着差异。为了减轻统计异质性问题,我们提出了基于客户参与训练的频率的聚合规则,即FedFReq聚合规则,可以根据其频率调整相应的本地模型的权重。数值结果表明,我们提出的方法的性能明显优于当前基线的性能,并且对不同的非IID等级的客户数据具有强大。
translated by 谷歌翻译
联邦学习对分布式数据利用率和隐私保护表达了极大的潜力。大多数现有的联合学习方法侧重于监督设置,这意味着存储在每个客户端中的所有数据都有标签。但是,在现实世界应用中,客户数据无法完全标记。因此,如何利用未标记的数据应该是联邦学习的新挑战。虽然一些研究正在试图克服这一挑战,但它们可能会遭受信息泄漏或误导性信息使用问题。为了解决这些问题,在本文中,我们提出了一种名为Fedtrinet的新型联合半监督学习方法,该方法由两个学习阶段组成。在第一阶段,我们使用带有FADVG的标记数据预先列教Fedtrinet。在第二阶段,我们的目标是使大部分未标记的数据来帮助模型学习。特别是,我们建议使用三个网络和动态质量控制机制来为未标记数据产生高质量的伪标签,该数据被添加到训练集中。最后,Fedtrinet使用新的训练设置来重新培训模型。在三个公共数据集上的实验结果表明,提出的Fedtrinet在IID和非IID设置下优于最先进的基线。
translated by 谷歌翻译
Federated learning achieves joint training of deep models by connecting decentralized data sources, which can significantly mitigate the risk of privacy leakage. However, in a more general case, the distributions of labels among clients are different, called ``label distribution skew''. Directly applying conventional federated learning without consideration of label distribution skew issue significantly hurts the performance of the global model. To this end, we propose a novel federated learning method, named FedMGD, to alleviate the performance degradation caused by the label distribution skew issue. It introduces a global Generative Adversarial Network to model the global data distribution without access to local datasets, so the global model can be trained using the global information of data distribution without privacy leakage. The experimental results demonstrate that our proposed method significantly outperforms the state-of-the-art on several public benchmarks. Code is available at \url{https://github.com/Sheng-T/FedMGD}.
translated by 谷歌翻译
Federated Learning(FL)是一种流行的分散和保护隐私的机器学习(FL)框架,近年来一直受到广泛的研究关注。现有的大多数作品都集中在监督学习(SL)问题上,在这些问题上假定客户在服务器没有数据时携带标签的数据集。但是,在现实的情况下,由于缺乏专业知识和动力,客户通常无法在服务器托管少量标记数据的情况下标记其数据。因此,如何合理地利用服务器标记的数据和客户端的未标记数据至关重要。在本文中,我们提出了一种新的FL算法,称为FEDSEAL,以解决该半监督联邦学习(SSFL)问题。我们的算法利用自我安装的学习和互补的负面学习来提高客户对未标记数据无监督学习的准确性和效率,并在服务器方和客户方面进行了模型培训。我们对SSFL设置中的时尚摄影和CIFAR10数据集的实验结果验证了我们方法的有效性,该方法的效率超过了最先进的SSFL方法。
translated by 谷歌翻译
我们介绍了一个新颖的联合学习框架FedD3,该框架减少了整体沟通量,并开放了联合学习的概念,从而在网络受限的环境中进行了更多的应用程序场景。它通过利用本地数据集蒸馏而不是传统的学习方法(i)大大减少沟通量,并(ii)将转移限制为一击通信,而不是迭代的多路交流来实现这一目标。 FedD3允许连接的客户独立提炼本地数据集,然后汇总那些去中心化的蒸馏数据集(通常以几个无法识别的图像,通常小于模型小于模型),而不是像其他联合学习方法共享模型更新,而是允许连接的客户独立提炼本地数据集。在整个网络上仅一次形成最终模型。我们的实验结果表明,FedD3在所需的沟通量方面显着优于其他联合学习框架,同时,根据使用情况或目标数据集,它为能够在准确性和沟通成本之间的权衡平衡。例如,要在具有10个客户的非IID CIFAR-10数据集上训练Alexnet模型,FedD3可以通过相似的通信量增加准确性超过71%,或者节省98%的通信量,同时达到相同的准确性与其他联合学习方法相比。
translated by 谷歌翻译
Existing federated classification algorithms typically assume the local annotations at every client cover the same set of classes. In this paper, we aim to lift such an assumption and focus on a more general yet practical non-IID setting where every client can work on non-identical and even disjoint sets of classes (i.e., client-exclusive classes), and the clients have a common goal which is to build a global classification model to identify the union of these classes. Such heterogeneity in client class sets poses a new challenge: how to ensure different clients are operating in the same latent space so as to avoid the drift after aggregation? We observe that the classes can be described in natural languages (i.e., class names) and these names are typically safe to share with all parties. Thus, we formulate the classification problem as a matching process between data representations and class representations and break the classification model into a data encoder and a label encoder. We leverage the natural-language class names as the common ground to anchor the class representations in the label encoder. In each iteration, the label encoder updates the class representations and regulates the data representations through matching. We further use the updated class representations at each round to annotate data samples for locally-unaware classes according to similarity and distill knowledge to local models. Extensive experiments on four real-world datasets show that the proposed method can outperform various classical and state-of-the-art federated learning methods designed for learning with non-IID data.
translated by 谷歌翻译
联合学习(FL)根据多个本地客户端协同聚合共享全球模型,同时保持培训数据分散以保护数据隐私。但是,标准的FL方法忽略了嘈杂的客户问题,这可能会损害聚合模型的整体性能。在本文中,我们首先分析了嘈杂的客户声明,然后用不同的噪声分布模型噪声客户端(例如,Bernoulli和截断的高斯分布)。要使用嘈杂的客户,我们提出了一个简单但有效的FL框架,名为联邦嘈杂的客户学习(FED-NCL),它是一个即插即用算法,并包含两个主要组件:动态的数据质量测量(DQM)量化每个参与客户端的数据质量,以及噪声鲁棒聚合(NRA),通过共同考虑本地训练数据和每个客户端的数据质量来自适应地聚合每个客户端的本地模型。我们的FED-NCL可以轻松应用于任何标准的流行流以处理嘈杂的客户端问题。各种数据集的实验结果表明,我们的算法提高了具有嘈杂客户端的不同现实系统的性能。
translated by 谷歌翻译
The statistical heterogeneity of the non-independent and identically distributed (non-IID) data in local clients significantly limits the performance of federated learning. Previous attempts like FedProx, SCAFFOLD, MOON, FedNova and FedDyn resort to an optimization perspective, which requires an auxiliary term or re-weights local updates to calibrate the learning bias or the objective inconsistency. However, in addition to previous explorations for improvement in federated averaging, our analysis shows that another critical bottleneck is the poorer optima of client models in more heterogeneous conditions. We thus introduce a data-driven approach called FedSkip to improve the client optima by periodically skipping federated averaging and scattering local models to the cross devices. We provide theoretical analysis of the possible benefit from FedSkip and conduct extensive experiments on a range of datasets to demonstrate that FedSkip achieves much higher accuracy, better aggregation efficiency and competing communication efficiency. Source code is available at: https://github.com/MediaBrain-SJTU/FedSkip.
translated by 谷歌翻译
联合学习(FL)以来已提议已应用于许多领域,例如信用评估,医疗等。由于网络或计算资源的差异,客户端可能不会同时更新其渐变可能需要花费等待或闲置的时间。这就是为什么需要异步联合学习(AFL)方法。AFL中的主要瓶颈是沟通。如何在模型性能和通信成本之间找到平衡是AFL的挑战。本文提出了一种新的AFL框架VAFL。我们通过足够的实验验证了算法的性能。实验表明,VAFL可以通过48.23 \%的平均通信压缩速率降低约51.02 \%的通信时间,并允许模型更快地收敛。代码可用于\ url {https://github.com/robai-lab/vafl}
translated by 谷歌翻译
由于参与客户的异构特征,联邦学习往往受到不稳定和缓慢的收敛。当客户参与比率低时,这种趋势加剧了,因为从每个轮的客户收集的信息容易更加不一致。为了解决挑战,我们提出了一种新的联合学习框架,这提高了服务器端聚合步骤的稳定性,这是通过将客户端发送与全局梯度估计的加速模型来引导本地梯度更新来实现的。我们的算法自然地聚合并将全局更新信息与没有额外的通信成本的参与者传达,并且不需要将过去的模型存储在客户端中。我们还规范了本地更新,以进一步降低偏差并提高本地更新的稳定性。我们根据各种设置执行了关于实际数据的全面实证研究,与最先进的方法相比,在准确性和通信效率方面表现出了拟议方法的显着性能,特别是具有低客户参与率。我们的代码可在https://github.com/ninigapa0 / fedagm获得
translated by 谷歌翻译
联合学习(FL)使分布式客户端能够学习共享模型以进行预测,同时保留每个客户端的培训数据本地。然而,现有的FL需要完全标记的培训数据,这是由于高标签成本和专业要求的要求而不方便或有时不可行。在许多现实设置中,缺乏标签会使流行不切实际。自我监督学习可以通过从未标记的数据学习来解决这一挑战,从而可以广泛使用FL。对比学习(CL)是一种自我监督的学习方法,可以有效地学习来自未标记数据的数据表示。然而,Clipers上收集的分布式数据通常在客户端之间通常不是独立和相同分布(非IID),并且每个客户端只有很少的数据类,这会降低CL和学习的表示的性能。为了解决这个问题,我们提出了由两种方法组成的联邦对比学习框架:特征融合和邻居匹配,通过该邻居匹配,以便获得更好的数据表示来实现客户端之间的统一特征空间。特征融合提供远程功能,作为每个客户端的准确对比信息,以获得更好的本地学习。邻域匹配进一步将每个客户端的本地功能对齐至远程功能,从而可以了解客户端之间的群集功能。广泛的实验表明了拟议框架的有效性。它在IID数据上以11 \%的方式表达了其他方法,并匹配集中学习的性能。
translated by 谷歌翻译
联合学习通过与大量参与者启用学习统计模型的同时将其数据保留在本地客户中,从而提供了沟通效率和隐私的培训过程。但是,将平均损失函数天真地最小化的标准联合学习技术容易受到来自异常值,系统错误标签甚至对手的数据损坏。此外,由于对用户数据隐私的关注,服务提供商通常会禁止使用数据样本的质量。在本文中,我们通过提出自动加权的强大联合学习(ARFL)来应对这一挑战,这是一种新颖的方法,可以共同学习全球模型和本地更新的权重,以提供针对损坏的数据源的鲁棒性。我们证明了关于预测因素和客户权重的预期风险的学习,这指导着强大的联合学习目标的定义。通过将客户的经验损失与最佳P客户的平均损失进行比较,可以分配权重,因此我们可以减少损失较高的客户,从而降低对全球模型的贡献。我们表明,当损坏的客户的数据与良性不同时,这种方法可以实现鲁棒性。为了优化目标函数,我们根据基于块最小化范式提出了一种通信效率算法。我们考虑了不同的深层神经网络模型,在包括CIFAR-10,女权主义者和莎士比亚在内的多个基准数据集上进行实验。结果表明,我们的解决方案在不同的情况下具有鲁棒性,包括标签改组,标签翻转和嘈杂的功能,并且在大多数情况下都优于最先进的方法。
translated by 谷歌翻译
传统的联邦优化方法的性能较差(即降低准确性),尤其是对于高度偏斜的数据。在本文中,我们调查了佛罗里达州的标签分布偏斜,在那里标签的分布各不相同。首先,我们从统计视图研究了标签分布偏斜。我们在理论上和经验上都证明了基于软马克斯跨凝结的先前方法不合适,这可能会导致本地模型非常适合少数群体和缺失的类别。此外,我们从理论上引入了一个偏离,以测量本地更新后梯度的偏差。最后,我们建议通过\ textbf {l} ogits \ textbf {c}启动)FedLc(\ textbf {fed {fed}学习,该学习根据每个类别的出现可能性。 FedLC通过添加成对标签的边距将细粒度校准的跨透镜损失应用于本地更新。联合数据集和现实世界数据集的广泛实验表明,联邦快递会导致更准确的全球模型和大大改善的性能。此外,将其他FL方法集成到我们的方法中可以进一步增强全球模型的性能。
translated by 谷歌翻译
将知识蒸馏应用于个性化的跨筒仓联合学习,可以很好地减轻用户异质性的问题。然而,这种方法需要一个代理数据集,这很难在现实世界中获得。此外,基于参数平均的全球模型将导致用户隐私的泄漏。我们介绍了一个分布式的三位玩家GaN来实现客户之间的DataFree共蒸馏。该技术减轻了用户异质性问题,更好地保护用户隐私。我们证实,GaN产生的方法可以使联合蒸馏更有效和稳健,并且在获得全球知识的基础上,共蒸馏可以为各个客户达到良好的性能。我们对基准数据集的广泛实验证明了与最先进的方法的卓越的泛化性能。
translated by 谷歌翻译
在全球范围内,皮肤癌是最致命的疾病之一。每年有数百万人被诊断出患有这种癌症。窗台,早期检测可以大大降低药物成本和死亡率。最近使用深度学习方法的自动癌症分类的改进已经达到了需要在一个位置组装的大量注释数据的人级性能,但发现这种情况通常是不可行的。最近,已经提出联合学习(FL)以隐私保存的方式培训分散模型,具体取决于客户端的标记数据,通常不可用且昂贵。为了解决这个问题,我们提出了一个半监督联合学习方法的Fedperl。我们的方法是通过从教育心理学和委员会机器的平均的同伴学习的启发。 FedPerl基于客户的相似性构建社区。然后它鼓励社区成员彼此学习,以为未标记的数据生成更准确的伪标签。我们还提出了对PEER匿名化(PA)技术来提高隐私。作为我们方法的核心组件,PA与其他方法正交而无需额外复杂性并且在增强性能的同时降低通信成本。最后,我们提出了一种动态的同伴学习策略,可以控制学习流,以避免性能下的任何劣化,特别是对于各个客户端。我们的实验设置由来自5个公共数据集收集的71,000个皮肤病变图像组成。凭借很少的注释数据,Fedperl分别优于最先进的SSFL和基线,分别为1.8%和15.8%。此外,它将更好地概括为一个看不见的客户,同时对噪音不太敏感。
translated by 谷歌翻译
Federated学习(FL)最近已成为流行的隐私合作学习范式。但是,它遭受了客户之间非独立和相同分布的(非IID)数据的困扰。在本文中,我们提出了一个新颖的框架,称为合成数据辅助联合学习(SDA-FL),以通过共享合成数据来解决这一非IID挑战。具体而言,每个客户端都预测了本地生成对抗网络(GAN)以生成差异化私有合成数据,这些数据被上传到参数服务器(PS)以构建全局共享的合成数据集。为了为合成数据集生成自信的伪标签,我们还提出了PS执行的迭代伪标记机制。本地私人数据集和合成数据集与自信的伪标签的结合可导致客户之间的数据分布几乎相同,从而提高了本地模型之间的一致性并使全球聚合受益。广泛的实验证明,在监督和半监督的设置下,所提出的框架在几个基准数据集中的大幅度优于基线方法。
translated by 谷歌翻译
事实证明,生成的对抗网络是学习复杂且高维数据分布的强大工具,但是已证明诸如模式崩溃之类的问题使他们难以训练它们。当数据分散到联合学习设置中的几个客户端时,这是一个更困难的问题,因为诸如客户端漂移和非IID数据之类的问题使联盟的平均平均值很难收敛。在这项工作中,我们研究了如何在培训数据分散到客户上时如何学习数据分布的任务,无法共享。我们的目标是从集中进行此分配中进行采样,而数据永远不会离开客户。我们使用标准基准图像数据集显示,现有方法在这种设置中失败,当局部时期的局部数量变大时,会经历所谓的客户漂移。因此,我们提出了一种新型的方法,我们称为Effgan:微调联合gans的合奏。作为本地专家发电机的合奏,Effgan能够学习所有客户端的数据分布并减轻客户漂移。它能够用大量的本地时代进行训练,从而使其比以前的作品更有效。
translated by 谷歌翻译
联合学习通常用于容易获得标签的任务(例如,下一个单词预测)。放松这种约束需要设计无监督的学习技术,该技术可以支持联合培训的理想特性:稳健性对统计/系统异质性,可伸缩性与参与者数量以及沟通效率。关于该主题的先前工作集中在直接扩展集中式的自我监督学习技术上,这些学习技术并非旨在具有上面列出的属性。为了解决这种情况,我们提出了乐团,这是一种新颖的无监督联盟学习技术,利用联邦的层次结构来协调分布式的聚类任务,并将客户数据对客户数据的全球始终划分为可区分的群集。我们显示了管弦乐队中的算法管道可确保在线性探针下良好的概括性能,从而使其在广泛的条件下胜过替代技术,包括异质性,客户次数,参与率和本地时期的变化。
translated by 谷歌翻译