在实际情况下,较大的全局图的子图可以分布在多个设备或机构之间,并且仅由于隐私限制而在本地访问,尽管它们之间可能存在链接。最近,拟议的子图联合学习(FL)方法涉及跨私人本地子图的那些缺失的链接,而分布式培训图形神经网络(GNN)。但是,他们忽略了子图中的不可避免的异质性,这是由包含全球图的不同部分的子图引起的。例如,一个子图可能属于较大的全局图中的一个社区之一。在这种情况下,天真的子图FL将从训练有异质图分布的本地GNN模型中崩溃不相容的知识。为了克服这样的局限性,我们引入了一个新的子图FL问题,即个性化的子图FL,该子图专注于相互关联的本地GNN模型的联合改进,而不是学习一个单一的全球GNN模型,并提出了一个新颖的框架,并提出了一个新型的框架,并提出了一个联合的个性化次级学习( Fed-pub),以解决它。个性化子图FL中的一个至关重要的挑战是服务器不知道每个客户端具有哪个子图。 Fed-pub因此使用随机图作为输入来计算它们之间的相似性,并使用它们执行对服务器端聚合的加权平均。此外,它在每个客户端学习一个个性化的稀疏掩码,以选择和更新聚合参数的子图相关子集。我们考虑了非重叠和重叠子图的六个数据集中的Fed-Pub在六个数据集上的子图FL性能,我们的基本上要优于相关的基线。
translated by 谷歌翻译
联邦学习已成为不同领域培训机器学习模型的重要范式。对于诸如图形分类的图形级任务,图也可以被视为一种特殊类型的数据样本,可以收集并存储在单独的本地系统中。类似于其他域,多个本地系统,每个域每个保持一小集图,可以受益于协同训练强大的图形挖掘模型,例如流行的图形神经网络(GNN)。为了为这种努力提供更多的动机,我们分析了不同域的实际图形,以确认它们确实共享了与随机图纸相比统计上显着的某些图形属性。但是,我们还发现,即使来自同一个域或相同的数据集,也发现不同的图表是非IID,这对于图形结构和节点特征。为了处理这一点,我们提出了一种基于GNN的梯度的群集联合学习(GCFL)框架的图表集群联合学习(GCFL)框架,并且理论上可以证明这种群集可以减少本地系统所拥有的图形之间的结构和特征异质性。此外,我们观察到GNN的梯度在GCFL中强制波动,从而阻碍了高质量的聚类,并基于动态时间翘曲(GCFL +)设计了一种基于梯度序列的聚类机制。广泛的实验结果和深入分析证明了我们提出的框架的有效性。
translated by 谷歌翻译
With its capability to deal with graph data, which is widely found in practical applications, graph neural networks (GNNs) have attracted significant research attention in recent years. As societies become increasingly concerned with the need for data privacy protection, GNNs face the need to adapt to this new normal. Besides, as clients in Federated Learning (FL) may have relationships, more powerful tools are required to utilize such implicit information to boost performance. This has led to the rapid development of the emerging research field of federated graph neural networks (FedGNNs). This promising interdisciplinary field is highly challenging for interested researchers to grasp. The lack of an insightful survey on this topic further exacerbates the entry difficulty. In this paper, we bridge this gap by offering a comprehensive survey of this emerging field. We propose a 2-dimensional taxonomy of the FedGNNs literature: 1) the main taxonomy provides a clear perspective on the integration of GNNs and FL by analyzing how GNNs enhance FL training as well as how FL assists GNNs training, and 2) the auxiliary taxonomy provides a view on how FedGNNs deal with heterogeneity across FL clients. Through discussions of key ideas, challenges, and limitations of existing works, we envision future research directions that can help build more robust, explainable, efficient, fair, inductive, and comprehensive FedGNNs.
translated by 谷歌翻译
Graph Machine Learning最近在学术界和行业中都引起了人们的关注。大多数图形机器学习模型,例如图形神经网络(GNN),都经过大量的图形数据训练。但是,在许多实际情况下,例如医疗保健系统中的住院预测,图形数据通常存储在多个数据所有者中,并且由于隐私问题和法规限制,任何其他方都无法直接访问。联合图机器学习(FGML)是一种有前途的解决方案,可以通过以联合方式训练图机学习模型来应对这一挑战。在这项调查中,我们对FGML文献进行了全面的综述。具体而言,我们首先提供了一种新的分类法,将FGML中的现有问题分为两个设置,即,\ emph {fl带有结构化数据}和\ emph {结构化的fl}。然后,我们回顾每种环境中的主流技术,并详细介绍它们如何应对FGML下的挑战。此外,我们总结了来自不同域中FGML的现实应用程序,并介绍FGML中采用的开放图数据集和平台。最后,我们在现有研究中提出了一些局限性,并在该领域的研究方向有前途的方向。
translated by 谷歌翻译
由于其独特的现实世界对象及其互动,图表已广泛用于数据挖掘和机器学习。如图所说,如图所说,通常会看到它们的子图分别收集并存储在多个本地系统中。因此,考虑子图联合学习设置是自然的,其中每个本地系统保持一个可以从整个图的分布偏置的小子图。因此,子图联合的学习旨在协同培训强大且更广泛的图形挖掘模型,而无需直接共享其图形数据。在这项工作中,朝着小型但是逼真的子图联合学习设置,我们提出了两种主要技术:(1)联邦品,其基于FedAVG的基于FaItaVG列出的GraphSage模型,以在多个本地子图上集成节点特征,链接结构和任务标签; (2)FEDSAGE +,它沿edsage举办丢失的邻居生成器,以处理跨本地子图的缺失链接。具有合成子图联合学习设置的四个真实图形数据集的经验结果证明了我们所提出的技术的有效性和效率。同时,一致的理论意义是以全局图对的泛化能力。
translated by 谷歌翻译
作为包含结构和特征信息的特殊信息载体,图被广泛用于图挖掘中,例如图形神经网络(GNNS)。但是,在某些实际情况下,图形数据分别存储在多个分布式各方中,由于利益冲突,可能不会直接共享。因此,提出了联合图神经网络来解决此类数据孤岛问题,同时保留各方(或客户)的隐私。然而,各方之间的不同图形数据分布(称为统计异质性)可能会降低诸如fedAvg之类的幼稚联合学习算法的性能。在本文中,我们提出了一个基于自我图形的联合图形学习框架Fedego,以应对上述挑战,每个客户将在此培训其本地模型,同时也为全球模型的培训做出贡献。 Fedego应用图形上的自我图形来充分利用结构信息,并利用混音来实现隐私问题。为了处理统计异质性,我们将个性化整合到学习中,并提出一种自适应混合系数策略,使客户能够实现最佳个性化。广泛的实验结果和深入分析证明了联邦的有效性。
translated by 谷歌翻译
图表卷积神经网络(GCNS)广泛用于图形分析。具体地,在医学应用中,GCNS可用于群体图中的疾病预测,其中曲线图节点代表个体,边缘代表个体相似度。然而,GCNS依赖于大量数据,这是对单一医学机构收集的具有挑战性。此外,大多数医疗机构继续面临的危急挑战是用不完全的数据信息分离地解决疾病预测。为了解决这些问题,联合学习(FL)允许隔离本地机构协作,没有数据共享的全局模型。在这项工作中,我们提出了一个框架FEDNI,通过FL释放网络染色和机构间数据。具体地,我们首先使用图形生成的对冲网络(GaN)联接捕获缺少节点和边缘预测器来完成本地网络的缺失信息。然后我们使用联合图形学习平台跨过机构训练全局GCN节点分类器。新颖的设计使我们能够通过利用联合学习和图表学习方法来构建更准确的机器学习模型。我们证明,我们的联邦模式优于本地和基线流动方法,在两个公共神经影像数据集中具有显着的边缘。
translated by 谷歌翻译
随着对数据隐私和数据量迅速增加的越来越关注,联邦学习(FL)已成为重要的学习范式。但是,在FL环境中共同学习深层神经网络模型被证明是一项非平凡的任务,因为与神经网络相关的复杂性,例如跨客户的各种体系结构,神经元的置换不变性以及非线性的存在每一层的转换。这项工作介绍了一个新颖的联合异质神经网络(FEDHENN)框架,该框架允许每个客户构建个性化模型,而无需在跨客户范围内实施共同的架构。这使每个客户都可以优化本地数据并计算约束,同时仍能从其他(可能更强大)客户端的学习中受益。 Fedhenn的关键思想是使用从同行客户端获得的实例级表示,以指导每个客户的同时培训。广泛的实验结果表明,Fedhenn框架能够在跨客户的同质和异质体系结构的设置中学习更好地表现客户的模型。
translated by 谷歌翻译
联合学习(FL)的令人难以置信的发展使计算机视觉和自然语言处理领域的各种任务受益,而现有的TFF和FATE等现有框架使在现实应用程序中的部署变得容易。但是,即使图形数据很普遍,联合图形学习(FGL)由于其独特的特征和要求而没有得到很好的支持。缺乏与FGL相关的框架增加了完成可再现研究和在现实世界应用中部署的努力。在本文中,我们首先讨论了创建易于使用的FGL软件包的挑战,因此提出了我们实施的FederatedScope-GNN(FS-G)的包裹,该软件包提供了(1)统一的模块化视图并表达FGL算法; (2)用于开箱即用的FGL功能的综合数据和模型; (3)有效的模型自动调整组件; (4)现成的隐私攻击和防御能力。我们通过进行广泛的实验来验证FS-G的有效性,该实验同时获得了许多有关FGL的宝贵见解。此外,我们采用FS-G在现实世界中的电子商务方案中为FGL应用程序提供服务,在该场景中获得的改进表明了巨大的潜在业务利益。我们在https://github.com/alibaba/federatedscope上公开发布FS-G,作为FederatedScope的子模型,以促进FGL的研究,并启用由于缺乏专用包装而无法无视的广泛应用。
translated by 谷歌翻译
在实用的联合学习方案中,参与的设备可能具有不同的位宽,用于按设计进行计算和内存存储。然而,尽管设备异构联合学习方案取得了进展,但硬件中位于位的比值的异质性大多被忽略了。我们介绍了一种务实的FL场景,在参与设备中具有位于刻度的异质性,被称为Bitwidth异质联邦学习(BHFL)。 BHFL提出了一个新的挑战,即具有不同位宽度的模型参数的聚合可能会导致严重的性能变性,尤其是对于高含宽模型。为了解决这个问题,我们提出了ProWD框架,该框架在中央服务器上具有可训练的权重去除剂,该框架逐渐将低位宽度的重量重建为更高的位宽度重量,最后将其重建为完整的重量。 PROWD进一步选择性地汇总了模型参数,以最大程度地提高跨比异质权重的兼容性。我们使用具有不同位低的客户端在基准数据集上的相关FL基准验证了Prowd。我们的prowd在很大程度上优于基线FL算法以及在拟议的BHFL方案下的天真方法(例如,平均分组)。
translated by 谷歌翻译
联邦学习(FL)是一种分布式学习方法,它为医学机构提供了在全球模型中合作的前景,同时保留患者的隐私。尽管大多数医疗中心执行类似的医学成像任务,但它们的差异(例如专业,患者数量和设备)导致了独特的数据分布。数据异质性对FL和本地模型的个性化构成了挑战。在这项工作中,我们研究了FL生产中间半全球模型的一种自适应分层聚类方法,因此具有相似数据分布的客户有机会形成更专业的模型。我们的方法形成了几个群集,这些集群由具有最相似数据分布的客户端组成;然后,每个集群继续分开训练。在集群中,我们使用元学习来改善参与者模型的个性化。我们通过评估我们在HAM10K数据集上的建议方法和极端异质数据分布的HAM10K数据集上的我们提出的方法,将聚类方法与经典的FedAvg和集中式培训进行比较。我们的实验表明,与标准的FL方法相比,分类精度相比,异质分布的性能显着提高。此外,我们表明,如果在群集中应用,则模型会更快地收敛,并且仅使用一小部分数据,却优于集中式培训。
translated by 谷歌翻译
由于其在分布式机器学习中的隐私保护,联邦学习引起了很多研究。然而,联合学习的现有工作主要侧重于卷积神经网络(CNN),其无法有效处理在许多应用中流行的图形数据。图表卷积网络(GCN)已被提出为图表学习最有前途的技术之一,但其联邦设置很少探索。在本文中,我们提出了在多个计算客户端之间的联合图学习的FedRogk,每个Chouble Graph学习,其中每个计算包括子图。 Fed FredGraph通过解决两个独特的挑战来提供强大的图形学习能力。首先,传统的GCN培训需要客户之间的数据共享,导致隐私泄漏的风险。 Fed FedGraph使用新的跨客户端卷积操作来解决此问题。第二个挑战是高GCN训练开销,由大图尺寸发生。我们提出了一种基于深度加强学习的智能图形采样算法,可以自动收敛到平衡训练速度和准确性的最佳采样策略。我们基于Pytorch实现FedFraph,并在测试平台上部署绩效评估。四个流行数据集的实验结果表明,Fed FedGraph通过使更高的准确性更快地融合来显着优于现有的工作。
translated by 谷歌翻译
Learning on Graphs (LoG) is widely used in multi-client systems when each client has insufficient local data, and multiple clients have to share their raw data to learn a model of good quality. One scenario is to recommend items to clients with limited historical data and sharing similar preferences with other clients in a social network. On the other hand, due to the increasing demands for the protection of clients' data privacy, Federated Learning (FL) has been widely adopted: FL requires models to be trained in a multi-client system and restricts sharing of raw data among clients. The underlying potential data-sharing conflict between LoG and FL is under-explored and how to benefit from both sides is a promising problem. In this work, we first formulate the Graph Federated Learning (GFL) problem that unifies LoG and FL in multi-client systems and then propose sharing hidden representation instead of the raw data of neighbors to protect data privacy as a solution. To overcome the biased gradient problem in GFL, we provide a gradient estimation method and its convergence analysis under the non-convex objective. In experiments, we evaluate our method in classification tasks on graphs. Our experiment shows a good match between our theory and the practice.
translated by 谷歌翻译
The mediocre performance of conventional federated learning (FL) over heterogeneous data has been facilitating personalized FL solutions, where, unlike conventional FL which trains a single global consensus model, different models are allowed for different clients. However, in most existing personalized FL algorithms, the collaborative knowledge across the federation was only implicitly passed to the clients in ways such as model aggregation or regularization. We observed that this implicit knowledge transfer fails to maximize the potential value of each client's empirical risk toward other clients. Based on our observation, in this work, we propose Personalized Global Federated Learning (PGFed), a novel personalized FL framework that enables each client to personalize its own global objective by explicitly and adaptively aggregating the empirical risks of itself and other clients. To avoid massive ($O(N^2)$) communication overhead and potential privacy leakage, each client's risk is estimated through a first-order approximation for other clients' adaptive risk aggregation. On top of PGFed, we develop a momentum upgrade, dubbed PGFedMo, to more efficiently utilize clients' empirical risks. Our extensive experiments under different federated settings with benchmark datasets show consistent improvements of PGFed over the compared state-of-the-art alternatives.
translated by 谷歌翻译
跨不同边缘设备(客户)局部数据的分布不均匀,导致模型训练缓慢,并降低了联合学习的准确性。幼稚的联合学习(FL)策略和大多数替代解决方案试图通过加权跨客户的深度学习模型来实现更多公平。这项工作介绍了在现实世界数据集中遇到的一种新颖的非IID类型,即集群键,其中客户组具有具有相似分布的本地数据,从而导致全局模型收敛到过度拟合的解决方案。为了处理非IID数据,尤其是群集串数据的数据,我们提出了FedDrl,这是一种新型的FL模型,它采用了深厚的强化学习来适应每个客户的影响因素(将用作聚合过程中的权重)。在一组联合数据集上进行了广泛的实验证实,拟议的FEDDR可以根据CIFAR-100数据集的平均平均为FedAvg和FedProx方法提高了有利的改进,例如,高达4.05%和2.17%。
translated by 谷歌翻译
联合学习(FL)有助于多个客户共同培训机器学习模型,而无需共享其私人数据。但是,客户的非IID数据给FL带来了艰巨的挑战。现有的个性化方法在很大程度上依赖于将一个完整模型作为基本单元的默认处理方法,而忽略了不同层对客户非IID数据的重要性。在这项工作中,我们提出了一个新的框架,联合模型组成部分自我注意力(FEDMCSA),以处理FL中的非IID数据,该数据采用模型组件自我注意机制来颗粒片促进不同客户之间的合作。这种机制促进了相似模型组件之间的合作,同时减少了差异很大的模型组件之间的干扰。我们进行了广泛的实验,以证明FEDMCSA在四个基准数据集上的表现优于先前的方法。此外,我们从经验上展示了模型组成部分自我发项机制的有效性,该机制与现有的个性化FL互补,可以显着提高FL的性能。
translated by 谷歌翻译
联合学习(FL)使数据所有者能够在不共享其私人数据的情况下训练共享的全球模型。不幸的是,FL容易受到固有的公平问题的影响:由于客户数据分布的异质性,最终训练的模型可以在参与的客户中给予不成比例的优势。在这项工作中,我们提出了平等且公平的联合学习(E2FL),以同时保留两个主要公平属性,公平性和平等,从而产生公平的联合学习模型。我们验证了E2FL在不同现实世界中的应用程序中的效率和公平性,并表明E2FL在所有个人客户中的效率,不同群体的公平性以及公平性方面优于现有基准。
translated by 谷歌翻译
个性化联合学习(FL)是佛罗里达州的一个新兴研究领域,在客户之间存在数据异质性的情况下,可以学习一个易于适应的全球模型。但是,个性化FL的主要挑战之一是,由于客户数据与服务器隔离以确保隐私,因此非常依赖客户的计算资源来计算高阶梯度。为了解决这个问题,我们专注于服务器可以独立于客户数据独立于客户数据的问题设置,这是各种应用程序中普遍的问题设置,但在现有文献中相对尚未探索。具体而言,我们提出了FedSim,这是一种针对个性化FL的新方法,该方法积极利用此类服务​​器数据来改善服务器中的元梯度计算以提高个性化性能。在实验上,我们通过各种基准和消融证明了FEDSIM在准确性方面优于现有方法,通过计算服务器中的完整元梯度,在计算上更有效,并且收敛速度高达34.2%。
translated by 谷歌翻译
高效联合学习是在边缘设备上培训和部署AI模型的关键挑战之一。然而,在联合学习中维护数据隐私提出了几种挑战,包括数据异质性,昂贵的通信成本和有限的资源。在本文中,我们通过(a)通过基于本地客户端的深度增强学习引入突出参数选择代理的上述问题,并在中央服务器上聚合所选择的突出参数,(b)分割正常的深度学习模型〜 (例如,CNNS)作为共享编码器和本地预测器,并通过联合学习训练共享编码器,同时通过本地自定义预测器将其知识传送到非IID客户端。所提出的方法(a)显着降低了联合学习的通信开销,并加速了模型推断,而方法(b)则在联合学习中解决数据异质性问题。此外,我们利用梯度控制机制来校正客户之间的梯度异质性。这使得训练过程更稳定并更快地收敛。实验表明,我们的方法产生了稳定的训练过程,并与最先进的方法相比实现了显着的结果。在培训VGG-11时,我们的方法明显降低了通信成本最高108 GB,并在培训Reset-20时需要7.6美元的通信开销,同时通过减少高达39.7 \%$ 39.7 \%$ vgg- 11.
translated by 谷歌翻译
Graph neural networks (GNNs) have received remarkable success in link prediction (GNNLP) tasks. Existing efforts first predefine the subgraph for the whole dataset and then apply GNNs to encode edge representations by leveraging the neighborhood structure induced by the fixed subgraph. The prominence of GNNLP methods significantly relies on the adhoc subgraph. Since node connectivity in real-world graphs is complex, one shared subgraph is limited for all edges. Thus, the choices of subgraphs should be personalized to different edges. However, performing personalized subgraph selection is nontrivial since the potential selection space grows exponentially to the scale of edges. Besides, the inference edges are not available during training in link prediction scenarios, so the selection process needs to be inductive. To bridge the gap, we introduce a Personalized Subgraph Selector (PS2) as a plug-and-play framework to automatically, personally, and inductively identify optimal subgraphs for different edges when performing GNNLP. PS2 is instantiated as a bi-level optimization problem that can be efficiently solved differently. Coupling GNNLP models with PS2, we suggest a brand-new angle towards GNNLP training: by first identifying the optimal subgraphs for edges; and then focusing on training the inference model by using the sampled subgraphs. Comprehensive experiments endorse the effectiveness of our proposed method across various GNNLP backbones (GCN, GraphSage, NGCF, LightGCN, and SEAL) and diverse benchmarks (Planetoid, OGB, and Recommendation datasets). Our code is publicly available at \url{https://github.com/qiaoyu-tan/PS2}
translated by 谷歌翻译