尽管图表神经网络(GNNS)的最近成功,但大图上的培训GNN仍然具有挑战性。现有服务器的有限资源容量,图中节点之间的依赖关系以及由于集中存储和模型学习导致的隐私问题刺激了用于GNN训练的有效分布式算法的需要。然而,现有的分布式GNN训练方法强加过度的通信成本或妨碍其可扩展性的大存储器开销。为了克服这些问题,我们提出了一种名为$ \ text {{locally,正确的全球}} $(llcg)的通信有效的分布式GNN培训技术。为了减少通信和内存开销,LLCG中的每个本地计算机首先通过忽略不同机器之间的节点之间的依赖性在其本地数据上列出GNN,然后将本地训练的模型发送到服务器以获取周期性模型平均。但是,忽略节点依赖性可能导致显着的性能下降。要解决性能下降,我们建议在服务器上应用$ \ text {{{global server校正}} $以优化本地学习的模型。我们严格地分析了具有用于训练GNN的周期性模型的分布式方法的收敛性,并且显示了天真地应用周期模型平均但忽略节点之间的依赖性将受到不可缩小的残余错误。然而,通过利用所提出的全局校正来避免收敛速度,可以消除这种剩余误差。对现实世界数据集的广泛实验表明,LLCG可以显着提高效率而不会伤害性能。
translated by 谷歌翻译
图表卷积网络(GCNS)在各种半监督节点分类任务中取得了令人印象深刻的实证进步。尽管取得了巨大的成功,但在大型图形上培训GCNS遭受了计算和内存问题。规避这些障碍的潜在路径是基于采样的方法,其中在每个层处采样节点的子集。虽然最近的研究已经证明了基于采样的方法的有效性,但这些作品缺乏在现实环境下的理论融合担保,并且不能完全利用优化期间演出参数的信息。在本文中,我们描述并分析了一般的双差异减少模式,可以在内存预算下加速任何采样方法。所提出的模式的激励推动是仔细分析采样方法的差异,其中示出了诱导方差可以在前进传播期间分解为节点嵌入近似方差(Zeroth阶差异)(第一 - 顺序变化)在后向传播期间。理论上,从理论上分析所提出的架构的融合,并显示它享有$ \ Mathcal {O}(1 / T)$收敛率。我们通过将建议的模式集成在不同的采样方法中并将其应用于不同的大型实际图形来补充我们的理论结果。
translated by 谷歌翻译
图形神经网络(GNN)在学习强大的节点表示中显示了令人信服的性能,这些表现在保留节点属性和图形结构信息的强大节点表示中。然而,许多GNNS在设计有更深的网络结构或手柄大小的图形时遇到有效性和效率的问题。已经提出了几种采样算法来改善和加速GNN的培训,但他们忽略了解GNN性能增益的来源。图表数据中的信息的测量可以帮助采样算法来保持高价值信息,同时消除冗余信息甚至噪声。在本文中,我们提出了一种用于GNN的公制引导(MEGUIDE)子图学习框架。 MEGUIDE采用两种新颖的度量:功能平滑和连接失效距离,以指导子图采样和迷你批次的培训。功能平滑度专为分析节点的特征而才能保留最有价值的信息,而连接失败距离可以测量结构信息以控制子图的大小。我们展示了MEGUIDE在多个数据集上培训各种GNN的有效性和效率。
translated by 谷歌翻译
Learning on Graphs (LoG) is widely used in multi-client systems when each client has insufficient local data, and multiple clients have to share their raw data to learn a model of good quality. One scenario is to recommend items to clients with limited historical data and sharing similar preferences with other clients in a social network. On the other hand, due to the increasing demands for the protection of clients' data privacy, Federated Learning (FL) has been widely adopted: FL requires models to be trained in a multi-client system and restricts sharing of raw data among clients. The underlying potential data-sharing conflict between LoG and FL is under-explored and how to benefit from both sides is a promising problem. In this work, we first formulate the Graph Federated Learning (GFL) problem that unifies LoG and FL in multi-client systems and then propose sharing hidden representation instead of the raw data of neighbors to protect data privacy as a solution. To overcome the biased gradient problem in GFL, we provide a gradient estimation method and its convergence analysis under the non-convex objective. In experiments, we evaluate our method in classification tasks on graphs. Our experiment shows a good match between our theory and the practice.
translated by 谷歌翻译
大规模淋巴结分类的图形神经网络(GNNS)培训具有挑战性。关键困难在于在避免邻居爆炸问题的同时获得准确的隐藏节点表示。在这里,我们提出了一种新技术,称为特征动量(FM),该技术在更新功能表示时使用动量步骤来合并历史嵌入。我们开发了两种特定的算法,称为GraphFM-IB和GraphFM-OB,它们分别考虑了内部和隔离外数据。 GraphFM-AIB将FM应用于内部采样数据,而GraphFM-OB则将FM应用于隔离数据的隔离数据,而口气数据是1跳入数据的1个邻域。对于特征嵌入的估计误差,我们为GraphFM-IB和GraphFM-OB的理论见解提供了严格的合并分析。从经验上讲,我们观察到GraphFM-IB可以有效缓解现有方法的邻里爆炸问题。此外,GraphFM-OB在多个大型图形数据集上实现了有希望的性能。
translated by 谷歌翻译
图形神经网络(GNN)已被证明是分析非欧国人图数据的强大工具。但是,缺乏有效的分布图学习(GL)系统极大地阻碍了GNN的应用,尤其是当图形大且GNN相对深时。本文中,我们提出了GraphTheta,这是一种以顶点为中心的图形编程模型实现的新颖分布式和可扩展的GL系统。 GraphTheta是第一个基于分布式图处理的GL系统,其神经网络运算符以用户定义的功能实现。该系统支持多种培训策略,并在分布式(虚拟)机器上启用高度可扩展的大图学习。为了促进图形卷积实现,GraphTheta提出了一个名为NN-Tgar的新的GL抽象,以弥合图形处理和图形深度学习之间的差距。提出了分布式图引擎,以通过混合平行执行进行随机梯度下降优化。此外,除了全球批次和迷你批次外,我们还为新的集群批次培训策略提供了支持。我们使用许多网络大小的数据集评估GraphTheta,范围从小,适度到大规模。实验结果表明,GraphTheta可以很好地扩展到1,024名工人,用于培训内部开发的GNN,该工业尺度的Aripay数据集为14亿个节点和41亿个属性边缘,并带有CPU虚拟机(Dockers)群的小群。 (5 $ \ sim $ 12GB)。此外,GraphTheta比最先进的GNN实现获得了可比或更好的预测结果,证明其学习GNN和现有框架的能力,并且可以超过多达$ 2.02 \ tims $ $ 2.02 \ times $,具有更好的可扩展性。据我们所知,这项工作介绍了文献中最大的边缘属性GNN学习任务。
translated by 谷歌翻译
图形神经网络(GNN)是具有无核数据的应用的有前途的方法。但是,具有数亿节点的大规模图上的培训GNN既是资源又是耗时的。与DNN不同,GNN通常具有更大的内存足迹,因此GPU内存能力和PCIE带宽是GNN培训中的主要资源瓶颈。为了解决此问题,我们提出分叉:一种图形量化方法,通过显着减少内存足迹和PCIE带宽要求来加速GNN训练,以便GNN可以充分利用GPU计算功能。我们的关键见解是,与DNN不同,GNN不太容易发生量化引起的输入特征的信息丢失。我们确定图形特征量化中的主要准确性影响因素,从理论上证明,分叉训练会收敛到网络,在该网络中,损失在未压缩网络的最佳损失的$ \ epsilon $之内。我们使用几种流行的GNN模型和数据集对分叉进行了广泛的评估,包括最大的公共图数据集MAG240M上的图形。结果表明,分叉达到30以上的压缩率,并在边际准确性损失的情况下提高了GNN训练速度200%-320%。特别是,分叉在一小时内仅使用四个GPU在MAG240M上的训练图来实现记录。
translated by 谷歌翻译
我们提出了压缩的垂直联合学习(C-VFL),以在垂直分区的数据上进行沟通效率培训。在C-VFL中,服务器和多方在使用多个本地迭代并定期共享压缩的中间结果的服务器和多方在其各自的功能上进行协作。我们的工作提供了有关效果消息压缩对分布式培训对垂直分区数据的分布培训的首次理论分析。我们以$ O(\ frac {1} {\ sqrt {t}}} $的速率证明非凸目标的收敛性。我们提供了与通用压缩技术(例如量化和顶部$ k $稀疏)的融合的特定要求。最后,我们通过实验表明,压缩可以减少$ 90 \%$的交流,而不会显着降低VFL的准确性而没有压缩。
translated by 谷歌翻译
图形神经网络(GNNS)是一种用于建模图形结构化数据的流行技术,该数据通过来自每个节点的本地邻域的信息聚合来计算节点级表示的结构。然而,该聚合意味着增加敏感信息的风险,因为节点可以参与多个节点的推断。这意味着标准隐私保存机器学习技术,例如差异私有随机梯度下降(DP-SGD) - 这被设计用于每个数据点仅参与推理的一个点的情况 - 要么不适用,或导致不准确解决方案。在这项工作中,我们正式定义了使用节点级别隐私学习1层GNN的问题,并提供具有强大差异隐私保证的算法解决方案。即使每个节点都可以参与多个节点的推断,通过采用仔细的敏感性分析和逐个放大技术的非琐碎扩展,我们的方法能够提供具有实心隐私参数的准确解决方案。标准基准测试的实证评估表明,我们的方法确实能够学习准确的隐私保留GNN,同时仍然优于完全忽略图形信息的标准非私有方法。
translated by 谷歌翻译
由于其独特的现实世界对象及其互动,图表已广泛用于数据挖掘和机器学习。如图所说,如图所说,通常会看到它们的子图分别收集并存储在多个本地系统中。因此,考虑子图联合学习设置是自然的,其中每个本地系统保持一个可以从整个图的分布偏置的小子图。因此,子图联合的学习旨在协同培训强大且更广泛的图形挖掘模型,而无需直接共享其图形数据。在这项工作中,朝着小型但是逼真的子图联合学习设置,我们提出了两种主要技术:(1)联邦品,其基于FedAVG的基于FaItaVG列出的GraphSage模型,以在多个本地子图上集成节点特征,链接结构和任务标签; (2)FEDSAGE +,它沿edsage举办丢失的邻居生成器,以处理跨本地子图的缺失链接。具有合成子图联合学习设置的四个真实图形数据集的经验结果证明了我们所提出的技术的有效性和效率。同时,一致的理论意义是以全局图对的泛化能力。
translated by 谷歌翻译
Federated learning is a distributed framework according to which a model is trained over a set of devices, while keeping data localized. This framework faces several systemsoriented challenges which include (i) communication bottleneck since a large number of devices upload their local updates to a parameter server, and (ii) scalability as the federated network consists of millions of devices. Due to these systems challenges as well as issues related to statistical heterogeneity of data and privacy concerns, designing a provably efficient federated learning method is of significant importance yet it remains challenging. In this paper, we present FedPAQ, a communication-efficient Federated Learning method with Periodic Averaging and Quantization. FedPAQ relies on three key features: (1) periodic averaging where models are updated locally at devices and only periodically averaged at the server; (2) partial device participation where only a fraction of devices participate in each round of the training; and (3) quantized messagepassing where the edge nodes quantize their updates before uploading to the parameter server. These features address the communications and scalability challenges in federated learning. We also show that FedPAQ achieves near-optimal theoretical guarantees for strongly convex and non-convex loss functions and empirically demonstrate the communication-computation tradeoff provided by our method.
translated by 谷歌翻译
Graph neural networks (GNNs) have been demonstrated to be a powerful algorithmic model in broad application fields for their effectiveness in learning over graphs. To scale GNN training up for large-scale and ever-growing graphs, the most promising solution is distributed training which distributes the workload of training across multiple computing nodes. However, the workflows, computational patterns, communication patterns, and optimization techniques of distributed GNN training remain preliminarily understood. In this paper, we provide a comprehensive survey of distributed GNN training by investigating various optimization techniques used in distributed GNN training. First, distributed GNN training is classified into several categories according to their workflows. In addition, their computational patterns and communication patterns, as well as the optimization techniques proposed by recent work are introduced. Second, the software frameworks and hardware platforms of distributed GNN training are also introduced for a deeper understanding. Third, distributed GNN training is compared with distributed training of deep neural networks, emphasizing the uniqueness of distributed GNN training. Finally, interesting issues and opportunities in this field are discussed.
translated by 谷歌翻译
Most distributed machine learning systems nowadays, including TensorFlow and CNTK, are built in a centralized fashion. One bottleneck of centralized algorithms lies on high communication cost on the central node. Motivated by this, we ask, can decentralized algorithms be faster than its centralized counterpart?Although decentralized PSGD (D-PSGD) algorithms have been studied by the control community, existing analysis and theory do not show any advantage over centralized PSGD (C-PSGD) algorithms, simply assuming the application scenario where only the decentralized network is available. In this paper, we study a D-PSGD algorithm and provide the first theoretical analysis that indicates a regime in which decentralized algorithms might outperform centralized algorithms for distributed stochastic gradient descent. This is because D-PSGD has comparable total computational complexities to C-PSGD but requires much less communication cost on the busiest node. We further conduct an empirical study to validate our theoretical analysis across multiple frameworks (CNTK and Torch), different network configurations, and computation platforms up to 112 GPUs. On network configurations with low bandwidth or high latency, D-PSGD can be up to one order of magnitude faster than its well-optimized centralized counterparts.
translated by 谷歌翻译
在实际情况下,较大的全局图的子图可以分布在多个设备或机构之间,并且仅由于隐私限制而在本地访问,尽管它们之间可能存在链接。最近,拟议的子图联合学习(FL)方法涉及跨私人本地子图的那些缺失的链接,而分布式培训图形神经网络(GNN)。但是,他们忽略了子图中的不可避免的异质性,这是由包含全球图的不同部分的子图引起的。例如,一个子图可能属于较大的全局图中的一个社区之一。在这种情况下,天真的子图FL将从训练有异质图分布的本地GNN模型中崩溃不相容的知识。为了克服这样的局限性,我们引入了一个新的子图FL问题,即个性化的子图FL,该子图专注于相互关联的本地GNN模型的联合改进,而不是学习一个单一的全球GNN模型,并提出了一个新颖的框架,并提出了一个新型的框架,并提出了一个联合的个性化次级学习( Fed-pub),以解决它。个性化子图FL中的一个至关重要的挑战是服务器不知道每个客户端具有哪个子图。 Fed-pub因此使用随机图作为输入来计算它们之间的相似性,并使用它们执行对服务器端聚合的加权平均。此外,它在每个客户端学习一个个性化的稀疏掩码,以选择和更新聚合参数的子图相关子集。我们考虑了非重叠和重叠子图的六个数据集中的Fed-Pub在六个数据集上的子图FL性能,我们的基本上要优于相关的基线。
translated by 谷歌翻译
Using graph neural networks for large graphs is challenging since there is no clear way of constructing mini-batches. To solve this, previous methods have relied on sampling or graph clustering. While these approaches often lead to good training convergence, they introduce significant overhead due to expensive random data accesses and perform poorly during inference. In this work we instead focus on model behavior during inference. We theoretically model batch construction via maximizing the influence score of nodes on the outputs. This formulation leads to optimal approximation of the output when we do not have knowledge of the trained model. We call the resulting method influence-based mini-batching (IBMB). IBMB accelerates inference by up to 130x compared to previous methods that reach similar accuracy. Remarkably, with adaptive optimization and the right training schedule IBMB can also substantially accelerate training, thanks to precomputed batches and consecutive memory accesses. This results in up to 18x faster training per epoch and up to 17x faster convergence per runtime compared to previous methods.
translated by 谷歌翻译
图形神经网络(GNNS)将深度神经网络(DNN)的成功扩展到非欧几里德图数据,实现了各种任务的接地性能,例如节点分类和图形属性预测。尽管如此,现有系统效率低,培训数十亿节点和GPU的节点和边缘训练大图。主要瓶颈是准备GPU数据的过程 - 子图采样和特征检索。本文提出了一个分布式GNN培训系统的BGL,旨在解决一些关键思想的瓶颈。首先,我们提出了一种动态缓存引擎,以最小化特征检索流量。通过协同设计缓存政策和抽样顺序,我们发现低开销和高缓存命中率的精美斑点。其次,我们改善了曲线图分区算法,以减少子图采样期间的交叉分区通信。最后,仔细资源隔离减少了不同数据预处理阶段之间的争用。关于各种GNN模型和大图数据集的广泛实验表明,BGL平均明显优于现有的GNN训练系统20.68倍。
translated by 谷歌翻译
Machine Unerning是在收到删除请求时从机器学习(ML)模型中删除某些培训数据的影响的过程。虽然直接而合法,但从划痕中重新训练ML模型会导致高计算开销。为了解决这个问题,在图像和文本数据的域中提出了许多近似算法,其中SISA是最新的解决方案。它将训练集随机分配到多个碎片中,并为每个碎片训练一个组成模型。但是,将SISA直接应用于图形数据可能会严重损害图形结构信息,从而导致的ML模型实用程序。在本文中,我们提出了Grapheraser,这是一种针对图形数据量身定制的新型机器学习框架。它的贡献包括两种新型的图形分区算法和一种基于学习的聚合方法。我们在五个现实世界图数据集上进行了广泛的实验,以说明Grapheraser的学习效率和模型实用程序。它可以实现2.06 $ \ times $(小数据集)至35.94 $ \ times $(大数据集)未学习时间的改进。另一方面,Grapheraser的实现最高62.5美元\%$更高的F1分数,我们提出的基于学习的聚合方法可达到高达$ 112 \%$ $ F1分数。 github.com/minchen00/graph-unlearning}。}。}
translated by 谷歌翻译
可扩展性和隐私是交叉设备联合学习(FL)系统的两个关键问题。在这项工作中,我们确定了FL中的客户端更新的同步流动聚合不能高效地缩放到几百个并行培训之外。它导致ModelPerforce和训练速度的回报递减,Ampanysto大批量培训。另一方面,FL(即异步FL)中的客户端更新的异步聚合减轻了可扩展性问题。但是,聚合个性链子更新与安全聚合不兼容,这可能导致系统的不良隐私水平。为了解决这些问题,我们提出了一种新颖的缓冲异步聚合方法FedBuff,这是不可知的优化器的选择,并结合了同步和异步FL的最佳特性。我们经验证明FEDBuff比同步FL更有效,比异步FL效率更高3.3倍,同时兼容保留保护技术,如安全聚合和差异隐私。我们在平滑的非凸设置中提供理论融合保证。最后,我们显示在差异私有培训下,FedBuff可以在低隐私设置下占FEDAVGM并实现更高隐私设置的相同实用程序。
translated by 谷歌翻译
使用多个计算节点通常可以加速在大型数据集上的深度神经网络。这种方法称为分布式训练,可以通过专门的消息传递协议,例如环形全部减少。但是,以比例运行这些协议需要可靠的高速网络,其仅在专用集群中可用。相比之下,许多现实世界应用程序,例如联合学习和基于云的分布式训练,在具有不稳定的网络带宽的不可靠的设备上运行。因此,这些应用程序仅限于使用参数服务器或基于Gossip的平均协议。在这项工作中,我们通过提出MOSHPIT全部减少的迭代平均协议来提升该限制,该协议指数地收敛于全局平均值。我们展示了我们对具有强烈理论保证的分布式优化方案的效率。该实验显示了与使用抢占从头开始训练的竞争性八卦的策略和1.5倍的加速,显示了1.3倍的Imagenet培训的加速。
translated by 谷歌翻译
数据增强可帮助神经网络通过放大培训集来更好地推广,但它仍然是如何有效增强图数据以增强GNN的性能的开放问题(图形神经网络)。虽然大多数现有图形常规程序专注于通过添加/删除边缘来操纵图形拓扑结构,但我们提供了一种增强节点功能以获得更好性能的方法。我们提出标志(图中的免费大规模对抗动力增强),它在训练期间迭代地增强了基于梯度的对冲扰动的节点特征。通过使模型不变地在输入数据中的小波动中,我们的方法有助于模型推广到分布外的样本,并在测试时间提高模型性能。标志是图形数据的通用方法,它普遍存在节点分类,链路预测和图形分类任务中。标志也是非常灵活和可扩展的,并且可以使用任意GNN骨架和大规模数据集进行可部署。我们通过广泛的实验和消融研究证明了我们方法的功效和稳定性。我们还提供了直观的观察,以更深入地了解我们的方法。
translated by 谷歌翻译