图形神经网络(GNNS)是一种用于建模图形结构化数据的流行技术,该数据通过来自每个节点的本地邻域的信息聚合来计算节点级表示的结构。然而,该聚合意味着增加敏感信息的风险,因为节点可以参与多个节点的推断。这意味着标准隐私保存机器学习技术,例如差异私有随机梯度下降(DP-SGD) - 这被设计用于每个数据点仅参与推理的一个点的情况 - 要么不适用,或导致不准确解决方案。在这项工作中,我们正式定义了使用节点级别隐私学习1层GNN的问题,并提供具有强大差异隐私保证的算法解决方案。即使每个节点都可以参与多个节点的推断,通过采用仔细的敏感性分析和逐个放大技术的非琐碎扩展,我们的方法能够提供具有实心隐私参数的准确解决方案。标准基准测试的实证评估表明,我们的方法确实能够学习准确的隐私保留GNN,同时仍然优于完全忽略图形信息的标准非私有方法。
translated by 谷歌翻译
在本文中,我们研究了具有差异隐私(DP)的学习图神经网络(GNN)的问题。我们提出了一种基于聚合扰动(GAP)的新型差异私有GNN,该GNN为GNN的聚合函数添加了随机噪声,以使单个边缘(边缘级隐私)或单个节点的存在统计上的存在及其所有邻接边缘( - 级别的隐私)。 GAP的新体系结构是根据私人学习的细节量身定制的,由三个单独的模块组成:(i)编码器模块,我们在不依赖边缘信息的情况下学习私人节点嵌入; (ii)聚合模块,其中我们根据图结构计算嘈杂的聚合节点嵌入; (iii)分类模块,我们在私有聚合上训练神经网络进行节点分类,而无需进一步查询图表。 GAP比以前的方法的主要优势在于,它可以从多跳社区的聚合中受益,并保证边缘级别和节点级别的DP不仅用于培训,而且可以推断出培训的隐私预算以外的额外费用。我们使用R \'Enyi DP来分析GAP的正式隐私保证,并在三个真实世界图数据集上进行经验实验。我们证明,与最先进的DP-GNN方法和天真的MLP基线相比,GAP提供了明显更好的准确性私人权衡权衡。
translated by 谷歌翻译
Deep learning models are known to put the privacy of their training data at risk, which poses challenges for their safe and ethical release to the public. Differentially private stochastic gradient descent is the de facto standard for training neural networks without leaking sensitive information about the training data. However, applying it to models for graph-structured data poses a novel challenge: unlike with i.i.d. data, sensitive information about a node in a graph cannot only leak through its gradients, but also through the gradients of all nodes within a larger neighborhood. In practice, this limits privacy-preserving deep learning on graphs to very shallow graph neural networks. We propose to solve this issue by training graph neural networks on disjoint subgraphs of a given training graph. We develop three random-walk-based methods for generating such disjoint subgraphs and perform a careful analysis of the data-generating distributions to provide strong privacy guarantees. Through extensive experiments, we show that our method greatly outperforms the state-of-the-art baseline on three large graphs, and matches or outperforms it on four smaller ones.
translated by 谷歌翻译
标记为图形结构数据的分类任务具有许多重要的应用程序,从社交建议到财务建模。深度神经网络越来越多地用于图形上的节点分类,其中具有相似特征的节点必须给出相同的标签。图形卷积网络(GCN)是如此广泛研究的神经网络体系结构,在此任务上表现良好。但是,对GCN的强大链接攻击攻击最近表明,即使对训练有素的模型进行黑框访问,培训图中也存在哪些链接(或边缘)。在本文中,我们提出了一种名为LPGNET的新神经网络体系结构,用于对具有隐私敏感边缘的图形进行培训。 LPGNET使用新颖的设计为训练过程中的图形结构提供了新颖的设计,为边缘提供了差异隐私(DP)保证。我们从经验上表明,LPGNET模型通常位于提供隐私和效用之间的最佳位置:它们比使用不使用边缘信息的“琐碎”私人体系结构(例如,香草MLP)和针对现有的链接策略攻击更好的弹性可以提供更好的实用性。使用完整边缘结构的香草GCN。 LPGNET还与DPGCN相比,LPGNET始终提供更好的隐私性权衡,这是我们大多数评估的数据集中将差异隐私改造为常规GCN的最新机制。
translated by 谷歌翻译
图形结构化数据在实践中无处不在,并且经常使用图神经网络(GNN)处理。随着最近的法律确保``被遗忘的权利''的法律,删除图数据的问题已变得非常重要。为了解决该问题,我们介绍了GNNS的\ emph {认证图形}的第一个已知框架。与标准机器学习相反,在处理复杂的图形数据时,出现了新的分析和启发式学位挑战。首先,需要考虑三种不同类型的未学习请求,包括节点功能,边缘和节点学习。其次,为了建立可证明的绩效保证,需要解决与传播过程中功能混合相关的挑战。简单的图卷积(SGC)及其广泛的Pagerank(GPR)扩展的示例说明了基本分析,从而为GNN的认证未学习奠定了理论基础。我们对六个基准数据集的实证研究表明,与不利用图形信息的完整再培训方法和方法相比,相比之下,表现出色的性能复杂性权衡。例如,当在CORA数据集上学习$ 20 \%$的节点时,我们的方法仅遭受$ 0.1 \%$ $的测试准确性损失,而与完整的再培训相比,提供了$ 4 $倍的加速。我们的方案还胜过未利用图形信息的学习方法,其测试准确性提高了$ 12 \%$,以相当的时间复杂性。
translated by 谷歌翻译
我们考虑使用迷你批量梯度进行差异隐私(DP)的培训模型。现有的最先进的差异私有随机梯度下降(DP-SGD)需要通过采样或洗机来获得最佳隐私/准确性/计算权衡的隐私放大。不幸的是,在重要的实际情况下,精确采样和洗牌的精确要求可能很难获得,特别是联邦学习(FL)。我们设计和分析跟随 - 正规的领导者(DP-FTRL)的DP变体,其比较(理论上和经验地)与放大的DP-SGD相比,同时允许更灵活的数据访问模式。DP-FTRL不使用任何形式的隐私放大。该代码可在https://github.com/google-Research/federated/tree/master/dp_ftrl和https://github.com/google-reesearch/dp-ftrl处获得。
translated by 谷歌翻译
我们研究了差异私有线性回归的问题,其中每个数据点都是从固定的下高斯样式分布中采样的。我们提出和分析了一个单次迷你批次随机梯度下降法(DP-AMBSSGD),其中每次迭代中的点都在没有替换的情况下进行采样。为DP添加了噪声,但噪声标准偏差是在线估计的。与现有$(\ epsilon,\ delta)$ - 具有子最佳错误界限的DP技术相比,DP-AMBSSGD能够在关键参数(如多维参数)(如多维参数)等方面提供几乎最佳的错误范围$,以及观测值的噪声的标准偏差$ \ sigma $。例如,当对$ d $二维的协变量进行采样时。从正常分布中,然后由于隐私而引起的DP-AMBSSGD的多余误差为$ \ frac {\ sigma^2 d} {n} {n}(1+ \ frac {d} {\ epsilon^2 n})$,即当样本数量$ n = \ omega(d \ log d)$,这是线性回归的标准操作制度时,错误是有意义的。相比之下,在此设置中现有有效方法的错误范围为:$ \ mathcal {o} \ big(\ frac {d^3} {\ epsilon^2 n^2} \ big)$,即使是$ \ sigma = 0 $。也就是说,对于常量的$ \ epsilon $,现有技术需要$ n = \ omega(d \ sqrt {d})$才能提供非平凡的结果。
translated by 谷歌翻译
图形神经网络(GNN)在学习强大的节点表示中显示了令人信服的性能,这些表现在保留节点属性和图形结构信息的强大节点表示中。然而,许多GNNS在设计有更深的网络结构或手柄大小的图形时遇到有效性和效率的问题。已经提出了几种采样算法来改善和加速GNN的培训,但他们忽略了解GNN性能增益的来源。图表数据中的信息的测量可以帮助采样算法来保持高价值信息,同时消除冗余信息甚至噪声。在本文中,我们提出了一种用于GNN的公制引导(MEGUIDE)子图学习框架。 MEGUIDE采用两种新颖的度量:功能平滑和连接失效距离,以指导子图采样和迷你批次的培训。功能平滑度专为分析节点的特征而才能保留最有价值的信息,而连接失败距离可以测量结构信息以控制子图的大小。我们展示了MEGUIDE在多个数据集上培训各种GNN的有效性和效率。
translated by 谷歌翻译
尽管图形神经网络(GNNS)的巨大成功应用,但对其泛化能力的理论认识,特别是对于数据不是独立且相同分布的节点级任务(IID),稀疏。概括性绩效的理论调查有利于了解GNN模型的基本问题(如公平性)和设计更好的学习方法。在本文中,我们在非IID半监督学习设置下为GNN提供了一种新的PAC-Bayesian分析。此外,我们分析了未标记节点的不同子组上的泛化性能,这使我们能够通过理论观点进一步研究GNN的准确性 - (DIS)奇偶校准风格(UN)公平。在合理的假设下,我们证明了测试子组和训练集之间的距离可以是影响该子组上GNN性能的关键因素,这调用了对公平学习的培训节点选择。多个GNN模型和数据集的实验支持我们的理论结果。
translated by 谷歌翻译
消息传递神经网络(MPNNS)是由于其简单性和可扩展性而大部分地进行图形结构数据的深度学习的领先架构。不幸的是,有人认为这些架构的表现力有限。本文提出了一种名为Comifariant Subgraph聚合网络(ESAN)的新颖框架来解决这个问题。我们的主要观察是,虽然两个图可能无法通过MPNN可区分,但它们通常包含可区分的子图。因此,我们建议将每个图形作为由某些预定义策略导出的一组子图,并使用合适的等分性架构来处理它。我们为图同构同构同构造的1立维Weisfeiler-Leman(1-WL)测试的新型变体,并在这些新的WL变体方面证明了ESAN的表达性下限。我们进一步证明,我们的方法增加了MPNNS和更具表现力的架构的表现力。此外,我们提供了理论结果,描述了设计选择诸如子图选择政策和等效性神经结构的设计方式如何影响我们的架构的表现力。要处理增加的计算成本,我们提出了一种子图采样方案,可以将其视为我们框架的随机版本。关于真实和合成数据集的一套全面的实验表明,我们的框架提高了流行的GNN架构的表现力和整体性能。
translated by 谷歌翻译
Learning on Graphs (LoG) is widely used in multi-client systems when each client has insufficient local data, and multiple clients have to share their raw data to learn a model of good quality. One scenario is to recommend items to clients with limited historical data and sharing similar preferences with other clients in a social network. On the other hand, due to the increasing demands for the protection of clients' data privacy, Federated Learning (FL) has been widely adopted: FL requires models to be trained in a multi-client system and restricts sharing of raw data among clients. The underlying potential data-sharing conflict between LoG and FL is under-explored and how to benefit from both sides is a promising problem. In this work, we first formulate the Graph Federated Learning (GFL) problem that unifies LoG and FL in multi-client systems and then propose sharing hidden representation instead of the raw data of neighbors to protect data privacy as a solution. To overcome the biased gradient problem in GFL, we provide a gradient estimation method and its convergence analysis under the non-convex objective. In experiments, we evaluate our method in classification tasks on graphs. Our experiment shows a good match between our theory and the practice.
translated by 谷歌翻译
Privacy noise may negate the benefits of using adaptive optimizers in differentially private model training. Prior works typically address this issue by using auxiliary information (e.g., public data) to boost the effectiveness of adaptive optimization. In this work, we explore techniques to estimate and efficiently adapt to gradient geometry in private adaptive optimization without auxiliary data. Motivated by the observation that adaptive methods can tolerate stale preconditioners, we propose differentially private adaptive training with delayed preconditioners (DP^2), a simple method that constructs delayed but less noisy preconditioners to better realize the benefits of adaptivity. Theoretically, we provide convergence guarantees for our method for both convex and non-convex problems, and analyze trade-offs between delay and privacy noise reduction. Empirically, we explore DP^2 across several real-world datasets, demonstrating that it can improve convergence speed by as much as 4x relative to non-adaptive baselines and match the performance of state-of-the-art optimization methods that require auxiliary data.
translated by 谷歌翻译
As the demand for user privacy grows, controlled data removal (machine unlearning) is becoming an important feature of machine learning models for data-sensitive Web applications such as social networks and recommender systems. Nevertheless, at this point it is still largely unknown how to perform efficient machine unlearning of graph neural networks (GNNs); this is especially the case when the number of training samples is small, in which case unlearning can seriously compromise the performance of the model. To address this issue, we initiate the study of unlearning the Graph Scattering Transform (GST), a mathematical framework that is efficient, provably stable under feature or graph topology perturbations, and offers graph classification performance comparable to that of GNNs. Our main contribution is the first known nonlinear approximate graph unlearning method based on GSTs. Our second contribution is a theoretical analysis of the computational complexity of the proposed unlearning mechanism, which is hard to replicate for deep neural networks. Our third contribution are extensive simulation results which show that, compared to complete retraining of GNNs after each removal request, the new GST-based approach offers, on average, a $10.38$x speed-up and leads to a $2.6$% increase in test accuracy during unlearning of $90$ out of $100$ training graphs from the IMDB dataset ($10$% training ratio).
translated by 谷歌翻译
尽管图表神经网络(GNNS)的最近成功,但大图上的培训GNN仍然具有挑战性。现有服务器的有限资源容量,图中节点之间的依赖关系以及由于集中存储和模型学习导致的隐私问题刺激了用于GNN训练的有效分布式算法的需要。然而,现有的分布式GNN训练方法强加过度的通信成本或妨碍其可扩展性的大存储器开销。为了克服这些问题,我们提出了一种名为$ \ text {{locally,正确的全球}} $(llcg)的通信有效的分布式GNN培训技术。为了减少通信和内存开销,LLCG中的每个本地计算机首先通过忽略不同机器之间的节点之间的依赖性在其本地数据上列出GNN,然后将本地训练的模型发送到服务器以获取周期性模型平均。但是,忽略节点依赖性可能导致显着的性能下降。要解决性能下降,我们建议在服务器上应用$ \ text {{{global server校正}} $以优化本地学习的模型。我们严格地分析了具有用于训练GNN的周期性模型的分布式方法的收敛性,并且显示了天真地应用周期模型平均但忽略节点之间的依赖性将受到不可缩小的残余错误。然而,通过利用所提出的全局校正来避免收敛速度,可以消除这种剩余误差。对现实世界数据集的广泛实验表明,LLCG可以显着提高效率而不会伤害性能。
translated by 谷歌翻译
这项工作提供了有关图消息传递神经网络(GMPNNS)(例如图形神经网络(GNNS))的第一个理论研究,以执行归纳性脱离分布(OOD)链接预测任务,在部署(测试)(测试))图大小比训练图大。我们首先证明了非反应界限,表明基于GMPNN获得的基于置换 - 等值的(结构)节点嵌入的链接预测变量可以随着测试图变大,可以收敛到随机猜测。然后,我们提出了一个理论上的GMPNN,该GMPNN输出结构性成对(2节点)嵌入,并证明非扰动边界表明,随着测试图的增长,这些嵌入量会收敛到连续函数的嵌入,以保留其预测链接的能力。随机图上的经验结果表明与我们的理论结果一致。
translated by 谷歌翻译
本文在联合学习(FL)设置中介绍了主题的颗粒状隐私,其中一个受试者是一个人,其私人信息由限制在单个联邦用户中或在多个联邦用户中分布的几个数据项体现。我们正式定义了FL的主题级别差异隐私的概念。我们提出了三种实施主题级DP的新算法。这些算法中的两种分别基于用户级别的本地差异隐私(LDP)和组差异隐私的概念。第三算法是基于对参加培训迷你批次的受试者的层次梯度平均(HigradavgDP)的新颖概念。我们还为多个联邦用户的受试者介绍了隐私损失的水平组成。我们表明,在最坏情况下,水平成分等效于顺序组成。我们证明了对所有算法的主题级别的DP保证,并使用女性和莎士比亚数据集对其进行经验分析。我们的评估表明,在我们的三种算法中,HigradavgDP提供了最佳的模型性能,接近使用基于DP-SGD的算法训练的模型,该算法提供了较弱的项目级别隐私保证。
translated by 谷歌翻译
图表神经网络(GNNS)对于节点分类或边缘预测等预测任务,在最近的机器中从图形结构数据中获得了越来越长的注意。然而,难以获得大量标记的图表,这显着限制了GNN的真正成功。虽然积极学习已被广​​泛研究用于解决文本,图像等等其他数据类型的标签稀疏问题,但如何使其有效地对图表进行有效,是一个开放的研究问题。在本文中,我们对节点分类任务的GNN进行了主动学习的调查。具体地,我们提出了一种新方法,它使用节点特征传播,然后是节点的K-METOIDS聚类,例如在活动学习中选择。通过理论束缚分析,我们证明了我们的方法的设计选择。在我们在四个基准数据集的实验中,所提出的方法始终如一地优于其他代表性基线方法。
translated by 谷歌翻译
Graph Convolutional Networks (GCNs) are powerful models for learning representations of attributed graphs. To scale GCNs to large graphs, state-of-the-art methods use various layer sampling techniques to alleviate the "neighbor explosion" problem during minibatch training. We propose GraphSAINT, a graph sampling based inductive learning method that improves training efficiency and accuracy in a fundamentally different way. By changing perspective, GraphSAINT constructs minibatches by sampling the training graph, rather than the nodes or edges across GCN layers. Each iteration, a complete GCN is built from the properly sampled subgraph. Thus, we ensure fixed number of well-connected nodes in all layers. We further propose normalization technique to eliminate bias, and sampling algorithms for variance reduction. Importantly, we can decouple the sampling from the forward and backward propagation, and extend GraphSAINT with many architecture variants (e.g., graph attention, jumping connection). GraphSAINT demonstrates superior performance in both accuracy and training time on five large graphs, and achieves new state-of-the-art F1 scores for PPI (0.995) and Reddit (0.970).
translated by 谷歌翻译
对图形卷积网络(GCN)的兴趣激增,已经产生了数千种GCN变体,每年引入数百种。相比之下,许多GCN模型仅重复使用少数基准数据集,因为人们的兴趣图(例如社交或商业网络)都是专有的。我们提出了一个新的图生成问题,以使源图分布之后,为GCN生成各种基准图(可能是专有的),具有三个要求:1)基准有效性作为GCN研究源图的替代品, 2)可扩展性处理大型现实图形,以及3)最终用户的隐私保证。借助新的图形编码方案,我们将大规模的图生成问题重新构架为中长长序列生成问题,并将变压器体系结构的强生成功率应用于图形域。跨大量图生成模型进行的广泛实验表明,我们的模型可以成功生成基准图,并具有实际的图形结构,节点属性和基准GCNS在节点分类任务上所需的节点标签。
translated by 谷歌翻译
联邦学习(FL)是大规模分布式学习的范例,它面临两个关键挑战:(i)从高度异构的用户数据和(ii)保护参与用户的隐私的高效培训。在这项工作中,我们提出了一种新颖的流动方法(DP-SCaffold)来通过将差异隐私(DP)约束结合到流行的脚手架算法中来解决这两个挑战。我们专注于有挑战性的环境,用户在没有任何可信中介的情况下与“诚实但奇怪的”服务器沟通,这需要确保隐私不仅可以访问最终模型的第三方,而且还要对服务器观察所有用户通信。使用DP理论的高级结果,我们建立了凸面和非凸面目标算法的融合。我们的分析清楚地突出了数据异质性下的隐私式折衷,并且当局部更新的数量和异质性水平增长时,展示了在最先进的算法DP-Fedivg上的DP-Scaffold的优越性。我们的数值结果证实了我们的分析,并表明DP-Scaffold在实践中提供了重大的收益。
translated by 谷歌翻译