标记为图形结构数据的分类任务具有许多重要的应用程序,从社交建议到财务建模。深度神经网络越来越多地用于图形上的节点分类,其中具有相似特征的节点必须给出相同的标签。图形卷积网络(GCN)是如此广泛研究的神经网络体系结构,在此任务上表现良好。但是,对GCN的强大链接攻击攻击最近表明,即使对训练有素的模型进行黑框访问,培训图中也存在哪些链接(或边缘)。在本文中,我们提出了一种名为LPGNET的新神经网络体系结构,用于对具有隐私敏感边缘的图形进行培训。 LPGNET使用新颖的设计为训练过程中的图形结构提供了新颖的设计,为边缘提供了差异隐私(DP)保证。我们从经验上表明,LPGNET模型通常位于提供隐私和效用之间的最佳位置:它们比使用不使用边缘信息的“琐碎”私人体系结构(例如,香草MLP)和针对现有的链接策略攻击更好的弹性可以提供更好的实用性。使用完整边缘结构的香草GCN。 LPGNET还与DPGCN相比,LPGNET始终提供更好的隐私性权衡,这是我们大多数评估的数据集中将差异隐私改造为常规GCN的最新机制。
translated by 谷歌翻译
在本文中,我们研究了具有差异隐私(DP)的学习图神经网络(GNN)的问题。我们提出了一种基于聚合扰动(GAP)的新型差异私有GNN,该GNN为GNN的聚合函数添加了随机噪声,以使单个边缘(边缘级隐私)或单个节点的存在统计上的存在及其所有邻接边缘( - 级别的隐私)。 GAP的新体系结构是根据私人学习的细节量身定制的,由三个单独的模块组成:(i)编码器模块,我们在不依赖边缘信息的情况下学习私人节点嵌入; (ii)聚合模块,其中我们根据图结构计算嘈杂的聚合节点嵌入; (iii)分类模块,我们在私有聚合上训练神经网络进行节点分类,而无需进一步查询图表。 GAP比以前的方法的主要优势在于,它可以从多跳社区的聚合中受益,并保证边缘级别和节点级别的DP不仅用于培训,而且可以推断出培训的隐私预算以外的额外费用。我们使用R \'Enyi DP来分析GAP的正式隐私保证,并在三个真实世界图数据集上进行经验实验。我们证明,与最先进的DP-GNN方法和天真的MLP基线相比,GAP提供了明显更好的准确性私人权衡权衡。
translated by 谷歌翻译
许多数据挖掘任务依靠图来模拟个人(节点)之间的关系结构。由于关系数据通常很敏感,因此迫切需要评估图形数据中的隐私风险。对数据分析模型的著名隐私攻击是模型反转攻击,该攻击旨在推断培训数据集中的敏感数据并引起极大的隐私问题。尽管它在类似网格的域中取得了成功,但直接应用模型反转攻击(例如图形)导致攻击性能差。这主要是由于未能考虑图的唯一属性。为了弥合这一差距,我们对模型反转攻击对图神经网络(GNNS)进行了系统研究,这是本文中最新的图形分析工具之一。首先,在攻击者可以完全访问目标GNN模型的白色框设置中,我们提出GraphMi来推断私人训练图数据。具体而言,在GraphMi中,提出了一个投影梯度模块来应对图边的离散性并保持图形特征的稀疏性和平滑度。图形自动编码器模块用于有效利用边缘推理的图形拓扑,节点属性和目标模型参数。随机采样模块最终可以采样离散边缘。此外,在攻击者只能查询GNN API并接收分类结果的硬标签黑框设置中,我们根据梯度估计和增强学习(RL-GraphMI)提出了两种方法。我们的实验结果表明,此类防御措施没有足够的有效性,并要求对隐私攻击进行更先进的防御能力。
translated by 谷歌翻译
隐私性和解释性是实现值得信赖的机器学习的两种重要成分。我们通过图形重建攻击研究了图机学习中这两个方面的相互作用。这里的对手的目的是重建给定模型解释的训练数据的图形结构。根据对手可用的不同种类的辅助信息,我们提出了几种图形重建攻击。我们表明,事后功能解释的其他知识大大提高了这些攻击的成功率。此外,我们详细研究了攻击性能相对于三种不同类别的图形神经网络的解释方法的差异:基于梯度,基于扰动和基于替代模型的方法。虽然基于梯度的解释在图形结构方面显示最多,但我们发现这些解释并不总是在实用程序上得分很高。对于其他两类的解释,隐私泄漏随着解释实用程序的增加而增加。最后,我们提出了基于随机响应机制的防御,以释放大大降低攻击成功率的解释。我们的匿名代码可用。
translated by 谷歌翻译
图形神经网络(GNNS)是一种用于建模图形结构化数据的流行技术,该数据通过来自每个节点的本地邻域的信息聚合来计算节点级表示的结构。然而,该聚合意味着增加敏感信息的风险,因为节点可以参与多个节点的推断。这意味着标准隐私保存机器学习技术,例如差异私有随机梯度下降(DP-SGD) - 这被设计用于每个数据点仅参与推理的一个点的情况 - 要么不适用,或导致不准确解决方案。在这项工作中,我们正式定义了使用节点级别隐私学习1层GNN的问题,并提供具有强大差异隐私保证的算法解决方案。即使每个节点都可以参与多个节点的推断,通过采用仔细的敏感性分析和逐个放大技术的非琐碎扩展,我们的方法能够提供具有实心隐私参数的准确解决方案。标准基准测试的实证评估表明,我们的方法确实能够学习准确的隐私保留GNN,同时仍然优于完全忽略图形信息的标准非私有方法。
translated by 谷歌翻译
许多真实数据以图形的形式出现。图表神经网络(GNNS)是一个新的机器学习(ML)模型,已建议完全利用图表数据来构建强大的应用程序。特别地,可以概括到看不见的数据的电感GNN成为主流。机器学习模型在各种任务中表现出很大的潜力,并已在许多真实情景中部署。要培训良好的模型,需要大量的数据以及计算资源,从而导致有价值的知识产权。以前的研究表明,ML模型容易窃取攻击模型,旨在窃取目标模型的功能。然而,大多数人都专注于用图像和文本接受培训的模型。另一方面,对于用图表数据,即GNNS接受培训的模型,已经支付了很少的注意。在本文中,我们通过提出针对电感GNN的第一个模型窃取攻击来填补差距。我们系统地定义了威胁模型,并根据对手的背景知识和目标模型的响应提出六次攻击。我们对六个基准数据集的评估显示,拟议的模型窃取针对GNN的攻击实现了有希望的性能。
translated by 谷歌翻译
图形神经网络(GNNS)概括了图形数据上的传统深度神经网络,在几个图形分析任务上取得了最先进的性能。我们专注于训练有素的GNN模型如何泄露有关他们培训的\ emph {成员}节点的信息。我们介绍了两个现实的设置,以便在GNN上执行员工推理(MI)攻击。在选择利用培训模型的后索(黑匣子访问)的最简单可能的攻击模型时,我们彻底分析了GNN和数据集的属性,这些数据集决定了对MI攻击的鲁棒性的差异。虽然在传统的机器学习模型中,过度装备被认为是这种泄漏的主要原因,我们表明,在GNN中,额外的结构信息是主要的贡献因素。我们在四个代表性GNN模型上进行了广泛的实验,我们支持我们的结果。为防止MI攻击GNN,我们提出了两种有效的防御,明显将攻击者推断显着降低了60%,而不会降低目标模型的性能。我们的代码可在https://github.com/iyempissy/rebmigraph获得。
translated by 谷歌翻译
随着机器学习(ML)技术的快速采用,ML模型的共享变得流行。但是,ML模型容易受到隐私攻击的攻击,这些攻击泄漏了有关培训数据的信息。在这项工作中,我们专注于一种名为属性推理攻击(PIA)的特定类型的隐私攻击,该隐私攻击通过访问目标ML模型来渗透培训数据的敏感属性。特别是,我们将图形神经网络(GNN)视为目标模型,而训练图中特定的节点和链接的分布是目标属性。尽管现有的工作调查了针对图形属性的PIA,但尚无先前的工作研究节点和链接属性在组级别的推断。在这项工作中,我们对针对GNNS的小组财产推理攻击(GPIA)进行了首次系统研究。首先,我们考虑具有不同类型的对手知识的黑盒和白色框设置下的威胁模型的分类法,并为这些设置设计了六种不同的攻击。我们通过对三个代表性的GNN模型和三个现实图表进行广泛的实验来评估这些攻击的有效性。我们的结果证明了这些攻击的有效性,这些攻击的准确性优于基线方法。其次,我们分析了有助于GPIA成功的基本因素,并表明在图形上有或没有目标属性的图形训练的目标模型代表模型参数和/或模型输出的一定程度,这使对手可以推断存在的存在。属性。此外,我们设计了针对GPIA攻击的一组防御机制,并证明这些机制可以有效地降低攻击精度,而GNN模型准确性的损失很小。
translated by 谷歌翻译
Machine Unerning是在收到删除请求时从机器学习(ML)模型中删除某些培训数据的影响的过程。虽然直接而合法,但从划痕中重新训练ML模型会导致高计算开销。为了解决这个问题,在图像和文本数据的域中提出了许多近似算法,其中SISA是最新的解决方案。它将训练集随机分配到多个碎片中,并为每个碎片训练一个组成模型。但是,将SISA直接应用于图形数据可能会严重损害图形结构信息,从而导致的ML模型实用程序。在本文中,我们提出了Grapheraser,这是一种针对图形数据量身定制的新型机器学习框架。它的贡献包括两种新型的图形分区算法和一种基于学习的聚合方法。我们在五个现实世界图数据集上进行了广泛的实验,以说明Grapheraser的学习效率和模型实用程序。它可以实现2.06 $ \ times $(小数据集)至35.94 $ \ times $(大数据集)未学习时间的改进。另一方面,Grapheraser的实现最高62.5美元\%$更高的F1分数,我们提出的基于学习的聚合方法可达到高达$ 112 \%$ $ F1分数。 github.com/minchen00/graph-unlearning}。}。}
translated by 谷歌翻译
Graph neural networks (GNNs) are susceptible to privacy inference attacks (PIAs), given their ability to learn joint representation from features and edges among nodes in graph data. To prevent privacy leakages in GNNs, we propose a novel heterogeneous randomized response (HeteroRR) mechanism to protect nodes' features and edges against PIAs under differential privacy (DP) guarantees without an undue cost of data and model utility in training GNNs. Our idea is to balance the importance and sensitivity of nodes' features and edges in redistributing the privacy budgets since some features and edges are more sensitive or important to the model utility than others. As a result, we derive significantly better randomization probabilities and tighter error bounds at both levels of nodes' features and edges departing from existing approaches, thus enabling us to maintain high data utility for training GNNs. An extensive theoretical and empirical analysis using benchmark datasets shows that HeteroRR significantly outperforms various baselines in terms of model utility under rigorous privacy protection for both nodes' features and edges. That enables us to defend PIAs in DP-preserving GNNs effectively.
translated by 谷歌翻译
图形神经网络(GNNS)在提供图形结构时良好工作。但是,这种结构可能并不总是在现实世界应用中可用。该问题的一个解决方案是推断任务特定的潜在结构,然后将GNN应用于推断的图形。不幸的是,可能的图形结构的空间与节点的数量超级呈指数,因此任务特定的监督可能不足以学习结构和GNN参数。在这项工作中,我们提出了具有自我监督或拍打的邻接和GNN参数的同时学习,这是通过自我监督来推断图形结构的更多监督的方法。一个综合实验研究表明,缩小到具有数十万个节点的大图和胜过了几种模型,以便在已建立的基准上学习特定于任务的图形结构。
translated by 谷歌翻译
Graph Neural Networks (GNNs) have been widely applied to different tasks such as bioinformatics, drug design, and social networks. However, recent studies have shown that GNNs are vulnerable to adversarial attacks which aim to mislead the node or subgraph classification prediction by adding subtle perturbations. Detecting these attacks is challenging due to the small magnitude of perturbation and the discrete nature of graph data. In this paper, we propose a general adversarial edge detection pipeline EDoG without requiring knowledge of the attack strategies based on graph generation. Specifically, we propose a novel graph generation approach combined with link prediction to detect suspicious adversarial edges. To effectively train the graph generative model, we sample several sub-graphs from the given graph data. We show that since the number of adversarial edges is usually low in practice, with low probability the sampled sub-graphs will contain adversarial edges based on the union bound. In addition, considering the strong attacks which perturb a large number of edges, we propose a set of novel features to perform outlier detection as the preprocessing for our detection. Extensive experimental results on three real-world graph datasets including a private transaction rule dataset from a major company and two types of synthetic graphs with controlled properties show that EDoG can achieve above 0.8 AUC against four state-of-the-art unseen attack strategies without requiring any knowledge about the attack type; and around 0.85 with knowledge of the attack type. EDoG significantly outperforms traditional malicious edge detection baselines. We also show that an adaptive attack with full knowledge of our detection pipeline is difficult to bypass it.
translated by 谷歌翻译
Deep learning models are known to put the privacy of their training data at risk, which poses challenges for their safe and ethical release to the public. Differentially private stochastic gradient descent is the de facto standard for training neural networks without leaking sensitive information about the training data. However, applying it to models for graph-structured data poses a novel challenge: unlike with i.i.d. data, sensitive information about a node in a graph cannot only leak through its gradients, but also through the gradients of all nodes within a larger neighborhood. In practice, this limits privacy-preserving deep learning on graphs to very shallow graph neural networks. We propose to solve this issue by training graph neural networks on disjoint subgraphs of a given training graph. We develop three random-walk-based methods for generating such disjoint subgraphs and perform a careful analysis of the data-generating distributions to provide strong privacy guarantees. Through extensive experiments, we show that our method greatly outperforms the state-of-the-art baseline on three large graphs, and matches or outperforms it on four smaller ones.
translated by 谷歌翻译
图形神经网络已成为从图形结构数据学习的不可缺少的工具之一,并且它们的实用性已在各种各样的任务中显示。近年来,建筑设计的巨大改进,导致各种预测任务的性能更好。通常,这些神经架构在同一层中使用可知的权重矩阵组合节点特征聚合和特征转换。这使得分析从各种跳过的节点特征和神经网络层的富有效力来挑战。由于不同的图形数据集显示在特征和类标签分布中的不同级别和异常级别,因此必须了解哪些特征对于没有任何先前信息的预测任务是重要的。在这项工作中,我们将节点特征聚合步骤和深度与图形神经网络分离,并经验分析了不同的聚合特征在预测性能中发挥作用。我们表明,并非通过聚合步骤生成的所有功能都很有用,并且通常使用这些较少的信息特征可能对GNN模型的性能有害。通过我们的实验,我们表明学习这些功能的某些子集可能会导致各种数据集的性能更好。我们建议使用Softmax作为常规器,并从不同跳距的邻居聚合的功能的“软选择器”;和L2 - GNN层的标准化。结合这些技术,我们呈现了一个简单浅的模型,特征选择图神经网络(FSGNN),并经验展示所提出的模型比九个基准数据集中的最先进的GNN模型实现了可比或甚至更高的准确性节点分类任务,具有显着的改进,可达51.1%。
translated by 谷歌翻译
机器学习模型被证明是面对模型提取攻击的严重威胁,其中服务提供商拥有的训练有素的私人模型可以被假装作为客户端的攻击者窃取。不幸的是,先前的作品侧重于欧几里德空间训练的模型,例如图像和文本,而如何提取包含图形结构的GNN模型,则尚未探索节点功能。本文首次全面调查并开发针对GNN模型的模型提取攻击。我们首先通过考虑由攻击者获得的节点的不同背景知识,将对冲威胁分类为七种类别的威胁建模并将对抗性威胁分类为七个类别。然后我们展示了利用每种威胁中的可访问知识来实现​​攻击的详细方法。通过评估三个现实世界数据集,我们的攻击显示有效提取重复模型,即目标域中的84% - 89%的输入具有与受害者模型相同的输出预测。
translated by 谷歌翻译
图表表示学习是一种快速增长的领域,其中一个主要目标是在低维空间中产生有意义的图形表示。已经成功地应用了学习的嵌入式来执行各种预测任务,例如链路预测,节点分类,群集和可视化。图表社区的集体努力提供了数百种方法,但在所有评估指标下没有单一方法擅长,例如预测准确性,运行时间,可扩展性等。该调查旨在通过考虑算法来评估嵌入方法的所有主要类别的图表变体,参数选择,可伸缩性,硬件和软件平台,下游ML任务和多样化数据集。我们使用包含手动特征工程,矩阵分解,浅神经网络和深图卷积网络的分类法组织了图形嵌入技术。我们使用广泛使用的基准图表评估了节点分类,链路预测,群集和可视化任务的这些类别算法。我们在Pytorch几何和DGL库上设计了我们的实验,并在不同的多核CPU和GPU平台上运行实验。我们严格地审查了各种性能指标下嵌入方法的性能,并总结了结果。因此,本文可以作为比较指南,以帮助用户选择最适合其任务的方法。
translated by 谷歌翻译
Learning fair graph representations for downstream applications is becoming increasingly important, but existing work has mostly focused on improving fairness at the global level by either modifying the graph structure or objective function without taking into account the local neighborhood of a node. In this work, we formally introduce the notion of neighborhood fairness and develop a computational framework for learning such locally fair embeddings. We argue that the notion of neighborhood fairness is more appropriate since GNN-based models operate at the local neighborhood level of a node. Our neighborhood fairness framework has two main components that are flexible for learning fair graph representations from arbitrary data: the first aims to construct fair neighborhoods for any arbitrary node in a graph and the second enables adaption of these fair neighborhoods to better capture certain application or data-dependent constraints, such as allowing neighborhoods to be more biased towards certain attributes or neighbors in the graph.Furthermore, while link prediction has been extensively studied, we are the first to investigate the graph representation learning task of fair link classification. We demonstrate the effectiveness of the proposed neighborhood fairness framework for a variety of graph machine learning tasks including fair link prediction, link classification, and learning fair graph embeddings. Notably, our approach achieves not only better fairness but also increases the accuracy in the majority of cases across a wide variety of graphs, problem settings, and metrics.
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译
我们通过形式化节点标签的异质性(即连接的节点倾向于具有不同的标签)和GNN与对抗性攻击的稳健性来弥合图形神经网络(GNN)的两个研究方向。我们的理论和经验分析表明,对于同质图数据,有影响力的结构攻击始终导致同质性降低,而对于异性图数据,同质级别的变化取决于节点度。这些见解对防御对现实图形的攻击具有实际含义:我们推断出分离自我和邻居限制的汇总器,这是一种已确定的设计原则,可以显着改善异性图数据的预测,还可以为增强的鲁棒性提供稳健性gnns。我们的综合实验表明,与表现最好的未接种模型相比,GNN仅采用这种设计可以提高经验和可证明的鲁棒性。此外,与表现最佳的疫苗接种模型相比,这种设计与对抗性攻击的明确防御机制相结合,可提高稳健性,攻击性能在攻击下提高18.33%。
translated by 谷歌翻译
受卷积神经网络(CNN)启发的图形神经网络(GNN)汇总了节点邻居的信息和结构信息,以获取节点分类,图形分类和链接预测的节点的表达性表示。先前的研究表明,GNN容易受到会员推理攻击(MIA)的攻击,这些攻击(MIAS)推断出节点是否在GNNS的训练数据中,并泄漏了节点的私人信息,例如患者的疾病史。以前的MIA的实现利用了模型的概率输出,如果GNN仅提供输入的预测标签(仅标签),则是不可行的。在本文中,我们在GNNS的柔性预测机制(例如,即使邻居的信息不可用,也可以获得一个节点的预测标签,借助GNNS的灵活预测机制,即使获得一个节点的预测标签,我们提出了针对GNNS的标签MIA。对于大多数数据集和GNN模型,我们的攻击方法实现了曲线(AUC)下60 \%的准确性,精度和区域,其中一些模型比我们在我们的下实施的基于最新概率的MIA具有竞争力甚至更好环境和设置。此外,我们分析了采样方法,模型选择方法和过度拟合水平对仅标签MIA攻击性能的影响。这两个因素都会影响攻击性能。然后,我们考虑有关对手的附加数据集(影子数据集)的假设以及有关目标模型的额外信息的情况。即使在这种情况下,我们仅使用标签的MIA在大多数情况下都能取得更好的攻击性能。最后,我们探讨了可能的防御能力,包括辍学,正则化,归一化和跳跃知识。这四个防御都没有完全阻止我们的攻击。
translated by 谷歌翻译