在这项工作中,我们向图形神经网络(GNN)提出了第一个后门攻击。具体而言,我们向GNN提出一个\ emph {子画面的后门攻击},用于图表分类。在我们的后门攻击中,一旦预定义的子图注入测试图,GNN分类器就预测测试图的攻击者所选择的目标标签。我们在三个真实世界图数据集上的经验结果表明,我们的后门攻击对GNN的预测准确性的影响很小,对清洁测试图进行了很小影响。此外,我们概括了基于随机的平滑的认证防御来防御我们的后门攻击。我们的经验结果表明,在某些情况下,防御是有效的,但在其他情况下无效,突出了我们的后门攻击的新防御的需求。
translated by 谷歌翻译
图形神经网络(GNNS)在许多图形挖掘任务中取得了巨大的成功,这些任务从消息传递策略中受益,该策略融合了局部结构和节点特征,从而为更好的图表表示学习。尽管GNN成功,并且与其他类型的深神经网络相似,但发现GNN容易受到图形结构和节点特征的不明显扰动。已经提出了许多对抗性攻击,以披露在不同的扰动策略下创建对抗性例子的GNN的脆弱性。但是,GNNS对成功后门攻击的脆弱性直到最近才显示。在本文中,我们披露了陷阱攻击,这是可转移的图形后门攻击。核心攻击原则是用基于扰动的触发器毒化训练数据集,这可以导致有效且可转移的后门攻击。图形的扰动触发是通过通过替代模型的基于梯度的得分矩阵在图形结构上执行扰动动作来生成的。与先前的作品相比,陷阱攻击在几种方面有所不同:i)利用替代图卷积网络(GCN)模型来生成基于黑盒的后门攻击的扰动触发器; ii)它产生了没有固定模式的样品特异性扰动触发器; iii)在使用锻造中毒训练数据集训练时,在GNN的背景下,攻击转移到了不同​​的GNN模型中。通过对四个现实世界数据集进行广泛的评估,我们证明了陷阱攻击使用四个现实世界数据集在四个不同流行的GNN中构建可转移的后门的有效性
translated by 谷歌翻译
图形神经网络(GNNS)在各种现实世界应用中取得了有希望的性能。建立一个强大的GNN模型不是一个琐碎的任务,因为它需要大量的培训数据,强大的计算资源和微调模型的人类专业知识。更重要的是,随着对抗性攻击的发展,例如,模型窃取攻击,GNNS提出了模型认证的挑战。为避免对GNN的版权侵犯,有必要验证GNN模型的所有权。在本文中,我们为图形和节点分类任务提供了一种用于GNN的水印框架。我们1)设计两种策略来为图形分类生成水印数据,一个用于节点分类任务,2)通过培训将水印嵌入到主机模型中,以获得水印的GNN模型,3)验证可疑模型的所有权在黑盒设置中。实验表明,我们的框架可以验证GNN模型的所有权,具有非常高的概率(约100亿美元)的任务。此外,我们实验表明,即使在考虑到从不同架构获得的可疑模型比所有者的可疑模型,我们的水印方法也仍然有效。
translated by 谷歌翻译
图神经网络(GNN)是一类用于处理图形域信息的基于深度学习的方法。 GNN最近已成为一种广泛使用的图形分析方法,因为它们可以为复杂的图形数据学习表示形式。但是,由于隐私问题和法规限制,集中的GNN可能很难应用于数据敏感的情况。 Federated学习(FL)是一种新兴技术,为保护隐私设置而开发,当几个方需要协作培训共享的全球模型时。尽管几项研究工作已应用于培训GNN(联邦GNN),但对他们对后门攻击的稳健性没有研究。本文通过在联邦GNN中进行两种类型的后门攻击来弥合这一差距:集中式后门攻击(CBA)和分发后门攻击(DBA)。我们的实验表明,在几乎所有评估的情况下,DBA攻击成功率高于CBA。对于CBA,即使对抗方的训练集嵌入了全球触发因素,所有本地触发器的攻击成功率也类似于全球触发因素。为了进一步探索联邦GNN中两次后门攻击的属性,我们评估了不同数量的客户,触发尺寸,中毒强度和触发密度的攻击性能。此外,我们探讨了DBA和CBA对两个最先进的防御能力的鲁棒性。我们发现,两次攻击都对被调查的防御能力进行了强大的强大,因此需要考虑将联邦GNN中的后门攻击视为需要定制防御的新威胁。
translated by 谷歌翻译
Classifiers in supervised learning have various security and privacy issues, e.g., 1) data poisoning attacks, backdoor attacks, and adversarial examples on the security side as well as 2) inference attacks and the right to be forgotten for the training data on the privacy side. Various secure and privacy-preserving supervised learning algorithms with formal guarantees have been proposed to address these issues. However, they suffer from various limitations such as accuracy loss, small certified security guarantees, and/or inefficiency. Self-supervised learning is an emerging technique to pre-train encoders using unlabeled data. Given a pre-trained encoder as a feature extractor, supervised learning can train a simple yet accurate classifier using a small amount of labeled training data. In this work, we perform the first systematic, principled measurement study to understand whether and when a pre-trained encoder can address the limitations of secure or privacy-preserving supervised learning algorithms. Our key findings are that a pre-trained encoder substantially improves 1) both accuracy under no attacks and certified security guarantees against data poisoning and backdoor attacks of state-of-the-art secure learning algorithms (i.e., bagging and KNN), 2) certified security guarantees of randomized smoothing against adversarial examples without sacrificing its accuracy under no attacks, 3) accuracy of differentially private classifiers, and 4) accuracy and/or efficiency of exact machine unlearning.
translated by 谷歌翻译
后门攻击是对深度学习模型的强大攻击算法。最近,GNN对后门攻击的脆弱性已被证明,尤其是在图形分类任务上。在本文中,我们提出了GNN上的第一种后门检测和防御方法。大多数后门攻击都取决于向干净样品注入小但有影响力的扳机。对于图数据,当前的后门攻击专注于操纵图形结构以注入触发器。我们发现,良性样本和恶意样本之间存在明显的差异,例如忠诚度和不忠行为。在确定了恶意样本后,GNN模型的解释性可以帮助我们捕获最重要的子图,这可能是Trojan图中的触发器。我们使用各种数据集和不同的攻击设置来证明我们的防御方法的有效性。攻击成功率的所有事实都大大降低。
translated by 谷歌翻译
Contrastive learning pre-trains an image encoder using a large amount of unlabeled data such that the image encoder can be used as a general-purpose feature extractor for various downstream tasks. In this work, we propose PoisonedEncoder, a data poisoning attack to contrastive learning. In particular, an attacker injects carefully crafted poisoning inputs into the unlabeled pre-training data, such that the downstream classifiers built based on the poisoned encoder for multiple target downstream tasks simultaneously classify attacker-chosen, arbitrary clean inputs as attacker-chosen, arbitrary classes. We formulate our data poisoning attack as a bilevel optimization problem, whose solution is the set of poisoning inputs; and we propose a contrastive-learning-tailored method to approximately solve it. Our evaluation on multiple datasets shows that PoisonedEncoder achieves high attack success rates while maintaining the testing accuracy of the downstream classifiers built upon the poisoned encoder for non-attacker-chosen inputs. We also evaluate five defenses against PoisonedEncoder, including one pre-processing, three in-processing, and one post-processing defenses. Our results show that these defenses can decrease the attack success rate of PoisonedEncoder, but they also sacrifice the utility of the encoder or require a large clean pre-training dataset.
translated by 谷歌翻译
自我监督的学习在过去几年中取得了革命性的进展,并且通常被认为是通用AI的有希望的方法。特别是,自我监督的学习旨在使用大量未标记的数据预先列车。预先培训的编码器就像AI生态系统的“操作系统”。具体地,编码器可以用作许多下游任务的特征提取器,其中没有标记或未标记的训练数据。关于自我监督学习的现有研究主要专注于预先培训更好的编码器,以改善其在非对抗环境中的下游任务的性能,留下其在对抗环境中的安全性和隐私,这在很大程度上是未开发的。预先训练的编码器的安全性或隐私问题导致AI生态系统的单一失败点。在本书章节中,我们在自我监督学习中讨论了预训练的编码器的10个基本安全和隐私问题,包括六个机密性问题,三个完整性问题和一个可用性问题。对于每个问题,我们讨论潜在的机会和挑战。我们希望我们的书籍章节将激发未来的自我监督学习的安全和隐私的研究。
translated by 谷歌翻译
最近的研究表明,深神经网络(DNN)易受对抗性攻击的影响,包括逃避和后门(中毒)攻击。在防守方面,有密集的努力,改善了对逃避袭击的经验和可怜的稳健性;然而,对后门攻击的可稳健性仍然很大程度上是未开发的。在本文中,我们专注于认证机器学习模型稳健性,反对一般威胁模型,尤其是后门攻击。我们首先通过随机平滑技术提供统一的框架,并展示如何实例化以证明对逃避和后门攻击的鲁棒性。然后,我们提出了第一个强大的培训过程Rab,以平滑训练有素的模型,并证明其稳健性对抗后门攻击。我们派生机学习模型的稳健性突出了培训的机器学习模型,并证明我们的鲁棒性受到紧张。此外,我们表明,可以有效地训练强大的平滑模型,以适用于诸如k最近邻分类器的简单模型,并提出了一种精确的平滑训练算法,该算法消除了从这种模型的噪声分布采样采样的需要。经验上,我们对MNIST,CIFAR-10和Imagenet数据集等DNN,差异私有DNN和K-NN模型等不同机器学习(ML)型号进行了全面的实验,并为反卧系攻击提供认证稳健性的第一个基准。此外,我们在SPAMBase表格数据集上评估K-NN模型,以展示所提出的精确算法的优点。对多元化模型和数据集的综合评价既有关于普通训练时间攻击的进一步强劲学习策略的多样化模型和数据集的综合评价。
translated by 谷歌翻译
后门攻击已被证明是对深度学习模型的严重安全威胁,并且检测给定模型是否已成为后门成为至关重要的任务。现有的防御措施主要建立在观察到后门触发器通常尺寸很小或仅影响几个神经元激活的观察结果。但是,在许多情况下,尤其是对于高级后门攻击,违反了上述观察结果,阻碍了现有防御的性能和适用性。在本文中,我们提出了基于新观察的后门防御范围。也就是说,有效的后门攻击通常需要对中毒训练样本的高预测置信度,以确保训练有素的模型具有很高的可能性。基于此观察结果,Dtinspector首先学习一个可以改变最高信心数据的预测的补丁,然后通过检查在低信心数据上应用学习补丁后检查预测变化的比率来决定后门的存在。对五次后门攻击,四个数据集和三种高级攻击类型的广泛评估证明了拟议防御的有效性。
translated by 谷歌翻译
Recent development in the field of explainable artificial intelligence (XAI) has helped improve trust in Machine-Learning-as-a-Service (MLaaS) systems, in which an explanation is provided together with the model prediction in response to each query. However, XAI also opens a door for adversaries to gain insights into the black-box models in MLaaS, thereby making the models more vulnerable to several attacks. For example, feature-based explanations (e.g., SHAP) could expose the top important features that a black-box model focuses on. Such disclosure has been exploited to craft effective backdoor triggers against malware classifiers. To address this trade-off, we introduce a new concept of achieving local differential privacy (LDP) in the explanations, and from that we establish a defense, called XRand, against such attacks. We show that our mechanism restricts the information that the adversary can learn about the top important features, while maintaining the faithfulness of the explanations.
translated by 谷歌翻译
后门攻击误导机器学习模型以在测试时间呈现特定触发时输出攻击者指定的类。这些攻击需要毒害训练数据来损害学习算法,例如,通过将包含触发器的中毒样本注入训练集中,以及所需的类标签。尽管对后门攻击和防御的研究数量越来越多,但影响后门攻击成功的潜在因素以及它们对学习算法的影响尚未得到很好的理解。在这项工作中,我们的目标是通过揭幕揭示触发样本周围的更光滑的决策功能来阐明这一问题 - 这是我们称之为\ Textit {后门平滑}的现象。为了量化后门平滑,我们定义了一种评估与输入样本周围分类器的预测相关的不确定性的度量。我们的实验表明,当触发器添加到输入样本时,平滑度会增加,并且这种现象更加明显,以获得更成功的攻击。我们还提供了初步证据,后者触发器不是唯一的平滑诱导模式,而是可以通过我们的方法来检测其他人工图案,铺平了解当前防御和设计新颖的局限性。
translated by 谷歌翻译
数据中毒攻击和后门攻击旨在通过修改,添加和/或删除一些仔细选择的训练示例来破坏机器学习分类器,使得损坏的分类器将预测不正确,因为攻击者的期望。用于数据中毒攻击和后门攻击的最先进的认证防御的关键概念是创建大多数投票机制来预测测试示例的标签。此外,每个选民是在训练数据集的子集上培训的基本分类器。典型简单学习算法,如K最近邻居(knn)和半径最近的邻居(RNN)具有内在的多数投票机制。在这项工作中,我们表明,KNN和RNN的内在大多数投票机制已经提供了针对数据中毒攻击和后门攻击的经过认证的稳健性。此外,我们对MNIST和CIFAR10的评估结果表明,KNN和RNN的内在认证稳健性担保优于最先进的认证防御。我们的结果作为未来数据中毒攻击和后门攻击的未来认证防御标准基线。
translated by 谷歌翻译
Graph Neural Networks (GNNs) have been widely applied to different tasks such as bioinformatics, drug design, and social networks. However, recent studies have shown that GNNs are vulnerable to adversarial attacks which aim to mislead the node or subgraph classification prediction by adding subtle perturbations. Detecting these attacks is challenging due to the small magnitude of perturbation and the discrete nature of graph data. In this paper, we propose a general adversarial edge detection pipeline EDoG without requiring knowledge of the attack strategies based on graph generation. Specifically, we propose a novel graph generation approach combined with link prediction to detect suspicious adversarial edges. To effectively train the graph generative model, we sample several sub-graphs from the given graph data. We show that since the number of adversarial edges is usually low in practice, with low probability the sampled sub-graphs will contain adversarial edges based on the union bound. In addition, considering the strong attacks which perturb a large number of edges, we propose a set of novel features to perform outlier detection as the preprocessing for our detection. Extensive experimental results on three real-world graph datasets including a private transaction rule dataset from a major company and two types of synthetic graphs with controlled properties show that EDoG can achieve above 0.8 AUC against four state-of-the-art unseen attack strategies without requiring any knowledge about the attack type; and around 0.85 with knowledge of the attack type. EDoG significantly outperforms traditional malicious edge detection baselines. We also show that an adaptive attack with full knowledge of our detection pipeline is difficult to bypass it.
translated by 谷歌翻译
后门攻击已成为深度神经网络(DNN)的主要安全威胁。虽然现有的防御方法在检测或擦除后以后展示了有希望的结果,但仍然尚不清楚是否可以设计强大的培训方法,以防止后门触发器首先注入训练的模型。在本文中,我们介绍了\ emph {反后门学习}的概念,旨在培训\ emph {Clean}模型给出了后门中毒数据。我们将整体学习过程框架作为学习\ emph {clean}和\ emph {backdoor}部分的双重任务。从这种观点来看,我们确定了两个后门攻击的固有特征,因为他们的弱点2)后门任务与特定类(后门目标类)相关联。根据这两个弱点,我们提出了一般学习计划,反后门学习(ABL),在培训期间自动防止后门攻击。 ABL引入了标准培训的两级\ EMPH {梯度上升}机制,帮助分离早期训练阶段的后台示例,2)在后续训练阶段中断后门示例和目标类之间的相关性。通过对多个基准数据集的广泛实验,针对10个最先进的攻击,我们经验证明,后卫中毒数据上的ABL培训模型实现了与纯净清洁数据训练的相同性能。代码可用于\ url {https:/github.com/boylyg/abl}。
translated by 谷歌翻译
链接预测,推断图形的未发现或潜在链接,被广泛应用于现实世界中。通过促进图表的标记链接作为训练数据,已经研究了许多基于深度学习的链接预测方法,与非深度方法相比,它们具有主导的预测准确性。但是,恶意制作的训练图的威胁将在深层模型中留下特定的后门,因此,当一些特定的示例被馈入模型时,它将做出错误的预测,定义为后门攻击。这是当前文献中忽略的重要方面。在本文中,我们促使后门攻击对链接预测的概念,并提出链接 - 背门以揭示现有链接预测方法的训练漏洞。具体而言,链接 - 贝克门将假节点与目标链接的节点结合在一起,形成触发器。此外,它通过目标模型的梯度信息来优化触发器。因此,在后排数据集中训练的链接预测模型将预测与目标状态触发的链接。在五个基准数据集和五个表现良好的链接预测模型上进行的广泛实验表明,链接 - 贝克门都在白色框(即目标模型参数可用)和黑色框下实现了最新的攻击成功率。框(即目标模型参数不可用)方案。此外,我们在防御性情况下作证了攻击,结果表明,链接 - 背部门仍然可以成功构建对表现良好的链接预测方法的成功攻击。代码和数据可在https://github.com/seaocn/link-backdoor上获得。
translated by 谷歌翻译
视觉变压器(VITS)具有与卷积神经网络相比,具有较小的感应偏置的根本不同的结构。随着绩效的提高,VIT的安全性和鲁棒性也非常重要。与许多最近利用VIT反对对抗性例子的鲁棒性的作品相反,本文调查了代表性的病因攻击,即后门。我们首先检查了VIT对各种后门攻击的脆弱性,发现VIT也很容易受到现有攻击的影响。但是,我们观察到,VIT的清洁数据准确性和后门攻击成功率在位置编码之前对补丁转换做出了明显的反应。然后,根据这一发现,我们为VIT提出了一种通过补丁处理来捍卫基于补丁的触发后门攻击的有效方法。在包括CIFAR10,GTSRB和Tinyimagenet在内的几个基准数据集上评估了这些表演,这些数据表明,该拟议的新颖防御在减轻VIT的后门攻击方面非常成功。据我们所知,本文提出了第一个防御性策略,该策略利用了反对后门攻击的VIT的独特特征。
translated by 谷歌翻译
本文提出了针对回顾性神经网络(Badnets)的新型两级防御(NNOCULICULE),该案例在响应该字段中遇到的回溯测试输入,修复了预部署和在线的BADNET。在预部署阶段,NNICULICULE与清洁验证输入的随机扰动进行检测,以部分减少后门的对抗影响。部署后,NNOCULICULE通过在原始和预先部署修补网络之间录制分歧来检测和隔离测试输入。然后培训Constcan以学习清洁验证和隔离输入之间的转换;即,它学会添加触发器来清洁验证图像。回顾验证图像以及其正确的标签用于进一步重新培训预修补程序,产生我们的最终防御。关于全面的后门攻击套件的实证评估表明,NNOCLICULE优于所有最先进的防御,以制定限制性假设,并且仅在特定的后门攻击上工作,或者在适应性攻击中失败。相比之下,NNICULICULE使得最小的假设并提供有效的防御,即使在现有防御因攻击者而导致其限制假设而导致的现有防御无效的情况下。
translated by 谷歌翻译
With the success of deep learning algorithms in various domains, studying adversarial attacks to secure deep models in real world applications has become an important research topic. Backdoor attacks are a form of adversarial attacks on deep networks where the attacker provides poisoned data to the victim to train the model with, and then activates the attack by showing a specific small trigger pattern at the test time. Most state-of-the-art backdoor attacks either provide mislabeled poisoning data that is possible to identify by visual inspection, reveal the trigger in the poisoned data, or use noise to hide the trigger. We propose a novel form of backdoor attack where poisoned data look natural with correct labels and also more importantly, the attacker hides the trigger in the poisoned data and keeps the trigger secret until the test time.We perform an extensive study on various image classification settings and show that our attack can fool the model by pasting the trigger at random locations on unseen images although the model performs well on clean data. We also show that our proposed attack cannot be easily defended using a state-of-the-art defense algorithm for backdoor attacks.
translated by 谷歌翻译
人群计数是一项回归任务,它估计场景图像中的人数,在一系列安全至关重要的应用程序中起着至关重要的作用,例如视频监视,交通监控和流量控制。在本文中,我们研究了基于深度学习的人群计数模型对后门攻击的脆弱性,这是对深度学习的主要安全威胁。后门攻击者通过数据中毒将后门触发植入目标模型,以控制测试时间的预测。与已经开发和测试的大多数现有后门攻击的图像分类模型不同,人群计数模型是输出多维密度图的回归模型,因此需要不同的技术来操纵。在本文中,我们提出了两次新颖的密度操纵后门攻击(DMBA $^{ - } $和DMBA $^{+} $),以攻击模型以产生任意的大或小密度估计。实验结果证明了我们对五个经典人群计数模型和四种类型数据集的DMBA攻击的有效性。我们还深入分析了后门人群计数模型的独特挑战,并揭示了有效攻击的两个关键要素:1)完整而密集的触发器以及2)操纵地面真相计数或密度图。我们的工作可以帮助评估人群计数模型对潜在后门攻击的脆弱性。
translated by 谷歌翻译