深层神经网络容易受到恶意微调攻击,例如数据中毒和后门攻击。因此,在最近的研究中,提出了如何检测神经网络模型的恶意微调。但是,它通常会对受保护模型的性能产生负面影响。因此,我们提出了一个新的神经网络脆弱的水印,没有模型性能降解。在水印过程中,我们训练具有特定损耗函数和秘密键的生成模型,以生成对目标分类器微调敏感的触发器。在验证过程中,我们采用了水印的分类器来获取每个脆弱的触发器的标签。然后,可以通过比较秘密键和标签来检测恶意微调。经典数据集和分类器上的实验表明,所提出的方法可以有效地检测模型恶意调整,而不会降解模型性能。
translated by 谷歌翻译
随着自然语言处理(NLP)技术的快速发展,NLP模型在业务中表现出巨大的经济价值。但是,所有者的模型容易受到盗版再分配的威胁,这打破了模型所有者与消费者之间的对称关系。因此,需要一种模型保护机制来防止对称性被打破。当前,基于黑框验证的语言模型保护方案在触发样品的隐形方面的性能较差,这些触发样品很容易被人类或异常检测器检测到,从而防止验证。为了解决此问题,本文提出了无触发模式的触发样本,以进行所有权验证。此外,小偷可能会替换以水印模型来满足其特定分类任务并删除模型中存在的水印的分类模块。因此,本文进一步提出了一个新的威胁,以替换模型分类模块并对模型进行全局微调,并通过白色框方法成功验证模型所有权。同时,我们使用区块链的特性,例如防篡改和可追溯性,以防止盗贼的所有权声明。实验表明,所提出的方案成功地验证了100%水印验证精度的所有权,而不会影响模型的原始性能,并且具有强大的鲁棒性和低的虚假触发率。
translated by 谷歌翻译
Backdoor attacks represent one of the major threats to machine learning models. Various efforts have been made to mitigate backdoors. However, existing defenses have become increasingly complex and often require high computational resources or may also jeopardize models' utility. In this work, we show that fine-tuning, one of the most common and easy-to-adopt machine learning training operations, can effectively remove backdoors from machine learning models while maintaining high model utility. Extensive experiments over three machine learning paradigms show that fine-tuning and our newly proposed super-fine-tuning achieve strong defense performance. Furthermore, we coin a new term, namely backdoor sequela, to measure the changes in model vulnerabilities to other attacks before and after the backdoor has been removed. Empirical evaluation shows that, compared to other defense methods, super-fine-tuning leaves limited backdoor sequela. We hope our results can help machine learning model owners better protect their models from backdoor threats. Also, it calls for the design of more advanced attacks in order to comprehensively assess machine learning models' backdoor vulnerabilities.
translated by 谷歌翻译
近年来,在自学学习(SSL)方面取得了重大成功,这有助于各种下游任务。但是,攻击者可能会窃取此类SSL模型并将其商业化以获利,这对于保护其知识产权(IP)至关重要。大多数现有的IP保护解决方案都是为监督学习模型而设计的,不能直接使用,因为它们要求模型的下游任务和目标标签在水印嵌入过程中已知并获得,这在SSL的域中并非总是可以的。为了解决此类问题,尤其是在水印嵌入过程中下游任务多样化且未知时,我们提出了一种新型的黑盒水印解决方案,名为SSL-WM,以保护SSL模型的所有权。 SSL-WM将水印编码器的水印输入映射到不变的表示空间中,该空间会导致任何下游分类器产生预期的行为,从而允许检测到嵌入式水印。我们使用不同的SSL模型(包括基于对比度和基于生成的生成型)来评估许多任务,例如计算机视觉(CV)和自然语言处理(NLP)等许多任务。实验结果表明,SSL-WM可以有效地验证各种下游任务中被盗SSL模型的所有权。此外,SSL-WM对模型进行微调和修剪攻击非常强大。最后,SSL-WM还可以从评估的水印检测方法中逃避检测,从而证明了其在保护SSL模型IP时的有希望的应用。
translated by 谷歌翻译
Existing integrity verification approaches for deep models are designed for private verification (i.e., assuming the service provider is honest, with white-box access to model parameters). However, private verification approaches do not allow model users to verify the model at run-time. Instead, they must trust the service provider, who may tamper with the verification results. In contrast, a public verification approach that considers the possibility of dishonest service providers can benefit a wider range of users. In this paper, we propose PublicCheck, a practical public integrity verification solution for services of run-time deep models. PublicCheck considers dishonest service providers, and overcomes public verification challenges of being lightweight, providing anti-counterfeiting protection, and having fingerprinting samples that appear smooth. To capture and fingerprint the inherent prediction behaviors of a run-time model, PublicCheck generates smoothly transformed and augmented encysted samples that are enclosed around the model's decision boundary while ensuring that the verification queries are indistinguishable from normal queries. PublicCheck is also applicable when knowledge of the target model is limited (e.g., with no knowledge of gradients or model parameters). A thorough evaluation of PublicCheck demonstrates the strong capability for model integrity breach detection (100% detection accuracy with less than 10 black-box API queries) against various model integrity attacks and model compression attacks. PublicCheck also demonstrates the smooth appearance, feasibility, and efficiency of generating a plethora of encysted samples for fingerprinting.
translated by 谷歌翻译
联合学习模型是根据多方拥有的宝贵培训数据进行协作开发的。在联合模型的开发和部署过程中,它们会面临风险,包括非法复制,重新分配,滥用和/或自由骑行。为了解决这些风险,联合学习模型的所有权验证是保护联合学习模型知识产权(IPR)(即Fedipr)的先决条件。我们提出了一种新颖的联邦深神经网络(FedDNN)所有权验证计划,该计划允许将专用水印嵌入并进行验证,以声称是FedDNN模型的合法IPR。在拟议的计划中,每个客户都独立验证了模型水印的存在,并索赔联合模型的所有权,而没有透露私人培训数据也没有私人水印信息。从理论上讲,嵌入式水印的有效性是通过对多个客户私下嵌入并检测到的水印的严格分析来证明的。此外,关于计算机视觉和自然语言处理任务的广泛实验结果表明,可以嵌入并可靠地检测到不同的位水印,而不会损害原始模型性能。我们的水印方案还具有各种联合训练环境的弹性,并防止拆除攻击。
translated by 谷歌翻译
与令人印象深刻的进步触动了我们社会的各个方面,基于深度神经网络(DNN)的AI技术正在带来越来越多的安全问题。虽然在考试时间运行的攻击垄断了研究人员的初始关注,但是通过干扰培训过程来利用破坏DNN模型的可能性,代表了破坏训练过程的可能性,这是破坏AI技术的可靠性的进一步严重威胁。在后门攻击中,攻击者损坏了培训数据,以便在测试时间诱导错误的行为。然而,测试时间误差仅在存在与正确制作的输入样本对应的触发事件的情况下被激活。通过这种方式,损坏的网络继续正常输入的预期工作,并且只有当攻击者决定激活网络内隐藏的后门时,才会发生恶意行为。在过去几年中,后门攻击一直是强烈的研究活动的主题,重点是新的攻击阶段的发展,以及可能对策的提议。此概述文件的目标是审查发表的作品,直到现在,分类到目前为止提出的不同类型的攻击和防御。指导分析的分类基于攻击者对培训过程的控制量,以及防御者验证用于培训的数据的完整性,并监控DNN在培训和测试中的操作时间。因此,拟议的分析特别适合于参考他们在运营的应用方案的攻击和防御的强度和弱点。
translated by 谷歌翻译
Deep Neural Networks have recently gained lots of success after enabling several breakthroughs in notoriously challenging problems. Training these networks is computationally expensive and requires vast amounts of training data. Selling such pre-trained models can, therefore, be a lucrative business model. Unfortunately, once the models are sold they can be easily copied and redistributed. To avoid this, a tracking mechanism to identify models as the intellectual property of a particular vendor is necessary.In this work, we present an approach for watermarking Deep Neural Networks in a black-box way. Our scheme works for general classification tasks and can easily be combined with current learning algorithms. We show experimentally that such a watermark has no noticeable impact on the primary task that the model is designed for and evaluate the robustness of our proposal against a multitude of practical attacks. Moreover, we provide a theoretical analysis, relating our approach to previous work on backdooring.
translated by 谷歌翻译
目前,深度神经网络(DNN)在不同的应用中被广泛采用。尽管具有商业价值,但培训良好的DNN仍在资源消费。因此,训练有素的模型是其所有者的宝贵知识产权。但是,最近的研究揭示了模型窃取的威胁,即使他们只能查询模型,对手也可以获得受害者模型的功能相似的副本。在本文中,我们提出了一个有效且无害的模型所有权验证(移动),以防御不同类型的模型窃取,而无需引入新的安全风险。通常,我们通过验证可疑模型是否包含辩护人指定的外部特征的知识来进行所有权验证。具体而言,我们通过将一些训练样本带来样式转移来嵌入外部功能。然后,我们训练一个元分类器,以确定模型是否被受害者偷走了。这种方法的灵感来自于理解,即被盗模型应包含受害者模型学到的功能的知识。特别是,我们在白色框和黑框设置下开发了移动方法,以提供全面的模型保护。基准数据集的广泛实验验证了我们方法的有效性及其对潜在适应性攻击的抵抗力。复制我们方法的主要实验的代码可在\ url {https://github.com/thuyimingli/move}上获得。
translated by 谷歌翻译
特洛伊木马后门是针对神经网络(NN)分类器的中毒攻击,对手试图利用(高度理想的)模型重用属性将特洛伊木马植入模型参数中,以通过中毒训练过程进行后门漏洞。大多数针对特洛伊木马攻击的防御措施都假设了白盒设置,其中防守者可以访问NN的内部状态,或者能够通过它进行后传播。在这项工作中,我们提出了一个更实用的黑盒防御,称为Trojdef,只能在NN上进行前进。 Trojdef试图通过监视输入因随机噪声反复扰动预测置信度的变化来识别和滤除特洛伊木马输入(即用Trojan触发器增强的输入)。我们根据预测输出得出一个函数,该函数称为预测置信度,以决定输入示例是否为特洛伊木马。直觉是,由于错误分类仅取决于触发因素,因此特洛伊木马的输入更加稳定,而由于分类特征的扰动,良性输入会受到损失。通过数学分析,我们表明,如果攻击者在注入后门时是完美的,则将训练特洛伊木马感染的模型以学习适当的预测置信度结合,该模型用于区分特洛伊木马和良性输入,并在任意扰动下。但是,由于攻击者在注入后门时可能不是完美的,因此我们将非线性转换引入了预测置信度,以提高实际环境中的检测准确性。广泛的经验评估表明,即使分类器体系结构,培训过程或超参数变化,Trojdef的表现明显优于州的防御能力,并且在不同的设置下也很稳定。
translated by 谷歌翻译
机器学习容易受到对抗操作的影响。先前的文献表明,在训练阶段,攻击者可以操纵数据和数据采样程序以控制模型行为。一个共同的攻击目标是种植后门,即迫使受害者模型学会识别只有对手知道的触发因素。在本文中,我们引入了一类新的后门攻击类,这些攻击隐藏在模型体系结构内,即在用于训练的功能的电感偏置中。这些后门很容易实现,例如,通过为其他人将在不知不觉中重复使用的后式模型体系结构发布开源代码。我们证明,模型架构后门代表了一个真正的威胁,与其他方法不同,可以从头开始进行完整的重新训练。我们将建筑后门背后的主要构建原理(例如输入和输出之间的链接)形式化,并描述对它们的一些可能的保护。我们评估了对不同尺度的计算机视觉基准测试的攻击,并证明在各种培训环境中,潜在的脆弱性无处不在。
translated by 谷歌翻译
由于具有强大的功能学习能力和高效率,深层哈希在大规模图像检索中取得了巨大的成功。同时,广泛的作品表明,深层神经网络(DNN)容易受到对抗例子的影响,并且探索针对深哈希的对抗性攻击吸引了许多研究工作。然而,尚未对Backdoor攻击(对DNNS的另一个著名威胁)进行深入研究。尽管图像分类领域已经提出了各种后门攻击,但现有方法未能实现真正的不可思议的后门攻击,该攻击享受着隐形触发器并同时享受清洁标签设置,而且它们也无法满足图像检索后门的内在需求。在本文中,我们提出了Badhash,这是第一个基于生成的无透感的后门攻击,对深哈希的攻击,它可以有效地用干净的标签产生隐形和投入特定的中毒图像。具体而言,我们首先提出了一种新的条件生成对抗网络(CGAN)管道,以有效生成中毒样品。对于任何给定的良性图像,它试图产生具有独特无形扳机的自然中毒对应物。为了提高攻击效果,我们引入了基于标签的对比学习网络LabCln来利用不同标签的语义特征,随后将其用于混淆和误导目标模型以学习嵌入式触发器。我们终于探索了在哈希空间中对图像检索的后门攻击的机制。在多个基准数据集上进行的广泛实验证明,Badhash可以生成不察觉的中毒样本,具有强大的攻击能力和对最新的深层哈希方案的可转移性。主要主题领域:[参与]多媒体搜索和建议
translated by 谷歌翻译
Diffusion models are state-of-the-art deep learning empowered generative models that are trained based on the principle of learning forward and reverse diffusion processes via progressive noise-addition and denoising. To gain a better understanding of the limitations and potential risks, this paper presents the first study on the robustness of diffusion models against backdoor attacks. Specifically, we propose BadDiffusion, a novel attack framework that engineers compromised diffusion processes during model training for backdoor implantation. At the inference stage, the backdoored diffusion model will behave just like an untampered generator for regular data inputs, while falsely generating some targeted outcome designed by the bad actor upon receiving the implanted trigger signal. Such a critical risk can be dreadful for downstream tasks and applications built upon the problematic model. Our extensive experiments on various backdoor attack settings show that BadDiffusion can consistently lead to compromised diffusion models with high utility and target specificity. Even worse, BadDiffusion can be made cost-effective by simply finetuning a clean pre-trained diffusion model to implant backdoors. We also explore some possible countermeasures for risk mitigation. Our results call attention to potential risks and possible misuse of diffusion models.
translated by 谷歌翻译
链接预测,推断图形的未发现或潜在链接,被广泛应用于现实世界中。通过促进图表的标记链接作为训练数据,已经研究了许多基于深度学习的链接预测方法,与非深度方法相比,它们具有主导的预测准确性。但是,恶意制作的训练图的威胁将在深层模型中留下特定的后门,因此,当一些特定的示例被馈入模型时,它将做出错误的预测,定义为后门攻击。这是当前文献中忽略的重要方面。在本文中,我们促使后门攻击对链接预测的概念,并提出链接 - 背门以揭示现有链接预测方法的训练漏洞。具体而言,链接 - 贝克门将假节点与目标链接的节点结合在一起,形成触发器。此外,它通过目标模型的梯度信息来优化触发器。因此,在后排数据集中训练的链接预测模型将预测与目标状态触发的链接。在五个基准数据集和五个表现良好的链接预测模型上进行的广泛实验表明,链接 - 贝克门都在白色框(即目标模型参数可用)和黑色框下实现了最新的攻击成功率。框(即目标模型参数不可用)方案。此外,我们在防御性情况下作证了攻击,结果表明,链接 - 背部门仍然可以成功构建对表现良好的链接预测方法的成功攻击。代码和数据可在https://github.com/seaocn/link-backdoor上获得。
translated by 谷歌翻译
随着机器学习的应用程序价值的增加,深神经网络(DNN)的知识产权(IP)权利正在越来越关注。通过我们的分析,大多数现有的DNN水印方法都可以抵抗微调和修剪攻击,但蒸馏攻击。为了解决这些问题,我们提出了一个新的DNN水印框架,统一的软标签扰动(USP),与探测器与要水印的模型配对,并定制了软标签扰动(CSP),通过将watermark嵌入WaterMark,将摄入量嵌入到水中模型输出概率分布。实验结果表明,我们的方法可以抵抗所有水印去除攻击,并且在蒸馏攻击中表现跑赢大盘。此外,我们在主要任务和水印之间还取决了出色的权衡,达到98.68%的水印准确性,而仅影响主要任务准确性0.59%。
translated by 谷歌翻译
视觉变压器(VITS)具有与卷积神经网络相比,具有较小的感应偏置的根本不同的结构。随着绩效的提高,VIT的安全性和鲁棒性也非常重要。与许多最近利用VIT反对对抗性例子的鲁棒性的作品相反,本文调查了代表性的病因攻击,即后门。我们首先检查了VIT对各种后门攻击的脆弱性,发现VIT也很容易受到现有攻击的影响。但是,我们观察到,VIT的清洁数据准确性和后门攻击成功率在位置编码之前对补丁转换做出了明显的反应。然后,根据这一发现,我们为VIT提出了一种通过补丁处理来捍卫基于补丁的触发后门攻击的有效方法。在包括CIFAR10,GTSRB和Tinyimagenet在内的几个基准数据集上评估了这些表演,这些数据表明,该拟议的新颖防御在减轻VIT的后门攻击方面非常成功。据我们所知,本文提出了第一个防御性策略,该策略利用了反对后门攻击的VIT的独特特征。
translated by 谷歌翻译
水印是保护创作者对数字图像,视频和音频的权利的常用策略。最近,水印方法已扩展到深度学习模型 - 原则上,当对手试图复制该模型时,应保留水印。但是,实际上,智能对手通常可以去除水印。几篇论文提出了水印方法,这些方法声称对不同类型的拆除攻击具有耐药性,但是在面对新的或更好的对手时,这些新技术通常会失败。在本文中,我们提出了一种可认证的水印方法。使用Chiang等人提出的随机平滑技术,我们表明我们的水印是不明显的,除非模型参数的更改超过一定的L2阈值。除了获得认证外,与以前的水印方法相比,我们的水印在经验上也更强。我们的实验可以在https://github.com/arpitbansal297/certified_watermarks上复制。
translated by 谷歌翻译
典型的深神经网络(DNN)后门攻击基于输入中嵌入的触发因素。现有的不可察觉的触发因素在计算上昂贵或攻击成功率低。在本文中,我们提出了一个新的后门触发器,该扳机易于生成,不可察觉和高效。新的触发器是一个均匀生成的三维(3D)二进制图案,可以水平和/或垂直重复和镜像,并将其超级贴在三通道图像上,以训练后式DNN模型。新型触发器分散在整个图像中,对单个像素产生微弱的扰动,但共同拥有强大的识别模式来训练和激活DNN的后门。我们还通过分析表明,随着图像的分辨率提高,触发因素越来越有效。实验是使用MNIST,CIFAR-10和BTSR数据集上的RESNET-18和MLP模型进行的。在无遗象的方面,新触发的表现优于现有的触发器,例如Badnet,Trojaned NN和隐藏的后门。新的触发因素达到了几乎100%的攻击成功率,仅将分类准确性降低了不到0.7%-2.4%,并使最新的防御技术无效。
translated by 谷歌翻译
This paper asks the intriguing question: is it possible to exploit neural architecture search (NAS) as a new attack vector to launch previously improbable attacks? Specifically, we present EVAS, a new attack that leverages NAS to find neural architectures with inherent backdoors and exploits such vulnerability using input-aware triggers. Compared with existing attacks, EVAS demonstrates many interesting properties: (i) it does not require polluting training data or perturbing model parameters; (ii) it is agnostic to downstream fine-tuning or even re-training from scratch; (iii) it naturally evades defenses that rely on inspecting model parameters or training data. With extensive evaluation on benchmark datasets, we show that EVAS features high evasiveness, transferability, and robustness, thereby expanding the adversary's design spectrum. We further characterize the mechanisms underlying EVAS, which are possibly explainable by architecture-level ``shortcuts'' that recognize trigger patterns. This work raises concerns about the current practice of NAS and points to potential directions to develop effective countermeasures.
translated by 谷歌翻译
In this paper, we present a simple yet surprisingly effective technique to induce "selective amnesia" on a backdoored model. Our approach, called SEAM, has been inspired by the problem of catastrophic forgetting (CF), a long standing issue in continual learning. Our idea is to retrain a given DNN model on randomly labeled clean data, to induce a CF on the model, leading to a sudden forget on both primary and backdoor tasks; then we recover the primary task by retraining the randomized model on correctly labeled clean data. We analyzed SEAM by modeling the unlearning process as continual learning and further approximating a DNN using Neural Tangent Kernel for measuring CF. Our analysis shows that our random-labeling approach actually maximizes the CF on an unknown backdoor in the absence of triggered inputs, and also preserves some feature extraction in the network to enable a fast revival of the primary task. We further evaluated SEAM on both image processing and Natural Language Processing tasks, under both data contamination and training manipulation attacks, over thousands of models either trained on popular image datasets or provided by the TrojAI competition. Our experiments show that SEAM vastly outperforms the state-of-the-art unlearning techniques, achieving a high Fidelity (measuring the gap between the accuracy of the primary task and that of the backdoor) within a few minutes (about 30 times faster than training a model from scratch using the MNIST dataset), with only a small amount of clean data (0.1% of training data for TrojAI models).
translated by 谷歌翻译