Deep Neural Networks have recently gained lots of success after enabling several breakthroughs in notoriously challenging problems. Training these networks is computationally expensive and requires vast amounts of training data. Selling such pre-trained models can, therefore, be a lucrative business model. Unfortunately, once the models are sold they can be easily copied and redistributed. To avoid this, a tracking mechanism to identify models as the intellectual property of a particular vendor is necessary.In this work, we present an approach for watermarking Deep Neural Networks in a black-box way. Our scheme works for general classification tasks and can easily be combined with current learning algorithms. We show experimentally that such a watermark has no noticeable impact on the primary task that the model is designed for and evaluate the robustness of our proposal against a multitude of practical attacks. Moreover, we provide a theoretical analysis, relating our approach to previous work on backdooring.
translated by 谷歌翻译
机器学习(ML)模型应用于越来越多的域。大量数据和计算资源的可用性鼓励开发更复杂和有价值的模型。这些模型被认为是培训他们的合法缔约方的知识产权,这使得他们防止窃取,非法再分配和未经授权的应用迫切需要。数字水印为标记模型所有权提供了强大的机制,从而提供了对这些威胁的保护。这项工作介绍了ML模型的不同类别水印方案的分类识别和分析。它介绍了一个统一的威胁模型,以允许在不同场景中进行水印方法的有效性的结构化推理和比较。此外,它系统化了期望的安全要求和攻击ML模型水印。根据该框架,调查了该领域的代表文学以说明分类法。最后,讨论了现有方法的缺点和普遍局限性,给出了未来研究方向的前景。
translated by 谷歌翻译
水印是保护创作者对数字图像,视频和音频的权利的常用策略。最近,水印方法已扩展到深度学习模型 - 原则上,当对手试图复制该模型时,应保留水印。但是,实际上,智能对手通常可以去除水印。几篇论文提出了水印方法,这些方法声称对不同类型的拆除攻击具有耐药性,但是在面对新的或更好的对手时,这些新技术通常会失败。在本文中,我们提出了一种可认证的水印方法。使用Chiang等人提出的随机平滑技术,我们表明我们的水印是不明显的,除非模型参数的更改超过一定的L2阈值。除了获得认证外,与以前的水印方法相比,我们的水印在经验上也更强。我们的实验可以在https://github.com/arpitbansal297/certified_watermarks上复制。
translated by 谷歌翻译
已经提出了安全的多方计算(MPC),以允许多个相互不信任的数据所有者在其合并数据上共同训练机器学习(ML)模型。但是,通过设计,MPC协议忠实地计算了训练功能,对抗性ML社区已证明该功能泄漏了私人信息,并且可以在中毒攻击中篡改。在这项工作中,我们认为在我们的框架中实现的模型合奏是一种称为Safenet的框架,是MPC的高度无限方法,可以避免许多对抗性ML攻击。 MPC培训中所有者之间数据的自然分区允许这种方法在训练时间高度可扩展,可证明可保护免受中毒攻击的保护,并证明可以防御许多隐私攻击。我们展示了Safenet对在端到端和转移学习方案训练的几个机器学习数据集和模型上中毒的效率,准确性和韧性。例如,Safenet可显着降低后门攻击的成功,同时获得$ 39 \ times $ $的培训,$ 36 \ times $ $ $少于达尔斯科夫(Dalskov)等人的四方MPC框架。我们的实验表明,即使在许多非IID设置中,结合也能保留这些好处。结合的简单性,廉价的设置和鲁棒性属性使其成为MPC私下培训ML模型的强大首选。
translated by 谷歌翻译
与令人印象深刻的进步触动了我们社会的各个方面,基于深度神经网络(DNN)的AI技术正在带来越来越多的安全问题。虽然在考试时间运行的攻击垄断了研究人员的初始关注,但是通过干扰培训过程来利用破坏DNN模型的可能性,代表了破坏训练过程的可能性,这是破坏AI技术的可靠性的进一步严重威胁。在后门攻击中,攻击者损坏了培训数据,以便在测试时间诱导错误的行为。然而,测试时间误差仅在存在与正确制作的输入样本对应的触发事件的情况下被激活。通过这种方式,损坏的网络继续正常输入的预期工作,并且只有当攻击者决定激活网络内隐藏的后门时,才会发生恶意行为。在过去几年中,后门攻击一直是强烈的研究活动的主题,重点是新的攻击阶段的发展,以及可能对策的提议。此概述文件的目标是审查发表的作品,直到现在,分类到目前为止提出的不同类型的攻击和防御。指导分析的分类基于攻击者对培训过程的控制量,以及防御者验证用于培训的数据的完整性,并监控DNN在培训和测试中的操作时间。因此,拟议的分析特别适合于参考他们在运营的应用方案的攻击和防御的强度和弱点。
translated by 谷歌翻译
机器学习容易受到对抗操作的影响。先前的文献表明,在训练阶段,攻击者可以操纵数据和数据采样程序以控制模型行为。一个共同的攻击目标是种植后门,即迫使受害者模型学会识别只有对手知道的触发因素。在本文中,我们引入了一类新的后门攻击类,这些攻击隐藏在模型体系结构内,即在用于训练的功能的电感偏置中。这些后门很容易实现,例如,通过为其他人将在不知不觉中重复使用的后式模型体系结构发布开源代码。我们证明,模型架构后门代表了一个真正的威胁,与其他方法不同,可以从头开始进行完整的重新训练。我们将建筑后门背后的主要构建原理(例如输入和输出之间的链接)形式化,并描述对它们的一些可能的保护。我们评估了对不同尺度的计算机视觉基准测试的攻击,并证明在各种培训环境中,潜在的脆弱性无处不在。
translated by 谷歌翻译
野外的机器学习模型已被证明在训练过程中容易受到特洛伊木马攻击的影响。尽管已经提出了许多检测机制,但已证明强大的适应性攻击者对他们有效。在本文中,我们旨在回答考虑一个聪明和适应性对手的问题:(i)强大的攻击者将木马所需的最小实例数量是多少? (ii)这样的攻击者是否有可能绕过强大的检测机制?我们提供了这种模型中发生的对抗和检测机制之间的对抗能力和战略相互作用的分析表征。我们根据输入数据集的分数来表征对手的能力,该输入数据集的分数可以嵌入特洛伊木马触发器。我们表明,损耗函数具有一个集中结构,该结构导致设计有效的算法,以确定这一部分,并在最优性方面可证明的界限。我们提出了一种子模型特洛伊算法,以确定样品的最小分数,以注入特洛伊木马触发器。为了逃避对木马模型的检测,我们将对手和特洛伊木马检测机制之间的战略相互作用建模为两人游戏。我们表明,对手以概率赢得了游戏,从而绕开了检测。我们通过证明特洛伊木马模型和干净模型的输出概率分布在遵循Min-Max(MM)Trojan算法时相同。我们对MNIST,CIFAR-10和EUROSAT数据集进行了广泛的评估。结果表明,(i)使用subsodular trojan算法,对手需要将特洛伊木马扳机嵌入很少的样品中,以在Trojan和干净的样品上获得高精度,以及(ii)MM Trojan算法会产生训练有素的经训练的Trojan以概率1逃避检测的模型。
translated by 谷歌翻译
学习证明(POL)建议模型所有者使用机器学习培训检查站,以建立已经花费了必要的培训计算的证明。 POL FIREGO加密方法和贸易严格的安全性的作者通过适用于随机梯度下降和适应性变体,可扩展到深度学习。缺乏正式分析使攻击者可能能够为他们没有训练的模型提供证据。我们对为什么不能正式(DIS)正式分析POL协议可抵抗欺骗对手。为此,我们在POL中解开了证明验证的两个角色:(a)有效确定证明是否是有效的梯度下降轨迹,以及(b)确定优先级,使在培训完成后制作证明(即。 ,欺骗)。我们表明,有效的验证会导致接受合法证明和拒绝无效的证据之间的权衡,因为深度学习必然涉及噪音。没有针对这种噪声如何影响训练的精确分析模型,我们无法正式保证POL验证算法是否强大。然后,我们证明,建立优先级也可以鲁棒化地减少到学习理论中的一个开放问题:欺骗Pol Pol hoc hoc训练类似于在非凸X学习中找到具有相同终点的不同轨迹。但是,我们不严格地知道对最终模型权重的先验知识是否有助于发现此类轨迹。我们得出的结论是,在解决上述开放问题之前,可能需要更严重地依靠密码学来制定新的POL协议,并提供正式的鲁棒性保证。特别是,这将有助于建立优先级。作为我们分析的见解的副产品,我们还展示了对POL的两次新攻击。
translated by 谷歌翻译
联合学习模型是根据多方拥有的宝贵培训数据进行协作开发的。在联合模型的开发和部署过程中,它们会面临风险,包括非法复制,重新分配,滥用和/或自由骑行。为了解决这些风险,联合学习模型的所有权验证是保护联合学习模型知识产权(IPR)(即Fedipr)的先决条件。我们提出了一种新颖的联邦深神经网络(FedDNN)所有权验证计划,该计划允许将专用水印嵌入并进行验证,以声称是FedDNN模型的合法IPR。在拟议的计划中,每个客户都独立验证了模型水印的存在,并索赔联合模型的所有权,而没有透露私人培训数据也没有私人水印信息。从理论上讲,嵌入式水印的有效性是通过对多个客户私下嵌入并检测到的水印的严格分析来证明的。此外,关于计算机视觉和自然语言处理任务的广泛实验结果表明,可以嵌入并可靠地检测到不同的位水印,而不会损害原始模型性能。我们的水印方案还具有各种联合训练环境的弹性,并防止拆除攻击。
translated by 谷歌翻译
最近的研究表明,深神经网络(DNN)易受对抗性攻击的影响,包括逃避和后门(中毒)攻击。在防守方面,有密集的努力,改善了对逃避袭击的经验和可怜的稳健性;然而,对后门攻击的可稳健性仍然很大程度上是未开发的。在本文中,我们专注于认证机器学习模型稳健性,反对一般威胁模型,尤其是后门攻击。我们首先通过随机平滑技术提供统一的框架,并展示如何实例化以证明对逃避和后门攻击的鲁棒性。然后,我们提出了第一个强大的培训过程Rab,以平滑训练有素的模型,并证明其稳健性对抗后门攻击。我们派生机学习模型的稳健性突出了培训的机器学习模型,并证明我们的鲁棒性受到紧张。此外,我们表明,可以有效地训练强大的平滑模型,以适用于诸如k最近邻分类器的简单模型,并提出了一种精确的平滑训练算法,该算法消除了从这种模型的噪声分布采样采样的需要。经验上,我们对MNIST,CIFAR-10和Imagenet数据集等DNN,差异私有DNN和K-NN模型等不同机器学习(ML)型号进行了全面的实验,并为反卧系攻击提供认证稳健性的第一个基准。此外,我们在SPAMBase表格数据集上评估K-NN模型,以展示所提出的精确算法的优点。对多元化模型和数据集的综合评价既有关于普通训练时间攻击的进一步强劲学习策略的多样化模型和数据集的综合评价。
translated by 谷歌翻译
In this paper, we present a simple yet surprisingly effective technique to induce "selective amnesia" on a backdoored model. Our approach, called SEAM, has been inspired by the problem of catastrophic forgetting (CF), a long standing issue in continual learning. Our idea is to retrain a given DNN model on randomly labeled clean data, to induce a CF on the model, leading to a sudden forget on both primary and backdoor tasks; then we recover the primary task by retraining the randomized model on correctly labeled clean data. We analyzed SEAM by modeling the unlearning process as continual learning and further approximating a DNN using Neural Tangent Kernel for measuring CF. Our analysis shows that our random-labeling approach actually maximizes the CF on an unknown backdoor in the absence of triggered inputs, and also preserves some feature extraction in the network to enable a fast revival of the primary task. We further evaluated SEAM on both image processing and Natural Language Processing tasks, under both data contamination and training manipulation attacks, over thousands of models either trained on popular image datasets or provided by the TrojAI competition. Our experiments show that SEAM vastly outperforms the state-of-the-art unlearning techniques, achieving a high Fidelity (measuring the gap between the accuracy of the primary task and that of the backdoor) within a few minutes (about 30 times faster than training a model from scratch using the MNIST dataset), with only a small amount of clean data (0.1% of training data for TrojAI models).
translated by 谷歌翻译
计算能力和大型培训数据集的可用性增加,机器学习的成功助长了。假设它充分代表了在测试时遇到的数据,则使用培训数据来学习新模型或更新现有模型。这种假设受到中毒威胁的挑战,这种攻击会操纵训练数据,以损害模型在测试时的表现。尽管中毒已被认为是行业应用中的相关威胁,到目前为止,已经提出了各种不同的攻击和防御措施,但对该领域的完整系统化和批判性审查仍然缺失。在这项调查中,我们在机器学习中提供了中毒攻击和防御措施的全面系统化,审查了过去15年中该领域发表的100多篇论文。我们首先对当前的威胁模型和攻击进行分类,然后相应地组织现有防御。虽然我们主要关注计算机视觉应用程序,但我们认为我们的系统化还包括其他数据模式的最新攻击和防御。最后,我们讨论了中毒研究的现有资源,并阐明了当前的局限性和该研究领域的开放研究问题。
translated by 谷歌翻译
典型的深神经网络(DNN)后门攻击基于输入中嵌入的触发因素。现有的不可察觉的触发因素在计算上昂贵或攻击成功率低。在本文中,我们提出了一个新的后门触发器,该扳机易于生成,不可察觉和高效。新的触发器是一个均匀生成的三维(3D)二进制图案,可以水平和/或垂直重复和镜像,并将其超级贴在三通道图像上,以训练后式DNN模型。新型触发器分散在整个图像中,对单个像素产生微弱的扰动,但共同拥有强大的识别模式来训练和激活DNN的后门。我们还通过分析表明,随着图像的分辨率提高,触发因素越来越有效。实验是使用MNIST,CIFAR-10和BTSR数据集上的RESNET-18和MLP模型进行的。在无遗象的方面,新触发的表现优于现有的触发器,例如Badnet,Trojaned NN和隐藏的后门。新的触发因素达到了几乎100%的攻击成功率,仅将分类准确性降低了不到0.7%-2.4%,并使最新的防御技术无效。
translated by 谷歌翻译
Neural networks provide state-of-the-art results for most machine learning tasks. Unfortunately, neural networks are vulnerable to adversarial examples: given an input x and any target classification t, it is possible to find a new input x that is similar to x but classified as t. This makes it difficult to apply neural networks in security-critical areas. Defensive distillation is a recently proposed approach that can take an arbitrary neural network, and increase its robustness, reducing the success rate of current attacks' ability to find adversarial examples from 95% to 0.5%.In this paper, we demonstrate that defensive distillation does not significantly increase the robustness of neural networks by introducing three new attack algorithms that are successful on both distilled and undistilled neural networks with 100% probability. Our attacks are tailored to three distance metrics used previously in the literature, and when compared to previous adversarial example generation algorithms, our attacks are often much more effective (and never worse). Furthermore, we propose using high-confidence adversarial examples in a simple transferability test we show can also be used to break defensive distillation. We hope our attacks will be used as a benchmark in future defense attempts to create neural networks that resist adversarial examples.
translated by 谷歌翻译
图形神经网络(GNNS)在各种现实世界应用中取得了有希望的性能。建立一个强大的GNN模型不是一个琐碎的任务,因为它需要大量的培训数据,强大的计算资源和微调模型的人类专业知识。更重要的是,随着对抗性攻击的发展,例如,模型窃取攻击,GNNS提出了模型认证的挑战。为避免对GNN的版权侵犯,有必要验证GNN模型的所有权。在本文中,我们为图形和节点分类任务提供了一种用于GNN的水印框架。我们1)设计两种策略来为图形分类生成水印数据,一个用于节点分类任务,2)通过培训将水印嵌入到主机模型中,以获得水印的GNN模型,3)验证可疑模型的所有权在黑盒设置中。实验表明,我们的框架可以验证GNN模型的所有权,具有非常高的概率(约100亿美元)的任务。此外,我们实验表明,即使在考虑到从不同架构获得的可疑模型比所有者的可疑模型,我们的水印方法也仍然有效。
translated by 谷歌翻译
随着自然语言处理(NLP)技术的快速发展,NLP模型在业务中表现出巨大的经济价值。但是,所有者的模型容易受到盗版再分配的威胁,这打破了模型所有者与消费者之间的对称关系。因此,需要一种模型保护机制来防止对称性被打破。当前,基于黑框验证的语言模型保护方案在触发样品的隐形方面的性能较差,这些触发样品很容易被人类或异常检测器检测到,从而防止验证。为了解决此问题,本文提出了无触发模式的触发样本,以进行所有权验证。此外,小偷可能会替换以水印模型来满足其特定分类任务并删除模型中存在的水印的分类模块。因此,本文进一步提出了一个新的威胁,以替换模型分类模块并对模型进行全局微调,并通过白色框方法成功验证模型所有权。同时,我们使用区块链的特性,例如防篡改和可追溯性,以防止盗贼的所有权声明。实验表明,所提出的方案成功地验证了100%水印验证精度的所有权,而不会影响模型的原始性能,并且具有强大的鲁棒性和低的虚假触发率。
translated by 谷歌翻译
特洛伊木马后门是针对神经网络(NN)分类器的中毒攻击,对手试图利用(高度理想的)模型重用属性将特洛伊木马植入模型参数中,以通过中毒训练过程进行后门漏洞。大多数针对特洛伊木马攻击的防御措施都假设了白盒设置,其中防守者可以访问NN的内部状态,或者能够通过它进行后传播。在这项工作中,我们提出了一个更实用的黑盒防御,称为Trojdef,只能在NN上进行前进。 Trojdef试图通过监视输入因随机噪声反复扰动预测置信度的变化来识别和滤除特洛伊木马输入(即用Trojan触发器增强的输入)。我们根据预测输出得出一个函数,该函数称为预测置信度,以决定输入示例是否为特洛伊木马。直觉是,由于错误分类仅取决于触发因素,因此特洛伊木马的输入更加稳定,而由于分类特征的扰动,良性输入会受到损失。通过数学分析,我们表明,如果攻击者在注入后门时是完美的,则将训练特洛伊木马感染的模型以学习适当的预测置信度结合,该模型用于区分特洛伊木马和良性输入,并在任意扰动下。但是,由于攻击者在注入后门时可能不是完美的,因此我们将非线性转换引入了预测置信度,以提高实际环境中的检测准确性。广泛的经验评估表明,即使分类器体系结构,培训过程或超参数变化,Trojdef的表现明显优于州的防御能力,并且在不同的设置下也很稳定。
translated by 谷歌翻译
Backdoor attacks represent one of the major threats to machine learning models. Various efforts have been made to mitigate backdoors. However, existing defenses have become increasingly complex and often require high computational resources or may also jeopardize models' utility. In this work, we show that fine-tuning, one of the most common and easy-to-adopt machine learning training operations, can effectively remove backdoors from machine learning models while maintaining high model utility. Extensive experiments over three machine learning paradigms show that fine-tuning and our newly proposed super-fine-tuning achieve strong defense performance. Furthermore, we coin a new term, namely backdoor sequela, to measure the changes in model vulnerabilities to other attacks before and after the backdoor has been removed. Empirical evaluation shows that, compared to other defense methods, super-fine-tuning leaves limited backdoor sequela. We hope our results can help machine learning model owners better protect their models from backdoor threats. Also, it calls for the design of more advanced attacks in order to comprehensively assess machine learning models' backdoor vulnerabilities.
translated by 谷歌翻译
使用转移学习将预先训练的“源模型”调整为下游“目标任务”可以大大提高性能,而似乎没有缺点。在这项工作中,我们证明毕竟可能存在一个缺点:偏差转移或源模型偏见的趋势,即使将模型调整为目标类别后,也可以持续存在。通过合成和自然实验的组合,我们表明偏差转移(a)是在现实设置中(例如,在图像网或其他标准数据集上进行预训练时)以及(b)即使明确数据也可能发生(b) - 偏见。随着转移学习的模型越来越多地在现实世界中部署,我们的工作突出了理解预训练源模型的局限性的重要性。代码可从https://github.com/madrylab/bias-transfer获得
translated by 谷歌翻译
后门数据中毒攻击是一种对抗的攻击,其中攻击者将几个水印,误标记的训练示例注入训练集中。水印不会影响典型数据模型的测试时间性能;但是,该模型在水印示例中可靠地错误。为获得对后门数据中毒攻击的更好的基础认识,我们展示了一个正式的理论框架,其中一个人可以讨论对分类问题的回溯数据中毒攻击。然后我们使用它来分析这些攻击的重要统计和计算问题。在统计方面,我们识别一个参数,我们称之为记忆能力,捕捉到后门攻击的学习问题的内在脆弱性。这使我们能够争论几个自然学习问题的鲁棒性与后门攻击。我们的结果,攻击者涉及介绍后门攻击的明确建设,我们的鲁棒性结果表明,一些自然问题设置不能产生成功的后门攻击。从计算的角度来看,我们表明,在某些假设下,对抗训练可以检测训练集中的后门的存在。然后,我们表明,在类似的假设下,我们称之为呼叫滤波和鲁棒概括的两个密切相关的问题几乎等同。这意味着它既是渐近必要的,并且足以设计算法,可以识别训练集中的水印示例,以便获得既广泛概念的学习算法,以便在室外稳健。
translated by 谷歌翻译