虽然现实世界的增强学习应用程序(RL)越来越流行,但安全性和RL系统的鲁棒性需要更多的关注。最近的一项工作表明,在多代理RL环境中,可以将后门触发动作注入受害者(又称Trojan特工),这可能会在看到后门触发动作后立即导致灾难性故障。我们提出了RL后门检测的问题,旨在解决此安全漏洞。我们从广泛的经验研究中得出的一个有趣的观察是一种触发平滑性属性,与后门触发动作相似,正常动作也可以触发特洛伊木马的性能低。受到这一观察的启发,我们提出了一种加强学习解决方案Trojanseeker为特洛伊木马的代理找到近似触发作用,并进一步提出了一种有效的方法,以根据机器的学习来减轻特洛伊木马。实验表明,我们的方法可以正确区分和减轻各种类型的代理和环境中的所有特洛伊木马代理。
translated by 谷歌翻译
最近的研究已经证实了深度加强学习(RL)系统中的后门攻击的可行性。但是,现有攻击需要能够任意修改代理商的观察,将应用范围限制为atari游戏等简单的RL系统。在本文中,我们将后门攻击迁移到更复杂的RL系统涉及多个代理,并探讨触发后门的可能性而不直接操纵代理人的观察。作为概念证明,我们证明了对手可以在双人竞争RL系统中以自己的行动触发受害者的后门。我们在四个竞争环境中的原型和评估后杜拉利。结果表明,当后门被激活时,与未激活时,受害者的获胜率下降17%至37%。
translated by 谷歌翻译
我们调查攻击者的效果如何,当它只从受害者的行为中学习时,没有受害者的奖励。在这项工作中,当受害者的动机未知时,我们被攻击者想要行事的情景。我们认为一个启发式方法可以使用攻击者是最大化受害者政策的熵。政策通常不会被滥用,这意味着它可以通过被动地观察受害者来提取。我们以奖励无源勘探算法的形式提供这样的策略,可以在勘探阶段最大化攻击者的熵,然后在规划阶段最大化受害者的经验熵。在我们的实验中,受害者代理商通过政策熵最大化而颠覆,暗示攻击者可能无法访问受害者的奖励成功。因此,仅基于观察行为的无奖励攻击表明,即使受害者的奖励信息受到保护,攻击者的可行性也在不了解受害者的动机。
translated by 谷歌翻译
Reinforcement learning allows machines to learn from their own experience. Nowadays, it is used in safety-critical applications, such as autonomous driving, despite being vulnerable to attacks carefully crafted to either prevent that the reinforcement learning algorithm learns an effective and reliable policy, or to induce the trained agent to make a wrong decision. The literature about the security of reinforcement learning is rapidly growing, and some surveys have been proposed to shed light on this field. However, their categorizations are insufficient for choosing an appropriate defense given the kind of system at hand. In our survey, we do not only overcome this limitation by considering a different perspective, but we also discuss the applicability of state-of-the-art attacks and defenses when reinforcement learning algorithms are used in the context of autonomous driving.
translated by 谷歌翻译
沟通对于代理人共享信息并做出良好决定的许多多代理强化学习(MARL)问题很重要。但是,当在存在噪音和潜在攻击者的现实应用程序中部署训练有素的交流代理商时,基于沟通的政策的安全就会成为一个严重的问题,这些问题被忽视。具体而言,如果通过恶意攻击者操纵沟通信息,依靠不信任的交流的代理可能会采取不安全的行动,从而导致灾难性后果。因此,至关重要的是要确保代理人不会被腐败的沟通误导,同时仍然从良性的交流中受益。在这项工作中,我们考虑了一个具有$ n $代理的环境,攻击者可以任意将通信从任何$ c <\ frac {n-1} {2} $代理商转换为受害者代理。对于这种强大的威胁模型,我们通过构建一个消息集结策略来提出可认证的辩护,该策略汇总了多个随机消融的消息集。理论分析表明,这种消息安装策略可以利用良性通信,同时确保对对抗性交流,无论攻击算法如何。在多种环境中的实验证明,我们的防御能够显着改善受过训练的政策对各种攻击的鲁棒性。
translated by 谷歌翻译
增强学习的数据毒害历史上专注于一般性绩效退化,目标攻击已经通过扰动取得了成功,涉及控制受害者的政策和奖励。我们介绍了一个阴险的中毒攻误,用于加强学习,这只会在特定目标状态下引起代理人不端行为 - 所有的,而且在最小地修改小数一小部分的培训观察,而不假设任何控制政策或奖励。我们通过调整最近的技术,梯度对准来实现这一目标,以加强学习。我们测试我们的方法,并在两个Atari游戏中展示了不同困难的成功。
translated by 谷歌翻译
被证明深度神经网络(DNN)被证明是易受后门攻击的影响。后门通常通过将后门触发注入训练示例中的目标DNN嵌入到目标DNN中,这可能导致目标DNN消除附加的输入附加的输入。现有的后门检测方法通常需要访问原始中毒训练数据,目标DNN的参数,或对每个给定输入的预测置信度,这在许多实际应用中是不切实际的,例如,在设备上部署的DNN。我们地址DNN是完全黑盒的黑匣子硬标签检测问题,只能访问其最终输出标签。我们从优化角度方面接近这个问题,并表明回程检测的目标受到对抗目标的界定。进一步的理论和实证研究表明,这种对抗性物镜导致具有高度偏斜分布的溶液;在后门感染的例子的对抗性地图中经常观察到奇点,我们称之为对抗性奇点现象。基于该观察,我们提出了对抗极值分析(AEVA)来检测黑匣子神经网络中的后门。 AEVA基于来自Monte-Carlo梯度估计计算的对抗地图的极值分析。在多个流行的任务和后门攻击中通过广泛的实验证明,我们的方法有效地检测了黑匣子硬标的场景下的后门攻击。
translated by 谷歌翻译
最近的工作表明,深增强学习(DRL)政策易受对抗扰动的影响。对手可以通过扰乱药剂观察到的环境来误导DRL代理商的政策。现有攻击原则上是可行的,但在实践中面临挑战,例如通过太慢,无法实时欺骗DRL政策。我们表明,使用通用的对冲扰动(UAP)方法来计算扰动,独立于应用它们的各个输入,可以有效地欺骗DRL策略。我们描述了三种这样的攻击变体。通过使用三个Atari 2600游戏的广泛评估,我们表明我们的攻击是有效的,因为它们完全降低了三种不同的DRL代理商的性能(高达100%,即使在扰乱的$ L_ infty $绑定时也很小为0.01)。与不同DRL策略的响应时间(平均0.6ms)相比,它比不同DRL策略的响应时间(0.6ms)更快,并且比使用对抗扰动的前攻击更快(平均1.8ms)。我们还表明,我们的攻击技术是高效的,平均地产生0.027ms的在线计算成本。使用涉及机器人运动的两个进一步任务,我们确认我们的结果概括了更复杂的DRL任务。此外,我们证明了已知防御的有效性降低了普遍扰动。我们提出了一种有效的技术,可检测针对DRL政策的所有已知的对抗性扰动,包括本文呈现的所有普遍扰动。
translated by 谷歌翻译
大多数强化学习算法隐含地假设强同步。我们提出了针对Q学习的新颖攻击,该攻击通过延迟有限时间段的奖励信号来利用该假设所带来的漏洞。我们考虑了两种类型的攻击目标:目标攻击,旨在使目标政策被学习,以及不靶向的攻击,这只是旨在诱使奖励低的政策。我们通过一系列实验评估了提出的攻击的功效。我们的第一个观察结果是,当目标仅仅是为了最大程度地减少奖励时,奖励延迟​​攻击非常有效。的确,我们发现即使是天真的基线奖励 - 延迟攻击也在最大程度地减少奖励方面也非常成功。另一方面,有针对性的攻击更具挑战性,尽管我们表明,提出的方法在实现攻击者的目标方面仍然非常有效。此外,我们引入了第二个威胁模型,该模型捕获了一种最小的缓解措施,该模型可确保不能超出顺序使用奖励。我们发现,这种缓解仍然不足以确保稳定性延迟但保留奖励的命令。
translated by 谷歌翻译
数字化和远程连接扩大了攻击面,使网络系统更脆弱。由于攻击者变得越来越复杂和资源丰富,仅仅依赖传统网络保护,如入侵检测,防火墙和加密,不足以保护网络系统。网络弹性提供了一种新的安全范式,可以使用弹性机制来补充保护不足。一种网络弹性机制(CRM)适应了已知的或零日威胁和实际威胁和不确定性,并对他们进行战略性地响应,以便在成功攻击时保持网络系统的关键功能。反馈架构在启用CRM的在线感应,推理和致动过程中发挥关键作用。强化学习(RL)是一个重要的工具,对网络弹性的反馈架构构成。它允许CRM提供有限或没有事先知识和攻击者的有限攻击的顺序响应。在这项工作中,我们审查了Cyber​​恢复力的RL的文献,并讨论了对三种主要类型的漏洞,即姿势有关,与信息相关的脆弱性的网络恢复力。我们介绍了三个CRM的应用领域:移动目标防御,防守网络欺骗和辅助人类安全技术。 RL算法也有漏洞。我们解释了RL的三个漏洞和目前的攻击模型,其中攻击者针对环境与代理商之间交换的信息:奖励,国家观察和行动命令。我们展示攻击者可以通过最低攻击努力来欺骗RL代理商学习邪恶的政策。最后,我们讨论了RL为基于RL的CRM的网络安全和恢复力和新兴应用的未来挑战。
translated by 谷歌翻译
在各种零和游戏中,自我播放的增强学习已经达到了最先进的,通常是超人的表现。然而,先前的工作发现,反对常规对手的政策能够在灾难性的情况下对对抗性政策失败:一个对受害者明确训练的对手。使用对抗训练的先前防御能够使受害者对特定的对手有牢固的态度,但受害者仍然容易受到新的对手。我们猜想这种限制是由于训练过程中看到的对手多样性不足。我们建议使用基于人口的训练的辩护,以使受害者对抗各种各样的对手。我们在两个低维环境中评估了这种防御对新对手的鲁棒性。通过攻击者训练时间步长以利用受害者的数量来衡量,我们的防守对对抗者提高了对手的鲁棒性。此外,我们表明鲁棒性与对手人群的大小相关。
translated by 谷歌翻译
最近的作品表明,深度学习模型容易受到后门中毒攻击的影响,在这些攻击中,这些攻击灌输了与外部触发模式或物体(例如贴纸,太阳镜等)的虚假相关性。我们发现这种外部触发信号是不必要的,因为可以使用基于旋转的图像转换轻松插入高效的后门。我们的方法通过旋转有限数量的对象并将其标记错误来构建中毒数据集;一旦接受过培训,受害者的模型将在运行时间推理期间做出不良的预测。它表现出明显的攻击成功率,同时通过有关图像分类和对象检测任务的全面实证研究来保持清洁绩效。此外,我们评估了标准数据增强技术和针对我们的攻击的四种不同的后门防御措施,发现它们都无法作为一致的缓解方法。正如我们在图像分类和对象检测应用程序中所示,我们的攻击只能在现实世界中轻松部署在现实世界中。总体而言,我们的工作突出了一个新的,简单的,物理上可实现的,高效的矢量,用于后门攻击。我们的视频演示可在https://youtu.be/6jif8wnx34m上找到。
translated by 谷歌翻译
针对AI系统的对抗性例子通过恶意攻击和通过对抗性训练提高鲁棒性的机会构成了风险。在多种设置中,可以通过培训对抗代理以最大程度地减少受害者的奖励来制定对抗性政策。先前的工作研究了黑盒攻击,在这种攻击中,对手只看到州的观察结果,并有效地将受害者视为环境的任何其他部分。在这项工作中,我们实验白盒对抗性政策,以研究代理人的内部状态是否可以为其他代理提供有用的信息。我们做出三项贡献。首先,我们介绍了白盒对抗性政策,其中攻击者可以在每个时间步长观察受害者的内部状态。其次,我们证明了对受害者的白框访问可以在两种经纪环境中进行更好的攻击,从而导致对受害者的初始学习和更高的渐近表现。第三,我们表明,针对白盒对抗性策略的培训可用于使在单一环境中的学习者更强大,以使域转移更强大。
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译
部署到现实世界的自主智能代理必须与对感官输入的对抗性攻击保持强大的态度。在加强学习中的现有工作集中于最小值扰动攻击,这些攻击最初是为了模仿计算机视觉中感知不变性的概念。在本文中,我们注意到,这种最小值扰动攻击可以由受害者琐碎地检测到,因为这些导致观察序列与受害者的行为不符。此外,许多现实世界中的代理商(例如物理机器人)通常在人类主管下运行,这些代理商不容易受到这种扰动攻击的影响。结果,我们建议专注于幻觉攻击,这是一种与受害者的世界模式一致的新型攻击形式。我们为这个新颖的攻击框架提供了正式的定义,在各种条件下探索了其特征,并得出结论,代理必须寻求现实主义反馈以对幻觉攻击具有强大的态度。
translated by 谷歌翻译
深增强学习模型容易受到对抗的攻击,可以通过操纵受害者的观察来减少受害者的累积预期奖励。尽管以前的优化基于优化的方法效率,用于在监督学习中产生对抗性噪声,因此这些方法可能无法实现最低的累积奖励,因为它们通常不会探索环境动态。在本文中,我们提供了一个框架,以通过重新制定函数空间中加固学习的对抗攻击问题来更好地了解现有方法。我们的重构在有针对性攻击的功能空间中产生最佳对手,通过通用的两级框架来排斥它们。在第一阶段,我们通过黑客攻击环境来培训欺骗性政策,并发现一组轨迹路由到最低奖励或最坏情况性能。接下来,对手误导受害者通过扰乱观察来模仿欺骗性政策。与现有方法相比,我们理论上表明我们的对手在适当的噪声水平下更强大。广泛的实验展示了我们在效率和效力方面的优越性,在Atari和Mujoco环境中实现了最先进的性能。
translated by 谷歌翻译
视觉变压器(VITS)具有与卷积神经网络相比,具有较小的感应偏置的根本不同的结构。随着绩效的提高,VIT的安全性和鲁棒性也非常重要。与许多最近利用VIT反对对抗性例子的鲁棒性的作品相反,本文调查了代表性的病因攻击,即后门。我们首先检查了VIT对各种后门攻击的脆弱性,发现VIT也很容易受到现有攻击的影响。但是,我们观察到,VIT的清洁数据准确性和后门攻击成功率在位置编码之前对补丁转换做出了明显的反应。然后,根据这一发现,我们为VIT提出了一种通过补丁处理来捍卫基于补丁的触发后门攻击的有效方法。在包括CIFAR10,GTSRB和Tinyimagenet在内的几个基准数据集上评估了这些表演,这些数据表明,该拟议的新颖防御在减轻VIT的后门攻击方面非常成功。据我们所知,本文提出了第一个防御性策略,该策略利用了反对后门攻击的VIT的独特特征。
translated by 谷歌翻译
Reinforcement learning (RL) is one of the most important branches of AI. Due to its capacity for self-adaption and decision-making in dynamic environments, reinforcement learning has been widely applied in multiple areas, such as healthcare, data markets, autonomous driving, and robotics. However, some of these applications and systems have been shown to be vulnerable to security or privacy attacks, resulting in unreliable or unstable services. A large number of studies have focused on these security and privacy problems in reinforcement learning. However, few surveys have provided a systematic review and comparison of existing problems and state-of-the-art solutions to keep up with the pace of emerging threats. Accordingly, we herein present such a comprehensive review to explain and summarize the challenges associated with security and privacy in reinforcement learning from a new perspective, namely that of the Markov Decision Process (MDP). In this survey, we first introduce the key concepts related to this area. Next, we cover the security and privacy issues linked to the state, action, environment, and reward function of the MDP process, respectively. We further highlight the special characteristics of security and privacy methodologies related to reinforcement learning. Finally, we discuss the possible future research directions within this area.
translated by 谷歌翻译
与令人印象深刻的进步触动了我们社会的各个方面,基于深度神经网络(DNN)的AI技术正在带来越来越多的安全问题。虽然在考试时间运行的攻击垄断了研究人员的初始关注,但是通过干扰培训过程来利用破坏DNN模型的可能性,代表了破坏训练过程的可能性,这是破坏AI技术的可靠性的进一步严重威胁。在后门攻击中,攻击者损坏了培训数据,以便在测试时间诱导错误的行为。然而,测试时间误差仅在存在与正确制作的输入样本对应的触发事件的情况下被激活。通过这种方式,损坏的网络继续正常输入的预期工作,并且只有当攻击者决定激活网络内隐藏的后门时,才会发生恶意行为。在过去几年中,后门攻击一直是强烈的研究活动的主题,重点是新的攻击阶段的发展,以及可能对策的提议。此概述文件的目标是审查发表的作品,直到现在,分类到目前为止提出的不同类型的攻击和防御。指导分析的分类基于攻击者对培训过程的控制量,以及防御者验证用于培训的数据的完整性,并监控DNN在培训和测试中的操作时间。因此,拟议的分析特别适合于参考他们在运营的应用方案的攻击和防御的强度和弱点。
translated by 谷歌翻译
Backdoor attacks have emerged as one of the major security threats to deep learning models as they can easily control the model's test-time predictions by pre-injecting a backdoor trigger into the model at training time. While backdoor attacks have been extensively studied on images, few works have investigated the threat of backdoor attacks on time series data. To fill this gap, in this paper we present a novel generative approach for time series backdoor attacks against deep learning based time series classifiers. Backdoor attacks have two main goals: high stealthiness and high attack success rate. We find that, compared to images, it can be more challenging to achieve the two goals on time series. This is because time series have fewer input dimensions and lower degrees of freedom, making it hard to achieve a high attack success rate without compromising stealthiness. Our generative approach addresses this challenge by generating trigger patterns that are as realistic as real-time series patterns while achieving a high attack success rate without causing a significant drop in clean accuracy. We also show that our proposed attack is resistant to potential backdoor defenses. Furthermore, we propose a novel universal generator that can poison any type of time series with a single generator that allows universal attacks without the need to fine-tune the generative model for new time series datasets.
translated by 谷歌翻译