最近的研究已经证实了深度加强学习(RL)系统中的后门攻击的可行性。但是,现有攻击需要能够任意修改代理商的观察,将应用范围限制为atari游戏等简单的RL系统。在本文中,我们将后门攻击迁移到更复杂的RL系统涉及多个代理,并探讨触发后门的可能性而不直接操纵代理人的观察。作为概念证明,我们证明了对手可以在双人竞争RL系统中以自己的行动触发受害者的后门。我们在四个竞争环境中的原型和评估后杜拉利。结果表明,当后门被激活时,与未激活时,受害者的获胜率下降17%至37%。
translated by 谷歌翻译
虽然现实世界的增强学习应用程序(RL)越来越流行,但安全性和RL系统的鲁棒性需要更多的关注。最近的一项工作表明,在多代理RL环境中,可以将后门触发动作注入受害者(又称Trojan特工),这可能会在看到后门触发动作后立即导致灾难性故障。我们提出了RL后门检测的问题,旨在解决此安全漏洞。我们从广泛的经验研究中得出的一个有趣的观察是一种触发平滑性属性,与后门触发动作相似,正常动作也可以触发特洛伊木马的性能低。受到这一观察的启发,我们提出了一种加强学习解决方案Trojanseeker为特洛伊木马的代理找到近似触发作用,并进一步提出了一种有效的方法,以根据机器的学习来减轻特洛伊木马。实验表明,我们的方法可以正确区分和减轻各种类型的代理和环境中的所有特洛伊木马代理。
translated by 谷歌翻译
Reinforcement learning allows machines to learn from their own experience. Nowadays, it is used in safety-critical applications, such as autonomous driving, despite being vulnerable to attacks carefully crafted to either prevent that the reinforcement learning algorithm learns an effective and reliable policy, or to induce the trained agent to make a wrong decision. The literature about the security of reinforcement learning is rapidly growing, and some surveys have been proposed to shed light on this field. However, their categorizations are insufficient for choosing an appropriate defense given the kind of system at hand. In our survey, we do not only overcome this limitation by considering a different perspective, but we also discuss the applicability of state-of-the-art attacks and defenses when reinforcement learning algorithms are used in the context of autonomous driving.
translated by 谷歌翻译
在各种零和游戏中,自我播放的增强学习已经达到了最先进的,通常是超人的表现。然而,先前的工作发现,反对常规对手的政策能够在灾难性的情况下对对抗性政策失败:一个对受害者明确训练的对手。使用对抗训练的先前防御能够使受害者对特定的对手有牢固的态度,但受害者仍然容易受到新的对手。我们猜想这种限制是由于训练过程中看到的对手多样性不足。我们建议使用基于人口的训练的辩护,以使受害者对抗各种各样的对手。我们在两个低维环境中评估了这种防御对新对手的鲁棒性。通过攻击者训练时间步长以利用受害者的数量来衡量,我们的防守对对抗者提高了对手的鲁棒性。此外,我们表明鲁棒性与对手人群的大小相关。
translated by 谷歌翻译
针对AI系统的对抗性例子通过恶意攻击和通过对抗性训练提高鲁棒性的机会构成了风险。在多种设置中,可以通过培训对抗代理以最大程度地减少受害者的奖励来制定对抗性政策。先前的工作研究了黑盒攻击,在这种攻击中,对手只看到州的观察结果,并有效地将受害者视为环境的任何其他部分。在这项工作中,我们实验白盒对抗性政策,以研究代理人的内部状态是否可以为其他代理提供有用的信息。我们做出三项贡献。首先,我们介绍了白盒对抗性政策,其中攻击者可以在每个时间步长观察受害者的内部状态。其次,我们证明了对受害者的白框访问可以在两种经纪环境中进行更好的攻击,从而导致对受害者的初始学习和更高的渐近表现。第三,我们表明,针对白盒对抗性策略的培训可用于使在单一环境中的学习者更强大,以使域转移更强大。
translated by 谷歌翻译
增强学习的数据毒害历史上专注于一般性绩效退化,目标攻击已经通过扰动取得了成功,涉及控制受害者的政策和奖励。我们介绍了一个阴险的中毒攻误,用于加强学习,这只会在特定目标状态下引起代理人不端行为 - 所有的,而且在最小地修改小数一小部分的培训观察,而不假设任何控制政策或奖励。我们通过调整最近的技术,梯度对准来实现这一目标,以加强学习。我们测试我们的方法,并在两个Atari游戏中展示了不同困难的成功。
translated by 谷歌翻译
Reinforcement learning (RL) is one of the most important branches of AI. Due to its capacity for self-adaption and decision-making in dynamic environments, reinforcement learning has been widely applied in multiple areas, such as healthcare, data markets, autonomous driving, and robotics. However, some of these applications and systems have been shown to be vulnerable to security or privacy attacks, resulting in unreliable or unstable services. A large number of studies have focused on these security and privacy problems in reinforcement learning. However, few surveys have provided a systematic review and comparison of existing problems and state-of-the-art solutions to keep up with the pace of emerging threats. Accordingly, we herein present such a comprehensive review to explain and summarize the challenges associated with security and privacy in reinforcement learning from a new perspective, namely that of the Markov Decision Process (MDP). In this survey, we first introduce the key concepts related to this area. Next, we cover the security and privacy issues linked to the state, action, environment, and reward function of the MDP process, respectively. We further highlight the special characteristics of security and privacy methodologies related to reinforcement learning. Finally, we discuss the possible future research directions within this area.
translated by 谷歌翻译
我们调查攻击者的效果如何,当它只从受害者的行为中学习时,没有受害者的奖励。在这项工作中,当受害者的动机未知时,我们被攻击者想要行事的情景。我们认为一个启发式方法可以使用攻击者是最大化受害者政策的熵。政策通常不会被滥用,这意味着它可以通过被动地观察受害者来提取。我们以奖励无源勘探算法的形式提供这样的策略,可以在勘探阶段最大化攻击者的熵,然后在规划阶段最大化受害者的经验熵。在我们的实验中,受害者代理商通过政策熵最大化而颠覆,暗示攻击者可能无法访问受害者的奖励成功。因此,仅基于观察行为的无奖励攻击表明,即使受害者的奖励信息受到保护,攻击者的可行性也在不了解受害者的动机。
translated by 谷歌翻译
深增强学习模型容易受到对抗的攻击,可以通过操纵受害者的观察来减少受害者的累积预期奖励。尽管以前的优化基于优化的方法效率,用于在监督学习中产生对抗性噪声,因此这些方法可能无法实现最低的累积奖励,因为它们通常不会探索环境动态。在本文中,我们提供了一个框架,以通过重新制定函数空间中加固学习的对抗攻击问题来更好地了解现有方法。我们的重构在有针对性攻击的功能空间中产生最佳对手,通过通用的两级框架来排斥它们。在第一阶段,我们通过黑客攻击环境来培训欺骗性政策,并发现一组轨迹路由到最低奖励或最坏情况性能。接下来,对手误导受害者通过扰乱观察来模仿欺骗性政策。与现有方法相比,我们理论上表明我们的对手在适当的噪声水平下更强大。广泛的实验展示了我们在效率和效力方面的优越性,在Atari和Mujoco环境中实现了最先进的性能。
translated by 谷歌翻译
多智能经纪环境中的单代理强化学习算法不足以促进合作。如果智能代理商共同互动并共同努力解决复杂的问题,则需要计数器非合作行为的方法来促进多个代理的培训。这是合作AI的目标。然而,最近在对抗机器学习中的工作表明,模型(例如,图像分类器)可以很容易地欺骗制作不正确的决策。此外,在合作社的一些过去的研究依赖于陈述的新概念,如公共信仰,加快了解最佳合作行为的学习。因此,合作AI可能会引入以前的机器学习研究中未调查的新弱点。在本文中,我们的贡献包括:(1)争论由人类的社会情报启发的三种算法引入了新的漏洞,独一无二的合作益处,对手可以利用,并显示出对此简单,对抗的实验代理人的信念可能会产生负面影响。本证据表明了社会行为正式陈述的可能性易受对抗性袭击的影响。
translated by 谷歌翻译
现代自动驾驶汽车采用最先进的DNN模型来解释传感器数据并感知环境。但是,DNN模型容易受到不同类型的对抗攻击的影响,这对车辆和乘客的安全性和安全性构成了重大风险。一个突出的威胁是后门攻击,对手可以通过中毒训练样本来妥协DNN模型。尽管已经大量精力致力于调查后门攻击对传统的计算机视觉任务,但很少探索其对自主驾驶场景的实用性和适用性,尤其是在物理世界中。在本文中,我们针对车道检测系统,该系统是许多自动驾驶任务,例如导航,车道切换的必不可少的模块。我们设计并实现了对此类系统的第一次物理后门攻击。我们的攻击是针对不同类型的车道检测算法的全面有效的。具体而言,我们引入了两种攻击方法(毒药和清洁量)来生成中毒样本。使用这些样品,训练有素的车道检测模型将被后门感染,并且可以通过公共物体(例如,交通锥)进行启动,以进行错误的检测,导致车辆从道路上或在相反的车道上行驶。对公共数据集和物理自动驾驶汽车的广泛评估表明,我们的后门攻击对各种防御解决方案都是有效,隐秘和强大的。我们的代码和实验视频可以在https://sites.google.com/view/lane-detection-attack/lda中找到。
translated by 谷歌翻译
Deep Reinforcement Learning (RL) agents are susceptible to adversarial noise in their observations that can mislead their policies and decrease their performance. However, an adversary may be interested not only in decreasing the reward, but also in modifying specific temporal logic properties of the policy. This paper presents a metric that measures the exact impact of adversarial attacks against such properties. We use this metric to craft optimal adversarial attacks. Furthermore, we introduce a model checking method that allows us to verify the robustness of RL policies against adversarial attacks. Our empirical analysis confirms (1) the quality of our metric to craft adversarial attacks against temporal logic properties, and (2) that we are able to concisely assess a system's robustness against attacks.
translated by 谷歌翻译
最近的工作表明,深增强学习(DRL)政策易受对抗扰动的影响。对手可以通过扰乱药剂观察到的环境来误导DRL代理商的政策。现有攻击原则上是可行的,但在实践中面临挑战,例如通过太慢,无法实时欺骗DRL政策。我们表明,使用通用的对冲扰动(UAP)方法来计算扰动,独立于应用它们的各个输入,可以有效地欺骗DRL策略。我们描述了三种这样的攻击变体。通过使用三个Atari 2600游戏的广泛评估,我们表明我们的攻击是有效的,因为它们完全降低了三种不同的DRL代理商的性能(高达100%,即使在扰乱的$ L_ infty $绑定时也很小为0.01)。与不同DRL策略的响应时间(平均0.6ms)相比,它比不同DRL策略的响应时间(0.6ms)更快,并且比使用对抗扰动的前攻击更快(平均1.8ms)。我们还表明,我们的攻击技术是高效的,平均地产生0.027ms的在线计算成本。使用涉及机器人运动的两个进一步任务,我们确认我们的结果概括了更复杂的DRL任务。此外,我们证明了已知防御的有效性降低了普遍扰动。我们提出了一种有效的技术,可检测针对DRL政策的所有已知的对抗性扰动,包括本文呈现的所有普遍扰动。
translated by 谷歌翻译
部署到现实世界的自主智能代理必须与对感官输入的对抗性攻击保持强大的态度。在加强学习中的现有工作集中于最小值扰动攻击,这些攻击最初是为了模仿计算机视觉中感知不变性的概念。在本文中,我们注意到,这种最小值扰动攻击可以由受害者琐碎地检测到,因为这些导致观察序列与受害者的行为不符。此外,许多现实世界中的代理商(例如物理机器人)通常在人类主管下运行,这些代理商不容易受到这种扰动攻击的影响。结果,我们建议专注于幻觉攻击,这是一种与受害者的世界模式一致的新型攻击形式。我们为这个新颖的攻击框架提供了正式的定义,在各种条件下探索了其特征,并得出结论,代理必须寻求现实主义反馈以对幻觉攻击具有强大的态度。
translated by 谷歌翻译
沟通对于代理人共享信息并做出良好决定的许多多代理强化学习(MARL)问题很重要。但是,当在存在噪音和潜在攻击者的现实应用程序中部署训练有素的交流代理商时,基于沟通的政策的安全就会成为一个严重的问题,这些问题被忽视。具体而言,如果通过恶意攻击者操纵沟通信息,依靠不信任的交流的代理可能会采取不安全的行动,从而导致灾难性后果。因此,至关重要的是要确保代理人不会被腐败的沟通误导,同时仍然从良性的交流中受益。在这项工作中,我们考虑了一个具有$ n $代理的环境,攻击者可以任意将通信从任何$ c <\ frac {n-1} {2} $代理商转换为受害者代理。对于这种强大的威胁模型,我们通过构建一个消息集结策略来提出可认证的辩护,该策略汇总了多个随机消融的消息集。理论分析表明,这种消息安装策略可以利用良性通信,同时确保对对抗性交流,无论攻击算法如何。在多种环境中的实验证明,我们的防御能够显着改善受过训练的政策对各种攻击的鲁棒性。
translated by 谷歌翻译
视觉导航中体现的代理以及深度神经网络引起了越来越多的关注。但是,深层神经网络容易受到恶意的对抗噪声的影响,这可能会导致视力导航的灾难性失败。在这些对抗性噪声中,通用的对抗扰动(UAP),即代理接收到的每个帧应用的图像无关扰动,对于体现视觉导航而言更为重要,因为它们是攻击过程中计算效率和应用程序实行的。但是,现有的UAP方法不考虑具体视觉导航的系统动力学。为了在连续决策设置中扩展UAP,我们将Universal Noise $ \ delta $下的不受欢迎的环境制定为$ \ delta $ distant的马尔可夫决策过程($ \ delta $ -MDP)。基于该公式,我们分析了$ \ delta $ -MDP的性质,并提出了两种新型的一致攻击方法,用于攻击体现剂,它们首先通过估计受干扰的Q函数和干扰分布来考虑MDP的动态。尽管有受害者模型,但我们一致的攻击可能会导致栖息地目标任务的绩效大大下降。广泛的实验结果表明,将具体视觉导航方法应用于现实世界中存在潜在的风险。
translated by 谷歌翻译
在国家观察中最强/最佳的对抗性扰动下评估增强学习(RL)代理的最坏情况性能(在某些限制内)对于理解RL代理商的鲁棒性至关重要。然而,在无论我们都能找到最佳攻击以及我们如何找到它,我们都可以找到最佳的对手是具有挑战性的。对普发拉利RL的现有工作要么使用基于启发式的方法,可以找不到最强大的对手,或者通过将代理人视为环境的一部分来说,直接培训基于RL的对手,这可以找到最佳的对手,但可能会变得棘手大状态空间。本文介绍了一种新的攻击方法,通过设计函数与名为“Director”的RL为基础的学习者的设计函数之间的合作找到最佳攻击。演员工艺在给定的政策扰动方向的状态扰动,主任学会提出最好的政策扰动方向。我们所提出的算法PA-AD,比具有大状态空间的环境中的基于RL的工作,理论上是最佳的,并且明显更有效。经验结果表明,我们建议的PA-AD普遍优惠各种Atari和Mujoco环境中最先进的攻击方法。通过将PA-AD应用于对抗性培训,我们在强烈的对手下实现了多个任务的最先进的经验稳健性。
translated by 谷歌翻译
大多数强化学习算法隐含地假设强同步。我们提出了针对Q学习的新颖攻击,该攻击通过延迟有限时间段的奖励信号来利用该假设所带来的漏洞。我们考虑了两种类型的攻击目标:目标攻击,旨在使目标政策被学习,以及不靶向的攻击,这只是旨在诱使奖励低的政策。我们通过一系列实验评估了提出的攻击的功效。我们的第一个观察结果是,当目标仅仅是为了最大程度地减少奖励时,奖励延迟​​攻击非常有效。的确,我们发现即使是天真的基线奖励 - 延迟攻击也在最大程度地减少奖励方面也非常成功。另一方面,有针对性的攻击更具挑战性,尽管我们表明,提出的方法在实现攻击者的目标方面仍然非常有效。此外,我们引入了第二个威胁模型,该模型捕获了一种最小的缓解措施,该模型可确保不能超出顺序使用奖励。我们发现,这种缓解仍然不足以确保稳定性延迟但保留奖励的命令。
translated by 谷歌翻译
计算能力和大型培训数据集的可用性增加,机器学习的成功助长了。假设它充分代表了在测试时遇到的数据,则使用培训数据来学习新模型或更新现有模型。这种假设受到中毒威胁的挑战,这种攻击会操纵训练数据,以损害模型在测试时的表现。尽管中毒已被认为是行业应用中的相关威胁,到目前为止,已经提出了各种不同的攻击和防御措施,但对该领域的完整系统化和批判性审查仍然缺失。在这项调查中,我们在机器学习中提供了中毒攻击和防御措施的全面系统化,审查了过去15年中该领域发表的100多篇论文。我们首先对当前的威胁模型和攻击进行分类,然后相应地组织现有防御。虽然我们主要关注计算机视觉应用程序,但我们认为我们的系统化还包括其他数据模式的最新攻击和防御。最后,我们讨论了中毒研究的现有资源,并阐明了当前的局限性和该研究领域的开放研究问题。
translated by 谷歌翻译
值得信赖的强化学习算法应有能力解决挑战性的现实问题,包括{Robustly}处理不确定性,满足{安全}的限制以避免灾难性的失败,以及在部署过程中{prencepentiming}以避免灾难性的失败}。这项研究旨在概述这些可信赖的强化学习的主要观点,即考虑其在鲁棒性,安全性和概括性上的内在脆弱性。特别是,我们给出严格的表述,对相应的方法进行分类,并讨论每个观点的基准。此外,我们提供了一个前景部分,以刺激有希望的未来方向,并简要讨论考虑人类反馈的外部漏洞。我们希望这项调查可以在统一的框架中将单独的研究汇合在一起,并促进强化学习的可信度。
translated by 谷歌翻译