深增强学习模型容易受到对抗的攻击,可以通过操纵受害者的观察来减少受害者的累积预期奖励。尽管以前的优化基于优化的方法效率,用于在监督学习中产生对抗性噪声,因此这些方法可能无法实现最低的累积奖励,因为它们通常不会探索环境动态。在本文中,我们提供了一个框架,以通过重新制定函数空间中加固学习的对抗攻击问题来更好地了解现有方法。我们的重构在有针对性攻击的功能空间中产生最佳对手,通过通用的两级框架来排斥它们。在第一阶段,我们通过黑客攻击环境来培训欺骗性政策,并发现一组轨迹路由到最低奖励或最坏情况性能。接下来,对手误导受害者通过扰乱观察来模仿欺骗性政策。与现有方法相比,我们理论上表明我们的对手在适当的噪声水平下更强大。广泛的实验展示了我们在效率和效力方面的优越性,在Atari和Mujoco环境中实现了最先进的性能。
translated by 谷歌翻译
在国家观察中最强/最佳的对抗性扰动下评估增强学习(RL)代理的最坏情况性能(在某些限制内)对于理解RL代理商的鲁棒性至关重要。然而,在无论我们都能找到最佳攻击以及我们如何找到它,我们都可以找到最佳的对手是具有挑战性的。对普发拉利RL的现有工作要么使用基于启发式的方法,可以找不到最强大的对手,或者通过将代理人视为环境的一部分来说,直接培训基于RL的对手,这可以找到最佳的对手,但可能会变得棘手大状态空间。本文介绍了一种新的攻击方法,通过设计函数与名为“Director”的RL为基础的学习者的设计函数之间的合作找到最佳攻击。演员工艺在给定的政策扰动方向的状态扰动,主任学会提出最好的政策扰动方向。我们所提出的算法PA-AD,比具有大状态空间的环境中的基于RL的工作,理论上是最佳的,并且明显更有效。经验结果表明,我们建议的PA-AD普遍优惠各种Atari和Mujoco环境中最先进的攻击方法。通过将PA-AD应用于对抗性培训,我们在强烈的对手下实现了多个任务的最先进的经验稳健性。
translated by 谷歌翻译
最近的工作表明,深增强学习(DRL)政策易受对抗扰动的影响。对手可以通过扰乱药剂观察到的环境来误导DRL代理商的政策。现有攻击原则上是可行的,但在实践中面临挑战,例如通过太慢,无法实时欺骗DRL政策。我们表明,使用通用的对冲扰动(UAP)方法来计算扰动,独立于应用它们的各个输入,可以有效地欺骗DRL策略。我们描述了三种这样的攻击变体。通过使用三个Atari 2600游戏的广泛评估,我们表明我们的攻击是有效的,因为它们完全降低了三种不同的DRL代理商的性能(高达100%,即使在扰乱的$ L_ infty $绑定时也很小为0.01)。与不同DRL策略的响应时间(平均0.6ms)相比,它比不同DRL策略的响应时间(0.6ms)更快,并且比使用对抗扰动的前攻击更快(平均1.8ms)。我们还表明,我们的攻击技术是高效的,平均地产生0.027ms的在线计算成本。使用涉及机器人运动的两个进一步任务,我们确认我们的结果概括了更复杂的DRL任务。此外,我们证明了已知防御的有效性降低了普遍扰动。我们提出了一种有效的技术,可检测针对DRL政策的所有已知的对抗性扰动,包括本文呈现的所有普遍扰动。
translated by 谷歌翻译
视觉导航中体现的代理以及深度神经网络引起了越来越多的关注。但是,深层神经网络容易受到恶意的对抗噪声的影响,这可能会导致视力导航的灾难性失败。在这些对抗性噪声中,通用的对抗扰动(UAP),即代理接收到的每个帧应用的图像无关扰动,对于体现视觉导航而言更为重要,因为它们是攻击过程中计算效率和应用程序实行的。但是,现有的UAP方法不考虑具体视觉导航的系统动力学。为了在连续决策设置中扩展UAP,我们将Universal Noise $ \ delta $下的不受欢迎的环境制定为$ \ delta $ distant的马尔可夫决策过程($ \ delta $ -MDP)。基于该公式,我们分析了$ \ delta $ -MDP的性质,并提出了两种新型的一致攻击方法,用于攻击体现剂,它们首先通过估计受干扰的Q函数和干扰分布来考虑MDP的动态。尽管有受害者模型,但我们一致的攻击可能会导致栖息地目标任务的绩效大大下降。广泛的实验结果表明,将具体视觉导航方法应用于现实世界中存在潜在的风险。
translated by 谷歌翻译
最近的研究表明,深层增强学习剂容易受到代理投入的小对抗扰动,这提出了对在现实世界中部署这些药剂的担忧。为了解决这个问题,我们提出了一个主要的框架,是培训加强学习代理的主要框架,以改善鲁棒性,以防止$ L_P $ -NORM偏见的对抗性攻击。我们的框架与流行的深度加强学习算法兼容,我们用深Q学习,A3C和PPO展示了其性能。我们在三个深度RL基准(Atari,Mujoco和Procgen)上进行实验,以展示我们稳健的培训算法的有效性。我们的径向-RL代理始终如一地占据了不同强度的攻击时的现有方法,并且培训更加计算效率。此外,我们提出了一种新的评估方法,称为贪婪最坏情况奖励(GWC)来衡量深度RL代理商的攻击不良鲁棒性。我们表明GWC可以有效地评估,并且对最糟糕的对抗攻击序列是对奖励的良好估计。用于我们实验的所有代码可在https://github.com/tuomaso/radial_rl_v2上获得。
translated by 谷歌翻译
尽管深度强化学习(DRL)取得了巨大的成功,但由于过渡和观察的内在不确定性,它可能遇到灾难性的失败。大多数现有的安全加固学习方法只能处理过渡干扰或观察障碍,因为这两种干扰影响了代理的不同部分。此外,受欢迎的最坏情况可能会导致过度悲观的政策。为了解决这些问题,我们首先从理论上证明了在过渡干扰和观察障碍下的性能降解取决于一个新颖的价值函数范围(VFR),这与最佳状态和最坏状态之间的价值函数的间隙相对应。基于分析,我们采用有条件的价值风险(CVAR)作为对风险的评估,并提出了一种新颖的强化学习算法的CVAR-Proximal-Policy-oftimization(CPPO),该算法通过保持风险敏感的约束优化问题形式化。它的CVAR在给定的阈值下。实验结果表明,CPPO获得了更高的累积奖励,并且在Mujoco中一系列连续控制任务上的观察和过渡干扰更加强大。
translated by 谷歌翻译
部署到现实世界的自主智能代理必须与对感官输入的对抗性攻击保持强大的态度。在加强学习中的现有工作集中于最小值扰动攻击,这些攻击最初是为了模仿计算机视觉中感知不变性的概念。在本文中,我们注意到,这种最小值扰动攻击可以由受害者琐碎地检测到,因为这些导致观察序列与受害者的行为不符。此外,许多现实世界中的代理商(例如物理机器人)通常在人类主管下运行,这些代理商不容易受到这种扰动攻击的影响。结果,我们建议专注于幻觉攻击,这是一种与受害者的世界模式一致的新型攻击形式。我们为这个新颖的攻击框架提供了正式的定义,在各种条件下探索了其特征,并得出结论,代理必须寻求现实主义反馈以对幻觉攻击具有强大的态度。
translated by 谷歌翻译
大多数强化学习算法隐含地假设强同步。我们提出了针对Q学习的新颖攻击,该攻击通过延迟有限时间段的奖励信号来利用该假设所带来的漏洞。我们考虑了两种类型的攻击目标:目标攻击,旨在使目标政策被学习,以及不靶向的攻击,这只是旨在诱使奖励低的政策。我们通过一系列实验评估了提出的攻击的功效。我们的第一个观察结果是,当目标仅仅是为了最大程度地减少奖励时,奖励延迟​​攻击非常有效。的确,我们发现即使是天真的基线奖励 - 延迟攻击也在最大程度地减少奖励方面也非常成功。另一方面,有针对性的攻击更具挑战性,尽管我们表明,提出的方法在实现攻击者的目标方面仍然非常有效。此外,我们引入了第二个威胁模型,该模型捕获了一种最小的缓解措施,该模型可确保不能超出顺序使用奖励。我们发现,这种缓解仍然不足以确保稳定性延迟但保留奖励的命令。
translated by 谷歌翻译
合作多代理增强学习(CMARL)具有许多真实的应用程序,但是在部署时,现有CMARL算法培训的政策不够强大。关于RL系统的对抗攻击也存在许多方法,这意味着RL系统可能会遭受对抗攻击,但大多数都集中在单个代理RL上。在本文中,我们在CMARL系统上提出了一个\ textit {稀疏对抗攻击}。我们将(MA)RL与正规化一起训练攻击政策。我们的实验表明,当当前CMARL算法训练的政策可以在团队中只有一名或几个代理(例如,25个中的1个或5个中的1个)在几个时间段攻击时(例如,攻击3的总数3或5)可以获得较差的性能40个时间段)。
translated by 谷歌翻译
值得信赖的强化学习算法应有能力解决挑战性的现实问题,包括{Robustly}处理不确定性,满足{安全}的限制以避免灾难性的失败,以及在部署过程中{prencepentiming}以避免灾难性的失败}。这项研究旨在概述这些可信赖的强化学习的主要观点,即考虑其在鲁棒性,安全性和概括性上的内在脆弱性。特别是,我们给出严格的表述,对相应的方法进行分类,并讨论每个观点的基准。此外,我们提供了一个前景部分,以刺激有希望的未来方向,并简要讨论考虑人类反馈的外部漏洞。我们希望这项调查可以在统一的框架中将单独的研究汇合在一起,并促进强化学习的可信度。
translated by 谷歌翻译
尽管深度强化学习取得了长足的进步,但已被证明非常容易受到对国家观察的影响。尽管如此,最近试图改善强化学习的对抗性鲁棒性的努力仍然可以忍受很小的扰动,并且随着扰动大小的增加而保持脆弱。我们提出了自举的机会对抗性课程学习(BCL),这是一种新型的灵活的对抗性课程学习框架,用于强大的增强学习。我们的框架结合了两个想法:保守地自行启动每个课程阶段以及从上一个阶段的多个运行中获得的最高质量解决方案,并在课程中进行了机会主义跳过。在我们的实验中,我们表明所提出的BCL框架可以使学到的政策的鲁棒性显着改善,从而使对抗性扰动。最大的改进是乒乓球,我们的框架在最多25/255的扰动中产生了稳健性。相比之下,最好的现有方法只能忍受最高5/255的对抗噪声。我们的代码可在以下网址提供:https://github.com/jlwu002/bcl。
translated by 谷歌翻译
Deep Reinforcement Learning (RL) agents are susceptible to adversarial noise in their observations that can mislead their policies and decrease their performance. However, an adversary may be interested not only in decreasing the reward, but also in modifying specific temporal logic properties of the policy. This paper presents a metric that measures the exact impact of adversarial attacks against such properties. We use this metric to craft optimal adversarial attacks. Furthermore, we introduce a model checking method that allows us to verify the robustness of RL policies against adversarial attacks. Our empirical analysis confirms (1) the quality of our metric to craft adversarial attacks against temporal logic properties, and (2) that we are able to concisely assess a system's robustness against attacks.
translated by 谷歌翻译
Various types of Multi-Agent Reinforcement Learning (MARL) methods have been developed, assuming that agents' policies are based on true states. Recent works have improved the robustness of MARL under uncertainties from the reward, transition probability, or other partners' policies. However, in real-world multi-agent systems, state estimations may be perturbed by sensor measurement noise or even adversaries. Agents' policies trained with only true state information will deviate from optimal solutions when facing adversarial state perturbations during execution. MARL under adversarial state perturbations has limited study. Hence, in this work, we propose a State-Adversarial Markov Game (SAMG) and make the first attempt to study the fundamental properties of MARL under state uncertainties. We prove that the optimal agent policy and the robust Nash equilibrium do not always exist for an SAMG. Instead, we define the solution concept, robust agent policy, of the proposed SAMG under adversarial state perturbations, where agents want to maximize the worst-case expected state value. We then design a gradient descent ascent-based robust MARL algorithm to learn the robust policies for the MARL agents. Our experiments show that adversarial state perturbations decrease agents' rewards for several baselines from the existing literature, while our algorithm outperforms baselines with state perturbations and significantly improves the robustness of the MARL policies under state uncertainties.
translated by 谷歌翻译
众所周知,使用深钢筋学习(DRL)训练的神经网络政策容易受到对抗攻击的影响。在本文中,我们将表现出的攻击视为外部环境管理的观察空间中的扰动。这些攻击已被证明可显着降低政策绩效。我们将注意力集中在训练有素的确定性和随机神经网络策略上,在持续控制基准测试的背景下受到四次经过精心研究的观察空间对抗性攻击。为了防止这些攻击,我们提出了使用检测和降解模式的新型防御策略。与以前的对抗训练方法在对抗场景中采样数据不同,我们的解决方案不需要在受到攻击的环境中进行采样数据,从而大大降低了训练期间的风险。详细的实验结果表明,我们的技术与最先进的对抗训练方法相媲美。
translated by 谷歌翻译
Reinforcement learning (RL) is one of the most important branches of AI. Due to its capacity for self-adaption and decision-making in dynamic environments, reinforcement learning has been widely applied in multiple areas, such as healthcare, data markets, autonomous driving, and robotics. However, some of these applications and systems have been shown to be vulnerable to security or privacy attacks, resulting in unreliable or unstable services. A large number of studies have focused on these security and privacy problems in reinforcement learning. However, few surveys have provided a systematic review and comparison of existing problems and state-of-the-art solutions to keep up with the pace of emerging threats. Accordingly, we herein present such a comprehensive review to explain and summarize the challenges associated with security and privacy in reinforcement learning from a new perspective, namely that of the Markov Decision Process (MDP). In this survey, we first introduce the key concepts related to this area. Next, we cover the security and privacy issues linked to the state, action, environment, and reward function of the MDP process, respectively. We further highlight the special characteristics of security and privacy methodologies related to reinforcement learning. Finally, we discuss the possible future research directions within this area.
translated by 谷歌翻译
Cooperative multi-agent reinforcement learning (c-MARL) is widely applied in safety-critical scenarios, thus the analysis of robustness for c-MARL models is profoundly important. However, robustness certification for c-MARLs has not yet been explored in the community. In this paper, we propose a novel certification method, which is the first work to leverage a scalable approach for c-MARLs to determine actions with guaranteed certified bounds. c-MARL certification poses two key challenges compared with single-agent systems: (i) the accumulated uncertainty as the number of agents increases; (ii) the potential lack of impact when changing the action of a single agent into a global team reward. These challenges prevent us from directly using existing algorithms. Hence, we employ the false discovery rate (FDR) controlling procedure considering the importance of each agent to certify per-state robustness and propose a tree-search-based algorithm to find a lower bound of the global reward under the minimal certified perturbation. As our method is general, it can also be applied in single-agent environments. We empirically show that our certification bounds are much tighter than state-of-the-art RL certification solutions. We also run experiments on two popular c-MARL algorithms: QMIX and VDN, in two different environments, with two and four agents. The experimental results show that our method produces meaningful guaranteed robustness for all models and environments. Our tool CertifyCMARL is available at https://github.com/TrustAI/CertifyCMA
translated by 谷歌翻译
增强学习的数据毒害历史上专注于一般性绩效退化,目标攻击已经通过扰动取得了成功,涉及控制受害者的政策和奖励。我们介绍了一个阴险的中毒攻误,用于加强学习,这只会在特定目标状态下引起代理人不端行为 - 所有的,而且在最小地修改小数一小部分的培训观察,而不假设任何控制政策或奖励。我们通过调整最近的技术,梯度对准来实现这一目标,以加强学习。我们测试我们的方法,并在两个Atari游戏中展示了不同困难的成功。
translated by 谷歌翻译
在许多综合设置(例如视频游戏)和GO中,增强学习(RL)超出了人类的绩效。但是,端到端RL模型的现实部署不太常见,因为RL模型对环境的轻微扰动非常敏感。强大的马尔可夫决策过程(MDP)框架(其中的过渡概率属于名义模型设置的不确定性)提供了一种开发健壮模型的方法。虽然先前的分析表明,RL算法是有效的,假设访问生成模型,但尚不清楚RL在更现实的在线设置下是否可以有效,这需要在探索和开发之间取得仔细的平衡。在这项工作中,我们通过与未知的名义系统进行互动来考虑在线强大的MDP。我们提出了一种强大的乐观策略优化算法,该算法可有效。为了解决由对抗性环境引起的其他不确定性,我们的模型具有通过Fenchel Conjugates得出的新的乐观更新规则。我们的分析确定了在线强大MDP的第一个遗憾。
translated by 谷歌翻译
深度加强学习(DRL)的框架为连续决策提供了强大而广泛适用的数学形式化。本文提出了一种新的DRL框架,称为\ emph {$ f $-diveliventcence加强学习(frl)}。在FRL中,通过最大限度地减少学习政策和采样策略之间的$ F $同时执行策略评估和政策改进阶段,这与旨在最大化预期累计奖励的传统DRL算法不同。理论上,我们证明最小化此类$ F $ - 可以使学习政策会聚到最佳政策。此外,我们将FRL框架中的培训代理程序转换为通过Fenchel Concugate的特定$ F $函数转换为鞍点优化问题,这构成了政策评估和政策改进的新方法。通过数学证据和经验评估,我们证明FRL框架有两个优点:(1)政策评估和政策改进过程同时进行,(2)高估价值函数的问题自然而缓解。为了评估FRL框架的有效性,我们对Atari 2600的视频游戏进行实验,并显示在FRL框架中培训的代理匹配或超越基线DRL算法。
translated by 谷歌翻译
我们调查攻击者的效果如何,当它只从受害者的行为中学习时,没有受害者的奖励。在这项工作中,当受害者的动机未知时,我们被攻击者想要行事的情景。我们认为一个启发式方法可以使用攻击者是最大化受害者政策的熵。政策通常不会被滥用,这意味着它可以通过被动地观察受害者来提取。我们以奖励无源勘探算法的形式提供这样的策略,可以在勘探阶段最大化攻击者的熵,然后在规划阶段最大化受害者的经验熵。在我们的实验中,受害者代理商通过政策熵最大化而颠覆,暗示攻击者可能无法访问受害者的奖励成功。因此,仅基于观察行为的无奖励攻击表明,即使受害者的奖励信息受到保护,攻击者的可行性也在不了解受害者的动机。
translated by 谷歌翻译