为了了解强化学习的安全威胁(RL)算法,本文研究中毒攻击以操纵\ emph {any}订单 - 最佳学习算法对偶发性RL中有针对性的政策,并研究了两种自然中毒攻击的潜在损害,即,\ emph {Reward}和\ Emph {Action}的操作。我们发现攻击的影响至关重要地取决于奖励是有界还是无限的。在有限的奖励设置中,我们表明只有奖励操纵或只有动作操纵不能保证成功的攻击。但是,通过结合奖励和行动操纵,对手可以操纵任何订单最佳学习算法,以遵循任何有针对性的策略,并使用$ \ tilde {\ theta}(\ sqrt {t})$总攻击成本,这是订单 - 优越,最佳的攻击成本不知道基础MDP。相反,在无限的奖励设置中,我们表明奖励操纵攻击足以使对手成功操纵任何订单最佳学习算法,以使用$ \ tilde {o}(\ sqrt {t})遵循任何有针对性的策略污染。我们的结果揭示了有关中毒攻击无法获得或无法实现的有用见解,并将刺激有关强大RL算法设计的更多作品。
translated by 谷歌翻译
上下文强盗算法在各种情况下有许多申请人。为了开发值得信赖的情境强盗系统,了解各种对抗性攻击对上下文强盗算法的影响至关重要。在本文中,我们提出了一类新的攻击:动作中毒攻击,其中一个对手可以改变代理选择的动作信号。我们在白盒和黑匣子设置中设计了针对线性上下文强盗算法的动作中毒攻击方案。我们进一步分析了拟议的攻击策略的成本,非常流行和广泛使用的强盗算法:Linucb。我们展示,在白盒和黑匣子设置中,所提出的攻击方案可以强制Linucb代理通过仅度过对数成本而频繁地提取目标手臂。
translated by 谷歌翻译
For undiscounted reinforcement learning in Markov decision processes (MDPs) we consider the total regret of a learning algorithm with respect to an optimal policy. In order to describe the transition structure of an MDP we propose a new parameter: An MDP has diameter D if for any pair of states s, s there is a policy which moves from s to s in at most D steps (on average). We present a reinforcement learning algorithm with total regret Õ(DS √AT ) after T steps for any unknown MDP with S states, A actions per state, and diameter D. This bound holds with high probability. We also present a corresponding lower bound of Ω( √ DSAT ) on the total regret of any learning algorithm.
translated by 谷歌翻译
大多数强化学习算法隐含地假设强同步。我们提出了针对Q学习的新颖攻击,该攻击通过延迟有限时间段的奖励信号来利用该假设所带来的漏洞。我们考虑了两种类型的攻击目标:目标攻击,旨在使目标政策被学习,以及不靶向的攻击,这只是旨在诱使奖励低的政策。我们通过一系列实验评估了提出的攻击的功效。我们的第一个观察结果是,当目标仅仅是为了最大程度地减少奖励时,奖励延迟​​攻击非常有效。的确,我们发现即使是天真的基线奖励 - 延迟攻击也在最大程度地减少奖励方面也非常成功。另一方面,有针对性的攻击更具挑战性,尽管我们表明,提出的方法在实现攻击者的目标方面仍然非常有效。此外,我们引入了第二个威胁模型,该模型捕获了一种最小的缓解措施,该模型可确保不能超出顺序使用奖励。我们发现,这种缓解仍然不足以确保稳定性延迟但保留奖励的命令。
translated by 谷歌翻译
我们暴露了在离线多代理增强学习(MARL)中奖励中毒的危险,从而使攻击者可以在离线数据集中对不同学习者的奖励向量修改,同时又产生了中毒成本。基于中毒的数据集,所有使用一些基于信心的MARL算法的理性学习者将推断出,目标政策 - 攻击者选择的目标政策最初是解决方案概念 - 是马尔可夫的完美主要策略,用于基础马尔可夫游戏因此,他们将来将采用这种潜在的破坏目标政策。我们表征了攻击者可以安装目标策略的确切条件。我们进一步展示了攻击者如何制定线性程序以最大程度地减少其中毒成本。我们的工作表明需要强大的泥土反对对抗攻击。
translated by 谷歌翻译
我们研究对线性随机匪徒的对抗攻击:通过操纵奖励,对手旨在控制匪徒的行为。也许令人惊讶的是,我们首先表明某些攻击目标永远无法实现。这与无上下文的随机匪徒形成了鲜明的对比,并且本质上是由于线性随机陆上的臂之间的相关性。在这一发现的激励下,本文研究了$ k $武装的线性匪徒环境的攻击性。我们首先根据武器上下文向量的几何形状提供了攻击性的完全必要性和充分性表征。然后,我们提出了针对Linucb和鲁棒相消除的两阶段攻击方法。该方法首先断言给定环境是否可攻击;而且,如果是的话,它会付出巨大的奖励,以强迫算法仅使用sublinear成本来拉动目标臂线性时间。数值实验进一步验证了拟议攻击方法的有效性和成本效益。
translated by 谷歌翻译
Model-free reinforcement learning (RL) algorithms, such as Q-learning, directly parameterize and update value functions or policies without explicitly modeling the environment. They are typically simpler, more flexible to use, and thus more prevalent in modern deep RL than model-based approaches. However, empirical work has suggested that model-free algorithms may require more samples to learn [7,22]. The theoretical question of "whether model-free algorithms can be made sample efficient" is one of the most fundamental questions in RL, and remains unsolved even in the basic scenario with finitely many states and actions.We prove that, in an episodic MDP setting, Q-learning with UCB exploration achieves regret Õ( √ H 3 SAT ), where S and A are the numbers of states and actions, H is the number of steps per episode, and T is the total number of steps. This sample efficiency matches the optimal regret that can be achieved by any model-based approach, up to a single √ H factor. To the best of our knowledge, this is the first analysis in the model-free setting that establishes √ T regret without requiring access to a "simulator." * The first two authors contributed equally.
translated by 谷歌翻译
我们考虑非平稳马尔可夫决策过程中的无模型增强学习(RL)。只要其累积变化不超过某些变化预算,奖励功能和国家过渡功能都可以随时间随时间变化。我们提出了重新启动的Q学习,以上置信度范围(RestartQ-UCB),这是第一个用于非平稳RL的无模型算法,并表明它在动态遗憾方面优于现有的解决方案。具体而言,带有freedman型奖励项的restartq-ucb实现了$ \ widetilde {o}(s^{\ frac {1} {3}} {\ frac {\ frac {1} {1} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {\ delta ^{\ frac {1} {3}} h t^{\ frac {2} {3}}} $,其中$ s $和$ a $分别是$ \ delta> 0 $的状态和动作的数字是变化预算,$ h $是每集的时间步数,而$ t $是时间步长的总数。我们进一步提出了一种名为Double-Restart Q-UCB的无参数算法,该算法不需要事先了解变化预算。我们证明我们的算法是\ emph {几乎是最佳},通过建立$ \ omega的信息理论下限(s^{\ frac {1} {1} {3}}} a^{\ frac {1} {1} {3}}}}}} \ delta^{\ frac {1} {3}} h^{\ frac {2} {3}}}} t^{\ frac {2} {3}}} $,是非稳态RL中的第一个下下限。数值实验可以根据累积奖励和计算效率来验证RISTARTQ-UCB的优势。我们在相关产品的多代理RL和库存控制的示例中证明了我们的结果的力量。
translated by 谷歌翻译
我们在定期马尔可夫决策过程(MDP)中学习学习,这是一种特殊类型的非平稳MDP,在平均奖励最大化设置下,状态过渡概率和奖励功能都定期变化。我们通过使用周期指数来扩大状态空间来将问题作为固定的MDP提出,并提出了定期上限置信度结合增强学习2(PUCRL2)算法。我们表明,pucrl2的遗憾随着时期和地平线长度的次线性而变化。数值结果证明了PUCRL2的功效。
translated by 谷歌翻译
在国家观察中最强/最佳的对抗性扰动下评估增强学习(RL)代理的最坏情况性能(在某些限制内)对于理解RL代理商的鲁棒性至关重要。然而,在无论我们都能找到最佳攻击以及我们如何找到它,我们都可以找到最佳的对手是具有挑战性的。对普发拉利RL的现有工作要么使用基于启发式的方法,可以找不到最强大的对手,或者通过将代理人视为环境的一部分来说,直接培训基于RL的对手,这可以找到最佳的对手,但可能会变得棘手大状态空间。本文介绍了一种新的攻击方法,通过设计函数与名为“Director”的RL为基础的学习者的设计函数之间的合作找到最佳攻击。演员工艺在给定的政策扰动方向的状态扰动,主任学会提出最好的政策扰动方向。我们所提出的算法PA-AD,比具有大状态空间的环境中的基于RL的工作,理论上是最佳的,并且明显更有效。经验结果表明,我们建议的PA-AD普遍优惠各种Atari和Mujoco环境中最先进的攻击方法。通过将PA-AD应用于对抗性培训,我们在强烈的对手下实现了多个任务的最先进的经验稳健性。
translated by 谷歌翻译
Modern Reinforcement Learning (RL) is commonly applied to practical problems with an enormous number of states, where function approximation must be deployed to approximate either the value function or the policy. The introduction of function approximation raises a fundamental set of challenges involving computational and statistical efficiency, especially given the need to manage the exploration/exploitation tradeoff. As a result, a core RL question remains open: how can we design provably efficient RL algorithms that incorporate function approximation? This question persists even in a basic setting with linear dynamics and linear rewards, for which only linear function approximation is needed.This paper presents the first provable RL algorithm with both polynomial runtime and polynomial sample complexity in this linear setting, without requiring a "simulator" or additional assumptions. Concretely, we prove that an optimistic modification of Least-Squares Value Iteration (LSVI)-a classical algorithm frequently studied in the linear setting-achieves O( √ d 3 H 3 T ) regret, where d is the ambient dimension of feature space, H is the length of each episode, and T is the total number of steps. Importantly, such regret is independent of the number of states and actions.
translated by 谷歌翻译
我们研究了随机的最短路径(SSP)问题,其中代理商必须以最短的预计成本达到目标状态。在问题的学习制定中,代理商没有关于模型的成本和动态的知识。她反复与k $剧集的型号交互,并且必须尽量减少她的遗憾。在这项工作中,我们表明这个设置的Minimax遗憾是$ \ widetilde o(\ sqrt {(b_ \ star ^ 2 + b_ \ star)| s | a | a | k})$ why $ b_ \ star $ a符合来自任何州的最佳政策的预期成本,$ S $是状态空间,$ a $是行动空间。此相匹配的$ \欧米茄(\ SQRT {B_ \星^ 2 | S | |甲| K})$下界Rosenberg等人的。 [2020]对于$ b_ \ star \ ge 1 $,并改善了他们的遗憾,以\ sqrt {| s |} $ \ you的遗憾。对于$ b_ \ star <1 $我们证明$ \ omega的匹配下限(\ sqrt {b_ \ star | s | a | a | k})$。我们的算法基于SSP的新颖减少到有限地平线MDP。为此,我们为有限地域设置提供了一种算法,其前期遗憾遗憾地取决于最佳政策的预期成本,并且仅对地平线上的对数。
translated by 谷歌翻译
元加强学习(Meta RL)作为元学习思想和强化学习(RL)的组合,使代理商能够使用一些样本适应不同的任务。但是,这种基于抽样的适应也使元rl容易受到对抗攻击的影响。通过操纵Meta RL中抽样过程的奖励反馈,攻击者可以误导代理商从培训经验中建立错误的知识,从而在适应后处理不同的任务时会恶化代理商的绩效。本文为理解这种类型的安全风险提供了游戏理论的基础。特别是,我们正式将采样攻击模型定义为攻击者和代理之间的stackelberg游戏,该游戏产生了最小值公式。它导致了两种在线攻击方案:间歇性攻击和持续攻击,这使攻击者能够学习最佳采样攻击,这是由$ \ epsilon $ -fir-first-first-fort stastary Point定义的,在$ \ MATHCAL {O}内(\ Epsilon^ {-2})$迭代。这些攻击方案自由地学习了学习的进度,而没有与环境进行额外互动的情况。通过通过数值实验来证实收敛结果,我们观察到攻击者的较小努力可以显着恶化学习绩效,而Minimax方法也可以帮助鲁棒化元素RL算法。
translated by 谷歌翻译
我们认为在情节环境中的强化学习(RL)中的遗憾最小化问题。在许多实际的RL环境中,状态和动作空间是连续的或非常大的。现有方法通过随机过渡模型的低维表示或$ q $ functions的近似值来确定遗憾的保证。但是,对国家价值函数的函数近似方案的理解基本上仍然缺失。在本文中,我们提出了一种基于在线模型的RL算法,即CME-RL,该算法将过渡分布的表示形式学习为嵌入在复制的内核希尔伯特领域中的嵌入,同时仔细平衡了利用探索 - 探索权衡取舍。我们通过证明频繁的(最糟糕的)遗憾结束了$ \ tilde {o} \ big(h \ gamma_n \ sqrt {n} \ big)$ \ footnote {$ footnote {$ tilde {$ o}(\ cdot)$仅隐藏绝对常数和poly-logarithmic因素。},其中$ h $是情节长度,$ n $是时间步长的总数,$ \ gamma_n $是信息理论数量国家行动特征空间的有效维度。我们的方法绕过了估计过渡概率的需求,并适用于可以定义内核的任何域。它还为内核方法的一般理论带来了新的见解,以进行近似推断和RL遗憾的最小化。
translated by 谷歌翻译
数字化和远程连接扩大了攻击面,使网络系统更脆弱。由于攻击者变得越来越复杂和资源丰富,仅仅依赖传统网络保护,如入侵检测,防火墙和加密,不足以保护网络系统。网络弹性提供了一种新的安全范式,可以使用弹性机制来补充保护不足。一种网络弹性机制(CRM)适应了已知的或零日威胁和实际威胁和不确定性,并对他们进行战略性地响应,以便在成功攻击时保持网络系统的关键功能。反馈架构在启用CRM的在线感应,推理和致动过程中发挥关键作用。强化学习(RL)是一个重要的工具,对网络弹性的反馈架构构成。它允许CRM提供有限或没有事先知识和攻击者的有限攻击的顺序响应。在这项工作中,我们审查了Cyber​​恢复力的RL的文献,并讨论了对三种主要类型的漏洞,即姿势有关,与信息相关的脆弱性的网络恢复力。我们介绍了三个CRM的应用领域:移动目标防御,防守网络欺骗和辅助人类安全技术。 RL算法也有漏洞。我们解释了RL的三个漏洞和目前的攻击模型,其中攻击者针对环境与代理商之间交换的信息:奖励,国家观察和行动命令。我们展示攻击者可以通过最低攻击努力来欺骗RL代理商学习邪恶的政策。最后,我们讨论了RL为基于RL的CRM的网络安全和恢复力和新兴应用的未来挑战。
translated by 谷歌翻译
我们考虑了有多个具有不同奖励功能的利益相关者的情节强化学习问题。我们的目标是输出有关不同奖励功能在社会上公平的政策。先前的工作提出了不同的目标,即公平政策必须优化,包括最低福利和广义的基尼福利。我们首先对问题进行公理视图,并提出四个公理,任何这样的公平目标都必须满足。我们表明,纳什社会福利是一个独特的目标,它独特地满足了所有四个目标,而先前的目标无法满足所有四个公理。然后,我们考虑了基础模型,即马尔可夫决策过程未知的问题的学习版本。我们考虑到最大程度地降低对公平政策最大化的遗憾的问题,从而最大化三个不同的公平目标 - 最低限度的福利,广义基尼福利和纳什社会福利。基于乐观的计划,我们提出了一种通用的学习算法,并在三种不同的政策方面得出了遗憾。为了纳什社会福利的目的,我们还遗憾地得出了一个遗憾的遗憾,它以$ n $(代理的数量)成倍增长。最后,我们表明,为了最低限度福利的目的,对于较弱的遗憾概念,人们可以将遗憾提高到$ o(h)$。
translated by 谷歌翻译
我们在适应性约束下研究了强化学习(RL),线性函数近似。我们考虑两个流行的有限适应性模型:批量学习模型和稀有策略交换机模型,并提出了两个有效的在线线性马尔可夫决策过程的在线RL算法,其中转换概率和奖励函数可以表示为一些线性函数已知的特征映射。具体而言,对于批量学习模型,我们提出的LSVI-UCB-批处理算法实现了$ \ tilde o(\ sqrt {d ^ 3h ^ 3t} + dht / b)$后悔,$ d $是尺寸特征映射,$ H $是剧集长度,$ t $是交互数量,$ b $是批次数。我们的结果表明,只使用$ \ sqrt {t / dh} $批量来获得$ \ tilde o(\ sqrt {d ^ 3h ^ 3t})$后悔。对于稀有策略开关模型,我们提出的LSVI-UCB-RARESWICH算法享有$ \ TINDE O(\ SQRT {D ^ 3h ^ 3t [1 + T /(DH)] ^ {dh / b})$遗憾,这意味着$ dh \ log t $策略交换机足以获得$ \ tilde o(\ sqrt {d ^ 3h ^ 3t})$后悔。我们的算法达到与LSVI-UCB算法相同的遗憾(Jin等,2019),但具有大量较小的适应性。我们还为批量学习模式建立了较低的界限,这表明对我们遗憾的依赖于您的遗憾界限是紧张的。
translated by 谷歌翻译
我们介绍了一种普遍的策略,可实现有效的多目标勘探。它依赖于adagoal,一种基于简单约束优化问题的新的目标选择方案,其自适应地针对目标状态,这既不是太困难也不是根据代理目前的知识达到的。我们展示了Adagoal如何用于解决学习$ \ epsilon $ -optimal的目标条件的政策,以便在$ L $ S_0 $ S_0 $奖励中获得的每一个目标状态,以便在$ S_0 $中获取。免费马尔可夫决策过程。在标准的表格外壳中,我们的算法需要$ \ tilde {o}(l ^ 3 s a \ epsilon ^ { - 2})$探索步骤,这几乎很少最佳。我们还容易在线性混合Markov决策过程中实例化Adagoal,其产生具有线性函数近似的第一目标导向的PAC保证。除了强大的理论保证之外,迈克纳队以现有方法的高级别算法结构为锚定,为目标条件的深度加固学习。
translated by 谷歌翻译
强化学习通常假设代理人立即观察其动作的反馈,但在许多实际应用中(如推荐系统),延迟观察到反馈。本文在线学习在线学习,具有未知过渡,过渡性的成本和不受限制的延迟反馈,在线学习。也就是说,集中的成本和轨迹只在第k + d ^ k $的集中延迟到学习者,其中延迟$ d ^ k $既不相同也不有界限,并由其中选择忘记的对手。我们提出了基于策略优化的新型算法,该算法在全信息反馈下实现了$ \ sqrt {k + d} $的近乎最佳的高概率遗憾,其中$ k $是剧集的数量和$ d = \ sum_ {k D ^ K $是总延迟。在强盗反馈下,我们证明了类似$ \ SQRT {K + D} $遗憾假设成本是随机的,而在一般情况下为$(k + d)^ {2/3} $遗憾。我们是第一个在具有延迟反馈的MDP的重要设置中考虑后悔最小化。
translated by 谷歌翻译
在线强化学习(RL)中的挑战之一是代理人需要促进对环境的探索和对样品的利用来优化其行为。无论我们是否优化遗憾,采样复杂性,状态空间覆盖范围或模型估计,我们都需要攻击不同的勘探开发权衡。在本文中,我们建议在分离方法组成的探索 - 剥削问题:1)“客观特定”算法(自适应)规定哪些样本以收集到哪些状态,似乎它可以访问a生成模型(即环境的模拟器); 2)负责尽可能快地生成规定样品的“客观无关的”样品收集勘探策略。建立最近在随机最短路径问题中进行探索的方法,我们首先提供一种算法,它给出了每个状态动作对所需的样本$ B(S,a)$的样本数量,需要$ \ tilde {o} (bd + d ^ {3/2} s ^ 2 a)收集$ b = \ sum_ {s,a} b(s,a)$所需样本的$时间步骤,以$ s $各国,$ a $行动和直径$ d $。然后我们展示了这种通用探索算法如何与“客观特定的”策略配对,这些策略规定了解决各种设置的样本要求 - 例如,模型估计,稀疏奖励发现,无需无成本勘探沟通MDP - 我们获得改进或新颖的样本复杂性保证。
translated by 谷歌翻译