智能论文笔记

Understanding the Limits of Poisoning Attacks in Episodic Reinforcement Learning

Anshuka Rangi , Haifeng Xu , Long Tran-Thanh , Massimo Franceschetti

分类：机器学习 | (统计)机器学习

2022-08-29

为了了解强化学习的安全威胁（RL）算法，本文研究中毒攻击以操纵\ emph {any}订单 - 最佳学习算法对偶发性RL中有针对性的政策，并研究了两种自然中毒攻击的潜在损害，即，\ emph {Reward}和\ Emph {Action}的操作。我们发现攻击的影响至关重要地取决于奖励是有界还是无限的。在有限的奖励设置中，我们表明只有奖励操纵或只有动作操纵不能保证成功的攻击。但是，通过结合奖励和行动操纵，对手可以操纵任何订单最佳学习算法，以遵循任何有针对性的策略，并使用$ \ tilde {\ theta}（\ sqrt {t}）$总攻击成本，这是订单 - 优越，最佳的攻击成本不知道基础MDP。相反，在无限的奖励设置中，我们表明奖励操纵攻击足以使对手成功操纵任何订单最佳学习算法，以使用$ \ tilde {o}（\ sqrt {t}）遵循任何有针对性的策略污染。我们的结果揭示了有关中毒攻击无法获得或无法实现的有用见解，并将刺激有关强大RL算法设计的更多作品。

translated by 谷歌翻译