为了了解强化学习的安全威胁(RL)算法,本文研究中毒攻击以操纵\ emph {any}订单 - 最佳学习算法对偶发性RL中有针对性的政策,并研究了两种自然中毒攻击的潜在损害,即,\ emph {Reward}和\ Emph {Action}的操作。我们发现攻击的影响至关重要地取决于奖励是有界还是无限的。在有限的奖励设置中,我们表明只有奖励操纵或只有动作操纵不能保证成功的攻击。但是,通过结合奖励和行动操纵,对手可以操纵任何订单最佳学习算法,以遵循任何有针对性的策略,并使用$ \ tilde {\ theta}(\ sqrt {t})$总攻击成本,这是订单 - 优越,最佳的攻击成本不知道基础MDP。相反,在无限的奖励设置中,我们表明奖励操纵攻击足以使对手成功操纵任何订单最佳学习算法,以使用$ \ tilde {o}(\ sqrt {t})遵循任何有针对性的策略污染。我们的结果揭示了有关中毒攻击无法获得或无法实现的有用见解,并将刺激有关强大RL算法设计的更多作品。
translated by 谷歌翻译