强化学习通常假设代理人立即观察其动作的反馈,但在许多实际应用中(如推荐系统),延迟观察到反馈。本文在线学习在线学习,具有未知过渡,过渡性的成本和不受限制的延迟反馈,在线学习。也就是说,集中的成本和轨迹只在第k + d ^ k $的集中延迟到学习者,其中延迟$ d ^ k $既不相同也不有界限,并由其中选择忘记的对手。我们提出了基于策略优化的新型算法,该算法在全信息反馈下实现了$ \ sqrt {k + d} $的近乎最佳的高概率遗憾,其中$ k $是剧集的数量和$ d = \ sum_ {k D ^ K $是总延迟。在强盗反馈下,我们证明了类似$ \ SQRT {K + D} $遗憾假设成本是随机的,而在一般情况下为$(k + d)^ {2/3} $遗憾。我们是第一个在具有延迟反馈的MDP的重要设置中考虑后悔最小化。
translated by 谷歌翻译