在这项工作中,我们将注意力集中在数据分布与基于Q学基于Q学基于函数近似之间的相互作用的研究。我们提供了一个理论和实证分析,以及为什么数据分布的不同性质可以有助于调节算法不稳定性的来源。首先,我们重新审视近似动态编程算法性能的理论界限。其次,我们提供了一种新型的四态MDP,突出了在线和离线设置中具有功能近似的Q学习算法的数据分布的影响。最后,我们通过实验评估数据分布属性在离线深度Q网算法的性能中的影响。我们的结果表明:(i)数据分布需要拥有某些属性,以便在离线设置中鲁棒地学习,即距离MDP的最佳策略和高覆盖范围内的分布在状态 - 动作空间上的低距离; (ii)高熵数据分布可以有助于减轻算法不稳定性的来源。
translated by 谷歌翻译