最近的几项工程致力于在一个环境中致力于无监督的加固学习,其中一项政策首先使用无监督的互动预测,然后微调在相同环境上定义的几个下游监督任务的最佳政策。沿着这一条线,我们解决了一类多种环境中无监督的加强学习问题,其中策略预先培训了从整个类的交互接受,然后在课堂的任何环境中进行微调。值得注意的是,问题本质上是多目标,因为我们可以在许多方面折交环境之间的预训练目标。在这项工作中,我们培养了对课堂内最不利的案件敏感的探索策略。因此,我们将探索问题作为勘探策略在整类环境中探索熵诱导的临界百分点的最大值的最大化。然后,我们提出了一种策略梯度算法,$ \ Alpha $ Mepol,通过与类的介导的交互来优化引入的目标。最后,我们经验展示了算法在学习探索挑战性的连续环境中的能力,我们展示了加强学习从预先接受训练的探索策略W.R.T.从头开始学习。
translated by 谷歌翻译