物理模拟器在安全,不受约束的环境中方便学习加强学习政策表现出了巨大的希望。但是,由于现实差距,将获得的知识转移到现实世界可能会具有挑战性。为此,最近已经提出了几种方法来自动调整具有后验分布的实际数据,以在训练时与域随机化一起使用。这些方法已被证明在不同的设置和假设下适用于各种机器人任务。然而,现有文献缺乏对转移性能和实际数据效率的现有自适应域随机方法的详尽比较。在这项工作中,我们为离线和在线方法(Simopt,Bayrn,Droid,Dropo)提供了一个开放的基准,以阐明最适合每个设置和手头的任务。我们发现,在线方法受到下一次迭代的当前学会策略的质量受到限制,而离线方法有时可能会在使用开环命令中模拟中重播轨迹时失败。所使用的代码将在https://github.com/gabrieletiboni/adr-benchmark上发布。
translated by 谷歌翻译