与人类合作需要迅速适应他们的个人优势,缺点和偏好。遗憾的是,大多数标准的多智能经纪增强学习技术,如自助(SP)或人口剧(PP),产生培训合作伙伴的代理商,并且对人类不完全概括。或者,研究人员可以使用行为克隆收集人体数据,培训人类模型,然后使用该模型培训“人类感知”代理(“行为克隆播放”或BCP)。虽然这种方法可以改善代理商的概括到新的人类共同球员,但它涉及首先收集大量人体数据的繁重和昂贵的步骤。在这里,我们研究如何培训与人类合作伙伴合作的代理的问题,而无需使用人类数据。我们认为这个问题的症结是制作各种培训伙伴。从竞争域中取得成功的多智能经纪人方法绘制灵感,我们发现令人惊讶的简单方法非常有效。我们培养我们的代理商合作伙伴作为对自行发行代理人口的最佳反应及其过去培训的过去检查点,这是我们呼叫虚构共同扮演(FCP)的方法。我们的实验专注于两位运动员协作烹饪模拟器,最近被提议作为与人类协调的挑战问题。我们发现,与新的代理商和人类合作伙伴配对时,FCP代理商会显着高于SP,PP和BCP。此外,人类还报告了强烈的主观偏好,以与所有基线与FCP代理合作。
translated by 谷歌翻译