在本文中,我们研究了众所周知的团队导演问题,其中一批机器人通过访问地点收集奖励。通常,假设奖励是机器人已知的;但是,在环境监测或场景重建的应用中,奖励通常是主观的,并指定它们是具有挑战性的。我们提出了一个框架来通过向它们呈现替代解决方案来学习用户的未知偏好,并且用户在所提出的替代解决方案上提供排名。我们考虑了用户的两种情况:1)确定替代解决方案的最佳排名的确定性用户,以及根据未知概率分布提供最佳排名的噪声用户。对于确定性用户,我们提出了一个框架,以最大限度地减少与最佳解决方案的最大偏差的界限,即后悔。我们适应捕获嘈杂用户的方法,并最大限度地减少预期的遗憾。最后,我们展示了学习用户偏好的重要性以及在广泛的实验结果中使用真实的世界数据集进行环境监测问题的大量实验结果的性能。
translated by 谷歌翻译