实现人类水平的灵活性是机器人技术中的重要开放问题。但是,即使在婴儿级别,灵巧的手动操纵任务也是通过增强学习(RL)的挑战。困难在于高度的自由度和异质因素(例如手指关节)之间所需的合作。在这项研究中,我们提出了双人灵感手基准(BI-DEXHANDS),这是一种模拟器,涉及两只灵巧的手,其中包含数十只双人操纵任务和数千个目标对象。具体而言,根据认知科学文献,BI-DEXHANDS中的任务旨在匹配不同级别的人类运动技能。我们在ISSAC体育馆里建造了Bi-Dexhands;这可以实现高效的RL培训,仅在一个NVIDIA RTX 3090中达到30,000+ fps。我们在不同的设置下为流行的RL算法提供了全面的基准;这包括单代理/多代理RL,离线RL,多任务RL和META RL。我们的结果表明,PPO类型的上车算法可以掌握简单的操纵任务,该任务等效到48个月的人类婴儿(例如,捕获飞行的物体,打开瓶子),而多代理RL可以进一步帮助掌握掌握需要熟练的双人合作的操作(例如,举起锅,堆叠块)。尽管每个任务都取得了成功,但在获得多个操纵技能方面,现有的RL算法无法在大多数多任务和少量学习设置中工作,这需要从RL社区进行更实质性的发展。我们的项目通过https://github.com/pku-marl/dexteroushands开放。
translated by 谷歌翻译