在这项工作中,我们介绍了我们的实时自我分割算法。由于我们在Thundernet的架构中灵感的浅网络,我们的算法对于640x480的输入分辨率达到了66 fps的帧速率。此外,我们非常重视培训数据的可变性。更具体地说,我们描述了我们的自我中心物体(Egobodies)数据集的创建过程,该数据集由来自三个数据集的近10,000张图像组成,这些图像既来自综合方法和真实捕获。我们进行实验以了解各个数据集的贡献;比较用自行车训练的Thundernet模型,并以更简单,更复杂的先前方法进行比较,并在分段质量和推理时间上以现实生活设置进行了相应的性能。所描述的经过训练的语义分割算法已经集成到混合现实的端到端系统中,使用户有可能在沉浸在MR场景中时看到自己的身体。
translated by 谷歌翻译