基于卷积神经网络的单眼3D人体姿态估计方法通常需要大量具有3D姿势注释的训练图像。尽管为人类提供大量野外图像的2D联合注释是可行的,但是提供准确的3D注释,在野外语料库中实际上几乎不可行。大多数现有的3D标记数据集要么是综合创建的,要么是工作室内的图像。在这样的数据上训练的3D姿势估计算法通常具有推广到现实世界场景分集的有限性。因此,我们提出了一种新的基于深度学习的单眼三维人体姿态估计方法,该方法显示出高精度并且更好地概括为野外场景。它具有网络体系结构,其包括新的解析的隐藏空间编码的显式2D和3D特征,并且使用来自预测的3D姿势的新学习的投影模型的监督。我们的算法可以在图像数据上与3D标签和仅具有2D标签的图像数据联合训练。它在挑战野外数据方面实现了最先进的准确性。
translated by 谷歌翻译