3D人类的姿势和形状估计(又称“人网恢复”)取得了实质性进展。研究人员主要关注新算法的发展,而对涉及的其他关键因素的关注较少。这可能会导致最佳基线,从而阻碍对新设计方法的公平和忠实的评估。为了解决这个问题,这项工作从算法以外的三个探索性观点中提出了首次全面的基准测试研究。 1)数据集。对31个数据集的分析揭示了数据样本的不同影响:具有关键属性的数据集(即多样化的姿势,形状,相机特征,骨干特征)更有效。高质量数据集的战略选择和组合可以显着提高模型性能。 2)骨干。从CNN到变压器的10个骨干的实验表明,从接近任务中学到的知识很容易转移到人网状恢复中。 3)培训策略。正确的增强技术和损失设计至关重要。通过上述发现,我们在具有相对简单的模型的3DPW测试集上实现了47.3 mm的PA-MPJPE。更重要的是,我们为算法的公平比较提供了强大的基准,以及将来建立有效培训配置的建议。代码库可在http://github.com/smplbody/hmr-benchmarks上获得
translated by 谷歌翻译
基于图像和视频的3D人类恢复(即姿势和形状估计)取得了实质性进展。但是,由于运动捕获的高度成本,现有的数据集通常受到规模和多样性的限制。在这项工作中,我们通过使用自动注释的3D地面真相玩电子游戏来获得大量的人类序列。具体来说,我们贡献了GTA-Human,这是一种由GTA-V游戏引擎生成的大规模3D人类数据集,具有高度多样化的主题,动作和场景。更重要的是,我们研究游戏玩法数据的使用并获得五个主要见解。首先,游戏数据非常有效。基于框架的简单基线对GTA-Human训练,其优于更复杂的方法的幅度很大。对于基于视频的方法,GTA-Human甚至与内域训练集相当。其次,我们发现合成数据为通常在室内收集的真实数据提供了关键补充。我们对域间隙的调查为简单但有用的数据混合策略提供了解释。第三,数据集的比例很重要。性能提升与可用的其他数据密切相关。一项系统的研究揭示了来自多个关键方面的数据密度的模型敏感性。第四,GTA-Human的有效性还归因于丰富的强制监督标签(SMPL参数),在实际数据集中获取否则它们很昂贵。第五,合成数据的好处扩展到较大的模型,例如更深层次的卷积神经网络(CNN)和变压器,也观察到了重大影响。我们希望我们的工作可以为将3D人类恢复到现实世界铺平道路。主页:https://caizhongang.github.io/projects/gta-human/
translated by 谷歌翻译
从单个图像中感知3D人体的能力具有多种应用,从娱乐和机器人技术到神经科学和医疗保健。人类网格恢复中的一个基本挑战是收集训练所需的地面真相3D网格目标,这需要负担重大的运动捕获系统,并且通常仅限于室内实验室。结果,尽管在这些限制性设置中收集的基准数据集上取得了进展,但由于分配变化,模型无法推广到现实世界中的``野外''方案。我们提出了域自适应3D姿势增强(DAPA),这是一种数据增强方法,可增强模型在野外场景中的概括能力。 DAPA通过从综合网格中获得直接监督,并通过使用目标数据集的地面真相2D关键点来结合基于合成数据集的方法的强度。我们定量地表明,使用DAPA的填充有效地改善了基准3DPW和Agora的结果。我们进一步证明了DAPA在一个充满挑战的数据集中,该数据集从现实世界中亲子互动的视频中策划了。
translated by 谷歌翻译
人类姿势和形状估计的任务中的关键挑战是闭塞,包括自闭合,对象 - 人闭塞和人际闭塞。缺乏多样化和准确的姿势和形状训练数据成为一个主要的瓶颈,特别是对于野外闭塞的场景。在本文中,我们专注于在人际闭塞的情况下估计人类姿势和形状,同时处理对象 - 人闭塞和自动闭塞。我们提出了一种新颖的框架,该框架综合了遮挡感知的轮廓和2D关键点数据,并直接回归到SMPL姿势和形状参数。利用神经3D网格渲染器以启用剪影监控,这有助于形状估计的巨大改进。此外,合成了全景视点中的关键点和轮廓驱动的训练数据,以补偿任何现有数据集中缺乏视点的多样性。实验结果表明,在姿势估计准确性方面,我们在3DPW和3DPW-Crowd数据集中是最先进的。所提出的方法在形状估计方面显着优于秩1方法。在形状预测精度方面,SSP-3D还实现了顶级性能。
translated by 谷歌翻译
基于回归的方法可以通过直接以馈送方式将原始像素直接映射到模型参数来估算从单眼图像的身体,手甚至全身模型。但是,参数的微小偏差可能导致估计的网格和输入图像之间的明显未对准,尤其是在全身网格恢复的背景下。为了解决这个问题,我们建议在我们的回归网络中进行锥体网状对准反馈(PYMAF)循环,以进行良好的人类网格恢复,并将其扩展到PYMAF-X,以恢复表达全身模型。 PYMAF的核心思想是利用特征金字塔并根据网格图像对准状态明确纠正预测参数。具体而言,给定当前预测的参数,将相应地从更优质的特征中提取网格对准的证据,并将其送回以进行参数回流。为了增强一致性的看法,采用辅助密集的监督来提供网格图像对应指南,同时引入了空间对齐的注意,以使我们的网络对全球环境的认识。当扩展PYMAF以进行全身网状恢复时,PYMAF-X中提出了一种自适应整合策略来调整肘部扭转旋转,该旋转会产生自然腕部姿势,同时保持部分特定估计的良好性能。我们的方法的功效在几个基准数据集上得到了验证,以实现身体和全身网状恢复,在该数据集中,PYMAF和PYMAF-X有效地改善了网格图像的对准并实现了新的最新结果。具有代码和视频结果的项目页面可以在https://www.liuyebin.com/pymaf-x上找到。
translated by 谷歌翻译
Figure 1: Given challenging in-the-wild videos, a recent state-of-the-art video-pose-estimation approach [31] (top), fails to produce accurate 3D body poses. To address this, we exploit a large-scale motion-capture dataset to train a motion discriminator using an adversarial approach. Our model (VIBE) (bottom) is able to produce realistic and accurate pose and shape, outperforming previous work on standard benchmarks.
translated by 谷歌翻译
自上而下的方法主导了3D人类姿势和形状估计的领域,因为它们与人类的检测脱钩,并使研究人员能够专注于核心问题。但是,裁剪是他们的第一步,从一开始就丢弃了位置信息,这使自己无法准确预测原始摄像机坐标系中的全局旋转。为了解决此问题,我们建议将完整框架(悬崖)的位置信息携带到此任务中。具体而言,我们通过将裁剪图像功能与其边界盒信息连接在一起来养活更多的整体功能来悬崖。我们通过更广泛的全帧视图来计算2D再投影损失,进行了类似于图像中投射的人的投影过程。克里夫(Cliff)通过全球态度感知信息进行了喂养和监督,直接预测全球旋转以及更准确的明确姿势。此外,我们提出了一个基于Cliff的伪基真实注释,该注释为野外2D数据集提供了高质量的3D注释,并为基于回归的方法提供了至关重要的全面监督。对流行基准测试的广泛实验表明,悬崖的表现要超过先前的艺术,并在Agora排行榜上获得了第一名(SMPL-Algorithms曲目)。代码和数据可在https://github.com/huawei-noah/noah-research/tree/master/cliff中获得。
translated by 谷歌翻译
在分析人类运动视频时,来自现有姿势估计器的输出抖动是高度不平衡的。大多数帧只遭受轻微的傻瓜,而在那些具有遮挡或图像质量差的框架中发生了重要的困难。这种复杂的姿势通常持续存在于视频中,导致估计结果差和大型抖动的连续帧。现有的基于时间卷积网络,经常性神经网络或低通滤波器的现有姿态平滑解决方案不能处理这种长期抖动问题,而不考虑抖动视频段内的显着和持久的错误。通过上述观察,我们提出了一种新颖的即插即用细化网络,即光滑网络,可以附加到任何现有的姿势估计,以提高其时间平滑度,同时提高其每个帧精度。特别是,SmoothNet是一个简单而有效的数据驱动的全连接网络,具有大的接收领域,有效地减轻了长期抖动与不可靠的估计结果的影响。我们在十二个骨干网络上进行广泛的实验,跨越2D和3D姿势估算,身体恢复和下游任务。我们的结果表明,所提出的光滑网络始终如一地优于现有的解决方案,尤其是具有高误差和长期抖动的夹子。
translated by 谷歌翻译
培训视频中人类姿势估计的最先进模型需要具有很难获得的注释的数据集。尽管最近已将变压器用于身体姿势序列建模,但相关方法依靠伪地真相来增强目前有限的培训数据可用于学习此类模型。在本文中,我们介绍了Posebert,Posebert是一个通过掩盖建模对3D运动捕获(MOCAP)数据进行全面训练的变压器模块。它是简单,通用和通用的,因为它可以插入任何基于图像的模型的顶部,以在基于视频的模型中使用时间信息。我们展示了Posebert的变体,不同的输入从3D骨骼关键点到全身或仅仅是手(Mano)的3D参数模型的旋转。由于Posebert培训是任务不可知论的,因此该模型可以应用于姿势细化,未来的姿势预测或运动完成等几个任务。我们的实验结果验证了在各种最新姿势估计方法之上添加Posebert始终提高其性能,而其低计算成本使我们能够在实时演示中使用它,以通过A的机器人手使机器人手通过摄像头。可以在https://github.com/naver/posebert上获得测试代码和型号。
translated by 谷歌翻译
Model-based human pose estimation is currently approached through two different paradigms. Optimizationbased methods fit a parametric body model to 2D observations in an iterative manner, leading to accurate imagemodel alignments, but are often slow and sensitive to the initialization. In contrast, regression-based methods, that use a deep network to directly estimate the model parameters from pixels, tend to provide reasonable, but not pixel accurate, results while requiring huge amounts of supervision. In this work, instead of investigating which approach is better, our key insight is that the two paradigms can form a strong collaboration. A reasonable, directly regressed estimate from the network can initialize the iterative optimization making the fitting faster and more accurate. Similarly, a pixel accurate fit from iterative optimization can act as strong supervision for the network. This is the core of our proposed approach SPIN (SMPL oPtimization IN the loop). The deep network initializes an iterative optimization routine that fits the body model to 2D joints within the training loop, and the fitted estimate is subsequently used to supervise the network. Our approach is self-improving by nature, since better network estimates can lead the optimization to better solutions, while more accurate optimization fits provide better supervision for the network. We demonstrate the effectiveness of our approach in different settings, where 3D ground truth is scarce, or not available, and we consistently outperform the state-of-the-art model-based pose estimation approaches by significant margins. The project website with videos, results, and code can be found at https://seas.upenn.edu/ ˜nkolot/projects/spin.
translated by 谷歌翻译
3D从单眼RGB图像中的人类姿势和形状恢复是一个具有挑战性的任务。基于现有的基于学习的方法高度依赖于弱监管信号,例如, 2D和3D联合位置,由于缺乏野外配对的3D监督。然而,考虑到这些弱监管标签中存在的2D-3D模糊,网络在用此类标签培训时容易在本地最佳状态下卡。在本文中,我们通过优化多个初始化来减少势措施。具体而言,我们提出了一个名为多初始化优化网络(MION)的三级框架。在第一阶段,我们策略性地选择与输入样本的2D关键点兼容的不同粗略的3D重建候选。每个粗略重建可以被视为初始化导致一个优化分支。在第二阶段,我们设计网格精制变压器(MRT)以分别通过自我关注机制来优化每个粗略重建结果。最后,提出了一种一致性估计网络(CEN)来通过评估RGB图像中的视觉证据与给定的3D重建匹配,以通过评估来查找来自候选的最佳结果。实验表明,我们的多初始化优化网络优于多个公共基准上的现有3D网格的方法。
translated by 谷歌翻译
全面监督的人类网格恢复方法是渴望数据的,由于3D规定基准数据集的可用性有限和多样性,因此具有较差的概括性。使用合成数据驱动的训练范例,已经从合成配对的2D表示(例如2D关键点和分段掩码)和3D网格中训练了模型的最新进展,其中已使用合成数据驱动的训练范例和3D网格进行了训练。但是,由于合成训练数据和实际测试数据之间的域间隙很难解决2D密集表示,因此很少探索合成密集的对应图(即IUV)。为了减轻IUV上的这个领域差距,我们提出了使用可靠但稀疏表示的互补信息(2D关键点)提出的交叉代理对齐。具体而言,初始网格估计和两个2D表示之间的比对误差将转发为回归器,并在以下网格回归中动态校正。这种适应性的交叉代理对准明确地从偏差和捕获互补信息中学习:从稀疏的表示和浓郁的浓度中的稳健性。我们对多个标准基准数据集进行了广泛的实验,并展示了竞争结果,帮助减少在人类网格估计中生产最新模型所需的注释工作。
translated by 谷歌翻译
我们提出了一种以弱监督方式培训的人类和四足动物的端到端统一3D网格恢复。与最近的工作仅关注单个目标类别,我们的目标是通过单个多任务模型恢复更广泛类的3D网格。然而,没有存在可以直接启用多任务学习的数据集,因为没有人类对象的人类和动物注释,例如,人类图像没有动物姿势注释;因此,我们必须设计一种利用异构数据集的新方法。为了使不稳定的不相交的多任务学习联合培训,我们建议利用人类和动物之间的形态相似性,通过动物锻炼的动机,人类模仿动物的姿势。我们通过语义对应的形态相似性,称为子关键点,其能够联合训练人和动物网格回归分支。此外,我们提出了类敏感的正则化方法,以避免平均形状的偏差,并提高多级别的独特性。我们的方法在各种人类和动物数据集上对最近的Uni-Modal模型进行了有利的,同时更紧凑。
translated by 谷歌翻译
传统的3D人姿态估计依赖于首次检测2D身体键盘,然后求解2D到3D对应问题。提高有希望的结果,该学习范例高度依赖于2D关键点检测器的质量,这不可避免地易于闭塞和堵塞-of-image缺席。在本文中,我们提出了一种新颖的姿势定向网(PONET),其能够仅通过学习方向估计3D姿势,因此在没有图像证据的情况下绕过错误易于keypoint检测器。对于具有部分不可见的四肢的图像,Ponet通过利用本地图像证据来恢复3D姿势来估计这些肢体的3D方向。通过利用完全看不见的四肢来说,Ponet甚至可以从完全看不见的四肢的图像中推断出完整的3D姿势。可见肢体之间的取向相关性以补充估计的姿势,进一步提高了3D姿态估计的鲁棒性。我们在多个数据集中评估我们的方法,包括Human3.6M,MPII,MPI-INF-3DHP和3DPW。我们的方法在理想设置中实现了与最先进的技术的结果,但显着消除了对关键点检测器和相应的计算负担的依赖性。在截断和擦除等方面的高度挑战性方案中,我们的方法稳健地表现得非常强大,与本领域的状态相比,展示其对现实世界应用的可能性。
translated by 谷歌翻译
本文提出了一个简单的基线框架,用于基于视频的2D/3D人姿势估计,该估计可以比现有作品实现10倍提高效率,而无需任何性能降级,名为Deciwatch。与当前在视频中估算每个帧的解决方案不同,Deciwatch引入了一个简单而有效的样品探测框架框架,该框架只能通过人类动作的连续性和轻巧的姿势表示,仅观看稀疏采样的框架。具体而言,DeciWatch均匀地示例少于10%的视频帧以进行详细估计,以有效的变压器体系结构来确定估计的2D/3D姿势,然后使用另一个基于变压器的网络准确地恢复其余帧。通过四个数据集的三个基于视频的人姿势估计和身体网格恢复任务的全面实验结果验证了Deciwatch的效率和有效性。代码可在https://github.com/cure-lab/deciwatch上找到。
translated by 谷歌翻译
本文调查了2D全身人类姿势估计的任务,该任务旨在将整个人体(包括身体,脚,脸部和手)局部定位在整个人体上。我们提出了一种称为Zoomnet的单网络方法,以考虑到完整人体的层次结构,并解决不同身体部位的规模变化。我们进一步提出了一个称为Zoomnas的神经体系结构搜索框架,以促进全身姿势估计的准确性和效率。Zoomnas共同搜索模型体系结构和不同子模块之间的连接,并自动为搜索的子模块分配计算复杂性。为了训练和评估Zoomnas,我们介绍了第一个大型2D人类全身数据集,即可可叶全体V1.0,它注释了133个用于野外图像的关键点。广泛的实验证明了Zoomnas的有效性和可可叶v1.0的重要性。
translated by 谷歌翻译
Deep learning-based 3D human pose estimation performs best when trained on large amounts of labeled data, making combined learning from many datasets an important research direction. One obstacle to this endeavor are the different skeleton formats provided by different datasets, i.e., they do not label the same set of anatomical landmarks. There is little prior research on how to best supervise one model with such discrepant labels. We show that simply using separate output heads for different skeletons results in inconsistent depth estimates and insufficient information sharing across skeletons. As a remedy, we propose a novel affine-combining autoencoder (ACAE) method to perform dimensionality reduction on the number of landmarks. The discovered latent 3D points capture the redundancy among skeletons, enabling enhanced information sharing when used for consistency regularization. Our approach scales to an extreme multi-dataset regime, where we use 28 3D human pose datasets to supervise one model, which outperforms prior work on a range of benchmarks, including the challenging 3D Poses in the Wild (3DPW) dataset. Our code and models are available for research purposes.
translated by 谷歌翻译
Full-body reconstruction is a fundamental but challenging task. Owing to the lack of annotated data, the performances of existing methods are largely limited. In this paper, we propose a novel method named Full-body Reconstruction from Part Experts~(FuRPE) to tackle this issue. In FuRPE, the network is trained using pseudo labels and features generated from part-experts. An simple yet effective pseudo ground-truth selection scheme is proposed to extract high-quality pseudo labels. In this way, a large-scale of existing human body reconstruction datasets can be leveraged and contribute to the model training. In addition, an exponential moving average training strategy is introduced to train the network in a self-supervised manner, further boosting the performance of the model. Extensive experiments on several widely used datasets demonstrate the effectiveness of our method over the baseline. Our method achieves the state-of-the-art performance. Code will be publicly available for further research.
translated by 谷歌翻译
了解来自第一人称观点的社交互动对于许多应用来说至关重要,从辅助机器人到AR / VR。谈论相互作用的第一步是理解人类的姿势和形状。但是,该领域的研究目前受到数据缺乏的阻碍。现有数据集根据大小,注释,地面真实捕获方式或相互作用的多样性有限。我们通过提出EGOBODY来解决这一缺点,这是一个用于复杂3D场景中的社交交互的新型大规模数据集。我们采用Microsoft Hololens2耳机来记录富裕的EGEntric数据流(包括RGB,深度,眼睛凝视,头部和手动跟踪)。为了获得准确的3D地面真理,我们将耳机用多kinect钻机校准并配合富有呈现的SMPL-X体网格到多视图RGB-D帧,重建3D人类姿势和相对于场景的形状。我们收集68个序列,跨越不同的社会学互动类别,并提出了从自我监视视图的3D全体姿态和形状估计的第一个基准。我们的数据集和代码将在https://sanweiliti.github.io/egobody/egobody.html中进行研究。
translated by 谷歌翻译
虽然从图像中回归3D人类的方法迅速发展,但估计的身体形状通常不会捕获真正的人形状。这是有问题的,因为对于许多应用,准确的身体形状与姿势一样重要。身体形状准确性差姿势准确性的关键原因是缺乏数据。尽管人类可以标记2D关节,并且这些约束3D姿势,但“标记” 3D身体形状并不容易。由于配对的数据与图像和3D身体形状很少见,因此我们利用了两个信息来源:(1)我们收集了各种“时尚”模型的互联网图像,以及一系列的人体测量值; (2)我们为3D身体网眼和模型图像收集语言形状属性。综上所述,这些数据集提供了足够的约束来推断密集的3D形状。我们利用几种新型方法来利用人体测量和语言形状属性来训练称为Shapy的神经网络,从而从RGB图像中回归了3D人类的姿势和形状。我们在公共基准测试上评估shapy,但请注意,它们要么缺乏明显的身体形状变化,地面真实形状或衣服变化。因此,我们收集了一个新的数据集,用于评估3D人类形状估计,称为HBW,其中包含“野生人体”的照片,我们为其具有地面3D身体扫描。在这个新的基准测试中,Shapy在3D身体估计的任务上的最先进方法极大地胜过。这是第一次演示,即可以从易于观察的人体测量和语言形状属性中训练来自图像的3D体形回归。我们的模型和数据可在以下网址获得:shapy.is.tue.mpg.de
translated by 谷歌翻译