我们提出了Tipsy-Gan,这是一种提高无监督对抗2d至3D人类姿势估计的准确性和稳定性的新方法。在我们的工作中,我们证明了人运动骨骼不应被假定为单一的空间相互依存的结构。实际上,我们认为,当训练期间提供完整的2D姿势时,存在一种固有的偏见,在其中,关键点的3D坐标在空间上依赖于所有其他关键点的2D坐标。为了研究我们的假设,我们遵循以前的对抗方法,但在运动骨架,躯干和腿部的空间独立部分上训练两个发电机。我们发现,改善自抗性周期是降低评估误差的关键,因此在训练过程中引入了新的一致性约束。通过这些发电机的知识蒸馏产生尖端模型,该模型可以预测整个2D姿势的3D尺寸,并改善结果。此外,我们在先前的工作中解决了一个未解决的问题,即在一个真正无监督的情况下要训练多长时间。我们表明,对于两个独立的发电机,对手训练的稳定性比崩溃的独奏发电机的稳定性提高了。与人为36m数据集中的基线独奏器相比,Tipsy将平均误差降低了17 \%。 Tipsy对其他无监督的方法进行了改进,同时在对人类360万和MPI-INF-3DHP数据集的评估过程中也强烈反对受监督和弱监督的方法。
translated by 谷歌翻译
本文解决了在无监督的2D至3D姿势提升过程中2D姿势​​表示的问题,以提高3D人姿势估计(HPE)模型的准确性,稳定性和普遍性。在训练期间,所有无监督的2d-3d HPE方法都为模型提供了整个2D运动骨架。我们认为,这是亚最佳和破坏性的,因为在训练过程中独立的2D关键点和预测的3D序列之间引起了远距离相关性。为此,我们进行了以下研究。我们的最大体系结构能力为6个残留块,我们评估了5个模型的性能,在对抗性无监督的2d-3d HPE过程中,每个模型的姿势都不同。此外,我们还显示了在训练过程中学习的2D关键点之间的相关性,并强调了当将整个2D姿势提供给起重模型时引起的不直觉相关性。我们的结果表明,2D姿势的最佳表示是两个独立的段落,即躯干和腿部,每个提升网络之间没有共同的特征。与在整个2D运动骨架上训练的几乎相同的参数计数相比,这种方法在人类36m数据集上的平均误差下降了20 \%。此外,由于对抗性学习的复杂性质,我们展示了这种表示如何在训练过程中改善收敛性,从而更频繁地获得最佳的结果。
translated by 谷歌翻译
大多数实时人类姿势估计方法都基于检测接头位置。使用检测到的关节位置,可以计算偏差和肢体的俯仰。然而,由于这种旋转轴仍然不观察,因此不能计算沿着肢体沿着肢体至关重要的曲折,这对于诸如体育分析和计算机动画至关重要。在本文中,我们引入了方向关键点,一种用于估计骨骼关节的全位置和旋转的新方法,仅使用单帧RGB图像。灵感来自Motion-Capture Systems如何使用一组点标记来估计全骨骼旋转,我们的方法使用虚拟标记来生成足够的信息,以便准确地推断使用简单的后处理。旋转预测改善了接头角度最佳报告的平均误差48%,并且在15个骨骼旋转中实现了93%的精度。该方法还通过MPJPE在原理数据集上测量,通过MPJPE测量,该方法还改善了当前的最新结果14%,并概括为野外数据集。
translated by 谷歌翻译
本文解决了3D人类姿势估计模型的交叉数据集泛化问题。在新数据集上测试预先训练的3D姿势估计值会导致主要的性能下降。以前的方法主要通过改善培训数据的多样性来解决这个问题。我们认为单独的多样性是不够的,并且训练数据的特征需要适应新数据集的那些,例如相机观点,位置,人类动作和体型。为此,我们提出了一种完全的端到端框架,该端到端框架从源数据集生成合成3D人体运动,并使用它们来微调3D姿势估计器。适配遵循对抗培训计划。来自源3D构成发电机生成一系列3D姿势和用于将生成的姿势投影到新颖视图的相机方向。如果没有任何3D标签或相机信息,则成功地学习从目标数据集创建合成3D构成,同时仅在2D姿势培训。在Human3.6m,MPI-INF-3DHP,3DPW和SKI-Pose数据集的实验中,我们的方法优于跨数据集评估的先前工作14%和以前的半监督学习方法,使用部分3D注释达到16%。
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译
从单个图像的人类姿势估计是一个充满挑战的问题,通常通过监督学习解决。不幸的是,由于3D注释需要专用的运动捕获系统,因此许多人类活动尚不存在标记的培训数据。因此,我们提出了一种无监督的方法,该方法学会从单个图像预测3D人类姿势,同时只有2D姿势数据培训,这可能是人群的并且已经广泛可用。为此,我们估计最有可能过于随机投影的3D姿势,其中使用2D姿势的归一化流程估计的可能性。虽然以前的工作需要在训练数据集中的相机旋转上需要强大的前锋,但我们了解了相机角度的分布,显着提高了性能。我们的贡献的另一部分是通过首先将2D突出到线性子空间来稳定高维3D姿势数据上的标准化流动的训练。在许多指标中,我们优于基准数据集Humanets3.6m和MPI-INF-3DHP的最先进的无人监督的人类姿势估算方法。
translated by 谷歌翻译
Input Reconstruction Side and top down view Part Segmentation Input Reconstruction Side and top down view Part Segmentation Figure 1: Human Mesh Recovery (HMR): End-to-end adversarial learning of human pose and shape. We describe a real time framework for recovering the 3D joint angles and shape of the body from a single RGB image. The first two rowsshow results from our model trained with some 2D-to-3D supervision, the bottom row shows results from a model that is trained in a fully weakly-supervised manner without using any paired 2D-to-3D supervision. We infer the full 3D body even in case of occlusions and truncations. Note that we capture head and limb orientations.
translated by 谷歌翻译
Figure 1: Given challenging in-the-wild videos, a recent state-of-the-art video-pose-estimation approach [31] (top), fails to produce accurate 3D body poses. To address this, we exploit a large-scale motion-capture dataset to train a motion discriminator using an adversarial approach. Our model (VIBE) (bottom) is able to produce realistic and accurate pose and shape, outperforming previous work on standard benchmarks.
translated by 谷歌翻译
将2D人的姿势提升到3D姿势是一个重要而挑战的任务。现有的3D姿势估计遭受了1)2D和3D数据之间的固有模糊,2)野外缺少缺乏标记的2D-3D姿势对。人类能够从2D图像中的人体3D姿势或具有最低歧义的一组2D身体键点,这应该归因于我们在我们脑海中获得的人体的先验知识。灵感来自于此,我们提出了一个新的框架,利用标记的3D人类姿势来学习人体的3D概念来减少歧义。要在2D姿势上对身体概念进行达成共识,我们的主要洞察力是将2D人类姿势和3D人类姿势视为两个不同的域。通过调整两个域,从3D姿势中学到的身体知识应用于2D姿势并引导2D姿势编码器,以产生信息3D“想象力”,因为在姿势提升中嵌入。从域适应角度受益,所提出的框架统一了一个原则框架的监督和半监督的3D姿态估计。广泛的实验表明,所提出的方法可以在标准基准上实现最先进的性能。更重要的是,验证了明确学习的3D身体概念有效地减轻了2D姿势提升中的2D-3D模糊性,提高了泛化,并使网络能够利用丰富的未标记的2D数据。
translated by 谷歌翻译
In this work, we demonstrate that 3D poses in video can be effectively estimated with a fully convolutional model based on dilated temporal convolutions over 2D keypoints. We also introduce back-projection, a simple and effective semi-supervised training method that leverages unlabeled video data. We start with predicted 2D keypoints for unlabeled video, then estimate 3D poses and finally back-project to the input 2D keypoints. In the supervised setting, our fully-convolutional model outperforms the previous best result from the literature by 6 mm mean per-joint position error on Human3.6M, corresponding to an error reduction of 11%, and the model also shows significant improvements on HumanEva-I. Moreover, experiments with back-projection show that it comfortably outperforms previous state-of-the-art results in semisupervised settings where labeled data is scarce. Code and models are available at https://github.com/ facebookresearch/VideoPose3D
translated by 谷歌翻译
Deep learning-based 3D human pose estimation performs best when trained on large amounts of labeled data, making combined learning from many datasets an important research direction. One obstacle to this endeavor are the different skeleton formats provided by different datasets, i.e., they do not label the same set of anatomical landmarks. There is little prior research on how to best supervise one model with such discrepant labels. We show that simply using separate output heads for different skeletons results in inconsistent depth estimates and insufficient information sharing across skeletons. As a remedy, we propose a novel affine-combining autoencoder (ACAE) method to perform dimensionality reduction on the number of landmarks. The discovered latent 3D points capture the redundancy among skeletons, enabling enhanced information sharing when used for consistency regularization. Our approach scales to an extreme multi-dataset regime, where we use 28 3D human pose datasets to supervise one model, which outperforms prior work on a range of benchmarks, including the challenging 3D Poses in the Wild (3DPW) dataset. Our code and models are available for research purposes.
translated by 谷歌翻译
全面监督的人类网格恢复方法是渴望数据的,由于3D规定基准数据集的可用性有限和多样性,因此具有较差的概括性。使用合成数据驱动的训练范例,已经从合成配对的2D表示(例如2D关键点和分段掩码)和3D网格中训练了模型的最新进展,其中已使用合成数据驱动的训练范例和3D网格进行了训练。但是,由于合成训练数据和实际测试数据之间的域间隙很难解决2D密集表示,因此很少探索合成密集的对应图(即IUV)。为了减轻IUV上的这个领域差距,我们提出了使用可靠但稀疏表示的互补信息(2D关键点)提出的交叉代理对齐。具体而言,初始网格估计和两个2D表示之间的比对误差将转发为回归器,并在以下网格回归中动态校正。这种适应性的交叉代理对准明确地从偏差和捕获互补信息中学习:从稀疏的表示和浓郁的浓度中的稳健性。我们对多个标准基准数据集进行了广泛的实验,并展示了竞争结果,帮助减少在人类网格估计中生产最新模型所需的注释工作。
translated by 谷歌翻译
We propose a CNN-based approach for 3D human body pose estimation from single RGB images that addresses the issue of limited generalizability of models trained solely on the starkly limited publicly available 3D pose data. Using only the existing 3D pose data and 2D pose data, we show state-of-the-art performance on established benchmarks through transfer of learned features, while also generalizing to in-the-wild scenes. We further introduce a new training set for human body pose estimation from monocular images of real humans that has the ground truth captured with a multi-camera marker-less motion capture system. It complements existing corpora with greater diversity in pose, human appearance, clothing, occlusion, and viewpoints, and enables an increased scope of augmentation. We also contribute a new benchmark that covers outdoor and indoor scenes, and demonstrate that our 3D pose dataset shows better in-the-wild performance than existing annotated data, which is further improved in conjunction with transfer learning from 2D pose data. All in all, we argue that the use of transfer learning of representations in tandem with algorithmic and data contributions is crucial for general 3D body pose estimation.
translated by 谷歌翻译
单眼3D人姿势估计技术有可能大大增加人类运动数据的可用性。单位图2D-3D提升使用图卷积网络(GCN)的表现最佳模型,通常需要一些手动输入来定义不同的身体关节之间的关系。我们提出了一种基于变压器的新型方法,该方法使用更广泛的自我发场机制来学习代表关节的代币序列。我们发现,使用中间监督以及堆叠编码器福利性能之间的剩余连接。我们还建议,将错误预测作为多任务学习框架的一部分,可以通过允许网络弥补其置信度来改善性能。我们进行广泛的消融研究,以表明我们的每项贡献都会提高性能。此外,我们表明我们的方法的表现超过了最新的单帧3D人类姿势估计的最新技术状态。我们的代码和训练有素的模型可在GitHub上公开提供。
translated by 谷歌翻译
传统的3D人姿态估计依赖于首次检测2D身体键盘,然后求解2D到3D对应问题。提高有希望的结果,该学习范例高度依赖于2D关键点检测器的质量,这不可避免地易于闭塞和堵塞-of-image缺席。在本文中,我们提出了一种新颖的姿势定向网(PONET),其能够仅通过学习方向估计3D姿势,因此在没有图像证据的情况下绕过错误易于keypoint检测器。对于具有部分不可见的四肢的图像,Ponet通过利用本地图像证据来恢复3D姿势来估计这些肢体的3D方向。通过利用完全看不见的四肢来说,Ponet甚至可以从完全看不见的四肢的图像中推断出完整的3D姿势。可见肢体之间的取向相关性以补充估计的姿势,进一步提高了3D姿态估计的鲁棒性。我们在多个数据集中评估我们的方法,包括Human3.6M,MPII,MPI-INF-3DHP和3DPW。我们的方法在理想设置中实现了与最先进的技术的结果,但显着消除了对关键点检测器和相应的计算负担的依赖性。在截断和擦除等方面的高度挑战性方案中,我们的方法稳健地表现得非常强大,与本领域的状态相比,展示其对现实世界应用的可能性。
translated by 谷歌翻译
多个摄像机制造的视频录制的可用性越来越多,为姿势和运动重建方法中的减少和深度歧义提供了新的方法。然而,多视图算法强烈依赖于相机参数;特别地,相机之间的相对介绍。在不受控制的设置中,这种依赖变为一旦转移到动态捕获一次。我们介绍Flex(免费多视图重建),一个端到端的无参数多视图模型。 Flex是无意义的参数,即它不需要任何相机参数,都不是内在的也不是外在的。我们的关键思想是骨架部件和骨长之间的3D角度是不变的相机位置。因此,学习3D旋转和骨长而不是位置允许预测所有相机视图的公共值。我们的网络采用多个视频流,学习通过新型多视图融合层的融合深度特征,并重建单一一致的骨架,其具有时间上相干的关节旋转。我们展示了人类3.6M和KTH多视图足球II数据集的定量和定性结果,以及动态摄像头捕获的合成多人视频流。我们将模型与最先进的方法进行比较,这些方法没有参与参数,并在没有相机参数的情况下显示,我们在获得相机参数可用时获取可比结果的同时优于较大的余量。我们的项目页面上可以使用代码,培训的模型,视频示例和更多材料。
translated by 谷歌翻译
人类运动合成是机器人技术的图形,游戏和仿真环境中应用的重要问题。现有方法需要准确的运动捕获数据进行培训,这是昂贵的。取而代之的是,我们为直接从单眼RGB视频中训练物理上合理的人类运动的生成模型提出了一个框架,该模型更广泛地可用。我们方法的核心是一种新颖的优化公式,该公式通过以可区分的方式执行物理限制和有关接触的原因来纠正不完美的基于图像的姿势估计。该优化得出校正后的3D姿势和运动及其相应的接触力。结果表明,我们的物理校正运动在姿势估计上显着优于先前的工作。然后,我们可以使用它们来训练生成模型来综合未来的运动。与先前的基于运动学和物理学的方法相比,我们在人类36m数据集中〜\ cite {H36M_P​​AMI}实现了定性和定量改进的运动估计,合成质量和物理合理性。通过从视频中学习运动合成,我们的方法为大规模,现实和多样化的运动合成铺平了道路。项目页面:\ url {https://nv-tlabs.github.io/publication/iccv_2021_physics/}
translated by 谷歌翻译
Following the success of deep convolutional networks, state-of-the-art methods for 3d human pose estimation have focused on deep end-to-end systems that predict 3d joint locations given raw image pixels. Despite their excellent performance, it is often not easy to understand whether their remaining error stems from a limited 2d pose (visual) understanding, or from a failure to map 2d poses into 3dimensional positions.With the goal of understanding these sources of error, we set out to build a system that given 2d joint locations predicts 3d positions. Much to our surprise, we have found that, with current technology, "lifting" ground truth 2d joint locations to 3d space is a task that can be solved with a remarkably low error rate: a relatively simple deep feedforward network outperforms the best reported result by about 30% on Human3.6M, the largest publicly available 3d pose estimation benchmark. Furthermore, training our system on the output of an off-the-shelf state-of-the-art 2d detector (i.e., using images as input) yields state of the art results -this includes an array of systems that have been trained end-to-end specifically for this task. Our results indicate that a large portion of the error of modern deep 3d pose estimation systems stems from their visual analysis, and suggests directions to further advance the state of the art in 3d human pose estimation.
translated by 谷歌翻译
在深度学习的时代,具有未知校准未知校准的多个摄像机的人类姿态估计几乎没有关注迄今为止。我们展示如何培训一个神经模型,以高精度和最小延迟开销来执行此任务。由于多视图闭塞,所提出的模型考虑了联合位置不确定性,并且只需要2D关键点数据进行培训。我们的方法优于良好的人机3.6M数据集上的经典捆绑调整和弱监督单眼3D基线,以及野外滑雪姿势PTZ数据集的更具挑战性。
translated by 谷歌翻译
3D姿势估计最近在计算机视觉领域中获得了重大利益。现有的3D姿势估计方法非常依赖大尺寸井井有条的3D姿势数据集,并且由于训练集中的3D姿势的多样性有限,它们在看不见的姿势上的模型概括不佳。在这项工作中,我们提出了一种新型的人类姿势发生器Posegu,它仅能访问少量的种子样本,同时为反事实风险最小化以追求无偏见的评估目标。广泛的实验表明,在三个流行的基准数据集上,几乎所有正在考虑的最先进的3D人类姿势方法。经验分析还证明,Posegu会产生3D姿势,具有改进的数据多样性和更好的概括能力。
translated by 谷歌翻译