将2D人的姿势提升到3D姿势是一个重要而挑战的任务。现有的3D姿势估计遭受了1)2D和3D数据之间的固有模糊,2)野外缺少缺乏标记的2D-3D姿势对。人类能够从2D图像中的人体3D姿势或具有最低歧义的一组2D身体键点,这应该归因于我们在我们脑海中获得的人体的先验知识。灵感来自于此,我们提出了一个新的框架,利用标记的3D人类姿势来学习人体的3D概念来减少歧义。要在2D姿势上对身体概念进行达成共识,我们的主要洞察力是将2D人类姿势和3D人类姿势视为两个不同的域。通过调整两个域,从3D姿势中学到的身体知识应用于2D姿势并引导2D姿势编码器,以产生信息3D“想象力”,因为在姿势提升中嵌入。从域适应角度受益,所提出的框架统一了一个原则框架的监督和半监督的3D姿态估计。广泛的实验表明,所提出的方法可以在标准基准上实现最先进的性能。更重要的是,验证了明确学习的3D身体概念有效地减轻了2D姿势提升中的2D-3D模糊性,提高了泛化,并使网络能够利用丰富的未标记的2D数据。
translated by 谷歌翻译
当标记的数据丰富时,从单个图像中进行3D姿势估计的监督方法非常有效。但是,由于对地面3D标签的获取是劳动密集型且耗时的,最近的关注已转向半决赛和弱监督的学习。产生有效的监督形式,几乎没有注释,仍然在拥挤的场景中构成重大挑战。在本文中,我们建议通过加权区分三角剖分施加多视文几何约束,并在没有标签时将其用作一种自我设计的形式。因此,我们以一种方式训练2D姿势估计器,以使其预测对应于对三角姿势的3D姿势的重新投影,并在其上训练辅助网络以产生最终的3D姿势。我们通过一种加权机制来补充三角剖分,从而减轻了由自我咬合或其他受试者的遮挡引起的嘈杂预测的影响。我们证明了半监督方法对人类36M和MPI-INF-3DHP数据集的有效性,以及在具有闭塞的新的多视频多人数据集上。
translated by 谷歌翻译
学习良好的3D人类姿势代表对于人类姿势相关的任务是重要的,例如,人体3D姿势估计和行动识别。在所有这些问题中,保留内在姿势信息和调整以查看变化是两个关键问题。在这项工作中,我们提出了一种新颖的暹罗去噪,通过以完全无监督的方式解开来自人骨架数据的姿势相关和视图依赖性特征来学习3D姿态表示。这两个解缠绕特征被用作3D姿势的表示。要考虑运动学和几何依赖项,还提出了一种顺序双向递归网络(Sebirenet)以模拟人体骨架数据。广泛的实验表明,学习的表示1)保留人类姿势的内在信息,2)在数据集和任务中显示出良好的可转换性。值得注意的是,我们的方法在两个固有的不同任务上实现了最先进的表现:姿势​​去噪和无监督的行动识别。代码和模型可在:\ url {https://github.com/nieqiang001/unsupervised-humanpose.git}
translated by 谷歌翻译
本文解决了3D人类姿势估计模型的交叉数据集泛化问题。在新数据集上测试预先训练的3D姿势估计值会导致主要的性能下降。以前的方法主要通过改善培训数据的多样性来解决这个问题。我们认为单独的多样性是不够的,并且训练数据的特征需要适应新数据集的那些,例如相机观点,位置,人类动作和体型。为此,我们提出了一种完全的端到端框架,该端到端框架从源数据集生成合成3D人体运动,并使用它们来微调3D姿势估计器。适配遵循对抗培训计划。来自源3D构成发电机生成一系列3D姿势和用于将生成的姿势投影到新颖视图的相机方向。如果没有任何3D标签或相机信息,则成功地学习从目标数据集创建合成3D构成,同时仅在2D姿势培训。在Human3.6m,MPI-INF-3DHP,3DPW和SKI-Pose数据集的实验中,我们的方法优于跨数据集评估的先前工作14%和以前的半监督学习方法,使用部分3D注释达到16%。
translated by 谷歌翻译
全面监督的人类网格恢复方法是渴望数据的,由于3D规定基准数据集的可用性有限和多样性,因此具有较差的概括性。使用合成数据驱动的训练范例,已经从合成配对的2D表示(例如2D关键点和分段掩码)和3D网格中训练了模型的最新进展,其中已使用合成数据驱动的训练范例和3D网格进行了训练。但是,由于合成训练数据和实际测试数据之间的域间隙很难解决2D密集表示,因此很少探索合成密集的对应图(即IUV)。为了减轻IUV上的这个领域差距,我们提出了使用可靠但稀疏表示的互补信息(2D关键点)提出的交叉代理对齐。具体而言,初始网格估计和两个2D表示之间的比对误差将转发为回归器,并在以下网格回归中动态校正。这种适应性的交叉代理对准明确地从偏差和捕获互补信息中学习:从稀疏的表示和浓郁的浓度中的稳健性。我们对多个标准基准数据集进行了广泛的实验,并展示了竞争结果,帮助减少在人类网格估计中生产最新模型所需的注释工作。
translated by 谷歌翻译
从单个图像的人类姿势估计是一个充满挑战的问题,通常通过监督学习解决。不幸的是,由于3D注释需要专用的运动捕获系统,因此许多人类活动尚不存在标记的培训数据。因此,我们提出了一种无监督的方法,该方法学会从单个图像预测3D人类姿势,同时只有2D姿势数据培训,这可能是人群的并且已经广泛可用。为此,我们估计最有可能过于随机投影的3D姿势,其中使用2D姿势的归一化流程估计的可能性。虽然以前的工作需要在训练数据集中的相机旋转上需要强大的前锋,但我们了解了相机角度的分布,显着提高了性能。我们的贡献的另一部分是通过首先将2D突出到线性子空间来稳定高维3D姿势数据上的标准化流动的训练。在许多指标中,我们优于基准数据集Humanets3.6m和MPI-INF-3DHP的最先进的无人监督的人类姿势估算方法。
translated by 谷歌翻译
最近的2D-3D人类姿势估计工作倾向于利用人体骨架的拓扑形成的图形结构。但是,我们认为这种骨架拓扑太稀疏,无法反映身体结构并遭受严重的2D-3D模糊问题。为了克服这些弱点,我们提出了一种新颖的图表卷积网络架构,层次图形网络(HGN)。它基于我们的多尺度图结构建筑策略产生的密度图形拓扑,从而提供更精细的几何信息。所提出的架构包含三个并行组织的稀疏微小表示子网,其中通过新颖的特征融合策略处理多尺度图形结构特征,并通过新颖的特征融合策略进行交换信息,导致丰富的分层表示。我们还介绍了3D粗网格约束,以进一步提高与细节相关的特征学习。广泛的实验表明,我们的HGN通过减少的网络参数实现了最先进的性能
translated by 谷歌翻译
In this work, we demonstrate that 3D poses in video can be effectively estimated with a fully convolutional model based on dilated temporal convolutions over 2D keypoints. We also introduce back-projection, a simple and effective semi-supervised training method that leverages unlabeled video data. We start with predicted 2D keypoints for unlabeled video, then estimate 3D poses and finally back-project to the input 2D keypoints. In the supervised setting, our fully-convolutional model outperforms the previous best result from the literature by 6 mm mean per-joint position error on Human3.6M, corresponding to an error reduction of 11%, and the model also shows significant improvements on HumanEva-I. Moreover, experiments with back-projection show that it comfortably outperforms previous state-of-the-art results in semisupervised settings where labeled data is scarce. Code and models are available at https://github.com/ facebookresearch/VideoPose3D
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译
我们提出了Tipsy-Gan,这是一种提高无监督对抗2d至3D人类姿势估计的准确性和稳定性的新方法。在我们的工作中,我们证明了人运动骨骼不应被假定为单一的空间相互依存的结构。实际上,我们认为,当训练期间提供完整的2D姿势时,存在一种固有的偏见,在其中,关键点的3D坐标在空间上依赖于所有其他关键点的2D坐标。为了研究我们的假设,我们遵循以前的对抗方法,但在运动骨架,躯干和腿部的空间独立部分上训练两个发电机。我们发现,改善自抗性周期是降低评估误差的关键,因此在训练过程中引入了新的一致性约束。通过这些发电机的知识蒸馏产生尖端模型,该模型可以预测整个2D姿势的3D尺寸,并改善结果。此外,我们在先前的工作中解决了一个未解决的问题,即在一个真正无监督的情况下要训练多长时间。我们表明,对于两个独立的发电机,对手训练的稳定性比崩溃的独奏发电机的稳定性提高了。与人为36m数据集中的基线独奏器相比,Tipsy将平均误差降低了17 \%。 Tipsy对其他无监督的方法进行了改进,同时在对人类360万和MPI-INF-3DHP数据集的评估过程中也强烈反对受监督和弱监督的方法。
translated by 谷歌翻译
在本文中,我们提出了一种新的方法来增强从单个可佩戴相机捕获的视频计算的人的3D身体姿势估计。关键的想法是利用在联合嵌入空间中链接第一和第三次视图的高级功能。为了了解这样的嵌入空间,我们介绍了First2第三姿势,这是一个近2,000个视频的新配对同步数据集,描绘了从第一和第三视角捕获的人类活动。我们明确地考虑了空间和运动域功能,同时使用以自我监督的方式培训的半暹罗架构。实验结果表明,使用我们的数据集学习的联合多视图嵌入式空间可用于从任意单视图的自拍视频中提取歧视特征,而无需需要域适应,也不知道相机参数。在三种监督最先进的方法中,我们在两个无约束数据集中实现了重大改善了两个无约束的数据集。我们的数据集和代码将可用于研究目的。
translated by 谷歌翻译
我们建议在不使用任何手动注释的情况下为人类的姿势估算器进行个性化。虽然人类姿势估计有重大进步,但对于模型来说概括到不同的未知环境和看不见的人仍然非常具有挑战性。我们而不是为每个测试用例使用固定模型,我们在测试时间期间调整我们的姿势估算器以利用特定人的信息。我们首先将我们的模型与监督和自我监督的姿势估算目标相同。我们使用变压器模型来构建自我监控的关键点和监督关键点之间的转换。在测试时间期间,我们通过通过自我监督目标进行微调来个性化和调整我们的模型。然后通过转换更新的自我监督的关键点来改进姿势。我们尝试多个数据集,并显示我们自我监督个性化的姿势估算的显着改进。
translated by 谷歌翻译
单眼3D人姿势估计技术有可能大大增加人类运动数据的可用性。单位图2D-3D提升使用图卷积网络(GCN)的表现最佳模型,通常需要一些手动输入来定义不同的身体关节之间的关系。我们提出了一种基于变压器的新型方法,该方法使用更广泛的自我发场机制来学习代表关节的代币序列。我们发现,使用中间监督以及堆叠编码器福利性能之间的剩余连接。我们还建议,将错误预测作为多任务学习框架的一部分,可以通过允许网络弥补其置信度来改善性能。我们进行广泛的消融研究,以表明我们的每项贡献都会提高性能。此外,我们表明我们的方法的表现超过了最新的单帧3D人类姿势估计的最新技术状态。我们的代码和训练有素的模型可在GitHub上公开提供。
translated by 谷歌翻译
现代的多层感知器(MLP)模型在不自我注意力的情况下学习视觉表现方面显示了竞争成果。但是,现有的MLP模型不擅长捕获本地细节,并且缺乏人类配置的先验知识,这限制了其骨骼表示学习的模型能力。为了解决这些问题,我们提出了一个名为GraphMLP的简单而有效的图形增强的MLP样结构,该体系结构将MLP和图形卷积网络(GCN)组合在3D人类姿势估计的全球 - 局部 - 单位图形统一体系中。GraphMLP将人体的图结构结合到MLP模型中,以满足域特异性需求,同时允许局部和全局空间相互作用。广泛的实验表明,所提出的GraphMLP在两个数据集(即Human3.6M和MPI-INF-3DHP)上实现了最先进的性能。我们的源代码和预估计的模型将公开可用。
translated by 谷歌翻译
本文介绍了一个新型的预训练的空间时间多对一(p-STMO)模型,用于2D到3D人类姿势估计任务。为了减少捕获空间和时间信息的困难,我们将此任务分为两个阶段:预训练(I期)和微调(II阶段)。在第一阶段,提出了一个自我监督的预训练子任务,称为蒙面姿势建模。输入序列中的人关节在空间和时间域中随机掩盖。利用denoising自动编码器的一般形式以恢复原始的2D姿势,并且编码器能够以这种方式捕获空间和时间依赖性。在第二阶段,将预训练的编码器加载到STMO模型并进行微调。编码器之后是一个多对一的框架聚合器,以预测当前帧中的3D姿势。尤其是,MLP块被用作STMO中的空间特征提取器,其性能比其他方法更好。此外,提出了一种时间下采样策略,以减少数据冗余。在两个基准上进行的广泛实验表明,我们的方法优于较少参数和较少计算开销的最先进方法。例如,我们的P-STMO模型在使用CPN作为输入的2D姿势时,在Human3.6M数据集上达到42.1mm MPJPE。同时,它为最新方法带来了1.5-7.1倍的速度。代码可在https://github.com/patrick-swk/p-stmo上找到。
translated by 谷歌翻译
Thanks to the development of 2D keypoint detectors, monocular 3D human pose estimation (HPE) via 2D-to-3D uplifting approaches have achieved remarkable improvements. Still, monocular 3D HPE is a challenging problem due to the inherent depth ambiguities and occlusions. To handle this problem, many previous works exploit temporal information to mitigate such difficulties. However, there are many real-world applications where frame sequences are not accessible. This paper focuses on reconstructing a 3D pose from a single 2D keypoint detection. Rather than exploiting temporal information, we alleviate the depth ambiguity by generating multiple 3D pose candidates which can be mapped to an identical 2D keypoint. We build a novel diffusion-based framework to effectively sample diverse 3D poses from an off-the-shelf 2D detector. By considering the correlation between human joints by replacing the conventional denoising U-Net with graph convolutional network, our approach accomplishes further performance improvements. We evaluate our method on the widely adopted Human3.6M and HumanEva-I datasets. Comprehensive experiments are conducted to prove the efficacy of the proposed method, and they confirm that our model outperforms state-of-the-art multi-hypothesis 3D HPE methods.
translated by 谷歌翻译
We propose a CNN-based approach for 3D human body pose estimation from single RGB images that addresses the issue of limited generalizability of models trained solely on the starkly limited publicly available 3D pose data. Using only the existing 3D pose data and 2D pose data, we show state-of-the-art performance on established benchmarks through transfer of learned features, while also generalizing to in-the-wild scenes. We further introduce a new training set for human body pose estimation from monocular images of real humans that has the ground truth captured with a multi-camera marker-less motion capture system. It complements existing corpora with greater diversity in pose, human appearance, clothing, occlusion, and viewpoints, and enables an increased scope of augmentation. We also contribute a new benchmark that covers outdoor and indoor scenes, and demonstrate that our 3D pose dataset shows better in-the-wild performance than existing annotated data, which is further improved in conjunction with transfer learning from 2D pose data. All in all, we argue that the use of transfer learning of representations in tandem with algorithmic and data contributions is crucial for general 3D body pose estimation.
translated by 谷歌翻译
Input Reconstruction Side and top down view Part Segmentation Input Reconstruction Side and top down view Part Segmentation Figure 1: Human Mesh Recovery (HMR): End-to-end adversarial learning of human pose and shape. We describe a real time framework for recovering the 3D joint angles and shape of the body from a single RGB image. The first two rowsshow results from our model trained with some 2D-to-3D supervision, the bottom row shows results from a model that is trained in a fully weakly-supervised manner without using any paired 2D-to-3D supervision. We infer the full 3D body even in case of occlusions and truncations. Note that we capture head and limb orientations.
translated by 谷歌翻译
虽然姿势估计是一项重要的计算机视觉任务,但它需要昂贵的注释,并且遭受了域转移的困扰。在本文中,我们调查了域自适应2D姿势估计的问题,这些估计会传输有关合成源域的知识,而无需监督。尽管最近已经提出了几个领域的自适应姿势估计模型,但它们不是通用的,而是专注于人姿势或动物姿势估计,因此它们的有效性在某种程度上限于特定情况。在这项工作中,我们提出了一个统一的框架,该框架可以很好地推广到各种领域自适应姿势估计问题上。我们建议使用输入级别和输出级线索(分别是像素和姿势标签)对齐表示,这有助于知识转移从源域到未标记的目标域。我们的实验表明,我们的方法在各个领域变化下实现了最先进的性能。我们的方法的表现优于现有的姿势估计基线,最高4.5%(PP),手部姿势估算高达7.4 pp,狗的动物姿势估计高达4.8 pp,而绵羊的姿势估计为3.3 pp。这些结果表明,我们的方法能够减轻各种任务甚至看不见的域和物体的转移(例如,在马匹上训练并在狗上进行了测试)。我们的代码将在以下网址公开可用:https://github.com/visionlearninggroup/uda_poseestimation。
translated by 谷歌翻译
3D姿势估计最近在计算机视觉领域中获得了重大利益。现有的3D姿势估计方法非常依赖大尺寸井井有条的3D姿势数据集,并且由于训练集中的3D姿势的多样性有限,它们在看不见的姿势上的模型概括不佳。在这项工作中,我们提出了一种新型的人类姿势发生器Posegu,它仅能访问少量的种子样本,同时为反事实风险最小化以追求无偏见的评估目标。广泛的实验表明,在三个流行的基准数据集上,几乎所有正在考虑的最先进的3D人类姿势方法。经验分析还证明,Posegu会产生3D姿势,具有改进的数据多样性和更好的概括能力。
translated by 谷歌翻译