本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译
预测历史姿势序列的人类运动对于机器具有成功与人类智能相互作用的关键。到目前为止已经避免的一个方面是,我们代表骨骼姿势的事实是对预测结果的关键影响。然而,没有努力调查不同的姿势代表方案。我们对各种姿势表示进行了深入研究,重点关注它们对运动预测任务的影响。此外,最近的方法在现成的RNN单位上构建,用于运动预测。这些方法在捕获长期依赖性方面,顺序地并固有地具有困难。在本文中,我们提出了一种新颖的RNN架构,用于运动预测的AHMR(殷勤分层运动复发网络),其同时模拟局部运动上下文和全局上下文。我们进一步探索了运动预测任务的测地损失和前向运动学损失,其具有比广泛采用的L2损耗更多的几何意义。有趣的是,我们将我们的方法应用于一系列铰接物对象,包括人类,鱼类和鼠标。经验结果表明,我们的方法在短期预测中占据了最先进的方法,实现了大量增强的长期预测熟练程度,例如在50秒的预测中保留自然人样的运动。我们的代码已发布。
translated by 谷歌翻译
Figure 1: Given challenging in-the-wild videos, a recent state-of-the-art video-pose-estimation approach [31] (top), fails to produce accurate 3D body poses. To address this, we exploit a large-scale motion-capture dataset to train a motion discriminator using an adversarial approach. Our model (VIBE) (bottom) is able to produce realistic and accurate pose and shape, outperforming previous work on standard benchmarks.
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
运动预测是计算机视觉中的经典问题,其旨在预测观察到的姿势序列的未来运动。已经提出了各种深度学习模型,在运动预测上实现了最先进的性能。然而,现有方法通常专注于在姿势空间中建模时间动态。不幸的是,人类运动的复杂和高度的性质带来了动态背景捕获的固有挑战。因此,我们远离传统的基于姿势的表示,并提出采用各个关节的相空间轨迹表示的新方法。此外,目前的方法倾向于仅考虑物理连接的关节之间的依赖性。在本文中,我们介绍了一种小说卷积神经模型,以有效利用明确的运动解剖学知识,并同时捕获关节轨迹动态的空间和时间信息。然后,我们提出了一个全局优化模块,了解各个联合功能之间的隐式关系。经验上,我们的方法在大规模3D人体运动基准数据集(即,Human3.6m,CMU Mocap)上进行评估。这些结果表明,我们的方法在基准数据集中设置了新的最先进状态。我们的代码将在https://github.com/post-group/teid中提供。
translated by 谷歌翻译
大多数实时人类姿势估计方法都基于检测接头位置。使用检测到的关节位置,可以计算偏差和肢体的俯仰。然而,由于这种旋转轴仍然不观察,因此不能计算沿着肢体沿着肢体至关重要的曲折,这对于诸如体育分析和计算机动画至关重要。在本文中,我们引入了方向关键点,一种用于估计骨骼关节的全位置和旋转的新方法,仅使用单帧RGB图像。灵感来自Motion-Capture Systems如何使用一组点标记来估计全骨骼旋转,我们的方法使用虚拟标记来生成足够的信息,以便准确地推断使用简单的后处理。旋转预测改善了接头角度最佳报告的平均误差48%,并且在15个骨骼旋转中实现了93%的精度。该方法还通过MPJPE在原理数据集上测量,通过MPJPE测量,该方法还改善了当前的最新结果14%,并概括为野外数据集。
translated by 谷歌翻译
人类运动合成是机器人技术的图形,游戏和仿真环境中应用的重要问题。现有方法需要准确的运动捕获数据进行培训,这是昂贵的。取而代之的是,我们为直接从单眼RGB视频中训练物理上合理的人类运动的生成模型提出了一个框架,该模型更广泛地可用。我们方法的核心是一种新颖的优化公式,该公式通过以可区分的方式执行物理限制和有关接触的原因来纠正不完美的基于图像的姿势估计。该优化得出校正后的3D姿势和运动及其相应的接触力。结果表明,我们的物理校正运动在姿势估计上显着优于先前的工作。然后,我们可以使用它们来训练生成模型来综合未来的运动。与先前的基于运动学和物理学的方法相比,我们在人类36m数据集中〜\ cite {H36M_P​​AMI}实现了定性和定量改进的运动估计,合成质量和物理合理性。通过从视频中学习运动合成,我们的方法为大规模,现实和多样化的运动合成铺平了道路。项目页面:\ url {https://nv-tlabs.github.io/publication/iccv_2021_physics/}
translated by 谷歌翻译
尽管近年来3D人姿势和形状估计方法的性能显着提高,但是现有方法通常在相机或以人为本的坐标系中定义的3D姿势。这使得难以估计使用移动相机捕获的视频的世界坐标系中的人的纯姿势和运动。为了解决这个问题,本文提出了一种用于预测世界坐标系中定义的3D人姿势和网格的相机运动不可知论方法。所提出的方法的核心思想是估计不变选择坐标系的两个相邻的全局姿势(即全局运动)之间的差异,而不是耦合到相机运动的全局姿势。为此,我们提出了一种基于双向门控复发单元(GRUS)的网络,该单元从局部姿势序列预测全局运动序列,由称为全局运动回归(GMR)的关节相对旋转组成。我们使用3DPW和合成数据集,该数据集在移动相机环境中构建,进行评估。我们进行广泛的实验,并经验证明了提出的方法的有效性。代码和数据集可在https://github.com/seonghyunkim1212/gmr获得
translated by 谷歌翻译
事件摄像头是一种新兴的生物启发的视觉传感器,每像素亮度不同步地变化。它具有高动态范围,高速响应和低功率预算的明显优势,使其能够在不受控制的环境中最好地捕获本地动作。这激发了我们释放事件摄像机进行人姿势估计的潜力,因为很少探索人类姿势估计。但是,由于新型范式从传统的基于框架的摄像机转变,时间间隔中的事件信号包含非常有限的信息,因为事件摄像机只能捕获移动的身体部位并忽略那些静态的身体部位,从而导致某些部位不完整甚至在时间间隔中消失。本文提出了一种新型的密集连接的复发架构,以解决不完整信息的问题。通过这种经常性的体系结构,我们可以明确地对跨时间步骤的顺序几何一致性进行明确模拟,从而从以前的帧中积累信息以恢复整个人体,从而从事件数据中获得稳定且准确的人类姿势估计。此外,为了更好地评估我们的模型,我们收集了一个基于人类姿势注释的大型多模式事件数据集,该数据集是迄今为止我们所知的最具挑战性的数据集。两个公共数据集和我们自己的数据集的实验结果证明了我们方法的有效性和强度。代码可以在线提供,以促进未来的研究。
translated by 谷歌翻译
尽管来自视频的3D人类姿势估算的巨大进展,但是充分利用冗余2D姿势序列来学习用于生成一个3D姿势的代表表示的开放问题。为此,我们提出了一种改进的基于变压器的架构,称为冲压变压器,简单地有效地将长期的2D联合位置升高到单个3D姿势。具体地,采用Vanilla变压器编码器(VTE)来模拟2D姿势序列的远程依赖性。为了减少序列的冗余,vte的前馈网络中的完全连接的层被冲击卷积替换,以逐步缩小序列长度并从本地上下文聚合信息。修改的VTE称为STRIVEIVERCHER ENCODER(STE),其构建在VTE的输出时。 STE不仅有效地将远程信息聚集到分层全球和本地时尚的单载体表示,而且显着降低了计算成本。此外,全序列和单个目标帧尺度都设计了全序,分别适用于VTE和ST的输出。该方案与单个目标帧监督结合施加额外的时间平滑度约束,因此有助于产生更平滑和更准确的3D姿势。所提出的轮廓变压器在两个具有挑战性的基准数据集,Human3.6M和HumanVa-I中进行评估,并通过更少的参数实现最先进的结果。代码和模型可用于\ url {https://github.com/vegetebird/stridedtransformer-pose3d}。
translated by 谷歌翻译
培训视频中人类姿势估计的最先进模型需要具有很难获得的注释的数据集。尽管最近已将变压器用于身体姿势序列建模,但相关方法依靠伪地真相来增强目前有限的培训数据可用于学习此类模型。在本文中,我们介绍了Posebert,Posebert是一个通过掩盖建模对3D运动捕获(MOCAP)数据进行全面训练的变压器模块。它是简单,通用和通用的,因为它可以插入任何基于图像的模型的顶部,以在基于视频的模型中使用时间信息。我们展示了Posebert的变体,不同的输入从3D骨骼关键点到全身或仅仅是手(Mano)的3D参数模型的旋转。由于Posebert培训是任务不可知论的,因此该模型可以应用于姿势细化,未来的姿势预测或运动完成等几个任务。我们的实验结果验证了在各种最新姿势估计方法之上添加Posebert始终提高其性能,而其低计算成本使我们能够在实时演示中使用它,以通过A的机器人手使机器人手通过摄像头。可以在https://github.com/naver/posebert上获得测试代码和型号。
translated by 谷歌翻译
由于其许多潜在应用,从视频中估算人类运动是一个活跃的研究领域。大多数最先进的方法可以预测单个图像的人类形状和姿势估计,并且不利用视频中可用的时间信息。许多“野生”运动序列被移动的摄像机捕获,这为估计增加了混合的摄像头和人类运动的并发症。因此,我们介绍了Bodyslam,这是一种单眼大满贯系统,共同估计人体的位置,形状和姿势以及摄像机轨迹。我们还引入了一种新型的人类运动模型,以限制顺序身体姿势并观察场景的规模。通过通过移动的单眼相机捕获的人类运动的视频序列进行的一系列实验,我们证明了Bodyslam与单独估计这些估计相比,可以改善所有人体参数和相机的估计。
translated by 谷歌翻译
单眼3D人姿势估计技术有可能大大增加人类运动数据的可用性。单位图2D-3D提升使用图卷积网络(GCN)的表现最佳模型,通常需要一些手动输入来定义不同的身体关节之间的关系。我们提出了一种基于变压器的新型方法,该方法使用更广泛的自我发场机制来学习代表关节的代币序列。我们发现,使用中间监督以及堆叠编码器福利性能之间的剩余连接。我们还建议,将错误预测作为多任务学习框架的一部分,可以通过允许网络弥补其置信度来改善性能。我们进行广泛的消融研究,以表明我们的每项贡献都会提高性能。此外,我们表明我们的方法的表现超过了最新的单帧3D人类姿势估计的最新技术状态。我们的代码和训练有素的模型可在GitHub上公开提供。
translated by 谷歌翻译
In this work, we demonstrate that 3D poses in video can be effectively estimated with a fully convolutional model based on dilated temporal convolutions over 2D keypoints. We also introduce back-projection, a simple and effective semi-supervised training method that leverages unlabeled video data. We start with predicted 2D keypoints for unlabeled video, then estimate 3D poses and finally back-project to the input 2D keypoints. In the supervised setting, our fully-convolutional model outperforms the previous best result from the literature by 6 mm mean per-joint position error on Human3.6M, corresponding to an error reduction of 11%, and the model also shows significant improvements on HumanEva-I. Moreover, experiments with back-projection show that it comfortably outperforms previous state-of-the-art results in semisupervised settings where labeled data is scarce. Code and models are available at https://github.com/ facebookresearch/VideoPose3D
translated by 谷歌翻译
实时3D人姿势估计对于人类计算机相互作用至关重要。仅从单眼视频中估算3D人类姿势是便宜且实用的。然而,最近基于骨剪接的3D人姿势估计方法带来了累积错误的问题。在本文中,提出了虚拟骨头的概念来解决这一挑战。虚拟骨头是非粘合关节之间的虚骨。它们在现实中并不存在,但它们为3D人类关节的估计带来了新的循环限制。本文提出的网络同时预测了真实的骨骼和虚拟骨骼。由预测的真实骨骼和虚拟骨骼构造的环的最终长度受到限制和学习。此外,考虑了连续帧中关节的运动约束。提议将网络预测的2D投影位置位移与摄像机捕获的真实2D位移之间的一致性是用于学习3D人姿势的新投影一致性损失。人类360万数据集的实验证明了该方法的良好性能。消融研究证明了拟议的框架间投影一致性约束和框内循环约束的有效性。
translated by 谷歌翻译
本文解决了人类运动预测的问题,包括预测未来的身体从历史上观察到的序列构成的构成。尽管其性能,但当前的最新方法依赖于任意复杂性的深度学习体系结构,例如经常性神经网络〜(RNN),变压器或图形卷积网络〜(GCN),通常需要多个培训阶段,等等。超过300万参数。在本文中,我们表明,这些方法的性能可以通过轻巧且纯粹的MLP体系结构超越,并且与几种标准实践(例如用离散的余弦变换代表身体姿势(DCT))相结合时,只有0.14亿个参数,预测关节的残留位移和优化速度作为辅助损失。对人类360万的详尽评估,Amass和3DPW数据集表明,我们的方法(我们将其配置为Simlpe)始终优于所有其他方法。我们希望我们的简单方法可以为社区提供强大的基准,并允许重新考虑人类运动预测的问题,以及当前的基准是否确实需要复杂的建筑设计。我们的代码可在\ url {https://github.com/dulucas/simlpe}上获得。
translated by 谷歌翻译
我们提出了一种新颖的基于变压器的架构,用于3D人类运动的生成建模任务。以前的工作通常依赖于基于RNN的模型,考虑到更短的预测视野迅速达到静止和通常难以置信的状态。最近的研究表明,频域中的隐式时间表示也是有效地制定预定地平线的预测。我们的重点是学习自向学习时空陈述,从而在短期和长期生成合理的未来发展。该模型学习骨骼关节的高尺寸嵌入,以及如何通过去耦的时间和空间自我关注机制来组成时间相干的姿势。我们的双重关注概念允许模型直接访问电流和过去信息,并明确捕获结构和时间依赖项。我们凭经验显示,这有效地了解潜在的运动动态,并减少自动回归模型中观察到的误差累积。我们的模型能够在长视程中产生准确的短期预测和产生合理的运动序列。我们在HTTPS://github.com/eth-Ation-Transformer中公开公开提供我们的代码。
translated by 谷歌翻译
多个摄像机制造的视频录制的可用性越来越多,为姿势和运动重建方法中的减少和深度歧义提供了新的方法。然而,多视图算法强烈依赖于相机参数;特别地,相机之间的相对介绍。在不受控制的设置中,这种依赖变为一旦转移到动态捕获一次。我们介绍Flex(免费多视图重建),一个端到端的无参数多视图模型。 Flex是无意义的参数,即它不需要任何相机参数,都不是内在的也不是外在的。我们的关键思想是骨架部件和骨长之间的3D角度是不变的相机位置。因此,学习3D旋转和骨长而不是位置允许预测所有相机视图的公共值。我们的网络采用多个视频流,学习通过新型多视图融合层的融合深度特征,并重建单一一致的骨架,其具有时间上相干的关节旋转。我们展示了人类3.6M和KTH多视图足球II数据集的定量和定性结果,以及动态摄像头捕获的合成多人视频流。我们将模型与最先进的方法进行比较,这些方法没有参与参数,并在没有相机参数的情况下显示,我们在获得相机参数可用时获取可比结果的同时优于较大的余量。我们的项目页面上可以使用代码,培训的模型,视频示例和更多材料。
translated by 谷歌翻译
Stochastic human motion prediction aims to forecast multiple plausible future motions given a single pose sequence from the past. Most previous works focus on designing elaborate losses to improve the accuracy, while the diversity is typically characterized by randomly sampling a set of latent variables from the latent prior, which is then decoded into possible motions. This joint training of sampling and decoding, however, suffers from posterior collapse as the learned latent variables tend to be ignored by a strong decoder, leading to limited diversity. Alternatively, inspired by the diffusion process in nonequilibrium thermodynamics, we propose MotionDiff, a diffusion probabilistic model to treat the kinematics of human joints as heated particles, which will diffuse from original states to a noise distribution. This process offers a natural way to obtain the "whitened" latents without any trainable parameters, and human motion prediction can be regarded as the reverse diffusion process that converts the noise distribution into realistic future motions conditioned on the observed sequence. Specifically, MotionDiff consists of two parts: a spatial-temporal transformer-based diffusion network to generate diverse yet plausible motions, and a graph convolutional network to further refine the outputs. Experimental results on two datasets demonstrate that our model yields the competitive performance in terms of both accuracy and diversity.
translated by 谷歌翻译
From an image of a person in action, we can easily guess the 3D motion of the person in the immediate past and future. This is because we have a mental model of 3D human dynamics that we have acquired from observing visual sequences of humans in motion. We present a framework that can similarly learn a representation of 3D dynamics of humans from video via a simple but effective temporal encoding of image features. At test time, from video, the learned temporal representation give rise to smooth 3D mesh predictions. From a single image, our model can recover the current 3D mesh as well as its 3D past and future motion. Our approach is designed so it can learn from videos with 2D pose annotations in a semi-supervised manner. Though annotated data is always limited, there are millions of videos uploaded daily on the Internet. In this work, we harvest this Internet-scale source of unlabeled data by training our model on unlabeled video with pseudo-ground truth 2D pose obtained from an off-the-shelf 2D pose detector. Our experiments show that adding more videos with pseudo-ground truth 2D pose monotonically improves 3D prediction performance. We evaluate our model, Human Mesh and Motion Recovery (HMMR), on the recent challenging dataset of 3D Poses in the Wild and obtain state-of-the-art performance on the 3D prediction task without any fine-tuning. The project website with video, code, and data can be found at https://akanazawa.github.io/ human_dynamics/.
translated by 谷歌翻译