实时3D人姿势估计对于人类计算机相互作用至关重要。仅从单眼视频中估算3D人类姿势是便宜且实用的。然而,最近基于骨剪接的3D人姿势估计方法带来了累积错误的问题。在本文中,提出了虚拟骨头的概念来解决这一挑战。虚拟骨头是非粘合关节之间的虚骨。它们在现实中并不存在,但它们为3D人类关节的估计带来了新的循环限制。本文提出的网络同时预测了真实的骨骼和虚拟骨骼。由预测的真实骨骼和虚拟骨骼构造的环的最终长度受到限制和学习。此外,考虑了连续帧中关节的运动约束。提议将网络预测的2D投影位置位移与摄像机捕获的真实2D位移之间的一致性是用于学习3D人姿势的新投影一致性损失。人类360万数据集的实验证明了该方法的良好性能。消融研究证明了拟议的框架间投影一致性约束和框内循环约束的有效性。
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译
视频3D人类姿势估计旨在将视频中人类关节的3D坐标定位。最近的基于变压器的方法着重于从顺序2D姿势捕获时空信息,由于在2D姿势估计的步骤中丢失了视觉深度特征,因此无法有效地对上下文深度特征进行建模。在本文中,我们将范式简化为端到端框架,实例引导的视频变压器(IVT),该范式可以有效地从视觉特征中学习时空的上下文深度信息,并直接从视频框架中预测3D姿势。特别是,我们首先将视频框架作为一系列实例引导令牌,每个令牌都可以预测人类实例的3D姿势。这些令牌包含身体结构信息,因为它们是由关节偏移从人体中心到相应身体关节的指导提取的。然后,这些令牌被发送到IVT中,以学习时空的上下文深度。此外,我们提出了一种跨尺度实例引导的注意机制,以处理多个人之间的变异量表。最后,每个人的3D姿势都是通过坐标回归从实例引导的代币中解码的。在三个广泛使用的3D姿势估计基准上进行的实验表明,拟议的IVT实现了最先进的性能。
translated by 谷歌翻译
In this work, we demonstrate that 3D poses in video can be effectively estimated with a fully convolutional model based on dilated temporal convolutions over 2D keypoints. We also introduce back-projection, a simple and effective semi-supervised training method that leverages unlabeled video data. We start with predicted 2D keypoints for unlabeled video, then estimate 3D poses and finally back-project to the input 2D keypoints. In the supervised setting, our fully-convolutional model outperforms the previous best result from the literature by 6 mm mean per-joint position error on Human3.6M, corresponding to an error reduction of 11%, and the model also shows significant improvements on HumanEva-I. Moreover, experiments with back-projection show that it comfortably outperforms previous state-of-the-art results in semisupervised settings where labeled data is scarce. Code and models are available at https://github.com/ facebookresearch/VideoPose3D
translated by 谷歌翻译
尽管来自视频的3D人类姿势估算的巨大进展,但是充分利用冗余2D姿势序列来学习用于生成一个3D姿势的代表表示的开放问题。为此,我们提出了一种改进的基于变压器的架构,称为冲压变压器,简单地有效地将长期的2D联合位置升高到单个3D姿势。具体地,采用Vanilla变压器编码器(VTE)来模拟2D姿势序列的远程依赖性。为了减少序列的冗余,vte的前馈网络中的完全连接的层被冲击卷积替换,以逐步缩小序列长度并从本地上下文聚合信息。修改的VTE称为STRIVEIVERCHER ENCODER(STE),其构建在VTE的输出时。 STE不仅有效地将远程信息聚集到分层全球和本地时尚的单载体表示,而且显着降低了计算成本。此外,全序列和单个目标帧尺度都设计了全序,分别适用于VTE和ST的输出。该方案与单个目标帧监督结合施加额外的时间平滑度约束,因此有助于产生更平滑和更准确的3D姿势。所提出的轮廓变压器在两个具有挑战性的基准数据集,Human3.6M和HumanVa-I中进行评估,并通过更少的参数实现最先进的结果。代码和模型可用于\ url {https://github.com/vegetebird/stridedtransformer-pose3d}。
translated by 谷歌翻译
从视频中估算人的姿势对于人类计算机相互作用至关重要。通过精确估计人类姿势,机器人可以对人类提供适当的反应。大多数现有方法都使用光流,RNN或CNN从视频中提取时间功能。尽管这些尝试取得了积极的结果,但其中大多数仅直接整合沿时间维度的特征,而忽略了关节之间的时间相关性。与以前的方法相反,我们提出了一个基于域交叉注意机制的插件运动学建模模块(KMM),以对不同帧的关节之间的时间相关性进行建模。具体而言,提出的KMM通过计算其时间相似性来模拟任意两个关节之间的时间相关性。这样,KMM可以学习每个关节的运动提示。使用运动提示(时间域)和关节的历史位置(空间域),KMM可以提前推断关节的初始位置。此外,我们还基于KMM提出了一个运动学建模网络(KIMNET),用于通过结合姿势特征和关节的初始位置来获得关节的最终位置。通过对关节之间的时间相关性进行显式建模,Kimnet可以根据前一刻的所有关节来推断遮挡的关节。此外,KMM是通过注意机制实现的,该机制使其能够保持高度分辨率。因此,它可以将丰富的历史姿势信息转移到当前框架上,该信息为定位遮挡关节提供了有效的姿势信息。我们的方法在两个基于视频的姿势估计基准的基准上实现了最新的结果。此外,提出的Kimnet对闭塞显示了一些鲁棒性,证明了所提出的方法的有效性。
translated by 谷歌翻译
Figure 1: Given challenging in-the-wild videos, a recent state-of-the-art video-pose-estimation approach [31] (top), fails to produce accurate 3D body poses. To address this, we exploit a large-scale motion-capture dataset to train a motion discriminator using an adversarial approach. Our model (VIBE) (bottom) is able to produce realistic and accurate pose and shape, outperforming previous work on standard benchmarks.
translated by 谷歌翻译
多个摄像机制造的视频录制的可用性越来越多,为姿势和运动重建方法中的减少和深度歧义提供了新的方法。然而,多视图算法强烈依赖于相机参数;特别地,相机之间的相对介绍。在不受控制的设置中,这种依赖变为一旦转移到动态捕获一次。我们介绍Flex(免费多视图重建),一个端到端的无参数多视图模型。 Flex是无意义的参数,即它不需要任何相机参数,都不是内在的也不是外在的。我们的关键思想是骨架部件和骨长之间的3D角度是不变的相机位置。因此,学习3D旋转和骨长而不是位置允许预测所有相机视图的公共值。我们的网络采用多个视频流,学习通过新型多视图融合层的融合深度特征,并重建单一一致的骨架,其具有时间上相干的关节旋转。我们展示了人类3.6M和KTH多视图足球II数据集的定量和定性结果,以及动态摄像头捕获的合成多人视频流。我们将模型与最先进的方法进行比较,这些方法没有参与参数,并在没有相机参数的情况下显示,我们在获得相机参数可用时获取可比结果的同时优于较大的余量。我们的项目页面上可以使用代码,培训的模型,视频示例和更多材料。
translated by 谷歌翻译
时间序列内的3D人体姿势和形状估计对于理解人类行为至关重要。尽管近年来人类姿势估计取得了重大进展,这些进展通常是基于单个图像或视频,但考虑到其对实时输出和时间一致性的特殊要求,实时视频中的人类运动估计仍然是一个很少的触摸区域。为了解决这个问题,我们提出了一个时间嵌入的3D人体姿势和形状估计(Tepose)方法,以提高实时流视频中姿势估计的准确性和时间一致性。 Tepose使用以前的预测作为反馈错误的桥梁,以在当前帧中更好地估计,并了解数据框架和历史上的预测之间的对应关系。多尺度时空图形卷积网络被视为使用数据集的运动判别器,用于对抗训练,而没有任何3D标记。我们提出了一个顺序数据加载策略,以满足实时流的特殊起始数据处理要求。我们通过广泛的实验证明了每个提出的模块的重要性。结果表明,多孔在具有最先进的性能的广泛使用的人姿势基准上的有效性。
translated by 谷歌翻译
尽管近年来3D人姿势和形状估计方法的性能显着提高,但是现有方法通常在相机或以人为本的坐标系中定义的3D姿势。这使得难以估计使用移动相机捕获的视频的世界坐标系中的人的纯姿势和运动。为了解决这个问题,本文提出了一种用于预测世界坐标系中定义的3D人姿势和网格的相机运动不可知论方法。所提出的方法的核心思想是估计不变选择坐标系的两个相邻的全局姿势(即全局运动)之间的差异,而不是耦合到相机运动的全局姿势。为此,我们提出了一种基于双向门控复发单元(GRUS)的网络,该单元从局部姿势序列预测全局运动序列,由称为全局运动回归(GMR)的关节相对旋转组成。我们使用3DPW和合成数据集,该数据集在移动相机环境中构建,进行评估。我们进行广泛的实验,并经验证明了提出的方法的有效性。代码和数据集可在https://github.com/seonghyunkim1212/gmr获得
translated by 谷歌翻译
为了获取3D注释,我们仅限于受控环境或合成数据集,导致我们到3D数据集,其概括为现实世界方案。为了在半监督3D手形状和姿势估计的上下文中解决这个问题,我们提出了姿势对齐网络,以将标记帧传播到附近的稀疏注释视频中的附近未标记帧的3D注释。我们表明,在标记 - 未标记的帧对对对准监控允许我们提高姿态估计精度。此外,我们表明所提出的姿势对齐网络可以有效地传播在不良稀疏的视频上的注释而无需微调。
translated by 谷歌翻译
Human pose estimation has been widely applied in various industries. While recent decades have witnessed the introduction of many advanced two-dimensional (2D) human pose estimation solutions, three-dimensional (3D) human pose estimation is still an active research field in computer vision. Generally speaking, 3D human pose estimation methods can be divided into two categories: single-stage and two-stage. In this paper, we focused on the 2D-to-3D lifting process in the two-stage methods and proposed a more advanced baseline model for 3D human pose estimation, based on the existing solutions. Our improvements include optimization of machine learning models and multiple parameters, as well as introduction of a weighted loss to the training model. Finally, we used the Human3.6M benchmark to test the final performance and it did produce satisfactory results.
translated by 谷歌翻译
本文介绍了一个新型的预训练的空间时间多对一(p-STMO)模型,用于2D到3D人类姿势估计任务。为了减少捕获空间和时间信息的困难,我们将此任务分为两个阶段:预训练(I期)和微调(II阶段)。在第一阶段,提出了一个自我监督的预训练子任务,称为蒙面姿势建模。输入序列中的人关节在空间和时间域中随机掩盖。利用denoising自动编码器的一般形式以恢复原始的2D姿势,并且编码器能够以这种方式捕获空间和时间依赖性。在第二阶段,将预训练的编码器加载到STMO模型并进行微调。编码器之后是一个多对一的框架聚合器,以预测当前帧中的3D姿势。尤其是,MLP块被用作STMO中的空间特征提取器,其性能比其他方法更好。此外,提出了一种时间下采样策略,以减少数据冗余。在两个基准上进行的广泛实验表明,我们的方法优于较少参数和较少计算开销的最先进方法。例如,我们的P-STMO模型在使用CPN作为输入的2D姿势时,在Human3.6M数据集上达到42.1mm MPJPE。同时,它为最新方法带来了1.5-7.1倍的速度。代码可在https://github.com/patrick-swk/p-stmo上找到。
translated by 谷歌翻译
事件摄像头是一种新兴的生物启发的视觉传感器,每像素亮度不同步地变化。它具有高动态范围,高速响应和低功率预算的明显优势,使其能够在不受控制的环境中最好地捕获本地动作。这激发了我们释放事件摄像机进行人姿势估计的潜力,因为很少探索人类姿势估计。但是,由于新型范式从传统的基于框架的摄像机转变,时间间隔中的事件信号包含非常有限的信息,因为事件摄像机只能捕获移动的身体部位并忽略那些静态的身体部位,从而导致某些部位不完整甚至在时间间隔中消失。本文提出了一种新型的密集连接的复发架构,以解决不完整信息的问题。通过这种经常性的体系结构,我们可以明确地对跨时间步骤的顺序几何一致性进行明确模拟,从而从以前的帧中积累信息以恢复整个人体,从而从事件数据中获得稳定且准确的人类姿势估计。此外,为了更好地评估我们的模型,我们收集了一个基于人类姿势注释的大型多模式事件数据集,该数据集是迄今为止我们所知的最具挑战性的数据集。两个公共数据集和我们自己的数据集的实验结果证明了我们方法的有效性和强度。代码可以在线提供,以促进未来的研究。
translated by 谷歌翻译
This paper proposes a novel application system for the generation of three-dimensional (3D) character animation driven by markerless human body motion capturing. The entire pipeline of the system consists of five stages: 1) the capturing of motion data using multiple cameras, 2) detection of the two-dimensional (2D) human body joints, 3) estimation of the 3D joints, 4) calculation of bone transformation matrices, and 5) generation of character animation. The main objective of this study is to generate a 3D skeleton and animation for 3D characters using multi-view images captured by ordinary cameras. The computational complexity of the 3D skeleton reconstruction based on 3D vision has been reduced as needed to achieve frame-by-frame motion capturing. The experimental results reveal that our system can effectively and efficiently capture human actions and use them to animate 3D cartoon characters in real-time.
translated by 谷歌翻译
在3D人类姿势估计任务中存在挑战性问题,例如由遮挡和自我封闭引起的性能差。最近,IMU-Vision传感器融合被认为对于解决这些问题很有价值。但是,先前关于IMU和视觉数据的融合的研究(异质性)无法充分利用IMU原始数据或可靠的高级视觉功能。为了促进更有效的传感器融合,在这项工作中,我们提出了一个在参数人运动模型下的框架,称为\ emph {fusepose}。具体而言,我们汇总了IMU或视觉数据的不同信息,并引入了三种独特的传感器融合方法:NaiveFuse,Kinefuse和AdadeEpfuse。 NaiveFuse服务器是一种基本方法,仅融合简化的IMU数据并估计欧几里得空间中的3D姿势。在运动学空间中,KineFuse能够将校准和对齐的IMU原始数据与转换后的3D姿势参数集成在一起。 AdadeEpfuse进一步将这种运动学融合过程发展为一种适应性和端到端的训练方式。进行消融研究的综合实验表明了所提出的框架的合理性和优越性。与基线结果相比,3D人姿势估计的性能得到了提高。在Total Capture数据集上,KineFuse超过了先前的最新技术,该最新仅用于测试8.6 \%。 AdadeEpfuse超过了最新的,该技术使用IMU进行培训和测试的最新时间为8.5 \%。此外,我们通过对人类360万数据集的实验来验证框架的概括能力。
translated by 谷歌翻译
单眼3D人姿势估计技术有可能大大增加人类运动数据的可用性。单位图2D-3D提升使用图卷积网络(GCN)的表现最佳模型,通常需要一些手动输入来定义不同的身体关节之间的关系。我们提出了一种基于变压器的新型方法,该方法使用更广泛的自我发场机制来学习代表关节的代币序列。我们发现,使用中间监督以及堆叠编码器福利性能之间的剩余连接。我们还建议,将错误预测作为多任务学习框架的一部分,可以通过允许网络弥补其置信度来改善性能。我们进行广泛的消融研究,以表明我们的每项贡献都会提高性能。此外,我们表明我们的方法的表现超过了最新的单帧3D人类姿势估计的最新技术状态。我们的代码和训练有素的模型可在GitHub上公开提供。
translated by 谷歌翻译
本文提出了一个称为多视图和时间熔断变压器(MTF-Transformer)的统一框架,以适应不同的视图数字和视频长度,而无需在3D人体姿势估计中(HPE)进行摄像机校准。它由特征提取器,多视图融合变压器(MFT)和时间融合变压器(TFT)组成。特征提取器估计每个图像的2D姿势,并根据置信度融合预测。它提供以姿势为中心的功能嵌入,并使随后的模块计算轻量级。 MFT融合了不同数量的视图与新颖的相对注意区块的特征。它适应性地测量了每对视图之间的隐式相对关系,并重建更有信息的特征。 TFT聚集了整个序列的特征,并通过变压器预测3D姿势。它适应地处理任意长度的视频,并将时间信息完全统计。变压器的迁移使我们的模型能够更好地学习空间几何形状,并为不同的应用方案保留鲁棒性。我们报告了360万人类,综合赛和KTH Multiview Football II的定量和定性结果。与带有摄像头参数的最新方法相比,MTF-Transformer获得竞争结果,并以任意数量的看不见的视图良好地概括为动态捕获。
translated by 谷歌翻译
大多数实时人类姿势估计方法都基于检测接头位置。使用检测到的关节位置,可以计算偏差和肢体的俯仰。然而,由于这种旋转轴仍然不观察,因此不能计算沿着肢体沿着肢体至关重要的曲折,这对于诸如体育分析和计算机动画至关重要。在本文中,我们引入了方向关键点,一种用于估计骨骼关节的全位置和旋转的新方法,仅使用单帧RGB图像。灵感来自Motion-Capture Systems如何使用一组点标记来估计全骨骼旋转,我们的方法使用虚拟标记来生成足够的信息,以便准确地推断使用简单的后处理。旋转预测改善了接头角度最佳报告的平均误差48%,并且在15个骨骼旋转中实现了93%的精度。该方法还通过MPJPE在原理数据集上测量,通过MPJPE测量,该方法还改善了当前的最新结果14%,并概括为野外数据集。
translated by 谷歌翻译
了解协作环境中工人和机器人的确切3D位置可以实现多种真实应用,例如检测不安全情况或用于统计和社会目的的相互作用的研究。在本文中,我们提出了一个基于深度设备和深度神经网络的非侵入性和光变色的框架,以估算外部摄像头的3D机器人姿势。该方法可以应用于任何机器人,而无需硬件访问内部状态。我们介绍了预测姿势的新颖代表,即半光谱脱钩的热图(SPDH),以准确计算世界坐标中的3D关节位置,以适应为2D人类姿势估计设计的有效的深层网络。所提出的方法可以作为基于XYZ坐标的输入深度表示,可以在合成深度数据上进行训练,并应用于现实世界设置,而无需域适应技术。为此,我们根据合成和真实深度图像介绍SIMBA数据集,并将其用于实验评估。结果表明,由特定的深度图表示和SPDH制成的建议方法克服了当前的最新状态。
translated by 谷歌翻译