从2D图像中估算3D人的姿势和形状是一项至关重要但具有挑战性的任务。虽然先前具有基于模型表示的方法可以在全身图像上表现出色,但当身体的一部分被遮住或框架外面时,它们通常会失败。此外,这些结果通常不会忠实地捕获人类的轮廓,因为它们的可变形模型有限(例如,仅代表裸体)。另一种方法是估计图像空间中预定义模板主体的密集顶点。这样的表示有效地将顶点定位在图像中,但无法处理框架外的身体部位。在这项工作中,我们学习了对部分观察的强大人体估计。我们明确地对X,Y和Z轴中人类关节和顶点的可见性进行了建模。 X和Y轴中的可见性有助于区分框架外情况,深度轴的可见性对应于闭塞(其他对象的自我闭合或遮挡)。我们从密集的紫外线对应关系中获得可见性标签的伪基,并训练神经网络以预测可见性以及3D坐标。我们表明,可见性可以用作1)额外的信号,以解决自锁定顶点的歧义深度的歧义,以及2)将人体模型拟合到预测时的正则化项。对多个3D人类数据集进行的广泛实验表明,可见性建模显着提高了人体估计的准确性,尤其是对于部分体型病例。我们的带代码的项目页面at:https://github.com/chhankyao/visdb。
translated by 谷歌翻译
与关节位置相比,在皮肤多人线性模型(SMPL)基于多视图图像的基于皮肤的多人线性模型(SMPL)的人网格重建中,关节旋转和形状估计的准确性相对较少。该领域的工作大致分为两类。第一种方法执行关节估计,然后通过将SMPL拟合到最终的接头来产生SMPL参数。第二种方法通过基于卷积神经网络(CNN)模型直接从输入图像中回归SMPL参数。但是,这些方法缺乏解决联合旋转和形状重建和网络学习难度的歧义的信息。为了解决上述问题,我们提出了一种两阶段的方法。提出的方法首先通过从输入图像中的基于CNN的模型估算网格顶点的坐标,并通过将SMPL模型拟合到估计的顶点来获取SMPL参数。估计的网格顶点提供了足够的信息来确定关节旋转和形状,并且比SMPL参数更容易学习。根据使用Human3.6M和MPI-INF-3DHP数据集的实验,所提出的方法在关节旋转和形状估计方面显着优于先前的作品,并在关节位置估计方面实现了竞争性能。
translated by 谷歌翻译
我们建议使用像素对齐的局部图像特征来改进基于人类形状的基于人体形状和姿势估计的方法和姿势估计。给定单个输入彩色图像,现有的图形卷积网络(GCN)用于人类形状和姿势估计的技术使用单个卷积神经网络(CNN)生成的全局图像特征,同样地附加到所有网眼顶点以初始化GCN级,其变换α模板T型网格到目标姿势。相比之下,我们首次提出了每个顶点使用本地图像特征的想法。通过利用用密集产生的像素对应的对应,从CNN图像特征映射中采样这些特征。我们对标准基准的定量和定性结果表明,使用当地特征可以改善全球性,并导致关于最先进的竞争性表演。
translated by 谷歌翻译
人类姿势和形状估计的任务中的关键挑战是闭塞,包括自闭合,对象 - 人闭塞和人际闭塞。缺乏多样化和准确的姿势和形状训练数据成为一个主要的瓶颈,特别是对于野外闭塞的场景。在本文中,我们专注于在人际闭塞的情况下估计人类姿势和形状,同时处理对象 - 人闭塞和自动闭塞。我们提出了一种新颖的框架,该框架综合了遮挡感知的轮廓和2D关键点数据,并直接回归到SMPL姿势和形状参数。利用神经3D网格渲染器以启用剪影监控,这有助于形状估计的巨大改进。此外,合成了全景视点中的关键点和轮廓驱动的训练数据,以补偿任何现有数据集中缺乏视点的多样性。实验结果表明,在姿势估计准确性方面,我们在3DPW和3DPW-Crowd数据集中是最先进的。所提出的方法在形状估计方面显着优于秩1方法。在形状预测精度方面,SSP-3D还实现了顶级性能。
translated by 谷歌翻译
我们考虑从野外拥挤的场景中恢复一个人的3D人网格的问题。尽管在3D人网估计中取得了很多进展,但当测试输入的场景拥挤时,现有的方法很难。失败的第一个原因是训练和测试数据之间的域间隙。一个运动捕获数据集为训练提供准确的3D标签,缺乏人群数据,并阻碍了网络无法学习目标人的拥挤场景射击图像特征。第二个原因是功能处理,该功能处理在空间上平均包含多个人的本地化边界框的特征图。平均整个功能映射使目标人的特征与他人无法区分。我们提出了3dcrowdnet,首先要明确针对野生野外的场景,并通过解决上述问题来估算强大的3D人网。首先,我们利用2D人姿势估计不需要带有3D标签的运动捕获数据集进行训练,并且不受域间隙的困扰。其次,我们提出了一个基于联合的回归器,将目标人的特征与他人区分开来。我们的基于联合的回归器通过对目标关节位置的采样特征来保留目标的空间激活并回归人类模型参数。结果,3DCORDNET学习了针对目标的功能,并有效地排除了附近人的无关特征。我们对各种基准进行实验,并证明3dcrowdnet对野外拥挤的场景的鲁棒性在定量和定性上。该代码可在https://github.com/hongsukchoi/3dcrowdnet_release上获得。
translated by 谷歌翻译
我们提出了一种基于优化的新型范式,用于在图像和扫描上拟合3D人类模型。与直接回归输入图像中低维统计体模型(例如SMPL)的参数的现有方法相反,我们训练了每个vertex神经场网络的集合。该网络以分布式的方式预测基于当前顶点投影处提取的神经特征的顶点下降方向。在推断时,我们在梯度降低的优化管道中采用该网络,称为LVD,直到其收敛性为止,即使将所有顶点初始化为单个点,通常也会以一秒钟的分数出现。一项详尽的评估表明,我们的方法能够捕获具有截然不同的身体形状的穿着的人体,与最先进的人相比取得了重大改进。 LVD也适用于人类和手的3D模型配合,为此,我们以更简单,更快的方法对SOTA显示出显着改善。
translated by 谷歌翻译
We present a new method, called MEsh TRansfOrmer (METRO), to reconstruct 3D human pose and mesh vertices from a single image. Our method uses a transformer encoder to jointly model vertex-vertex and vertex-joint interactions, and outputs 3D joint coordinates and mesh vertices simultaneously. Compared to existing techniques that regress pose and shape parameters, METRO does not rely on any parametric mesh models like SMPL, thus it can be easily extended to other objects such as hands. We further relax the mesh topology and allow the transformer self-attention mechanism to freely attend between any two vertices, making it possible to learn non-local relationships among mesh vertices and joints. With the proposed masked vertex modeling, our method is more robust and effective in handling challenging situations like partial occlusions. METRO generates new state-of-the-art results for human mesh reconstruction on the public Human3.6M and 3DPW datasets. Moreover, we demonstrate the generalizability of METRO to 3D hand reconstruction in the wild, outperforming existing state-of-the-art methods on FreiHAND dataset. Code and pre-trained models are available at https: //github.com/microsoft/MeshTransformer.
translated by 谷歌翻译
基于回归的方法可以通过直接以馈送方式将原始像素直接映射到模型参数来估算从单眼图像的身体,手甚至全身模型。但是,参数的微小偏差可能导致估计的网格和输入图像之间的明显未对准,尤其是在全身网格恢复的背景下。为了解决这个问题,我们建议在我们的回归网络中进行锥体网状对准反馈(PYMAF)循环,以进行良好的人类网格恢复,并将其扩展到PYMAF-X,以恢复表达全身模型。 PYMAF的核心思想是利用特征金字塔并根据网格图像对准状态明确纠正预测参数。具体而言,给定当前预测的参数,将相应地从更优质的特征中提取网格对准的证据,并将其送回以进行参数回流。为了增强一致性的看法,采用辅助密集的监督来提供网格图像对应指南,同时引入了空间对齐的注意,以使我们的网络对全球环境的认识。当扩展PYMAF以进行全身网状恢复时,PYMAF-X中提出了一种自适应整合策略来调整肘部扭转旋转,该旋转会产生自然腕部姿势,同时保持部分特定估计的良好性能。我们的方法的功效在几个基准数据集上得到了验证,以实现身体和全身网状恢复,在该数据集中,PYMAF和PYMAF-X有效地改善了网格图像的对准并实现了新的最新结果。具有代码和视频结果的项目页面可以在https://www.liuyebin.com/pymaf-x上找到。
translated by 谷歌翻译
全面监督的人类网格恢复方法是渴望数据的,由于3D规定基准数据集的可用性有限和多样性,因此具有较差的概括性。使用合成数据驱动的训练范例,已经从合成配对的2D表示(例如2D关键点和分段掩码)和3D网格中训练了模型的最新进展,其中已使用合成数据驱动的训练范例和3D网格进行了训练。但是,由于合成训练数据和实际测试数据之间的域间隙很难解决2D密集表示,因此很少探索合成密集的对应图(即IUV)。为了减轻IUV上的这个领域差距,我们提出了使用可靠但稀疏表示的互补信息(2D关键点)提出的交叉代理对齐。具体而言,初始网格估计和两个2D表示之间的比对误差将转发为回归器,并在以下网格回归中动态校正。这种适应性的交叉代理对准明确地从偏差和捕获互补信息中学习:从稀疏的表示和浓郁的浓度中的稳健性。我们对多个标准基准数据集进行了广泛的实验,并展示了竞争结果,帮助减少在人类网格估计中生产最新模型所需的注释工作。
translated by 谷歌翻译
推断人类场景接触(HSC)是了解人类如何与周围环境相互作用的第一步。尽管检测2D人类对象的相互作用(HOI)和重建3D人姿势和形状(HPS)已经取得了重大进展,但单个图像的3D人习惯接触的推理仍然具有挑战性。现有的HSC检测方法仅考虑几种类型的预定义接触,通常将身体和场景降低到少数原语,甚至忽略了图像证据。为了预测单个图像的人类场景接触,我们从数据和算法的角度解决了上述局限性。我们捕获了一个名为“真实场景,互动,联系和人类”的新数据集。 Rich在4K分辨率上包含多视图室外/室内视频序列,使用无标记运动捕获,3D身体扫描和高分辨率3D场景扫描捕获的地面3D人体。 Rich的一个关键特征是它还包含身体上精确的顶点级接触标签。使用Rich,我们训练一个网络,该网络可预测单个RGB图像的密集车身场景接触。我们的主要见解是,接触中的区域总是被阻塞,因此网络需要能够探索整个图像以获取证据。我们使用变压器学习这种非本地关系,并提出新的身体场景接触变压器(BSTRO)。很少有方法探索3D接触;那些只专注于脚的人,将脚接触作为后处理步骤,或从身体姿势中推断出无需看现场的接触。据我们所知,BSTRO是直接从单个图像中直接估计3D身体场景接触的方法。我们证明,BSTRO的表现明显优于先前的艺术。代码和数据集可在https://rich.is.tue.mpg.de上获得。
translated by 谷歌翻译
闭塞对单眼多人3D人体姿势估计构成了极大的威胁,这是由于封闭器的形状,外观和位置方面的差异很大。尽管现有的方法试图用姿势先验/约束,数据增强或隐性推理处理遮挡,但它们仍然无法概括地看不见姿势或遮挡案例,并且在出现多人时可能会犯大错误。受到人类从可见线索推断关节的显着能力的启发,我们开发了一种方法来显式建模该过程,该过程可以显着改善有或没有遮挡的情况下,可以显着改善自下而上的多人姿势估计。首先,我们将任务分为两个子任务:可见的关键点检测和遮挡的关键点推理,并提出了深入监督的编码器蒸馏(DSED)网络以求解第二个网络。为了训练我们的模型,我们提出了一种骨骼引导的人形拟合(SSF)方法,以在现有数据集上生成伪遮挡标签,从而实现明确的遮挡推理。实验表明,从遮挡中明确学习可以改善人类姿势估计。此外,利用可见关节的特征级信息使我们可以更准确地推理遮挡关节。我们的方法的表现优于几个基准的最新自上而下和自下而上的方法。
translated by 谷歌翻译
给出了多人的形象,我们的目标是直接向所有人的姿势和形状以及相对深度的形状。然而,在图像中推断一个人的深度,在没有知道其高度的情况下从根本上模糊。当场景包含尺寸非常不同的尺寸时,这尤其有问题。从婴儿到成年人。要解决这个问题,我们需要几件事。首先,我们开发一种新的方法,可在单个图像中推断多人的姿势和深度。虽然以前的工作估计多个人通过推理在图像平面上,但我们的方法称为BEV,增加了额外的虚拟鸟瞰图表示,以明确地理解深度。在图像中的身体中心和深度和深度,通过梳理这些,估计3D身体位置的BEV原因。与现有工作不同,BEV是一种单次射击方法,即端到端可分辨率。其次,身高随着年龄而变化,无法解决深度而不估计图像中的人们的年龄。为此,我们利用3D身体模型空间,让您从婴儿推断为成年人。第三,要训练BEV,我们需要一个新的数据集。具体而言,我们创建一个“相对人类”(RH)数据集,包括图像中人们的年龄标签和相对深度关系。 RH和Agora的广泛实验证明了模型和培训计划的有效性。 BEV优于深度推理,儿童形状估计和鲁布利的现有方法。代码和数据集将用于研究目的。
translated by 谷歌翻译
This work addresses the problem of estimating the full body 3D human pose and shape from a single color image. This is a task where iterative optimization-based solutions have typically prevailed, while Convolutional Networks (ConvNets) have suffered because of the lack of training data and their low resolution 3D predictions. Our work aims to bridge this gap and proposes an efficient and effective direct prediction method based on ConvNets. Central part to our approach is the incorporation of a parametric statistical body shape model (SMPL) within our end-to-end framework. This allows us to get very detailed 3D mesh results, while requiring estimation only of a small number of parameters, making it friendly for direct network prediction. Interestingly, we demonstrate that these parameters can be predicted reliably only from 2D keypoints and masks. These are typical outputs of generic 2D human analysis ConvNets, allowing us to relax the massive requirement that images with 3D shape ground truth are available for training. Simultaneously, by maintaining differentiability, at training time we generate the 3D mesh from the estimated parameters and optimize explicitly for the surface using a 3D per-vertex loss. Finally, a differentiable renderer is employed to project the 3D mesh to the image, which enables further refinement of the network, by optimizing for the consistency of the projection with 2D annotations (i.e., 2D keypoints or masks). The proposed approach outperforms previous baselines on this task and offers an attractive solution for direct prediction of 3D shape from a single color image.
translated by 谷歌翻译
了解来自第一人称观点的社交互动对于许多应用来说至关重要,从辅助机器人到AR / VR。谈论相互作用的第一步是理解人类的姿势和形状。但是,该领域的研究目前受到数据缺乏的阻碍。现有数据集根据大小,注释,地面真实捕获方式或相互作用的多样性有限。我们通过提出EGOBODY来解决这一缺点,这是一个用于复杂3D场景中的社交交互的新型大规模数据集。我们采用Microsoft Hololens2耳机来记录富裕的EGEntric数据流(包括RGB,深度,眼睛凝视,头部和手动跟踪)。为了获得准确的3D地面真理,我们将耳机用多kinect钻机校准并配合富有呈现的SMPL-X体网格到多视图RGB-D帧,重建3D人类姿势和相对于场景的形状。我们收集68个序列,跨越不同的社会学互动类别,并提出了从自我监视视图的3D全体姿态和形状估计的第一个基准。我们的数据集和代码将在https://sanweiliti.github.io/egobody/egobody.html中进行研究。
translated by 谷歌翻译
本文解决了RGB图像的3D人体形状和姿势估计的问题。该任务最近的一些方法预测了在输入图像上的人体模型参数上的概率分布。这是通过涉及多个3D重建的问题的不良性质,特别是当主体的某些部位局部封闭时,这是一种问题。然而,在广泛使用的身体模型(例如SMPL)中的身体形状参数控制全身表面上的全球变形。通过这些全局形状参数的分布不能有意义地捕获与局部闭塞身体部位相关的形状估计的不确定性。相反,我们提出了一种方法(i)以语义体测量的形式预测局部体形状的分布,并且(ii)使用线性映射来将局部分布转换到身体测量的局部分布到全局分布在SMPL形状参数上的全局分布。我们表明我们的方法在SSP-3D数据集上的身份依赖性身体形状估计精度和磁带测量人类的私有数据集中优于当前的现有技术,通过概率组合局部身体测量分布从主题的多个图像预测。
translated by 谷歌翻译
To facilitate the analysis of human actions, interactions and emotions, we compute a 3D model of human body pose, hand pose, and facial expression from a single monocular image. To achieve this, we use thousands of 3D scans to train a new, unified, 3D model of the human body, SMPL-X, that extends SMPL with fully articulated hands and an expressive face. Learning to regress the parameters of SMPL-X directly from images is challenging without paired images and 3D ground truth. Consequently, we follow the approach of SMPLify, which estimates 2D features and then optimizes model parameters to fit the features. We improve on SMPLify in several significant ways: (1) we detect 2D features corresponding to the face, hands, and feet and fit the full SMPL-X model to these; (2) we train a new neural network pose prior using a large MoCap dataset; (3) we define a new interpenetration penalty that is both fast and accurate; (4) we automatically detect gender and the appropriate body models (male, female, or neutral); (5) our PyTorch implementation achieves a speedup of more than 8× over Chumpy. We use the new method, SMPLify-X, to fit SMPL-X to both controlled images and images in the wild. We evaluate 3D accuracy on a new curated dataset comprising 100 images with pseudo ground-truth. This is a step towards automatic expressive human capture from monocular RGB data. The models, code, and data are available for research purposes at https://smpl-x.is.tue.mpg.de.
translated by 谷歌翻译
尽管在3D服装的人类重建中取得了很多进展,但大多数现有方法无法从野外图像产生强大的结果,其中包含各种人类的姿势和外观。这主要是由于训练数据集和野外数据集之间存在较大的域间隙。训练数据集通常是合成数据集,其中包含来自GT 3D扫描的渲染图像。但是,与真实的野外数据集相比,此类数据集包含简单的人类姿势和较少的自然图像外观,这使其对野外图像的概括非常具有挑战性。为了解决这个问题,在这项工作中,我们提出了一个3D衣服的人类重建框架,该框架首先解决了露天图像的稳健性。首先,为了使域间隙的鲁棒性,我们提出了一条弱监督的管道,该管道可通过野外数据集的2D监督目标进行训练。其次,我们设计了基于密集的损失功能,以减少弱监督的歧义。对几个公共野外数据集进行的广泛经验测试表明,我们提议的布牛会产生比最先进的方法更准确和强大的结果。这些代码可在此处提供:https://github.com/hygenie1228/clothwild_release。
translated by 谷歌翻译
自上而下的方法主导了3D人类姿势和形状估计的领域,因为它们与人类的检测脱钩,并使研究人员能够专注于核心问题。但是,裁剪是他们的第一步,从一开始就丢弃了位置信息,这使自己无法准确预测原始摄像机坐标系中的全局旋转。为了解决此问题,我们建议将完整框架(悬崖)的位置信息携带到此任务中。具体而言,我们通过将裁剪图像功能与其边界盒信息连接在一起来养活更多的整体功能来悬崖。我们通过更广泛的全帧视图来计算2D再投影损失,进行了类似于图像中投射的人的投影过程。克里夫(Cliff)通过全球态度感知信息进行了喂养和监督,直接预测全球旋转以及更准确的明确姿势。此外,我们提出了一个基于Cliff的伪基真实注释,该注释为野外2D数据集提供了高质量的3D注释,并为基于回归的方法提供了至关重要的全面监督。对流行基准测试的广泛实验表明,悬崖的表现要超过先前的艺术,并在Agora排行榜上获得了第一名(SMPL-Algorithms曲目)。代码和数据可在https://github.com/huawei-noah/noah-research/tree/master/cliff中获得。
translated by 谷歌翻译
从单眼RGB图像中重建3D手网络,由于其在AR/VR领域的巨大潜在应用,引起了人们的注意力越来越多。大多数最先进的方法试图以匿名方式解决此任务。具体而言,即使在连续录制会话中用户没有变化的实际应用程序中实际上可用,因此忽略了该主题的身份。在本文中,我们提出了一个身份感知的手网格估计模型,该模型可以结合由受试者的内在形状参数表示的身份信息。我们通过将提出的身份感知模型与匿名对待主题的基线进行比较来证明身份信息的重要性。此外,为了处理未见测试对象的用例,我们提出了一条新型的个性化管道来校准固有的形状参数,仅使用该受试者的少数未标记的RGB图像。在两个大型公共数据集上进行的实验验证了我们提出的方法的最先进性能。
translated by 谷歌翻译
We describe the first method to automatically estimate the 3D pose of the human body as well as its 3D shape from a single unconstrained image. We estimate a full 3D mesh and show that 2D joints alone carry a surprising amount of information about body shape. The problem is challenging because of the complexity of the human body, articulation, occlusion, clothing, lighting, and the inherent ambiguity in inferring 3D from 2D. To solve this, we first use a recently published CNN-based method, DeepCut, to predict (bottom-up) the 2D body joint locations. We then fit (top-down) a recently published statistical body shape model, called SMPL, to the 2D joints. We do so by minimizing an objective function that penalizes the error between the projected 3D model joints and detected 2D joints. Because SMPL captures correlations in human shape across the population, we are able to robustly fit it to very little data. We further leverage the 3D model to prevent solutions that cause interpenetration. We evaluate our method, SMPLify, on the Leeds Sports, HumanEva, and Human3.6M datasets, showing superior pose accuracy with respect to the state of the art.
translated by 谷歌翻译