从单眼RGB图像中重建3D手网络,由于其在AR/VR领域的巨大潜在应用,引起了人们的注意力越来越多。大多数最先进的方法试图以匿名方式解决此任务。具体而言,即使在连续录制会话中用户没有变化的实际应用程序中实际上可用,因此忽略了该主题的身份。在本文中,我们提出了一个身份感知的手网格估计模型,该模型可以结合由受试者的内在形状参数表示的身份信息。我们通过将提出的身份感知模型与匿名对待主题的基线进行比较来证明身份信息的重要性。此外,为了处理未见测试对象的用例,我们提出了一条新型的个性化管道来校准固有的形状参数,仅使用该受试者的少数未标记的RGB图像。在两个大型公共数据集上进行的实验验证了我们提出的方法的最先进性能。
translated by 谷歌翻译
在本文中,我们考虑了同时找到和从单个2D图像中恢复多手的具有挑战性的任务。先前的研究要么关注单手重建,要么以多阶段的方式解决此问题。此外,常规的两阶段管道首先检测到手部区域,然后估计每个裁剪贴片的3D手姿势。为了减少预处理和特征提取中的计算冗余,我们提出了一条简洁但有效的单阶段管道。具体而言,我们为多手重建设计了多头自动编码器结构,每个HEAD网络分别共享相同的功能图并分别输出手动中心,姿势和纹理。此外,我们采用了一个弱监督的计划来减轻昂贵的3D现实世界数据注释的负担。为此,我们提出了一系列通过舞台训练方案优化的损失,其中根据公开可用的单手数据集生成具有2D注释的多手数据集。为了进一步提高弱监督模型的准确性,我们在单手和多个手设置中采用了几个功能一致性约束。具体而言,从本地功能估算的每只手的关键点应与全局功能预测的重新投影点一致。在包括Freihand,HO3D,Interhand 2.6M和RHD在内的公共基准测试的广泛实验表明,我们的方法在弱监督和完全监督的举止中优于基于最先进的模型方法。代码和模型可在{\ url {https://github.com/zijinxuxu/smhr}}上获得。
translated by 谷歌翻译
人类姿势和形状估计的任务中的关键挑战是闭塞,包括自闭合,对象 - 人闭塞和人际闭塞。缺乏多样化和准确的姿势和形状训练数据成为一个主要的瓶颈,特别是对于野外闭塞的场景。在本文中,我们专注于在人际闭塞的情况下估计人类姿势和形状,同时处理对象 - 人闭塞和自动闭塞。我们提出了一种新颖的框架,该框架综合了遮挡感知的轮廓和2D关键点数据,并直接回归到SMPL姿势和形状参数。利用神经3D网格渲染器以启用剪影监控,这有助于形状估计的巨大改进。此外,合成了全景视点中的关键点和轮廓驱动的训练数据,以补偿任何现有数据集中缺乏视点的多样性。实验结果表明,在姿势估计准确性方面,我们在3DPW和3DPW-Crowd数据集中是最先进的。所提出的方法在形状估计方面显着优于秩1方法。在形状预测精度方面,SSP-3D还实现了顶级性能。
translated by 谷歌翻译
3D互动手重建对于促进人机互动和人类行为理解至关重要。以前的工作在此字段中依赖于辅助输入,例如深度图像,或者如果使用单目的RGB图像,则只能处理单手。当应用于紧密互动时,单手方法倾向于产生碰撞手网格,因为它们无法明确地模拟两只手之间的相互作用。在本文中,我们首次尝试重建从单眼单rgb图像的三维交互手。我们的方法可以通过精确的3D姿势和最小冲突生成3D手网格。这是通过两级框架实现的。具体地,第一阶段采用卷积神经网络来产生容忍碰撞但鼓励姿势准确的手网格的粗略预测。第二阶段通过一系列分解改进逐渐改善碰撞,同时保留3D姿势的精确性。考虑到效率和准确性之间的权衡,我们仔细研究了分解改进的潜在实现。大规模数据集的广泛定量和定性结果,例如Interwand2.6m,证明了所提出的方法的有效性。
translated by 谷歌翻译
大多数现有的动物姿势和形状估计方法用参数模型重建动物网格。这是因为Smal模型的低维姿势和形状参数使得深网络更容易学习高维动物网。然而,Smal模型从具有限制和形状变化的玩具动物的扫描学习,因此可能无法良好地代表高度不同的真实动物。这可能导致估计网格的差,例如2D证据的差。 2d关键点或剪影。为了缓解此问题,我们提出了一种从单个图像重建3D动物网格的粗细方法。粗略估计阶段首先估计Smal模型的姿势,形状和翻译参数。然后将估计的网格用作图表卷积网络(GCN)的起点,以预测细化阶段的每顶顶点变形。基于SMAL和基于顶点的表示的这种组合来自参数和非参数表示。我们将网眼细化GCN(MRGCN)设计为具有分层特征表示的编码器解码器结构,以克服传统GCN的有限接收领域。此外,我们观察到,现有动物网格重建工作所使用的全局图像特征无法捕获用于网格细化的详细形状信息。因此,我们引入了本地特征提取器来检索顶点级别功能,并将其与全局功能一起用作MRGCN的输入。我们在Stanfordextra DataSet上测试我们的方法,实现最先进的结果。此外,我们在动物姿势和BADJA数据集中测试我们方法的泛化能力。我们的代码可在项目网站上获得。
translated by 谷歌翻译
为了获取3D注释,我们仅限于受控环境或合成数据集,导致我们到3D数据集,其概括为现实世界方案。为了在半监督3D手形状和姿势估计的上下文中解决这个问题,我们提出了姿势对齐网络,以将标记帧传播到附近的稀疏注释视频中的附近未标记帧的3D注释。我们表明,在标记 - 未标记的帧对对对准监控允许我们提高姿态估计精度。此外,我们表明所提出的姿势对齐网络可以有效地传播在不良稀疏的视频上的注释而无需微调。
translated by 谷歌翻译
This work addresses the problem of estimating the full body 3D human pose and shape from a single color image. This is a task where iterative optimization-based solutions have typically prevailed, while Convolutional Networks (ConvNets) have suffered because of the lack of training data and their low resolution 3D predictions. Our work aims to bridge this gap and proposes an efficient and effective direct prediction method based on ConvNets. Central part to our approach is the incorporation of a parametric statistical body shape model (SMPL) within our end-to-end framework. This allows us to get very detailed 3D mesh results, while requiring estimation only of a small number of parameters, making it friendly for direct network prediction. Interestingly, we demonstrate that these parameters can be predicted reliably only from 2D keypoints and masks. These are typical outputs of generic 2D human analysis ConvNets, allowing us to relax the massive requirement that images with 3D shape ground truth are available for training. Simultaneously, by maintaining differentiability, at training time we generate the 3D mesh from the estimated parameters and optimize explicitly for the surface using a 3D per-vertex loss. Finally, a differentiable renderer is employed to project the 3D mesh to the image, which enables further refinement of the network, by optimizing for the consistency of the projection with 2D annotations (i.e., 2D keypoints or masks). The proposed approach outperforms previous baselines on this task and offers an attractive solution for direct prediction of 3D shape from a single color image.
translated by 谷歌翻译
我们提出了一种可自行的方法Mask2Hand,该方法学会了解决从2D二进制式掩护的手动剪影/阴影中预测3D手姿势和形状的具有挑战性的任务,而无需其他手动注释的数据。鉴于摄像机空间中的固有摄像头参数和参数手模型,我们采用可区分的渲染技术将3D估计投影到2D二进制轮廓空间上。通过在渲染的轮廓和输入二进制面膜之间应用量身定制的损失组合,我们能够将自我借记机制集成到我们的端到端优化过程中,以限制全球网格注册和手部姿势估计。实验表明,我们的方法将单个二进制掩码作为输入,可以在不对齐和对齐设置作为需要RGB或深度输入的最新方法上实现可比的预测准确性。我们的代码可在https://github.com/lijenchang/mask2hand上找到。
translated by 谷歌翻译
This paper addresses the problem of 3D human pose and shape estimation from a single image. Previous approaches consider a parametric model of the human body, SMPL, and attempt to regress the model parameters that give rise to a mesh consistent with image evidence. This parameter regression has been a very challenging task, with modelbased approaches underperforming compared to nonparametric solutions in terms of pose estimation. In our work, we propose to relax this heavy reliance on the model's parameter space. We still retain the topology of the SMPL template mesh, but instead of predicting model parameters, we directly regress the 3D location of the mesh vertices. This is a heavy task for a typical network, but our key insight is that the regression becomes significantly easier using a Graph-CNN. This architecture allows us to explicitly encode the template mesh structure within the network and leverage the spatial locality the mesh has to offer. Image-based features are attached to the mesh vertices and the Graph-CNN is responsible to process them on the mesh structure, while the regression target for each vertex is its 3D location. Having recovered the complete 3D geometry of the mesh, if we still require a specific model parametrization, this can be reliably regressed from the vertices locations. We demonstrate the flexibility and the effectiveness of our proposed graphbased mesh regression by attaching different types of features on the mesh vertices. In all cases, we outperform the comparable baselines relying on model parameter regression, while we also achieve state-of-the-art results among model-based pose estimation approaches. 1
translated by 谷歌翻译
最近的工作取得了令人印象深刻的进展,从单眼颜色图像中联合重建手和操纵物体。现有的方法着重于两个替代表示,以参数网格或签名的距离字段(SDF)。一方面,参数模型可以以有限的形状变形和网格分辨率的成本从先验知识中受益。因此,网格模型可能无法精确地重建细节,例如手和物体的接触表面。另一方面,基于SDF的方法可以代表任意细节,但缺乏明确的先验。在这项工作中,我们旨在使用参数表示提供的PRIOR来改善SDF模型。特别是,我们提出了一个联合学习框架,该框架可以解散姿势和形状。我们从参数模型中获取手和对象摆姿势,并使用它们在3D空间中对齐SDF。我们表明,这种对齐的SDF可以更好地专注于重建形状细节,并提高手和物体的重建精度。我们评估了我们的方法,并在挑战性的OBMAN和DEXYCB基准方面证明了对最新技术的显着改善。
translated by 谷歌翻译
全面监督的人类网格恢复方法是渴望数据的,由于3D规定基准数据集的可用性有限和多样性,因此具有较差的概括性。使用合成数据驱动的训练范例,已经从合成配对的2D表示(例如2D关键点和分段掩码)和3D网格中训练了模型的最新进展,其中已使用合成数据驱动的训练范例和3D网格进行了训练。但是,由于合成训练数据和实际测试数据之间的域间隙很难解决2D密集表示,因此很少探索合成密集的对应图(即IUV)。为了减轻IUV上的这个领域差距,我们提出了使用可靠但稀疏表示的互补信息(2D关键点)提出的交叉代理对齐。具体而言,初始网格估计和两个2D表示之间的比对误差将转发为回归器,并在以下网格回归中动态校正。这种适应性的交叉代理对准明确地从偏差和捕获互补信息中学习:从稀疏的表示和浓郁的浓度中的稳健性。我们对多个标准基准数据集进行了广泛的实验,并展示了竞争结果,帮助减少在人类网格估计中生产最新模型所需的注释工作。
translated by 谷歌翻译
3D从单眼RGB图像中的人类姿势和形状恢复是一个具有挑战性的任务。基于现有的基于学习的方法高度依赖于弱监管信号,例如, 2D和3D联合位置,由于缺乏野外配对的3D监督。然而,考虑到这些弱监管标签中存在的2D-3D模糊,网络在用此类标签培训时容易在本地最佳状态下卡。在本文中,我们通过优化多个初始化来减少势措施。具体而言,我们提出了一个名为多初始化优化网络(MION)的三级框架。在第一阶段,我们策略性地选择与输入样本的2D关键点兼容的不同粗略的3D重建候选。每个粗略重建可以被视为初始化导致一个优化分支。在第二阶段,我们设计网格精制变压器(MRT)以分别通过自我关注机制来优化每个粗略重建结果。最后,提出了一种一致性估计网络(CEN)来通过评估RGB图像中的视觉证据与给定的3D重建匹配,以通过评估来查找来自候选的最佳结果。实验表明,我们的多初始化优化网络优于多个公共基准上的现有3D网格的方法。
translated by 谷歌翻译
我们建议使用像素对齐的局部图像特征来改进基于人类形状的基于人体形状和姿势估计的方法和姿势估计。给定单个输入彩色图像,现有的图形卷积网络(GCN)用于人类形状和姿势估计的技术使用单个卷积神经网络(CNN)生成的全局图像特征,同样地附加到所有网眼顶点以初始化GCN级,其变换α模板T型网格到目标姿势。相比之下,我们首次提出了每个顶点使用本地图像特征的想法。通过利用用密集产生的像素对应的对应,从CNN图像特征映射中采样这些特征。我们对标准基准的定量和定性结果表明,使用当地特征可以改善全球性,并导致关于最先进的竞争性表演。
translated by 谷歌翻译
To date, little attention has been given to multi-view 3D human mesh estimation, despite real-life applicability (e.g., motion capture, sport analysis) and robustness to single-view ambiguities. Existing solutions typically suffer from poor generalization performance to new settings, largely due to the limited diversity of image-mesh pairs in multi-view training data. To address this shortcoming, people have explored the use of synthetic images. But besides the usual impact of visual gap between rendered and target data, synthetic-data-driven multi-view estimators also suffer from overfitting to the camera viewpoint distribution sampled during training which usually differs from real-world distributions. Tackling both challenges, we propose a novel simulation-based training pipeline for multi-view human mesh recovery, which (a) relies on intermediate 2D representations which are more robust to synthetic-to-real domain gap; (b) leverages learnable calibration and triangulation to adapt to more diversified camera setups; and (c) progressively aggregates multi-view information in a canonical 3D space to remove ambiguities in 2D representations. Through extensive benchmarking, we demonstrate the superiority of the proposed solution especially for unseen in-the-wild scenarios.
translated by 谷歌翻译
尽管近年来3D人姿势和形状估计方法的性能显着提高,但是现有方法通常在相机或以人为本的坐标系中定义的3D姿势。这使得难以估计使用移动相机捕获的视频的世界坐标系中的人的纯姿势和运动。为了解决这个问题,本文提出了一种用于预测世界坐标系中定义的3D人姿势和网格的相机运动不可知论方法。所提出的方法的核心思想是估计不变选择坐标系的两个相邻的全局姿势(即全局运动)之间的差异,而不是耦合到相机运动的全局姿势。为此,我们提出了一种基于双向门控复发单元(GRUS)的网络,该单元从局部姿势序列预测全局运动序列,由称为全局运动回归(GMR)的关节相对旋转组成。我们使用3DPW和合成数据集,该数据集在移动相机环境中构建,进行评估。我们进行广泛的实验,并经验证明了提出的方法的有效性。代码和数据集可在https://github.com/seonghyunkim1212/gmr获得
translated by 谷歌翻译
We present a new method, called MEsh TRansfOrmer (METRO), to reconstruct 3D human pose and mesh vertices from a single image. Our method uses a transformer encoder to jointly model vertex-vertex and vertex-joint interactions, and outputs 3D joint coordinates and mesh vertices simultaneously. Compared to existing techniques that regress pose and shape parameters, METRO does not rely on any parametric mesh models like SMPL, thus it can be easily extended to other objects such as hands. We further relax the mesh topology and allow the transformer self-attention mechanism to freely attend between any two vertices, making it possible to learn non-local relationships among mesh vertices and joints. With the proposed masked vertex modeling, our method is more robust and effective in handling challenging situations like partial occlusions. METRO generates new state-of-the-art results for human mesh reconstruction on the public Human3.6M and 3DPW datasets. Moreover, we demonstrate the generalizability of METRO to 3D hand reconstruction in the wild, outperforming existing state-of-the-art methods on FreiHAND dataset. Code and pre-trained models are available at https: //github.com/microsoft/MeshTransformer.
translated by 谷歌翻译
基于回归的方法可以通过直接以馈送方式将原始像素直接映射到模型参数来估算从单眼图像的身体,手甚至全身模型。但是,参数的微小偏差可能导致估计的网格和输入图像之间的明显未对准,尤其是在全身网格恢复的背景下。为了解决这个问题,我们建议在我们的回归网络中进行锥体网状对准反馈(PYMAF)循环,以进行良好的人类网格恢复,并将其扩展到PYMAF-X,以恢复表达全身模型。 PYMAF的核心思想是利用特征金字塔并根据网格图像对准状态明确纠正预测参数。具体而言,给定当前预测的参数,将相应地从更优质的特征中提取网格对准的证据,并将其送回以进行参数回流。为了增强一致性的看法,采用辅助密集的监督来提供网格图像对应指南,同时引入了空间对齐的注意,以使我们的网络对全球环境的认识。当扩展PYMAF以进行全身网状恢复时,PYMAF-X中提出了一种自适应整合策略来调整肘部扭转旋转,该旋转会产生自然腕部姿势,同时保持部分特定估计的良好性能。我们的方法的功效在几个基准数据集上得到了验证,以实现身体和全身网状恢复,在该数据集中,PYMAF和PYMAF-X有效地改善了网格图像的对准并实现了新的最新结果。具有代码和视频结果的项目页面可以在https://www.liuyebin.com/pymaf-x上找到。
translated by 谷歌翻译
与关节位置相比,在皮肤多人线性模型(SMPL)基于多视图图像的基于皮肤的多人线性模型(SMPL)的人网格重建中,关节旋转和形状估计的准确性相对较少。该领域的工作大致分为两类。第一种方法执行关节估计,然后通过将SMPL拟合到最终的接头来产生SMPL参数。第二种方法通过基于卷积神经网络(CNN)模型直接从输入图像中回归SMPL参数。但是,这些方法缺乏解决联合旋转和形状重建和网络学习难度的歧义的信息。为了解决上述问题,我们提出了一种两阶段的方法。提出的方法首先通过从输入图像中的基于CNN的模型估算网格顶点的坐标,并通过将SMPL模型拟合到估计的顶点来获取SMPL参数。估计的网格顶点提供了足够的信息来确定关节旋转和形状,并且比SMPL参数更容易学习。根据使用Human3.6M和MPI-INF-3DHP数据集的实验,所提出的方法在关节旋转和形状估计方面显着优于先前的作品,并在关节位置估计方面实现了竞争性能。
translated by 谷歌翻译
了解来自第一人称观点的社交互动对于许多应用来说至关重要,从辅助机器人到AR / VR。谈论相互作用的第一步是理解人类的姿势和形状。但是,该领域的研究目前受到数据缺乏的阻碍。现有数据集根据大小,注释,地面真实捕获方式或相互作用的多样性有限。我们通过提出EGOBODY来解决这一缺点,这是一个用于复杂3D场景中的社交交互的新型大规模数据集。我们采用Microsoft Hololens2耳机来记录富裕的EGEntric数据流(包括RGB,深度,眼睛凝视,头部和手动跟踪)。为了获得准确的3D地面真理,我们将耳机用多kinect钻机校准并配合富有呈现的SMPL-X体网格到多视图RGB-D帧,重建3D人类姿势和相对于场景的形状。我们收集68个序列,跨越不同的社会学互动类别,并提出了从自我监视视图的3D全体姿态和形状估计的第一个基准。我们的数据集和代码将在https://sanweiliti.github.io/egobody/egobody.html中进行研究。
translated by 谷歌翻译
大多数实时人类姿势估计方法都基于检测接头位置。使用检测到的关节位置,可以计算偏差和肢体的俯仰。然而,由于这种旋转轴仍然不观察,因此不能计算沿着肢体沿着肢体至关重要的曲折,这对于诸如体育分析和计算机动画至关重要。在本文中,我们引入了方向关键点,一种用于估计骨骼关节的全位置和旋转的新方法,仅使用单帧RGB图像。灵感来自Motion-Capture Systems如何使用一组点标记来估计全骨骼旋转,我们的方法使用虚拟标记来生成足够的信息,以便准确地推断使用简单的后处理。旋转预测改善了接头角度最佳报告的平均误差48%,并且在15个骨骼旋转中实现了93%的精度。该方法还通过MPJPE在原理数据集上测量,通过MPJPE测量,该方法还改善了当前的最新结果14%,并概括为野外数据集。
translated by 谷歌翻译