我们解决了将3D人类模型拟合到穿着人类的3D扫描的问题。古典方法优化数据到模型对应关系和人类模型参数(姿势和形状),但仅在初始化靠近解决方案时可靠。一些方法基于完全监督的对应预测器初始化优化,该预测值不是差异的端到端,并且只能一次处理单个扫描。我们的主要贡献是Loopreg,一个端到端的学习框架,用于向共同的3D人体模型注册扫描语料库。关键的想法是创建一个自我监督的循环。由神经网络参数化的向后地图预测来自每个扫描点到人类模型表面的对应关系。由人类模型参数化的前向地图,基于模型参数(姿势和形状)将相应的点转换回扫描,从而关闭循环。配制该闭环并不简单,因为它不易于迫使NN的输出在人体模型的表面上 - 在这种表面之外,人类模型甚至没有定义。为此,我们提出了两个关键的创新。首先,我们隐含地将规范表面定义为R3中的距离场的零电平集,这与MoreCommon UV参数化相反,不需要切割表面,没有不连续性,并且不会引起失真。其次,我们将人体模型扩散到3D域R3。这允许向前映射NN预测,即使它们略微偏离零电平集。结果表明,我们可以培训LopoPheainly自我监督 - 遵循监督的热门启动,因为处理了额外的未标记的原始扫描,该模型变得越来越准确。我们的代码和预先培训的型号可以下载用于研究。
translated by 谷歌翻译
表示为深度学习近似的隐式功能对于重建3D表面是强大的。然而,它们只能产生不可控制的静态表面,这提供了通过编辑其姿势或形状参数来修改所得模型的有限能力。尽管如此,这些功能对于构建计算机图形和计算机视觉的灵活模型至关重要。在这项工作中,我们呈现了结合丰富的隐式功能和参数表示的方法,以重建即使在衣服的存在下也能够控制和准确的人的3D模型。给定稀疏的3D点云在衣服的人的表面上采样,我们使用隐式零件网络(IP-Net)共同预测穿衣服的人,内部主体表面的外3D表面,以及对参数的语义对应身体模型。我们随后使用对应关系将主体模型适合于我们的内表面,然后在外表面上非刚性地变形(在参数体+位移模型下),以捕获服装,面部和头发细节。在全身数据和手中的定量和定性实验中,我们表明所提出的方法概括,甚至给出了从单视图深度图像收集的不完整点云。我们的模型和代码可以从http://virtualhumans.mpi-inf.mpg.de/ipnet下载。
translated by 谷歌翻译
本文提出了一种新颖的自我监督方法,可以从嘈杂的点云数据重建人类形状和姿势。依靠大量数据集与地面真实的注释,最近基于学习的方法预测点云上的每个顶点的对应关系;倒角距离通常用于最小化变形模板模型和输入点云之间的距离。然而,倒角距离对噪声和异常值非常敏感,因此可以不可靠地分配通信。为了解决这些问题,我们在高斯混合模型下从参数人模型产生的输入点云的概率分布。通过更新给定输入的模板模型的后验概率,我们通过更新模板模型的后视概率来代替明确地对准对应关系,而不是显式对准的对应关系。进一步推导出一种新颖的自我监督损失,这惩罚了变形模板和在后后概率上的输入点云之间的差异。我们的方法非常灵活,适用于完整点云和不完整的云,包括甚至是单个深度图像作为输入。与以前的自我监督方法相比,我们的方法显示了处理大量噪声和异常值的能力。在各种公共合成数据集以及非常嘈杂的真实数据集(即CMU Panoptic)上进行了广泛的实验,证明了我们对最先进的方法的方法的卓越性能。
translated by 谷歌翻译
我们提出了一种基于优化的新型范式,用于在图像和扫描上拟合3D人类模型。与直接回归输入图像中低维统计体模型(例如SMPL)的参数的现有方法相反,我们训练了每个vertex神经场网络的集合。该网络以分布式的方式预测基于当前顶点投影处提取的神经特征的顶点下降方向。在推断时,我们在梯度降低的优化管道中采用该网络,称为LVD,直到其收敛性为止,即使将所有顶点初始化为单个点,通常也会以一秒钟的分数出现。一项详尽的评估表明,我们的方法能够捕获具有截然不同的身体形状的穿着的人体,与最先进的人相比取得了重大改进。 LVD也适用于人类和手的3D模型配合,为此,我们以更简单,更快的方法对SOTA显示出显着改善。
translated by 谷歌翻译
为了使3D人的头像广泛可用,我们必须能够在任意姿势中产生各种具有不同身份和形状的多种3D虚拟人。由于衣服的身体形状,复杂的关节和由此产生的丰富,随机几何细节,这项任务是挑战的挑战。因此,目前代表3D人的方法不提供服装中的人的全部生成模型。在本文中,我们提出了一种新的方法,这些方法可以学习在具有相应的剥皮重量的各种衣服中产生详细的3D形状。具体而言,我们设计了一个多主题前进的剥皮模块,这些模块只有几个受试者的未预装扫描。为了捕获服装中高频细节的随机性,我们利用对抗的侵害制定,鼓励模型捕获潜在统计数据。我们提供了经验证据,这导致了皱纹的局部细节的现实生成。我们表明我们的模型能够产生佩戴各种和详细的衣服的自然人头像。此外,我们表明我们的方法可以用于拟合人类模型到原始扫描的任务,优于以前的最先进。
translated by 谷歌翻译
我们建议使用点云上的几何感知体系结构,考虑到学习局部结构的数据局部结构,以学习数据的局部结构,以学习数据的局部结构,以了解数据的局部结构,并使用点云上的几何感知体系结构来学习数据的局部结构,以考虑到局部数据结构。估计时间一致的3D变形,而无需在训练时间,通过利用周期一致性来进行密集的对应关系。除了学习密集对应的能力外,GNPM还可以实现潜在空间操作,例如插值和形状/姿势转移。我们在各种衣服的人类数据集上评估了GNPM,并表明它与需要在训练过程中需要密集对应的最新方法相当。
translated by 谷歌翻译
神经隐式表面表示作为有希望以连续和独立的方式捕获3D形状的承诺范式。然而,将它们适应铰接形状是非微不足道的。现有方法学习落后的扭曲领域,即地图变形到规范点。然而,这是有问题的,因为后向扭曲字段依赖于姿势,因此需要大量数据来学习。为了解决这个问题,我们通过学习前向变形领域而没有直接监督,将多边形网格与神经隐式表面的线性混合皮肤(LBS)的优势相结合的Snarf。该变形场在规范,姿势独立的空间中定义,允许概括地看不见。学习从姿势网格中的变形字段独立地是具有挑战性,因为变形点的对应关系被隐含地定义,并且在拓扑的变化下可能不是唯一的。我们提出了一种前瞻性的剥皮模型,使用迭代根发现,找到任何变形点的所有规范对应关系。我们通过隐式差分派生分析梯度,从而实现从3D网格与骨骼变换的端到端训练。与最先进的神经隐式表示相比,我们的方法在保持准确性的同时,我们的方法更好地展示了未经造成的姿势。我们展示了我们在多样化和看不见的姿态上挑战(披装)3D人类的具有挑战性的方法。
translated by 谷歌翻译
我们提出了FITE,这是一种对服装中的人体化身进行建模的第一刻度框架。我们的框架首先学习了代表粗衣拓扑的隐式表面模板,然后采用模板来指导点集的产生,从而进一步捕获姿势依赖的服装变形,例如皱纹。我们的管道结合了隐式和明确表示的优点,即处理变化拓扑的能力以及有效捕获细节的能力。我们还提出了扩散的皮肤,以促进模板训练,尤其是用于宽松衣服的模板训练,以及基于投影的姿势编码,以从网格模板中提取姿势信息,而无需预定义的紫外线图或连接性。我们的代码可在https://github.com/jsnln/fite上公开获取。
translated by 谷歌翻译
人类将他们的手和身体一起移动,沟通和解决任务。捕获和复制此类协调活动对于虚拟字符至关重要,以实际行为行为。令人惊讶的是,大多数方法分别对待身体和手的3D建模和跟踪。在这里,我们制定了一种手和身体的型号,并将其与全身4D序列合理。当扫描或捕获3D中的全身时,手很小,通常是部分闭塞,使其形状和难以恢复。为了应对低分辨率,闭塞和噪音,我们开发了一种名为Mano(具有铰接和非刚性变形的手模型)的新型号。曼诺从大约1000个高分辨率的3D扫描中学到了31个受试者的手中的大约一定的手。该模型是逼真的,低维,捕获非刚性形状的姿势变化,与标准图形封装兼容,可以适合任何人类的手。 Mano提供从手姿势的紧凑型映射,以构成混合形状校正和姿势协同效应的线性歧管。我们将Mano附加到标准参数化3D体形状模型(SMPL),导致完全铰接的身体和手部模型(SMPL + H)。我们通过用4D扫描仪捕获的综合体,自然,自然,自然的受试者的活动来说明SMPL + H.该配件完全自动,并导致全身型号,自然地移动详细的手动运动和在全身性能捕获之前未见的现实主义。模型和数据在我们的网站上自由用于研究目的(http://mano.is.tue.mpg.de)。
translated by 谷歌翻译
在两个非辅助变形形状之间建立对应关系是视觉计算中最根本的问题之一。当对现实世界中的挑战(例如噪声,异常值,自我结合等)挑战时,现有方法通常会显示出弱的弹性。另一方面,自动描述器在学习几何学上有意义的潜在嵌入方面表现出强大的表现力。但是,它们在\ emph {形状分析}中的使用受到限制。在本文中,我们介绍了一种基于自动码头框架的方法,该方法在固定模板上学习了一个连续形状的变形字段。通过监督点在表面上的变形场,并通过小说\ emph {签名距离正则化}(SDR)正规化点偏面的正规化,我们学习了模板和Shape \ Emph {卷}之间的对齐。经过干净的水密网眼培训,\ emph {没有}任何数据启发,我们证明了在受损的数据和现实世界扫描上表现出令人信服的性能。
translated by 谷歌翻译
大多数先前的作品在从图像中感知3D人类的作品是孤立的,而没有周围的环境。但是,人类一直在与周围的物体互动,因此呼吁不仅可以推理人类,而且可以推理对象及其相互作用的模型。由于人类与物体之间的严重阻塞,不同的相互作用类型和深度歧义,问题极具挑战性。在本文中,我们介绍了一种新颖的方法,该方法学会了从单个RGB图像中共同重建人和物体。乔尔从最近的隐性表面学习和基于经典模型的拟合方面的进步中汲取灵感。我们计算人类和对象的神经重建,该神经用两个无符号距离字段隐式表示,一个对应物的对应字段和一个对象姿势场。这使我们能够在相互作用的推理的同时,可牢固地拟合参数的身体模型和3D对象模板。此外,先前的像素对齐的隐式学习方法使用合成数据并做出实际数据中未满足的假设。我们提出了一个优雅的深度缩放,可以在真实数据上进行更有效的形状学习。实验表明,我们的联合重建通过提出的策略学到了明显优于SOTA。我们的代码和型号可在https://virtualhumans.mpi-inf.mpg.de/chore上找到
translated by 谷歌翻译
我们建议使用像素对齐的局部图像特征来改进基于人类形状的基于人体形状和姿势估计的方法和姿势估计。给定单个输入彩色图像,现有的图形卷积网络(GCN)用于人类形状和姿势估计的技术使用单个卷积神经网络(CNN)生成的全局图像特征,同样地附加到所有网眼顶点以初始化GCN级,其变换α模板T型网格到目标姿势。相比之下,我们首次提出了每个顶点使用本地图像特征的想法。通过利用用密集产生的像素对应的对应,从CNN图像特征映射中采样这些特征。我们对标准基准的定量和定性结果表明,使用当地特征可以改善全球性,并导致关于最先进的竞争性表演。
translated by 谷歌翻译
SMPL(SMPL)的参数3D身体模型仅代表最小衣服的人,并且很难扩展到衣服,因为它们具有固定的网格拓扑和分辨率。为了解决这些局限性,最近的工作使用隐式表面或点云来建模衣服。虽然不受拓扑的限制,但这种方法仍然很难为偏离身体的偏离的衣服建模,例如裙子和连衣裙。这是因为他们依靠身体来通过将衣服表面放置为参考形状。不幸的是,当衣服远离身体时,这个过程的定义很差。此外,他们使用线性混合剥皮来摆姿势,并将皮肤重量与下面的身体部位绑在一起。相比之下,我们在没有规范化的情况下对局部坐标空间中的衣服变形进行了建模。我们还放松皮肤重量以使多个身体部位影响表面。具体而言,我们用粗糙的阶段扩展了基于点的方法,该方法用学习的姿势独立的“粗大形状”代替了规范化,该方法可以捕获裙子(如裙子)的粗糙表面几何形状。然后,我们使用一个网络来完善该网络,该网络会渗透到粗糙表示中的线性混合剥皮权重和姿势依赖的位移。该方法适合符合身体并偏离身体的服装。我们通过从示例中学习特定于人的化身,然后展示如何以新的姿势和动作来展示它们的有用性。我们还表明,该方法可以直接从原始扫描中学习缺少数据,从而大大简化了创建逼真的化身的过程。代码可用于研究目的,可在{\ small \ url {https://qianlim.github.io/skirt}}中使用。
translated by 谷歌翻译
我们提出了一种从一系列时间演化点云序列中对时间一致的表面序列的无监督重建的方法。它在帧之间产生了密集和语义有意义的对应关系。我们将重建的表面代表由神经网络计算的Atlases,这使我们能够在帧之间建立对应关系。使这些对应关系的关键是语义上有意义的是为了保证在相应点计算的度量张量和尽可能相似。我们设计了一种优化策略,使我们的方法能够强大地对噪声和全局动作,而无需先验的对应关系或预先对准步骤。结果,我们的方法在几个具有挑战性的数据集中占据了最先进的。该代码可在https://github.com/bednarikjan/temporally_coherent_surface_reconstruction附近获得。
translated by 谷歌翻译
Figure 1: Frankenstein (silver) and Adam (gold). This paper presents a 3D human model capable of concurrently tracking the large-scale posture of the body along with the smaller details of a persons facial expressions and hand gestures.
translated by 谷歌翻译
推断人类场景接触(HSC)是了解人类如何与周围环境相互作用的第一步。尽管检测2D人类对象的相互作用(HOI)和重建3D人姿势和形状(HPS)已经取得了重大进展,但单个图像的3D人习惯接触的推理仍然具有挑战性。现有的HSC检测方法仅考虑几种类型的预定义接触,通常将身体和场景降低到少数原语,甚至忽略了图像证据。为了预测单个图像的人类场景接触,我们从数据和算法的角度解决了上述局限性。我们捕获了一个名为“真实场景,互动,联系和人类”的新数据集。 Rich在4K分辨率上包含多视图室外/室内视频序列,使用无标记运动捕获,3D身体扫描和高分辨率3D场景扫描捕获的地面3D人体。 Rich的一个关键特征是它还包含身体上精确的顶点级接触标签。使用Rich,我们训练一个网络,该网络可预测单个RGB图像的密集车身场景接触。我们的主要见解是,接触中的区域总是被阻塞,因此网络需要能够探索整个图像以获取证据。我们使用变压器学习这种非本地关系,并提出新的身体场景接触变压器(BSTRO)。很少有方法探索3D接触;那些只专注于脚的人,将脚接触作为后处理步骤,或从身体姿势中推断出无需看现场的接触。据我们所知,BSTRO是直接从单个图像中直接估计3D身体场景接触的方法。我们证明,BSTRO的表现明显优于先前的艺术。代码和数据集可在https://rich.is.tue.mpg.de上获得。
translated by 谷歌翻译
This work addresses the problem of estimating the full body 3D human pose and shape from a single color image. This is a task where iterative optimization-based solutions have typically prevailed, while Convolutional Networks (ConvNets) have suffered because of the lack of training data and their low resolution 3D predictions. Our work aims to bridge this gap and proposes an efficient and effective direct prediction method based on ConvNets. Central part to our approach is the incorporation of a parametric statistical body shape model (SMPL) within our end-to-end framework. This allows us to get very detailed 3D mesh results, while requiring estimation only of a small number of parameters, making it friendly for direct network prediction. Interestingly, we demonstrate that these parameters can be predicted reliably only from 2D keypoints and masks. These are typical outputs of generic 2D human analysis ConvNets, allowing us to relax the massive requirement that images with 3D shape ground truth are available for training. Simultaneously, by maintaining differentiability, at training time we generate the 3D mesh from the estimated parameters and optimize explicitly for the surface using a 3D per-vertex loss. Finally, a differentiable renderer is employed to project the 3D mesh to the image, which enables further refinement of the network, by optimizing for the consistency of the projection with 2D annotations (i.e., 2D keypoints or masks). The proposed approach outperforms previous baselines on this task and offers an attractive solution for direct prediction of 3D shape from a single color image.
translated by 谷歌翻译
捕获穿着人的动态变形3D形状对于许多应用,包括VR / AR,自主驾驶和人机交互必不可少。现有方法要么需要高度专业化的捕获设置,如昂贵的多视图成像系统,或者它们缺乏对挑战身体姿势的鲁棒性。在这项工作中,我们提出了一种能够从具有具有挑战性身体姿势的单眼视频捕获动态3D人形状的方法,而没有任何额外的输入。我们首先基于学习的回归模型构建了对象的3D模板人体模型。然后,我们基于2D图像观察跟踪该模板模型在具有挑战性的身体剖视下的变形。我们的方法在野外的人类视频数据集3DPW上占据了最先进的方法。此外,我们展示了IPS数据集视频中鲁棒性和普遍性的效果。
translated by 谷歌翻译
We describe the first method to automatically estimate the 3D pose of the human body as well as its 3D shape from a single unconstrained image. We estimate a full 3D mesh and show that 2D joints alone carry a surprising amount of information about body shape. The problem is challenging because of the complexity of the human body, articulation, occlusion, clothing, lighting, and the inherent ambiguity in inferring 3D from 2D. To solve this, we first use a recently published CNN-based method, DeepCut, to predict (bottom-up) the 2D body joint locations. We then fit (top-down) a recently published statistical body shape model, called SMPL, to the 2D joints. We do so by minimizing an objective function that penalizes the error between the projected 3D model joints and detected 2D joints. Because SMPL captures correlations in human shape across the population, we are able to robustly fit it to very little data. We further leverage the 3D model to prevent solutions that cause interpenetration. We evaluate our method, SMPLify, on the Leeds Sports, HumanEva, and Human3.6M datasets, showing superior pose accuracy with respect to the state of the art.
translated by 谷歌翻译
新兴的元应用需要人类手的可靠,准确和逼真的复制品,以便在物理世界中进行复杂的操作。虽然真实的人手代表了骨骼,肌肉,肌腱和皮肤之间最复杂的协调之一,但最先进的技术一致专注于仅建模手的骨架。在本文中,我们提出了Nimble,这是一种新型的参数手模型,其中包括缺少的密钥组件,将3D手模型带入了新的现实主义水平。我们首先在最近的磁共振成像手(MRI手)数据集上注释肌肉,骨骼和皮肤,然后在数据集中的单个姿势和受试者上注册一个体积模板手。敏捷由20个骨头组成,作为三角形网格,7个肌肉群作为四面体网眼和一个皮肤网。通过迭代形状的注册和参数学习,它进一步产生形状的混合形状,姿势混合形状和关节回归器。我们证明将敏捷性应用于建模,渲染和视觉推理任务。通过强制执行内部骨骼和肌肉以符合解剖学和运动学规则,Nimble可以使3D手动画为前所未有的现实主义。为了建模皮肤的外观,我们进一步构建了一个光度法,以获取高质量的纹理和正常地图,以模型皱纹和棕榈印刷。最后,敏捷还通过合成丰富的数据或直接作为推理网络中的可区分层来使基于学习的手姿势和形状估计受益。
translated by 谷歌翻译