捕获穿着人的动态变形3D形状对于许多应用,包括VR / AR,自主驾驶和人机交互必不可少。现有方法要么需要高度专业化的捕获设置,如昂贵的多视图成像系统,或者它们缺乏对挑战身体姿势的鲁棒性。在这项工作中,我们提出了一种能够从具有具有挑战性身体姿势的单眼视频捕获动态3D人形状的方法,而没有任何额外的输入。我们首先基于学习的回归模型构建了对象的3D模板人体模型。然后,我们基于2D图像观察跟踪该模板模型在具有挑战性的身体剖视下的变形。我们的方法在野外的人类视频数据集3DPW上占据了最先进的方法。此外,我们展示了IPS数据集视频中鲁棒性和普遍性的效果。
translated by 谷歌翻译
人类性能捕获是一种非常重要的计算机视觉问题,在电影制作和虚拟/增强现实中具有许多应用。许多以前的性能捕获方法需要昂贵的多视图设置,或者没有恢复具有帧到帧对应关系的密集时空相干几何。我们提出了一种新颖的深度致密人体性能捕获的深层学习方法。我们的方法是基于多视图监督的弱监督方式培训,完全删除了使用3D地面真理注释的培训数据的需求。网络架构基于两个单独的网络,将任务解散为姿势估计和非刚性表面变形步骤。广泛的定性和定量评估表明,我们的方法在质量和稳健性方面优于现有技术。这项工作是DeepCAP的扩展版本,在那里我们提供更详细的解释,比较和结果以及应用程序。
translated by 谷歌翻译
我们提出了CrossHuman,这是一种新颖的方法,该方法从参数人类模型和多帧RGB图像中学习了交叉指导,以实现高质量的3D人类重建。为了恢复几何细节和纹理,即使在无形区域中,我们设计了一个重建管道,结合了基于跟踪的方法和无跟踪方法。给定一个单眼RGB序列,我们在整个序列中跟踪参数人模型,与目标框架相对应的点(体素)被参数体运动扭曲为参考框架。在参数体的几何学先验和RGB序列的空间对齐特征的指导下,稳健隐式表面被融合。此外,将多帧变压器(MFT)和一个自我监管的经过修补模块集成到框架中,以放宽参数主体的要求并帮助处理非常松散的布。与以前的作品相比,我们的十字人类可以在可见的和无形区域启用高保真的几何细节和纹理,并提高人类重建的准确性,即使在估计的不准确的参数人类模型下也是如此。实验表明我们的方法达到了最新的(SOTA)性能。
translated by 谷歌翻译
为了解决由单眼人类体积捕获中部分观察结果引起的不足问题,我们提出了Avatarcap,这是一个新颖的框架,该框架将可动画的化身引入了可见和不可见区域中高保真重建的捕获管道中。我们的方法首先为该主题创建一个可动画化的化身,从少量(〜20)的3D扫描作为先验。然后给出了该主题的单眼RGB视频,我们的方法集成了图像观察和头像先验的信息,因此无论可见性如何,都会重新构建具有动态细节的高保真3D纹理模型。为了学习有效的头像,仅从少数样品中捕获体积捕获,我们提出了GeoteXavatar,该地理Xavatar利用几何和纹理监督以分解的隐式方式限制了姿势依赖性动力学。进一步提出了一种涉及规范正常融合和重建网络的头像条件的体积捕获方法,以在观察到的区域和无形区域中整合图像观测和化身动力学,以整合图像观测和头像动力学。总体而言,我们的方法可以通过详细的和姿势依赖性动力学实现单眼人体体积捕获,并且实验表明我们的方法优于最新的最新状态。代码可在https://github.com/lizhe00/avatarcap上找到。
translated by 谷歌翻译
4D隐式表示中的最新进展集中在全球控制形状和运动的情况下,低维潜在向量,这很容易缺少表面细节和累积跟踪误差。尽管许多深层的本地表示显示了3D形状建模的有希望的结果,但它们的4D对应物尚不存在。在本文中,我们通过提出一个新颖的局部4D隐性代表来填补这一空白,以动态穿衣人,名为Lord,具有4D人类建模和局部代表的优点,并实现具有详细的表面变形的高保真重建,例如衣服皱纹。特别是,我们的主要见解是鼓励网络学习本地零件级表示的潜在代码,能够解释本地几何形状和时间变形。为了在测试时间进行推断,我们首先估计内部骨架运动在每个时间步中跟踪本地零件,然后根据不同类型的观察到的数据通过自动编码来优化每个部分的潜在代码。广泛的实验表明,该提出的方法具有强大的代表4D人类的能力,并且在实际应用上胜过最先进的方法,包括从稀疏点,非刚性深度融合(质量和定量)进行的4D重建。
translated by 谷歌翻译
从单眼RGB图像中捕获的3D人类运动捕获符合受试者与复杂且可能可变形的环境的相互作用的相互作用是一个非常具有挑战性,不足和探索不足的问题。现有方法仅薄弱地解决它,并且当人类与场景表面互动时,通常不会建模可能发生的表面变形。相比之下,本文提出了mocapdeform,即单眼3D人体运动捕获的新框架,该框架是第一个明确模拟3D场景的非刚性变形,以改善3D人体姿势估计和可变形环境的重建。 Mocapdeform接受单眼RGB视频,并在相机空间中对齐一个3D场景。它首先使用基于新的射线广播的策略将输入单眼视频中的主题以及密集的触点标签进行定位。接下来,我们的人类环境相互作用约束被利用以共同优化全局3D人类姿势和非刚性表面变形。 Mocapdeform比在几个数据集上的竞争方法获得了更高的精度,包括我们新记录的具有变形背景场景的方法。
translated by 谷歌翻译
目前用于学习现实和可动画3D穿衣服的方法需要带有仔细控制的用户的构成3D扫描或2D图像。相比之下,我们的目标是从不受约束的姿势中只有2D人的人们学习化身。给定一组图像,我们的方法估计来自每个图像的详细3D表面,然后将它们组合成一个可动画的化身。隐式功能非常适合第一个任务,因为他们可以捕获像头发或衣服等细节。然而,目前的方法对各种人类的姿势并不稳健,并且通常会产生破碎或肢体的3D表面,缺少细节或非人形状。问题是这些方法使用对全局姿势敏感的全局特征编码器。为了解决这个问题,我们提出图标(“从正规中获得的隐式衣物人类”),它使用本地特征。图标有两个主要模块,两者都利用SMPL(-X)正文模型。首先,图标Infers详细的衣服 - 人类法线(前/后)在SMPL(-X)法线上。其次,可视性感知隐式表面回归系统产生人占用场的ISO表面。重要的是,在推断时间下,反馈回路在使用推断的布料正线改进SMPL(-X)网格之间交替,然后改装正常。给定多种姿势的多个重建帧,我们使用扫描来从中生成可动画的化身。对Agora和Cape数据集的评估显示,即使具有大量有限的培训数据,图标越优于重建中的最新状态。另外,它对分布外样品进行更强大,例如,野外的姿势/图像和帧外裁剪。图标从野外图像中迈向强大的3D穿上人体重建。这使得能够使用个性化和天然姿势依赖布变形来直接从视频创建化身。
translated by 谷歌翻译
Humans constantly interact with objects in daily life tasks. Capturing such processes and subsequently conducting visual inferences from a fixed viewpoint suffers from occlusions, shape and texture ambiguities, motions, etc. To mitigate the problem, it is essential to build a training dataset that captures free-viewpoint interactions. We construct a dense multi-view dome to acquire a complex human object interaction dataset, named HODome, that consists of $\sim$75M frames on 10 subjects interacting with 23 objects. To process the HODome dataset, we develop NeuralDome, a layer-wise neural processing pipeline tailored for multi-view video inputs to conduct accurate tracking, geometry reconstruction and free-view rendering, for both human subjects and objects. Extensive experiments on the HODome dataset demonstrate the effectiveness of NeuralDome on a variety of inference, modeling, and rendering tasks. Both the dataset and the NeuralDome tools will be disseminated to the community for further development.
translated by 谷歌翻译
大多数先前的作品在从图像中感知3D人类的作品是孤立的,而没有周围的环境。但是,人类一直在与周围的物体互动,因此呼吁不仅可以推理人类,而且可以推理对象及其相互作用的模型。由于人类与物体之间的严重阻塞,不同的相互作用类型和深度歧义,问题极具挑战性。在本文中,我们介绍了一种新颖的方法,该方法学会了从单个RGB图像中共同重建人和物体。乔尔从最近的隐性表面学习和基于经典模型的拟合方面的进步中汲取灵感。我们计算人类和对象的神经重建,该神经用两个无符号距离字段隐式表示,一个对应物的对应字段和一个对象姿势场。这使我们能够在相互作用的推理的同时,可牢固地拟合参数的身体模型和3D对象模板。此外,先前的像素对齐的隐式学习方法使用合成数据并做出实际数据中未满足的假设。我们提出了一个优雅的深度缩放,可以在真实数据上进行更有效的形状学习。实验表明,我们的联合重建通过提出的策略学到了明显优于SOTA。我们的代码和型号可在https://virtualhumans.mpi-inf.mpg.de/chore上找到
translated by 谷歌翻译
人类将他们的手和身体一起移动,沟通和解决任务。捕获和复制此类协调活动对于虚拟字符至关重要,以实际行为行为。令人惊讶的是,大多数方法分别对待身体和手的3D建模和跟踪。在这里,我们制定了一种手和身体的型号,并将其与全身4D序列合理。当扫描或捕获3D中的全身时,手很小,通常是部分闭塞,使其形状和难以恢复。为了应对低分辨率,闭塞和噪音,我们开发了一种名为Mano(具有铰接和非刚性变形的手模型)的新型号。曼诺从大约1000个高分辨率的3D扫描中学到了31个受试者的手中的大约一定的手。该模型是逼真的,低维,捕获非刚性形状的姿势变化,与标准图形封装兼容,可以适合任何人类的手。 Mano提供从手姿势的紧凑型映射,以构成混合形状校正和姿势协同效应的线性歧管。我们将Mano附加到标准参数化3D体形状模型(SMPL),导致完全铰接的身体和手部模型(SMPL + H)。我们通过用4D扫描仪捕获的综合体,自然,自然,自然的受试者的活动来说明SMPL + H.该配件完全自动,并导致全身型号,自然地移动详细的手动运动和在全身性能捕获之前未见的现实主义。模型和数据在我们的网站上自由用于研究目的(http://mano.is.tue.mpg.de)。
translated by 谷歌翻译
虚拟网格是在线通信的未来。服装是一个人身份和自我表达的重要组成部分。然而,目前,在培训逼真的布置动画的远程介绍模型的必需分子和准确性中,目前无法使用注册衣服的地面真相数据。在这里,我们提出了一条端到端的管道,用于建造可驱动的服装代表。我们方法的核心是一种多视图图案的布跟踪算法,能够以高精度捕获变形。我们进一步依靠跟踪方法生产的高质量数据来构建服装头像:一件衣服的表达和完全驱动的几何模型。可以使用一组稀疏的视图来对所得模型进行动画,并产生高度逼真的重建,这些重建忠于驾驶信号。我们证明了管道对现实的虚拟电视应用程序的功效,在该应用程序中,从两种视图中重建了衣服,并且用户可以根据自己的意愿进行选择和交换服装设计。此外,当仅通过身体姿势驱动时,我们表现出一个具有挑战性的场景,我们可驾驶的服装Avatar能够生产出比最先进的面包质量明显更高的逼真的布几何形状。
translated by 谷歌翻译
人类不断与日常对象互动以完成任务。为了了解这种相互作用,计算机需要从观察全身与场景的全身相互作用的相机中重建这些相互作用。由于身体和物体之间的阻塞,运动模糊,深度/比例模棱两可以及手和可抓握的物体零件的低图像分辨率,这是具有挑战性的。为了使问题可以解决,社区要么专注于互动的手,忽略身体或互动的身体,无视双手。 Grab数据集解决了灵活的全身互动,但使用基于标记的MOCAP并缺少图像,而行为则捕获了身体对象互动的视频,但缺乏手动细节。我们使用参数全身模型SMPL-X和已知的对象网格来解决一种新的方法,该方法与Intercap的先前工作局限性,该方法是一种新的方法,可重建从多视图RGB-D数据进行交互的整体和对象。为了应对上述挑战,Intercap使用了两个关键观察:(i)可以使用手和物体之间的接触来改善两者的姿势估计。 (ii)Azure Kinect传感器使我们能够建立一个简单的多视图RGB-D捕获系统,该系统在提供合理的相机间同步时最小化遮挡的效果。使用此方法,我们捕获了Intercap数据集,其中包含10个受试者(5名男性和5个女性)与10个各种尺寸和负担的物体相互作用,包括与手或脚接触。 Intercap总共有223个RGB-D视频,产生了67,357个多视图帧,每个帧包含6个RGB-D图像。我们的方法为每个视频框架提供了伪真正的身体网格和对象。我们的Intercap方法和数据集填补了文献中的重要空白,并支持许多研究方向。我们的数据和代码可用于研究目的。
translated by 谷歌翻译
Recovering the skeletal shape of an animal from a monocular video is a longstanding challenge. Prevailing animal reconstruction methods often adopt a control-point driven animation model and optimize bone transforms individually without considering skeletal topology, yielding unsatisfactory shape and articulation. In contrast, humans can easily infer the articulation structure of an unknown animal by associating it with a seen articulated character in their memory. Inspired by this fact, we present CASA, a novel Category-Agnostic Skeletal Animal reconstruction method consisting of two major components: a video-to-shape retrieval process and a neural inverse graphics framework. During inference, CASA first retrieves an articulated shape from a 3D character assets bank so that the input video scores highly with the rendered image, according to a pretrained language-vision model. CASA then integrates the retrieved character into an inverse graphics framework and jointly infers the shape deformation, skeleton structure, and skinning weights through optimization. Experiments validate the efficacy of CASA regarding shape reconstruction and articulation. We further demonstrate that the resulting skeletal-animated characters can be used for re-animation.
translated by 谷歌翻译
我们提出了一种基于优化的新型范式,用于在图像和扫描上拟合3D人类模型。与直接回归输入图像中低维统计体模型(例如SMPL)的参数的现有方法相反,我们训练了每个vertex神经场网络的集合。该网络以分布式的方式预测基于当前顶点投影处提取的神经特征的顶点下降方向。在推断时,我们在梯度降低的优化管道中采用该网络,称为LVD,直到其收敛性为止,即使将所有顶点初始化为单个点,通常也会以一秒钟的分数出现。一项详尽的评估表明,我们的方法能够捕获具有截然不同的身体形状的穿着的人体,与最先进的人相比取得了重大改进。 LVD也适用于人类和手的3D模型配合,为此,我们以更简单,更快的方法对SOTA显示出显着改善。
translated by 谷歌翻译
This paper presents an approach that reconstructs a hand-held object from a monocular video. In contrast to many recent methods that directly predict object geometry by a trained network, the proposed approach does not require any learned prior about the object and is able to recover more accurate and detailed object geometry. The key idea is that the hand motion naturally provides multiple views of the object and the motion can be reliably estimated by a hand pose tracker. Then, the object geometry can be recovered by solving a multi-view reconstruction problem. We devise an implicit neural representation-based method to solve the reconstruction problem and address the issues of imprecise hand pose estimation, relative hand-object motion, and insufficient geometry optimization for small objects. We also provide a newly collected dataset with 3D ground truth to validate the proposed approach.
translated by 谷歌翻译
我们提出了一个新颖的范式,该范式是通过单眼视频输入来构建可动画的3D人类代表,以便可以以任何看不见的姿势和观点呈现。我们的方法基于由基于网格的参数3D人类模型操纵的动态神经辐射场(NERF),该模型用作几何代理。以前的方法通常依靠多视频视频或准确的3D几何信息作为其他输入;此外,大多数方法在概括地看不见的姿势时会降解质量。我们确定概括的关键是查询动态NERF的良好输入嵌入:良好的输入嵌入应定义完整量化空间中的注入映射,并在姿势变化下表面网格变形引导。基于此观察结果,我们建议将输入查询嵌入其与局部表面区域的关系,并在网格顶点上跨越一组地球的最近邻居跨越。通过包括位置和相对距离信息,我们的嵌入式定义了距离保存的变形映射,并可以很好地概括为看不见的姿势。为了减少对其他输入的依赖性,我们首先使用现成的工具初始化人均3D网格,然后提出一条管道以共同优化NERF并完善初始网格。广泛的实验表明,我们的方法可以在看不见的姿势和观点下合成合理的人类渲染结果。
translated by 谷歌翻译
推断人类场景接触(HSC)是了解人类如何与周围环境相互作用的第一步。尽管检测2D人类对象的相互作用(HOI)和重建3D人姿势和形状(HPS)已经取得了重大进展,但单个图像的3D人习惯接触的推理仍然具有挑战性。现有的HSC检测方法仅考虑几种类型的预定义接触,通常将身体和场景降低到少数原语,甚至忽略了图像证据。为了预测单个图像的人类场景接触,我们从数据和算法的角度解决了上述局限性。我们捕获了一个名为“真实场景,互动,联系和人类”的新数据集。 Rich在4K分辨率上包含多视图室外/室内视频序列,使用无标记运动捕获,3D身体扫描和高分辨率3D场景扫描捕获的地面3D人体。 Rich的一个关键特征是它还包含身体上精确的顶点级接触标签。使用Rich,我们训练一个网络,该网络可预测单个RGB图像的密集车身场景接触。我们的主要见解是,接触中的区域总是被阻塞,因此网络需要能够探索整个图像以获取证据。我们使用变压器学习这种非本地关系,并提出新的身体场景接触变压器(BSTRO)。很少有方法探索3D接触;那些只专注于脚的人,将脚接触作为后处理步骤,或从身体姿势中推断出无需看现场的接触。据我们所知,BSTRO是直接从单个图像中直接估计3D身体场景接触的方法。我们证明,BSTRO的表现明显优于先前的艺术。代码和数据集可在https://rich.is.tue.mpg.de上获得。
translated by 谷歌翻译
铰接式3D形状重建的事先工作通常依赖于专用传感器(例如,同步的多摄像机系统)或预先构建的3D可变形模型(例如,Smal或SMPL)。这些方法无法在野外扩展到不同的各种物体。我们呈现Banmo,这是一种需要专用传感器的方法,也不需要预定义的模板形状。 Banmo在可怜的渲染框架中从许多单眼休闲视频中建立高保真,铰接式的3D模型(包括形状和动画皮肤的重量)。虽然许多视频的使用提供了更多的相机视图和对象关节的覆盖范围,但它们在建立不同背景,照明条件等方面建立了重大挑战。我们的主要洞察力是合并三所思想学校; (1)使用铰接骨骼和混合皮肤的经典可变形形状模型,(2)可容纳基于梯度的优化,(3)在像素之间产生对应关系的规范嵌入物模型。我们介绍了神经混合皮肤模型,可允许可微分和可逆的铰接变形。与规范嵌入式结合时,这些模型允许我们在跨越可通过循环一致性自我监督的视频中建立密集的对应。在真实和合成的数据集上,Banmo显示比人类和动物的先前工作更高保真3D重建,具有从新颖的观点和姿势的现实图像。项目网页:Banmo-www.github.io。
translated by 谷歌翻译
新兴的元应用需要人类手的可靠,准确和逼真的复制品,以便在物理世界中进行复杂的操作。虽然真实的人手代表了骨骼,肌肉,肌腱和皮肤之间最复杂的协调之一,但最先进的技术一致专注于仅建模手的骨架。在本文中,我们提出了Nimble,这是一种新型的参数手模型,其中包括缺少的密钥组件,将3D手模型带入了新的现实主义水平。我们首先在最近的磁共振成像手(MRI手)数据集上注释肌肉,骨骼和皮肤,然后在数据集中的单个姿势和受试者上注册一个体积模板手。敏捷由20个骨头组成,作为三角形网格,7个肌肉群作为四面体网眼和一个皮肤网。通过迭代形状的注册和参数学习,它进一步产生形状的混合形状,姿势混合形状和关节回归器。我们证明将敏捷性应用于建模,渲染和视觉推理任务。通过强制执行内部骨骼和肌肉以符合解剖学和运动学规则,Nimble可以使3D手动画为前所未有的现实主义。为了建模皮肤的外观,我们进一步构建了一个光度法,以获取高质量的纹理和正常地图,以模型皱纹和棕榈印刷。最后,敏捷还通过合成丰富的数据或直接作为推理网络中的可区分层来使基于学习的手姿势和形状估计受益。
translated by 谷歌翻译
Figure 1: Frankenstein (silver) and Adam (gold). This paper presents a 3D human model capable of concurrently tracking the large-scale posture of the body along with the smaller details of a persons facial expressions and hand gestures.
translated by 谷歌翻译