我们提出了CrossHuman,这是一种新颖的方法,该方法从参数人类模型和多帧RGB图像中学习了交叉指导,以实现高质量的3D人类重建。为了恢复几何细节和纹理,即使在无形区域中,我们设计了一个重建管道,结合了基于跟踪的方法和无跟踪方法。给定一个单眼RGB序列,我们在整个序列中跟踪参数人模型,与目标框架相对应的点(体素)被参数体运动扭曲为参考框架。在参数体的几何学先验和RGB序列的空间对齐特征的指导下,稳健隐式表面被融合。此外,将多帧变压器(MFT)和一个自我监管的经过修补模块集成到框架中,以放宽参数主体的要求并帮助处理非常松散的布。与以前的作品相比,我们的十字人类可以在可见的和无形区域启用高保真的几何细节和纹理,并提高人类重建的准确性,即使在估计的不准确的参数人类模型下也是如此。实验表明我们的方法达到了最新的(SOTA)性能。
translated by 谷歌翻译
为了解决由单眼人类体积捕获中部分观察结果引起的不足问题,我们提出了Avatarcap,这是一个新颖的框架,该框架将可动画的化身引入了可见和不可见区域中高保真重建的捕获管道中。我们的方法首先为该主题创建一个可动画化的化身,从少量(〜20)的3D扫描作为先验。然后给出了该主题的单眼RGB视频,我们的方法集成了图像观察和头像先验的信息,因此无论可见性如何,都会重新构建具有动态细节的高保真3D纹理模型。为了学习有效的头像,仅从少数样品中捕获体积捕获,我们提出了GeoteXavatar,该地理Xavatar利用几何和纹理监督以分解的隐式方式限制了姿势依赖性动力学。进一步提出了一种涉及规范正常融合和重建网络的头像条件的体积捕获方法,以在观察到的区域和无形区域中整合图像观测和化身动力学,以整合图像观测和头像动力学。总体而言,我们的方法可以通过详细的和姿势依赖性动力学实现单眼人体体积捕获,并且实验表明我们的方法优于最新的最新状态。代码可在https://github.com/lizhe00/avatarcap上找到。
translated by 谷歌翻译
捕获穿着人的动态变形3D形状对于许多应用,包括VR / AR,自主驾驶和人机交互必不可少。现有方法要么需要高度专业化的捕获设置,如昂贵的多视图成像系统,或者它们缺乏对挑战身体姿势的鲁棒性。在这项工作中,我们提出了一种能够从具有具有挑战性身体姿势的单眼视频捕获动态3D人形状的方法,而没有任何额外的输入。我们首先基于学习的回归模型构建了对象的3D模板人体模型。然后,我们基于2D图像观察跟踪该模板模型在具有挑战性的身体剖视下的变形。我们的方法在野外的人类视频数据集3DPW上占据了最先进的方法。此外,我们展示了IPS数据集视频中鲁棒性和普遍性的效果。
translated by 谷歌翻译
4D隐式表示中的最新进展集中在全球控制形状和运动的情况下,低维潜在向量,这很容易缺少表面细节和累积跟踪误差。尽管许多深层的本地表示显示了3D形状建模的有希望的结果,但它们的4D对应物尚不存在。在本文中,我们通过提出一个新颖的局部4D隐性代表来填补这一空白,以动态穿衣人,名为Lord,具有4D人类建模和局部代表的优点,并实现具有详细的表面变形的高保真重建,例如衣服皱纹。特别是,我们的主要见解是鼓励网络学习本地零件级表示的潜在代码,能够解释本地几何形状和时间变形。为了在测试时间进行推断,我们首先估计内部骨架运动在每个时间步中跟踪本地零件,然后根据不同类型的观察到的数据通过自动编码来优化每个部分的潜在代码。广泛的实验表明,该提出的方法具有强大的代表4D人类的能力,并且在实际应用上胜过最先进的方法,包括从稀疏点,非刚性深度融合(质量和定量)进行的4D重建。
translated by 谷歌翻译
目前用于学习现实和可动画3D穿衣服的方法需要带有仔细控制的用户的构成3D扫描或2D图像。相比之下,我们的目标是从不受约束的姿势中只有2D人的人们学习化身。给定一组图像,我们的方法估计来自每个图像的详细3D表面,然后将它们组合成一个可动画的化身。隐式功能非常适合第一个任务,因为他们可以捕获像头发或衣服等细节。然而,目前的方法对各种人类的姿势并不稳健,并且通常会产生破碎或肢体的3D表面,缺少细节或非人形状。问题是这些方法使用对全局姿势敏感的全局特征编码器。为了解决这个问题,我们提出图标(“从正规中获得的隐式衣物人类”),它使用本地特征。图标有两个主要模块,两者都利用SMPL(-X)正文模型。首先,图标Infers详细的衣服 - 人类法线(前/后)在SMPL(-X)法线上。其次,可视性感知隐式表面回归系统产生人占用场的ISO表面。重要的是,在推断时间下,反馈回路在使用推断的布料正线改进SMPL(-X)网格之间交替,然后改装正常。给定多种姿势的多个重建帧,我们使用扫描来从中生成可动画的化身。对Agora和Cape数据集的评估显示,即使具有大量有限的培训数据,图标越优于重建中的最新状态。另外,它对分布外样品进行更强大,例如,野外的姿势/图像和帧外裁剪。图标从野外图像中迈向强大的3D穿上人体重建。这使得能够使用个性化和天然姿势依赖布变形来直接从视频创建化身。
translated by 谷歌翻译
Single-image 3D human reconstruction aims to reconstruct the 3D textured surface of the human body given a single image. While implicit function-based methods recently achieved reasonable reconstruction performance, they still bear limitations showing degraded quality in both surface geometry and texture from an unobserved view. In response, to generate a realistic textured surface, we propose ReFu, a coarse-to-fine approach that refines the projected backside view image and fuses the refined image to predict the final human body. To suppress the diffused occupancy that causes noise in projection images and reconstructed meshes, we propose to train occupancy probability by simultaneously utilizing 2D and 3D supervisions with occupancy-based volume rendering. We also introduce a refinement architecture that generates detail-preserving backside-view images with front-to-back warping. Extensive experiments demonstrate that our method achieves state-of-the-art performance in 3D human reconstruction from a single image, showing enhanced geometry and texture quality from an unobserved view.
translated by 谷歌翻译
人类性能捕获是一种非常重要的计算机视觉问题,在电影制作和虚拟/增强现实中具有许多应用。许多以前的性能捕获方法需要昂贵的多视图设置,或者没有恢复具有帧到帧对应关系的密集时空相干几何。我们提出了一种新颖的深度致密人体性能捕获的深层学习方法。我们的方法是基于多视图监督的弱监督方式培训,完全删除了使用3D地面真理注释的培训数据的需求。网络架构基于两个单独的网络,将任务解散为姿势估计和非刚性表面变形步骤。广泛的定性和定量评估表明,我们的方法在质量和稳健性方面优于现有技术。这项工作是DeepCAP的扩展版本,在那里我们提供更详细的解释,比较和结果以及应用程序。
translated by 谷歌翻译
3D单眼图像的人体重建是在多个域中具有更广泛应用的计算机视觉中有趣和不良的问题。在本文中,我们提出了一种新颖的端到端培训网络,可从单眼图像中准确地恢复3D人的详细几何和外观。在衣服模型的非参数去皮深度图表示之前,我们提出了稀疏和有效的参数体融合。参数正文以两种方式进行了限制我们的模型:首先,网络保留不受衣服封闭的几何一致身体部位,而第二件,它提供了改善剥离深度图的预测的身体形状上下文。这使得能够在给定输入图像的情况下,在2D地图上的L1损耗仅恢复细粒度的3D几何细节。我们在公开可用的布料3D和Thuman数据集中评估夏普,并向最先进的方法报告卓越的性能。
translated by 谷歌翻译
我们提出了一个新颖的范式,该范式是通过单眼视频输入来构建可动画的3D人类代表,以便可以以任何看不见的姿势和观点呈现。我们的方法基于由基于网格的参数3D人类模型操纵的动态神经辐射场(NERF),该模型用作几何代理。以前的方法通常依靠多视频视频或准确的3D几何信息作为其他输入;此外,大多数方法在概括地看不见的姿势时会降解质量。我们确定概括的关键是查询动态NERF的良好输入嵌入:良好的输入嵌入应定义完整量化空间中的注入映射,并在姿势变化下表面网格变形引导。基于此观察结果,我们建议将输入查询嵌入其与局部表面区域的关系,并在网格顶点上跨越一组地球的最近邻居跨越。通过包括位置和相对距离信息,我们的嵌入式定义了距离保存的变形映射,并可以很好地概括为看不见的姿势。为了减少对其他输入的依赖性,我们首先使用现成的工具初始化人均3D网格,然后提出一条管道以共同优化NERF并完善初始网格。广泛的实验表明,我们的方法可以在看不见的姿势和观点下合成合理的人类渲染结果。
translated by 谷歌翻译
虽然3D人类重建方法使用像素对齐的隐式功能(PIFU)开发快速,但我们观察到重建细节的质量仍然不令人满意。扁平的面部表面经常发生在基于PIFU的重建结果中。为此,我们提出了一个双重PIFU表示,以提高重建的面部细节的质量。具体地,我们利用两只MLP分别代表面部和人体的PIFU。专用于三维面重建的MLP可以提高网络容量,并降低面部细节重建的难度,如前一级PIFU表示。要解决拓扑错误,我们利用3个RGBD传感器捕获多视图RGBD数据作为网络的输入,稀疏,轻量级捕获设置。由于深度噪声严重影响重建结果,我们设计深度细化模块,以减少输入RGB图像的引导下的原始深度的噪声。我们还提出了一种自适应融合方案来熔化身体的预测占用场和面部的预测占用场,以消除其边界处的不连续性伪影。实验证明了我们在重建生动的面部细节和变形体形状方面的效果,并验证了其优于最先进的方法。
translated by 谷歌翻译
表示为深度学习近似的隐式功能对于重建3D表面是强大的。然而,它们只能产生不可控制的静态表面,这提供了通过编辑其姿势或形状参数来修改所得模型的有限能力。尽管如此,这些功能对于构建计算机图形和计算机视觉的灵活模型至关重要。在这项工作中,我们呈现了结合丰富的隐式功能和参数表示的方法,以重建即使在衣服的存在下也能够控制和准确的人的3D模型。给定稀疏的3D点云在衣服的人的表面上采样,我们使用隐式零件网络(IP-Net)共同预测穿衣服的人,内部主体表面的外3D表面,以及对参数的语义对应身体模型。我们随后使用对应关系将主体模型适合于我们的内表面,然后在外表面上非刚性地变形(在参数体+位移模型下),以捕获服装,面部和头发细节。在全身数据和手中的定量和定性实验中,我们表明所提出的方法概括,甚至给出了从单视图深度图像收集的不完整点云。我们的模型和代码可以从http://virtualhumans.mpi-inf.mpg.de/ipnet下载。
translated by 谷歌翻译
We introduce Structured 3D Features, a model based on a novel implicit 3D representation that pools pixel-aligned image features onto dense 3D points sampled from a parametric, statistical human mesh surface. The 3D points have associated semantics and can move freely in 3D space. This allows for optimal coverage of the person of interest, beyond just the body shape, which in turn, additionally helps modeling accessories, hair, and loose clothing. Owing to this, we present a complete 3D transformer-based attention framework which, given a single image of a person in an unconstrained pose, generates an animatable 3D reconstruction with albedo and illumination decomposition, as a result of a single end-to-end model, trained semi-supervised, and with no additional postprocessing. We show that our S3F model surpasses the previous state-of-the-art on various tasks, including monocular 3D reconstruction, as well as albedo and shading estimation. Moreover, we show that the proposed methodology allows novel view synthesis, relighting, and re-posing the reconstruction, and can naturally be extended to handle multiple input images (e.g. different views of a person, or the same view, in different poses, in video). Finally, we demonstrate the editing capabilities of our model for 3D virtual try-on applications.
translated by 谷歌翻译
我们介绍了Doublefield,这是一个新颖的框架,结合了高保真人体重建和渲染的表面场和辐射场的优点。在DoubleField中,表面字段和辐射字段通过共享特征嵌入和表面引导采样策略相关联。此外,将视图到视图变压器被引入熔丝多视图特征,并直接从高分辨率输入学习视图依赖性功能。通过DoubleField和视图到视图变压器的建模功能,我们的方法显着提高了几何形状和外观的重建质量,同时支持直接推理,现场特定的高分辨率FineTuning和快速渲染。 Doublefield的功效通过多个数据集的定量评估和真实世界稀疏多视图系统的定性结果验证,显示了其高质量人体模型重建和光学真实自由观点人类渲染的优异能力。数据和源代码将公开用于研究目的。请参阅我们的项目页面:http://www.liuyebin.com/dbfield/dbfield.html。
translated by 谷歌翻译
最近,基于神经辐射场(NERF)的进步,在3D人类渲染方面取得了迅速的进展,包括新的视图合成和姿势动画。但是,大多数现有方法集中在特定于人的培训上,他们的培训通常需要多视频视频。本文涉及一项新的挑战性任务 - 为在培训中看不见的人提供新颖的观点和新颖的姿势,仅使用多视图图像作为输入。对于此任务,我们提出了一种简单而有效的方法,以训练具有多视图像作为条件输入的可推广的NERF。关键成分是结合规范NERF和体积变形方案的专用表示。使用规范空间使我们的方法能够学习人类的共享特性,并轻松地推广到不同的人。音量变形用于将规范空间与输入和目标图像以及查询图像特征连接起来,以进行辐射和密度预测。我们利用拟合在输入图像上的参数3D人类模型来得出变形,与我们的规范NERF结合使用,它在实践中效果很好。具有新的观点合成和构成动画任务的真实和合成数据的实验共同证明了我们方法的功效。
translated by 谷歌翻译
In this paper, we propose ARCH (Animatable Reconstruction of Clothed Humans), a novel end-to-end framework for accurate reconstruction of animation-ready 3D clothed humans from a monocular image. Existing approaches to digitize 3D humans struggle to handle pose variations and recover details. Also, they do not produce models that are animation ready. In contrast, ARCH is a learned pose-aware model that produces detailed 3D rigged full-body human avatars from a single unconstrained RGB image. A Semantic Space and a Semantic Deformation Field are created using a parametric 3D body estimator. They allow the transformation of 2D/3D clothed humans into a canonical space, reducing ambiguities in geometry caused by pose variations and occlusions in training data. Detailed surface geometry and appearance are learned using an implicit function representation with spatial local features. Furthermore, we propose additional per-pixel supervision on the 3D reconstruction using opacity-aware differentiable rendering. Our experiments indicate that ARCH increases the fidelity of the reconstructed humans. We obtain more than 50% lower reconstruction errors for standard metrics compared to state-of-the-art methods on public datasets. We also show numerous qualitative examples of animated, high-quality reconstructed avatars unseen in the literature so far.
translated by 谷歌翻译
最近,数据驱动的单视图重建方法在建模3D穿着人类中表现出很大的进展。然而,这种方法严重影响了单视图输入所固有的深度模糊和闭塞。在本文中,我们通过考虑一小部分输入视图并调查从这些视图中适当利用信息的最佳策略来解决这个问题。我们提出了一种数据驱动的端到端方法,其从稀疏相机视图重建穿着人的人类的隐式3D表示。具体而言,我们介绍了三个关键组件:首先是使用透视相机模型的空间一致的重建,允许使用人员在输入视图中的任意放置;第二个基于关注的融合层,用于从多个观点来看聚合视觉信息;第三种机制在多视图上下文下编码本地3D模式。在实验中,我们展示了所提出的方法优于定量和定性地在标准数据上表达现有技术。为了展示空间一致的重建,我们将我们的方法应用于动态场景。此外,我们在使用多摄像头平台获取的真实数据上应用我们的方法,并证明我们的方法可以获得与多视图立体声相当的结果,从而迅速更少的视图。
translated by 谷歌翻译
我们提出了神经可变形场(NDF),这是一种从多视频视频中进行动态人类数字化的新表示形式。最近的作品提出,代表具有共同的规范神经辐射场的动态人体,该范围与变形场估计相结合了观察空间。但是,学到的规范表示是静态的,变形场的当前设计无法表示大型运动或详细的几何变化。在本文中,我们建议学习一个围绕合适的参数体模型包裹的神经可变形场,以代表动态人体。NDF通过基础参考表面在空间上对齐。然后,学会了神经网络将其映射到NDF的动力学。提出的NDF表示可以通过新颖的观点和新颖的姿势合成数字化的表演者,并具有详细且合理的动态外观。实验表明,我们的方法明显优于最近的人类合成方法。
translated by 谷歌翻译
精确地重建由单个图像的各种姿势和服装引起的精确复杂的人类几何形状非常具有挑战性。最近,基于像素对齐的隐式函数(PIFU)的作品已迈出了一步,并在基于图像的3D人数数字化上实现了最先进的保真度。但是,PIFU的培训在很大程度上取决于昂贵且有限的3D地面真相数据(即合成数据),从而阻碍了其对更多样化的现实世界图像的概括。在这项工作中,我们提出了一个名为selfpifu的端到端自我监督的网络,以利用丰富和多样化的野外图像,在对无约束的内部图像进行测试时,在很大程度上改善了重建。 SelfPifu的核心是深度引导的体积/表面感知的签名距离领域(SDF)学习,它可以自欺欺人地学习PIFU,而无需访问GT网格。整个框架由普通估计器,深度估计器和基于SDF的PIFU组成,并在训练过程中更好地利用了额外的深度GT。广泛的实验证明了我们自我监督框架的有效性以及使用深度作为输入的优越性。在合成数据上,与PIFUHD相比,我们的交叉点(IOU)达到93.5%,高18%。对于野外图像,我们对重建结果进行用户研究,与其他最先进的方法相比,我们的结果的选择率超过68%。
translated by 谷歌翻译
The combination of artist-curated scans, and deep implicit functions (IF), is enabling the creation of detailed, clothed, 3D humans from images. However, existing methods are far from perfect. IF-based methods recover free-form geometry but produce disembodied limbs or degenerate shapes for unseen poses or clothes. To increase robustness for these cases, existing work uses an explicit parametric body model to constrain surface reconstruction, but this limits the recovery of free-form surfaces such as loose clothing that deviates from the body. What we want is a method that combines the best properties of implicit and explicit methods. To this end, we make two key observations: (1) current networks are better at inferring detailed 2D maps than full-3D surfaces, and (2) a parametric model can be seen as a "canvas" for stitching together detailed surface patches. ECON infers high-fidelity 3D humans even in loose clothes and challenging poses, while having realistic faces and fingers. This goes beyond previous methods. Quantitative, evaluation of the CAPE and Renderpeople datasets shows that ECON is more accurate than the state of the art. Perceptual studies also show that ECON's perceived realism is better by a large margin. Code and models are available for research purposes at https://xiuyuliang.cn/econ
translated by 谷歌翻译
我们提出了一种基于优化的新型范式,用于在图像和扫描上拟合3D人类模型。与直接回归输入图像中低维统计体模型(例如SMPL)的参数的现有方法相反,我们训练了每个vertex神经场网络的集合。该网络以分布式的方式预测基于当前顶点投影处提取的神经特征的顶点下降方向。在推断时,我们在梯度降低的优化管道中采用该网络,称为LVD,直到其收敛性为止,即使将所有顶点初始化为单个点,通常也会以一秒钟的分数出现。一项详尽的评估表明,我们的方法能够捕获具有截然不同的身体形状的穿着的人体,与最先进的人相比取得了重大改进。 LVD也适用于人类和手的3D模型配合,为此,我们以更简单,更快的方法对SOTA显示出显着改善。
translated by 谷歌翻译