我们为姿势传输任务提供了一种定制的3D网格变压器模型。随着3D姿势转移基本上是依赖于给定网格的变形过程,这项工作的直觉是在具有强大的自我关注机制之间感知给定网格之间的几何不一致。具体而言,我们提出了一种新的几何对比变压器,其具有高效的3D结构感知能力,对给定网格的全局几何不一致。此外,在本地,进一步提出了一种简单但高效的中央测地对比损失,以改善区域几何不一致学习。最后,我们将潜在的等距正则化模块与新的半合成数据集一起呈现,用于跨DataSet 3D姿势传输任务对未知空间。大规模的实验结果证明了我们对SMPL-NPT,浮点和新建议的数据集SMG-3D数据集的最新定量表演的效果,以及在MG布和SMAL数据集中有前途的定性结果。结果证明,我们的方法可以实现鲁棒3D姿势传输,并且广泛地挑战来自跨数据集任务的未知空间的网格。代码和数据集可用。代码可用:https://github.com/mikecheninoulu/cgt。
translated by 谷歌翻译
The goal of 3D pose transfer is to transfer the pose from the source mesh to the target mesh while preserving the identity information (e.g., face, body shape) of the target mesh. Deep learning-based methods improved the efficiency and performance of 3D pose transfer. However, most of them are trained under the supervision of the ground truth, whose availability is limited in real-world scenarios. In this work, we present X-DualNet, a simple yet effective approach that enables unsupervised 3D pose transfer. In X-DualNet, we introduce a generator $G$ which contains correspondence learning and pose transfer modules to achieve 3D pose transfer. We learn the shape correspondence by solving an optimal transport problem without any key point annotations and generate high-quality meshes with our elastic instance normalization (ElaIN) in the pose transfer module. With $G$ as the basic component, we propose a cross consistency learning scheme and a dual reconstruction objective to learn the pose transfer without supervision. Besides that, we also adopt an as-rigid-as-possible deformer in the training process to fine-tune the body shape of the generated results. Extensive experiments on human and animal data demonstrate that our framework can successfully achieve comparable performance as the state-of-the-art supervised approaches.
translated by 谷歌翻译
3D姿势传输是最具挑战性的3D生成任务之一。它旨在将源网的姿势传递到目标网格,并保持目标网格的身份(例如,体形)。某些以前的作品需要关键点注释来构建源网格和目标网格之间的可靠对应,而其他方法不考虑源和目标之间的任何形状对应,这导致了有限的发电质量。在这项工作中,我们提出了一种通信细化网络,以帮助为人类和动物网格进行3D姿势转移。首先通过解决最佳运输问题来建立源网和目标网格之间的对应关系。然后,我们根据密集的对应探讨源网格并获得粗糙的翘曲网格。通过我们提出的弹性实例标准化,翘曲的网格将更好地精制,这是一个条件归一化层,可以帮助产生高质量网格。广泛的实验结果表明,所提出的架构可以有效地将源从源转移到目标网格,并提供比最先进的方法满意的视觉性能更好的结果。
translated by 谷歌翻译
我们认为人类变形转移问题,目标是在不同角色之间的零件姿势。解决此问题的传统方法需要清晰的姿势定义,并使用此定义在字符之间传输姿势。在这项工作中,我们采取了不同的方法,将角色的身份转换为新的身份,而无需修改角色的姿势。这提供了不必在3D人类姿势之间定义等效性的优点,这在姿势往往会根据执行它们的角色的身份而变化并不简单,并且由于它们的含义是高度上下文的。为了实现变形转移,我们提出了一种神经编码器 - 解码器架构,其中仅编码身份信息以及解码器在姿势上调节的位置。我们使用姿势独立表示,例如等距 - 不变形状特征,以表示身份特征。我们的模型使用这些功能来监督从变形姿势的偏移预测到转移结果。我们通过实验展示了我们的方法优于最先进的方法,定量和定性,并且更好地推广在训练期间没有看到。我们还介绍了一个微调步骤,可以为极端身份获得竞争力的结果,并允许转移简单的衣服。
translated by 谷歌翻译
在本文中,我们展示了Facetunegan,一种新的3D面部模型表示分解和编码面部身份和面部表情。我们提出了对图像到图像翻译网络的第一次适应,该图像已经成功地用于2D域,到3D面几何。利用最近释放的大面扫描数据库,神经网络已经过培训,以便与面部更好的了解,使面部表情转移和中和富有效应面的变异因素。具体而言,我们设计了一种适应基础架构的对抗架构,并使用Spiralnet ++进行卷积和采样操作。使用两个公共数据集(FACESCAPE和COMA),Facetunegan具有比最先进的技术更好的身份分解和面部中和。它还通过预测较近地面真实数据的闪烁形状并且由于源极和目标之间的面部形态过于不同的面部形态而越来越多的不期望的伪像来优异。
translated by 谷歌翻译
Recent approaches to drape garments quickly over arbitrary human bodies leverage self-supervision to eliminate the need for large training sets. However, they are designed to train one network per clothing item, which severely limits their generalization abilities. In our work, we rely on self-supervision to train a single network to drape multiple garments. This is achieved by predicting a 3D deformation field conditioned on the latent codes of a generative network, which models garments as unsigned distance fields. Our pipeline can generate and drape previously unseen garments of any topology, whose shape can be edited by manipulating their latent codes. Being fully differentiable, our formulation makes it possible to recover accurate 3D models of garments from partial observations -- images or 3D scans -- via gradient descent. Our code will be made publicly available.
translated by 谷歌翻译
为了使3D人的头像广泛可用,我们必须能够在任意姿势中产生各种具有不同身份和形状的多种3D虚拟人。由于衣服的身体形状,复杂的关节和由此产生的丰富,随机几何细节,这项任务是挑战的挑战。因此,目前代表3D人的方法不提供服装中的人的全部生成模型。在本文中,我们提出了一种新的方法,这些方法可以学习在具有相应的剥皮重量的各种衣服中产生详细的3D形状。具体而言,我们设计了一个多主题前进的剥皮模块,这些模块只有几个受试者的未预装扫描。为了捕获服装中高频细节的随机性,我们利用对抗的侵害制定,鼓励模型捕获潜在统计数据。我们提供了经验证据,这导致了皱纹的局部细节的现实生成。我们表明我们的模型能够产生佩戴各种和详细的衣服的自然人头像。此外,我们表明我们的方法可以用于拟合人类模型到原始扫描的任务,优于以前的最先进。
translated by 谷歌翻译
我们提出了一种新的基于网格的学习方法(N-Cloth),适用于合理的3D布变形预测。我们的方法是通用的,可以处理具有任意拓扑的三角网格表示的布料或障碍物。我们使用Graph卷积将布料和对象网格转换为潜在空间以减少网格空间中的非线性。我们的网络可以基于初始布网格模板和目标障碍物网的状态来预测目标3D布网格变形。我们的方法可以处理复杂的布料网格,最高可达100美元的k三角形和场景,具有与SMPL人,非SMPL人或刚体相对应的各种对象。在实践中,我们的方法展示了连续输入框架之间的良好时间相干性,并且可用于在NVIDIA GeForce RTX 3090 GPU上以30-45美元的$ 30-45 $ FPS产生合理的布料模拟。我们突出了以前基于学习的方法和基于物理的布料模拟器的好处。
translated by 谷歌翻译
本文介绍了一种新型的基于学习的服装变形方法,为各种动画中的各种形状佩戴的服装产生丰富和合理的详细变形。与现有的基于学习的方法相比,需要为不同的服装拓扑或姿势进行众多培训的型号,并且无法轻易实现丰富的细节,我们使用统一的框架有效且容易地产生高保真变形。为了解决预测受多源属性影响的变形的具有挑战性问题,我们提出了三种策略从新颖的角度来看。具体而言,我们首先发现衣服和身体之间的配合对折叠程度具有重要影响。然后,我们设计了一个属性解析器,以生成详细信息感知的编码并将它们注入图形神经网络,从而增强了各种属性下的细节的辨别。此外,为了实现更好的收敛并避免过度平稳变形,我们提出了输出重建以减轻学习任务的复杂性。实验结果表明,我们所提出的变形方法在泛化能力和细节质量方面实现了更好的现有方法。
translated by 谷歌翻译
卷积神经网络(CNNS)在2D计算机视觉中取得了很大的突破。然而,它们的不规则结构使得难以在网格上直接利用CNNS的潜力。细分表面提供分层多分辨率结构,其中闭合的2 - 歧管三角网格中的每个面正恰好邻近三个面。本文推出了这两种观察,介绍了具有环形细分序列连接的3D三角形网格的创新和多功能CNN框架。在2D图像中的网格面和像素之间进行类比允许我们呈现网状卷积操作者以聚合附近面的局部特征。通过利用面部街区,这种卷积可以支持标准的2D卷积网络概念,例如,可变内核大小,步幅和扩张。基于多分辨率层次结构,我们利用汇集层,将四个面均匀地合并成一个和上采样方法,该方法将一个面分为四个。因此,许多流行的2D CNN架构可以容易地适应处理3D网格。可以通过自我参数化来回收具有任意连接的网格,以使循环细分序列连接,使子变量是一般的方法。广泛的评估和各种应用展示了SubDIVNet的有效性和效率。
translated by 谷歌翻译
在计算机愿景中已经过了很长一段时间的3D表示和人体重建。传统方法主要依赖于参数统计线性模型,将可能的身体的空间限制在线性组合。近来,一些方法才试图利用人体建模的神经隐式表示,同时展示令人印象深刻的结果,它们是通过表示能力的限制或没有物理有意义和可控的。在这项工作中,我们提出了一种用于人体的新型神经隐含表示,其具有完全可分辨:无戒开的形状和姿势潜在空间的优化。与事先工作相反,我们的代表是基于运动模型设计的,这使得可以为姿势动画等任务提供可控制的表示,同时允许为3D配件和姿势跟踪等任务进行整形和姿势。我们的模型可以直接培训和精细调整,直接在具有精心设计的损失的非水密原始数据上。实验展示了SOTA方法的改进的3D重建性能,并显示了我们的方法来形状插值,模型拟合,姿势跟踪和运动重新定位的适用性。
translated by 谷歌翻译
我们建议使用点云上的几何感知体系结构,考虑到学习局部结构的数据局部结构,以学习数据的局部结构,以学习数据的局部结构,以了解数据的局部结构,并使用点云上的几何感知体系结构来学习数据的局部结构,以考虑到局部数据结构。估计时间一致的3D变形,而无需在训练时间,通过利用周期一致性来进行密集的对应关系。除了学习密集对应的能力外,GNPM还可以实现潜在空间操作,例如插值和形状/姿势转移。我们在各种衣服的人类数据集上评估了GNPM,并表明它与需要在训练过程中需要密集对应的最新方法相当。
translated by 谷歌翻译
4D隐式表示中的最新进展集中在全球控制形状和运动的情况下,低维潜在向量,这很容易缺少表面细节和累积跟踪误差。尽管许多深层的本地表示显示了3D形状建模的有希望的结果,但它们的4D对应物尚不存在。在本文中,我们通过提出一个新颖的局部4D隐性代表来填补这一空白,以动态穿衣人,名为Lord,具有4D人类建模和局部代表的优点,并实现具有详细的表面变形的高保真重建,例如衣服皱纹。特别是,我们的主要见解是鼓励网络学习本地零件级表示的潜在代码,能够解释本地几何形状和时间变形。为了在测试时间进行推断,我们首先估计内部骨架运动在每个时间步中跟踪本地零件,然后根据不同类型的观察到的数据通过自动编码来优化每个部分的潜在代码。广泛的实验表明,该提出的方法具有强大的代表4D人类的能力,并且在实际应用上胜过最先进的方法,包括从稀疏点,非刚性深度融合(质量和定量)进行的4D重建。
translated by 谷歌翻译
在两个非辅助变形形状之间建立对应关系是视觉计算中最根本的问题之一。当对现实世界中的挑战(例如噪声,异常值,自我结合等)挑战时,现有方法通常会显示出弱的弹性。另一方面,自动描述器在学习几何学上有意义的潜在嵌入方面表现出强大的表现力。但是,它们在\ emph {形状分析}中的使用受到限制。在本文中,我们介绍了一种基于自动码头框架的方法,该方法在固定模板上学习了一个连续形状的变形字段。通过监督点在表面上的变形场,并通过小说\ emph {签名距离正则化}(SDR)正规化点偏面的正规化,我们学习了模板和Shape \ Emph {卷}之间的对齐。经过干净的水密网眼培训,\ emph {没有}任何数据启发,我们证明了在受损的数据和现实世界扫描上表现出令人信服的性能。
translated by 谷歌翻译
我们提出了一种基于优化的新型范式,用于在图像和扫描上拟合3D人类模型。与直接回归输入图像中低维统计体模型(例如SMPL)的参数的现有方法相反,我们训练了每个vertex神经场网络的集合。该网络以分布式的方式预测基于当前顶点投影处提取的神经特征的顶点下降方向。在推断时,我们在梯度降低的优化管道中采用该网络,称为LVD,直到其收敛性为止,即使将所有顶点初始化为单个点,通常也会以一秒钟的分数出现。一项详尽的评估表明,我们的方法能够捕获具有截然不同的身体形状的穿着的人体,与最先进的人相比取得了重大改进。 LVD也适用于人类和手的3D模型配合,为此,我们以更简单,更快的方法对SOTA显示出显着改善。
translated by 谷歌翻译
基于深度学习的人网格重建方法具有构建更大网络的趋势,以实现更高的准确性。尽管是人网格重建模型的实际使用的关键特征,但往往忽略了计算复杂性和模型大小(例如,虚拟试用系统)。在本文中,我们呈现GTR,这是一种基于轻量级的姿势的方法,可以从2D人类姿势重建人网。我们提出了一种姿势分析模块,它使用曲线图形是利用结构化和隐式的关节相关性,以及将提取的姿势特征与网格模板组合以重建最终人体网格的网格回归模块。我们通过对人类3.6M和3DPW数据集进行广泛的评估,展示了GTR的效率和泛化。特别是,GTRS比SOTA姿势的方法POSE2MESH实现了更好的精度,同时仅使用10.2%的参数(PARAMS)和2.5%的跨越式3DPW数据集。代码将公开。
translated by 谷歌翻译
综合虚拟人类及其3D环境之间的自然相互作用对于众多应用程序(例如计算机游戏和AR/VR体验)至关重要。我们的目标是使人类与给定的3D场景进行互动,该场景由高级语义规格控制为动作类别和对象实例,例如“坐在椅子上”。将相互作用语义纳入生成框架中的主要挑战是学习一个共同表示,该表示有效地捕获了异质信息,包括人体的关节,3D对象几何以及相互作用的意图。为了应对这一挑战,我们设计了一种基于变压器的新型生成模型,其中铰接的3D人体表面点和3D对象共同编码在统一的潜在空间中,并且人与物体之间的相互作用语义是通过嵌入的。位置编码。此外,受到人类可以同时与多个对象相互作用的相互作用的组成性质的启发,我们将相互作用语义定义为不同原子动作对象对的组成。我们提出的生成模型自然可以结合不同数量的原子相互作用,从而无需复合相互作用数据即可合成组成的人类习惯相互作用。我们使用交互语义标签和场景实例分割扩展了Prox数据集,以评估我们的方法,并证明我们的方法可以通过语义控制生成现实的人类场景相互作用。我们的感知研究表明,我们合成的虚拟人类可以自然与3D场景相互作用,从而超过现有方法。我们将方法硬币命名,用于与语义控制的组成相互作用合成。代码和数据可在https://github.com/zkf1997/coins上获得。
translated by 谷歌翻译
人类将他们的手和身体一起移动,沟通和解决任务。捕获和复制此类协调活动对于虚拟字符至关重要,以实际行为行为。令人惊讶的是,大多数方法分别对待身体和手的3D建模和跟踪。在这里,我们制定了一种手和身体的型号,并将其与全身4D序列合理。当扫描或捕获3D中的全身时,手很小,通常是部分闭塞,使其形状和难以恢复。为了应对低分辨率,闭塞和噪音,我们开发了一种名为Mano(具有铰接和非刚性变形的手模型)的新型号。曼诺从大约1000个高分辨率的3D扫描中学到了31个受试者的手中的大约一定的手。该模型是逼真的,低维,捕获非刚性形状的姿势变化,与标准图形封装兼容,可以适合任何人类的手。 Mano提供从手姿势的紧凑型映射,以构成混合形状校正和姿势协同效应的线性歧管。我们将Mano附加到标准参数化3D体形状模型(SMPL),导致完全铰接的身体和手部模型(SMPL + H)。我们通过用4D扫描仪捕获的综合体,自然,自然,自然的受试者的活动来说明SMPL + H.该配件完全自动,并导致全身型号,自然地移动详细的手动运动和在全身性能捕获之前未见的现实主义。模型和数据在我们的网站上自由用于研究目的(http://mano.is.tue.mpg.de)。
translated by 谷歌翻译
最近,基于神经辐射场(NERF)的进步,在3D人类渲染方面取得了迅速的进展,包括新的视图合成和姿势动画。但是,大多数现有方法集中在特定于人的培训上,他们的培训通常需要多视频视频。本文涉及一项新的挑战性任务 - 为在培训中看不见的人提供新颖的观点和新颖的姿势,仅使用多视图图像作为输入。对于此任务,我们提出了一种简单而有效的方法,以训练具有多视图像作为条件输入的可推广的NERF。关键成分是结合规范NERF和体积变形方案的专用表示。使用规范空间使我们的方法能够学习人类的共享特性,并轻松地推广到不同的人。音量变形用于将规范空间与输入和目标图像以及查询图像特征连接起来,以进行辐射和密度预测。我们利用拟合在输入图像上的参数3D人类模型来得出变形,与我们的规范NERF结合使用,它在实践中效果很好。具有新的观点合成和构成动画任务的真实和合成数据的实验共同证明了我们方法的功效。
translated by 谷歌翻译
我们提出了一种新方法,以从多个人的一组稀疏的多视图图像中学习通用的动画神经人类表示。学到的表示形式可用于合成一组稀疏相机的任意人的新型视图图像,并通过用户的姿势控制进一步对它们进行动画。尽管现有方法可以推广到新人,也可以通过用户控制合成动画,但它们都不能同时实现。我们将这一成就归因于用于共享多人人类模型的3D代理,并将不同姿势的空间的扭曲延伸到共享的规范姿势空间,在该空间中,我们在其中学习神经领域并预测个人和人物 - 姿势依赖性变形以及从输入图像中提取的特征的外观。为了应对身体形状,姿势和衣服变形的较大变化的复杂性,我们以分离的几何形状和外观设计神经人类模型。此外,我们在空间点和3D代理的表面点上都利用图像特征来预测人和姿势依赖性特性。实验表明,我们的方法在这两个任务上的最先进都大大优于最先进的方法。该视频和代码可在https://talegqz.github.io/neural_novel_actor上获得。
translated by 谷歌翻译