智能论文笔记

3D-CariGAN: An End-to-End Solution to 3D Caricature Generation from Face Photos

Zipeng Ye , Mengfei Xia , Yanan Sun , Ran Yi , Minjing Yu , Juyong Zhang , Yu-Kun Lai , Yong-jin Liu

分类：计算机视觉

2020-03-15

漫画是一种人类面孔的艺术风格，吸引了娱乐业的相当大的关注。到目前为止，存在少数3D漫画生成方法，所有这些都需要一些漫画信息（例如，漫画素描或2D漫画）作为输入。然而，这种输入难以由非专业用户提供。在本文中，我们提出了一个端到端的深度神经网络模型，可直接从正常的2D脸照片产生高质量的3D漫画。我们系统最具挑战性的问题是面部照片的源域（以正常的2D面为特征）与3D漫画的目标域有很大差异（以3D夸大的面形状和纹理为特征）。为了解决这一挑战，我们：（1）建立一个大型数据集5,343个3D漫画网格，并使用它来建立3D漫画形状空间中的PCA模型; （2）从输入面照片重建正常的全3D头，并在3D漫画形状空间中使用其PCA表示来建立输入照片和3D漫画形状之间的对应关系; （3）提出了一种基于以前对讽刺的心理研究的新颖性状损失和新颖的漫画损失。实验包括新型两级用户学习，表明我们的系统可以直接从正常面部照片产生高质量的3D漫画。

translated by 谷歌翻译

Cross-Domain and Disentangled Face Manipulation with 3D Guidance

Can Wang , Menglei Chai , Mingming He , Dongdong Chen , Jing Liao

分类：计算机视觉

2021-04-22

由于其语义上的理解和用户友好的可控性，通过三维引导，通过三维引导的面部图像操纵已广泛应用于各种交互式场景。然而，现有的基于3D形式模型的操作方法不可直接适用于域名面，例如非黑色素化绘画，卡通肖像，甚至是动物，主要是由于构建每个模型的强大困难具体面部域。为了克服这一挑战，据我们所知，我们建议使用人为3DMM操纵任意域名的第一种方法。这是通过两个主要步骤实现的：1）从3DMM参数解开映射到潜在的STYLEGO2的潜在空间嵌入，可确保每个语义属性的解除响应和精确的控制; 2）通过实施一致的潜空间嵌入，桥接域差异并使人类3DMM适用于域外面的人类3DMM。实验和比较展示了我们高质量的语义操作方法在各种面部域中的优越性，所有主要3D面部属性可控姿势，表达，形状，反照镜和照明。此外，我们开发了直观的编辑界面，以支持用户友好的控制和即时反馈。我们的项目页面是https://cassiepython.github.io/cddfm3d/index.html

translated by 谷歌翻译

MW-GAN: Multi-Warping GAN for Caricature Generation with Multi-Style Geometric Exaggeration

Haodi Hou , Jing Huo , Jing Wu , Yu-Kun Lai , Yang Gao

分类：计算机视觉 | 机器学习

2020-01-07

鉴于输入面部照片，漫画生成的目标是生产风格化，夸张的漫画，与照片共享与相同的身份。它需要同时传输和形状夸张，具有丰富的多样性，同时保留输入的身份。为了解决这一具有挑战性的问题，我们提出了一种名为Multi-Warping GaN（MW-GAN）的新型框架，包括风格网络和几何网络，旨在分别进行样式传输和几何夸张。我们通过双向设计弥合图像的风格和地标之间的差距，并通过双向设计来生成具有任意样式和几何夸张的漫画，可以通过潜在代码或给定的随机采样来指定漫画样本。此外，我们对图像空间和地标空间施加身份保持损失，导致产生漫画的质量的巨大改善。实验表明，由MW-GaN产生的漫画具有比现有方法更好的质量。

translated by 谷歌翻译

Deep Deformable 3D Caricatures with Learned Shape Control

Yucheol Jung , Wonjong Jang , Soongjin Kim , Jiaolong Yang , Xin Tong , Seungyong Lee

分类：计算机视觉

2022-07-29

3D漫画是对人脸的夸张的3D描述。本文的目的是对紧凑的参数空间中的3D漫画的变化进行建模，以便我们可以为处理3D漫画变形提供有用的数据驱动工具包。为了实现目标，我们提出了一个基于MLP的框架，用于构建可变形的表面模型，该模型采用潜在代码并产生3D表面。在框架中，警笛MLP模拟了在固定模板表面上采用3D位置并返回输入位置的3D位移向量的函数。我们通过学习采用潜在代码并产生MLP参数的超网络来创建3D表面的变化。一旦了解到，我们的可变形模型为3D漫画提供了一个不错的编辑空间，支持基于标签的语义编辑和基于尖的基于尖的变形，这两者都产生了高度夸张和自然的3D讽刺形状。我们还展示了可变形模型的其他应用，例如自动3D漫画创建。

translated by 谷歌翻译

Neural Head Avatars from Monocular RGB Videos

Philip-William Grassal , Malte Prinzler , Titus Leistner , Carsten Rother , Matthias Nießner , Justus Thies

分类：计算机视觉

2021-12-02

我们提出了神经头头像，这是一种新型神经表示，其明确地模拟了可动画的人体化身的表面几何形状和外观，可用于在依赖数字人类的电影或游戏行业中的AR / VR或其他应用中的电话会议。我们的代表可以从单眼RGB肖像视频中学到，该视频具有一系列不同的表达和视图。具体地，我们提出了一种混合表示，其由面部的粗糙形状和表达式和两个前馈网络组成的混合表示，以及预测底层网格的顶点偏移以及视图和表达依赖性纹理。我们证明，该表示能够准确地外推到看不见的姿势和观点，并在提供尖锐的纹理细节的同时产生自然表达。与先前的磁头头像上的作品相比，我们的方法提供了与标准图形管道兼容的完整人体头（包括头发）的分解形状和外观模型。此外，就重建质量和新型观看合成而定量和定性地优于现有技术的当前状态。

translated by 谷歌翻译

FaceTuneGAN: Face Autoencoder for Convolutional Expression Transfer Using Neural Generative Adversarial Networks

Nicolas Olivier , Kelian Baert , Fabien Danieau , Franck Multon , Quentin Avril

分类：计算机视觉

2021-12-01

在本文中，我们展示了Facetunegan，一种新的3D面部模型表示分解和编码面部身份和面部表情。我们提出了对图像到图像翻译网络的第一次适应，该图像已经成功地用于2D域，到3D面几何。利用最近释放的大面扫描数据库，神经网络已经过培训，以便与面部更好的了解，使面部表情转移和中和富有效应面的变异因素。具体而言，我们设计了一种适应基础架构的对抗架构，并使用Spiralnet ++进行卷积和采样操作。使用两个公共数据集（FACESCAPE和COMA），Facetunegan具有比最先进的技术更好的身份分解和面部中和。它还通过预测较近地面真实数据的闪烁形状并且由于源极和目标之间的面部形态过于不同的面部形态而越来越多的不期望的伪像来优异。

translated by 谷歌翻译

SCULPTOR: Skeleton-Consistent Face Creation Using a Learned Parametric Generator

Zesong Qiu , Yuwei Li , Dongming He , Qixuan Zhang , Longwen Zhang , Yinghao Zhang , Jingya Wang , Lan Xu , Xudong Wang , Yuyao Zhang

分类：计算机视觉

2022-09-14

近年来，由于其在数字人物，角色产生和动画中的广泛应用，人们对3D人脸建模的兴趣越来越大。现有方法压倒性地强调了对面部的外部形状，质地和皮肤特性建模，而忽略了内部骨骼结构和外观之间的固有相关性。在本文中，我们使用学习的参数面部发电机提出了雕塑家，具有骨骼一致性的3D面部创作，旨在通过混合参数形态表示轻松地创建解剖上正确和视觉上令人信服的面部模型。雕塑家的核心是露西（Lucy），这是与整形外科医生合作的第一个大型形状面部脸部数据集。我们的Lucy数据集以最古老的人类祖先之一的化石命名，其中包含正牙手术前后全人头的高质量计算机断层扫描（CT）扫描，这对于评估手术结果至关重要。露西（Lucy）由144次扫描，分别对72名受试者（31名男性和41名女性）组成，其中每个受试者进行了两次CT扫描，并在恐惧后手术中进行了两次CT扫描。根据我们的Lucy数据集，我们学习了一个新颖的骨骼一致的参数面部发电机雕塑家，它可以创建独特而细微的面部特征，以帮助定义角色，同时保持生理声音。我们的雕塑家通过将3D脸的描绘成形状混合形状，姿势混合形状和面部表达混合形状，共同在统一数据驱动的框架下共同建模头骨，面部几何形状和面部外观。与现有方法相比，雕塑家在面部生成任务中保留了解剖学正确性和视觉现实主义。最后，我们展示了雕塑家在以前看不见的各种花式应用中的鲁棒性和有效性。

translated by 谷歌翻译

FaceScape: 3D Facial Dataset and Benchmark for Single-View 3D Face Reconstruction

Hao Zhu , Haotian Yang , Longwei Guo , Yidi Zhang , Yanru Wang , Mingkai Huang , Qiu Shen , Ruigang Yang , Xun Cao

分类：计算机视觉

2021-11-01

在本文中，我们提出了一个大型详细的3D面部数据集，FACESCAPE和相应的基准，以评估单视图面部3D重建。通过对FACESCAPE数据进行训练，提出了一种新的算法来预测从单个图像输入的精心索引3D面模型。 FACESCAPE DataSet提供18,760个纹理的3D面，从938个科目捕获，每个纹理和每个特定表达式。 3D模型包含孔径级面部几何形状，也被处理为拓扑均匀化。这些精细的3D面部模型可以表示为用于详细几何的粗糙形状和位移图的3D可线模型。利用大规模和高精度的数据集，进一步提出了一种使用深神经网络学习特定于表达式动态细节的新颖算法。学习的关系是从单个图像输入的3D面预测系统的基础。与以前的方法不同，我们的预测3D模型在不同表达式下具有高度详细的几何形状。我们还使用FACESCAPE数据来生成野外和实验室内基准，以评估最近的单视面重建方法。报告并分析了相机姿势和焦距的尺寸，并提供了忠诚和综合评估，并揭示了新的挑战。前所未有的数据集，基准和代码已被释放到公众以进行研究目的。

translated by 谷歌翻译

Collaborative Neural Rendering using Anime Character Sheets

Zuzeng Lin , Ailin Huang , Zhewei Huang , Chen Hu , Shuchang Zhou

分类：计算机视觉

2022-07-12

在所需的姿势中绘制人物的图像是动漫制作中必不可少但费力的任务。在本文中，我们介绍了协作神经渲染〜（CONR）方法，以从字符表中可用的一些任意摆姿势的参考图像中创建新图像。通常，动漫人物的身体形状的高度多样性违反了像SMPL这样的现实世界人体的普遍身体模型的利用。为了克服这个困难，Conr使用紧凑且易于攻击的地标编码，以避免在管道中创建统一的紫外线映射。此外，使用特征空间跨视图密集的对应关系和翘曲在特殊设计的神经网络构建体中使用多个参考图像时，Conr的性能可以显着提高。此外，我们收集了一个字符表数据集，该数据集包含700,000多个手绘和合成的姿势图像，以促进该领域的研究。

translated by 谷歌翻译

Controllable 3D Generative Adversarial Face Model via Disentangling Shape and Appearance

Fariborz Taherkhani , Aashish Rai , Quankai Gao , Shaunak Srivastava , Xuanbai Chen , Fernando de la Torre , Steven Song , Aayush Prakash , Daeil Kim

分类：计算机视觉

2022-08-30

3D面部建模一直是计算机视觉和计算机图形学研究的活跃领域，从虚拟化身中的面部表达转移到合成数据生成，助长了应用。现有的3D深度学习生成模型（例如，VAE，gan）允许生成紧凑的面部表征（形状和纹理），可以在形状和外观空间中建模非线性（例如，散射效果，镜面等）。但是，他们缺乏控制微妙表达产生的能力。本文提出了一种新的3D面部生成模型，该模型可以使身份和表达不适，并提供对表达式的颗粒状控制。特别是，我们建议使用一对监督自动编码器和生成对抗网络来产生高质量的3D面，无论是外观和形状而言。实验结果是用整体表达标签或作用单元标签学到的3D面的产生结果表明，我们如何将身份和表达分离；在保留身份的同时，获得精细的表达方式。

translated by 谷歌翻译

Realistic One-shot Mesh-based Head Avatars

Taras Khakhulin , Vanessa Sklyarova , Victor Lempitsky , Egor Zakharov

分类：计算机视觉

2022-06-16

我们介绍了一个现实的单发网眼的人体头像创作的系统，即简称罗马。使用一张照片，我们的模型估计了特定于人的头部网格和相关的神经纹理，该神经纹理编码局部光度和几何细节。最终的化身是操纵的，可以使用神经网络进行渲染，该神经网络与野外视频数据集上的网格和纹理估计器一起训练。在实验中，我们观察到我们的系统在头部几何恢复和渲染质量方面都具有竞争性的性能，尤其是对于跨人的重新制定。请参阅结果https://samsunglabs.github.io/rome/

translated by 谷歌翻译

AnimeCeleb: Large-Scale Animation CelebFaces Dataset via Controllable 3D Synthetic Models

Kangyeol Kim , Sunghyun Park , Jaeseong Lee , Sunghyo Chung , Junsoo Lee , Jaegul Choo

分类：人工智能 | 计算机视觉

2021-11-15

尽管基于深度学习的面部相关模型成功显着，但这些模型仍然仅限于真正人类面的领域。另一方面，由于缺乏组织良好的数据集，由于缺乏组织的数据集，动画面的域已经不太积极地研究。在本文中，我们通过可控的合成动画模型介绍了一个大规模动画CeleBfaces数据集（AnimeCeleb），以提高动画面域的研究。为了促进数据生成过程，我们基于开放式3D软件和开发的注释系统构建半自动管道。这导致构建大型动画面部数据集，包括具有丰富注释的多姿态和多样式动画面。实验表明，我们的数据集适用于各种动画相关的任务，如头部重新创建和着色。

translated by 谷歌翻译

Continuously Controllable Facial Expression Editing in Talking Face Videos

Zhiyao Sun , Yu-Hui Wen , Tian Lv , Yanan Sun , Ziyang Zhang , Yaoyuan Wang , Yong-Jin Liu

分类：计算机视觉

2022-09-17

最近，音频驱动的会说话的面部视频产生引起了广泛的关注。但是，很少有研究能够解决这些会说话的面部视频的情感编辑问题，并具有连续可控的表达式，这是行业中强烈的需求。面临的挑战是，与语音有关的表达和与情感有关的表达通常是高度耦合的。同时，由于表达式与其他属性（例如姿势）的耦合，即在每个框架中翻译角色的表达可能会同时改变头部姿势，因此传统的图像到图像翻译方法无法在我们的应用中很好地工作。培训数据分布。在本文中，我们提出了一种高质量的面部表达编辑方法，用于谈话面部视频，使用户可以连续控制编辑视频中的目标情感。我们为该任务提供了一个新的视角，作为运动信息编辑的特殊情况，我们使用3DMM捕获主要的面部运动和由StyleGAN模拟的相关纹理图，以捕获外观细节。两种表示（3DMM和纹理图）都包含情感信息，并且可以通过神经网络进行连续修改，并通过系数/潜在空间平均轻松平滑，从而使我们的方法变得简单而有效。我们还引入了口腔形状的保存损失，以控制唇部同步和编辑表达的夸张程度之间的权衡。广泛的实验和用户研究表明，我们的方法在各种评估标准中实现了最先进的表现。

translated by 谷歌翻译

Reconstructing Recognizable 3D Face Shapes based on 3D Morphable Models

Diqiong Jiang , Yiwei Jin , Fanglue Zhang , Yukun Yai , Risheng Deng , Ruofeng Tong , Min Tang

分类：计算机视觉

2021-04-08

许多最近的作品通过基于参数模型聚集了相同的身份的形状参数并将不同人的形状参数聚集在一起（例如，3D可变模型（3DMMS））来重建独特的3D面形状。然而，尽管使用这些形状参数的面部识别任务中的高精度，但是从那些参数重建的面部形状的视觉辨别是不令人满意的。以下研究尚未回答以下研究问题：做差异的形状参数保证所代表的3D面形状的视觉歧视吗？本文分析了形状参数与重建形状几何之间的关系，提出了一种新颖的形状相同感知正则化（SIR）损耗的形状参数，旨在增加形状参数和形状几何域中的辨别性。此外，为了应对包含地标和身份注释的缺乏培训数据，我们提出了一种网络结构和相关的培训策略，以利用包含身份或地标标签的混合数据。我们将我们的方法与现有方法进行比较重建误差，视觉区分性和形状参数的面部识别准确性。实验结果表明，我们的方法优于最先进的方法。

translated by 谷歌翻译

Deep Facial Synthesis: A New Challenge

Deng-Ping Fan , Ziling Huang , Peng Zheng , Hong Liu , Xuebin Qin , Luc Van Gool

分类：计算机视觉

2021-12-31

本文的目标是对面部素描合成（FSS）问题进行全面的研究。然而，由于获得了手绘草图数据集的高成本，因此缺乏完整的基准，用于评估过去十年的FSS算法的开发。因此，我们首先向FSS引入高质量的数据集，名为FS2K，其中包括2,104个图像素描对，跨越三种类型的草图样式，图像背景，照明条件，肤色和面部属性。 FS2K与以前的FSS数据集不同于难度，多样性和可扩展性，因此应促进FSS研究的进展。其次，我们通过调查139种古典方法，包括34个手工特征的面部素描合成方法，37个一般的神经式传输方法，43个深映像到图像翻译方法，以及35个图像 - 素描方法。此外，我们详细说明了现有的19个尖端模型的综合实验。第三，我们为FSS提供了一个简单的基准，名为FSGAN。只有两个直截了当的组件，即面部感知屏蔽和风格矢量扩展，FSGAN将超越所提出的FS2K数据集的所有先前最先进模型的性能，通过大边距。最后，我们在过去几年中汲取的经验教训，并指出了几个未解决的挑战。我们的开源代码可在https://github.com/dengpingfan/fsgan中获得。

translated by 谷歌翻译

Controllable 3D Face Synthesis with Conditional Generative Occupancy Fields

Keqiang Sun , Shangzhe Wu , Zhaoyang Huang , Ning Zhang , Quan Wang , HongSheng Li

分类：计算机视觉

2022-06-16

利用图像生成模型的最新进展，现有的可控面图像合成方法能够生成具有某些可控性的高保真图像，例如控制生成的面部图像的形状，表达，纹理和姿势。但是，这些方法集中在2D图像生成模型上，这些模型容易在大表达和姿势变化下产生不一致的面部图像。在本文中，我们提出了一个新的基于NERF的条件3D面部合成框架，该框架可以通过从3D脸先进的3D面部施加显式3D条件来对生成的面部图像进行3D可控性。其核心是有条件的生成占用场（CGOF），可有效地强制生成的面部形状，以使其对给定的3D形态模型（3DMM）网格进行。为了准确控制合成图像的细粒3D面部形状，我们还将3D地标损耗以及体积翘曲损失纳入我们的合成算法中。实验验证了所提出的方法的有效性，该方法能够生成高保真的面部图像，并显示出比基于2D的最新可控制的面部合成方法更精确的3D可控性。在https://keqiangsun.github.io/projects/cgof上查找代码和演示。

translated by 谷歌翻译

Sphere Face Model:A 3D Morphable Model with Hypersphere Manifold Latent Space

Diqiong Jiang , Yiwei Jin , Fanglue Zhang , Zhe Zhu , Yun Zhang , Ruofeng Tong , Min Tang

分类：计算机视觉

2021-12-04

3D可线模型（3DMMS）是面部形状和外观的生成模型。然而，传统3DMMS的形状参数满足多变量高斯分布，而嵌入式嵌入满足过边距分布，并且这种冲突使得面部重建模型同时保持忠诚度和形状一致性的挑战。为了解决这个问题，我们提出了一种用于单眼脸部重建的新型3DMM的球体面部模型（SFM），这可以保持既有忠诚度和身份一致性。我们的SFM的核心是可以用于重建3D面形状的基矩阵，并且通过采用在第一和第二阶段中使用3D和2D训练数据的两级训练方法来学习基本矩阵。为了解决分发不匹配，我们设计一种新的损失，使形状参数具有超球的潜在空间。广泛的实验表明，SFM具有高表示能力和形状参数空间的聚类性能。此外，它产生富翼面形状，并且形状在单眼性重建中的挑战条件下是一致的。

translated by 谷歌翻译

A Review of 3D Face Reconstruction From a Single Image

Hanxin Wang

分类：计算机视觉

2021-10-13

3D面部重建是一个具有挑战性的问题，但也是计算机视觉和图形领域的重要任务。最近，许多研究人员对这个问题提请注意，并且已经发表了大量的文章。单个图像重建是3D面部重建的分支之一，在我们的生活中具有大量应用。本文是对从单个图像的3D面部重建最近的文献述评。

translated by 谷歌翻译

MoFaNeRF: Morphable Facial Neural Radiance Field

Yiyu Zhuang , Hao Zhu , Xusen Sun , Xun Cao

分类：计算机视觉

2021-12-04

我们提出了一种参数模型，将自由视图图像映射到编码面部形状，表达和外观的矢量空间，即使用神经辐射场，即可变的面部nerf。具体地，MoFanerf将编码的面部形状，表达和外观以及空间坐标和视图方向作为输入，作为输入到MLP，并输出光学逼真图像合成的空间点的辐射。与传统的3D可变模型（3DMM）相比，MoFanerf在直接综合光学逼真的面部细节方面表现出优势，即使是眼睛，嘴巴和胡须也是如此。而且，通过插入输入形状，表达和外观码，可以容易地实现连续的面部。通过引入特定于特定于特定的调制和纹理编码器，我们的模型合成精确的光度测量细节并显示出强的表示能力。我们的模型显示了多种应用的强大能力，包括基于图像的拟合，随机产生，面部索具，面部编辑和新颖的视图合成。实验表明，我们的方法比以前的参数模型实现更高的表示能力，并在几种应用中实现了竞争性能。据我们所知，我们的作品是基于神经辐射场上的第一款，可用于配合，发电和操作。我们的代码和型号在https://github.com/zhuhao-nju/mofanerf中发布。

translated by 谷歌翻译

Generating Complex 4D Expression Transitions by Learning Face Landmark Trajectories

Naima Otberdout , Claudio Ferrari , Mohamed Daoudi , Stefano Berretti , Alberto Del Bimbo

分类：计算机视觉

2022-07-29

在这项工作中，我们解决了4D面部表情生成的问题。通常，通过对中性3D面动画来达到表达峰，然后回到中立状态来解决这一问题。但是，在现实世界中，人们表现出更复杂的表情，并从一个表达式转换为另一种表达。因此，我们提出了一个新模型，该模型在不同表达式之间产生过渡，并综合了长长的4D表达式。这涉及三个子问题：（i）建模表达式的时间动力学，（ii）它们之间的学习过渡，以及（iii）变形通用网格。我们建议使用一组3D地标的运动编码表达式的时间演变，我们学会通过训练一个具有歧管值的gan（Motion3dgan）来生成。为了允许生成组成的表达式，该模型接受两个编码起始和结尾表达式的标签。网格的最终顺序是由稀疏的2块网格解码器（S2D-DEC）生成的，该解码器将地标位移映射到已知网格拓扑的密集，每位vertex位移。通过明确处理运动轨迹，该模型完全独立于身份。五个公共数据集的广泛实验表明，我们提出的方法在以前的解决方案方面带来了重大改进，同时保留了良好的概括以看不见数据。

translated by 谷歌翻译