许多现代的在线3D应用程序和视频游戏都依靠人脸的参数模型来创建可信的化身。但是,用参数模型手动复制某人的面部相似性是困难且耗时的。该任务的机器学习解决方案是非常可取的,但也充满挑战。本文提出了一种新的方法来解决所谓的面对参数问题(简称F2P),旨在重建单个图像的参数面。所提出的方法利用合成数据,域分解和域适应来解决解决F2P的多方面挑战。开源代码库说明了我们的主要观察结果,并提供了定量评估的手段。提出的方法在工业应用中证明是实际的。它提高了准确性并允许更有效的模型培训。这些技术有可能扩展到其他类型的参数模型。
translated by 谷歌翻译
许多现代的在线3D应用程序和视频游戏依靠人面孔的参数模型来创建可信的化身。但是,使用参数模型对某人的面部相似性进行手动复制是困难且耗时的。该任务的机器学习解决方案是非常可取的,但也充满挑战。本文提出了一种新的方法来解决所谓的面对参数问题(简称F2P),旨在重建单个图像的参数面。所提出的方法利用合成数据,域分解和域适应来解决解决F2P的多方面挑战。开源代码库说明了我们的主要观察结果,并提供了定量评估的手段。提出的方法在工业应用中证明是实际的。它提高了准确性并允许更有效的模型培训。这些技术有可能扩展到其他类型的参数模型。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
Our goal with this survey is to provide an overview of the state of the art deep learning technologies for face generation and editing. We will cover popular latest architectures and discuss key ideas that make them work, such as inversion, latent representation, loss functions, training procedures, editing methods, and cross domain style transfer. We particularly focus on GAN-based architectures that have culminated in the StyleGAN approaches, which allow generation of high-quality face images and offer rich interfaces for controllable semantics editing and preserving photo quality. We aim to provide an entry point into the field for readers that have basic knowledge about the field of deep learning and are looking for an accessible introduction and overview.
translated by 谷歌翻译
综合照片 - 现实图像和视频是计算机图形的核心,并且是几十年的研究焦点。传统上,使用渲染算法(如光栅化或射线跟踪)生成场景的合成图像,其将几何形状和材料属性的表示为输入。统称,这些输入定义了实际场景和呈现的内容,并且被称为场景表示(其中场景由一个或多个对象组成)。示例场景表示是具有附带纹理的三角形网格(例如,由艺术家创建),点云(例如,来自深度传感器),体积网格(例如,来自CT扫描)或隐式曲面函数(例如,截短的符号距离)字段)。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关,并将思想与经典计算机图形和机器学习中的思想相结合,以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来,我们通过数百个出版物显示了这一领域的巨大进展,这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法,通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致,使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外,我们还涵盖了用于建模非刚性变形对象的神经场景表示...
translated by 谷歌翻译
生产级别的工作流程用于产生令人信服的3D动态人体面孔长期以来依赖各种劳动密集型工具用于几何和纹理生成,运动捕获和索具以及表达合成。最近的神经方法可以使单个组件自动化,但是相应的潜在表示不能像常规工具一样为艺术家提供明确的控制。在本文中,我们提出了一种新的基于学习的,视频驱动的方法,用于生成具有高质量基于物理资产的动态面部几何形状。对于数据收集,我们构建了一个混合多视频测量捕获阶段,与超快速摄像机耦合以获得原始的3D面部资产。然后,我们着手使用单独的VAE对面部表达,几何形状和基于物理的纹理进行建模,我们在各个网络的潜在范围内强加了基于全局MLP的表达映射,以保留各个属性的特征。我们还将增量信息建模为基于物理的纹理的皱纹图,从而达到高质量的4K动态纹理。我们展示了我们在高保真表演者特异性面部捕获和跨认同面部运动重新定位中的方法。此外,我们的基于多VAE的神经资产以及快速适应方案也可以部署以处理内部视频。此外,我们通过提供具有较高现实主义的各种有希望的基于身体的编辑结果来激发我们明确的面部解散策略的实用性。综合实验表明,与以前的视频驱动的面部重建和动画方法相比,我们的技术提供了更高的准确性和视觉保真度。
translated by 谷歌翻译
传统上,本征成像或内在图像分解被描述为将图像分解为两层:反射率,材料的反射率;和一个阴影,由光和几何之间的相互作用产生。近年来,深入学习技术已广泛应用,以提高这些分离的准确性。在本调查中,我们概述了那些在知名内在图像数据集和文献中使用的相关度量的结果,讨论了预测所需的内在图像分解的适用性。虽然Lambertian的假设仍然是许多方法的基础,但我们表明,对图像形成过程更复杂的物理原理组件的潜力越来越意识到,这是光学准确的材料模型和几何形状,更完整的逆轻型运输估计。考虑使用的前瞻和模型以及驾驶分解过程的学习架构和方法,我们将这些方法分类为分解的类型。考虑到最近神经,逆和可微分的渲染技术的进步,我们还提供了关于未来研究方向的见解。
translated by 谷歌翻译
我们介绍了一个现实的单发网眼的人体头像创作的系统,即简称罗马。使用一张照片,我们的模型估计了特定于人的头部网格和相关的神经纹理,该神经纹理编码局部光度和几何细节。最终的化身是操纵的,可以使用神经网络进行渲染,该神经网络与野外视频数据集上的网格和纹理估计器一起训练。在实验中,我们观察到我们的系统在头部几何恢复和渲染质量方面都具有竞争性的性能,尤其是对于跨人的重新制定。请参阅结果https://samsunglabs.github.io/rome/
translated by 谷歌翻译
由于其语义上的理解和用户友好的可控性,通过三维引导,通过三维引导的面部图像操纵已广泛应用于各种交互式场景。然而,现有的基于3D形式模型的操作方法不可直接适用于域名面,例如非黑色素化绘画,卡通肖像,甚至是动物,主要是由于构建每个模型的强大困难具体面部域。为了克服这一挑战,据我们所知,我们建议使用人为3DMM操纵任意域名的第一种方法。这是通过两个主要步骤实现的:1)从3DMM参数解开映射到潜在的STYLEGO2的潜在空间嵌入,可确保每个语义属性的解除响应和精确的控制; 2)通过实施一致的潜空间嵌入,桥接域差异并使人类3DMM适用于域外面的人类3DMM。实验和比较展示了我们高质量的语义操作方法在各种面部域中的优越性,所有主要3D面部属性可控姿势,表达,形状,反照镜和照明。此外,我们开发了直观的编辑界面,以支持用户友好的控制和即时反馈。我们的项目页面是https://cassiepython.github.io/cddfm3d/index.html
translated by 谷歌翻译
深度学习属于人工智能领域,机器执行通常需要某种人类智能的任务。类似于大脑的基本结构,深度学习算法包括一种人工神经网络,其类似于生物脑结构。利用他们的感官模仿人类的学习过程,深入学习网络被送入(感官)数据,如文本,图像,视频或声音。这些网络在不同的任务中优于最先进的方法,因此,整个领域在过去几年中看到了指数增长。这种增长在过去几年中每年超过10,000多种出版物。例如,只有在医疗领域中的所有出版物中覆盖的搜索引擎只能在Q3 2020中覆盖所有出版物的子集,用于搜索术语“深度学习”,其中大约90%来自过去三年。因此,对深度学习领域的完全概述已经不可能在不久的将来获得,并且在不久的将来可能会难以获得难以获得子场的概要。但是,有几个关于深度学习的综述文章,这些文章专注于特定的科学领域或应用程序,例如计算机愿景的深度学习进步或在物体检测等特定任务中进行。随着这些调查作为基础,这一贡献的目的是提供对不同科学学科的深度学习的第一个高级,分类的元调查。根据底层数据来源(图像,语言,医疗,混合)选择了类别(计算机愿景,语言处理,医疗信息和其他工程)。此外,我们还审查了每个子类别的常见架构,方法,专业,利弊,评估,挑战和未来方向。
translated by 谷歌翻译
在本文中,我们展示了Facetunegan,一种新的3D面部模型表示分解和编码面部身份和面部表情。我们提出了对图像到图像翻译网络的第一次适应,该图像已经成功地用于2D域,到3D面几何。利用最近释放的大面扫描数据库,神经网络已经过培训,以便与面部更好的了解,使面部表情转移和中和富有效应面的变异因素。具体而言,我们设计了一种适应基础架构的对抗架构,并使用Spiralnet ++进行卷积和采样操作。使用两个公共数据集(FACESCAPE和COMA),Facetunegan具有比最先进的技术更好的身份分解和面部中和。它还通过预测较近地面真实数据的闪烁形状并且由于源极和目标之间的面部形态过于不同的面部形态而越来越多的不期望的伪像来优异。
translated by 谷歌翻译
从单个图像重建高保真3D面部纹理是一个具有挑战性的任务,因为缺乏完整的面部信息和3D面和2D图像之间的域间隙。最新作品通过应用基于代或基于重建的方法来解决面部纹理重建问题。尽管各种方法具有自身的优势,但它们不能恢复高保真和可重新可传送的面部纹理,其中术语“重新可调剂”要求面部质地在空间地完成和与环境照明中脱颖而出。在本文中,我们提出了一种新颖的自我监督学习框架,用于从野外的单视图重建高质量的3D面。我们的主要思想是首先利用先前的一代模块来生产先前的Albedo,然后利用细节细化模块来获得详细的Albedo。为了进一步使面部纹理解开照明,我们提出了一种新颖的详细的照明表示,该表现在一起与详细的Albedo一起重建。我们还在反照侧和照明方面设计了几种正规化损失功能,以便于解散这两个因素。最后,由于可怜的渲染技术,我们的神经网络可以以自我监督的方式有效地培训。关于具有挑战性的数据集的广泛实验表明,我们的框架在定性和定量比较方面显着优于最先进的方法。
translated by 谷歌翻译
鉴于一个人的肖像图像和目标照明的环境图,肖像重新旨在重新刷新图像中的人,就好像该人出现在具有目标照明的环境中一样。为了获得高质量的结果,最近的方法依靠深度学习。一种有效的方法是用高保真输入输出对的高保真数据集监督对深神经网络的培训,并以光阶段捕获。但是,获取此类数据需要昂贵的特殊捕获钻机和耗时的工作,从而限制了对少数机智的实验室的访问。为了解决限制,我们提出了一种新方法,该方法可以与最新的(SOTA)重新确定方法相提并论,而无需光阶段。我们的方法基于这样的意识到,肖像图像的成功重新重新取决于两个条件。首先,该方法需要模仿基于物理的重新考虑的行为。其次,输出必须是逼真的。为了满足第一个条件,我们建议通过通过虚拟光阶段生成的训练数据来训练重新网络,该培训数据在不同的环境图下对各种3D合成人体进行了基于物理的渲染。为了满足第二种条件,我们开发了一种新型的合成对真实方法,以将光真实主义带入重新定向网络输出。除了获得SOTA结果外,我们的方法还提供了与先前方法相比的几个优点,包括可控的眼镜和更暂时的结果以重新欣赏视频。
translated by 谷歌翻译
本文的目标是对面部素描合成(FSS)问题进行全面的研究。然而,由于获得了手绘草图数据集的高成本,因此缺乏完整的基准,用于评估过去十年的FSS算法的开发。因此,我们首先向FSS引入高质量的数据集,名为FS2K,其中包括2,104个图像素描对,跨越三种类型的草图样式,图像背景,照明条件,肤色和面部属性。 FS2K与以前的FSS数据集不同于难度,多样性和可扩展性,因此应促进FSS研究的进展。其次,我们通过调查139种古典方法,包括34个手工特征的面部素描合成方法,37个一般的神经式传输方法,43个深映像到图像翻译方法,以及35个图像 - 素描方法。此外,我们详细说明了现有的19个尖端模型的综合实验。第三,我们为FSS提供了一个简单的基准,名为FSGAN。只有两个直截了当的组件,即面部感知屏蔽和风格矢量扩展,FSGAN将超越所提出的FS2K数据集的所有先前最先进模型的性能,通过大边距。最后,我们在过去几年中汲取的经验教训,并指出了几个未解决的挑战。我们的开源代码可在https://github.com/dengpingfan/fsgan中获得。
translated by 谷歌翻译
最近,面部生物识别是对传统认证系统的方便替代的巨大关注。因此,检测恶意尝试已经发现具有重要意义,导致面部抗欺骗〜(FAS),即面部呈现攻击检测。与手工制作的功能相反,深度特色学习和技术已经承诺急剧增加FAS系统的准确性,解决了实现这种系统的真实应用的关键挑战。因此,处理更广泛的发展以及准确的模型的新研究区越来越多地引起了研究界和行业的关注。在本文中,我们为自2017年以来对与基于深度特征的FAS方法相关的文献综合调查。在这一主题上阐明,基于各种特征和学习方法的语义分类。此外,我们以时间顺序排列,其进化进展和评估标准(数据集内集和数据集互联集合中集)覆盖了FAS的主要公共数据集。最后,我们讨论了开放的研究挑战和未来方向。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译
与传统的头像创建管道相反,这是一个昂贵的过程,现代生成方法直接从照片中学习数据分布,而艺术的状态现在可以产生高度的照片现实图像。尽管大量作品试图扩展无条件的生成模型并达到一定程度的可控性,但要确保多视图一致性,尤其是在大型姿势中,仍然具有挑战性。在这项工作中,我们提出了一个3D肖像生成网络,该网络可产生3D一致的肖像,同时根据有关姿势,身份,表达和照明的语义参数可控。生成网络使用神经场景表示在3D中建模肖像,其生成以支持明确控制的参数面模型为指导。尽管可以通过将图像与部分不同的属性进行对比,但可以进一步增强潜在的分离,但在非面积区域(例如,在动画表达式)时,仍然存在明显的不一致。我们通过提出一种体积混合策略来解决此问题,在该策略中,我们通过将动态和静态辐射场融合在一起,形成一个复合输出,并从共同学习的语义场中分割了两个部分。我们的方法在广泛的实验中优于先前的艺术,在自由视点中观看时,在自然照明中产生了逼真的肖像。所提出的方法还证明了真实图像以及室外卡通面孔的概括能力,在实际应用中显示出巨大的希望。其他视频结果和代码将在项目网页上提供。
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
在过去几年中,许多面部分析任务已经完成了惊人的性能,其中应用包括来自单个“野外”图像的面部生成和3D面重建。尽管如此,据我们所知,没有方法可以从“野外”图像中产生渲染的高分辨率3D面,并且这可以归因于:(a)可用数据的跨度进行培训(b)缺乏可以成功应用于非常高分辨率数据的强大方法。在这项工作中,我们介绍了一种能够从单个“野外”图像中重建光电型渲染3D面部几何和BRDF的第一种方法。我们捕获了一个大型的面部形状和反射率,我们已经公开了。我们用精确的面部皮肤漫射和镜面反射,自遮挡和地下散射近似来定义快速面部光电型拟型渲染方法。有了这一点,我们训练一个网络,将面部漫射和镜面BRDF组件与烘焙照明的形状和质地一起脱颖而出,以最先进的3DMM配件方法重建。我们的方法通过显着的余量优于现有技术,并从单个低分辨率图像重建高分辨率3D面,这可以在各种应用中呈现,并桥接不一体谷。
translated by 谷歌翻译