鉴于其广泛的应用,已经对人面部交换的任务进行了许多尝试。尽管现有的方法主要依赖于乏味的网络和损失设计,但它们仍然在源和目标面之间的信息平衡中挣扎,并倾向于产生可见的人工制品。在这项工作中,我们引入了一个名为StylesWap的简洁有效的框架。我们的核心想法是利用基于样式的生成器来增强高保真性和稳健的面部交换,因此可以采用发电机的优势来优化身份相似性。我们仅通过最小的修改来确定,StyleGAN2体系结构可以成功地处理来自源和目标的所需信息。此外,受到TORGB层的启发,进一步设计了交换驱动的面具分支以改善信息的融合。此外,可以采用stylegan倒置的优势。特别是,提出了交换引导的ID反转策略来优化身份相似性。广泛的实验验证了我们的框架会产生高质量的面部交换结果,从而超过了最先进的方法,既有定性和定量。
translated by 谷歌翻译
生成高质量的艺术肖像视频是计算机图形和愿景中的一项重要且理想的任务。尽管已经提出了一系列成功的肖像图像图像模型模型,但这些面向图像的方法在应用于视频(例如固定框架尺寸,面部对齐的要求,缺失的非种族细节和缺失的非种族细节和缺失的要求)时,具有明显的限制。时间不一致。在这项工作中,我们通过引入一个新颖的Vtoonify框架来研究具有挑战性的可控高分辨率肖像视频风格转移。具体而言,Vtoonify利用了Stylegan的中高分辨率层,以基于编码器提取的多尺度内容功能来渲染高质量的艺术肖像,以更好地保留框架细节。由此产生的完全卷积体系结构接受可变大小的视频中的非对齐面孔作为输入,从而有助于完整的面部区域,并在输出中自然动作。我们的框架与现有的基于Stylegan的图像图像模型兼容,以将其扩展到视频化,并继承了这些模型的吸引力,以进行柔性风格控制颜色和强度。这项工作分别为基于收藏和基于示例的肖像视频风格转移而建立在Toonify和DualStylegan的基于Toonify和Dualstylegan的Vtoonify的两个实例化。广泛的实验结果证明了我们提出的VTOONIFY框架对现有方法的有效性在生成具有灵活风格控件的高质量和临时艺术肖像视频方面的有效性。
translated by 谷歌翻译
3D人类的姿势和形状估计(又称“人网恢复”)取得了实质性进展。研究人员主要关注新算法的发展,而对涉及的其他关键因素的关注较少。这可能会导致最佳基线,从而阻碍对新设计方法的公平和忠实的评估。为了解决这个问题,这项工作从算法以外的三个探索性观点中提出了首次全面的基准测试研究。 1)数据集。对31个数据集的分析揭示了数据样本的不同影响:具有关键属性的数据集(即多样化的姿势,形状,相机特征,骨干特征)更有效。高质量数据集的战略选择和组合可以显着提高模型性能。 2)骨干。从CNN到变压器的10个骨干的实验表明,从接近任务中学到的知识很容易转移到人网状恢复中。 3)培训策略。正确的增强技术和损失设计至关重要。通过上述发现,我们在具有相对简单的模型的3DPW测试集上实现了47.3 mm的PA-MPJPE。更重要的是,我们为算法的公平比较提供了强大的基准,以及将来建立有效培训配置的建议。代码库可在http://github.com/smplbody/hmr-benchmarks上获得
translated by 谷歌翻译
高质量的HDRI(高动态范围图像),通常是HDR Panoramas,是创建图形中3D场景的3D场景的最受欢迎的方法之一。考虑到捕获HDRI的困难,高度需要一种多功能和可控的生成模型,外行用户可以直观地控制生成过程。但是,现有的最新方法仍然难以合成复杂场景的高质量全景。在这项工作中,我们提出了一个零击文本驱动的框架Text2Light,以生成4K+分辨率HDRIS,而无需配对培训数据。给定一个自由形式的文本作为场景的描述,我们通过两个专用步骤合成相应的HDRI:1)在低动态范围(LDR)(LDR)和低分辨率的文本驱动全景生成,以及2)超分辨率逆音映射在分辨率和动态范围内扩大LDR Panorama。具体来说,为了获得零击文本驱动的全景生成,我们首先将双代码簿作为不同环境纹理的离散表示形式。然后,在预先训练的剪辑模型的驱动下,一个文本条件的全局采样器学会了根据输入文本从全局代码簿中采样整体语义。此外,一个结构感知的本地采样器学会了以整体语义为指导的LDR Panoramas逐个贴片。为了获得超分辨率的逆音映射,我们从LDR Panorama得出了360度成像的连续表示,作为一组固定在球体上的结构性潜在代码。这种连续表示可以使多功能模块同时提高分辨率和动态范围。广泛的实验证明了Text2light在产生高质量HDR全景方面具有卓越的能力。此外,我们还展示了我们在现实渲染和沉浸式VR中工作的可行性。
translated by 谷歌翻译
我们提出了针对微小神经网络的域概括(DG)的系统研究,这个问题对于机上机器学习应用至关重要,但在研究仅针对大型模型的文献中被忽略了。微小的神经网络具有较少的参数和较低的复杂性,因此不应以与DG应用的大型同行相同的方式进行训练。我们发现知识蒸馏是解决问题的有力候选者:它优于使用具有较大利润的大型模型开发的最先进的DG方法。此外,我们观察到,与域移动有关的测试数据上的教师学生绩效差距大于分布数据的绩效差距。为了改善微小神经网络而不增加部署成本的DG,我们提出了一个简单的想法,称为分布外知识蒸馏(OKD),该想法旨在教导学生如何处理(综合)分发数据和分布数据和被证明是解决问题的有前途的框架。我们还为创建DG数据集的可扩展方法(在上下文中称为域移动(DOSCO))提供了可扩展的方法,该数据可以在不大量努力的情况下按大规模应用大量数据。代码和模型以\ url {https://github.com/kaiyangzhou/on-device-dg}发布。
translated by 谷歌翻译
本文探讨了管状结构提取任务的点集表示。与传统的掩码表示相比,点集表示享有其灵活性和表示能力,这不会受到固定网格作为掩模的限制。受此启发,我们提出了PointCatter,这是管状结构提取任务的分割模型的替代方法。PointCatter将图像分为散射区域,并对每个散点区域预测点。我们进一步提出了基于贪婪的区域的两分匹配算法,以端到端训练网络。我们在四个公共管状数据集上基准测试了点刻表,并且有关管状结构分割和中心线提取任务的广泛实验证明了我们方法的有效性。代码可在https://github.com/zhangzhao2022/pointscatter上找到。
translated by 谷歌翻译
人类运动建模对于许多现代图形应用非常重要,这些应用通常需要专业技能。为了消除外行的技能障碍,最近的运动生成方法可以直接产生以自然语言为条件的人类动作。但是,通过各种文本输入,实现多样化和细粒度的运动产生,仍然具有挑战性。为了解决这个问题,我们提出了MotionDiffuse,这是第一个基于基于文本模型的基于文本驱动的运动生成框架,该框架证明了现有方法的几种期望属性。 1)概率映射。 MotionDiffuse不是确定性的语言映射,而是通过一系列注入变化的步骤生成动作。 2)现实的综合。 MotionDiffuse在建模复杂的数据分布和生成生动的运动序列方面表现出色。 3)多级操作。 Motion-Diffuse响应有关身体部位的细粒度指示,以及随时间变化的文本提示,任意长度运动合成。我们的实验表明,Motion-Diffuse通过说服文本驱动运动产生和动作条件运动的运动来优于现有的SOTA方法。定性分析进一步证明了MotionDiffuse对全面运动产生的可控性。主页:https://mingyuan-zhang.github.io/projects/motiondiffuse.html
translated by 谷歌翻译
神经表面重建旨在基于多视图图像重建准确的3D表面。基于神经量的先前方法主要训练完全隐式的模型,它们需要单个场景的数小时培训。最近的努力探讨了明确的体积表示,该表示通过记住可学习的素网格中的重要信息,从而大大加快了优化过程。但是,这些基于体素的方法通常在重建细粒几何形状方面遇到困难。通过实证研究,我们发现高质量的表面重建取决于两个关键因素:构建相干形状的能力和颜色几何依赖性的精确建模。特别是,后者是准确重建细节的关键。受这些发现的启发,我们开发了Voxurf,这是一种基于体素的方法,用于有效,准确的神经表面重建,该方法由两个阶段组成:1)利用可学习的特征网格来构建颜色场并获得连贯的粗糙形状,并且2)使用双色网络来完善详细的几何形状,可捕获精确的颜色几何依赖性。我们进一步引入了层次几何特征,以启用跨体素的信息共享。我们的实验表明,Voxurf同时达到了高效率和高质量。在DTU基准测试中,与最先进的方法相比,Voxurf获得了更高的重建质量,训练的加速度为20倍。
translated by 谷歌翻译
基于深度学习的单图像超分辨率(SISR)方法引起了人们的关注,并在现代高级GPU上取得了巨大的成功。但是,大多数最先进的方法都需要大量参数,记忆和计算资源,这些参数通常会显示在当前移动设备CPU/NPU上时显示出较低的推理时间。在本文中,我们提出了一个简单的普通卷积网络,该网络具有快速最近的卷积模块(NCNET),该模块对NPU友好,可以实时执行可靠的超级分辨率。提出的最近的卷积具有与最近的UP采样相同的性能,但更快,更适合Android NNAPI。我们的模型可以很容易地在具有8位量化的移动设备上部署,并且与所有主要的移动AI加速器完全兼容。此外,我们对移动设备上的不同张量操作进行了全面的实验,以说明网络体系结构的效率。我们的NCNET在DIV2K 3X数据集上进行了训练和验证,并且与其他有效的SR方法的比较表明,NCNET可以实现高保真SR结果,同时使用更少的推理时间。我们的代码和预估计的模型可在\ url {https://github.com/algolzw/ncnet}上公开获得。
translated by 谷歌翻译
Stylegan家族是无条件产生的最受欢迎的生成对抗网络(GAN)之一。尽管其性能令人印象深刻,但其对存储和计算的需求很高,仍阻碍了他们在资源约束设备上的部署。本文提供了对流行风格的建筑的蒸馏的全面研究。我们的关键见解是,StyleGAN蒸馏的主要挑战在于输出差异问题,在该问题中,教师和学生模型在给定相同的输入潜在代码的情况下产生不同的输出。标准知识蒸馏损失通常在这种异质蒸馏场景下失败。我们对此差异问题的原因和影响进行彻底分析,并确定映射网络在确定生成图像的语义信息中起着至关重要的作用。基于这一发现,我们为学生模型提出了一种新颖的初始化策略,该策略可以确保最大程度的输出一致性。为了进一步增强教师和学生模型之间的语义一致性,我们提出了基于潜在的蒸馏损失,可保留潜在空间中的语义关系。广泛的实验证明了我们的方法在蒸馏式stylegan2和stylegan3中的有效性,超过了现有的gan蒸馏方法。
translated by 谷歌翻译