智能论文笔记

DiffuStereo: High Quality Human Reconstruction via Diffusion-based Stereo Using Sparse Cameras

Ruizhi Shao , Zerong Zheng , Hongwen Zhang , Jingxiang Sun , Yebin Liu

分类：计算机视觉

2022-07-16

我们提出了Diffustereo，这是一种仅使用稀疏相机（在这项工作中8）进行高质量3D人类重建的新型系统。其核心是一种新型基于扩散的立体声模块，该模块将扩散模型（一种强大的生成模型）引入迭代立体声匹配网络中。为此，我们设计了一个新的扩散内核和其他立体限制，以促进网络中的立体声匹配和深度估计。我们进一步提出了一个多级立体声网络体系结构，以处理高分辨率（最多4K）输入，而无需无法负担的内存足迹。考虑到人类的一组稀疏视图颜色图像，提出的基于多级扩散的立体声网络可以产生高准确的深度图，然后通过有效的多视图融合策略将其转换为高质量的3D人类模型。总体而言，我们的方法可以自动重建人类模型，其质量是高端密集摄像头钻机，这是使用更轻巧的硬件设置来实现的。实验表明，我们的方法在定性和定量上都优于最先进的方法。

translated by 谷歌翻译

Learning Implicit Templates for Point-Based Clothed Human Modeling

Siyou Lin , Hongwen Zhang , Zerong Zheng , Ruizhi Shao , Yebin Liu

分类：计算机视觉

2022-07-14

我们提出了FITE，这是一种对服装中的人体化身进行建模的第一刻度框架。我们的框架首先学习了代表粗衣拓扑的隐式表面模板，然后采用模板来指导点集的产生，从而进一步捕获姿势依赖的服装变形，例如皱纹。我们的管道结合了隐式和明确表示的优点，即处理变化拓扑的能力以及有效捕获细节的能力。我们还提出了扩散的皮肤，以促进模板训练，尤其是用于宽松衣服的模板训练，以及基于投影的姿势编码，以从网格模板中提取姿势信息，而无需预定义的紫外线图或连接性。我们的代码可在https://github.com/jsnln/fite上公开获取。

translated by 谷歌翻译

PyMAF-X: Towards Well-aligned Full-body Model Regression from Monocular Images

Hongwen Zhang , Yating Tian , Yuxiang Zhang , Mengcheng Li , Liang An , Zhenan Sun , Yebin Liu

分类：计算机视觉

2022-07-13

基于回归的方法可以通过直接以馈送方式将原始像素直接映射到模型参数来估算从单眼图像的身体，手甚至全身模型。但是，参数的微小偏差可能导致估计的网格和输入图像之间的明显未对准，尤其是在全身网格恢复的背景下。为了解决这个问题，我们建议在我们的回归网络中进行锥体网状对准反馈（PYMAF）循环，以进行良好的人类网格恢复，并将其扩展到PYMAF-X，以恢复表达全身模型。 PYMAF的核心思想是利用特征金字塔并根据网格图像对准状态明确纠正预测参数。具体而言，给定当前预测的参数，将相应地从更优质的特征中提取网格对准的证据，并将其送回以进行参数回流。为了增强一致性的看法，采用辅助密集的监督来提供网格图像对应指南，同时引入了空间对齐的注意，以使我们的网络对全球环境的认识。当扩展PYMAF以进行全身网状恢复时，PYMAF-X中提出了一种自适应整合策略来调整肘部扭转旋转，该旋转会产生自然腕部姿势，同时保持部分特定估计的良好性能。我们的方法的功效在几个基准数据集上得到了验证，以实现身体和全身网状恢复，在该数据集中，PYMAF和PYMAF-X有效地改善了网格图像的对准并实现了新的最新结果。具有代码和视频结果的项目页面可以在https://www.liuyebin.com/pymaf-x上找到。

translated by 谷歌翻译

Geometry-aware Single-image Full-body Human Relighting

Chaonan Ji , Tao Yu , Kaiwen Guo , Jingxin Liu , Yebin Liu

分类：计算机视觉

2022-07-11

单像人类的重新构成旨在通过将输入图像分解为反照率，形状和照明，以在新的照明条件下重新确定目标人。尽管可以实现合理的重新确定结果，但以前的方法均遭受反照率和照明之间的纠缠以及缺乏硬阴影的纠缠，这大大降低了现实主义。为了解决这两个问题，我们提出了一个几何学意识到的单像人类重心框架，该框架利用单位图几何重建来共同部署传统的图形渲染和神经渲染技术。对于脱光灯，我们探索了UNET架构的缺点，并提出了修改后的HRNET，从而在反照率和照明之间获得了更好的分解。为了获得重新，我们引入了一个基于射线跟踪的每个像素照明表示形式，该表示明确地对高频阴影进行了建模，并提出了一个基于学习的阴影修补模块，以恢复来自射线追踪的阴影图的逼真的逼真的阴影（包括硬铸造阴影）。我们的框架能够生成照片逼真的高频阴影，例如在挑战性的照明条件下铸造阴影。广泛的实验表明，我们提出的方法在合成图像和真实图像上都优于先前的方法。

translated by 谷歌翻译

AvatarCap: Animatable Avatar Conditioned Monocular Human Volumetric Capture

Zhe Li , Zerong Zheng , Hongwen Zhang , Chaonan Ji , Yebin Liu

分类：计算机视觉

2022-07-05

为了解决由单眼人类体积捕获中部分观察结果引起的不足问题，我们提出了Avatarcap，这是一个新颖的框架，该框架将可动画的化身引入了可见和不可见区域中高保真重建的捕获管道中。我们的方法首先为该主题创建一个可动画化的化身，从少量（〜20）的3D扫描作为先验。然后给出了该主题的单眼RGB视频，我们的方法集成了图像观察和头像先验的信息，因此无论可见性如何，都会重新构建具有动态细节的高保真3D纹理模型。为了学习有效的头像，仅从少数样品中捕获体积捕获，我们提出了GeoteXavatar，该地理Xavatar利用几何和纹理监督以分解的隐式方式限制了姿势依赖性动力学。进一步提出了一种涉及规范正常融合和重建网络的头像条件的体积捕获方法，以在观察到的区域和无形区域中整合图像观测和化身动力学，以整合图像观测和头像动力学。总体而言，我们的方法可以通过详细的和姿势依赖性动力学实现单眼人体体积捕获，并且实验表明我们的方法优于最新的最新状态。代码可在https://github.com/lizhe00/avatarcap上找到。

translated by 谷歌翻译

Geo-NI: Geometry-aware Neural Interpolation for Light Field Rendering

Gaochang Wu , Yuemei Zhou , Yebin Liu , Lu Fang , Tianyou Chai

分类：计算机视觉

2022-06-20

在本文中，我们提出了一个几何感知的神经插值（GEO-NI），用于光场渲染。以前的基于学习的方法要么依赖于神经网络执行直接插值的能力，因此我们将其称为神经插值（NI），或者探索用于新型视图合成的场景几何形状，也称为基于深度图像的渲染（Dibr）。取而代之的是，我们通过使用新颖的Dibr管道来启动NI来结合这两种方法背后的想法。具体而言，提出的GEO-NI首先使用一组深度假设剪切的输入光场执行NI。然后，通过根据不同深度假设下的重建质量分配新的重建成本量来通过分配新的重建成本量来实现DIBR。重建成本被解释为通过沿深度假设的尺寸混合重建的光场来呈现最终输出光场的混合重量。通过结合Ni和Dibr的优势，拟议的Geo-Ni能够在场景几何形状的帮助下以巨大的差异来呈现视图，同时当深度容易含糊不清时，同时还可以重建非斜角效应。各种数据集上的广泛实验证明了所提出的几何感光光场渲染框架的出色性能。

translated by 谷歌翻译

GIMO: Gaze-Informed Human Motion Prediction in Context

Yang Zheng , Yanchao Yang , Kaichun Mo , Jiaman Li , Tao Yu , Yebin Liu , C. Karen Liu , Leonidas J. Guibas

分类：计算机视觉

2022-04-20

预测人类运动对于辅助机器人和AR/VR应用至关重要，在这种机器人和AR/VR应用中，与人类的互动需要安全舒适。同时，准确的预测取决于理解场景上下文和人类意图。尽管许多作品研究场景 - 意识到人类的运动预测，但由于缺乏以自我为中心的观点，这些观点揭示了人类意图以及运动和场景的多样性有限，因此后者在很大程度上并没有得到充实的影响。为了减少差距，我们提出了一个大规模的人类运动数据集，该数据集可提供高质量的身体姿势序列，场景扫描以及以自我为中心的视图，目光注视，这是推断人类意图的代孕。通过使用惯性传感器进行运动捕获，我们的数据收集与特定场景无关，这进一步增强了从主题中观察到的运动动力学。我们对利用眼睛目光进行以自我为中心的人类运动预测的优势进行了广泛的研究，并进行了各种最新的架构。此外，为了实现目光的全部潜力，我们提出了一种新型的网络体系结构，该架构可以在目光和运动分支之间进行双向交流。我们的网络在拟议的数据集上实现了人类运动预测的最高性能，这要归功于眼睛凝视的意图信息以及动作调制的DeNocied Ceaze特征。代码和数据可以在https://github.com/y-zheng18/gimo上找到。

translated by 谷歌翻译

HVTR: Hybrid Volumetric-Textural Rendering for Human Avatars

Tao Hu , Tao Yu , Zerong Zheng , He Zhang , Yebin Liu , Matthias Zwicker

分类：计算机视觉

2021-12-19

我们提出了一种新型神经渲染管线，混合体积纹理渲染（HVTR），其合成了从任意姿势和高质量的任意姿势的虚拟人体化身。首先，我们学会在人体表面的致密UV歧管上编码铰接的人体运动。为了处理复杂的运动（例如，自闭电），我们将基于动态姿势的神经辐射场建造关于UV歧管的编码信息来构建基于动态姿态条件的神经辐射场的3D体积表示。虽然这允许我们表示具有更改拓扑的3D几何形状，但体积渲染是计算沉重的。因此，我们仅使用姿势调节的下采样的神经辐射场（PD-NERF）使用粗糙的体积表示，我们可以以低分辨率有效地呈现。此外，我们学习2D纹理功能，这些功能与图像空间中呈现的体积功能融合。我们的方法的关键优势是，我们可以通过快速GaN的纹理渲染器将融合功能转换为高分辨率，高质量的化身。我们证明混合渲染使HVTR能够处理复杂的动作，在用户控制的姿势/形状下呈现高质量的化身，甚至松散的衣服，最重要的是，在推理时间快速。我们的实验结果还证明了最先进的定量结果。

translated by 谷歌翻译

FENeRF: Face Editing in Neural Radiance Fields

Jingxiang Sun , Xuan Wang , Yong Zhang , Xiaoyu Li , Qi Zhang , Yebin Liu , Jue Wang

分类：计算机视觉

2021-11-30

以前的纵向图像生成方法大致分为两类：2D GAN和3D感知的GAN。 2D GAN可以产生高保真肖像，但具有低视图一致性。 3D感知GaN方法可以维护查看一致性，但它们所生成的图像不是本地可编辑的。为了克服这些限制，我们提出了FENERF，一个可以生成查看一致和本地可编辑的纵向图像的3D感知生成器。我们的方法使用两个解耦潜码，以在具有共享几何体的空间对齐的3D卷中生成相应的面部语义和纹理。从这种底层3D表示中受益，FENERF可以联合渲染边界对齐的图像和语义掩码，并使用语义掩模通过GaN反转编辑3D音量。我们进一步示出了可以从广泛可用的单手套图像和语义面膜对中学习这种3D表示。此外，我们揭示了联合学习语义和纹理有助于产生更精细的几何形状。我们的实验表明FENERF在各种面部编辑任务中优于最先进的方法。

translated by 谷歌翻译

DoubleField: Bridging the Neural Surface and Radiance Fields for High-fidelity Human Reconstruction and Rendering

Ruizhi Shao , Hongwen Zhang , He Zhang , Mingjia Chen , Yanpei Cao , Tao Yu , Yebin Liu

分类：计算机视觉

2021-06-07

我们介绍了Doublefield，这是一个新颖的框架，结合了高保真人体重建和渲染的表面场和辐射场的优点。在DoubleField中，表面字段和辐射字段通过共享特征嵌入和表面引导采样策略相关联。此外，将视图到视图变压器被引入熔丝多视图特征，并直接从高分辨率输入学习视图依赖性功能。通过DoubleField和视图到视图变压器的建模功能，我们的方法显着提高了几何形状和外观的重建质量，同时支持直接推理，现场特定的高分辨率FineTuning和快速渲染。 Doublefield的功效通过多个数据集的定量评估和真实世界稀疏多视图系统的定性结果验证，显示了其高质量人体模型重建和光学真实自由观点人类渲染的优异能力。数据和源代码将公开用于研究目的。请参阅我们的项目页面：http：//www.liuyebin.com/dbfield/dbfield.html。

translated by 谷歌翻译