固有图像分解(IID)是一个不受限制的问题。因此,传统方法使用手工制作的先验来限制问题。但是,在应对复杂场景时,这些约束受到限制。基于深度学习的方法通过数据隐含地学习了这些约束,但是它们通常会遭受数据集偏见的困扰(由于无法包括所有可能的成像条件)。在本文中,提出了两者的组合。利用语义和不变特征(例如语义和不变特征)以获得语义和物理上合理的反射率转换。这些过渡用于引导具有隐式同质性约束的进行性CNN,以分解反射率和阴影图。进行了一项消融研究,表明拟议的先验和进行性CNN的使用增加了IID的性能。我们提出的数据集和标准现实世界IIW数据集的最新性能都显示了提出的方法的有效性。代码可在https://github.com/morpheus3000/signet上提供
translated by 谷歌翻译
传统上,本征成像或内在图像分解被描述为将图像分解为两层:反射率,材料的反射率;和一个阴影,由光和几何之间的相互作用产生。近年来,深入学习技术已广泛应用,以提高这些分离的准确性。在本调查中,我们概述了那些在知名内在图像数据集和文献中使用的相关度量的结果,讨论了预测所需的内在图像分解的适用性。虽然Lambertian的假设仍然是许多方法的基础,但我们表明,对图像形成过程更复杂的物理原理组件的潜力越来越意识到,这是光学准确的材料模型和几何形状,更完整的逆轻型运输估计。考虑使用的前瞻和模型以及驾驶分解过程的学习架构和方法,我们将这些方法分类为分解的类型。考虑到最近神经,逆和可微分的渲染技术的进步,我们还提供了关于未来研究方向的见解。
translated by 谷歌翻译
固有的图像分解是一个重要且长期存在的计算机视觉问题。给定输入映像,恢复物理场景属性的定位不足。几个出于身体动机的先验已被用来限制固有图像分解的优化问题的解决方案空间。这项工作利用了深度学习的优势,并表明它可以以高效率解决这个具有挑战性的计算机视觉问题。焦点在于特征编码阶段,从输入图像中提取不同固有层的区分特征。为了实现这一目标,我们探讨了高维特征嵌入空间中不同内在组件的独特特性。我们定义特征分布差异,以有效地分离不同内在组件的特征向量。功能分布也受到限制,以通过特征分布一致性符合真实的分布。此外,还提供了一种数据完善方法来消除Sintel数据集中的数据不一致,使其更适合固有图像分解。我们的方法还扩展到基于相邻帧之间像素的对应关系的固有视频分解。实验结果表明,我们提出的网络结构可以胜过现有的最新最新。
translated by 谷歌翻译
由于任意多样化的物体形状,空间变化的材料和复杂的照明之间的无数相互作用,室内场景表现出显着的外观变化。由可见光和看不见的光源引起的阴影,亮点和反射需要有关反向渲染的远程相互作用的推理,该相互作用旨在恢复图像形成的组成部分,即形状,形状,材料和照明。在这项工作中,我们的直觉是,变压器体系结构学到的长期关注非常适合解决单像逆渲染中的长期挑战。我们通过对密集视力变压器Irisformer的特定实例化进行了证明,该实例是在单任务和多任务反向渲染所需的单任务和多任务推理上表现出色。具体而言,我们提出了一个变压器体系结构,以同时估算室内场景的单个图像中的深度,正态,空间变化的反照率,粗糙度和照明。我们在基准数据集上进行的广泛评估显示了上述每个任务的最新结果,从而使应用程序诸如对象插入和材料编辑之类的应用程序具有比先前的作品更大的光真实性的材料编辑。代码和数据将在https://github.com/vilab-ucsd/irisformer上公开发布。
translated by 谷歌翻译
照明是摄影的决定因素,它影响了情感的样式,表达甚至图像的质量。实际上,创建或找到令人满意的照明条件是费力且耗时的,因此开发一种技术来操纵图像中的照明是非常有价值的。尽管以前的作品已经基于重新保留图像的物理观点探索了技术,但是对于生成合理的图像,必须进行广泛的监督和先验知识,从而限制了这些作品的概括能力。相比之下,我们采用图像到图像翻译的观点,并暗中合并了传统物理观点的观念。在本文中,我们提出了一个照明感知网络(IAN),该网络遵循从层次采样到从单个图像中逐步重新重新效率的指导。此外,旨在近似物理渲染过程并提取光源的精确描述以进行进一步操作,旨在近似物理渲染过程。我们还引入了一个深度引导的几何编码器,以获取有价值的几何形状和与结构相关的表示,一旦深度信息可用。实验结果表明,我们提出的方法比以前的最先进方法产生更好的定量和定性重新确定结果。代码和模型可在https://github.com/nk-cs-zzl/ian上公开可用。
translated by 谷歌翻译
随着增强的焦点和虚拟现实应用(XR)来说,可以对可以将物体从图像和视频升力到适合各种相关3D任务的表示的算法。 XR设备和应用程序的大规模部署意味着我们不能仅仅依赖于监督学习,因为收集和注释现实世界中无限各种物体的数据是不可行的。我们提出了一种弱监督的方法,能够将物体的单个图像分解成形状(深度和正规),材料(反射率,反射率和发光)和全局照明参数。对于培训,该方法仅依赖于训练对象的粗略初始形状估计来引导学习过程。这种形状监督可以例如从预先预制的深度网络或 - 从传统的结构 - 来自运动管道中的普罗维尔或 - 更慷慨地实现。在我们的实验中,我们表明该方法可以将2D图像成功地将2D图像成功渲染为分解的3D表示并推广到未经证明的对象类别。由于缺乏频繁的评估因缺乏地面真理数据而困难,我们还介绍了一种允许定量评估的照片 - 现实的合成测试集。
translated by 谷歌翻译
我们提出了一种从单个图像中编辑复杂室内照明的方法,其深度和光源分割掩码。这是一个极具挑战性的问题,需要对复杂的光传输进行建模,并仅通过对场景的部分LDR观察,将HDR照明从材料和几何形状中解散。我们使用两个新颖的组件解决了这个问题:1)一种整体场景重建方法,该方法估计场景反射率和参数3D照明,以及2)一个神经渲染框架,从我们的预测中重新呈现场景。我们使用基于物理的室内光表示,可以进行直观的编辑,并推断可见和看不见的光源。我们的神经渲染框架结合了基于物理的直接照明和阴影渲染,深层网络近似于全球照明。它可以捕获具有挑战性的照明效果,例如柔软的阴影,定向照明,镜面材料和反射。以前的单个图像逆渲染方法通常纠缠场景照明和几何形状,仅支持对象插入等应用程序。取而代之的是,通过将参数3D照明估计与神经场景渲染相结合,我们演示了从单个图像中实现完整场景重新确定(包括光源插入,删除和替换)的第一种自动方法。所有源代码和数据将公开发布。
translated by 谷歌翻译
Indoor scenes typically exhibit complex, spatially-varying appearance from global illumination, making inverse rendering a challenging ill-posed problem. This work presents an end-to-end, learning-based inverse rendering framework incorporating differentiable Monte Carlo raytracing with importance sampling. The framework takes a single image as input to jointly recover the underlying geometry, spatially-varying lighting, and photorealistic materials. Specifically, we introduce a physically-based differentiable rendering layer with screen-space ray tracing, resulting in more realistic specular reflections that match the input photo. In addition, we create a large-scale, photorealistic indoor scene dataset with significantly richer details like complex furniture and dedicated decorations. Further, we design a novel out-of-view lighting network with uncertainty-aware refinement leveraging hypernetwork-based neural radiance fields to predict lighting outside the view of the input photo. Through extensive evaluations on common benchmark datasets, we demonstrate superior inverse rendering quality of our method compared to state-of-the-art baselines, enabling various applications such as complex object insertion and material editing with high fidelity. Code and data will be made available at \url{https://jingsenzhu.github.io/invrend}.
translated by 谷歌翻译
单像人类的重新构成旨在通过将输入图像分解为反照率,形状和照明,以在新的照明条件下重新确定目标人。尽管可以实现合理的重新确定结果,但以前的方法均遭受反照率和照明之间的纠缠以及缺乏硬阴影的纠缠,这大大降低了现实主义。为了解决这两个问题,我们提出了一个几何学意识到的单像人类重心框架,该框架利用单位图几何重建来共同部署传统的图形渲染和神经渲染技术。对于脱光灯,我们探索了UNET架构的缺点,并提出了修改后的HRNET,从而在反照率和照明之间获得了更好的分解。为了获得重新,我们引入了一个基于射线跟踪的每个像素照明表示形式,该表示明确地对高频阴影进行了建模,并提出了一个基于学习的阴影修补模块,以恢复来自射线追踪的阴影图的逼真的逼真的阴影(包括硬铸造阴影)。我们的框架能够生成照片逼真的高频阴影,例如在挑战性的照明条件下铸造阴影。广泛的实验表明,我们提出的方法在合成图像和真实图像上都优于先前的方法。
translated by 谷歌翻译
深度完成旨在预测从深度传感器(例如Lidars)中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用,例如自动驾驶,3D重建,增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中,我们首次提供了全面的文献综述,可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议,研究网络体系结构,损失功能,基准数据集和学习策略的设计方面的相关研究。此外,我们在包括室内和室外数据集(包括室内和室外数据集)上进行了三个广泛使用基准测试的模型性能进行定量比较。最后,我们讨论了先前作品的挑战,并为读者提供一些有关未来研究方向的见解。
translated by 谷歌翻译
Images with haze of different varieties often pose a significant challenge to dehazing. Therefore, guidance by estimates of haze parameters related to the variety would be beneficial and their progressive update jointly with haze reduction will allow effective dehazing. To this end, we propose a multi-network dehazing framework containing novel interdependent dehazing and haze parameter updater networks that operate in a progressive manner. The haze parameters, transmission map and atmospheric light, are first estimated using specific convolutional networks allowing color-cast handling. The estimated parameters are then used to guide our dehazing module, where the estimates are progressively updated by novel convolutional networks. The updating takes place jointly with progressive dehazing by a convolutional network that invokes inter-step dependencies. The joint progressive updating and dehazing gradually modify the haze parameter estimates toward achieving effective dehazing. Through different studies, our dehazing framework is shown to be more effective than image-to-image mapping or predefined haze formation model based dehazing. Our dehazing framework is qualitatively and quantitatively found to outperform the state-of-the-art on synthetic and real-world hazy images of several datasets with varied haze conditions.
translated by 谷歌翻译
高动态范围(HDR)成像是一种允许广泛的动态曝光范围的技术,这在图像处理,计算机图形和计算机视觉中很重要。近年来,使用深度学习(DL),HDR成像有重大进展。本研究对深层HDR成像方法的最新发展进行了综合和富有洞察力的调查和分析。在分层和结构上,将现有的深层HDR成像方法基于(1)输入曝光的数量/域,(2)学习任务数,(3)新传感器数据,(4)新的学习策略,(5)应用程序。重要的是,我们对关于其潜在和挑战的每个类别提供建设性的讨论。此外,我们审查了深度HDR成像的一些关键方面,例如数据集和评估指标。最后,我们突出了一些打开的问题,并指出了未来的研究方向。
translated by 谷歌翻译
我们考虑了户外照明估算的挑战性问题,即影像逼真的虚拟对象将其插入照片中的目标。现有在室外照明估计的作品通常将场景照明简化为环境图,该图无法捕获室外场景中的空间变化的照明效果。在这项工作中,我们提出了一种神经方法,该方法可以从单个图像中估算5D HDR光场,以及一个可区分的对象插入公式,该公式可以通过基于图像的损失来端对端训练,从而鼓励现实主义。具体而言,我们设计了针对室外场景量身定制的混合照明表示,其中包含一个HDR Sky Dome,可处理太阳的极端强度,并具有体积的照明表示,该代表模拟了周围场景的空间变化外观。通过估计的照明,我们的阴影感知对象插入是完全可区分的,这使得对复合图像的对抗训练可以为照明预测提供其他监督信号。我们在实验上证明,混合照明表示比现有的室外照明估计方法更具性能。我们进一步显示了AR对象插入在自主驾驶应用程序中的好处,在对我们的增强数据进行培训时,我们可以在其中获得3D对象检测器的性能提高。
translated by 谷歌翻译
We present a multi-view inverse rendering method for large-scale real-world indoor scenes that reconstructs global illumination and physically-reasonable SVBRDFs. Unlike previous representations, where the global illumination of large scenes is simplified as multiple environment maps, we propose a compact representation called Texture-based Lighting (TBL). It consists of 3D meshs and HDR textures, and efficiently models direct and infinite-bounce indirect lighting of the entire large scene. Based on TBL, we further propose a hybrid lighting representation with precomputed irradiance, which significantly improves the efficiency and alleviate the rendering noise in the material optimization. To physically disentangle the ambiguity between materials, we propose a three-stage material optimization strategy based on the priors of semantic segmentation and room segmentation. Extensive experiments show that the proposed method outperforms the state-of-the-arts quantitatively and qualitatively, and enables physically-reasonable mixed-reality applications such as material editing, editable novel view synthesis and relighting. The project page is at https://lzleejean.github.io/TexIR.
translated by 谷歌翻译
With the development of convolutional neural networks, hundreds of deep learning based dehazing methods have been proposed. In this paper, we provide a comprehensive survey on supervised, semi-supervised, and unsupervised single image dehazing. We first discuss the physical model, datasets, network modules, loss functions, and evaluation metrics that are commonly used. Then, the main contributions of various dehazing algorithms are categorized and summarized. Further, quantitative and qualitative experiments of various baseline methods are carried out. Finally, the unsolved issues and challenges that can inspire the future research are pointed out. A collection of useful dehazing materials is available at \url{https://github.com/Xiaofeng-life/AwesomeDehazing}.
translated by 谷歌翻译
动态对象对机器人对环境的看法产生了重大影响,这降低了本地化和映射等基本任务的性能。在这项工作中,我们通过在由动态对象封闭的区域中合成合理的颜色,纹理和几何形状来解决这个问题。我们提出了一种新的几何感知Dynafill架构,其遵循粗略拓扑,并将我们所通用的经常性反馈机制结合到自适应地融合来自之前的时间步来的信息。我们使用对抗性培训来优化架构,以综合精细的现实纹理,使其能够以空间和时间相干的方式在线在线遮挡地区的幻觉和深度结构,而不依赖于未来的帧信息。将我们的待遇问题作为图像到图像到图像的翻译任务,我们的模型还纠正了与场景中动态对象的存在相关的区域,例如阴影或反射。我们引入了具有RGB-D图像,语义分段标签,摄像机的大型高估数据集,以及遮挡区域的地面RGB-D信息。广泛的定量和定性评估表明,即使在挑战天气条件下,我们的方法也能实现最先进的性能。此外,我们使用综合图像显示基于检索的视觉本地化的结果,该图像证明了我们方法的效用。
translated by 谷歌翻译
现代光学卫星传感器使高分辨率立体声重建。但是在观察地球从空间推动立体声匹配时挑战成像条件。在实践中,由此产生的数字表面模型(DSM)相当嘈杂,并且通常不会达到3D城市建模等高分辨率应用所需的准确性。可以说,基于低电平图像相似性的立体声对应不足,并且应该互补关于超出基本局部平滑度的预期表面几何的先验知识。为此,我们介绍了Resptepth,这是一个卷积神经网络,其在示例数据之前学习如此表达几何。 Restepth在调节图像上的细化时改进初始原始的立体声DSM。即,它充当了一个智能,学习的后处理过滤器,可以无缝地补充任何立体声匹配管道。在一系列实验中,我们发现所提出的方法始终如一地改善了定量和定性的立体声DSM。我们表明,网络权重中的先前编码捕获了城市设计的有意义的几何特征,这也概括了不同地区,甚至从一个城市到另一个城市。此外,我们证明,通过对各种立体对的训练,RESPTH可以在成像条件和采集几何体中获得足够的不变性。
translated by 谷歌翻译
Google Research Basecolor Metallic Roughness Normal Multi-View Images NeRD Volume Decomposed BRDF Relighting & View synthesis Textured MeshFigure 1: Neural Reflectance Decomposition for Relighting. We encode multiple views of an object under varying or fixed illumination into the NeRD volume.We decompose each given image into geometry, spatially-varying BRDF parameters and a rough approximation of the incident illumination in a globally consistent manner. We then extract a relightable textured mesh that can be re-rendered under novel illumination conditions in real-time.
translated by 谷歌翻译
图像协调旨在调整前景的外观,使其更兼容背景。由于对背景照明方向缺乏了解,现有的作品无法产生现实的前景着色。在本文中,我们将图像协调分解为两个子问题:1)背景图像的照明估计和前景对象的渲染。在解决这两个子问题之前,我们首先通过神经渲染框架学习方向感知的照明描述符,其中密钥是一个着色模块,其将阴影场分解为给定深度信息的多个着色组件。然后我们设计背景照明估计模块,以从背景中提取方向感知的照明描述符。最后,照明描述符与神经渲染框架结合使用,以生成包含新颖谐波阴影的统一前景图像。此外,我们构建了一种照片 - 现实的合成图像协调数据集,其包含基于图像的照明的许多阴影变化。对该数据集的广泛实验证明了该方法的有效性。我们的数据集和代码将公开可用。
translated by 谷歌翻译
大多数室内3D场景重建方法都致力于恢复3D几何和场景布局。在这项工作中,我们超越了这一点提出Photoscene,该框架是一个场景的输入图像以及大约对齐的CAD几何(自动或手动指定的重建),并构建具有高质量材料和高质量材料和高质量的材料的photorealistic Digital Twin类似的照明。我们使用程序材料图对场景材料进行建模;这样的图代表了逼真的和分辨率无关的材料。我们优化了这些图的参数及其纹理量表和旋转,以及场景照明,以通过可区分的渲染层最好地匹配输入图像。我们评估了从扫描仪,Sun RGB-D和库存照片的对象和布局重建的技术,并证明我们的方法重建高质量的,完全可重新可重新可重新的3D场景,这些场景可以在任意观点,Zooms和Lighting下重新渲染。
translated by 谷歌翻译