我们提出了Bokehme,这是一种混合散景渲染框架,将神经渲染器与经典的身体动机渲染器结合。鉴于单个图像和潜在的不完美差异图,Bokehme生成了具有可调节的模糊大小,焦平面和光圈形状的高分辨率照片现实玻璃效果。为此,我们分析了基于经典散射方法的误差,并得出了计算误差图的公式。基于此公式,我们通过基于散射的方法实现经典渲染器,并提出一个两阶段的神经渲染器,以从经典渲染器中修复错误的区域。神经渲染器采用动态多尺度方案来有效处理任意模糊大小,并经过训练以处理不完美的差异输入。实验表明,我们的方法与对合成图像数据和具有预测差异的真实图像数据的先前方法进行了比较。进一步进行用户研究以验证我们方法的优势。
translated by 谷歌翻译
部分闭塞作用是一种现象,即相机附近的模糊物体是半透明的,导致部分外观被遮挡的背景。但是,由于现有的散景渲染方法,由于在全焦点图像中的遮挡区域缺少信息而模拟现实的部分遮挡效果是一项挑战。受到可学习的3D场景表示的启发,我们试图通过引入一种基于MPI的新型高分辨率Bokeh渲染框架来解决部分遮挡,称为MPIB。为此,我们首先介绍了如何将MPI表示形式应用于散布渲染的分析。基于此分析,我们提出了一个MPI表示模块与背景介入模块相结合,以实现高分辨率场景表示。然后,可以将此表示形式重复使用以根据控制参数呈现各种散景效应。为了训练和测试我们的模型,我们还为数据生成设计了基于射线追踪的散景生成器。对合成和现实世界图像的广泛实验验证了该框架的有效性和灵活性。
translated by 谷歌翻译
神经辐射场(NERF)及其变体在代表3D场景和合成照片现实的小说视角方面取得了巨大成功。但是,它们通常基于针孔摄像头模型,并假设全焦点输入。这限制了它们的适用性,因为从现实世界中捕获的图像通常具有有限的场地(DOF)。为了减轻此问题,我们介绍了DOF-NERF,这是一种新型的神经渲染方法,可以处理浅的DOF输入并可以模拟DOF效应。特别是,它扩展了NERF,以模拟按照几何光学的原理模拟镜头的光圈。这样的物理保证允许DOF-NERF使用不同的焦点配置操作视图。 DOF-NERF受益于显式光圈建模,还可以通过调整虚拟光圈和焦点参数来直接操纵DOF效果。它是插件,可以插入基于NERF的框架中。关于合成和现实世界数据集的实验表明,DOF-NERF不仅在全焦点设置中与NERF相当,而且可以合成以浅DOF输入为条件的全焦点新型视图。还展示了DOF-nerf在DOF渲染上的有趣应用。源代码将在https://github.com/zijinwuzijin/dof-nerf上提供。
translated by 谷歌翻译
Bokeh效果是一种自然浅的景观现象,使焦点部分陷入摄影。为了追求美学上令人愉悦的照片,人们通常认为散景效应是照片不可或缺的一部分。由于其自然的优势和普遍性,以及许多视觉识别任务的事实可能已经受到“天然散景”现象的负面影响,在这项工作中,我们系统地研究了从新角度,即对抗性散景的散景效应攻击(Advbokeh)旨在将计算的欺骗性信息嵌入到Bokeh生成中,并产生自然的对抗性示例而没有任何人明显的噪声伪影。为此,我们首先提出了一种深度引导的Bokeh合成网络(Debsnet),其能够灵活地合成,重新分析和调整图像的散景水平,具有一级训练程序。 Debsnet允许我们利用Bokeh生成过程并攻击基于后续视觉任务生成现实Bokeh(即,对接地调整深度映射)所需的深度图。为了进一步提高对抗散景的真实性,我们提出了深度引导的梯度基攻击来规范梯度。我们在流行的对手图像分类数据集中验证所提出的方法,即Neurips-2017开发,并表明所提出的方法可以通过高成功率和高图像质量来穿透四个最先进的(SOTA)图像分类网络,即Reset50,VGG,DenSenet和MobileNetv2。通过Advbokeh获得的对抗实例也在黑匣子环境下表现出高水平的可转移性。此外,来自AdvboKeh的离前事实产生的散焦模糊图像实际上可以大写以增强SOTA Defocus Deblurring系统的性能,即IFAN。
translated by 谷歌翻译
在本文中,我们解决了单眼散景合成的问题,我们试图从单个全焦点图像中呈现浅深度图像。与DSLR摄像机不同,由于移动光圈的物理限制,这种效果无法直接在移动摄像机中捕获。因此,我们提出了一种基于网络的方法,该方法能够从单个图像输入中渲染现实的单眼散景。为此,我们根据预测的单眼深度图引入了三个新的边缘感知散景损失,该图在模糊背景时锐化了前景边缘。然后,使用对抗性损失对该模型进行固定,从而产生逼真的玻璃效果。实验结果表明,我们的方法能够在处理复杂场景的同时产生令人愉悦的自然散景效果,并具有锋利的边缘。
translated by 谷歌翻译
深度信息在许多图像处理应用程序中是有用的。然而,由于拍摄图像是在2D成像传感器上投射3D场景的过程,因此深度信息嵌入图像中。从图像中提取深度信息是一个具有挑战性的任务。引导原理是由于散焦引起的蓝色水平与物体和焦平面之间的距离有关。基于该原理和广泛使用的假设,即高斯模糊是散焦模糊的良好模型,我们制定了作为高斯模糊分类问题的空间变化散焦模糊的问题。我们通过培训深度神经网络来解决图像补丁中的20级蓝色蓝色之一来解决问题。我们创建了一个超过500000美元的尺寸为32 \ times32 $的数据集,用于培训和测试几种知名网络模型。我们发现MobileNetv2由于其较低的内存要求和高精度而适用于此应用。训练模型用于确定通过施加迭代加权引导滤波器来改进的贴剂模糊。结果是散焦图,其携带每个像素的模糊度的信息。我们将提出的方法与最先进的技术进行比较,我们展示了其在自适应图像增强,散焦倍率和多聚焦图像融合中的成功应用。
translated by 谷歌翻译
This paper explores the problem of reconstructing high-resolution light field (LF) images from hybrid lenses, including a high-resolution camera surrounded by multiple low-resolution cameras. The performance of existing methods is still limited, as they produce either blurry results on plain textured areas or distortions around depth discontinuous boundaries. To tackle this challenge, we propose a novel end-to-end learning-based approach, which can comprehensively utilize the specific characteristics of the input from two complementary and parallel perspectives. Specifically, one module regresses a spatially consistent intermediate estimation by learning a deep multidimensional and cross-domain feature representation, while the other module warps another intermediate estimation, which maintains the high-frequency textures, by propagating the information of the high-resolution view. We finally leverage the advantages of the two intermediate estimations adaptively via the learned attention maps, leading to the final high-resolution LF image with satisfactory results on both plain textured areas and depth discontinuous boundaries. Besides, to promote the effectiveness of our method trained with simulated hybrid data on real hybrid data captured by a hybrid LF imaging system, we carefully design the network architecture and the training strategy. Extensive experiments on both real and simulated hybrid data demonstrate the significant superiority of our approach over state-of-the-art ones. To the best of our knowledge, this is the first end-to-end deep learning method for LF reconstruction from a real hybrid input. We believe our framework could potentially decrease the cost of high-resolution LF data acquisition and benefit LF data storage and transmission.
translated by 谷歌翻译
神经辐射字段(NERF)是一种用于高质量新颖观看综合的技术从一系列姿势输入图像。与大多数视图合成方法一样,NERF使用TONEMAPPED的低动态范围(LDR)作为输入;这些图像已经通过流畅的相机管道处理,平滑细节,剪辑突出显示,并扭曲了原始传感器数据的简单噪声分布。我们修改NERF以直接在线性原始图像直接培训,保持场景的完整动态范围。通过从生成的NERF渲染原始输出图像,我们可以执行新颖的高动态范围(HDR)视图综合任务。除了改变相机的观点外,我们还可以在事实之后操纵焦点,曝光和调度率。虽然单个原始图像显然比后处理的原始图像显着更大,但我们表明NERF对原始噪声的零平均分布非常强大。当优化许多嘈杂的原始输入(25-200)时,NERF会产生一个场景表示,如此准确的,即其呈现的新颖视图优于在同一宽基线输入图像上运行的专用单个和多像深生物丹机。因此,我们调用Rawnerf的方法可以从近黑暗中捕获的极其嘈杂的图像中重建场景。
translated by 谷歌翻译
Image dehazing is one of the important and popular topics in computer vision and machine learning. A reliable real-time dehazing method with reliable performance is highly desired for many applications such as autonomous driving, security surveillance, etc. While recent learning-based methods require datasets containing pairs of hazy images and clean ground truth, it is impossible to capture them in real scenes. Many existing works compromise this difficulty to generate hazy images by rendering the haze from depth on common RGBD datasets using the haze imaging model. However, there is still a gap between the synthetic datasets and real hazy images as large datasets with high-quality depth are mostly indoor and depth maps for outdoor are imprecise. In this paper, we complement the existing datasets with a new, large, and diverse dehazing dataset containing real outdoor scenes from High-Definition (HD) 3D movies. We select a large number of high-quality frames of real outdoor scenes and render haze on them using depth from stereo. Our dataset is clearly more realistic and more diversified with better visual quality than existing ones. More importantly, we demonstrate that using this dataset greatly improves the dehazing performance on real scenes. In addition to the dataset, we also evaluate a series state of the art methods on the proposed benchmarking datasets.
translated by 谷歌翻译
我们介绍了Fadiv-Syn,一种快速深入的新型观点合成方法。相关方法通常受到它们的深度估计阶段的限制,其中不正确的深度预测可能导致大的投影误差。为避免此问题,我们将输入图像有效地将输入图像呈现为目标帧,以为一系列假定的深度平面。得到的平面扫描量(PSV)直接进入我们的网络,首先以自我监督的方式估计软PSV掩模,然后直接产生新颖的输出视图。因此,我们侧行显式深度估计。这提高了透明,反光,薄,特色场景部件上的效率和性能。 Fadiv-syn可以在大规模Realestate10K数据集上执行插值和外推任务,优于最先进的外推方法。与可比方法相比,它由于其轻量级架构而实现了实时性能。我们彻底评估消融,例如去除软掩蔽网络,从更少的示例中培训以及更高的分辨率和更强深度离散化的概括。
translated by 谷歌翻译
纵向模式广泛使用智能手机相机,以提供增强的摄影体验。应用于在纵向模式下捕获的图像的主要效果之一是合成浅景深(DOF)。合成的DOF(或Bokeh效应)在图像中选择性地熔断区域,以模拟使用具有宽孔径的大透镜的效果。此外,许多应用程序现在包含一个新的图像运动属性(NIMAT)来模拟背景运动,其中运动与每个像素处的估计深度相关。在这项工作中,我们通过在纵向模式下引入模糊综合过程的修改来遵循渲染NIMAT效果的趋势。特别地,我们的修改通过施加旋转模糊的核来实现来自单个图像的多视图散景的高质量合成。鉴于合成的多视图,我们可以生成类似于NIMAT效果的美学上的现实图像运动。与原始NIMAT效应和其他类似图像动作相比,我们验证了我们的方法,如Facebook 3D图像。我们的图像运动演示了一个平滑的图像视图过渡,物体边界周围的伪像较少。
translated by 谷歌翻译
在本文中,我们提出了一个几何感知的神经插值(GEO-NI),用于光场渲染。以前的基于学习的方法要么依赖于神经网络执行直接插值的能力,因此我们将其称为神经插值(NI),或者探索用于新型视图合成的场景几何形状,也称为基于深度图像的渲染(Dibr)。取而代之的是,我们通过使用新颖的Dibr管道来启动NI来结合这两种方法背后的想法。具体而言,提出的GEO-NI首先使用一组深度假设剪切的输入光场执行NI。然后,通过根据不同深度假设下的重建质量分配新的重建成本量来通过分配新的重建成本量来实现DIBR。重建成本被解释为通过沿深度假设的尺寸混合重建的光场来呈现最终输出光场的混合重量。通过结合Ni和Dibr的优势,拟议的Geo-Ni能够在场景几何形状的帮助下以巨大的差异来呈现视图,同时当深度容易含糊不清时,同时还可以重建非斜角效应。各种数据集上的广泛实验证明了所提出的几何感光光场渲染框架的出色性能。
translated by 谷歌翻译
神经辐射场(NERF)为3D互动体验带来了新的浪潮。但是,作为沉浸式体验的重要组成部分,在NERF中尚未完全探索散焦效应。最近一些基于NERF的方法通过利用多平台技术以后处理方式产生3D散焦效果。尽管如此,它们还是耗时的,或者是记忆力消费。本文提出了一种新型的基于薄镜的NERF框架,该框架可以直接呈现出各种3D散焦效应,称为nerfocus。与针孔不同,薄镜头折射了场景点的光线,因此其在传感器平面上的成像被散布为混乱圆(COC)。直接的解决方案采样足够的射线以近似此过程在计算上很昂贵。取而代之的是,我们建议将薄镜头成像倒数,以明确对传感器平面上每个点的光束路径进行建模,并将此范式推广到每个像素的梁路径,然后使用基于flustum的体积渲染以渲染每个像素的梁路径。我们进一步设计了有效的概率培训(P-Training)策略,以大大简化培训过程。广泛的实验表明,我们的nerfocus可以通过可调节的相机姿势,聚焦距离和光圈大小实现各种3D散焦效应。通过将孔径大小设置为零,可以将现有的NERF视为我们的特殊情况。尽管有这样的优点,但Nerfocus并未牺牲Nerf的原始表现(例如培训和推理时间,参数消耗,渲染质量),这意味着其具有更广泛应用和进一步改进的巨大潜力。代码和视频可在https://github.com/wyhuai/nerfocus上找到。
translated by 谷歌翻译
由于其显着的合成质量,最近,神经辐射场(NERF)最近对3D场景重建和新颖的视图合成进行了相当大的关注。然而,由散焦或运动引起的图像模糊,这通常发生在野外的场景中,显着降低了其重建质量。为了解决这个问题,我们提出了DeBlur-nerf,这是一种可以从模糊输入恢复尖锐的nerf的第一种方法。我们采用逐合成方法来通过模拟模糊过程来重建模糊的视图,从而使NERF对模糊输入的鲁棒。该仿真的核心是一种新型可变形稀疏内核(DSK)模块,其通过在每个空间位置变形规范稀疏内核来模拟空间变形模糊内核。每个内核点的射线起源是共同优化的,受到物理模糊过程的启发。该模块作为MLP参数化,具有能够概括为各种模糊类型。联合优化NERF和DSK模块允许我们恢复尖锐的NERF。我们证明我们的方法可用于相机运动模糊和散焦模糊:真实场景中的两个最常见的模糊。合成和现实世界数据的评估结果表明,我们的方法优于几个基线。合成和真实数据集以及源代码将公开可用于促进未来的研究。
translated by 谷歌翻译
本文介绍了一种来自单个离焦图像的边缘散焦模糊估计方法。我们首先将位于深度不连续(称为深度边缘的边缘)的边缘区分从近似恒定的深度区域(称为模糊估计的被称为模糊估计的图案边缘)的边缘中的深度不连续性(含义模糊估计是模糊的)。然后,我们仅估计图案边缘的散焦模糊量,并探索基于引导滤波器的内插方案,该导向滤波器防止检测到的深度边缘的数据传播,以获得具有明确定义的对象边界的密集模糊图。两个任务(边缘分类和模糊估计)由深度卷积神经网络(CNNS)执行,该网络(CNN)共享权重以从边缘位置为中心的多尺度补丁学习有意义的本地特征。在自然散焦的图像上的实验表明,该方法提出了优异的最先进(SOTA)方法的定性和定量结果,在运行时间和准确度之间具有良好的折衷。
translated by 谷歌翻译
图像颜色协调算法旨在自动匹配在不同条件下捕获的前景图像的颜色分布和背景图像。以前的基于深度学习的模型忽略了两个对于实际应用至关重要的问题,即高分辨率(HR)图像处理和模型的可理解性。在本文中,我们提出了一个新型的深层综合颜色滤波器(DCCF)学习框架,用于高分辨率图像协调。具体而言,DCCF首先将原始输入图像列为其低分辨率(LR)对抗零件,然后以端到端的方式学习四个人类可理解的神经过滤器(即色相,饱和,饱和,价值和细心的渲染过滤器),最终以将这些过滤器应用于原始输入图像以获得统一的结果。从可理解的神经过滤器中受益,我们可以为用户提供一个简单而有效的处理程序,以便用户与Deep Model合作,以便在必要时很少努力获得所需的结果。广泛的实验证明了DCCF学习框架的有效性,并且它在IHARMONY4数据集上的最先进的后处理方法优于图像的全分辨率,分别在MSE和PSNR上实现了7.63%和1.69%的相对改进,从而超过了图像的全分辨率。
translated by 谷歌翻译
Monocular depth estimation is a challenging problem on which deep neural networks have demonstrated great potential. However, depth maps predicted by existing deep models usually lack fine-grained details due to the convolution operations and the down-samplings in networks. We find that increasing input resolution is helpful to preserve more local details while the estimation at low resolution is more accurate globally. Therefore, we propose a novel depth map fusion module to combine the advantages of estimations with multi-resolution inputs. Instead of merging the low- and high-resolution estimations equally, we adopt the core idea of Poisson fusion, trying to implant the gradient domain of high-resolution depth into the low-resolution depth. While classic Poisson fusion requires a fusion mask as supervision, we propose a self-supervised framework based on guided image filtering. We demonstrate that this gradient-based composition performs much better at noisy immunity, compared with the state-of-the-art depth map fusion method. Our lightweight depth fusion is one-shot and runs in real-time, making our method 80X faster than a state-of-the-art depth fusion method. Quantitative evaluations demonstrate that the proposed method can be integrated into many fully convolutional monocular depth estimation backbones with a significant performance boost, leading to state-of-the-art results of detail enhancement on depth maps.
translated by 谷歌翻译
We propose a differentiable sphere tracing algorithm to bridge the gap between inverse graphics methods and the recently proposed deep learning based implicit signed distance function. Due to the nature of the implicit function, the rendering process requires tremendous function queries, which is particularly problematic when the function is represented as a neural network. We optimize both the forward and backward passes of our rendering layer to make it run efficiently with affordable memory consumption on a commodity graphics card. Our rendering method is fully differentiable such that losses can be directly computed on the rendered 2D observations, and the gradients can be propagated backwards to optimize the 3D geometry. We show that our rendering method can effectively reconstruct accurate 3D shapes from various inputs, such as sparse depth and multi-view images, through inverse optimization. With the geometry based reasoning, our 3D shape prediction methods show excellent generalization capability and robustness against various noises. * Work done while Shaohui Liu was an academic guest at ETH Zurich.
translated by 谷歌翻译
A recent strand of work in view synthesis uses deep learning to generate multiplane images-a camera-centric, layered 3D representation-given two or more input images at known viewpoints. We apply this representation to singleview view synthesis, a problem which is more challenging but has potentially much wider application. Our method learns to predict a multiplane image directly from a single image input, and we introduce scale-invariant view synthesis for supervision, enabling us to train on online video. We show this approach is applicable to several different datasets, that it additionally generates reasonable depth maps, and that it learns to fill in content behind the edges of foreground objects in background layers.Project page at https://single-view-mpi.github.io/.
translated by 谷歌翻译