纵向模式广泛使用智能手机相机,以提供增强的摄影体验。应用于在纵向模式下捕获的图像的主要效果之一是合成浅景深(DOF)。合成的DOF(或Bokeh效应)在图像中选择性地熔断区域,以模拟使用具有宽孔径的大透镜的效果。此外,许多应用程序现在包含一个新的图像运动属性(NIMAT)来模拟背景运动,其中运动与每个像素处的估计深度相关。在这项工作中,我们通过在纵向模式下引入模糊综合过程的修改来遵循渲染NIMAT效果的趋势。特别地,我们的修改通过施加旋转模糊的核来实现来自单个图像的多视图散景的高质量合成。鉴于合成的多视图,我们可以生成类似于NIMAT效果的美学上的现实图像运动。与原始NIMAT效应和其他类似图像动作相比,我们验证了我们的方法,如Facebook 3D图像。我们的图像运动演示了一个平滑的图像视图过渡,物体边界周围的伪像较少。
translated by 谷歌翻译
神经辐射场(NERF)及其变体在代表3D场景和合成照片现实的小说视角方面取得了巨大成功。但是,它们通常基于针孔摄像头模型,并假设全焦点输入。这限制了它们的适用性,因为从现实世界中捕获的图像通常具有有限的场地(DOF)。为了减轻此问题,我们介绍了DOF-NERF,这是一种新型的神经渲染方法,可以处理浅的DOF输入并可以模拟DOF效应。特别是,它扩展了NERF,以模拟按照几何光学的原理模拟镜头的光圈。这样的物理保证允许DOF-NERF使用不同的焦点配置操作视图。 DOF-NERF受益于显式光圈建模,还可以通过调整虚拟光圈和焦点参数来直接操纵DOF效果。它是插件,可以插入基于NERF的框架中。关于合成和现实世界数据集的实验表明,DOF-NERF不仅在全焦点设置中与NERF相当,而且可以合成以浅DOF输入为条件的全焦点新型视图。还展示了DOF-nerf在DOF渲染上的有趣应用。源代码将在https://github.com/zijinwuzijin/dof-nerf上提供。
translated by 谷歌翻译
浅水深度图像使对象保持焦点,前景和背景背景模糊。这种效果需要比智能手机摄像机更大的镜头光圈。常规方法根据其深度获取RGB-D图像和模糊图像区域。但是,这种方法不适用于反射性或透明的表面,也不适用于深度值不准确或模棱两可的细微详细的对象轮廓。我们提出了一种基于学习的方法,可以在用单个小光圈镜头获得的手持式爆发中综合降水模糊。我们的深度学习模型直接产生了浅水深度图像,避免了明显的基于深度的模糊。模拟的孔径直径等于爆发过程中的相机翻译。由于不准确或模棱两可的深度估计,我们的方法不会遭受伪影的困扰,并且非常适合肖像摄影。
translated by 谷歌翻译
部分闭塞作用是一种现象,即相机附近的模糊物体是半透明的,导致部分外观被遮挡的背景。但是,由于现有的散景渲染方法,由于在全焦点图像中的遮挡区域缺少信息而模拟现实的部分遮挡效果是一项挑战。受到可学习的3D场景表示的启发,我们试图通过引入一种基于MPI的新型高分辨率Bokeh渲染框架来解决部分遮挡,称为MPIB。为此,我们首先介绍了如何将MPI表示形式应用于散布渲染的分析。基于此分析,我们提出了一个MPI表示模块与背景介入模块相结合,以实现高分辨率场景表示。然后,可以将此表示形式重复使用以根据控制参数呈现各种散景效应。为了训练和测试我们的模型,我们还为数据生成设计了基于射线追踪的散景生成器。对合成和现实世界图像的广泛实验验证了该框架的有效性和灵活性。
translated by 谷歌翻译
在本文中,我们解决了单眼散景合成的问题,我们试图从单个全焦点图像中呈现浅深度图像。与DSLR摄像机不同,由于移动光圈的物理限制,这种效果无法直接在移动摄像机中捕获。因此,我们提出了一种基于网络的方法,该方法能够从单个图像输入中渲染现实的单眼散景。为此,我们根据预测的单眼深度图引入了三个新的边缘感知散景损失,该图在模糊背景时锐化了前景边缘。然后,使用对抗性损失对该模型进行固定,从而产生逼真的玻璃效果。实验结果表明,我们的方法能够在处理复杂场景的同时产生令人愉悦的自然散景效果,并具有锋利的边缘。
translated by 谷歌翻译
神经辐射场(NERF)为3D互动体验带来了新的浪潮。但是,作为沉浸式体验的重要组成部分,在NERF中尚未完全探索散焦效应。最近一些基于NERF的方法通过利用多平台技术以后处理方式产生3D散焦效果。尽管如此,它们还是耗时的,或者是记忆力消费。本文提出了一种新型的基于薄镜的NERF框架,该框架可以直接呈现出各种3D散焦效应,称为nerfocus。与针孔不同,薄镜头折射了场景点的光线,因此其在传感器平面上的成像被散布为混乱圆(COC)。直接的解决方案采样足够的射线以近似此过程在计算上很昂贵。取而代之的是,我们建议将薄镜头成像倒数,以明确对传感器平面上每个点的光束路径进行建模,并将此范式推广到每个像素的梁路径,然后使用基于flustum的体积渲染以渲染每个像素的梁路径。我们进一步设计了有效的概率培训(P-Training)策略,以大大简化培训过程。广泛的实验表明,我们的nerfocus可以通过可调节的相机姿势,聚焦距离和光圈大小实现各种3D散焦效应。通过将孔径大小设置为零,可以将现有的NERF视为我们的特殊情况。尽管有这样的优点,但Nerfocus并未牺牲Nerf的原始表现(例如培训和推理时间,参数消耗,渲染质量),这意味着其具有更广泛应用和进一步改进的巨大潜力。代码和视频可在https://github.com/wyhuai/nerfocus上找到。
translated by 谷歌翻译
为了获得更好的摄影,包括智能手机在内的最新商业摄像机要么采用大孔镜来收集更多的光线,要么使用突发模式在短时间内拍摄多个图像。这些有趣的功能使我们检查了焦点/散焦的深度。在这项工作中,我们提出了来自单个焦点堆栈的基于卷积神经网络的深度估计。我们的方法不同于相关的最新方法,具有三个独特的功能。首先,我们的方法允许以端到端方式推断深度图,即使图像对齐方式也是如此。其次,我们提出了一个尖锐的区域检测模块,以减少焦点变化和无纹理的区域中的模糊歧义。第三,我们设计了一个有效的下采样模块,以减轻特征提取中焦点信息的流动。此外,为了概括拟议的网络,我们开发了一个模拟器来实际重现商用摄像机的特征,例如视野的变化,焦点长度和主要点。通过有效合并这三个独特功能,我们的网络在大多数指标上达到了DDFF 12场景基准的最高等级。我们还证明了所提出的方法对与最新方法相比,从各种现成的摄像机拍摄的各种定量评估和现实世界图像的有效性。我们的源代码可在https://github.com/wcy199705/dffinthewild上公开获得。
translated by 谷歌翻译
Bokeh效果是一种自然浅的景观现象,使焦点部分陷入摄影。为了追求美学上令人愉悦的照片,人们通常认为散景效应是照片不可或缺的一部分。由于其自然的优势和普遍性,以及许多视觉识别任务的事实可能已经受到“天然散景”现象的负面影响,在这项工作中,我们系统地研究了从新角度,即对抗性散景的散景效应攻击(Advbokeh)旨在将计算的欺骗性信息嵌入到Bokeh生成中,并产生自然的对抗性示例而没有任何人明显的噪声伪影。为此,我们首先提出了一种深度引导的Bokeh合成网络(Debsnet),其能够灵活地合成,重新分析和调整图像的散景水平,具有一级训练程序。 Debsnet允许我们利用Bokeh生成过程并攻击基于后续视觉任务生成现实Bokeh(即,对接地调整深度映射)所需的深度图。为了进一步提高对抗散景的真实性,我们提出了深度引导的梯度基攻击来规范梯度。我们在流行的对手图像分类数据集中验证所提出的方法,即Neurips-2017开发,并表明所提出的方法可以通过高成功率和高图像质量来穿透四个最先进的(SOTA)图像分类网络,即Reset50,VGG,DenSenet和MobileNetv2。通过Advbokeh获得的对抗实例也在黑匣子环境下表现出高水平的可转移性。此外,来自AdvboKeh的离前事实产生的散焦模糊图像实际上可以大写以增强SOTA Defocus Deblurring系统的性能,即IFAN。
translated by 谷歌翻译
我们提出了Bokehme,这是一种混合散景渲染框架,将神经渲染器与经典的身体动机渲染器结合。鉴于单个图像和潜在的不完美差异图,Bokehme生成了具有可调节的模糊大小,焦平面和光圈形状的高分辨率照片现实玻璃效果。为此,我们分析了基于经典散射方法的误差,并得出了计算误差图的公式。基于此公式,我们通过基于散射的方法实现经典渲染器,并提出一个两阶段的神经渲染器,以从经典渲染器中修复错误的区域。神经渲染器采用动态多尺度方案来有效处理任意模糊大小,并经过训练以处理不完美的差异输入。实验表明,我们的方法与对合成图像数据和具有预测差异的真实图像数据的先前方法进行了比较。进一步进行用户研究以验证我们方法的优势。
translated by 谷歌翻译
许多移动制造商最近在其旗舰模型中采用了双像素(DP)传感器,以便更快的自动对焦和美学图像捕获。尽管他们的优势,由于DT在DP图像中的视差缺失的数据集和算法设计,但对3D面部理解的使用研究受到限制。这是因为子孔图像的基线非常窄,并且散焦模糊区域存在视差。在本文中,我们介绍了一种以DP为导向的深度/普通网络,该网络重建3D面部几何。为此目的,我们使用我们的多摄像头结构光系统捕获的101人拥有超过135k张图片的DP面部数据。它包含相应的地面真值3D模型,包括度量刻度的深度图和正常。我们的数据集允许建议的匹配网络广泛化,以便以3D面部深度/正常估计。所提出的网络由两种新颖的模块组成:自适应采样模块和自适应正常模块,专门用于处理DP图像中的散焦模糊。最后,该方法实现了最近基于DP的深度/正常估计方法的最先进的性能。我们还展示了估计深度/正常的适用性面对欺骗和致密。
translated by 谷歌翻译
Image view synthesis has seen great success in reconstructing photorealistic visuals, thanks to deep learning and various novel representations. The next key step in immersive virtual experiences is view synthesis of dynamic scenes. However, several challenges exist due to the lack of high-quality training datasets, and the additional time dimension for videos of dynamic scenes. To address this issue, we introduce a multi-view video dataset, captured with a custom 10-camera rig in 120FPS. The dataset contains 96 high-quality scenes showing various visual effects and human interactions in outdoor scenes. We develop a new algorithm, Deep 3D Mask Volume, which enables temporally-stable view extrapolation from binocular videos of dynamic scenes, captured by static cameras. Our algorithm addresses the temporal inconsistency of disocclusions by identifying the error-prone areas with a 3D mask volume, and replaces them with static background observed throughout the video. Our method enables manipulation in 3D space as opposed to simple 2D masks, We demonstrate better temporal stability than frame-by-frame static view synthesis methods, or those that use 2D masks. The resulting view synthesis videos show minimal flickering artifacts and allow for larger translational movements.
translated by 谷歌翻译
Image dehazing is one of the important and popular topics in computer vision and machine learning. A reliable real-time dehazing method with reliable performance is highly desired for many applications such as autonomous driving, security surveillance, etc. While recent learning-based methods require datasets containing pairs of hazy images and clean ground truth, it is impossible to capture them in real scenes. Many existing works compromise this difficulty to generate hazy images by rendering the haze from depth on common RGBD datasets using the haze imaging model. However, there is still a gap between the synthetic datasets and real hazy images as large datasets with high-quality depth are mostly indoor and depth maps for outdoor are imprecise. In this paper, we complement the existing datasets with a new, large, and diverse dehazing dataset containing real outdoor scenes from High-Definition (HD) 3D movies. We select a large number of high-quality frames of real outdoor scenes and render haze on them using depth from stereo. Our dataset is clearly more realistic and more diversified with better visual quality than existing ones. More importantly, we demonstrate that using this dataset greatly improves the dehazing performance on real scenes. In addition to the dataset, we also evaluate a series state of the art methods on the proposed benchmarking datasets.
translated by 谷歌翻译
本文提出了一种新型电镀摄像机的校准算法,尤其是多焦距配置,其中使用了几种类型的微透镜,仅使用原始图像。电流校准方法依赖于简化投影模型,使用重建图像的功能,或者需要每种类型的微透镜进行分离的校准。在多聚焦配置中,根据微透镜焦距,场景的相同部分将展示不同量的模糊。通常,使用具有最小模糊量的微图像。为了利用所有可用的数据,我们建议在新推出的模糊的模糊(BAP)功能的帮助下,在新的相机模型中明确地模拟Defocus模糊。首先,它用于检索初始相机参数的预校准步骤,而第二步骤,以表达在我们的单个优化过程中最小化的新成本函数。第三,利用它来校准微图像之间的相对模糊。它将几何模糊,即模糊圈链接到物理模糊,即点传播函数。最后,我们使用产生的模糊概况来表征相机的景深。实际数据对受控环境的定量评估展示了我们校准的有效性。
translated by 谷歌翻译
由于其显着的合成质量,最近,神经辐射场(NERF)最近对3D场景重建和新颖的视图合成进行了相当大的关注。然而,由散焦或运动引起的图像模糊,这通常发生在野外的场景中,显着降低了其重建质量。为了解决这个问题,我们提出了DeBlur-nerf,这是一种可以从模糊输入恢复尖锐的nerf的第一种方法。我们采用逐合成方法来通过模拟模糊过程来重建模糊的视图,从而使NERF对模糊输入的鲁棒。该仿真的核心是一种新型可变形稀疏内核(DSK)模块,其通过在每个空间位置变形规范稀疏内核来模拟空间变形模糊内核。每个内核点的射线起源是共同优化的,受到物理模糊过程的启发。该模块作为MLP参数化,具有能够概括为各种模糊类型。联合优化NERF和DSK模块允许我们恢复尖锐的NERF。我们证明我们的方法可用于相机运动模糊和散焦模糊:真实场景中的两个最常见的模糊。合成和现实世界数据的评估结果表明,我们的方法优于几个基线。合成和真实数据集以及源代码将公开可用于促进未来的研究。
translated by 谷歌翻译
深度信息在许多图像处理应用程序中是有用的。然而,由于拍摄图像是在2D成像传感器上投射3D场景的过程,因此深度信息嵌入图像中。从图像中提取深度信息是一个具有挑战性的任务。引导原理是由于散焦引起的蓝色水平与物体和焦平面之间的距离有关。基于该原理和广泛使用的假设,即高斯模糊是散焦模糊的良好模型,我们制定了作为高斯模糊分类问题的空间变化散焦模糊的问题。我们通过培训深度神经网络来解决图像补丁中的20级蓝色蓝色之一来解决问题。我们创建了一个超过500000美元的尺寸为32 \ times32 $的数据集,用于培训和测试几种知名网络模型。我们发现MobileNetv2由于其较低的内存要求和高精度而适用于此应用。训练模型用于确定通过施加迭代加权引导滤波器来改进的贴剂模糊。结果是散焦图,其携带每个像素的模糊度的信息。我们将提出的方法与最先进的技术进行比较,我们展示了其在自适应图像增强,散焦倍率和多聚焦图像融合中的成功应用。
translated by 谷歌翻译
Deep networks have recently enjoyed enormous success when applied to recognition and classification problems in computer vision [20,29], but their use in graphics problems has been limited ([21, 7] are notable recent exceptions). In this work, we present a novel deep architecture that performs new view synthesis directly from pixels, trained from a large number of posed image sets. In contrast to traditional approaches which consist of multiple complex stages of processing, each of which require careful tuning and can fail in unexpected ways, our system is trained end-to-end. The pixels from neighboring views of a scene are presented to the network which then directly produces the pixels of the unseen view. The benefits of our approach include generality (we only require posed image sets and can easily apply our method to different domains), and high quality results on traditionally difficult scenes. We believe this is due to the end-to-end nature of our system which is able to plausibly generate pixels according to color, depth, and texture priors learnt automatically from the training data. To verify our method we show that it can convincingly reproduce known test views from nearby imagery. Additionally we show images rendered from novel viewpoints. To our knowledge, our work is the first to apply deep learning to the problem of new view synthesis from sets of real-world, natural imagery.
translated by 谷歌翻译
在本文中,我们为复杂场景进行了高效且强大的深度学习解决方案。在我们的方法中,3D场景表示为光场,即,一组光线,每组在到达图像平面时具有相应的颜色。对于高效的新颖视图渲染,我们采用了光场的双面参数化,其中每个光线的特征在于4D参数。然后,我们将光场配向作为4D函数,即将4D坐标映射到相应的颜色值。我们训练一个深度完全连接的网络以优化这种隐式功能并记住3D场景。然后,特定于场景的模型用于综合新颖视图。与以前需要密集的视野的方法不同,需要密集的视野采样来可靠地呈现新颖的视图,我们的方法可以通过采样光线来呈现新颖的视图并直接从网络查询每种光线的颜色,从而使高质量的灯场呈现稀疏集合训练图像。网络可以可选地预测每光深度,从而使诸如自动重新焦点的应用。我们的小说视图合成结果与最先进的综合结果相当,甚至在一些具有折射和反射的具有挑战性的场景中优越。我们在保持交互式帧速率和小的内存占地面积的同时实现这一点。
translated by 谷歌翻译
Fast and easy handheld capture with guideline: closest object moves at most D pixels between views Promote sampled views to local light field via layered scene representation Blend neighboring local light fields to render novel views
translated by 谷歌翻译
Modern mobile burst photography pipelines capture and merge a short sequence of frames to recover an enhanced image, but often disregard the 3D nature of the scene they capture, treating pixel motion between images as a 2D aggregation problem. We show that in a "long-burst", forty-two 12-megapixel RAW frames captured in a two-second sequence, there is enough parallax information from natural hand tremor alone to recover high-quality scene depth. To this end, we devise a test-time optimization approach that fits a neural RGB-D representation to long-burst data and simultaneously estimates scene depth and camera motion. Our plane plus depth model is trained end-to-end, and performs coarse-to-fine refinement by controlling which multi-resolution volume features the network has access to at what time during training. We validate the method experimentally, and demonstrate geometrically accurate depth reconstructions with no additional hardware or separate data pre-processing and pose-estimation steps.
translated by 谷歌翻译