We propose a simple yet effective reflection-free cue for robust reflection removal from a pair of flash and ambient (no-flash) images. The reflection-free cue exploits a flash-only image obtained by subtracting the ambient image from the corresponding flash image in raw data space. The flash-only image is equivalent to an image taken in a dark environment with only a flash on. This flash-only image is visually reflection-free and thus can provide robust cues to infer the reflection in the ambient image. Since the flash-only image usually has artifacts, we further propose a dedicated model that not only utilizes the reflection-free cue but also avoids introducing artifacts, which helps accurately estimate reflection and transmission. Our experiments on real-world images with various types of reflection demonstrate the effectiveness of our model with reflection-free flash-only cues: our model outperforms state-of-the-art reflection removal approaches by more than 5.23dB in PSNR. We extend our approach to handheld photography to address the misalignment between the flash and no-flash pair. With misaligned training data and the alignment module, our aligned model outperforms our previous version by more than 3.19dB in PSNR on a misaligned dataset. We also study using linear RGB images as training data. Our source code and dataset are publicly available at https://github.com/ChenyangLEI/flash-reflection-removal.
translated by 谷歌翻译
在本文中,我们使第一个基准测试精力阐述在低光增强中使用原始图像的优越性,并开发一种以更灵活和实用的方式利用原始图像的新颖替代路线。通过对典型图像处理管道进行充分考虑的启发,我们受到启发,开发了一种新的评估框架,分解增强模型(FEM),它将原始图像的属性分解成可测量的因素,并提供了探索原始图像属性的工具凭经验影响增强性能。经验基金基准结果表明,在元数据中记录的数据和曝光时间的线性起作用最关键的作用,这在将SRGB图像作为输入中的方法采取各种措施中提出了不同的性能增益。通过从基准测试结果中获得的洞察力,开发了一种原始曝光增强网络(REENET),这在实际应用中的实际应用中的优缺点与仅在原始图像中的原始应用中的优点和可接近之间的权衡培训阶段。 Reenet将SRGB图像投影到线性原域中,以应用相应的原始图像的约束,以减少建模培训的难度。之后,在测试阶段,我们的reenet不依赖于原始图像。实验结果不仅展示了Reenet到最先进的SRGB的方法以及原始指导和所有组件的有效性。
translated by 谷歌翻译
从一组多曝光图像中重建无精神的高动态范围(HDR)图像是一项具有挑战性的任务,尤其是在大型对象运动和闭塞的情况下,使用现有方法导致可见的伪影。为了解决这个问题,我们提出了一个深层网络,该网络试图学习以正规损失为指导的多尺度特征流。它首先提取多尺度功能,然后对非参考图像的特征对齐。对齐后,我们使用残留的通道注意块将不同图像的特征合并。广泛的定性和定量比较表明,我们的方法可实现最新的性能,并在颜色伪像和几何变形大大减少的情况下产生出色的结果。
translated by 谷歌翻译
在极低光线条件下捕获图像会对标准相机管道带来重大挑战。图像变得太黑了,太吵了,这使得传统的增强技术几乎不可能申请。最近,基于学习的方法已经为此任务显示了非常有希望的结果,因为它们具有更大的表现力能力来允许提高质量。这些研究中的激励,在本文中,我们的目标是利用爆破摄影来提高性能,并从极端暗的原始图像获得更加锐利和更准确的RGB图像。我们提出的框架的骨干是一种新颖的粗良好网络架构,逐步产生高质量的输出。粗略网络预测了低分辨率,去噪的原始图像,然后将其馈送到精细网络以恢复微尺的细节和逼真的纹理。为了进一步降低噪声水平并提高颜色精度,我们将该网络扩展到置换不变结构,使得它作为输入突发为低光图像,并在特征级别地合并来自多个图像的信息。我们的实验表明,我们的方法通过生产更详细和相当更高的质量的图像来引起比最先进的方法更令人愉悦的结果。
translated by 谷歌翻译
快速移动受试者的运动模糊是摄影中的一个长期问题,由于收集效率有限,尤其是在弱光条件下,在手机上非常常见。尽管近年来我们目睹了图像脱毛的巨大进展,但大多数方法都需要显着的计算能力,并且在处理高分辨率照片的情况下具有严重的局部动作。为此,我们根据手机的双摄像头融合技术开发了一种新颖的面部脱毛系统。该系统检测到主题运动以动态启用参考摄像头,例如,最近在高级手机上通常可用的Ultrawide Angle摄像机,并捕获带有更快快门设置的辅助照片。虽然主镜头是低噪音但模糊的,但参考镜头却很锋利,但嘈杂。我们学习ML模型,以对齐和融合这两张镜头,并在没有运动模糊的情况下输出清晰的照片。我们的算法在Google Pixel 6上有效运行,每次拍摄需要463毫秒的开销。我们的实验证明了系统对替代单片,多帧,面部特异性和视频脱张算法以及商业产品的优势和鲁棒性。据我们所知,我们的工作是第一个用于面部运动脱毛的移动解决方案,在各种运动和照明条件下,在数千个图像中可靠地工作。
translated by 谷歌翻译
我们介绍了一种新的数据驱动方法,具有基于物理的前沿,从单个偏振图像到场景级正常估计。来自偏振(SFP)的现有形状主要专注于估计单个物体的正常,而不是野外的复杂场景。高质量场景级SFP的关键障碍是复杂场景中缺乏现实世界的SFP数据。因此,我们贡献了第一个现实世界场景级SFP数据集,具有配对输入偏振图像和地理正常映射。然后,我们提出了一种基于学习的框架,具有多头自我注意模块和观察编码,该框架被设计为处理由场景级SFP中的复杂材料和非正交投影引起的增加的偏振模糊。由于偏振光和表面法线之间的关系不受距离的影响,我们训练的模型可以广泛地展开到远场户外场景。实验结果表明,我们的方法在两个数据集中显着优于现有的SFP模型。我们的数据集和源代码将公开可用于\ url {https://github.com/chenyanglei/sfp-wild}。
translated by 谷歌翻译
近年来已经提出了显示屏下的显示器,作为减少移动设备的形状因子的方式,同时最大化屏幕区域。不幸的是,将相机放在屏幕后面导致显着的图像扭曲,包括对比度,模糊,噪音,色移,散射伪像和降低光敏性的损失。在本文中,我们提出了一种图像恢复管道,其是ISP-Annostic,即它可以与任何传统ISP组合,以产生使用相同的ISP与常规相机外观匹配的最终图像。这是通过执行Raw-Raw Image Restoration的深度学习方法来实现的。为了获得具有足够对比度和场景多样性的大量实际展示摄像机培训数据,我们还开发利用HDR监视器的数据捕获方法,以及数据增强方法以产生合适的HDR内容。监视器数据补充有现实世界的数据,该数据具有较少的场景分集,但允许我们实现细节恢复而不受监视器分辨率的限制。在一起,这种方法成功地恢复了颜色和对比度以及图像细节。
translated by 谷歌翻译
本文旨在探讨如何合成对其进行训练的现有视频脱毛模型的近距离模糊,可以很好地推广到现实世界中的模糊视频。近年来,基于深度学习的方法已在视频Deblurring任务上取得了希望的成功。但是,对现有合成数据集培训的模型仍然遭受了与现实世界中的模糊场景的概括问题。造成故障的因素仍然未知。因此,我们重新审视经典的模糊综合管道,并找出可能的原因,包括拍摄参数,模糊形成空间和图像信号处理器〜(ISP)。为了分析这些潜在因素的效果,我们首先收集一个超高帧速率(940 fps)原始视频数据集作为数据基础,以综合各种模糊。然后,我们提出了一种新颖的现实模糊合成管道,该管道通过利用模糊形成线索称为原始爆炸。通过大量实验,我们证明了在原始空间中的合成模糊并采用与现实世界测试数据相同的ISP可以有效消除合成数据的负面影响。此外,合成的模糊视频的拍摄参数,例如,曝光时间和框架速率在改善脱毛模型的性能中起着重要作用。令人印象深刻的是,与在现有合成模糊数据集中训练的训练的模型合成的模糊数据训练的模型可以获得超过5DB PSNR的增益。我们认为,新颖的现实合成管道和相应的原始视频数据集可以帮助社区轻松构建自定义的Blur数据集,以改善现实世界的视频DeBlurring性能,而不是费力地收集真实的数据对。
translated by 谷歌翻译
低光视频增强(LLVE)是许多应用程序,例如拍摄和自动驾驶,是一项重要但艰巨的任务。与单图像低光增强不同,大多数LLVE方法都利用相邻帧的时间信息来恢复颜色并删除目标框架的噪声。但是,这些算法基于多帧对齐和增强的框架,在遇到极端低光或快速运动时可能会产生多帧融合工件。在本文中,受到低潜伏期和高动态事件范围的启发,我们使用来自多个帧的合成事件来指导低光视频的增强和恢复。我们的方法包含三个阶段:1)事件合成和增强,2)事件和图像融合,以及3)低光增强。在此框架中,我们分别为第二阶段和第三阶段设计了两个新型模块(事件图像融合变换和事件引导的双分支)。广泛的实验表明,我们的方法在合成数据集和真实LLVE数据集上都优于现有的低光视频或单个图像增强方法。
translated by 谷歌翻译
Image dehazing is one of the important and popular topics in computer vision and machine learning. A reliable real-time dehazing method with reliable performance is highly desired for many applications such as autonomous driving, security surveillance, etc. While recent learning-based methods require datasets containing pairs of hazy images and clean ground truth, it is impossible to capture them in real scenes. Many existing works compromise this difficulty to generate hazy images by rendering the haze from depth on common RGBD datasets using the haze imaging model. However, there is still a gap between the synthetic datasets and real hazy images as large datasets with high-quality depth are mostly indoor and depth maps for outdoor are imprecise. In this paper, we complement the existing datasets with a new, large, and diverse dehazing dataset containing real outdoor scenes from High-Definition (HD) 3D movies. We select a large number of high-quality frames of real outdoor scenes and render haze on them using depth from stereo. Our dataset is clearly more realistic and more diversified with better visual quality than existing ones. More importantly, we demonstrate that using this dataset greatly improves the dehazing performance on real scenes. In addition to the dataset, we also evaluate a series state of the art methods on the proposed benchmarking datasets.
translated by 谷歌翻译
低光图像增强(LLIE)旨在提高在环境中捕获的图像的感知或解释性,较差的照明。该领域的最新进展由基于深度学习的解决方案为主,其中许多学习策略,网络结构,丢失功能,培训数据等已被采用。在本文中,我们提供了全面的调查,以涵盖从算法分类到开放问题的各个方面。为了检查现有方法的概括,我们提出了一个低光图像和视频数据集,其中图像和视频是在不同的照明条件下的不同移动电话的相机拍摄的。除此之外,我们首次提供统一的在线平台,涵盖许多流行的LLIE方法,其中结果可以通过用户友好的Web界面生产。除了在公开和我们拟议的数据集上对现有方法的定性和定量评估外,我们还验证了他们在黑暗中的脸部检测中的表现。这项调查与拟议的数据集和在线平台一起作为未来研究的参考来源和促进该研究领域的发展。拟议的平台和数据集以及收集的方法,数据集和评估指标是公开可用的,并将经常更新。
translated by 谷歌翻译
在本文中,我们研究了现实世界图像脱毛的问题,并考虑了改善深度图像脱布模型的性能的两个关键因素,即培训数据综合和网络体系结构设计。经过现有合成数据集训练的脱毛模型在由于域移位引起的真实模糊图像上的表现较差。为了减少合成和真实域之间的域间隙,我们提出了一种新颖的现实模糊合成管道来模拟摄像机成像过程。由于我们提出的合成方法,可以使现有的Deblurring模型更强大,以处理现实世界的模糊。此外,我们开发了一个有效的脱蓝色模型,该模型同时捕获特征域中的非本地依赖性和局部上下文。具体而言,我们将多路径变压器模块介绍给UNET架构,以进行丰富的多尺度功能学习。在三个现实世界数据集上进行的全面实验表明,所提出的Deblurring模型的性能优于最新方法。
translated by 谷歌翻译
由于其显着的合成质量,最近,神经辐射场(NERF)最近对3D场景重建和新颖的视图合成进行了相当大的关注。然而,由散焦或运动引起的图像模糊,这通常发生在野外的场景中,显着降低了其重建质量。为了解决这个问题,我们提出了DeBlur-nerf,这是一种可以从模糊输入恢复尖锐的nerf的第一种方法。我们采用逐合成方法来通过模拟模糊过程来重建模糊的视图,从而使NERF对模糊输入的鲁棒。该仿真的核心是一种新型可变形稀疏内核(DSK)模块,其通过在每个空间位置变形规范稀疏内核来模拟空间变形模糊内核。每个内核点的射线起源是共同优化的,受到物理模糊过程的启发。该模块作为MLP参数化,具有能够概括为各种模糊类型。联合优化NERF和DSK模块允许我们恢复尖锐的NERF。我们证明我们的方法可用于相机运动模糊和散焦模糊:真实场景中的两个最常见的模糊。合成和现实世界数据的评估结果表明,我们的方法优于几个基线。合成和真实数据集以及源代码将公开可用于促进未来的研究。
translated by 谷歌翻译
在高光中,幽灵伪像,运动模糊和低忠诚度是来自多个低动态范围(LDR)图像的高动态范围(HDR)成像的主要挑战。这些问题来自使用中等暴露图像作为先前方法中的参考框架。为了应对它们,我们建议使用暴露不足的图像作为避免这些问题的参考。但是,暴露不足图像的黑暗区域中的沉重噪音成为一个新问题。因此,我们提出了一个关节HDR和Denoising管道,其中包含两个子网络:(i)通过利用暴露先验来适应性的denoise输入LDR; (ii)金字塔级联融合网络(PCFNET),以多尺度的方式引入了注意机制和级联结构。为了进一步利用这两个范式,我们提出了一个选择性和联合HDR和DeNoising(SJ-HD $^2 $ R)成像框架,利用特定方案的先验来进行路径选择,准确性超过93.3 $ \%$ $ 。我们创建了第一个关节HDR和Denoising基准数据集,该数据集包含各种具有挑战性的HDR和DeNoising场景,并支持参考图像的切换。广泛的实验结果表明,我们的方法实现了与以前的方法相比的卓越性能。
translated by 谷歌翻译
由智能手机和中端相机捕获的照片的空间分辨率和动态范围有限,在饱和区域中未充满刺激的区域和颜色人工制品中的嘈杂响应。本文介绍了第一种方法(据我们所知),以重建高分辨率,高动态范围的颜色图像,这些颜色来自带有曝光括号的手持相机捕获的原始照相爆发。该方法使用图像形成的物理精确模型来结合迭代优化算法,用于求解相应的逆问题和学习的图像表示,以进行健壮的比对,并以前的自然图像。所提出的算法很快,与基于最新的学习图像恢复方法相比,内存需求较低,并且从合成但逼真的数据终止学习的特征。广泛的实验证明了其出色的性能,具有最多$ \ times 4 $的超分辨率因子在野外拍摄的带有手持相机的真实照片,以及对低光条件,噪音,摄像机摇动和中等物体运动的高度鲁棒性。
translated by 谷歌翻译
在过去的几年中,目睹了基于无人机的应用,计算机视觉起着至关重要的作用。但是,大多数基于公共无人机的视力数据集都集中在检测和跟踪上。另一方面,大多数现有图像超分辨率方法的性能对数据集敏感,特别是高分辨率和低分辨率图像之间的退化模型。在本文中,我们提出了第一个用于无人机视觉的超分辨率数据集。图像对由具有不同焦距的无人机上的两个摄像机捕获。我们在不同的高度收集数据,然后提出预处理步骤以对齐图像对。广泛的经验研究表明,在不同高度捕获的图像之间存在域间隙。同时,经过验证的图像超分辨率网络的性能在我们的数据集上也有所下降,并且海拔不同。最后,我们提出了两种方法,以在不同高度建立强大的图像超分辨率网络。第一个通过高度感知的层将高度信息馈送到网络中。第二个使用单次学习来快速使超分辨率模型适应未知高度。我们的结果表明,所提出的方法可以有效地提高不同海拔高度的超分辨率网络的性能。
translated by 谷歌翻译
Image restoration under hazy weather condition, which is called single image dehazing, has been of significant interest for various computer vision applications. In recent years, deep learning-based methods have achieved success. However, existing image dehazing methods typically neglect the hierarchy of features in the neural network and fail to exploit their relationships fully. To this end, we propose an effective image dehazing method named Hierarchical Contrastive Dehazing (HCD), which is based on feature fusion and contrastive learning strategies. HCD consists of a hierarchical dehazing network (HDN) and a novel hierarchical contrastive loss (HCL). Specifically, the core design in the HDN is a Hierarchical Interaction Module, which utilizes multi-scale activation to revise the feature responses hierarchically. To cooperate with the training of HDN, we propose HCL which performs contrastive learning on hierarchically paired exemplars, facilitating haze removal. Extensive experiments on public datasets, RESIDE, HazeRD, and DENSE-HAZE, demonstrate that HCD quantitatively outperforms the state-of-the-art methods in terms of PSNR, SSIM and achieves better visual quality.
translated by 谷歌翻译
夜间摄影通常由于昏暗的环境和长期使用而遭受弱光和模糊问题。尽管现有的光增强和脱毛方法可以单独解决每个问题,但一系列此类方法不能和谐地适应可见性和纹理的共同降解。训练端到端网络也是不可行的,因为没有配对数据可以表征低光和模糊的共存。我们通过引入新的数据合成管道来解决该问题,该管道对现实的低光模糊降解进行建模。使用管道,我们介绍了第一个用于关节低光增强和去皮的大型数据集。数据集,LOL-BLUR,包含12,000个低Blur/正常出现的对,在不同的情况下具有不同的黑暗和运动模糊。我们进一步提出了一个名为LEDNET的有效网络,以执行关节弱光增强和脱毛。我们的网络是独一无二的,因为它是专门设计的,目的是考虑两个相互连接的任务之间的协同作用。拟议的数据集和网络都为这项具有挑战性的联合任务奠定了基础。广泛的实验证明了我们方法对合成和现实数据集的有效性。
translated by 谷歌翻译
滚动快门(RS)失真可以解释为在RS摄像机曝光期间,随着时间的推移从瞬时全局快门(GS)框架中挑选一排像素。这意味着每个即时GS帧的信息部分,依次是嵌入到行依赖性失真中。受到这一事实的启发,我们解决了扭转这一过程的挑战性任务,即从rs失真中的图像中提取未变形的GS框架。但是,由于RS失真与其他因素相结合,例如读数设置以及场景元素与相机的相对速度,因此仅利用临时相邻图像之间的几何相关性的型号,在处理数据中,具有不同的读数设置和动态场景的数据中遭受了不良的通用性。带有相机运动和物体运动。在本文中,我们建议使用双重RS摄像机捕获的一对图像,而不是连续的框架,而RS摄像机则具有相反的RS方向,以完成这项极具挑战性的任务。基于双重反转失真的对称和互补性,我们开发了一种新型的端到端模型,即IFED,以通过卢比时间对速度场的迭代学习来生成双重光流序列。广泛的实验结果表明,IFED优于天真的级联方案,以及利用相邻RS图像的最新艺术品。最重要的是,尽管它在合成数据集上进行了训练,但显示出在从现实世界中的RS扭曲的动态场景图像中检索GS框架序列有效。代码可在https://github.com/zzh-tech/dual-versed-rs上找到。
translated by 谷歌翻译
可以通过定期预测未来的框架以增强虚拟现实应用程序中的用户体验,从而解决了低计算设备上图形渲染高帧速率视频的挑战。这是通过时间视图合成(TVS)的问题来研究的,该问题的目标是预测给定上一个帧的视频的下一个帧以及上一个和下一个帧的头部姿势。在这项工作中,我们考虑了用户和对象正在移动的动态场景的电视。我们设计了一个将运动解散到用户和对象运动中的框架,以在预测下一帧的同时有效地使用可用的用户运动。我们通过隔离和估计过去框架的3D对象运动,然后推断它来预测对象的运动。我们使用多平面图像(MPI)作为场景的3D表示,并将对象运动作为MPI表示中相应点之间的3D位移建模。为了在估计运动时处理MPI中的稀疏性,我们将部分卷积和掩盖的相关层纳入了相应的点。然后将预测的对象运动与给定的用户或相机运动集成在一起,以生成下一帧。使用不合格的填充模块,我们合成由于相机和对象运动而发现的区域。我们为动态场景的电视开发了一个新的合成数据集,该数据集由800个以全高清分辨率组成的视频组成。我们通过数据集和MPI Sintel数据集上的实验表明我们的模型优于文献中的所有竞争方法。
translated by 谷歌翻译