For low-level computer vision and image processing ML tasks, training on large datasets is critical for generalization. However, the standard practice of relying on real-world images primarily from the Internet comes with image quality, scalability, and privacy issues, especially in commercial contexts. To address this, we have developed a procedural synthetic data generation pipeline and dataset tailored to low-level vision tasks. Our Unreal engine-based synthetic data pipeline populates large scenes algorithmically with a combination of random 3D objects, materials, and geometric transformations. Then, we calibrate the camera noise profiles to synthesize the noisy images. From this pipeline, we generated a fully synthetic image denoising dataset (FSID) which consists of 175,000 noisy/clean image pairs. We then trained and validated a CNN-based denoising model, and demonstrated that the model trained on this synthetic data alone can achieve competitive denoising results when evaluated on real-world noisy images captured with smartphone cameras.
translated by 谷歌翻译
The last decade has seen an astronomical shift from imaging with DSLR and point-and-shoot cameras to imaging with smartphone cameras. Due to the small aperture and sensor size, smartphone images have notably more noise than their DSLR counterparts. While denoising for smartphone images is an active research area, the research community currently lacks a denoising image dataset representative of real noisy images from smartphone cameras with high-quality ground truth. We address this issue in this paper with the following contributions. We propose a systematic procedure for estimating ground truth for noisy images that can be used to benchmark denoising performance for smartphone cameras. Using this procedure, we have captured a dataset -the Smartphone Image Denoising Dataset (SIDD) -of ~30,000 noisy images from 10 scenes under different lighting conditions using five representative smartphone cameras and generated their ground truth images. We used this dataset to benchmark a number of denoising algorithms. We show that CNN-based methods perform better when trained on our high-quality dataset than when trained using alternative strategies, such as low-ISO images used as a proxy for ground truth data.
translated by 谷歌翻译
使用现代智能手机摄像机的夜成像由于光子计数低和成像系统中不可避免的噪声而变得麻烦。直接调整曝光时间和ISO等级在弱光条件下无法同时获得锋利和无噪声图像。尽管已经提出了许多方法来增强嘈杂或模糊的夜晚图像,但由于两个主要原因,它们在现实世界中的照片仍然不令人满意:1)单个图像中的信息有限和2)合成训练图像和真实图像之间的域间隙 - 世界照片(例如,模糊区域和分辨率的差异)。为了利用连续的长期和短曝光图像中的信息,我们提出了一条基于学习的管道来融合它们。开发了D2HNET框架,以通过在短期曝光图像的指导下脱毛和增强长期暴露图像来恢复高质量的图像。为了缩小域间隙,我们利用了两相deblernet-enhancenet架构,该体系结构在固定的低分辨率上执行准确的模糊去除,以便能够在不同的分辨率输入中处理大范围模糊。此外,我们从HD视频中合成了D2数据,并在其上进行了实验。验证集和真实照片的结果表明,我们的方法获得了更好的视觉质量和最先进的定量分数。可以在https://github.com/zhaoyuzhi/d2hnet上找到D2HNET代码,模型和D2-DATASET。
translated by 谷歌翻译
缺乏大规模嘈杂的图像对限制了监督的去噪方法在实际应用中部署。虽然现有无监督的方法能够在没有地面真理清洁图像的情况下学习图像去噪,但它们要么在不切实际的设置下表现出差或工作不佳(例如,配对嘈杂的图像)。在本文中,我们提出了一种实用的无监督图像去噪方法,以实现最先进的去噪性能。我们的方法只需要单一嘈杂的图像和噪声模型,可以在实际的原始图像去噪中轻松访问。它迭代地执行两个步骤:(1)构造具有来自噪声模型的随机噪声的噪声噪声数据集; (2)在噪声 - 嘈杂数据集上培训模型,并使用经过培训的模型来优化嘈杂的图像以获得下一轮中使用的目标。我们进一步近似我们的全迭代方法,具有快速算法,以实现更高效的培训,同时保持其原始高性能。实验对现实世界,合成和相关噪声的实验表明,我们提出的无监督的去噪方法具有卓越的现有无监督方法和具有监督方法的竞争性能。此外,我们认为现有的去噪数据集质量低,只包含少数场景。为了评估现实世界应用中的原始图像去噪表现,我们建立了一个高质量的原始图像数据集Sensenoise-500,包含500个现实生活场景。数据集可以作为更好地评估原始图像去噪的强基准。代码和数据集将在https://github.com/zhangyi-3/idr发布
translated by 谷歌翻译
现有的视频denoising方法通常假设嘈杂的视频通过添加高斯噪声从干净的视频中降低。但是,经过这种降解假设训练的深层模型将不可避免地导致由于退化不匹配而导致的真实视频的性能差。尽管一些研究试图在摄像机捕获的嘈杂和无噪声视频对上训练深层模型,但此类模型只能对特定的相机很好地工作,并且对其他视频的推广不佳。在本文中,我们建议提高此限制,并专注于一般真实视频的问题,目的是在看不见的现实世界视频上概括。我们首先调查视频噪音的共同行为来解决这个问题,并观察两个重要特征:1)缩减有助于降低空间空间中的噪声水平; 2)来自相邻框架的信息有助于消除时间上的当前框架的噪声空间。在这两个观察结果的推动下,我们通过充分利用上述两个特征提出了多尺度的复发架构。其次,我们通过随机调整不同的噪声类型来训练Denoising模型来提出合成真实的噪声降解模型。借助合成和丰富的降解空间,我们的退化模型可以帮助弥合训练数据和现实世界数据之间的分布差距。广泛的实验表明,与现有方法相比,我们所提出的方法实现了最先进的性能和更好的概括能力,而在合成高斯denoising和实用的真实视频denoisising方面都具有现有方法。
translated by 谷歌翻译
在极低光线条件下捕获图像会对标准相机管道带来重大挑战。图像变得太黑了,太吵了,这使得传统的增强技术几乎不可能申请。最近,基于学习的方法已经为此任务显示了非常有希望的结果,因为它们具有更大的表现力能力来允许提高质量。这些研究中的激励,在本文中,我们的目标是利用爆破摄影来提高性能,并从极端暗的原始图像获得更加锐利和更准确的RGB图像。我们提出的框架的骨干是一种新颖的粗良好网络架构,逐步产生高质量的输出。粗略网络预测了低分辨率,去噪的原始图像,然后将其馈送到精细网络以恢复微尺的细节和逼真的纹理。为了进一步降低噪声水平并提高颜色精度,我们将该网络扩展到置换不变结构,使得它作为输入突发为低光图像,并在特征级别地合并来自多个图像的信息。我们的实验表明,我们的方法通过生产更详细和相当更高的质量的图像来引起比最先进的方法更令人愉悦的结果。
translated by 谷歌翻译
a) Camera output with ISO 8,000 (b) Camera output with ISO 409,600 (c) Our result from the raw data of (a) Figure 1. Extreme low-light imaging with a convolutional network. Dark indoor environment. The illuminance at the camera is < 0.1 lux. The Sony α7S II sensor is exposed for 1/30 second. (a) Image produced by the camera with ISO 8,000. (b) Image produced by the camera with ISO 409,600. The image suffers from noise and color bias. (c) Image produced by our convolutional network applied to the raw sensor data from (a).
translated by 谷歌翻译
缺乏大规模的真正的原始图像去噪数据集导致挑战训练训练模型的综合性原始图像噪声挑战。然而,实际原始图像噪声由许多噪声源贡献,并且在不同的传感器之间变化很大。现有方法无法准确模拟所有噪声源,并为每个传感器构建噪声模型也是费力的。在本文中,我们介绍了一种新的视角,通过直接从传感器的真实噪声中取样来合成噪声。它本质上为不同的摄像机传感器固有生成准确的原始图像噪声。两种高效且通用技术:图案对齐的贴片采样和高位重建可以分别精确地合成空间相关噪声和高位噪声。我们对SIDD和ELD数据集进行系统实验。结果表明,(1)我们的方法优于现有方法,并在不同的传感器和照明条件下表现出广泛的概括。 (2)最近得出的基于DNN的噪声建模方法的结论实际上是基于不准确的噪声参数。基于DNN的方法仍然不能超越基于物理的统计方法。
translated by 谷歌翻译
神经辐射字段(NERF)是一种用于高质量新颖观看综合的技术从一系列姿势输入图像。与大多数视图合成方法一样,NERF使用TONEMAPPED的低动态范围(LDR)作为输入;这些图像已经通过流畅的相机管道处理,平滑细节,剪辑突出显示,并扭曲了原始传感器数据的简单噪声分布。我们修改NERF以直接在线性原始图像直接培训,保持场景的完整动态范围。通过从生成的NERF渲染原始输出图像,我们可以执行新颖的高动态范围(HDR)视图综合任务。除了改变相机的观点外,我们还可以在事实之后操纵焦点,曝光和调度率。虽然单个原始图像显然比后处理的原始图像显着更大,但我们表明NERF对原始噪声的零平均分布非常强大。当优化许多嘈杂的原始输入(25-200)时,NERF会产生一个场景表示,如此准确的,即其呈现的新颖视图优于在同一宽基线输入图像上运行的专用单个和多像深生物丹机。因此,我们调用Rawnerf的方法可以从近黑暗中捕获的极其嘈杂的图像中重建场景。
translated by 谷歌翻译
Image dehazing is one of the important and popular topics in computer vision and machine learning. A reliable real-time dehazing method with reliable performance is highly desired for many applications such as autonomous driving, security surveillance, etc. While recent learning-based methods require datasets containing pairs of hazy images and clean ground truth, it is impossible to capture them in real scenes. Many existing works compromise this difficulty to generate hazy images by rendering the haze from depth on common RGBD datasets using the haze imaging model. However, there is still a gap between the synthetic datasets and real hazy images as large datasets with high-quality depth are mostly indoor and depth maps for outdoor are imprecise. In this paper, we complement the existing datasets with a new, large, and diverse dehazing dataset containing real outdoor scenes from High-Definition (HD) 3D movies. We select a large number of high-quality frames of real outdoor scenes and render haze on them using depth from stereo. Our dataset is clearly more realistic and more diversified with better visual quality than existing ones. More importantly, we demonstrate that using this dataset greatly improves the dehazing performance on real scenes. In addition to the dataset, we also evaluate a series state of the art methods on the proposed benchmarking datasets.
translated by 谷歌翻译
由于大气湍流的扭曲而恢复图像是一个长期存在的问题,这是由于变形的空间变化,图像形成过程的非线性以及训练和测试数据的稀缺性。现有方法通常在失真模型上具有强大的统计假设,在许多情况下,由于没有概括,因此在现实世界中的性能有限。为了克服挑战,本文提出了一种端到端物理驱动的方法,该方法有效,可以推广到现实世界的湍流。在数据合成方面,我们通过通过宽sense式的平稳性近似随机场来显着增加SOTA湍流模拟器可以处理的图像分辨率。新的数据合成过程使大规模的多级湍流和训练的地面真相对产生。在网络设计方面,我们提出了湍流缓解变压器(TMT),这是一个两级U-NET形状的多帧恢复网络,该网络具有Noval有效的自发机制,称为暂时通道关节关注(TCJA)。我们还引入了一种新的培训方案,该方案由新的模拟器启用,并设计新的变压器单元以减少内存消耗。在静态场景和动态场景上的实验结果是有希望的,包括各种真实的湍流场景。
translated by 谷歌翻译
我们介绍了工业金属对象的多样化数据集。这些对象是对称的,无纹理的和高度反射的,导致在现有数据集中未捕获的具有挑战性的条件。我们的数据集包含具有6D对象姿势标签的现实世界和合成多视图RGB图像。现实世界数据是通过记录具有不同对象形状,材料,载体,组成和照明条件的场景的多视图图像获得的。这将产生超过30,000张图像,并使用新的公共工具准确标记。合成数据是通过仔细模拟现实世界条件并以受控和现实的方式改变它们来获得的。这导致超过500,000张合成图像。合成数据和现实世界数据与受控变化之间的密切对应关系将有助于SIM到现实的研究。我们的数据集的规模和挑战性的性质将有助于研究涉及反射材料的各种计算机视觉任务。数据集和随附的资源可在项目网站https://pderoovere.github.io/dimo上提供。
translated by 谷歌翻译
Recent work has shown that optical flow estimation can be formulated as a supervised learning task and can be successfully solved with convolutional networks. Training of the so-called FlowNet was enabled by a large synthetically generated dataset. The present paper extends the concept of optical flow estimation via convolutional networks to disparity and scene flow estimation. To this end, we propose three synthetic stereo video datasets with sufficient realism, variation, and size to successfully train large networks. Our datasets are the first large-scale datasets to enable training and evaluating scene flow methods. Besides the datasets, we present a convolutional network for real-time disparity estimation that provides state-of-the-art results. By combining a flow and disparity estimation network and training it jointly, we demonstrate the first scene flow estimation with a convolutional network.
translated by 谷歌翻译
为了促进视频降解研究,我们构建了一个引人注目的数据集,即“实用的视频Denoising DataSet”(PVDD),其中包含200个SRGB和RAW格式的嘈杂清洁动态视频对。与由有限运动信息组成的现有数据集相比,PVDD涵盖了具有变化和自然运动的动态场景。与使用主要高斯或泊松分布的数据集不同,以合成SRGB域中的噪声,PVDD通过具有物理意义的传感器噪声模型,然后进行ISP处理,将原始域中的现实噪声合成现实的噪声。此外,基于此数据集,我们提出了一个基于洗牌的实用降解模型,以增强现实世界中SRGB视频的视频DeNoising网络的性能。广泛的实验表明,接受PVDD培训的模型在许多具有挑战性的现实视频上实现了优越的DeNo绩效,而不是在其他现有数据集中训练的模型上。
translated by 谷歌翻译
近年来已经提出了显示屏下的显示器,作为减少移动设备的形状因子的方式,同时最大化屏幕区域。不幸的是,将相机放在屏幕后面导致显着的图像扭曲,包括对比度,模糊,噪音,色移,散射伪像和降低光敏性的损失。在本文中,我们提出了一种图像恢复管道,其是ISP-Annostic,即它可以与任何传统ISP组合,以产生使用相同的ISP与常规相机外观匹配的最终图像。这是通过执行Raw-Raw Image Restoration的深度学习方法来实现的。为了获得具有足够对比度和场景多样性的大量实际展示摄像机培训数据,我们还开发利用HDR监视器的数据捕获方法,以及数据增强方法以产生合适的HDR内容。监视器数据补充有现实世界的数据,该数据具有较少的场景分集,但允许我们实现细节恢复而不受监视器分辨率的限制。在一起,这种方法成功地恢复了颜色和对比度以及图像细节。
translated by 谷歌翻译
成功培训端到端的深网进行真实运动去缩合,需要尖锐/模糊的图像对数据集,这些数据集现实且多样化,足以实现概括以实现真实的图像。获得此类数据集仍然是一项具有挑战性的任务。在本文中,我们首先回顾了现有的Deblurring基准数据集的局限性,从泛化到野外模糊图像的角度。其次,我们提出了一种有效的程序方法,以基于一个简单而有效的图像形成模型来生成清晰/模糊的图像对。这允许生成几乎无限的现实和多样化的培训对。我们通过在模拟对上训练现有的DeBlurring架构,并在四个真实模糊图像的标准数据集中对其进行评估,从而证明了所提出的数据集的有效性。我们观察到使用建议方法训练时动态场景的真实运动毛线照片的最终任务的出色概括性能。
translated by 谷歌翻译
Motion blur from camera shake is a major problem in videos captured by hand-held devices. Unlike single-image deblurring, video-based approaches can take advantage of the abundant information that exists across neighboring frames. As a result the best performing methods rely on the alignment of nearby frames. However, aligning images is a computationally expensive and fragile procedure, and methods that aggregate information must therefore be able to identify which regions have been accurately aligned and which have not, a task that requires high level scene understanding. In this work, we introduce a deep learning solution to video deblurring, where a CNN is trained end-toend to learn how to accumulate information across frames. To train this network, we collected a dataset of real videos recorded with a high frame rate camera, which we use to generate synthetic motion blur for supervision. We show that the features learned from this dataset extend to deblurring motion blur that arises due to camera shake in a wide range of videos, and compare the quality of results to a number of other baselines 1 .
translated by 谷歌翻译
The ability to record high-fidelity videos at high acquisition rates is central to the study of fast moving phenomena. The difficulty of imaging fast moving scenes lies in a trade-off between motion blur and underexposure noise: On the one hand, recordings with long exposure times suffer from motion blur effects caused by movements in the recorded scene. On the other hand, the amount of light reaching camera photosensors decreases with exposure times so that short-exposure recordings suffer from underexposure noise. In this paper, we propose to address this trade-off by treating the problem of high-speed imaging as an underexposed image denoising problem. We combine recent advances on underexposed image denoising using deep learning and adapt these methods to the specificity of the high-speed imaging problem. Leveraging large external datasets with a sensor-specific noise model, our method is able to speedup the acquisition rate of a High-Speed Camera over one order of magnitude while maintaining similar image quality.
translated by 谷歌翻译
高动态范围(HDR)成像是一种允许广泛的动态曝光范围的技术,这在图像处理,计算机图形和计算机视觉中很重要。近年来,使用深度学习(DL),HDR成像有重大进展。本研究对深层HDR成像方法的最新发展进行了综合和富有洞察力的调查和分析。在分层和结构上,将现有的深层HDR成像方法基于(1)输入曝光的数量/域,(2)学习任务数,(3)新传感器数据,(4)新的学习策略,(5)应用程序。重要的是,我们对关于其潜在和挑战的每个类别提供建设性的讨论。此外,我们审查了深度HDR成像的一些关键方面,例如数据集和评估指标。最后,我们突出了一些打开的问题,并指出了未来的研究方向。
translated by 谷歌翻译
低光图像增强(LLIE)旨在提高在环境中捕获的图像的感知或解释性,较差的照明。该领域的最新进展由基于深度学习的解决方案为主,其中许多学习策略,网络结构,丢失功能,培训数据等已被采用。在本文中,我们提供了全面的调查,以涵盖从算法分类到开放问题的各个方面。为了检查现有方法的概括,我们提出了一个低光图像和视频数据集,其中图像和视频是在不同的照明条件下的不同移动电话的相机拍摄的。除此之外,我们首次提供统一的在线平台,涵盖许多流行的LLIE方法,其中结果可以通过用户友好的Web界面生产。除了在公开和我们拟议的数据集上对现有方法的定性和定量评估外,我们还验证了他们在黑暗中的脸部检测中的表现。这项调查与拟议的数据集和在线平台一起作为未来研究的参考来源和促进该研究领域的发展。拟议的平台和数据集以及收集的方法,数据集和评估指标是公开可用的,并将经常更新。
translated by 谷歌翻译