我们通过对修饰过程进行建模,以执行一系列新引入的可训练的神经色运算符来提出一种新型的图像修饰方法。神经颜色操作员模仿了传统颜色运算符的行为,并学习了Pixelwise Color Transformation,而其强度则由标量控制。为了反映颜色运算符的同构属性,我们采用了模棱两可的映射,并采用编码器编码器结构,该结构将非线性颜色转换映射到更简单的转换(即翻译),在高维空间中。通过分析全球图像统计数据,使用基于CNN的强度预测指标预测每个神经颜色操作员的标量强度。总体而言,我们的方法相当轻巧,并提供灵活的控件。实验和公共数据集的用户研究表明,与SOTA方法相比,我们的方法始终取得了最佳的结果。代码和数据将公开可用。
translated by 谷歌翻译
图像增强旨在通过修饰颜色和音调来提高照片的美学视觉质量,并且是专业数字摄影的必不可少的技术。近年来,基于学习的图像增强算法已达到有希望的表现,并吸引了日益普及。但是,典型的努力试图为所有像素的颜色转换构建一个均匀的增强子。它忽略了对照片重要的不同内容(例如,天空,海洋等)之间的像素差异,从而导致结果不令人满意。在本文中,我们提出了一个新颖的可学习背景知觉的4维查找表(4D LUT),该表通过适应性地学习照片上下文来实现每个图像中不同内容的增强。特别是,我们首先引入一个轻量级上下文编码器和一个参数编码器,以分别学习像素级类别的上下文图和一组图像自适应系数。然后,通过通过系数集成多个基础4D LUT来生成上下文感知的4D LUT。最后,可以通过将源图像和上下文图馈入融合的上下文感知的4D〜LUT来获得增强的图像。与传统的3D LUT(即RGB映射到RGB)相比,通常用于摄像机成像管道系统或工具,4D LUT,即RGBC(RGB+上下文)映射到RGB,可实现具有不同像素的颜色转换的最佳控制每个图像中的内容,即使它们具有相同的RGB值。实验结果表明,我们的方法在广泛使用的基准中优于其他最先进的方法。
translated by 谷歌翻译
将外观的图像编辑成令人惊叹的照片需要技巧和时间。自动图像增强算法通过在没有用户交互的情况下生成高质量的图像来引起人们的兴趣。但是,照片的质量评估是主观的。即使在音调和颜色调整中,自动增强的一张照片对于适合用户偏好的挑战也很具有挑战性。为了解决此问题,我们提出了一种半自动图像增强算法,该算法可以通过控制一些参数来生成具有多种样式的高质量图像。我们首先将照片修饰的技能从高质量的图像中解脱出来,并为每种技能建立有效的增强系统。具体而言,编码器框架框架将修饰技能编码为潜在代码,并将它们解码为图像信号处理(ISP)函数的参数。 ISP函数在计算上是有效的,仅由19个参数组成。尽管我们需要多次推断才能获得所需的结果,但实验结果表明,所提出的方法在基准数据集上实现了最先进的性能,以提高图像质量和模型效率。
translated by 谷歌翻译
This paper presents a new neural network for enhancing underexposed photos. Instead of directly learning an image-to-image mapping as previous work, we introduce intermediate illumination in our network to associate the input with expected enhancement result, which augments the network's capability to learn complex photographic adjustment from expert-retouched input/output image pairs. Based on this model, we formulate a loss function that adopts constraints and priors on the illumination, prepare a new dataset of 3,000 underexposed image pairs, and train the network to effectively learn a rich variety of adjustment for diverse lighting conditions. By these means, our network is able to recover clear details, distinct contrast, and natural color in the enhancement results. We perform extensive experiments on the benchmark MIT-Adobe FiveK dataset and our new dataset, and show that our network is effective to deal with previously challenging images.
translated by 谷歌翻译
In this paper we present TreEnhance, an automatic method for low-light image enhancement capable of improving the quality of digital images. The method combines tree search theory, and in particular the Monte Carlo Tree Search (MCTS) algorithm, with deep reinforcement learning. Given as input a low-light image, TreEnhance produces as output its enhanced version together with the sequence of image editing operations used to obtain it. During the training phase, the method repeatedly alternates two main phases: a generation phase, where a modified version of MCTS explores the space of image editing operations and selects the most promising sequence, and an optimization phase, where the parameters of a neural network, implementing the enhancement policy, are updated. Two different inference solutions are proposed for the enhancement of new images: one is based on MCTS and is more accurate but more time and memory consuming; the other directly applies the learned policy and is faster but slightly less precise. As a further contribution, we propose a guided search strategy that "reverses" the enhancement procedure that a photo editor applied to a given input image. Unlike other methods from the state of the art, TreEnhance does not pose any constraint on the image resolution and can be used in a variety of scenarios with minimal tuning. We tested the method on two datasets: the Low-Light dataset and the Adobe Five-K dataset obtaining good results from both a qualitative and a quantitative point of view.
translated by 谷歌翻译
The paper presents a novel method, Zero-Reference Deep Curve Estimation (Zero-DCE), which formulates light enhancement as a task of image-specific curve estimation with a deep network. Our method trains a lightweight deep network, DCE-Net, to estimate pixel-wise and high-order curves for dynamic range adjustment of a given image. The curve estimation is specially designed, considering pixel value range, monotonicity, and differentiability. Zero-DCE is appealing in its relaxed assumption on reference images, i.e., it does not require any paired or unpaired data during training. This is achieved through a set of carefully formulated non-reference loss functions, which implicitly measure the enhancement quality and drive the learning of the network. Our method is efficient as image enhancement can be achieved by an intuitive and simple nonlinear curve mapping. Despite its simplicity, we show that it generalizes well to diverse lighting conditions. Extensive experiments on various benchmarks demonstrate the advantages of our method over state-of-the-art methods qualitatively and quantitatively. Furthermore, the potential benefits of our Zero-DCE to face detection in the dark are discussed.
translated by 谷歌翻译
低光图像增强(LLIE)旨在提高在环境中捕获的图像的感知或解释性,较差的照明。该领域的最新进展由基于深度学习的解决方案为主,其中许多学习策略,网络结构,丢失功能,培训数据等已被采用。在本文中,我们提供了全面的调查,以涵盖从算法分类到开放问题的各个方面。为了检查现有方法的概括,我们提出了一个低光图像和视频数据集,其中图像和视频是在不同的照明条件下的不同移动电话的相机拍摄的。除此之外,我们首次提供统一的在线平台,涵盖许多流行的LLIE方法,其中结果可以通过用户友好的Web界面生产。除了在公开和我们拟议的数据集上对现有方法的定性和定量评估外,我们还验证了他们在黑暗中的脸部检测中的表现。这项调查与拟议的数据集和在线平台一起作为未来研究的参考来源和促进该研究领域的发展。拟议的平台和数据集以及收集的方法,数据集和评估指标是公开可用的,并将经常更新。
translated by 谷歌翻译
图像修饰,旨在再生给定图像的视觉令人愉悦的演绎,是用户具有不同美学感觉的主观任务。大多数现有的方法都部署了确定性模型,以从特定的专家那里学习修饰样式,从而使其不太灵活地满足各种主观偏好。此外,由于对不同图像的有针对性处理,专家的内在多样性也被缺乏描述。为了避免此类问题,我们建议通过基于流动的架构来学习各种图像修饰。与直接生成输出图像的当前基于流的方法不同,我们认为在样式域中学习可以(i)将修饰样式从图像内容中解开,(ii)导致稳定的样式表现形式,并且(iii)避免空间不和谐效果。为了获得有意义的图像音调样式表示,设计了联合培训管道,设计由样式编码器,条件修饰网和图像音调样式正常化流量(TSFLOW)模块组成。特别是,样式编码器预测了输入图像的目标样式表示,该图像是用于修饰的修饰网中的条件信息,而TSFlow将样式表示向量映射到前向通行中的高斯分布。训练后,TSFlow可以通过从高斯分布中取样来生成多样的图像音调矢量。关于MIT-Adobe Fivk和PPR10K数据集的广泛实验表明,我们提出的方法对最新方法有利,并且有效地产生了不同的结果以满足不同的人类美学偏好。源代码和预培训模型可在https://github.com/ssrheart/tsflow上公开获得。
translated by 谷歌翻译
如今,图像到图像翻译方法是增强自然图像的最新技术。即使它们通常在准确性方面表现出高度的表现,他们也经常受到一些限制,例如产生伪像以及对高分辨率的可扩展性。此外,他们的主要缺点是完全黑框的方法,它不允许为最终用户提供有关应用的增强过程的任何见解。在本文中,我们介绍了一种路径计划算法,该算法对通过最先进的增强方法产生的输出进行了分步说明,并克服了黑框的限制。该算法(称为Exie)使用A*算法的变体通过应用等效的增强运算符序列来模拟另一种方法的增强过程。我们应用了Exie来解释在五千数据集中训练的几种最先进模型的输出,从而获得了增强运算符的序列,能够在性能方面产生非常相似的结果,并克服了对差的巨大限制的巨大限制。最佳性能算法。
translated by 谷歌翻译
Photo-realistic style transfer aims at migrating the artistic style from an exemplar style image to a content image, producing a result image without spatial distortions or unrealistic artifacts. Impressive results have been achieved by recent deep models. However, deep neural network based methods are too expensive to run in real-time. Meanwhile, bilateral grid based methods are much faster but still contain artifacts like overexposure. In this work, we propose the \textbf{Adaptive ColorMLP (AdaCM)}, an effective and efficient framework for universal photo-realistic style transfer. First, we find the complex non-linear color mapping between input and target domain can be efficiently modeled by a small multi-layer perceptron (ColorMLP) model. Then, in \textbf{AdaCM}, we adopt a CNN encoder to adaptively predict all parameters for the ColorMLP conditioned on each input content and style image pair. Experimental results demonstrate that AdaCM can generate vivid and high-quality stylization results. Meanwhile, our AdaCM is ultrafast and can process a 4K resolution image in 6ms on one V100 GPU.
translated by 谷歌翻译
图像自适应查找表(LUTS)由于对颜色变换进行建模的高效率,在实时图像增强任务中取得了巨大的成功。但是,他们以耦合方式将完整的转换嵌入了仅颜色组件独立于颜色的部分和与组件相关的部分,仅以1D或3D的形式嵌入到单一类型的LUT中。该方案提高了由于两个因素而提高模型表现力或效率的困境。一方面,一维LUTS提供了较高的计算效率,但缺乏颜色组件相互作用的关键能力。另一方面,3D LUTS具有增强的组件与转换功能增强,但具有重记忆足迹,高训练难度和有限的细胞利用率。受图像信号处理器中常规的划分和互动实践的启发,我们提出了塞普鲁特(可分开的图像自适应查找表),以应对上述限制。具体而言,我们分别将单个颜色转换为与组件无关和组件相关的子转换的级联反应,分别将其实例化为1D和3D LUTS。这样,两个子转换的功能可以互相促进,其中3D LUT可以补充混合颜色组件的能力,而1D LUT重新分配了输入颜色以增加3D LUT的单元格使用,从而启用了启用的单元格。使用更轻巧的3D LUT。实验表明,所提出的方法比当前的最新方法提高了图片修饰数据集的性能,并在GPU和CPU上实现实时处理。
translated by 谷歌翻译
增强低光图像的质量在许多图像处理和多媒体应用中起着非常重要的作用。近年来,已经开发出各种深入的学习技术来解决这一具有挑战性的任务。典型的框架是同时估计照明和反射率,但它们忽略了在特征空间中封装的场景级上下文信息,从而导致许多不利的结果,例如,细节损失,颜色不饱和,工件等。为了解决这些问题,我们开发了一个新的上下文敏感的分解网络架构,用于利用空间尺度上的场景级上下文依赖项。更具体地说,我们构建了一种双流估计机制,包括反射率和照明估计网络。我们设计一种新的上下文敏感的分解连接来通过结合物理原理来桥接双流机制。进一步构建了空间改变的照明引导,用于实现照明组件的边缘感知平滑性特性。根据不同的培训模式,我们构建CSDNet(配对监督)和CSDGAN(UNS满分监督),以充分评估我们设计的架构。我们在七个测试基准测试中测试我们的方法,以进行大量的分析和评估的实验。由于我们设计的上下文敏感的分解连接,我们成功实现了出色的增强结果,这完全表明我们对现有最先进的方法的优势。最后,考虑到高效的实际需求,我们通过减少通道数来开发轻量级CSDNet(命名为LiteCsdnet)。此外,通过为这两个组件共享编码器,我们获得更轻量级的版本(短路SLITECSDNET)。 SLITECSDNET只包含0.0301M参数,但达到与CSDNET几乎相同的性能。
translated by 谷歌翻译
图像颜色协调算法旨在自动匹配在不同条件下捕获的前景图像的颜色分布和背景图像。以前的基于深度学习的模型忽略了两个对于实际应用至关重要的问题,即高分辨率(HR)图像处理和模型的可理解性。在本文中,我们提出了一个新型的深层综合颜色滤波器(DCCF)学习框架,用于高分辨率图像协调。具体而言,DCCF首先将原始输入图像列为其低分辨率(LR)对抗零件,然后以端到端的方式学习四个人类可理解的神经过滤器(即色相,饱和,饱和,价值和细心的渲染过滤器),最终以将这些过滤器应用于原始输入图像以获得统一的结果。从可理解的神经过滤器中受益,我们可以为用户提供一个简单而有效的处理程序,以便用户与Deep Model合作,以便在必要时很少努力获得所需的结果。广泛的实验证明了DCCF学习框架的有效性,并且它在IHARMONY4数据集上的最先进的后处理方法优于图像的全分辨率,分别在MSE和PSNR上实现了7.63%和1.69%的相对改进,从而超过了图像的全分辨率。
translated by 谷歌翻译
在现实世界中,具有挑战性的照明条件(低光,不渗透和过度暴露)不仅具有令人不愉快的视觉外观,而且还要污染计算机视觉任务。现有的光自适应方法通常分别处理每种条件。而且,其中大多数经常在原始图像上运行或过度简化相机图像信号处理(ISP)管道。通过将光转换管道分解为局部和全局ISP组件,我们提出了一个轻巧的快速照明自适应变压器(IAT),其中包括两个变压器式分支:本地估计分支和全球ISP分支。尽管本地分支估算与照明有关的像素的本地组件,但全局分支定义了可学习的Quires,可以参加整个图像以解码参数。我们的IAT还可以在各种光条件下同时进行对象检测和语义分割。我们已经在2个低级任务和3个高级任务上对多个现实世界数据集进行了广泛评估。我们的IAT只有90K参数和0.004S处理速度(不包括高级模块),其IAT始终达到了卓越的性能。代码可从https://github.com/cuiziteng/illumination-aptive-transformer获得
translated by 谷歌翻译
图像协调旨在根据具体背景修改复合区域的颜色。以前的工作模型是使用Unet系列结构的像素-ID映像转换。然而,模型大小和计算成本限制了模型在边缘设备和更高分辨率图像上的能力。为此,我们首次提出了一种新的空间分离曲线渲染网络(S $ ^ 2 $ CRNET),首次进行高效和高分辨率的图像协调。在S $ ^ 2 $ CRNET中,我们首先将屏蔽前景和背景的缩略图中提取空间分离的嵌入物。然后,我们设计一种曲线渲染模块(CRM),其使用线性层学习并结合空间特定知识,以生成前景区域中的方向曲线映射的参数。最后,我们使用学习的颜色曲线直接渲染原始的高分辨率图像。此外,我们还通过Cascaded-CRM和语义CRM分别进行了两个框架的延伸,分别用于级联细化和语义指导。实验表明,与以前的方法相比,该方法降低了90%以上的参数,但仍然达到了合成的iHarmony4和现实世界DIH测试集的最先进的性能。此外,我们的方法可以在0.1秒内在更高分辨率图像(例如,2048美元\ times2048 $)上顺利工作,而不是所有现有方法的GPU计算资源。代码将在\ url {http://github.com/stefanleong/s2crnet}中提供。
translated by 谷歌翻译
主要的图像到图像翻译方法基于完全卷积的网络,该网络提取和翻译图像的特征,然后重建图像。但是,在使用高分辨率图像时,它们的计算成本不可接受。为此,我们介绍了多曲线翻译器(MCT),它不仅可以预测相应的输入像素的翻译像素,还可以预测其相邻像素的翻译像素。而且,如果将高分辨率图像删除到其低分辨率版本中,则丢失的像素是其余像素的相邻像素。因此,MCT可以使网络仅馈入倒数采样的图像以执行全分辨率图像的映射,从而大大降低计算成本。此外,MCT是一种使用现有基本型号的插件方法,仅需要更换其输出层。实验表明,MCT变体可以实时处理4K图像,并比各种逼真的图像到图像翻译任务上的基本模型实现可比甚至更好的性能。
translated by 谷歌翻译
夜间摄影通常由于昏暗的环境和长期使用而遭受弱光和模糊问题。尽管现有的光增强和脱毛方法可以单独解决每个问题,但一系列此类方法不能和谐地适应可见性和纹理的共同降解。训练端到端网络也是不可行的,因为没有配对数据可以表征低光和模糊的共存。我们通过引入新的数据合成管道来解决该问题,该管道对现实的低光模糊降解进行建模。使用管道,我们介绍了第一个用于关节低光增强和去皮的大型数据集。数据集,LOL-BLUR,包含12,000个低Blur/正常出现的对,在不同的情况下具有不同的黑暗和运动模糊。我们进一步提出了一个名为LEDNET的有效网络,以执行关节弱光增强和脱毛。我们的网络是独一无二的,因为它是专门设计的,目的是考虑两个相互连接的任务之间的协同作用。拟议的数据集和网络都为这项具有挑战性的联合任务奠定了基础。广泛的实验证明了我们方法对合成和现实数据集的有效性。
translated by 谷歌翻译
关于图像协调的最新作品将问题作为像素图像翻译任务通过大型自动编码器解决。在处理高分辨率图像时,它们的性能不令人满意和缓慢的推理速度。在这项工作中,我们观察到调整基本图像过滤器的输入参数,例如亮度和对比度,足以使人类从复合材料的图像中产生逼真的图像。因此,我们将图像协调作为图像级回归问题,以了解人类用于任务的过滤器的参数。我们提出了一个用于图像协调的谐波框架。与基于黑框自动编码器的先前方法不同,Harmonizer包含用于过滤器参数预测的神经网络,以及用于图像协调的几个白色框过滤器(基于预测参数)。我们还引入了级联回归器和一个动态损失策略,以使和声使更稳定地学习过滤器论点。由于我们的网络仅输出图像级参数和我们使用的过滤器是有效的,因此谐波比现有方法更轻,更快。全面的实验表明,谐波可以超过现有方法,尤其是在高分辨率输入的情况下。最后,我们将谐波应用于视频和谐,以1080p分辨率在框架和56 fps上实现一致的结果。代码和型号可在以下网址提供:https://github.com/zhkkke/harmonizer。
translated by 谷歌翻译
在不完美亮度条件下采取的照片的视觉质量可以通过多种因素来退化,例如,低亮度,成像噪声,颜色失真等。目前的低灯图像增强型号仅关注较低亮度的改善,或者简单地处理整体的所有退化因子,导致次优性能。在本文中,我们建议将增强模型分成两个顺序阶段。第一阶段侧重于基于像素明智的非线性映射来提高场景可见性。第二阶段专注于通过抑制其余变性因素来改善外观保真度。解耦模型有助于两个方面的增强。一方面,整个低光增强可以分为两个更容易的子组织。第一个只旨在增强可见性。它还有助于弥合低光和常光图像之间的大强度间隙。以这种方式,第二个子摊可以成形为局部外观调整。另一方面,由于从第一阶段学习的参数矩阵意识到亮度分布和场景结构,因此可以作为互补信息结合到第二阶段。在实验中,与其他低光图像增强模型相比,我们的模型在定性和定量比较方面表现出最先进的性能。此外,消融研究还验证了我们模型在多个方面的有效性,例如模型结构和损失功能。训练有素的模型可在https://github.com/hanxuhfut/decoupled-low-light-image-enhancement获得。
translated by 谷歌翻译
移动设备上的低光成像通常是由于不足的孔径穿过相对较小的孔径而挑战,导致信噪比较低。以前的大多数关于低光图像处理的作品仅关注单个任务,例如照明调整,颜色增强或删除噪声;或在密切依赖于从特定的摄像机模型中收集的长时间曝光图像对的关节照明调整和降解任务上,因此,这些方法在需要摄像机特定的关节增强和恢复的现实环境中不太实用且可推广。为了解决这个问题,在本文中,我们提出了一个低光图像处理框架,该框架可以执行关节照明调整,增强色彩和降解性。考虑到模型特异性数据收集的难度和捕获图像的超高定义,我们设计了两个分支:系数估计分支以及关节增强和denoising分支。系数估计分支在低分辨率空间中起作用,并预测通过双边学习增强的系数,而关节增强和去核分支在全分辨率空间中工作,并逐步执行关节增强和脱氧。与现有方法相反,我们的框架在适应另一个摄像机模型时不需要回忆大量数据,这大大减少了微调我们用于实际使用方法所需的努力。通过广泛的实验,与当前的最新方法相比,我们在现实世界中的低光成像应用中证明了它的巨大潜力。
translated by 谷歌翻译