图像去除任务是一个不适的任务,其中存在无限的可行解决方案来模糊图像。现代深度学习方法通​​常会丢弃模糊内核的学习,并直接采用端到端的监督学习。流行的DeBlurring数据集将标签定义为可行解决方案之一。但是,我们认为直接指定标签是不合理的,尤其是当从随机分布中采样标签时。因此,我们建议使网络学习可行解决方案的分布,并基于此考虑,设计了一种新型的多头输出体系结构和分配学习的相应损失函数。我们的方法使该模型能够输出多个可行解决方案以近似目标分布。我们进一步提出了一种新型参数多路复用方法,该方法可以减少参数和计算工作的数量,同时改善性能。我们评估了我们在多个图像塑性模型(包括当前最新NAFNET)的方法。最佳总体(在每个验证图像中选择最高得分)的提高PSNR的表现优于比较的基准高达0.11〜0.18dB。最佳单头的改善(在验证集的多个头部中选择表现最佳的头部)PSNR优于比较的基线高达0.04〜0.08dB。这些代码可在https://github.com/liu-sd/multi-actup-deblur上找到。
translated by 谷歌翻译
在本文中,我们研究了现实世界图像脱毛的问题,并考虑了改善深度图像脱布模型的性能的两个关键因素,即培训数据综合和网络体系结构设计。经过现有合成数据集训练的脱毛模型在由于域移位引起的真实模糊图像上的表现较差。为了减少合成和真实域之间的域间隙,我们提出了一种新颖的现实模糊合成管道来模拟摄像机成像过程。由于我们提出的合成方法,可以使现有的Deblurring模型更强大,以处理现实世界的模糊。此外,我们开发了一个有效的脱蓝色模型,该模型同时捕获特征域中的非本地依赖性和局部上下文。具体而言,我们将多路径变压器模块介绍给UNET架构,以进行丰富的多尺度功能学习。在三个现实世界数据集上进行的全面实验表明,所提出的Deblurring模型的性能优于最新方法。
translated by 谷歌翻译
大多数现有的基于深度学习的单图像动态场景盲目脱毛(SIDSBD)方法通常设计深网络,以直接从一个输入的运动模糊图像中直接删除空间变化的运动模糊,而无需模糊的内核估计。在本文中,受投射运动路径模糊(PMPB)模型和可变形卷积的启发,我们提出了一个新颖的约束可变形的卷积网络(CDCN),以进行有效的单图像动态场景,同时实现了准确的空间变化,以及仅观察到的运动模糊图像的高质量图像恢复。在我们提出的CDCN中,我们首先构建了一种新型的多尺度多级多输入多输出(MSML-MIMO)编码器架构,以提高功能提取能力。其次,与使用多个连续帧的DLVBD方法不同,提出了一种新颖的约束可变形卷积重塑(CDCR)策略,其中首先将可变形的卷积应用于输入的单运动模糊图像的模糊特征,用于学习学习的抽样点,以学习学习的采样点每个像素的运动模糊内核类似于PMPB模型中摄像机震动的运动密度函数的估计,然后提出了一种基于PMPB的新型重塑损耗函数来限制学习的采样点收敛,这可以使得可以使得可以使其产生。学习的采样点与每个像素的相对运动轨迹匹配,并促进空间变化的运动模糊内核估计的准确性。
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
采用重塑的常见做法是学习模糊和锐利图像对之间的差异,在端到端图像去孔架构之间的差异。从其模糊的对应物重建锐利图像需要有关低频和高频信息的变化。尽管传统的RESBLOCK可以具有良好的能力在捕获图像的高频分量时,但它倾向于俯视低频信息。此外,RESBLOCK通常无法富集地模拟在从其模糊的对应物中重建尖锐图像的不普通的远程信息。在本文中,我们介绍了一种剩余的快速傅里叶变换与卷积块(RES FFT-CONV块),能够捕获长期和短期交互,同时集成低频和高频残差。 RES FFT-CONC模块是一个概念简单但可计算的高效,即插即用块,导致不同架构中的表现增长显着。利用RES FFT-CONV块,我们进一步提出了一种基于MIMO-UNET的深度残留的傅里叶变换(DEEPRFT)框架,在GoPro,隐藏,Realblur和DPDD数据集上实现最先进的图像去孔性能。实验表明我们的DEEPRFT可以显着提高图像去掩饰性能(例如,与MIMO-UNET相比,Gopro Dataset上的PSNR上的1.09 dB改善),DEEPRFT +在GoPro数据集上达到PSNR中的33.23 dB。
translated by 谷歌翻译
图像DeBlurring旨在恢复模糊图像中的详细纹理信息或结构,这已成为许多计算机视觉任务中必不可少的一步。尽管已经提出了各种方法来处理图像去除问题,但大多数方法将模糊图像视为一个整体,并忽略了不同图像频率的特征。在本文中,我们提出了一种新方法,称为图像脱毛的多尺度频率分离网络(MSFS-NET)。 MSFS-NET将频率分离模块(FSM)引入编码器 - 模块网络体系结构中,以在多个尺度上捕获图像的低频和高频信息。然后,分别设计了一个循环一致性策略和对比度学习模块(CLM),以保留低频信息,并在Deblurring期间恢复高频信息。最后,不同量表的特征是通过跨尺度特征融合模块(CSFFM)融合的。基准数据集的广泛实验表明,所提出的网络可实现最先进的性能。
translated by 谷歌翻译
Non-uniform blind deblurring for general dynamic scenes is a challenging computer vision problem as blurs arise not only from multiple object motions but also from camera shake, scene depth variation. To remove these complicated motion blurs, conventional energy optimization based methods rely on simple assumptions such that blur kernel is partially uniform or locally linear. Moreover, recent machine learning based methods also depend on synthetic blur datasets generated under these assumptions. This makes conventional deblurring methods fail to remove blurs where blur kernel is difficult to approximate or parameterize (e.g. object motion boundaries). In this work, we propose a multi-scale convolutional neural network that restores sharp images in an end-to-end manner where blur is caused by various sources. Together, we present multiscale loss function that mimics conventional coarse-to-fine approaches. Furthermore, we propose a new large-scale dataset that provides pairs of realistic blurry image and the corresponding ground truth sharp image that are obtained by a high-speed camera. With the proposed model trained on this dataset, we demonstrate empirically that our method achieves the state-of-the-art performance in dynamic scene deblurring not only qualitatively, but also quantitatively.
translated by 谷歌翻译
由于空间和时间变化的模糊,视频脱毛是一个高度不足的问题。视频脱毛的直观方法包括两个步骤:a)检测当前框架中的模糊区域; b)利用来自相邻帧中清晰区域的信息,以使当前框架脱毛。为了实现这一过程,我们的想法是检测每个帧的像素模糊级别,并将其与视频Deblurring结合使用。为此,我们提出了一个新颖的框架,该框架利用了先验运动级(MMP)作为有效的深视频脱张的指南。具体而言,由于在曝光时间内沿其轨迹的像素运动与运动模糊水平呈正相关,因此我们首先使用高频尖锐框架的光流量的平均幅度来生成合成模糊框架及其相应的像素 - 像素 - 明智的运动幅度地图。然后,我们构建一个数据集,包括模糊框架和MMP对。然后,由紧凑的CNN通过回归来学习MMP。 MMP包括空间和时间模糊级别的信息,可以将其进一步集成到视频脱毛的有效复发性神经网络(RNN)中。我们进行密集的实验,以验证公共数据集中提出的方法的有效性。
translated by 谷歌翻译
基于卷积神经网络(CNN)的现代单图像超分辨率(SISR)系统实现了花哨的性能,而需要巨大的计算成本。在视觉识别任务中对特征冗余的问题进行了很好的研究,但很少在SISR中进行讨论。基于这样的观察,SISR模型中的许多功能也彼此相似,我们建议使用Shift操作来生成冗余功能(即幽灵功能)。与在类似GPU的设备上耗时的深度卷积相比,Shift操作可以为CNN带来实用的推理加速度。我们分析了SISR操作对SISR任务的好处,并根据Gumbel-SoftMax技巧使Shift取向可学习。此外,基于预训练的模型探索了聚类过程,以识别用于生成内在特征的内在过滤器。幽灵功能将通过沿特定方向移动这些内在功能来得出。最后,完整的输出功能是通过将固有和幽灵特征串联在一起来构建的。在几个基准模型和数据集上进行的广泛实验表明,嵌入了所提出方法的非压缩和轻质SISR模型都可以实现与基准的可比性能,并大大降低了参数,拖台和GPU推荐延迟。例如,我们将参数降低46%,FLOPS掉落46%,而GPU推断潜伏期则减少了$ \ times2 $ EDSR网络的42%,基本上是无损的。
translated by 谷歌翻译
在计算机视觉和邻近字段中,已广泛研究了盲图片脱毛(BID)。投标的现代方法可以分为两类:使用统计推断和数值优化处理单个实例的单个实体方法,以及数据驱动的方法,这些方法可以直接训练深度学习模型来直接删除未来实例。数据驱动的方法可以摆脱得出准确的模型模型的困难,但从根本上受到培训数据的多样性和质量的限制 - 收集足够表达和现实的培训数据是一个坚定的挑战。在本文中,我们专注于保持竞争力和必不可少的单一稳定方法。但是,大多数此类方法没有规定如何处理未知内核大小和实质性噪音,从而排除了实际部署。实际上,我们表明,当核大小被明确指定时,几种最新的(SOTA)单位方法是不稳定的,并且/或噪声水平很高。从积极的一面来看,我们提出了一种实用的出价方法,该方法对这两者都是稳定的,这是同类的。我们的方法建立在最新的思想,即通过整合物理模型和结构深度神经网络而没有额外的培训数据来解决反问题。我们引入了几种关键修改以实现所需的稳定性。与SOTA单位结构以及数据驱动的方法相比,对标准合成数据集以及现实世界中的NTIRE2020和REALBLUR数据集进行了广泛的经验测试。我们方法的代码可在:\ url {https://github.com/sun-unm/blind-image-deblurring}中获得。
translated by 谷歌翻译
在本文中,我们介绍了一种快速运动脱棕色条件的生成对抗网络(FMD-CGAN),其有助于单个图像的盲运动去纹理。 FMD-CGAN在去修改图像后提供令人印象深刻的结构相似性和视觉外观。与其他深度神经网络架构一样,GAN也遭受大型模型大小(参数)和计算。在诸如移动设备和机器人等资源约束设备上部署模型并不容易。借助MobileNet基于MobileNet的架构,包括深度可分离卷积,我们降低了模型大小和推理时间,而不会丢失图像的质量。更具体地说,我们将模型大小与最近的竞争对手相比将3-60倍。由此产生的压缩去掩盖CGAN比其最接近的竞争对手更快,甚至定性和定量结果优于各种最近提出的最先进的盲运动去误紧模型。我们还可以使用我们的模型进行实时映像解擦干任务。标准数据集的当前实验显示了该方法的有效性。
translated by 谷歌翻译
否决单图是一项普遍但又具有挑战性的任务。复杂的降雪降解和各种降解量表需要强大的代表能力。为了使否定的网络看到各种降雪并建模本地细节和全球信息的上下文相互作用,我们提出了一种称为Snowformer的功能强大的建筑。首先,它在编码器中执行比例感知功能聚合,以捕获各种降解的丰富积雪信息。其次,为了解决大规模降级,它使用了解码器中的新颖上下文交互变压器块,该互动器块在全球上下文交互中从前范围内的局部细节和全局信息进行了上下文交互。并引入本地上下文互动可改善场景细节的恢复。第三,我们设计了一个异质的特征投影头,该功能投影头逐渐融合了编码器和解码器的特征,并将精制功能投影到干净的图像中。广泛的实验表明,所提出的雪诺形雪孔比其他SOTA方法取得了重大改进。与SOTA单图像HDCW-NET相比,它在CSD测试集上将PSNR度量提高了9.2dB。此外,与一般图像恢复体系结构NAFNET相比,PSNR的增加5.13db,这验证了我们的雪诺形雪地降雪任务的强大表示能力。该代码在\ url {https://github.com/ephemeral182/snowformer}中发布。
translated by 谷歌翻译
的状态的最先进的视频去模糊方法的成功主要源于潜伏视频恢复相邻帧之间的对准隐式或显式的估计。然而,由于模糊效果的影响,估计从所述模糊的相邻帧的对准信息是不是一个简单的任务。不准确的估计将干扰随后的帧的恢复。相反,估计比对信息,我们提出了一个简单而有效的深层递归神经网络与多尺度双向传播(RNN-MBP),有效传播和收集未对齐的相邻帧的信息,更好的视频去模糊。具体来说,我们建立与这可以通过在不同的尺度整合他们直接利用从非对齐相邻隐藏状态帧间信息的两个U形网RNN细胞多尺度双向传播〜(MBP)模块。此外,为了更好地评估算法和国家的最先进的存在于现实世界的模糊场景的方法,我们也通过一个精心设计的数字视频采集系统创建一个真实世界的模糊视频数据集(RBVD)(的DVA)并把它作为训练和评估数据集。大量的实验结果表明,该RBVD数据集有效地提高了对现实世界的模糊的视频现有算法的性能,并且算法进行从优对三个典型基准的国家的最先进的方法。该代码可在https://github.com/XJTU-CVLAB-LOWLEVEL/RNN-MBP。
translated by 谷歌翻译
高动态范围(HDR)成像是一种允许广泛的动态曝光范围的技术,这在图像处理,计算机图形和计算机视觉中很重要。近年来,使用深度学习(DL),HDR成像有重大进展。本研究对深层HDR成像方法的最新发展进行了综合和富有洞察力的调查和分析。在分层和结构上,将现有的深层HDR成像方法基于(1)输入曝光的数量/域,(2)学习任务数,(3)新传感器数据,(4)新的学习策略,(5)应用程序。重要的是,我们对关于其潜在和挑战的每个类别提供建设性的讨论。此外,我们审查了深度HDR成像的一些关键方面,例如数据集和评估指标。最后,我们突出了一些打开的问题,并指出了未来的研究方向。
translated by 谷歌翻译
我们提出了一种新的零射多帧图像恢复方法,用于去除连续帧中变化的不需要的障碍物(例如降雨,雪和莫尔图案)。它有三个阶段:变压器预训练,零射恢复和硬贴片细化。使用预先训练的变压器,我们的模型能够在真实图像信息和阻碍元件之间讲述运动差异。对于零拍摄图像恢复,我们设计了一种由暹罗变换器,编码器和解码器构建的新型模型,称为暹罗。每个变压器具有时间关注层和几个自我注意层,以捕获多个帧的时间和空间信息。只有在去噪任务上进行预训练(自我监督),Siamtrans在三个不同的低级视觉任务中测试了三种不同的低级视觉任务(派生,发誓和Desnowing)。与相关方法相比,我们的表现效果最佳,甚至优于具有监督学习的表现。
translated by 谷歌翻译
派生是一个重要而基本的计算机视觉任务,旨在消除在下雨天捕获的图像或视频中的雨条纹和累积。现有的派威方法通常会使雨水模型的启发式假设,这迫使它们采用复杂的优化或迭代细化以获得高回收质量。然而,这导致耗时的方法,并影响解决从假设偏离的雨水模式的有效性。在本文中,我们通过在没有复杂的雨水模型假设的情况下,通过在没有复杂的雨水模型假设的情况下制定污染作为预测滤波问题的简单而有效的污染方法。具体地,我们识别通过深网络自适应地预测适当的核的空间变型预测滤波(SPFILT以过滤不同的各个像素。由于滤波可以通过加速卷积来实现,因此我们的方法可以显着效率。我们进一步提出了eFderain +,其中包含三个主要贡献来解决残留的雨迹,多尺度和多样化的雨水模式而不会损害效率。首先,我们提出了不确定感知的级联预测滤波(UC-PFILT),其可以通过预测的内核来识别重建清洁像素的困难,并有效地移除残留的雨水迹线。其次,我们设计重量共享多尺度扩张过滤(WS-MS-DFILT),以处理多尺度雨条纹,而不会损害效率。第三,消除各种雨水模式的差距,我们提出了一种新颖的数据增强方法(即Rainmix)来培养我们的深层模型。通过对不同变体的复杂分析的所有贡献相结合,我们的最终方法在恢复质量和速度方面优于四个单像辐照数据集和一个视频派威数据集的基线方法。
translated by 谷歌翻译
Recently, Transformer-based image restoration networks have achieved promising improvements over convolutional neural networks due to parameter-independent global interactions. To lower computational cost, existing works generally limit self-attention computation within non-overlapping windows. However, each group of tokens are always from a dense area of the image. This is considered as a dense attention strategy since the interactions of tokens are restrained in dense regions. Obviously, this strategy could result in restricted receptive fields. To address this issue, we propose Attention Retractable Transformer (ART) for image restoration, which presents both dense and sparse attention modules in the network. The sparse attention module allows tokens from sparse areas to interact and thus provides a wider receptive field. Furthermore, the alternating application of dense and sparse attention modules greatly enhances representation ability of Transformer while providing retractable attention on the input image.We conduct extensive experiments on image super-resolution, denoising, and JPEG compression artifact reduction tasks. Experimental results validate that our proposed ART outperforms state-of-the-art methods on various benchmark datasets both quantitatively and visually. We also provide code and models at the website https://github.com/gladzhang/ART.
translated by 谷歌翻译
由于长时间曝光时间,传统的基于帧的相机不可避免地遭受运动模糊。作为一种生物启发相机,事件摄像机以具有高时间分辨率的异步方式记录强度变化,在曝光时间内提供有效的图像劣化信息。在本文中,我们重新思考基于事件的图像去掩盖问题并将其展开成为端到端的两级图像恢复网络。为了有效地利用事件信息,我们设计(i)专门用于图像去纹理的新型对称累积事件表示,以及(ii)在我们网络的多个级别应用的仿射事件图像融合模块。我们还提出了网络的两个阶段之间的事件掩码所连接的连接,以避免信息丢失。在数据集级别,为了促进基于事件的运动解训,并促进挑战真实世界图像的评估,我们介绍了在照明控制的光学实验室中使用活动摄像机捕获的高质量模糊(HQBLUR)数据集。我们的多尺度事件融合网络(MEFNET)设置了用于运动解训的新技术,超越了先前最佳的基于图像的方法和GoPro上的公共实现的所有基于事件的方法(高达2.38dB即使在极端模糊条件下,也是HQBLUR Datasets。源代码和数据集将公开可用。
translated by 谷歌翻译
最近的作品在使用卷积神经网络(CNN)的双像素数据基于defocus Deblurring任务方面取得了出色的成果,而数据的稀缺性限制了视觉变压器在此任务中的探索和尝试。此外,现有作品还使用固定参数和网络体系结构来删除具有不同分布和内容信息的图像,这也影响了模型的概括能力。在本文中,我们提出了一个动态多尺度网络,名为DMTNET,用于双像素图像Defocus DeBlurring。 DMTNET主要包含两个模块:特征提取模块和重建模块。该特征提取模块由几个视觉变压器块组成,该模块使用其强大的特征提取能力来获得更丰富的功能并改善模型的鲁棒性。重建模块由几个动态多尺度子重构模块(DMSSRM)组成。 DMSSRM可以根据输入图像的模糊分布和内容信息自适应地分配权重来恢复图像。 DMTNET结合了变压器和CNN的优势,其中视觉变压器改善了CNN的性能上限,并且CNN的电感偏置使变压器能够在不依赖大量数据的情况下提取更强大的功能。 DMTNET可能是首次使用视觉变压器来恢复模糊图像以清晰的尝试。通过与CNN结合,视觉变压器可以在小数据集上实现更好的性能。对流行基准测试的实验结果表明,我们的DMTNET显着优于最先进的方法。
translated by 谷歌翻译
模糊文物可以严重降低图像的视觉质量,并且已经提出了许多用于特定场景的脱模方法。然而,在大多数现实世界的图像中,模糊是由不同因素引起的,例如运动和散焦。在本文中,我们解决了不同的去纹身方法如何在一般类型的模糊上进行。对于深入的性能评估,我们构建一个名为(MC-Blur)的新型大规模的多个原因图像去孔数据集,包括现实世界和合成模糊图像,具有模糊的混合因素。采用不同的技术收集所提出的MC-Blur数据集中的图像:卷积超高清(UHD)具有大核的锐利图像,平均由1000 FPS高速摄像头捕获的清晰图像,向图像添加Defocus,而且真实-world模糊的图像由各种相机型号捕获。这些结果概述了当前的去纹理方法的优缺点。此外,我们提出了一种新的基线模型,适应多种模糊的原因。通过包括对不同程度的特征的不同重量,所提出的网络导出更强大的特征,重量分配给更重要的水平,从而增强了特征表示。新数据集上的广泛实验结果展示了多原因模糊情景所提出的模型的有效性。
translated by 谷歌翻译