传播模型已被证明对各种应用程序有效,例如图像,音频和图形生成。其他重要的应用是图像超分辨率和逆问题的解决方案。最近,一些作品使用了随机微分方程(SDE)将扩散模型推广到连续时间。在这项工作中,我们介绍SDE来生成超分辨率的面部图像。据我们所知,这是SDE首次用于此类应用程序。所提出的方法比基于扩散模型的现有超级分辨率方法提供了改进的峰值信噪比(PSNR),结构相似性指数(SSIM)和一致性。特别是,我们还评估了该方法在面部识别任务中的潜在应用。通用面部特征提取器用于比较超分辨率图像与地面真相,并获得了与其他方法相比,获得了卓越的结果。我们的代码可在https://github.com/marcelowds/sr-sde上公开获取
translated by 谷歌翻译
扩散模型已显示出令人印象深刻的图像产生性能,并已用于各种计算机视觉任务。不幸的是,使用扩散模型的图像生成非常耗时,因为它需要数千个采样步骤。为了解决这个问题,我们在这里提出了一种新型的金字塔扩散模型,以使用训练有位置嵌入的单个分数函数从更粗的分辨率图像开始生成高分辨率图像。这使图像生成的时间效率抽样可以解决,并在资源有限的训练时也可以解决低批量的大小问题。此外,我们表明,使用单个分数函数可以有效地用于多尺度的超分辨率问题。
translated by 谷歌翻译
尽管许多远程成像系统旨在支持扩展视力应用,但由于大气湍流,其操作的自然障碍是退化。大气湍流通过引入模糊和几何变形而导致图像质量的显着降解。近年来,在文献中提出了各种基于深度学习的单图像缓解方法,包括基于CNN的基于CNN和基于GAN的反转方法,这些方法试图消除图像中的失真。但是,其中一些方法很难训练,并且通常无法重建面部特征并产生不切实际的结果,尤其是在高湍流的情况下。降级扩散概率模型(DDPM)最近由于其稳定的训练过程和产生高质量图像的能力而获得了一些吸引力。在本文中,我们提出了第一个基于DDPM的解决方案,用于缓解大气湍流问题。我们还提出了一种快速采样技术,用于减少条件DDPM的推理时间。对合成和现实世界数据进行了广泛的实验,以显示我们模型的重要性。为了促进进一步的研究,在审查过程之后,所有代码和验证的模型都将公开。
translated by 谷歌翻译
现代监视系统使用基于深度学习的面部验证网络执行人员认可。大多数最先进的面部验证系统都是使用可见光谱图像训练的。但是,在弱光和夜间条件的情况下,在可见光谱中获取图像是不切实际的,并且通常在诸如热红外域之类的替代域中捕获图像。在检索相应的可见域图像后,通常在热图像中进行面部验证。这是一个公认的问题,通常称为热能(T2V)图像翻译。在本文中,我们建议针对面部图像的T2V翻译基于Denoising扩散概率模型(DDPM)解决方案。在训练过程中,该模型通过扩散过程了解了它们相应的热图像,可见面部图像的条件分布。在推断过程中,可见的域图像是通过从高斯噪声开始并反复执行的。 DDPM的现有推理过程是随机且耗时的。因此,我们提出了一种新颖的推理策略,以加快DDPM的推理时间,特别是用于T2V图像翻译问题。我们在多个数据集上实现了最新结果。代码和验证的模型可在http://github.com/nithin-gk/t2v-ddpm上公开获得
translated by 谷歌翻译
由于其作为生成模型的强大表现,最近达到了社区内部的显着兴趣。此外,其对逆问题的应用已经证明了最先进的性能。不幸的是,扩散模型具有临界缺点 - 它们本质上是速度的速度,从而需要几千台迭代来产生来自纯高斯噪声的图像。在这项工作中,我们表明从高斯噪音开始是不必要的。相反,从具有更好初始化的单个向前扩散开始显着降低了反向条件扩散中的采样步骤的数量。这种现象是通过我们的条件扩散策略的随机差分方程的收缩理论正式解释 - 反向扩散的交替应用,然后是非膨胀性数据一致性步骤。新的采样策略被称为较近的漫射 - 更快(CCDF),还揭示了新的洞察,就如何对逆问题的方法如何协同组合扩散模型。具有超分辨率,图像染色和压缩传感MRI的实验结果表明,我们的方法可以在显着降低的采样步骤中实现最先进的重建性能。
translated by 谷歌翻译
Conditional diffusion probabilistic models can model the distribution of natural images and can generate diverse and realistic samples based on given conditions. However, oftentimes their results can be unrealistic with observable color shifts and textures. We believe that this issue results from the divergence between the probabilistic distribution learned by the model and the distribution of natural images. The delicate conditions gradually enlarge the divergence during each sampling timestep. To address this issue, we introduce a new method that brings the predicted samples to the training data manifold using a pretrained unconditional diffusion model. The unconditional model acts as a regularizer and reduces the divergence introduced by the conditional model at each sampling step. We perform comprehensive experiments to demonstrate the effectiveness of our approach on super-resolution, colorization, turbulence removal, and image-deraining tasks. The improvements obtained by our method suggest that the priors can be incorporated as a general plugin for improving conditional diffusion models.
translated by 谷歌翻译
MRI和CT是最广泛使用的医学成像方式。通常有必要获取用于诊断和治疗的多模式图像,例如放射疗法计划。但是,多模式成像不仅昂贵,而且还引入了MRI和CT图像之间的错位。为了应对这一挑战,计算转换是MRI和CT图像之间的可行方法,尤其是从MRI到CT图像。在本文中,我们建议在这种情况下使用一个名为“扩散和得分匹配模型”的新兴深度学习框架。具体而言,我们适应了deno的扩散概率和得分匹配模型,使用四种不同的抽样策略,并将其性能指标与使用卷积神经网络和生成的对抗网络模型进行比较。我们的结果表明,扩散和得分匹配模型比CNN和GAN模型产生更好的合成CT图像。此外,我们使用蒙特卡洛方法研究了与扩散和得分匹配网络相关的不确定性,并通过平均其蒙特卡洛输出来改善结果。我们的研究表明,扩散和得分匹配模型具有强大的功能,可以生成以使用互补成像方式获得的图像来调节的高质量图像,在分析上进行了严格的解释性,并具有清晰的解释性,并且具有CNNS和GAN的高度竞争,以进行图像合成。
translated by 谷歌翻译
DeNoising扩散模型代表了计算机视觉中最新的主题,在生成建模领域表现出了显着的结果。扩散模型是一个基于两个阶段的深层生成模型,一个正向扩散阶段和反向扩散阶段。在正向扩散阶段,通过添加高斯噪声,输入数据在几个步骤中逐渐受到干扰。在反向阶段,模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。尽管已知的计算负担,即由于采样过程中涉及的步骤数量,扩散模型对生成样品的质量和多样性得到了广泛赞赏。在这项调查中,我们对视觉中应用的denoising扩散模型的文章进行了全面综述,包括该领域的理论和实际贡献。首先,我们识别并介绍了三个通用扩散建模框架,这些框架基于扩散概率模型,噪声调节得分网络和随机微分方程。我们进一步讨论了扩散模型与其他深层生成模型之间的关系,包括变异自动编码器,生成对抗网络,基于能量的模型,自回归模型和正常流量。然后,我们介绍了计算机视觉中应用的扩散模型的多角度分类。最后,我们说明了扩散模型的当前局限性,并设想了一些有趣的未来研究方向。
translated by 谷歌翻译
The primary aim of single-image super-resolution is to construct a high-resolution (HR) image from a corresponding low-resolution (LR) input. In previous approaches, which have generally been supervised, the training objective typically measures a pixel-wise average distance between the super-resolved (SR) and HR images. Optimizing such metrics often leads to blurring, especially in high variance (detailed) regions. We propose an alternative formulation of the super-resolution problem based on creating realistic SR images that downscale correctly. We present a novel super-resolution algorithm addressing this problem, PULSE (Photo Upsampling via Latent Space Exploration), which generates high-resolution, realistic images at resolutions previously unseen in the literature. It accomplishes this in an entirely self-supervised fashion and is not confined to a specific degradation operator used during training, unlike previous methods (which require training on databases of LR-HR image pairs for supervised learning). Instead of starting with the LR image and slowly adding detail, PULSE traverses the high-resolution natural image manifold, searching for images that downscale to the original LR image. This is formalized through the "downscaling loss," which guides exploration through the latent space of a generative model. By leveraging properties of high-dimensional Gaussians, we restrict the search space to guarantee that our outputs are realistic. PULSE thereby generates super-resolved images that both are realistic and downscale correctly. We show extensive experimental results demonstrating the efficacy of our approach in the domain of face super-resolution (also known as face hallucination). We also present a discussion of the limitations and biases of the method as currently implemented with an accompanying model card with relevant metrics. Our method outperforms state-of-the-art methods in perceptual quality at higher resolutions and scale factors than previously pos-sible.
translated by 谷歌翻译
在实际应用中,识别网络的性能通常在应用于超分辨率图像时减少。在本文中,我们提出了一种基于特征的识别网络与GaN(FGAN)相结合。我们的网络通过提取从SR图像中识别的更多功能来提高识别准确性。在实验中,我们使用三种不同的超分辨率算法构建三个数据集,我们的网络将识别精度增加超过6%,与Reanet50和DenSenet121相比比较。
translated by 谷歌翻译
面部超分辨率(FSR),也称为面部幻觉,其旨在增强低分辨率(LR)面部图像以产生高分辨率(HR)面部图像的分辨率,是特定于域的图像超分辨率问题。最近,FSR获得了相当大的关注,并目睹了深度学习技术的发展炫目。迄今为止,有很少有基于深入学习的FSR的研究摘要。在本次调查中,我们以系统的方式对基于深度学习的FSR方法进行了全面审查。首先,我们总结了FSR的问题制定,并引入了流行的评估度量和损失功能。其次,我们详细说明了FSR中使用的面部特征和流行数据集。第三,我们根据面部特征的利用大致分类了现有方法。在每个类别中,我们从设计原则的一般描述开始,然后概述代表方法,然后讨论其中的利弊。第四,我们评估了一些最先进的方法的表现。第五,联合FSR和其他任务以及与FSR相关的申请大致介绍。最后,我们设想了这一领域进一步的技术进步的前景。在\ URL {https://github.com/junjun-jiang/face-hallucination-benchmark}上有一个策划的文件和资源的策划文件和资源清单
translated by 谷歌翻译
Image super-resolution is a one-to-many problem, but most deep-learning based methods only provide one single solution to this problem. In this work, we tackle the problem of diverse super-resolution by reusing VD-VAE, a state-of-the art variational autoencoder (VAE). We find that the hierarchical latent representation learned by VD-VAE naturally separates the image low-frequency information, encoded in the latent groups at the top of the hierarchy, from the image high-frequency details, determined by the latent groups at the bottom of the latent hierarchy. Starting from this observation, we design a super-resolution model exploiting the specific structure of VD-VAE latent space. Specifically, we train an encoder to encode low-resolution images in the subset of VD-VAE latent space encoding the low-frequency information, and we combine this encoder with VD-VAE generative model to sample diverse super-resolved version of a low-resolution input. We demonstrate the ability of our method to generate diverse solutions to the super-resolution problem on face super-resolution with upsampling factors x4, x8, and x16.
translated by 谷歌翻译
去核扩散模型最近已成为强大的生成模型类别。它们提供最新的结果,不仅用于无条件模拟,而且还提供了解决在各种反问题中产生的条件模拟问题时。这些模型的一个局限性在于它们在生成时间上是计算密集型的,因为它们需要长期模拟扩散过程。进行无条件的模拟时,Schr \“生成建模的Odinger桥式公式会导致理论上接地的算法缩短生成时间,这与其他提出的加速技术互补。我们将Schr \'Edinger桥式桥式扩展到条件模拟。我们在各种应用程序上演示了这种新颖的方法,包括图像超分辨率,状态空间模型的最佳过滤以及预训练的网络的完善。我们的代码可以在https://github.com/vdeborto/cdsb上找到。
translated by 谷歌翻译
Despite the breakthroughs in accuracy and speed of single image super-resolution using faster and deeper convolutional neural networks, one central problem remains largely unsolved: how do we recover the finer texture details when we super-resolve at large upscaling factors? The behavior of optimization-based super-resolution methods is principally driven by the choice of the objective function. Recent work has largely focused on minimizing the mean squared reconstruction error. The resulting estimates have high peak signal-to-noise ratios, but they are often lacking high-frequency details and are perceptually unsatisfying in the sense that they fail to match the fidelity expected at the higher resolution. In this paper, we present SRGAN, a generative adversarial network (GAN) for image superresolution (SR). To our knowledge, it is the first framework capable of inferring photo-realistic natural images for 4× upscaling factors. To achieve this, we propose a perceptual loss function which consists of an adversarial loss and a content loss. The adversarial loss pushes our solution to the natural image manifold using a discriminator network that is trained to differentiate between the super-resolved images and original photo-realistic images. In addition, we use a content loss motivated by perceptual similarity instead of similarity in pixel space. Our deep residual network is able to recover photo-realistic textures from heavily downsampled images on public benchmarks. An extensive mean-opinion-score (MOS) test shows hugely significant gains in perceptual quality using SRGAN. The MOS scores obtained with SRGAN are closer to those of the original high-resolution images than to those obtained with any state-of-the-art method.
translated by 谷歌翻译
最近,基于扩散的生成模型已引入语音增强的任务。干净的语音损坏被建模为固定的远期过程,其中逐渐添加了越来越多的噪声。通过学习以嘈杂的输入为条件的迭代方式扭转这一过程,可以产生干净的语音。我们以先前的工作为基础,并在随机微分方程的形式主义中得出训练任务。我们对基础分数匹配目标进行了详细的理论综述,并探索了不同的采样器配置,以解决测试时的反向过程。通过使用自然图像生成文献的复杂网络体系结构,与以前的出版物相比,我们可以显着提高性能。我们还表明,我们可以与最近的判别模型竞争,并在评估与培训不同的语料库时获得更好的概括。我们通过主观的听力测试对评估结果进行补充,其中我们提出的方法是最好的。此外,我们表明所提出的方法在单渠道语音覆盖中实现了出色的最新性能。我们的代码和音频示例可在线获得,请参见https://uhh.de/inf-sp-sgmse
translated by 谷歌翻译
图像超分辨率(SR)是重要的图像处理方法之一,可改善计算机视野领域的图像分辨率。在过去的二十年中,在超级分辨率领域取得了重大进展,尤其是通过使用深度学习方法。这项调查是为了在深度学习的角度进行详细的调查,对单像超分辨率的最新进展进行详细的调查,同时还将告知图像超分辨率的初始经典方法。该调查将图像SR方法分类为四个类别,即经典方法,基于学习的方法,无监督学习的方法和特定领域的SR方法。我们还介绍了SR的问题,以提供有关图像质量指标,可用参考数据集和SR挑战的直觉。使用参考数据集评估基于深度学习的方法。一些审查的最先进的图像SR方法包括增强的深SR网络(EDSR),周期循环gan(Cincgan),多尺度残留网络(MSRN),Meta残留密度网络(META-RDN) ,反复反射网络(RBPN),二阶注意网络(SAN),SR反馈网络(SRFBN)和基于小波的残留注意网络(WRAN)。最后,这项调查以研究人员将解决SR的未来方向和趋势和开放问题的未来方向和趋势。
translated by 谷歌翻译
尽管基准数据集的成功,但大多数先进的面部超分辨率模型在真实情况下表现不佳,因为真实图像与合成训练对之间的显着域间隙。为了解决这个问题,我们提出了一种用于野外面部超分辨率的新型域 - 自适应降级网络。该降级网络预测流场以及中间低分辨率图像。然后,通过翘曲中间图像来生成降级的对应物。利用捕获运动模糊的偏好,这种模型在保护原始图像和劣化之间保持身份一致性更好地执行。我们进一步提出了超分辨率网络的自我调节块。该块将输入图像作为条件术语,以有效地利用面部结构信息,从而消除了对显式前沿的依赖性,例如,面部地标或边界。我们的模型在Celeba和真实世界的面部数据集上实现了最先进的性能。前者展示了我们所提出的建筑的强大生成能力,而后者展示了现实世界中的良好的身份一致性和感知品质。
translated by 谷歌翻译
现实的高光谱图像(HSI)超分辨率(SR)技术旨在从其低分辨率(LR)对应物中产生具有更高光谱和空间忠诚的高分辨率(HR)HSI。生成的对抗网络(GAN)已被证明是图像超分辨率的有效深入学习框架。然而,现有GaN的模型的优化过程经常存在模式崩溃问题,导致光谱间不变重建容量有限。这可能导致所生成的HSI上的光谱空间失真,尤其是具有大的升级因子。为了缓解模式崩溃的问题,这项工作提出了一种与潜在编码器(Le-GaN)耦合的新型GaN模型,其可以将产生的光谱空间特征从图像空间映射到潜在空间并产生耦合组件正规化生成的样本。基本上,我们将HSI视为嵌入在潜在空间中的高维歧管。因此,GaN模型的优化被转换为学习潜在空间中的高分辨率HSI样本的分布的问题,使得产生的超分辨率HSI的分布更接近其原始高分辨率对应物的那些。我们对超级分辨率的模型性能进行了实验评估及其在缓解模式崩溃中的能力。基于具有不同传感器(即Aviris和UHD-185)的两种实际HSI数据集进行了测试和验证,用于各种升高因素并增加噪声水平,并与最先进的超分辨率模型相比(即Hyconet,LTTR,Bagan,SR-GaN,Wgan)。
translated by 谷歌翻译
当前的深层图像超分辨率(SR)方法试图从下采样的图像或假设简单高斯内核和添加噪声中降解来恢复高分辨率图像。但是,这种简单的图像处理技术代表了降低图像分辨率的现实世界过程的粗略近似。在本文中,我们提出了一个更现实的过程,通过引入新的内核对抗学习超分辨率(KASR)框架来处理现实世界图像SR问题,以降低图像分辨率。在提议的框架中,降解内核和噪声是自适应建模的,而不是明确指定的。此外,我们还提出了一个迭代监督过程和高频选择性目标,以进一步提高模型SR重建精度。广泛的实验验证了对现实数据集中提出的框架的有效性。
translated by 谷歌翻译
Speckle是一种乘法噪声,它会影响所有连贯的成像方式,包括合成孔径雷达(SAR)图像。斑点的存在降低了图像质量和不利影响SAR图像理解应用程序的性能,例如自动目标识别和变更检测。因此,SAR Despeckling是遥感中的重要问题。在本文中,我们介绍了SAR-DDPM,这是SAR Despeckling的降解扩散概率模型。提出的方法包括马尔可夫链,该链通过反复添加随机噪声将干净的图像转换为白色高斯噪声。伪造的图像是通过反向过程恢复的,该过程迭代地使用噪声预测器在斑点图像上进行噪声预测。此外,我们提出了一种基于循环旋转的新推理策略,以提高选品的性能。我们对合成和真实SAR图像的实验表明,所提出的方法在定量和定性结果方面在最新的伪造方法上都取得了重大改进。
translated by 谷歌翻译