近年来,人们普遍关注基于卷积的神经网络(CNN)的盲图质量评估(IQA)。大量作品首先从CNN中提取深度功能。然后,通过空间平均池(SAP)和完全连接的层来处理这些特征以预测质量。在本文中,我们受到完整参考IQA和纹理功能的启发,我们通过合并高阶矩(例如方差,偏度),将SAP($ 1^{st} $矩)扩展到空间矩池(SMP)。此外,我们在计算较高矩的梯度时提供了学习友好的归一化以规避数值问题。实验结果表明,仅将SAP升级到SMP可以显着增强基于CNN的盲目IQA方法,并达到最先进的性能状态。
translated by 谷歌翻译
在这项工作中,我们介绍了梯度暹罗网络(GSN)进行图像质量评估。所提出的方法熟练地捕获了全参考图像质量评估(IQA)任务中扭曲的图像和参考图像之间的梯度特征。我们利用中央微分卷积获得图像对中隐藏的语义特征和细节差异。此外,空间注意力指导网络专注于与图像细节相关的区域。对于网络提取的低级,中级和高级功能,我们创新设计了一种多级融合方法,以提高功能利用率的效率。除了常见的均方根错误监督外,我们还进一步考虑了批处理样本之间的相对距离,并成功地将KL差异丢失应用于图像质量评估任务。我们在几个公开可用的数据集上试验了提出的算法GSN,并证明了其出色的性能。我们的网络赢得了NTIRE 2022感知图像质量评估挑战赛1的第二名。
translated by 谷歌翻译
基于深度学习的技术为自动图像质量评估(IQA)领域的显着进步做出了贡献。现有的IQA方法旨在根据图像级别(即整个图像)或贴片级(将图像分为多个单元和测量每个图像的质量在图像级别(即整个图像)处的平均意见分数(MOS)来衡量图像的质量修补)。某些应用可能需要评估像素级别(即每个像素的MOS值)处的质量,但是,由于其网络结构而丢失了空间信息,因此在现有技术的情况下不可能评估这是不可能的。本文提出了一种IQA算法,除图像级MOS外,还可以测量像素级的MOS。提出的算法由三个核心部分组成,即:i)本地IQA; ii)感兴趣的区域(ROI)预测; iii)高级功能嵌入。本地IQA部件在像素级或像素MOS上输出MOS - 我们称其为“ PMOS”。 ROI预测部分输出的权重来计算图像级IQA时区域的相对重要性。嵌入零件的高级特征提取高级图像特征,然后将其嵌入到本地IQA部分中。换句话说,提出的算法产生三个输出:代表每个像素的MOS的PMO,来自ROI的权重表示区域的相对重要性,最后是通过PMOS和ROI加权总和获得的图像级MOS值。与现有流行的IQA技术相比,通过使用PMO和ROI权重获得的图像级MOS表现出较高的性能。此外,可视化结果表明,预测的PMO和ROI输出与人类视觉系统(HVS)的一般原理相当一致。
translated by 谷歌翻译
In this paper, we address the problem of blind deblurring with high efficiency. We propose a set of lightweight deep-wiener-network to finish the task with real-time speed. The Network contains a deep neural network for estimating parameters of wiener networks and a wiener network for deblurring. Experimental evaluations show that our approaches have an edge on State of the Art in terms of inference times and numbers of parameters. Two of our models can reach a speed of 100 images per second, which is qualified for real-time deblurring. Further research may focus on some real-world applications of deblurring with our models.
translated by 谷歌翻译
用户生成的内容(UGC)的盲或禁区视频质量评估已成为趋势,具有挑战性,迄今未解决的问题。因此,适用于该内容的准确和高效的视频质量预测因素都需要实现更智能的分析和处理UGC视频的需求。以前的研究表明,自然场景统计和深度学习特征既足以捕获空​​间扭曲,这有助于UGC视频质量问题的重要方面。然而,这些模型无法对实际应用中预测复杂和不同的UGC视频的质量无能为力或效率低。在这里,我们为UGC含量介绍了一种有效且高效的视频质量模型,我们将我们展示快速准确的视频质量评估员(Rapique),我们展示了与最先进的(SOTA)模型相对表现,而是具有订单-magnitude更快的运行时。 Rapique结合并利用了质量意识的现场统计特征和语义知识的深度卷积功能的优势,使我们能够设计用于视频质量建模的第一通用和有效的空间和时间(时空)带通统计模型。我们对最近的大型UGC视频质量数据库的实验结果表明,Rapique以相当更低的计算费用提供所有数据集的顶级表现。我们希望这项工作促进并激发进一步努力实现潜在的实时和低延迟应用程序的视频质量问题的实际建模。为促进公共用途,在线进行了求助的实施:\ url {https://github.com/vztu/rapique}。
translated by 谷歌翻译
Dimage Dehazing是低级视觉中的一个活跃主题,并且随着深度学习的快速发展,已经提出了许多图像去悬式网络。尽管这些网络的管道效果很好,但改善图像飞行性能的关键机制尚不清楚。因此,我们不针对带有精美模块的飞行网络。相反,我们对流行的U-NET进行了最小的修改,以获得紧凑的飞行网络。具体而言,我们将U-NET中的卷积块与门控机构,使用选择性内核进行融合,并跳过连接,并调用所得的U-NET变体Gunet。结果,由于开销大大减少,Gunet优于多个图像脱掩的数据集上的最新方法。最后,我们通过广泛的消融研究来验证这些关键设计为图像去除网络的性能增益。
translated by 谷歌翻译
无参考图像质量评估(NR-IQA)的目标是根据主观评估来估计感知图像质量,由于不存在原始参考图像,它是复杂和未解决的问题。在本文中,我们提出了一种新颖的模型来解决NR-IQA任务,利用卷积神经网络(CNNS)和变压器中的自我关注机制来解决来自输入图像的本地和非局部特征的混合方法来解决NR-IQA任务。我们通过CNN捕获图像的局部结构信息,然后避免提取的CNNS特征之间的局部偏压并获得图像的非本地表示,我们利用所提取的特征上的变压器,其中我们将它们塑造为顺序输入变压器模型。此外,为了改善主观和目标分数之间的单调性相关性,我们利用每个批处理内图像之间的相对距离信息,并强制执行它们之间的相对排名。最后但并非最不重要的是,我们观察到NR-IQA模型的性能在我们应用于输入到输入时申请等级变换(例如水平翻转)。因此,我们提出了一种利用自我保持性作为自我监督来源的方法,以改善NRIQA模型的鲁棒性。具体而言,我们为每个图像的质量评估模型的输出和其转换(水平翻转)强制实施自我一致性,以利用丰富的自我监控信息,并降低模型的不确定性。为了展示我们工作的有效性,我们在七个标准IQA数据集(合成和真实)上评估它,并显示我们的模型在各种数据集上实现最先进的结果。
translated by 谷歌翻译
目标图像质量评估是一个具有挑战性的任务,旨在自动测量给定图像的质量。根据参考图像的可用性,分别存在全引用和无引用IQA任务。大多数深度学习方法使用卷积神经网络提取的深度特征的回归。对于FR任务,另一种选择是对深度特征进行统计比较。对于所有这些方法,通常忽略非本地信息。此外,探索FR和NR任务之间的关系不太探索。通过最近的变压器成功在建模上下文信息中,我们提出了一个统一的IQA框架,它利用CNN骨干和变压器编码器提取特征。所提出的框架与FR和NR模式兼容,并允许联合训练方案。评估实验在三个标准IQA数据集,即LIVE,CSIQ和TID2013和KONIQ-10K上,显示我们所提出的模型可以实现最先进的FR性能。此外,在广泛的实验中实现了相当的NR性能,结果表明,联合训练方案可以利用NR性能。
translated by 谷歌翻译
由于空间分辨率的巨大改进,4K内容可以为消费者提供更严肃的视觉体验。但是,由于分辨率扩大和特定的扭曲,现有的盲图质量评估(BIQA)方法不适合原始和升级的4K内容物。在本文中,我们提出了一个针对4K内容的深度学习的BIQA模型,一方面可以识别True和pseudo 4K内容,另一方面可以评估其感知视觉质量。考虑到高空间分辨率可以代表更丰富的高频信息的特征,我们首先提出了基于灰色级别的共发生矩阵(GLCM)的纹理复杂度度量,以从4K图像中选择三个代表性图像贴片,这可以减少计算复杂性,被证明对通过实验的总体质量预测非常有效。然后,我们从卷积神经网络(CNN)的中间层中提取不同种类的视觉特征,并将它们集成到质量感知的特征表示中。最后,使用两个多层感知(MLP)网络用于将质量感知功能映射到类概率和每个贴片的质量分数中。总体质量指数是通过平均贴片结果汇总获得的。提出的模型通过多任务学习方式进行了训练,我们引入了不确定性原理,以平衡分类和回归任务的损失。实验结果表明,所提出的模型的表现均优于所有4K内容质量评估数据库中的BIQA指标。
translated by 谷歌翻译
Deep learning-based full-reference image quality assessment (FR-IQA) models typically rely on the feature distance between the reference and distorted images. However, the underlying assumption of these models that the distance in the deep feature domain could quantify the quality degradation does not scientifically align with the invariant texture perception, especially when the images are generated artificially by neural networks. In this paper, we bring a radical shift in inferring the quality with learned features and propose the Deep Image Dependency (DID) based FR-IQA model. The feature dependency facilitates the comparisons of deep learning features in a high-order manner with Brownian distance covariance, which is characterized by the joint distribution of the features from reference and test images, as well as their marginal distributions. This enables the quantification of the feature dependency against nonlinear transformation, which is far beyond the computation of the numerical errors in the feature space. Experiments on image quality prediction, texture image similarity, and geometric invariance validate the superior performance of our proposed measure.
translated by 谷歌翻译
现有的基于深度学习的全参考IQA(FR-IQA)模型通常通过明确比较特征,以确定性的方式预测图像质量,从而衡量图像严重扭曲的图像是多远,相应的功能与参考的空间相对远。图片。本文中,我们从不同的角度看这个问题,并提议从统计分布的角度对知觉空间中的质量降解进行建模。因此,根据深度特征域中的Wasserstein距离来测量质量。更具体地说,根据执行最终质量评分,测量了预训练VGG网络的每个阶段的1Dwasserstein距离。 Deep Wasserstein距离(DEEPWSD)在神经网络的功能上执行的,可以更好地解释由各种扭曲引起的质量污染,并提出了高级质量预测能力。广泛的实验和理论分析表明,在质量预测和优化方面,提出的DEEPWSD的优越性。
translated by 谷歌翻译
视觉(图像,视频)质量评估可以通过不同域中的视觉特征来建模,例如空间,频率和时间域。人类视觉系统(HVS)中的感知机制在质量感知的产生中起着至关重要的作用。本文提出了使用有效的窗口变压器体系结构进行无引用视觉质量评估的一般框架。用于多阶段通道注意的轻量级模块集成到SWIN(移位窗口)变压器中。这样的模块可以在图像质量评估(IQA)中代表适当的感知机制,以构建准确的IQA模型。同时,在空间和频域中图像质量感知的代表性特征也可以从IQA模型中得出,然后将其馈入另一个窗户的变压器体系结构进行视频质量评估(VQA)。 VQA模型有效地重复了整个本地窗口的注意力信息,以解决原始变压器的昂贵时间和记忆复杂性的问题。大规模IQA和VQA数据库的实验结果表明,所提出的质量评估模型优于大幅度的其他最先进模型。完整的源代码将在GitHub上发布。
translated by 谷歌翻译
我们引入了一个新颖的框架,用于连续的面部运动脱毛,该框架通过矩控制因子恢复单个运动毛面脸部图像中潜在的连续锋利力矩。尽管动作毛刺图像是在曝光时间内连续锋利矩的累积信号,但大多数现有的单个图像脱毛方法旨在使用多个网络和训练阶段恢复固定数量的帧。为了解决这个问题,我们提出了一个基于GAN(CFMD-GAN)的连续面部运动脱毛网络,该网络是一个新颖的框架,用于恢复带有单个网络和单个训练阶段的单个运动型面部图像中潜在的连续力矩。为了稳定网络培训,我们训练发电机以通过面部特定于面部知识的面部基于面部运动的重新排序过程(FMR)确定的顺序恢复连续矩。此外,我们提出了一个辅助回归器,该回归器通过估计连续锋利的力矩来帮助我们的发电机产生更准确的图像。此外,我们引入了一个控制自适应(CONTADA)块,该块执行空间变形的卷积和频道的注意,作为控制因子的函数。 300VW数据集上的大量实验表明,所提出的框架通过改变力矩控制因子来生成各种连续的输出帧。与最近使用相同300VW训练集训练的最近的单一单击图像脱蓝色网络相比,提出的方法显示了在感知指标(包括LPIPS,FID和Arcface身份距离)方面恢复中央锋利框架的出色性能。该方法的表现优于现有的单一视频脱蓝和用于定性和定量比较的方法。
translated by 谷歌翻译
由于大气湍流的扭曲而恢复图像是一个长期存在的问题,这是由于变形的空间变化,图像形成过程的非线性以及训练和测试数据的稀缺性。现有方法通常在失真模型上具有强大的统计假设,在许多情况下,由于没有概括,因此在现实世界中的性能有限。为了克服挑战,本文提出了一种端到端物理驱动的方法,该方法有效,可以推广到现实世界的湍流。在数据合成方面,我们通过通过宽sense式的平稳性近似随机场来显着增加SOTA湍流模拟器可以处理的图像分辨率。新的数据合成过程使大规模的多级湍流和训练的地面真相对产生。在网络设计方面,我们提出了湍流缓解变压器(TMT),这是一个两级U-NET形状的多帧恢复网络,该网络具有Noval有效的自发机制,称为暂时通道关节关注(TCJA)。我们还引入了一种新的培训方案,该方案由新的模拟器启用,并设计新的变压器单元以减少内存消耗。在静态场景和动态场景上的实验结果是有希望的,包括各种真实的湍流场景。
translated by 谷歌翻译
Blind image quality assessment (BIQA) remains challenging due to the diversity of distortion and image content variation, which complicate the distortion patterns crossing different scales and aggravate the difficulty of the regression problem for BIQA. However, existing BIQA methods often fail to consider multi-scale distortion patterns and image content, and little research has been done on learning strategies to make the regression model produce better performance. In this paper, we propose a simple yet effective Progressive Multi-Task Image Quality Assessment (PMT-IQA) model, which contains a multi-scale feature extraction module (MS) and a progressive multi-task learning module (PMT), to help the model learn complex distortion patterns and better optimize the regression issue to align with the law of human learning process from easy to hard. To verify the effectiveness of the proposed PMT-IQA model, we conduct experiments on four widely used public datasets, and the experimental results indicate that the performance of PMT-IQA is superior to the comparison approaches, and both MS and PMT modules improve the model's performance.
translated by 谷歌翻译
尽管最近在图像恢复领域取得了重大进展,但最新方法(SOTA)方法的系统复杂性也在增加,这可能会阻碍方法的方便分析和比较。在本文中,我们提出了一个超过SOTA方法并且在计算上有效的简单基线。为了进一步简化基线,我们揭示了非线性激活功能,例如不需要Sigmoid,Relu,Gelu,SoftMax等:可以用乘法代替或去除它们。因此,我们从基线得出一个非线性无线激活网络,即nafnet。在各种具有挑战性的基准上取得了SOTA结果,例如33.69 db psnr在GoPro上(对于图像脱张),超过了先前的SOTA 0.38 dB,其计算成本仅为8.4%; SIDD上的40.30 dB PSNR(用于图像denoising),超过了先前的SOTA 0.28 dB,其计算成本不到一半。代码和预培训模型将在https://github.com/megvii-research/nafnet上发布。
translated by 谷歌翻译
在过去的几十年中,盲目的图像质量评估(BIQA)旨在准确地预测图像质量而无需任何原始参考信息,但一直在广泛关注。特别是,在深层神经网络的帮助下,取得了巨大进展。但是,对于夜间图像(NTI)的BIQA的研究仍然较少,通常患有复杂的真实扭曲,例如可见性降低,低对比度,添加噪声和颜色失真。这些多样化的真实降解特别挑战了有效的深神网络的设计,用于盲目NTI质量评估(NTIQE)。在本文中,我们提出了一个新颖的深层分解和双线性池网络(DDB-NET),以更好地解决此问题。 DDB-NET包含三个模块,即图像分解模块,一个特征编码模块和双线性池模块。图像分解模块的灵感来自Itinex理论,并涉及将输入NTI解耦到负责照明信息的照明层组件和负责内容信息的反射层组件。然后,编码模块的功能涉及分别植根于两个解耦组件的降解的特征表示。最后,通过将照明相关和与内容相关的降解作为两因素变化进行建模,将两个特征集组合在一起,将双线汇总在一起以形成统一的表示,以进行质量预测。在几个基准数据集上进行了广泛的实验,已对所提出的DDB-NET的优势得到了很好的验证。源代码将很快提供。
translated by 谷歌翻译
大多数现有的RGB-D突出物体检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模型信息集成。卷积操作的固有局部连接将基于卷积的方法的性能进行了限制到天花板的性能。在这项工作中,我们从全球信息对齐和转换的角度重新思考此任务。具体地,所提出的方法(Transcmd)级联几个跨模型集成单元来构造基于自上而下的变换器的信息传播路径(TIPP)。 Transcmd将多尺度和多模态特征集成作为序列到序列上下文传播和内置于变压器上的更新过程。此外,考虑到二次复杂性W.R.T.输入令牌的数量,我们设计了具有可接受的计算成本的修补程序令牌重新嵌入策略(Ptre)。七个RGB-D SOD基准数据集上的实验结果表明,在配备TIPP时,简单的两流编码器 - 解码器框架可以超越最先进的基于CNN的方法。
translated by 谷歌翻译
基于对抗性学习的图像抑制方法,由于其出色的性能,已经在计算机视觉中进行了广泛的研究。但是,大多数现有方法对实际情况的质量功能有限,因为它们在相同场景的透明和合成的雾化图像上进行了培训。此外,它们在保留鲜艳的色彩和丰富的文本细节方面存在局限性。为了解决这些问题,我们开发了一个新颖的生成对抗网络,称为整体注意力融合对抗网络(HAAN),用于单个图像。 Haan由Fog2FogFogre块和FogFree2Fog块组成。在每个块中,有三个基于学习的模块,即雾除雾,颜色纹理恢复和雾合成,它们相互限制以生成高质量的图像。 Haan旨在通过学习雾图图像之间的整体通道空间特征相关性及其几个派生图像之间的整体通道空间特征相关性来利用纹理和结构信息的自相似性。此外,在雾合成模块中,我们利用大气散射模型来指导它,以通过新颖的天空分割网络专注于大气光优化来提高生成质量。关于合成和现实世界数据集的广泛实验表明,就定量准确性和主观的视觉质量而言,Haan的表现优于最先进的脱落方法。
translated by 谷歌翻译
在过去几年中,深度卷积神经网络在低光图像增强中取得了令人印象深刻的成功。深度学习方法大多通过堆叠网络结构并加深网络深度来提高特征提取的能力。在单个时导致更多的运行时间成本为了减少推理时间,在完全提取本地特征和全局特征的同时,我们通过SGN定期,我们提出了基于广泛的自我引导网络(Absgn)的现实世界低灯图像增强。策略是一种广泛的策略处理不同曝光的噪音。所提出的网络被许多主流基准验证.Aditional实验结果表明,所提出的网络优于最先进的低光图像增强解决方案。
translated by 谷歌翻译