视频框架插值(VFI)是许多视频处理应用程序的有用工具。最近,它也已应用于视频压缩域中,以增强常规视频编解码器和基于学习的压缩体系结构。尽管近年来,人们对增强框架插值算法的发展的重点越来越大,但插值内容的感知质量评估仍然是一个开放的研究领域。在本文中,我们为VFI(Flolpips)介绍了一个定制的完整参考视频质量指标,该指标基于流行的感知图像质量指标LPIP,该指标LPIPS捕获了提取的图像特征空间中的感知降解。为了提高LPIP的性能用于评估插值内容,我们通过使用时间失真(通过比较光流)来加重特征差图图,重新设计了其空间特征聚合步骤。在BVI-VFI数据库中进行了评估,该数据库包含180个带有各种框架插值伪像的测试序列,Flolpips显示出优异的相关性能(具有统计学意义),主观地面真相超过12位流行的质量评估者。为了促进VFI质量评估的进一步研究,我们的代码可在https://danielism97.github.io/flolpips上公开获得。
translated by 谷歌翻译
在本文中,我们提出了一个生成的对抗网络(GAN)框架,以增强压缩视频的感知质量。我们的框架包括单个模型中对不同量化参数(QP)的注意和适应。注意模块利用了可以捕获和对齐连续框架之间的远程相关性的全球接收场,这可能有益于提高视频感知质量。要增强的框架与其相邻的框架一起馈入深网,并在第一阶段的特征中提取不同深度的特征。然后提取的特征被馈入注意力块以探索全局的时间相关性,然后进行一系列上采样和卷积层。最后,通过利用相应的QP信息的QP条件适应模块处理所得的功能。这样,单个模型可用于增强对各种QP的适应性,而无需针对每个QP值的多个模型,同时具有相似的性能。实验结果表明,与最先进的压缩视频质量增强算法相比,所提出的PEQUENET的表现出色。
translated by 谷歌翻译
视频帧插值(VFI)目前是一个非常活跃的研究主题,具有跨越计算机视觉,后期生产和视频编码的应用程序。 VFI可能非常具有挑战性,特别是在含有大型运动,闭塞或动态纹理的序列中,现有方法未能提供感知鲁棒的插值性能。在这种情况下,我们基于时空多流量架构介绍了一种基于深度学习的VFI方法ST-MFNET。 ST-MFNET采用新的多尺度多流量预测器来估计多对一的中间流动,它们与传统的一对一光流组合以捕获大型和复杂的运动。为了增强各种纹理的插值性能,还用于在扩展时间窗口上模拟内容动态的3D CNN。此外,ST-MFNET已经在ST-GaN框架内培训,该框架最初是为纹理合成而开发的,目的是进一步提高感知插值质量。我们的方法已被全面评估 - 与十四个最先进的VFI算法相比 - 清楚地展示了ST-MFNET在各种和代表性测试数据集上始终如一地优于这些基准,在PSNR中具有显着的收益,用于案件在PSNR中高达1.09dB包括大型运动和动态纹理。项目页面:https://danielism97.github.io/st-mfnet。
translated by 谷歌翻译
视频预测模型的研究被认为是对视频学习的基本方法。虽然存在用于预测过去几帧的未来帧像素值的多种生成模型,但已经发现预测帧的定量评估非常具有挑战性。在这种情况下,我们研究了预测视频的质量评估问题。我们创建了印度科学研究所预测视频质量评估(IISC PVQA)数据库,该数据库由300个视频组成,通过在不同的数据集上应用不同的预测模型,并伴随着人类观察分数。我们收集了这些视频的50名人类参与者的主观评级。我们的主观研究表明,人类观察者在预测视频的质量判断中非常一致。我们基准评估视频预测的几种普遍使用的措施,并表明它们与这些主观评分没有充分相关。我们介绍了两个新功能,以有效地捕获预测视频的质量,具有过去的帧的预测帧的深度特征的运动补偿余弦相似之处,以及从重新置于帧差异中提取的深度特征。我们表明,我们的特色设计导致了根据ISC PVQA数据库的人类判断的艺术质量预测的状态。数据库和代码在我们的项目网站上公开提供:https://nagabhushansn95.github.io/publications/2020/pvqa
translated by 谷歌翻译
视频框架插值〜(VFI)算法近年来由于数据驱动算法及其实现的前所未有的进展,近年来有了显着改善。最近的研究引入了高级运动估计或新颖的扭曲方法,以解决具有挑战性的VFI方案。但是,没有发表的VFI作品认为插值误差(IE)的空间不均匀特征。这项工作引入了这样的解决方案。通过密切检查光流与IE之间的相关性,本文提出了新的错误预测指标,该指标将中间框架分为与不同IE水平相对应的不同区域。它基于IE驱动的分割,并通过使用新颖的错误控制损耗函数,引入了一组空间自适应插值单元的合奏,该单元逐步处理并集成了分段区域。这种空间合奏会产生有效且具有诱人的VFI解决方案。对流行视频插值基准测试的广泛实验表明,所提出的解决方案在当前兴趣的应用中优于当前最新(SOTA)。
translated by 谷歌翻译
Block based motion estimation is integral to inter prediction processes performed in hybrid video codecs. Prevalent block matching based methods that are used to compute block motion vectors (MVs) rely on computationally intensive search procedures. They also suffer from the aperture problem, which can worsen as the block size is reduced. Moreover, the block matching criteria used in typical codecs do not account for the resulting levels of perceptual quality of the motion compensated pictures that are created upon decoding. Towards achieving the elusive goal of perceptually optimized motion estimation, we propose a search-free block motion estimation framework using a multi-stage convolutional neural network, which is able to conduct motion estimation on multiple block sizes simultaneously, using a triplet of frames as input. This composite block translation network (CBT-Net) is trained in a self-supervised manner on a large database that we created from publicly available uncompressed video content. We deploy the multi-scale structural similarity (MS-SSIM) loss function to optimize the perceptual quality of the motion compensated predicted frames. Our experimental results highlight the computational efficiency of our proposed model relative to conventional block matching based motion estimation algorithms, for comparable prediction errors. Further, when used to perform inter prediction in AV1, the MV predictions of the perceptually optimized model result in average Bjontegaard-delta rate (BD-rate) improvements of -1.70% and -1.52% with respect to the MS-SSIM and Video Multi-Method Assessment Fusion (VMAF) quality metrics, respectively as compared to the block matching based motion estimation system employed in the SVT-AV1 encoder.
translated by 谷歌翻译
视频质量评估(VQA)仍然是一个重要而挑战性的问题,影响了最广泛的尺度的许多应用程序。移动设备和云计算技术的最新进展使得可以捕获,处理和共度高分辨率,高分辨率(HFR)视频几乎瞬间。能够监控和控制这些流式视频的质量可以使得能够提供更令人愉快的内容和感知的优化速率控制。因此,需要一种强迫需要开发可以在巨大尺度部署的VQA模型。虽然最近的一些效果已应用于可变帧速率和HFR视频质量的全参考(FR)分析,但是没有研究帧速率变化的无引用(NR)VQA算法的开发。在这里,我们提出了一种用于评估HFR视频的一级盲VQA模型,我们将其配给了帧群感知视频评估程序W / O参考(Faver)。 Faver使用扩展模型的空间自然场景统计数据,即包括节省空间小波分解的视频信号,进行有效的帧速率敏感质量预测。我们对几个HFR视频质量数据集的广泛实验表明,PEVER以合理的计算成本优于其他盲VQA算法。为了便于可重复的研究和公共评估,在线可以在线进行狂热的实施:\ url {https://github.com/uniqzheng/hfr-bvqa}。
translated by 谷歌翻译
360 {\ TextDegree}视频的盲目视觉质量评估(BVQA)在优化沉浸式多媒体系统中起着关键作用。在评估360 {\ TextDegree}视频的质量时,人类倾向于从每个球形帧的基于视口的空间失真来识别其在相邻帧中的运动伪影,以视频级质量分数为止,即渐进性质量评估范式。然而,现有的BVQA方法对于360 {\ TextDegree}视频忽略了这条范式。在本文中,我们考虑了人类对球面视频质量的逐步范例,因此提出了一种新颖的BVQA方法(即ProvQA),通过逐步学习从像素,帧和视频中逐步学习。对应于像素,帧和视频的渐进学习,三个子网被设计为我们的PROPQA方法,即球形感知感知质量预测(SPAQ),运动感知感知质量预测(MPAQ)和多帧时间非本地(MFTN)子网。 SPAQ子网首先模拟基于人的球面感知机制的空间质量下降。然后,通过跨越相邻帧的运动提示,MPAQ子网适当地结合了在360 {\ TextDegree}视频上的质量评估的运动上下文信息。最后,MFTN子网聚集多帧质量劣化,通过探索来自多个帧的长期质量相关性来产生最终质量分数。实验验证了我们的方法在两个数据集中的360 {\ TextDegree}视频上显着提高了最先进的BVQA性能,该代码是公共\ url {https://github.com/yanglixiaoshen/的代码Provqa。}
translated by 谷歌翻译
高动态范围(HDR)成像在现代数字摄影管道中具有根本重要性,并且尽管在图像上变化照明,但仍用于生产具有良好暴露区域的高质量照片。这通常通过在不同曝光时拍摄多个低动态范围(LDR)图像来实现。然而,由于补偿不良的运动导致人工制品如重影,过度暴露的地区和未对准误差。在本文中,我们提出了一种新的HDR成像技术,可以专门模拟对准和曝光不确定性以产生高质量的HDR结果。我们介绍了一种使用HDR感知的HDR感知的不确定性驱动的注意力映射来联合对齐和评估对齐和曝光可靠性的策略,该注意力映像鲁棒地将帧合并为单个高质量的HDR图像。此外,我们介绍了一种渐进式多级图像融合方法,可以以置换不变的方式灵活地合并任何数量的LDR图像。实验结果表明,我们的方法可以为最先进的高达0.8dB的PSNR改进,以及更好的细节,颜色和更少人工制品的主观改进。
translated by 谷歌翻译
图像质量评估(IQA)指标被广泛用于定量估计一些形成,恢复,转换或增强算法后图像降解的程度。我们提出了Pytorch图像质量(PIQ),这是一个以可用性为中心的库,其中包含最受欢迎的现代IQA算法,并保证根据其原始命题正确实现并进行了彻底验证。在本文中,我们详细介绍了图书馆基础背后的原则,描述了使其可靠的评估策略,提供了展示性能时间权衡的基准,并强调了GPU加速的好处Pytorch后端。Pytorch图像质量是一个开源软件:https://github.com/photosynthesis-team/piq/。
translated by 谷歌翻译
在极低光线条件下捕获图像会对标准相机管道带来重大挑战。图像变得太黑了,太吵了,这使得传统的增强技术几乎不可能申请。最近,基于学习的方法已经为此任务显示了非常有希望的结果,因为它们具有更大的表现力能力来允许提高质量。这些研究中的激励,在本文中,我们的目标是利用爆破摄影来提高性能,并从极端暗的原始图像获得更加锐利和更准确的RGB图像。我们提出的框架的骨干是一种新颖的粗良好网络架构,逐步产生高质量的输出。粗略网络预测了低分辨率,去噪的原始图像,然后将其馈送到精细网络以恢复微尺的细节和逼真的纹理。为了进一步降低噪声水平并提高颜色精度,我们将该网络扩展到置换不变结构,使得它作为输入突发为低光图像,并在特征级别地合并来自多个图像的信息。我们的实验表明,我们的方法通过生产更详细和相当更高的质量的图像来引起比最先进的方法更令人愉悦的结果。
translated by 谷歌翻译
A difficult example for video frame interpolation. Our approach produces a high-quality result in spite of the delicate flamingo leg that is subject to large motion. This is a video figure that is best viewed using Adobe Reader.
translated by 谷歌翻译
人类运动转移是指合成的照片现实和时间连贯的视频,使一个人能够模仿他人的运动。但是,当前的合成视频遭受了序列帧的时间不一致,这些框架显着降低了视频质量,但远未通过像素域中的现有方法来解决。最近,由于图像合成方法的频率不足,一些有关DeepFake检测的作品试图区分频域中的自然图像和合成图像。尽管如此,从自然和合成视频之间的频域间隙方面的各个方面研究合成视频的时间不一致。在本文中,我们建议深入研究频率空间,以进行时间一致的人类运动转移。首先,我们对频域中的自然和合成视频进行了首次综合分析,以揭示单个帧的空间维度和视频的时间维度的频率差距。为了弥补自然视频和合成视频之间的频率差距,我们提出了一个新型的基于频率的人类运动转移框架,名为Fremotr,该框架可以有效地减轻空间伪像以及合成视频的时间不一致。 Fremotr探索了两个基于频率的新型正则化模块:1)频域外观正则化(FAR),以改善个人在单个帧中的外观和2)时间频率正则化(TFR),以确保相邻框架之间的时间一致性。最后,全面的实验表明,FremoTR不仅在时间一致性指标中产生卓越的性能,而且还提高了合成视频的框架级视觉质量。特别是,时间一致性指标比最新模型提高了近30%。
translated by 谷歌翻译
由于空间分辨率的巨大改进,4K内容可以为消费者提供更严肃的视觉体验。但是,由于分辨率扩大和特定的扭曲,现有的盲图质量评估(BIQA)方法不适合原始和升级的4K内容物。在本文中,我们提出了一个针对4K内容的深度学习的BIQA模型,一方面可以识别True和pseudo 4K内容,另一方面可以评估其感知视觉质量。考虑到高空间分辨率可以代表更丰富的高频信息的特征,我们首先提出了基于灰色级别的共发生矩阵(GLCM)的纹理复杂度度量,以从4K图像中选择三个代表性图像贴片,这可以减少计算复杂性,被证明对通过实验的总体质量预测非常有效。然后,我们从卷积神经网络(CNN)的中间层中提取不同种类的视觉特征,并将它们集成到质量感知的特征表示中。最后,使用两个多层感知(MLP)网络用于将质量感知功能映射到类概率和每个贴片的质量分数中。总体质量指数是通过平均贴片结果汇总获得的。提出的模型通过多任务学习方式进行了训练,我们引入了不确定性原理,以平衡分类和回归任务的损失。实验结果表明,所提出的模型的表现均优于所有4K内容质量评估数据库中的BIQA指标。
translated by 谷歌翻译
隐式神经表示(INR)被出现为代表信号的强大范例,例如图像,视频,3D形状等。尽管它已经示出了能够表示精细细节的能力,但其效率尚未得到广泛研究数据表示。在INR中,数据以神经网络的参数的形式存储,并且通用优化算法通常不会利用信号中的空间和时间冗余。在本文中,我们建议通过明确地删除数据冗余来表示和压缩视频的新型INR方法。我们提出了跨视频帧和残差的主体剩余流场(NRFF)而不是存储原始RGB颜色,而不是存储原始RGB颜色。维护通常更光滑和更复杂的运动信息,比原始信号更少,需要更少的参数。此外,重用冗余像素值进一步提高了网络参数效率。实验结果表明,所提出的方法优于基线方法的显着边际。代码可用于https://github.com/daniel03c1/eff_video_repruseentation。
translated by 谷歌翻译
现有的基于深度学习的全参考IQA(FR-IQA)模型通常通过明确比较特征,以确定性的方式预测图像质量,从而衡量图像严重扭曲的图像是多远,相应的功能与参考的空间相对远。图片。本文中,我们从不同的角度看这个问题,并提议从统计分布的角度对知觉空间中的质量降解进行建模。因此,根据深度特征域中的Wasserstein距离来测量质量。更具体地说,根据执行最终质量评分,测量了预训练VGG网络的每个阶段的1Dwasserstein距离。 Deep Wasserstein距离(DEEPWSD)在神经网络的功能上执行的,可以更好地解释由各种扭曲引起的质量污染,并提出了高级质量预测能力。广泛的实验和理论分析表明,在质量预测和优化方面,提出的DEEPWSD的优越性。
translated by 谷歌翻译
学习的视频压缩方法在赶上其速率 - 失真(R-D)性能时,追赶传统视频编解码器的许多承诺。然而,现有的学习视频压缩方案受预测模式和固定网络框架的绑定限制。它们无法支持各种帧间预测模式,从而不适用于各种场景。在本文中,为了打破这种限制,我们提出了一种多功能学习的视频压缩(VLVC)框架,它使用一个模型来支持所有可能的预测模式。具体而言,为了实现多功能压缩,我们首先构建一个运动补偿模块,该模块应用用于在空间空间中的加权三线性翘曲的多个3D运动矢量字段(即,Voxel流量)。 Voxel流量传达了时间参考位置的信息,有助于与框架设计中的帧间预测模式分离。其次,在多参考帧预测的情况下,我们应用流预测模块以预测具有统一多项式函数的准确运动轨迹。我们表明流量预测模块可以大大降低体素流的传输成本。实验结果表明,我们提出的VLVC不仅支持各种设置中的多功能压缩,而且还通过MS-SSIM的最新VVC标准实现了可比的R-D性能。
translated by 谷歌翻译
随着非专家们拍摄的野外视频的快速增长,盲目视频质量评估(VQA)已成为一个具有挑战性且苛刻的问题。尽管已经做出了许多努力来解决这个问题,但尚不清楚人类视觉系统(HVS)与视频的时间质量有何关系。同时,最近的工作发现,自然视频的框架变成了HV的感知领域,往往会形成表示形式的直线轨迹。通过获得的洞察力,即失真会损害感知的视频质量并导致感知表示的弯曲轨迹,我们提出了一个时间感知质量指数(TPQI),以通过描述表示形式的图形形态来测量时间失真。具体而言,我们首先从HVS的横向基因核(LGN)和主要视觉区域(V1)中提取视频感知表示,然后测量其轨迹的直率和紧凑性,以量化视频的自然性和内容连续性的降解。实验表明,HVS中的感知表示是一种预测主观时间质量的有效方法,因此TPQI首次可以实现与空间质量度量的可比性能,并且在评估具有较大时间变化的视频方面更加有效。我们进一步证明,通过与NIQE(空间质量指标)结合使用,TPQI可以在流行的野外视频数据集中实现最佳性能。更重要的是,除了要评估的视频之外,TPQI不需要任何其他信息,因此可以将其应用于任何数据集,而无需参数调整。源代码可在https://github.com/uolmm/tpqi-vqa上找到。
translated by 谷歌翻译
时空视频超分辨率(STVSR)的目标是提高帧速率(也称为时间分辨率)和给定视频的空间分辨率。最近的方法通过端到端的深神经网络解决了STVSR。一个流行的解决方案是首先提高视频的帧速率;然后在不同的框架功能之间执行特征改进;最后增加了这些功能的空间分辨率。在此过程中,仔细利用了不同帧的特征之间的时间相关性。然而,尚未强调不同(空间)分辨率的特征之间的空间相关性。在本文中,我们提出了一个时空特征交互网络,以通过在不同框架和空间分辨率的特征之间利用空间和时间相关来增强STVSR。具体而言,引入了空间 - 周期框架插值模块,以同时和互动性地插值低分辨率和高分辨率的中间框架特征。后来分别部署了空间 - 周期性的本地和全局细化模块,以利用不同特征之间的空间 - 周期相关性进行细化。最后,采用了新的运动一致性损失来增强重建帧之间的运动连续性。我们对三个标准基准测试,即VID4,Vimeo-90K和Adobe240进行实验,结果表明,我们的方法可以通过相当大的余量提高了最先进的方法。我们的代码将在https://github.com/yuezijie/stinet-pace time-video-super-resolution上找到。
translated by 谷歌翻译
Subjective image-quality measurement plays a critical role in the development of image-processing applications. The purpose of a visual-quality metric is to approximate the results of subjective assessment. In this regard, more and more metrics are under development, but little research has considered their limitations. This paper addresses that deficiency: we show how image preprocessing before compression can artificially increase the quality scores provided by the popular metrics DISTS, LPIPS, HaarPSI, and VIF as well as how these scores are inconsistent with subjective-quality scores. We propose a series of neural-network preprocessing models that increase DISTS by up to 34.5%, LPIPS by up to 36.8%, VIF by up to 98.0%, and HaarPSI by up to 22.6% in the case of JPEG-compressed images. A subjective comparison of preprocessed images showed that for most of the metrics we examined, visual quality drops or stays unchanged, limiting the applicability of these metrics.
translated by 谷歌翻译