用户生成的内容(UGC)的盲或禁区视频质量评估已成为趋势,具有挑战性,迄今未解决的问题。因此,适用于该内容的准确和高效的视频质量预测因素都需要实现更智能的分析和处理UGC视频的需求。以前的研究表明,自然场景统计和深度学习特征既足以捕获空​​间扭曲,这有助于UGC视频质量问题的重要方面。然而,这些模型无法对实际应用中预测复杂和不同的UGC视频的质量无能为力或效率低。在这里,我们为UGC含量介绍了一种有效且高效的视频质量模型,我们将我们展示快速准确的视频质量评估员(Rapique),我们展示了与最先进的(SOTA)模型相对表现,而是具有订单-magnitude更快的运行时。 Rapique结合并利用了质量意识的现场统计特征和语义知识的深度卷积功能的优势,使我们能够设计用于视频质量建模的第一通用和有效的空间和时间(时空)带通统计模型。我们对最近的大型UGC视频质量数据库的实验结果表明,Rapique以相当更低的计算费用提供所有数据集的顶级表现。我们希望这项工作促进并激发进一步努力实现潜在的实时和低延迟应用程序的视频质量问题的实际建模。为促进公共用途,在线进行了求助的实施:\ url {https://github.com/vztu/rapique}。
translated by 谷歌翻译
视频预测模型的研究被认为是对视频学习的基本方法。虽然存在用于预测过去几帧的未来帧像素值的多种生成模型,但已经发现预测帧的定量评估非常具有挑战性。在这种情况下,我们研究了预测视频的质量评估问题。我们创建了印度科学研究所预测视频质量评估(IISC PVQA)数据库,该数据库由300个视频组成,通过在不同的数据集上应用不同的预测模型,并伴随着人类观察分数。我们收集了这些视频的50名人类参与者的主观评级。我们的主观研究表明,人类观察者在预测视频的质量判断中非常一致。我们基准评估视频预测的几种普遍使用的措施,并表明它们与这些主观评分没有充分相关。我们介绍了两个新功能,以有效地捕获预测视频的质量,具有过去的帧的预测帧的深度特征的运动补偿余弦相似之处,以及从重新置于帧差异中提取的深度特征。我们表明,我们的特色设计导致了根据ISC PVQA数据库的人类判断的艺术质量预测的状态。数据库和代码在我们的项目网站上公开提供:https://nagabhushansn95.github.io/publications/2020/pvqa
translated by 谷歌翻译
360 {\ TextDegree}视频的盲目视觉质量评估(BVQA)在优化沉浸式多媒体系统中起着关键作用。在评估360 {\ TextDegree}视频的质量时,人类倾向于从每个球形帧的基于视口的空间失真来识别其在相邻帧中的运动伪影,以视频级质量分数为止,即渐进性质量评估范式。然而,现有的BVQA方法对于360 {\ TextDegree}视频忽略了这条范式。在本文中,我们考虑了人类对球面视频质量的逐步范例,因此提出了一种新颖的BVQA方法(即ProvQA),通过逐步学习从像素,帧和视频中逐步学习。对应于像素,帧和视频的渐进学习,三个子网被设计为我们的PROPQA方法,即球形感知感知质量预测(SPAQ),运动感知感知质量预测(MPAQ)和多帧时间非本地(MFTN)子网。 SPAQ子网首先模拟基于人的球面感知机制的空间质量下降。然后,通过跨越相邻帧的运动提示,MPAQ子网适当地结合了在360 {\ TextDegree}视频上的质量评估的运动上下文信息。最后,MFTN子网聚集多帧质量劣化,通过探索来自多个帧的长期质量相关性来产生最终质量分数。实验验证了我们的方法在两个数据集中的360 {\ TextDegree}视频上显着提高了最先进的BVQA性能,该代码是公共\ url {https://github.com/yanglixiaoshen/的代码Provqa。}
translated by 谷歌翻译
数字图像包含大量冗余,因此,应用了压缩以减少图像尺寸而不会损失合理的图像质量。在包含图像序列的视频的情况下,在包含图像序列和更高的压缩比中,在低吞吐量网络中实现了相同的突出。评估这种情况下的图像质量变得特别兴趣。大多数情景中的主观评估变得不可行,因此客观评估是首选。在三种客观质量措施中,全文和减少参考方法需要某种形式的原始图像来计算在广播或IP视频等情景中不可行的质量分数。因此,提出了一种非参考质量度量来评估计算亮度和多尺度梯度统计的数字图像的质量,以及平均减去对比度标准化产品作为具有缩放共轭梯度的前馈神经网络的特征。训练有素的网络提供了良好的回归和R2测量,并进一步测试实时图像质量评估数据库第2版已显示有前途的结果。 Pearson,Kendall和Spearman的相关性是计算预测和实际质量评分之间的相关性,结果与最先进的系统相当。此外,所提出的指标的计算方式比其对应物更快,并且可以用于图像序列的质量评估。
translated by 谷歌翻译
图像质量评估(IQA)对基于图像的应用程序的重要性越来越重要。其目的是建立一种可以代替人类的模型,以准确评估图像质量。根据参考图像是否完整且可用,图像质量评估可分为三类:全引用(FR),减少参考(RR)和非参考(NR)图像质量评估。由于深度学习的蓬勃发展和研究人员的广泛关注,近年来提出了基于深度学习的几种非参考图像质量评估方法,其中一些已经超过了引人注目甚至全参考图像的性能质量评估模型。本文将审查图像质量评估的概念和指标以及视频质量评估,简要介绍了一些完整参考和半参考图像质量评估的方法,并专注于基于深度学习的非参考图像质量评估方法。然后介绍常用的合成数据库和现实世界数据库。最后,总结和呈现挑战。
translated by 谷歌翻译
在这项工作中,我们为图像和视频的感知质量评估提供了一个简单而有效的统一模型。与通常由复杂的网络架构组成的现有模型或依赖于多个分支的串联,我们的模型通过仅介绍从骨干网的一个全局特征(即呈现的工作中的Resnet18)来实现相当的性能。结合一些培训技巧,所提出的模型超越了公共和私有数据集的SOTA模型的当前基线。基于建议的架构,我们释放了三个常见的真实情景训练硕士学位:UGC视频在野外,PGC视频中的压缩,带有压缩的游戏视频。这三种预先训练的型号可以直接申请质量评估,或者进一步微调以获取更多定制的用途。所有代码,SDK和所提出的模型的预先训练的权重在HTTPS://github.com/tencent/censeoqoe上公开使用。
translated by 谷歌翻译
Objective methods for assessing perceptual image quality have traditionally attempted to quantify the visibility of errors between a distorted image and a reference image using a variety of known properties of the human visual system. Under the assumption that human visual perception is highly adapted for extracting structural information from a scene, we introduce an alternative framework for quality assessment based on the degradation of structural information. As a specific example of this concept, we develop a Structural Similarity Index and demonstrate its promise through a set of intuitive examples, as well as comparison to both subjective ratings and state-of-the-art objective methods on a database of images compressed with JPEG and JPEG2000. 1
translated by 谷歌翻译
视频帧插值(VFI)目前是一个非常活跃的研究主题,具有跨越计算机视觉,后期生产和视频编码的应用程序。 VFI可能非常具有挑战性,特别是在含有大型运动,闭塞或动态纹理的序列中,现有方法未能提供感知鲁棒的插值性能。在这种情况下,我们基于时空多流量架构介绍了一种基于深度学习的VFI方法ST-MFNET。 ST-MFNET采用新的多尺度多流量预测器来估计多对一的中间流动,它们与传统的一对一光流组合以捕获大型和复杂的运动。为了增强各种纹理的插值性能,还用于在扩展时间窗口上模拟内容动态的3D CNN。此外,ST-MFNET已经在ST-GaN框架内培训,该框架最初是为纹理合成而开发的,目的是进一步提高感知插值质量。我们的方法已被全面评估 - 与十四个最先进的VFI算法相比 - 清楚地展示了ST-MFNET在各种和代表性测试数据集上始终如一地优于这些基准,在PSNR中具有显着的收益,用于案件在PSNR中高达1.09dB包括大型运动和动态纹理。项目页面:https://danielism97.github.io/st-mfnet。
translated by 谷歌翻译
由于存在于视觉信号采集,压缩,传输和显示的各个阶段的质量降级,图像质量评估(IQA)在基于图像的应用中起着重要作用。根据参考图像是否完整且可用,图像质量评估可分为三类:全引用(FR),减少参考(RR)和非引用(NR)。本文将审查最先进的图像质量评估算法。
translated by 谷歌翻译
无参考图像质量评估(NR-IQA)的目标是根据主观评估来估计感知图像质量,由于不存在原始参考图像,它是复杂和未解决的问题。在本文中,我们提出了一种新颖的模型来解决NR-IQA任务,利用卷积神经网络(CNNS)和变压器中的自我关注机制来解决来自输入图像的本地和非局部特征的混合方法来解决NR-IQA任务。我们通过CNN捕获图像的局部结构信息,然后避免提取的CNNS特征之间的局部偏压并获得图像的非本地表示,我们利用所提取的特征上的变压器,其中我们将它们塑造为顺序输入变压器模型。此外,为了改善主观和目标分数之间的单调性相关性,我们利用每个批处理内图像之间的相对距离信息,并强制执行它们之间的相对排名。最后但并非最不重要的是,我们观察到NR-IQA模型的性能在我们应用于输入到输入时申请等级变换(例如水平翻转)。因此,我们提出了一种利用自我保持性作为自我监督来源的方法,以改善NRIQA模型的鲁棒性。具体而言,我们为每个图像的质量评估模型的输出和其转换(水平翻转)强制实施自我一致性,以利用丰富的自我监控信息,并降低模型的不确定性。为了展示我们工作的有效性,我们在七个标准IQA数据集(合成和真实)上评估它,并显示我们的模型在各种数据集上实现最先进的结果。
translated by 谷歌翻译
对医疗保健监控的远程工具的需求从未如此明显。摄像机测量生命体征利用成像装置通过分析人体的图像来计算生理变化。建立光学,机器学习,计算机视觉和医学的进步这些技术以来的数码相机的发明以来已经显着进展。本文介绍了对生理生命体征的相机测量综合调查,描述了它们可以测量的重要标志和实现所做的计算技术。我涵盖了临床和非临床应用以及这些应用需要克服的挑战,以便从概念上推进。最后,我描述了对研究社区可用的当前资源(数据集和代码),并提供了一个全面的网页(https://cameravitals.github.io/),其中包含这些资源的链接以及其中引用的所有文件的分类列表文章。
translated by 谷歌翻译
在极低光线条件下捕获图像会对标准相机管道带来重大挑战。图像变得太黑了,太吵了,这使得传统的增强技术几乎不可能申请。最近,基于学习的方法已经为此任务显示了非常有希望的结果,因为它们具有更大的表现力能力来允许提高质量。这些研究中的激励,在本文中,我们的目标是利用爆破摄影来提高性能,并从极端暗的原始图像获得更加锐利和更准确的RGB图像。我们提出的框架的骨干是一种新颖的粗良好网络架构,逐步产生高质量的输出。粗略网络预测了低分辨率,去噪的原始图像,然后将其馈送到精细网络以恢复微尺的细节和逼真的纹理。为了进一步降低噪声水平并提高颜色精度,我们将该网络扩展到置换不变结构,使得它作为输入突发为低光图像,并在特征级别地合并来自多个图像的信息。我们的实验表明,我们的方法通过生产更详细和相当更高的质量的图像来引起比最先进的方法更令人愉悦的结果。
translated by 谷歌翻译
准确且强大的视觉对象跟踪是最具挑战性和最基本的计算机视觉问题之一。它需要在图像序列中估计目标的轨迹,仅给出其初始位置和分段,或者在边界框的形式中粗略近似。判别相关滤波器(DCF)和深度暹罗网络(SNS)被出现为主导跟踪范式,这导致了重大进展。在过去十年的视觉对象跟踪快速演变之后,该调查介绍了90多个DCFS和暹罗跟踪器的系统和彻底审查,基于九个跟踪基准。首先,我们介绍了DCF和暹罗跟踪核心配方的背景理论。然后,我们在这些跟踪范式中区分和全面地审查共享以及具体的开放研究挑战。此外,我们彻底分析了DCF和暹罗跟踪器对九个基准的性能,涵盖了视觉跟踪的不同实验方面:数据集,评估度量,性能和速度比较。通过提出根据我们的分析提出尊重开放挑战的建议和建议来完成调查。
translated by 谷歌翻译
最近,面部生物识别是对传统认证系统的方便替代的巨大关注。因此,检测恶意尝试已经发现具有重要意义,导致面部抗欺骗〜(FAS),即面部呈现攻击检测。与手工制作的功能相反,深度特色学习和技术已经承诺急剧增加FAS系统的准确性,解决了实现这种系统的真实应用的关键挑战。因此,处理更广泛的发展以及准确的模型的新研究区越来越多地引起了研究界和行业的关注。在本文中,我们为自2017年以来对与基于深度特征的FAS方法相关的文献综合调查。在这一主题上阐明,基于各种特征和学习方法的语义分类。此外,我们以时间顺序排列,其进化进展和评估标准(数据集内集和数据集互联集合中集)覆盖了FAS的主要公共数据集。最后,我们讨论了开放的研究挑战和未来方向。
translated by 谷歌翻译
运动向量(MV)的局部最优性是视频编码中的内在属性,并且对MV的任何修改都将不可避免地破坏这种最优性,使其成为MV域中的隐写术的敏感指标。因此,局部最优态通常用于设计落体特征,并且局部最优性的估计已成为视频隐星分析的首要任务。然而,现有工程中的局部最优性通常是不准确的或使用不合理的假设估计,限制其在塞巴巴分析中的能力。在本文中,我们建议以更合理和更全面的方式估计当地最优性,并在两个方面概括了局部最优性的概念。首先,通过MV和预测的运动矢量(PMV)共同确定以速率失真感测量测量的局部最优,并且PMV的可变性将影响局部最优性的估计。因此,我们将本地最优性概括为动态估计。其次,PMV是MV的特殊情况,并且还可以反映MVS中的嵌入痕迹。因此,我们将本地最优性从MV域概括到PMV域。根据本地最优性的两个概括,我们构建了新型的落物特征,并提出了特征对称规则来减少特征维度。在三个数据库中进行的广泛实验展示了所提出的特征的有效性,这在各种条件下实现了最先进的精度和鲁棒性,包括覆盖源失配,视频预测方法,视频编解码器和视频分辨率。
translated by 谷歌翻译
大多数现有的神经视频压缩方法采用预测编码框架,该预测编码框架首先生成预测帧,然后用当前帧编码其残差。然而,对于压缩比,预测编码只是子最优解,因为它使用简单的减法操作来消除跨越帧的冗余。在本文中,我们提出了一种深度上下文视频压缩框架,以使从预测编码转换到条件编码。特别是,我们尝试回答以下问题:如何在深度视频压缩框架下定义,使用和学习条件。要点击条件编码的可能性,我们将使用要素域上下文提出为条件。这使我们能够利用高维上下文来对编码器和解码器携带丰富的信息,这有助于重建高频内容以获得更高的视频质量。我们的框架也是可扩展的,其中条件可以灵活设计。实验表明,我们的方法可以显着优于先前的最先进(SOTA)深度视频压缩方法。与使用SifeSlow预设相比,我们可以为1080p标准测试视频达到26.0%的比特率保存。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
近期对抗性生成建模的突破导致了能够生产高质量的视频样本的模型,即使在真实世界视频的大型和复杂的数据集上也是如此。在这项工作中,我们专注于视频预测的任务,其中给出了从视频中提取的一系列帧,目标是生成合理的未来序列。我们首先通过对鉴别器分解进行系统的实证研究并提出产生更快的收敛性和更高性能的系统来提高本领域的最新技术。然后,我们分析发电机中的复发单元,并提出了一种新的复发单元,其根据预测的运动样本来改变其过去的隐藏状态,并改进它以处理DIS闭塞,场景变化和其他复杂行为。我们表明,这种经常性单位始终如一地优于以前的设计。我们的最终模型导致最先进的性能中的飞跃,从大型动力学-600数据集中获得25.7的测试集Frechet视频距离为25.7,下降到69.2。
translated by 谷歌翻译
目标图像质量评估是一个具有挑战性的任务,旨在自动测量给定图像的质量。根据参考图像的可用性,分别存在全引用和无引用IQA任务。大多数深度学习方法使用卷积神经网络提取的深度特征的回归。对于FR任务,另一种选择是对深度特征进行统计比较。对于所有这些方法,通常忽略非本地信息。此外,探索FR和NR任务之间的关系不太探索。通过最近的变压器成功在建模上下文信息中,我们提出了一个统一的IQA框架,它利用CNN骨干和变压器编码器提取特征。所提出的框架与FR和NR模式兼容,并允许联合训练方案。评估实验在三个标准IQA数据集,即LIVE,CSIQ和TID2013和KONIQ-10K上,显示我们所提出的模型可以实现最先进的FR性能。此外,在广泛的实验中实现了相当的NR性能,结果表明,联合训练方案可以利用NR性能。
translated by 谷歌翻译
能够可靠地估计来自视频的生理信号是低成本,临床前健康监测的强大工具。在这项工作中,我们提出了一种新的远程光学仪器描绘(RPPG)的新方法 - 从人脸或皮肤的观察结果测量血液体积的变化。类似于RPPG的当前最先进的方法,我们应用神经网络,以便在滋扰图像变异的不变性中学习深度表示。与此类方法相比,我们采用了一个完全自我监督的培训方法,这毫无依赖于昂贵的地面真理生理培训数据。我们所提出的方法在频率和时间光滑的频率和兴趣信号的时间平滑之前使用对比学习。我们在四个RPPG数据集中评估我们的方法,显示与最近监督的深度学习方法相比,可以实现可比或更好的结果,但不使用任何注释。此外,我们还将学习的显着重采样模块纳入了我们无监督的方法和监督基线。我们表明,通过允许模型来了解输入图像的位置,我们可以减少手工工程功能的需要,同时为模型的行为和可能的故障模式提供一些可解释性。我们释放守则以获得我们完整的培训和评估管道,以鼓励在这种激动人心的新方向上的可重复进展。
translated by 谷歌翻译