需要高质量的面部图像来保证在监视和安全场景中自动识别系统(FR)系统的稳定性和可靠性。但是,由于传输或存储的限制,在分析之前,通常会压缩大量的面部数据。压缩图像可能会失去强大的身份信息,从而导致FR系统的性能降低。在此,我们首次尝试研究FR系统的明显差异(JND),可以将其定义为FR系统无法注意到的最大失真。更具体地说,我们建立了一个JND数据集,其中包括3530个原始图像和137,670个由高级参考编码/解码软件生成的压缩图像,该图像基于多功能视频编码(VVC)标准(VTM-15.0)。随后,我们开发了一种新型的JND预测模型,以直接推断FR系统的JND图像。特别是,为了最大程度地删除冗余性,在不损害鲁棒身份信息的情况下,我们将编码器应用于多个功能提取和基于注意力的特征分解模块,以将面部特征逐渐分解为两个不相关的组件,即身份和残差特征,通过自我 - 监督学习。然后,剩余特征被馈入解码器以生成残差图。最后,通过从原始图像中减去残差图来获得预测的JND映射。实验结果表明,与最先进的JND模型相比,所提出的模型可以实现JND MAP预测的更高准确性,并且能够在维持FR系统的性能的同时保存更多的位置,而与VTM-15.0相比。
translated by 谷歌翻译
自然图像的统计规律(称为自然场景统计数据)在不引用图像质量评估中起重要作用。但是,人们普遍认为,通常是计算机生成的屏幕内容图像(SCI)不持有此类统计信息。在这里,我们首次尝试学习SCI的统计数据,基于可以有效确定SCI的质量。所提出的方法的基本机制是基于一个狂野的假设,即没有物理上获得的SCI仍然遵守某些可以以学习方式理解的统计数据。我们从经验上表明,在质量评估中可以有效利用统计偏差,并且在不同的环境中进行评估时,提出的方法优越。广泛的实验结果表明,与现有的NR-IQA模型相比,基于深度统计的SCI质量评估(DFSS-IQA)模型可提供有希望的性能,并在跨数据库设置中显示出很高的概括能力。我们的方法的实现可在https://github.com/baoliang93/dfss-iqa上公开获得。
translated by 谷歌翻译
完全监督的显着对象检测(SOD)方法取得了长足的进步,但是这种方法通常依赖大量的像素级注释,这些注释耗时且耗时。在本文中,我们专注于混合标签下的新的弱监督SOD任务,其中监督标签包括传统无监督方法生成的大量粗标签和少量的真实标签。为了解决此任务中标签噪声和数量不平衡问题的问题,我们设计了一个新的管道框架,采用三种复杂的培训策略。在模型框架方面,我们将任务分解为标签细化子任务和显着对象检测子任务,它们相互合作并交替训练。具体而言,R-NET设计为配备有指导和聚合机制的搅拌机的两流编码器模型(BGA),旨在纠正更可靠的伪标签的粗标签,而S-NET是可更换的。由当前R-NET生成的伪标签监督的SOD网络。请注意,我们只需要使用训练有素的S-NET进行测试。此外,为了确保网络培训的有效性和效率,我们设计了三种培训策略,包括替代迭代机制,小组智慧的增量机制和信誉验证机制。五个草皮基准的实验表明,我们的方法在定性和定量上都针对弱监督/无监督/无监督的方法实现了竞争性能。
translated by 谷歌翻译
在本文中,提出了一种基于高动态范围(HDR)图像的频率差异的新颖有效的图像质量评估(IQA)算法,称为基于局部全球频率特征模型(LGFM)。由假设人类视觉系统高度适应于在感知视觉场景时提取结构信息和部分频率的动机,Gabor和Butterworth滤镜分别用于HDR图像的亮度,分别提取本地和全局频率特征。相似性测量和特征池在频率特征上依次执行,以获得预测的质量评分。在四个广泛使用的基准上评估的实验表明,与最先进的HDR IQA方法相比,所提出的LGFM可以提供更高的主观感知一致性。我们的代码可在:\ url {https://github.com/eezkni/lgfm}中获得。
translated by 谷歌翻译
当与分支和界限结合使用时,结合的传播方法是正式验证深神经网络(例如正确性,鲁棒性和安全性)的最有效方法之一。但是,现有作品无法处理在传统求解器中广泛接受的切割平面限制的一般形式,这对于通过凸出凸松弛的加强验证者至关重要。在本文中,我们概括了结合的传播程序,以允许添加任意切割平面的约束,包括涉及放宽整数变量的限制,这些变量未出现在现有的结合传播公式中。我们的广义结合传播方法GCP-crown为应用一般切割平面方法}开辟了一个机会进行神经网络验证,同时受益于结合传播方法的效率和GPU加速。作为案例研究,我们研究了由现成的混合整数编程(MIP)求解器生成的切割平面的使用。我们发现,MIP求解器可以生成高质量的切割平面,以使用我们的新配方来增强基于界限的验证者。由于以分支为重点的绑定传播程序和切削平面的MIP求解器可以使用不同类型的硬件(GPU和CPU)并行运行,因此它们的组合可以迅速探索大量具有强切割平面的分支,从而导致强大的分支验证性能。实验表明,与VNN-Comp 2021中最佳工具相比,我们的方法是第一个可以完全求解椭圆形的基准并验证椭圆21基准的两倍的验证者,并且在oval21基准测试中的最佳工具也明显超过了最先进的验证器。广泛的基准。 GCP-Crown是$ \ alpha $,$ \ beta $ -Crown验证者,VNN-COMP 2022获奖者的一部分。代码可在http://papercode.cc/gcp-crown上获得
translated by 谷歌翻译
现有的基于深度学习的全参考IQA(FR-IQA)模型通常通过明确比较特征,以确定性的方式预测图像质量,从而衡量图像严重扭曲的图像是多远,相应的功能与参考的空间相对远。图片。本文中,我们从不同的角度看这个问题,并提议从统计分布的角度对知觉空间中的质量降解进行建模。因此,根据深度特征域中的Wasserstein距离来测量质量。更具体地说,根据执行最终质量评分,测量了预训练VGG网络的每个阶段的1Dwasserstein距离。 Deep Wasserstein距离(DEEPWSD)在神经网络的功能上执行的,可以更好地解释由各种扭曲引起的质量污染,并提出了高级质量预测能力。广泛的实验和理论分析表明,在质量预测和优化方面,提出的DEEPWSD的优越性。
translated by 谷歌翻译
摆脱拟合配对训练数据的基本限制,最近无监督的低光增强方法在调整图像的照明和对比度方面表现出色。但是,对于无监督的低光增强,由于缺乏对详细信号的监督而导致的剩余噪声抑制问题在很大程度上阻碍了这些方法在现实世界应用中的广泛部署。在本文中,我们提出了一种新型的自行车相互作用生成对抗网络(CIGAN),以实现无监督的低光图像增强,它不仅能够更好地在低/正常光图像之间更好地传输照明分布,还可以操纵两个域之间的详细信号,例如。 ,在环状增强/降解过程中抑制/合成逼真的噪声。特别是,提出的低光引导转换馈送馈送从增强gan(Egan)发电机的低光图像的特征到降解GAN(DGAN)的发生器。借助真正的弱光图像的信息,DGAN可以在低光图像中综合更逼真的不同照明和对比度。此外,DGAN中的特征随机扰动模块学会了增加特征随机性以产生各种特征分布,从而说服了合成的低光图像以包含逼真的噪声。广泛的实验既证明了所提出的方法的优越性,又证明了每个模块在CIGAN中的有效性。
translated by 谷歌翻译
移动对象(DATMO)的检测和跟踪是自动驾驶环境感知的重要组成部分。虽然使用环绕视图摄像机的3D检测器只是蓬勃发展,但越来越多的趋势是使用不同的基于变压器的方法从透视图的2D特征图中学习3D空间中的查询。本文提出了稀疏的R-CNN 3D(SRCN3D),这是一种新颖的两阶段全横向卷积映射管道,用于环绕视图摄像机检测和跟踪。 SRCN3D采用了级联结构,具有固定数量的提案盒和提案潜在功能的双轨更新。预计提案框可以透视视图,以汇总感兴趣的区域(ROI)本地特征。基于此,提案功能通过动态实例交互式头部进行完善,然后生成分类,并应用于原始边界框。与先前的艺术相比,我们的稀疏功能采样模块仅利用本地2D功能来调整每个相应的3D提案盒,从而导致完整的稀疏范式。提案功能和外观特征均在数据关联过程中采用多刺激性3D多对象跟踪方法。 Nuscenes数据集的广泛实验证明了我们提出的SRCN3D检测器和跟踪器的有效性。代码可在https://github.com/synsin0/srcn3d上找到。
translated by 谷歌翻译
步态描绘了个人独特而区别的步行模式,并已成为人类识别最有希望的生物识别特征之一。作为一项精细的识别任务,步态识别很容易受到许多因素的影响,并且通常需要大量完全注释的数据,这些数据是昂贵且无法满足的。本文提出了一个大规模的自我监督基准,以通过对比度学习进行步态识别,旨在通过提供信息丰富的步行先验和各种现实世界中的多样化的变化,从大型的无标记的步行视频中学习一般步态代表。具体而言,我们收集了一个由1.02m步行序列组成的大规模的无标记的步态数据集gaitu-1m,并提出了一个概念上简单而经验上强大的基线模型步态。在实验上,我们在四个广泛使用的步态基准(Casia-B,Ou-Mvlp,Grew and Grew and Gait3d)上评估了预训练的模型,或者在不转移学习的情况下。无监督的结果与基于早期模型和基于GEI的早期方法相当甚至更好。在转移学习后,我们的方法在大多数情况下都超过现有方法。从理论上讲,我们讨论了步态特异性对比框架的关键问题,并提供了一些进一步研究的见解。据我们所知,Gaitlu-1M是第一个大规模未标记的步态数据集,而GaitSSB是第一种在上述基准测试基准上取得显着无监督结果的方法。 GaitSSB的源代码将集成到OpenGait中,可在https://github.com/shiqiyu/opengait上获得。
translated by 谷歌翻译
步态识别旨在通过相机来识别一个距离的人。随着深度学习的出现,步态识别的重大进步通过使用深度学习技术在许多情况下取得了鼓舞人心的成功。然而,对视频监视的越来越多的需求引入了更多的挑战,包括在各种方差下进行良好的识别,步态序列中的运动信息建模,由于协议方差,生物量标准安全性和预防隐私而引起的不公平性能比较。本文对步态识别的深度学习进行了全面的调查。我们首先介绍了从传统算法到深层模型的步态识别的奥德赛,从而提供了对步态识别系统的整个工作流程的明确知识。然后,从深度表示和建筑的角度讨论了步态识别的深入学习,并深入摘要。具体而言,深层步态表示分为静态和动态特征,而深度体系结构包括单流和多流架构。遵循我们提出的新颖性分类法,它可能有益于提供灵感并促进对步态认识的感知。此外,我们还提供了所有基于视觉的步态数据集和性能分析的全面摘要。最后,本文讨论了一些潜在潜在前景的开放问题。
translated by 谷歌翻译