面部属性评估在视频监视和面部分析中起着重要作用。尽管基于卷积神经网络的方法取得了长足的进步,但它们不可避免地一次仅与一个当地社区打交道。此外,现有方法主要将面部属性评估视为单个多标签分类任务,而忽略了语义属性和面部身份信息之间的固有关系。在本文中,我们提出了一个小说\ textbf {trans} \ textbf {f} ace \ textbf {a} ttribute评估方法(\ textbf {transfa})的基于\ textbf {f} ace \ textbf {a}的表示,可以有效地增强属性的差异性表示。注意机制的背景。多个分支变压器用于探索类似语义区域中不同属性之间的相互关系以进行属性特征学习。特别是,层次标识构成属性损失旨在训练端到端体系结构,这可以进一步整合面部身份判别信息以提高性能。多个面部属性基准的实验结果表明,与最新方法相比,所提出的Transfa取得了出色的性能。
translated by 谷歌翻译
Face forgery detection plays an important role in personal privacy and social security. With the development of adversarial generative models, high-quality forgery images become more and more indistinguishable from real to humans. Existing methods always regard as forgery detection task as the common binary or multi-label classification, and ignore exploring diverse multi-modality forgery image types, e.g. visible light spectrum and near-infrared scenarios. In this paper, we propose a novel Hierarchical Forgery Classifier for Multi-modality Face Forgery Detection (HFC-MFFD), which could effectively learn robust patches-based hybrid domain representation to enhance forgery authentication in multiple-modality scenarios. The local spatial hybrid domain feature module is designed to explore strong discriminative forgery clues both in the image and frequency domain in local distinct face regions. Furthermore, the specific hierarchical face forgery classifier is proposed to alleviate the class imbalance problem and further boost detection performance. Experimental results on representative multi-modality face forgery datasets demonstrate the superior performance of the proposed HFC-MFFD compared with state-of-the-art algorithms. The source code and models are publicly available at https://github.com/EdWhites/HFC-MFFD.
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
最近的跟踪器采用变压器来组合或替换广泛使用的重新NET作为其新的骨干网络。尽管他们的跟踪器在常规场景中运行良好,但是他们只是将2D功能弄平为序列,以更好地匹配变压器。我们认为这些操作忽略了目标对象的空间先验,这可能仅导致次优结果。此外,许多作品表明,自我注意力实际上是一个低通滤波器,它与输入功能或键/查询无关。也就是说,它可能会抑制输入功能的高频组成部分,并保留甚至放大低频信息。为了解决这些问题,在本文中,我们提出了一个统一的空间频率变压器,该变压器同时建模高斯空间先验和高频强调(GPHA)。具体而言,高斯空间先验是使用双重多层感知器(MLP)生成的,并注入了通过将查询和自我注意的关键特征乘产生的相似性矩阵。输出将被馈入软磁层,然后分解为两个组件,即直接信号和高频信号。低通和高通的分支被重新缩放并组合以实现全通,因此,高频特征将在堆叠的自发层中得到很好的保护。我们进一步将空间频率变压器整合到暹罗跟踪框架中,并提出一种新颖的跟踪算法,称为SFTRANST。基于跨级融合的SwintransFormer被用作骨干,还使用多头交叉意见模块来增强搜索和模板功能之间的相互作用。输出将被馈入跟踪头以进行目标定位。短期和长期跟踪基准的广泛实验都证明了我们提出的框架的有效性。
translated by 谷歌翻译
Facial Expression Recognition (FER) in the wild is an extremely challenging task. Recently, some Vision Transformers (ViT) have been explored for FER, but most of them perform inferiorly compared to Convolutional Neural Networks (CNN). This is mainly because the new proposed modules are difficult to converge well from scratch due to lacking inductive bias and easy to focus on the occlusion and noisy areas. TransFER, a representative transformer-based method for FER, alleviates this with multi-branch attention dropping but brings excessive computations. On the contrary, we present two attentive pooling (AP) modules to pool noisy features directly. The AP modules include Attentive Patch Pooling (APP) and Attentive Token Pooling (ATP). They aim to guide the model to emphasize the most discriminative features while reducing the impacts of less relevant features. The proposed APP is employed to select the most informative patches on CNN features, and ATP discards unimportant tokens in ViT. Being simple to implement and without learnable parameters, the APP and ATP intuitively reduce the computational cost while boosting the performance by ONLY pursuing the most discriminative features. Qualitative results demonstrate the motivations and effectiveness of our attentive poolings. Besides, quantitative results on six in-the-wild datasets outperform other state-of-the-art methods.
translated by 谷歌翻译
改变布料的人重新识别(REID)是一个新出现的研究主题,旨在检索换衣服的行人。由于带有不同衣服的人类外观表现出较大的变化,因此现有方法很难提取歧视性和健壮的特征表示。当前的作品主要集中在身体形状或轮廓草图上,但是人类的语义信息以及换衣服之前和之后的行人特征的潜在一致性未被充分探索或被忽略。为了解决这些问题,在这项工作中,提出了一种新颖的语义意识到的注意力和视觉屏蔽网络,用于换衣服的人Reid(缩写为SAV),其中关键的想法是屏蔽与衣服外观相关的线索,只关注衣服的外观对视图/姿势变化不敏感的视觉语义信息。具体而言,首先采用了视觉语义编码器来基于人类语义分割信息来定位人体和服装区域。然后,提出了人类的语义注意模块(HSA),以突出显示人类的语义信息并重新授予视觉特征图。此外,视觉服装屏蔽模块(VCS)还旨在通过覆盖衣服区域并将模型集中在与衣服无关的视觉语义信息上来提取更健壮的特征代表。最重要的是,这两个模块在端到端统一框架中共同探索。广泛的实验表明,所提出的方法可以显着胜过最先进的方法,并且可以为换衣的人提取更健壮的特征。与FSAM(在CVPR 2021中发布)相比,该方法可以分别在LTCC和PRCC数据集上以MAP(RANK-1)的形式获得32.7%(16.5%)和14.9%( - )。
translated by 谷歌翻译
呈现攻击检测(PAD)方法的稳健性和泛化能力至关重要,以确保面部识别系统(FRSS)的安全性。但是,在真实的场景中,呈现攻击(PAS)是各种各样的且难以收集的。现有焊盘方法高度依赖于有限的训练集,并且不能概括到未知的PAS。与PAD任务不同,可以有效地采用其他与真实面(例如面部识别和属性编辑)训练的其他与面部识别和属性编辑)培训的其他相关任务。灵感来自于此,我们建议从其他与面部相关的任务应用任务(任务分类)来解决面板,以改善检测PAS的泛化能力。所提出的方法,首先从其他面部相关任务引入任务特定功能,然后,我们使用曲线图注意网络(GAT)来设计跨模型适配器来重新绘制此类功能以适应焊盘任务。最后,通过使用基于CNN的PA检测器和重新映射特征的分层特征来实现面板。实验结果表明,与最先进的方法相比,该方法可以在复杂和混合数据集中实现显着的改进。特别是,当使用Oulu-NPU,Casia-Fasd和IDIAP重放攻击训练时,我们在MSU-MFSD中获得了5.48%的HTET(半总错误率),优于基准7.39%。代码将公开可用。
translated by 谷歌翻译
闭塞者重新识别是计算机视觉的具有挑战性的领域,这面临效率低下特征表示和低识别准确性等问题。卷积神经网络更加关注局部特征的提取,因此难以提取遮挡行人的特征,效果并不满足。最近,视觉变压器被引入重新识别领域,并通过构建补丁序列之间的全局特征的关系来实现最先进的结果。然而,视觉变压器在提取局部特征方面的性能不如卷积神经网络的性能。因此,我们设计了一个名为PFT的基于部分特征变换器的人重新识别框架。所提出的PFT采用三个模块来提高视觉变压器的效率。 (1)补丁全维增强模块。我们设计一种具有与补丁序列相同的尺寸的学习张量,这是全维性和深度嵌入在补丁序列中,以丰富训练样本的多样性。 (2)融合与重建模块。我们提取获得的补丁序列的不太重要的部分,并用原始补丁序列融合它们以重建原始补丁序列。 (3)空间切片模块。从空间方向切片和组贴片序列,可以有效地提高贴片序列的短距离相关性。封闭和整体重新识别数据集的实验结果表明,所提出的PFT网络始终如一地实现了卓越的性能,优于最先进的方法。
translated by 谷歌翻译
卷积神经网络(CNN)已成为医疗图像分割任务的共识。但是,由于卷积操作的性质,它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题,但它们未能捕获低级功能。相比之下,证明本地和全球特征对于密集的预测至关重要,例如在具有挑战性的环境中细分。在本文中,我们提出了一种新型方法,该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言,我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合,我们建议在编码器编码器结构的跳过连接中提出一个双层融合(DLF)模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的,基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取:https://github.com/amirhossein-kz/hiformer
translated by 谷歌翻译
由于特定属性的定位不准确,监控场景中的行人属性识别仍然是一个具有挑战性的任务。在本文中,我们提出了一种基于注意力(VALA)的新型视图 - 属性定位方法,其利用查看信息来指导识别过程,专注于对特定属性对应区域的特定属性和注意机制。具体地,查看信息由视图预测分支利用,以生成四个视图权重,表示来自不同视图的属性的信心。然后将视图重量交付回撰写以撰写特定的视图属性,该属性将参与和监督深度特征提取。为了探索视图属性的空间位置,引入区域关注来聚合空间信息并编码视图特征的通道间依赖性。随后,特定于细小的特定属性特定区域是本地化的,并且通过区域关注获得了来自不同空间位置的视图属性的区域权重。通过将视图权重与区域权重组合来获得最终视图 - 属性识别结果。在三个宽数据集(RAP,RAPV2和PA-100K)上的实验证明了与最先进的方法相比我们的方法的有效性。
translated by 谷歌翻译
RGB-thermal显着对象检测(RGB-T SOD)旨在定位对齐可见的和热红外图像对的共同突出对象,并准确地分割所有属于这些对象的像素。由于对热图像的照明条件不敏感,它在诸如夜间和复杂背景之类的具有挑战性的场景中很有希望。因此,RGB-T SOD的关键问题是使两种方式的功能相互补充并互相调整,因为不可避免的是,由于极端光条件和诸如极端光条件和诸如极端光明条件和热跨界。在本文中,我们提出了一个针对RGB-T SOD的新型镜子互补变压器网络(MCNET)。具体而言,我们将基于变压器的特征提取模块引入RGB和热图像的有效提取分层特征。然后,通过基于注意力的特征相互作用和基于串行的多尺度扩张卷积(SDC)特征融合模块,提出的模型实现了低级特征的互补相互作用以及深度特征的语义融合。最后,基于镜子互补结构,即使是一种模态也可以准确地提取两种方式的显着区域也是无效的。为了证明在现实世界中具有挑战性的场景下提出的模型的鲁棒性,我们基于自动驾驶域中使用的大型公共语义分段RGB-T数据集建立了一种新颖的RGB-T SOD数据集VT723。基准和VT723数据集上的昂贵实验表明,所提出的方法优于最先进的方法,包括基于CNN的方法和基于变压器的方法。该代码和数据集将在稍后在https://github.com/jxr326/swinmcnet上发布。
translated by 谷歌翻译
面部超分辨率(FSR),也称为面部幻觉,其旨在增强低分辨率(LR)面部图像以产生高分辨率(HR)面部图像的分辨率,是特定于域的图像超分辨率问题。最近,FSR获得了相当大的关注,并目睹了深度学习技术的发展炫目。迄今为止,有很少有基于深入学习的FSR的研究摘要。在本次调查中,我们以系统的方式对基于深度学习的FSR方法进行了全面审查。首先,我们总结了FSR的问题制定,并引入了流行的评估度量和损失功能。其次,我们详细说明了FSR中使用的面部特征和流行数据集。第三,我们根据面部特征的利用大致分类了现有方法。在每个类别中,我们从设计原则的一般描述开始,然后概述代表方法,然后讨论其中的利弊。第四,我们评估了一些最先进的方法的表现。第五,联合FSR和其他任务以及与FSR相关的申请大致介绍。最后,我们设想了这一领域进一步的技术进步的前景。在\ URL {https://github.com/junjun-jiang/face-hallucination-benchmark}上有一个策划的文件和资源的策划文件和资源清单
translated by 谷歌翻译
图像垫是指从自然图像中预测未知前景区域的α值。先前的方法集中在传播已知区域到未知区域的α值。但是,并非所有自然图像都有特别已知的前景。透明物体(例如玻璃,烟雾,网络等)的图像具有较少或没有已知的前景图像。在本文中,我们提出了一个基于变压器的网络传输,以模拟具有大型接收场的透明对象。具体而言,我们将三个可学习的三动物重新设计为将先进的语义特征引入自我发项机制。提出了一个小型的卷积网络,以利用全局功能和非背景掩码来指导从编码器到解码器的多尺度特征传播,以维护透明对象的上下文。此外,我们创建了具有小型已知前景区域的透明物体的高分辨率垫子数据集。在几个基准基准上进行的实验证明了我们提出的方法比当前最新方法的优越性。
translated by 谷歌翻译
盲面修复(BFR)旨在从相应的低质量(LQ)输入中构建高质量(HQ)面部图像。最近,已经提出了许多BFR方法,并取得了杰出的成功。但是,这些方法经过私人合成的数据集进行了培训或评估,这使得与后续方法相比的方法是不可行的。为了解决这个问题,我们首先合成两个称为EDFEACE-CELEB-1M(BFR128)和EDFACE-CELEB-150K(BFR512)的盲面恢复基准数据集。在五个设置下,将最先进的方法在它们的五个设置下进行了基准测试,包括模糊,噪声,低分辨率,JPEG压缩伪像及其组合(完全退化)。为了使比较更全面,应用了五个广泛使用的定量指标和两个任务驱动的指标,包括平均面部标志距离(AFLD)和平均面部ID余弦相似性(AFICS)。此外,我们开发了一个有效的基线模型,称为Swin Transformer U-NET(昏迷)。带有U-NET体系结构的昏迷器应用了注意机制和移动的窗口方案,以捕获远程像素相互作用,并更多地关注重要功能,同时仍受到有效训练。实验结果表明,所提出的基线方法对各种BFR任务的SOTA方法表现出色。
translated by 谷歌翻译
尽管近年来人的重新识别取得了令人印象深刻的改善,但在实际应用程序场景中,由不同的障碍引起的常见闭塞案例仍然是一个不稳定的问题。现有方法主要通过采用额外网络提供的身体线索来区分可见部分,以解决此问题。然而,助理模型和REID数据集之间的不可避免的域间隙极大地增加了获得有效和有效模型的困难。为了摆脱额外的预训练网络并在端到端可训练网络中实现自动对齐,我们根据两个不言而喻的先验知识提出了一种新型的动态原型掩码(DPM)。具体而言,我们首先设计了一个层次蒙版生成器,该层面生成器利用层次的语义选择高质量的整体原型和闭塞输入图像的特征表示之间的可见图案空间。在这种情况下,可以自发地在选定的子空间中很好地对齐。然后,为了丰富高质量整体原型的特征表示并提供更完整的特征空间,我们引入了一个头部丰富模块,以鼓励不同的头部在整个图像中汇总不同的模式表示。对被遮挡和整体人员重新识别基准进行的广泛的实验评估证明了DPM优于最先进的方法。该代码在https://github.com/stone96123/dpm上发布。
translated by 谷歌翻译
在过去的几年中,卷积神经网络(CNN),尤其是U-NET,一直是医学图像处理时代的流行技术。具体而言,开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是,这些体系结构在本质上是不完美的,因为它们无法表现出长距离相互作用和空间依赖性,从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构,以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计,但利用纯变压器来进行图像分割目的,可能导致限制的定位容量,导致低级功能不足。因此,一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中,我们提出了Trans-Norm,这是一种新型的深层分割框架,它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为,跳过连接的方便设计对于准确的分割至关重要,因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面,我们从变压器模块中得出了一种空间归一化机制,以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验,证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。
translated by 谷歌翻译
图像中的场景细分是视觉内容理解中的一个基本而又具有挑战性的问题,即学习一个模型,将每个图像像素分配给分类标签。这项学习任务的挑战之一是考虑空间和语义关系以获得描述性特征表示,因此从多个量表中学习特征图是场景细分中的一种常见实践。在本文中,我们探讨了在多尺度图像窗口中自我发挥的有效使用来学习描述性视觉特征,然后提出三种不同的策略来汇总这些特征图以解码特征表示形式以进行密集的预测。我们的设计基于最近提出的SWIN Transformer模型,该模型完全放弃了卷积操作。借助简单而有效的多尺度功能学习和聚合,我们的模型在四个公共场景细分数据集,Pascal VOC2012,Coco-STUFF 10K,ADE20K和CITYSCAPES上实现了非常有希望的性能。
translated by 谷歌翻译
人类识别是事件检测,人跟踪和公共安全的重要课题。有许多方法提出了人类识别,例如面部识别,人重新识别和步态识别。通常,现有方法主要将查询图像分类为图像库集合(I2i)中的特定标识。这对场景非常有限,其中仅在广泛的视频监控应用程序(A2i或I2a)中提供了查询或属性库集合的文本描述。然而,非常少量的努力已经致力于无模式识别,即,以可扩展的方式识别在库中设置的查询。在这项工作中,我们采取初步尝试,并以可扩展的方式制定这样一种新的无模式人类识别(命名为MFHI)任务作为通用零射击学习模型。同时,它能够通过学习每个身份的鉴别性原型来弥合视觉和语义模态。此外,在视觉模型上强制执行语义引导的空间注意,以获得具有高全局类别级和本地属性级别辨别的表示。最后,我们在两个共同挑战的识别任务中设计和开展广泛的实验,包括面部识别和人员重新识别,证明我们的方法优于一种在无模式人体识别方面的各种最先进的方法。
translated by 谷歌翻译
场景分类已确定为一个具有挑战性的研究问题。与单个对象的图像相比,场景图像在语义上可能更为复杂和抽象。它们的差异主要在于识别的粒度水平。然而,图像识别是场景识别良好表现的关键支柱,因为从对象图像中获得的知识可用于准确识别场景。现有场景识别方法仅考虑场景的类别标签。但是,我们发现包含详细的本地描述的上下文信息也有助于允许场景识别模型更具歧视性。在本文中,我们旨在使用对象中编码的属性和类别标签信息来改善场景识别。基于属性和类别标签的互补性,我们提出了一个多任务属性识别识别(MASR)网络,该网络学习一个类别嵌入式,同时预测场景属性。属性采集和对象注释是乏味且耗时的任务。我们通过提出部分监督的注释策略来解决该问题,其中人类干预大大减少。该策略为现实世界情景提供了更具成本效益的解决方案,并且需要减少注释工作。此外,考虑到对象检测到的分数所指示的重要性水平,我们重新进行了权威预测。使用提出的方法,我们有效地注释了四个大型数据集的属性标签,并系统地研究场景和属性识别如何相互受益。实验结果表明,与最先进的方法相比
translated by 谷歌翻译
盲人恢复通常会遇到各种规模的面孔输入,尤其是在现实世界中。但是,当前的大多数作品都支持特定的规模面,这限制了其在现实情况下的应用能力。在这项工作中,我们提出了一个新颖的尺度感知盲人面部修复框架,名为FaceFormer,该框架将面部特征恢复作为比例感知转换。所提出的面部特征上采样(FFUP)模块基于原始的比例比例动态生成UPSMPLING滤波器,这有助于我们的网络适应任意面部尺度。此外,我们进一步提出了面部特征嵌入(FFE)模块,该模块利用变压器来层次提取面部潜在的多样性和鲁棒性。因此,我们的脸部形式实现了富裕性和稳健性,恢复了面部的面孔,对面部成分具有现实和对称的细节。广泛的实验表明,我们提出的使用合成数据集训练的方法比当前的最新图像更好地推广到天然低质量的图像。
translated by 谷歌翻译