不同的人以不同的方式衰老。为每个人学习个性化的年龄估计器是年龄估计的有前途的方向,因为它可以更好地建模衰老过程的个性化。但是,由于高级要求,大多数现有的个性化方法都缺乏大规模数据集:身份标签和足够的样本使每个人形成长期衰老模式。在本文中,我们旨在学习没有上述要求的个性化年龄估计量,并提出一种元学习方法,称为年龄估计。与大多数现有的个性化方法不同,这些方法学习了培训集中每个人的个性化估计器的参数,我们的方法将映射从身份信息到年龄估计器参数学习。具体而言,我们引入了个性化的估算器元学习器,该估计量元学习器将身份功能作为输入并输出定制估算器的参数。这样,我们的方法就可以学习元知识而没有上述要求,并无缝将学习的元知识转移到测试集中,这使我们能够利用现有的大规模年龄数据集,而无需任何其他注释。在包括Morph II,Chalearn Lap 2015和Chalearn Lap 2016数据库在内的三个基准数据集上进行的大量实验结果表明,我们的元大大提高了现有的个性化方法的性能,并优于最先进的方法。
translated by 谷歌翻译
使用卷积神经网络,面部属性(例如,年龄和吸引力)估算性能得到了大大提高。然而,现有方法在培训目标和评估度量之间存在不一致,因此它们可能是次优。此外,这些方法始终采用具有大量参数的图像分类或面部识别模型,其携带昂贵的计算成本和存储开销。在本文中,我们首先分析了两种最新方法(排名CNN和DLDL)之间的基本关系,并表明排名方法实际上是隐含的学习标签分布。因此,该结果首先将两个现有的最新方法统一到DLDL框架中。其次,为了减轻不一致和降低资源消耗,我们设计了一种轻量级网络架构,并提出了一个统一的框架,可以共同学习面部属性分发和回归属性值。在面部年龄和吸引力估算任务中都证明了我们的方法的有效性。我们的方法使用单一模型实现新的最先进的结果,使用36美元\倍,参数减少3美元,在面部年龄/吸引力估算上的推动速度为3美元。此外,即使参数的数量进一步降低到0.9m(3.8MB磁盘存储),我们的方法也可以实现与最先进的结果。
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
图像的美学质量被定义为图像美的度量或欣赏。美学本质上是一个主观性的财产,但是存在一些影响它的因素,例如图像的语义含量,描述艺术方面的属性,用于射击的摄影设置等。在本文中,我们提出了一种方法基于语义含量分析,艺术风格和图像的组成的图像自动预测图像的美学。所提出的网络包括:用于语义特征的预先训练的网络,提取(骨干网);依赖于骨干功能的多层的Perceptron(MLP)网络,用于预测图像属性(attributeNet);一种自适应的HyperNetwork,可利用以前编码到attributeNet生成的嵌入的属性以预测专用于美学估计的目标网络的参数(AestheticNet)。鉴于图像,所提出的多网络能够预测:风格和组成属性,以及美学分数分布。结果三个基准数据集展示了所提出的方法的有效性,而消融研究则更好地了解所提出的网络。
translated by 谷歌翻译
随着卷积神经网络(CNNS)的普及日益普及,最近的面部年龄估计的作品雇用这些网络作为骨干。然而,最先进的基于CNN的方法同样地治疗每个面部区域,从而完全忽略了一些可能包含富年龄信息的面部斑块的重要性。在本文中,我们提出了一种基于面部的年龄估计框架,称为关注的动态补丁融合(ADPF)。在ADPF中,实现了两个单独的CNN,即IpperenceNet和FusionNet。 EpperenceNet通过采用新的排名引导的多头混合注意力(RMHHA)机制来动态定位并排名特定年龄的补丁。 FusionNet使用发现的补丁以及面部图像来预测主题的年龄。由于提出的RMHA机制根据其重要性排名发现的补丁,因此FusionNet中的每个补丁的学习路径的长度与其携带的信息量成比例(较长,更重要的)。 ADPF还介绍了一种新颖的多样性损失,以指导IppectionNet的培训,并减少补丁中的重叠,以便发现多样化和重要的补丁。通过广泛的实验,我们表明我们所提出的框架优于几个年龄估计基准数据集的最先进的方法。
translated by 谷歌翻译
最近,由于受监督人员重新识别(REID)的表现不佳,域名概括(DG)人REID引起了很多关注,旨在学习一个不敏感的模型,并可以抵抗域的影响偏见。在本文中,我们首先通过实验验证样式因素是域偏差的重要组成部分。基于这个结论,我们提出了一种样式变量且无关紧要的学习方法(SVIL)方法,以消除样式因素对模型的影响。具体来说,我们在SVIL中设计了样式的抖动模块(SJM)。 SJM模块可以丰富特定源域的样式多样性,并减少各种源域的样式差异。这导致该模型重点关注与身份相关的信息,并对样式变化不敏感。此外,我们将SJM模块与元学习算法有机结合,从而最大程度地提高了好处并进一步提高模型的概括能力。请注意,我们的SJM模块是插件和推理,无需成本。广泛的实验证实了我们的SVIL的有效性,而我们的方法的表现优于DG-REID基准测试的最先进方法。
translated by 谷歌翻译
Facial attractiveness prediction (FAP) aims to assess the facial attractiveness automatically based on human aesthetic perception. Previous methods using deep convolutional neural networks have boosted the performance, but their giant models lead to a deficiency in flexibility. Besides, most of them fail to take full advantage of the dataset. In this paper, we present a novel end-to-end FAP approach integrating dual label distribution and lightweight design. To make the best use of the dataset, the manual ratings, attractiveness score, and standard deviation are aggregated explicitly to construct a dual label distribution, including the attractiveness distribution and the rating distribution. Such distributions, as well as the attractiveness score, are optimized under a joint learning framework based on the label distribution learning (LDL) paradigm. As for the lightweight design, the data processing is simplified to minimum, and MobileNetV2 is selected as our backbone. Extensive experiments are conducted on two benchmark datasets, where our approach achieves promising results and succeeds in striking a balance between performance and efficiency. Ablation studies demonstrate that our delicately designed learning modules are indispensable and correlated. Additionally, the visualization indicates that our approach is capable of perceiving facial attractiveness and capturing attractive facial regions to facilitate semantic predictions.
translated by 谷歌翻译
很少有图像分类是一个具有挑战性的问题,旨在仅基于少量培训图像来达到人类的识别水平。少数图像分类的一种主要解决方案是深度度量学习。这些方法是,通过将看不见的样本根据距离的距离进行分类,可在强大的深神经网络中学到的嵌入空间中看到的样品,可以避免以少数图像分类的少数训练图像过度拟合,并实现了最新的图像表现。在本文中,我们提供了对深度度量学习方法的最新审查,以进行2018年至2022年的少量图像分类,并根据度量学习的三个阶段将它们分为三组,即学习功能嵌入,学习课堂表示和学习距离措施。通过这种分类法,我们确定了他们面临的不同方法和问题的新颖性。我们通过讨论当前的挑战和未来趋势进行了少量图像分类的讨论。
translated by 谷歌翻译
异质的面部识别(HFR)旨在匹配不同域(例如,可见到近红外图像)的面孔,该面孔已被广泛应用于身份验证和取证方案。但是,HFR是一个具有挑战性的问题,因为跨域差异很大,异质数据对有限和面部属性变化很大。为了应对这些挑战,我们从异质数据增强的角度提出了一种新的HFR方法,该方法称为面部合成,具有身份 - 属性分解(FSIAD)。首先,身份属性分解(IAD)将图像截取到与身份相关的表示和与身份无关的表示(称为属性)中,然后降低身份和属性之间的相关性。其次,我们设计了一个面部合成模块(FSM),以生成大量具有分离的身份和属性的随机组合的图像,以丰富合成图像的属性多样性。原始图像和合成图像均被用于训练HFR网络,以应对挑战并提高HFR的性能。在五个HFR数据库上进行的广泛实验验证了FSIAD的性能比以前的HFR方法更高。特别是,FSIAD以vr@far = 0.01%在LAMP-HQ上获得了4.8%的改善,这是迄今为止最大的HFR数据库。
translated by 谷歌翻译
Recent methods for deep metric learning have been focusing on designing different contrastive loss functions between positive and negative pairs of samples so that the learned feature embedding is able to pull positive samples of the same class closer and push negative samples from different classes away from each other. In this work, we recognize that there is a significant semantic gap between features at the intermediate feature layer and class labels at the final output layer. To bridge this gap, we develop a contrastive Bayesian analysis to characterize and model the posterior probabilities of image labels conditioned by their features similarity in a contrastive learning setting. This contrastive Bayesian analysis leads to a new loss function for deep metric learning. To improve the generalization capability of the proposed method onto new classes, we further extend the contrastive Bayesian loss with a metric variance constraint. Our experimental results and ablation studies demonstrate that the proposed contrastive Bayesian metric learning method significantly improves the performance of deep metric learning in both supervised and pseudo-supervised scenarios, outperforming existing methods by a large margin.
translated by 谷歌翻译
人重新识别(RE-ID)是视频监视系统中的一项关键技术,在监督环境中取得了重大成功。但是,由于可用源域和看不见的目标域之间的域间隙,很难将监督模型直接应用于任意看不见的域。在本文中,我们提出了一种新颖的标签分布学习(LDL)方法,以解决可推广的多源人员重新ID任务(即,有多个可用的源域,并且在培训期间看不到测试域),旨在旨在探索不同类别的关系,并减轻跨不同域的域转移,以改善模型的歧视并同时学习域不变特征。具体而言,在培训过程中,我们通过在线方式生产标签分布来挖掘不同类别的关系信息,因此它有益于提取判别特征。此外,对于每个类别的标签分布,我们进一步对其进行了修改,以更多和同等的关注该类不属于的其他域,这可以有效地减少跨不同域的域间隙并获得域不变特征。此外,我们还提供了理论分析,以证明所提出的方法可以有效地处理域转移问题。在多个基准数据集上进行的广泛实验验证了所提出的方法的有效性,并表明所提出的方法可以胜过最先进的方法。此外,进一步的分析还揭示了所提出的方法的优越性。
translated by 谷歌翻译
少量学习是一个基本和挑战性的问题,因为它需要识别只有几个例子的新型类别。识别对象具有多个变体,可以定位图像中的任何位置。直接将查询图像与示例图像进行比较无法处理内容未对准。比较的表示和度量是至关重要的,但由于在几次拍摄学习中的样本的稀缺和广泛变化而挑战。在本文中,我们提出了一种新颖的语义对齐模型来比较关系,这是对内容未对准的强大。我们建议为现有的几次射门学习框架添加两个关键成分,以获得更好的特征和度量学习能力。首先,我们介绍了语义对齐损失,以对准属于同一类别的样本的功能的关系统计。其次,引入了本地和全局互动信息,允许在图像中的结构位置包含本地一致和类别共享信息的表示。第三,我们通过考虑每个流的同性恋的不确定性来介绍一个原则的方法来称量多重损失功能。我们对几个几次拍摄的学习数据集进行了广泛的实验。实验结果表明,该方法能够比较与语义对准策略的关系,实现最先进的性能。
translated by 谷歌翻译
少量学习,特别是几秒钟的图像分类,近年来受到了越来越多的关注,并目睹了重大进展。最近的一些研究暗示表明,许多通用技术或“诀窍”,如数据增强,预训练,知识蒸馏和自我监督,可能大大提高了几次学习方法的性能。此外,不同的作品可以采用不同的软件平台,不同的训练计划,不同的骨干架构以及甚至不同的输入图像大小,使得公平的比较困难,从业者与再现性斗争。为了解决这些情况,通过在Pytorch中的同一单个代码库中重新实施17个最新的框架,提出了几次射门学习(Libfewshot)的全面图书馆。此外,基于libfewshot,我们提供多个基准数据集的全面评估,其中包含多个骨干架构,以评估不同培训技巧的常见缺陷和效果。此外,鉴于近期对必要性或未培训机制的必要性怀疑,我们的评估结果表明,特别是当与预训练相结合时,仍然需要这种机制。我们希望我们的工作不仅可以降低初学者的障碍,可以在几次学习上工作,而且还消除了非动力技巧的影响,促进了几枪学习的内在研究。源代码可从https://github.com/rl-vig/libfewshot获取。
translated by 谷歌翻译
在本文中,我们通过利用全新监督学习来推进面部表情识别(FER)的表现。本领域技术的当前状态通常旨在通过具有有限数量的样本的培训模型来识别受控环境中的面部表达。为了增强学习模型的各种场景的稳健性,我们建议通过利用标记的样本以及大量未标记的数据来执行全能监督学习。特别是,我们首先使用MS-CeleB-1M作为面部池,其中包括大约5,822k未标记的面部图像。然后,采用基于少量标记样品的原始模型来通过进行基于特征的相似性比较来选择具有高度自信心的样本。我们发现以这种全局监督方式构建的新数据集可以显着提高学习的FER模型的泛化能力,并因此提高了性能。然而,随着使用更多的训练样本,需要更多的计算资源和培训时间,在许多情况下通常不能实惠。为了减轻计算资源的要求,我们进一步采用了数据集蒸馏策略,以将目标任务相关知识从新的开采样本中蒸馏,并将其压缩成一组非常小的图像。这种蒸馏的数据集能够提高FER的性能,额外的额外计算成本。我们在五个流行的基准和新构造的数据集中执行广泛的实验,其中可以使用所提出的框架在各种设置下实现一致的收益。我们希望这项工作作为一个坚实的基线,并帮助缓解FER的未来研究。
translated by 谷歌翻译
场景分类已确定为一个具有挑战性的研究问题。与单个对象的图像相比,场景图像在语义上可能更为复杂和抽象。它们的差异主要在于识别的粒度水平。然而,图像识别是场景识别良好表现的关键支柱,因为从对象图像中获得的知识可用于准确识别场景。现有场景识别方法仅考虑场景的类别标签。但是,我们发现包含详细的本地描述的上下文信息也有助于允许场景识别模型更具歧视性。在本文中,我们旨在使用对象中编码的属性和类别标签信息来改善场景识别。基于属性和类别标签的互补性,我们提出了一个多任务属性识别识别(MASR)网络,该网络学习一个类别嵌入式,同时预测场景属性。属性采集和对象注释是乏味且耗时的任务。我们通过提出部分监督的注释策略来解决该问题,其中人类干预大大减少。该策略为现实世界情景提供了更具成本效益的解决方案,并且需要减少注释工作。此外,考虑到对象检测到的分数所指示的重要性水平,我们重新进行了权威预测。使用提出的方法,我们有效地注释了四个大型数据集的属性标签,并系统地研究场景和属性识别如何相互受益。实验结果表明,与最先进的方法相比
translated by 谷歌翻译
对象通常与多个属性相关联,这些属性通常显示出很高的相关性。建模属性之间的复杂关系为多属性学习带来了巨大的挑战。本文提出了一个名为label2label的简单而通用的框架,以利用复杂的属性相关性。 Label2Label是从语言建模的角度来进行多属性预测的首次尝试。具体而言,它将每个属性标签视为描述样本的“单词”。当每个样本带有多个属性标签注释时,这些“单词”自然会形成无序但有意义的“句子”,该句子描述了相应样本的语义信息。受到NLP预训练语言模型的显着成功的启发,Label2Label引入了图像条件的掩盖语言模型,该模型随机掩盖了标签“句子”中的一些“单词”令牌,并旨在基于“蒙版”恢复它们。句子和图像特征传达的上下文。我们的直觉是,如果神经网可以根据上下文和其余属性提示推断丢失的属性,那么实例的属性关系就会得到很好的掌握。 Label2Label在概念上是简单且经验强大的。与高度自定义的特定领域方法相比,我们的方法在不融合特定于任务的先验知识和高度专业的网络设计的情况下,在三个不同的多属性学习任务上获得了最新的结果。代码可从https://github.com/li-wanhua/label2label获得。
translated by 谷歌翻译
最近,深层回归森林(如深)差异模型(DDMS),最近已经广泛研究了面部年龄估计,头部姿势估计,凝视估计等问题。这些问题部分是挑战,因为没有噪声和偏差的大量有效培训数据通常不可用。虽然通过学习更具歧视特征或重新重量样本来实现的一些进展,但我们认为更可取的是逐渐学习以歧视人类。然后,我们诉诸自行节奏的学习(SPL)。但是,出现了自然问题:可以自花奏的政权引导DDMS实现更强大,偏差的解决方案吗? SPL的严重问题是通过这项工作首先讨论的,是倾向于加剧解决方案的偏差,特别是对于明显的不平衡数据。为此,本文提出了一种新的自定位范例,用于深鉴别模型,这根据与每个示例相关的产出似然和熵区分噪声和不足的例子,并从新的视角下解决SECT中的基本排名问题:公平性。此范例是根本的,可以轻松地与各种DDMS结合。在三个计算机视觉任务中进行了广泛的实验,例如面部年龄估计,头部姿态估计和凝视估计,证明了我们的范式的功效。据我们所知,我们的作品是SPL的文献中的第一篇论文,以为自我节奏政权建设的排名公平。
translated by 谷歌翻译
长期以来,面部识别一直是人工智能领域的一个积极研究领域,尤其是自近年来深度学习的兴起以来。在某些实际情况下,每个身份只有一个可以培训的样本。在这种情况下的面部识别被称为单个样本识别,并对深层模型的有效培训构成了重大挑战。因此,近年来,研究人员试图释放更多的深度学习潜力,并在单个样本情况下提高模型识别性能。尽管已经对传统的单个样本面部识别方法进行了几项全面的调查,但这些评论很少涉及新兴的基于深度学习的方法。因此,我们将重点放在本文中的基于深度学习的方法上,将其分类为虚拟示例方法和通用学习方法。在前一种类别中,生成虚拟图像或虚拟特征以使深层模型的训练受益。在后者中,使用了其他多样本通用集。通用学习方法有三种类型:结合传统方法和深度特征,改善损失功能并改善网络结构,所有这些都涵盖了我们的分析。此外,我们回顾了通常用于评估单个样本面部识别模型的面部数据集,并继续比较不同类型的模型的结果。此外,我们讨论了现有的单个样本面部识别方法的问题,包括虚拟样本方法中的身份信息保存,通用学习方法中的域适应性。此外,我们认为开发无监督的方法是一个有希望的未来方向,并指出语义差距是需要进一步考虑的重要问题。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译