最近,深层回归森林(如深)差异模型(DDMS),最近已经广泛研究了面部年龄估计,头部姿势估计,凝视估计等问题。这些问题部分是挑战,因为没有噪声和偏差的大量有效培训数据通常不可用。虽然通过学习更具歧视特征或重新重量样本来实现的一些进展,但我们认为更可取的是逐渐学习以歧视人类。然后,我们诉诸自行节奏的学习(SPL)。但是,出现了自然问题:可以自花奏的政权引导DDMS实现更强大,偏差的解决方案吗? SPL的严重问题是通过这项工作首先讨论的,是倾向于加剧解决方案的偏差,特别是对于明显的不平衡数据。为此,本文提出了一种新的自定位范例,用于深鉴别模型,这根据与每个示例相关的产出似然和熵区分噪声和不足的例子,并从新的视角下解决SECT中的基本排名问题:公平性。此范例是根本的,可以轻松地与各种DDMS结合。在三个计算机视觉任务中进行了广泛的实验,例如面部年龄估计,头部姿态估计和凝视估计,证明了我们的范式的功效。据我们所知,我们的作品是SPL的文献中的第一篇论文,以为自我节奏政权建设的排名公平。
translated by 谷歌翻译
不同的人以不同的方式衰老。为每个人学习个性化的年龄估计器是年龄估计的有前途的方向,因为它可以更好地建模衰老过程的个性化。但是,由于高级要求,大多数现有的个性化方法都缺乏大规模数据集:身份标签和足够的样本使每个人形成长期衰老模式。在本文中,我们旨在学习没有上述要求的个性化年龄估计量,并提出一种元学习方法,称为年龄估计。与大多数现有的个性化方法不同,这些方法学习了培训集中每个人的个性化估计器的参数,我们的方法将映射从身份信息到年龄估计器参数学习。具体而言,我们引入了个性化的估算器元学习器,该估计量元学习器将身份功能作为输入并输出定制估算器的参数。这样,我们的方法就可以学习元知识而没有上述要求,并无缝将学习的元知识转移到测试集中,这使我们能够利用现有的大规模年龄数据集,而无需任何其他注释。在包括Morph II,Chalearn Lap 2015和Chalearn Lap 2016数据库在内的三个基准数据集上进行的大量实验结果表明,我们的元大大提高了现有的个性化方法的性能,并优于最先进的方法。
translated by 谷歌翻译
使用卷积神经网络,面部属性(例如,年龄和吸引力)估算性能得到了大大提高。然而,现有方法在培训目标和评估度量之间存在不一致,因此它们可能是次优。此外,这些方法始终采用具有大量参数的图像分类或面部识别模型,其携带昂贵的计算成本和存储开销。在本文中,我们首先分析了两种最新方法(排名CNN和DLDL)之间的基本关系,并表明排名方法实际上是隐含的学习标签分布。因此,该结果首先将两个现有的最新方法统一到DLDL框架中。其次,为了减轻不一致和降低资源消耗,我们设计了一种轻量级网络架构,并提出了一个统一的框架,可以共同学习面部属性分发和回归属性值。在面部年龄和吸引力估算任务中都证明了我们的方法的有效性。我们的方法使用单一模型实现新的最先进的结果,使用36美元\倍,参数减少3美元,在面部年龄/吸引力估算上的推动速度为3美元。此外,即使参数的数量进一步降低到0.9m(3.8MB磁盘存储),我们的方法也可以实现与最先进的结果。
translated by 谷歌翻译
随着卷积神经网络(CNNS)的普及日益普及,最近的面部年龄估计的作品雇用这些网络作为骨干。然而,最先进的基于CNN的方法同样地治疗每个面部区域,从而完全忽略了一些可能包含富年龄信息的面部斑块的重要性。在本文中,我们提出了一种基于面部的年龄估计框架,称为关注的动态补丁融合(ADPF)。在ADPF中,实现了两个单独的CNN,即IpperenceNet和FusionNet。 EpperenceNet通过采用新的排名引导的多头混合注意力(RMHHA)机制来动态定位并排名特定年龄的补丁。 FusionNet使用发现的补丁以及面部图像来预测主题的年龄。由于提出的RMHA机制根据其重要性排名发现的补丁,因此FusionNet中的每个补丁的学习路径的长度与其携带的信息量成比例(较长,更重要的)。 ADPF还介绍了一种新颖的多样性损失,以指导IppectionNet的培训,并减少补丁中的重叠,以便发现多样化和重要的补丁。通过广泛的实验,我们表明我们所提出的框架优于几个年龄估计基准数据集的最先进的方法。
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
Facial attractiveness prediction (FAP) aims to assess the facial attractiveness automatically based on human aesthetic perception. Previous methods using deep convolutional neural networks have boosted the performance, but their giant models lead to a deficiency in flexibility. Besides, most of them fail to take full advantage of the dataset. In this paper, we present a novel end-to-end FAP approach integrating dual label distribution and lightweight design. To make the best use of the dataset, the manual ratings, attractiveness score, and standard deviation are aggregated explicitly to construct a dual label distribution, including the attractiveness distribution and the rating distribution. Such distributions, as well as the attractiveness score, are optimized under a joint learning framework based on the label distribution learning (LDL) paradigm. As for the lightweight design, the data processing is simplified to minimum, and MobileNetV2 is selected as our backbone. Extensive experiments are conducted on two benchmark datasets, where our approach achieves promising results and succeeds in striking a balance between performance and efficiency. Ablation studies demonstrate that our delicately designed learning modules are indispensable and correlated. Additionally, the visualization indicates that our approach is capable of perceiving facial attractiveness and capturing attractive facial regions to facilitate semantic predictions.
translated by 谷歌翻译
面姿势估计是指通过单个RGB图像预测面部取向的任务。这是一个重要的研究主题,在计算机视觉中具有广泛的应用。最近已经提出了基于标签的分布学习(LDL)方法进行面部姿势估计,从而实现了有希望的结果。但是,现有的LDL方法有两个主要问题。首先,标签分布的期望是偏见的,导致姿势估计。其次,将固定的分布参数用于所有学习样本,严重限制了模型能力。在本文中,我们提出了一种各向异性球形高斯(ASG)的LDL方法进行面部姿势估计。特别是,我们的方法在单位球体上采用了球形高斯分布,该分布不断产生公正的期望。同时,我们引入了一个新的损失功能,该功能使网络可以灵活地学习每个学习样本的分布参数。广泛的实验结果表明,我们的方法在AFLW2000和BIWI数据集上设置了新的最新记录。
translated by 谷歌翻译
可以通过对手动预定义目标的监督(例如,一hot或Hadamard代码)进行深入的表示学习来解决细粒度的视觉分类。这种目标编码方案对于模型间相关性的灵活性较小,并且对稀疏和不平衡的数据分布也很敏感。鉴于此,本文介绍了一种新颖的目标编码方案 - 动态目标关系图(DTRG),作为辅助特征正则化,是一个自生成的结构输出,可根据输入图像映射。具体而言,类级特征中心的在线计算旨在在表示空间中生成跨类别距离,因此可以通过非参数方式通过动态图来描绘。明确最大程度地减少锚定在这些级别中心的阶层内特征变化可以鼓励学习判别特征。此外,由于利用了类间的依赖性,提出的目标图可以减轻代表学习中的数据稀疏性和不稳定。受混合风格数据增强的最新成功的启发,本文将随机性引入了动态目标关系图的软结构,以进一步探索目标类别的关系多样性。实验结果可以证明我们方法对多个视觉分类任务的许多不同基准的有效性,尤其是在流行的细粒对象基准上实现最先进的性能以及针对稀疏和不平衡数据的出色鲁棒性。源代码可在https://github.com/akonlau/dtrg上公开提供。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
In this paper, we investigate the problem of predictive confidence in face and kinship verification. Most existing face and kinship verification methods focus on accuracy performance while ignoring confidence estimation for their prediction results. However, confidence estimation is essential for modeling reliability in such high-risk tasks. To address this issue, we first introduce a novel yet simple confidence measure for face and kinship verification, which allows the verification models to transform the similarity score into a confidence score for a given face pair. We further propose a confidence-calibrated approach called angular scaling calibration (ASC). ASC is easy to implement and can be directly applied to existing face and kinship verification models without model modifications, yielding accuracy-preserving and confidence-calibrated probabilistic verification models. To the best of our knowledge, our approach is the first general confidence-calibrated solution to face and kinship verification in a modern context. We conduct extensive experiments on four widely used face and kinship verification datasets, and the results demonstrate the effectiveness of our approach.
translated by 谷歌翻译
最近的作品揭示了设计损失功能的基本范式,该损失功能与骨料损失不同。单个损失衡量样本上模型的质量,而总损失结合了每个训练样本的个体损失/分数。两者都有一个共同的过程,将一组单个值集合到单个数值值。排名顺序反映了设计损失时个人价值观之间最基本的关系。此外,可以将损失分解成单个术语的合奏的可分解性成为组织损失/得分的重要特性。这项调查对机器学习中的基于等级的可分解损失进行了系统的全面审查。具体而言,我们提供了损失功能的新分类法,遵循总损失和个人损失的观点。我们确定聚合器以形成此类损失,这是集合功能的示例。我们将基于等级的分解损失组织为八类。遵循这些类别,我们回顾有关基于等级的总损失和基于等级的个人损失的文献。我们描述了这些损失的一般公式,并将其与现有的研究主题联系起来。我们还建议未来的研究方向涵盖基于等级的可分解损失的未开发,剩余和新兴问题。
translated by 谷歌翻译
先前的工作表明,使用顺序学习者学习面部不同组成部分的顺序可以在面部表达识别系统的性能中发挥重要作用。我们提出了Facetoponet,这是面部表达识别的端到端深层模型,它能够学习面部有效的树拓扑。然后,我们的模型遍历学习的树以生成序列,然后将其用于形成嵌入以喂养顺序学习者。设计的模型采用一个流进行学习结构,并为学习纹理提供一个流。结构流着重于面部地标的位置,而纹理流的主要重点是在地标周围的斑块上学习纹理信息。然后,我们通过利用有效的基于注意力的融合策略来融合两个流的输出。我们对四个大型内部面部表达数据集进行了广泛的实验 - 即Alltionnet,FER2013,ExpW和RAF-DB,以及一个实验室控制的数据集(CK+)来评估我们的方法。 Facetoponet在五个数据集中的三个数据集中达到了最新的性能,并在其他两个数据集中获得了竞争结果。我们还执行严格的消融和灵敏度实验,以评估模型中不同组件和参数的影响。最后,我们执行鲁棒性实验,并证明与该地区其他领先方法相比,Facetoponet对阻塞更具稳健性。
translated by 谷歌翻译
深度学习在大量大数据的帮助下取得了众多域中的显着成功。然而,由于许多真实情景中缺乏高质量标签,数据标签的质量是一个问题。由于嘈杂的标签严重降低了深度神经网络的泛化表现,从嘈杂的标签(强大的培训)学习是在现代深度学习应用中成为一项重要任务。在本调查中,我们首先从监督的学习角度描述了与标签噪声学习的问题。接下来,我们提供62项最先进的培训方法的全面审查,所有这些培训方法都按照其方法论差异分为五个群体,其次是用于评估其优越性的六种性质的系统比较。随后,我们对噪声速率估计进行深入分析,并总结了通常使用的评估方法,包括公共噪声数据集和评估度量。最后,我们提出了几个有前途的研究方向,可以作为未来研究的指导。所有内容将在https://github.com/songhwanjun/awesome-noisy-labels提供。
translated by 谷歌翻译
在本文中,我们介绍了一种新的方法来估计从一小组头关键点开始的单个图像中的人们的头部姿势。为此目的,我们提出了一种回归模型,其利用2D姿势估计算法自动计算的关键点,并输出由偏航,间距和滚动表示的头部姿势。我们的模型很容易实现和更高效地相对于最先进的最新技术 - 在记忆占用方面的推动和更小的速度更快 - 具有可比的准确性。我们的方法还通过适当设计的损耗功能提供与三个角度相关的异源间不确定性的量度;我们在误差和不确定值之间显示了相关性,因此可以在后续计算步骤中使用这种额外的信息来源。作为示例申请,我们解决了图像中的社交交互分析:我们提出了一种算法,以定量估计人们之间的互动水平,从他们的头部姿势和推理在其相互阵地上。代码可在https://github.com/cantarinigiorgio/hhp-net中获得。
translated by 谷歌翻译
疾病预测是医学应用中的知名分类问题。 GCNS提供了一个强大的工具,用于分析患者相对于彼此的特征。这可以通过将问题建模作为图形节点分类任务来实现,其中每个节点是患者。由于这种医学数据集的性质,类别不平衡是疾病预测领域的普遍存在问题,其中类的分布是歪曲的。当数据中存在类别不平衡时,现有的基于图形的分类器倾向于偏向于主要类别并忽略小类中的样本。另一方面,所有患者中罕见阳性病例的正确诊断在医疗保健系统中至关重要。在传统方法中,通过将适当的权重分配给丢失函数中的类别来解决这种不平衡,这仍然依赖于对异常值敏感的权重的相对值,并且在某些情况下偏向于小类(ES)。在本文中,我们提出了一种重加权的对抗性图形卷积网络(RA-GCN),以防止基于图形的分类器强调任何特定类的样本。这是通过将基于图形的神经网络与每个类相关联来完成的,这负责加权类样本并改变分类器的每个样本的重要性。因此,分类器自身调节并确定类之间的边界,更加关注重要样本。分类器和加权网络的参数受到侵犯方法训练。我们在合成和三个公共医疗数据集上显示实验。与最近的方法相比,ra-gcn展示了与最近的方法在所有三个数据集上识别患者状态的方法相比。详细分析作为合成数据集的定量和定性实验提供。
translated by 谷歌翻译
大多数现有的最新视频分类方法假设训练数据遵守统一的分布。但是,现实世界中的视频数据通常会表现出不平衡的长尾巴分布,从而导致模型偏见对头等阶层,并且在尾巴上的性能相对较低。虽然当前的长尾分类方法通常集中在图像分类上,但将其调整到视频数据并不是微不足道的扩展。我们提出了一种端到端的多专家分布校准方法,以基于两级分布信息来应对这些挑战。该方法共同考虑了每个类别中样品的分布(类内部分布)和各种数据(类间分布)的总体分布,以解决在长尾分布下数据不平衡数据的问题。通过对两级分布信息进行建模,该模型可以共同考虑头等阶层和尾部类别,并将知识从头等阶层显着转移,以提高尾部类别的性能。广泛的实验验证了我们的方法是否在长尾视频分类任务上实现了最先进的性能。
translated by 谷歌翻译
Model bias triggered by long-tailed data has been widely studied. However, measure based on the number of samples cannot explicate three phenomena simultaneously: (1) Given enough data, the classification performance gain is marginal with additional samples. (2) Classification performance decays precipitously as the number of training samples decreases when there is insufficient data. (3) Model trained on sample-balanced datasets still has different biases for different classes. In this work, we define and quantify the semantic scale of classes, which is used to measure the feature diversity of classes. It is exciting to find experimentally that there is a marginal effect of semantic scale, which perfectly describes the first two phenomena. Further, the quantitative measurement of semantic scale imbalance is proposed, which can accurately reflect model bias on multiple datasets, even on sample-balanced data, revealing a novel perspective for the study of class imbalance. Due to the prevalence of semantic scale imbalance, we propose semantic-scale-balanced learning, including a general loss improvement scheme and a dynamic re-weighting training framework that overcomes the challenge of calculating semantic scales in real-time during iterations. Comprehensive experiments show that dynamic semantic-scale-balanced learning consistently enables the model to perform superiorly on large-scale long-tailed and non-long-tailed natural and medical datasets, which is a good starting point for mitigating the prevalent but unnoticed model bias.
translated by 谷歌翻译
量化监督学习模型的不确定性在制定更可靠的预测方面发挥着重要作用。认知不确定性,通常是由于对模型的知识不足,可以通过收集更多数据或精炼学习模型来减少。在过去的几年里,学者提出了许多认识的不确定性处理技术,这些技术可以大致分为两类,即贝叶斯和集合。本文对过去五年来提供了对监督学习的认识性不确定性学习技术的全面综述。因此,我们首先,将认知不确定性分解为偏见和方差术语。然后,介绍了认知不确定性学习技术以及其代表模型的分层分类。此外,提出了几种应用,例如计算机视觉(CV)和自然语言处理(NLP),然后讨论研究差距和可能的未来研究方向。
translated by 谷歌翻译
异构表格数据是最常用的数据形式,对于众多关键和计算要求的应用程序至关重要。在同质数据集上,深度神经网络反复显示出卓越的性能,因此被广泛采用。但是,它们适应了推理或数据生成任务的表格数据仍然具有挑战性。为了促进该领域的进一步进展,这项工作概述了表格数据的最新深度学习方法。我们将这些方法分为三组:数据转换,专业体系结构和正则化模型。对于每个小组,我们的工作提供了主要方法的全面概述。此外,我们讨论了生成表格数据的深度学习方法,并且还提供了有关解释对表格数据的深层模型的策略的概述。因此,我们的第一个贡献是解决上述领域中的主要研究流和现有方法,同时强调相关的挑战和开放研究问题。我们的第二个贡献是在传统的机器学习方法中提供经验比较,并在五个流行的现实世界中的十种深度学习方法中,具有不同规模和不同的学习目标的经验比较。我们已将作为竞争性基准公开提供的结果表明,基于梯度增强的树合奏的算法仍然大多在监督学习任务上超过了深度学习模型,这表明对表格数据的竞争性深度学习模型的研究进度停滞不前。据我们所知,这是对表格数据深度学习方法的第一个深入概述。因此,这项工作可以成为有价值的起点,以指导对使用表格数据深入学习感兴趣的研究人员和从业人员。
translated by 谷歌翻译
在基于视觉的辅助技术中,具有不同新兴主题的用例,例如增强现实,虚拟现实和人类计算机互动等不同的主题中的用例中,自动眼目光估计是一个重要问题。在过去的几年中,由于它克服了大规模注释的数据的要求,因此人们对无监督和自我监督的学习范式的兴趣越来越大。在本文中,我们提出了Raze,Raze是一个带有自我监督的注视表示框架的区域,该框架从非宣传的面部图像数据中发挥作用。 Raze通过辅助监督(即伪凝视区域分类)学习目光的表示,其中目的是通过利用瞳孔中心的相对位置将视野分类为不同的凝视区域(即左,右和中心)。因此,我们会自动注释154K Web爬行图像的伪凝视区标签,并通过“ IZE-NET”框架学习特征表示。 “ IZE-NET”是基于胶囊层的CNN体​​系结构,可以有效地捕获丰富的眼睛表示。在四个基准数据集上评估了特征表示的判别性能:洞穴,桌面,MPII和RT-GENE。此外,我们评估了所提出的网络在其他两个下游任务(即驱动器凝视估计和视觉注意估计)上的普遍性,这证明了学习的眼睛注视表示的有效性。
translated by 谷歌翻译