本文侧重于跨数据库微表达识别的研究,其中培训和测试微表达样本属于不同的微表达数据库。训练与测试微表达特征之间的不匹配特征分布降低了最良好性能的微表达方法的性能。要处理跨数据库微表达式识别,我们提出了一种名为Transfer组稀疏回归(TGSR)的新型域适应方法。TGSR了解稀疏的回归矩阵,用于选择突出面部本地区域和训练集和测试集的相应关系。我们在Casme II和SMIC数据库中评估我们的TGSR模型。实验结果表明,建议的TGSR实现了令人满意的性能和优于基于最先进的子空间学习的域适应方法。
translated by 谷歌翻译
无意识和自发的,微小表达在一个人的真实情绪的推动中是有用的,即使尝试隐藏它们。由于它们短的持续时间和低强度,对微表达的识别是情感计算中的艰巨任务。基于手工制作的时空特征的早期工作最近被不同的深度学习方法取代了现在竞争最先进的性能。然而,捕获本地和全球时空模式的问题仍然挑战。为此,本文我们提出了一种新颖的时空变压器架构 - 据我们所知,是微表达识别的第一种纯粹变压器的方法(即任何卷积网络使用的方法)。该架构包括用于学习空间模式的空间编码器,用于时间维度分析的时间聚合器和分类头。三种广泛使用的自发性微表达数据集,即Smic-HS,Casme II和SAMM的综合评估表明,该方法始终如一地优于现有技术,是发表在微表达上发表文献中的第一个框架在任何上述数据集上识别以实现未加权的F1分数大于0.9。
translated by 谷歌翻译
微表达(MES)是非自愿的面部运动,揭示了人们在高利害情况下隐藏的感受,并对医疗,国家安全,审讯和许多人机交互系统具有实际重要性。早期的MER方法主要基于传统的外观和几何特征。最近,随着各种领域的深度学习(DL)的成功,神经网络已得到MER的兴趣。不同于宏观表达,MES是自发的,微妙的,快速的面部运动,导致数据收集困难,因此具有小规模的数据集。由于上述我的角色,基于DL的MER变得挑战。迄今为止,已提出各种DL方法来解决我的问题并提高MER表现。在本调查中,我们对深度微表达识别(MER)进行了全面的审查,包括数据集,深度MER管道和最具影响力方法的基准标记。本调查定义了该领域的新分类法,包括基于DL的MER的所有方面。对于每个方面,总结和讨论了基本方法和高级发展。此外,我们得出了坚固的深层MER系统设计的剩余挑战和潜在方向。据我们所知,这是对深度MEL方法的第一次调查,该调查可以作为未来MER研究的参考点。
translated by 谷歌翻译
Transfer learning is established as an effective technology in computer vision for leveraging rich labeled data in the source domain to build an accurate classifier for the target domain. However, most prior methods have not simultaneously reduced the difference in both the marginal distribution and conditional distribution between domains. In this paper, we put forward a novel transfer learning approach, referred to as Joint Distribution Adaptation (JDA). Specifically, JDA aims to jointly adapt both the marginal distribution and conditional distribution in a principled dimensionality reduction procedure, and construct new feature representation that is effective and robust for substantial distribution difference. Extensive experiments verify that JDA can significantly outperform several state-of-the-art methods on four types of cross-domain image classification problems.
translated by 谷歌翻译
动态面部表达识别(FER)数据库为情感计算和应用提供了重要的数据支持。但是,大多数FER数据库都用几个基本的相互排斥性类别注释,并且仅包含一种模式,例如视频。单调的标签和模式无法准确模仿人类的情绪并实现现实世界中的应用。在本文中,我们提出了MAFW,这是一个大型多模式复合情感数据库,野外有10,045个视频Audio剪辑。每个剪辑都有一个复合的情感类别和几个句子,这些句子描述了剪辑中受试者的情感行为。对于复合情绪注释,每个剪辑都被归类为11种广泛使用的情绪中的一个或多个,即愤怒,厌恶,恐惧,幸福,中立,悲伤,惊喜,蔑视,焦虑,焦虑,无助和失望。为了确保标签的高质量,我们通过预期最大化(EM)算法来滤除不可靠的注释,然后获得11个单标签情绪类别和32个多标签情绪类别。据我们所知,MAFW是第一个带有复合情感注释和与情感相关的字幕的野外多模式数据库。此外,我们还提出了一种新型的基于变压器的表达片段特征学习方法,以识别利用不同情绪和方式之间表达变化关系的复合情绪。在MAFW数据库上进行的广泛实验显示了所提出方法的优势,而不是其他最先进的方法对单型和多模式FER的优势。我们的MAFW数据库可从https://mafw-database.github.io/mafw公开获得。
translated by 谷歌翻译
由于昂贵的数据收集过程,微表达数据集的规模通常小得多,而不是其他计算机视觉领域的数据集,渲染大规模的训练较小稳定和可行。在本文中,我们的目标是制定一个协议,以自动综合1)的微型表达培训数据,其中2)允许我们在现实世界测试集上具有强烈准确性的培训模型。具体来说,我们发现了三种类型的动作单位(AUS),可以很好地构成培训的微表达式。这些AU来自真实世界的微表达式,早期宏观表达式,以及人类知识定义的AU和表达标签之间的关系。随着这些AU,我们的协议随后采用大量的面部图像,具有各种身份和用于微表达合成的现有面生成方法。微表达式识别模型在生成的微表达数据集上培训并在真实世界测试集上进行评估,其中获得非常竞争力和稳定的性能。实验结果不仅验证了这些AU和我们的数据集合合成协议的有效性,还揭示了微表达式的一些关键属性:它们横跨面部概括,靠近早期宏观表达式,可以手动定义。
translated by 谷歌翻译
情感识别技术使计算机能够将人类情感状态分类为离散类别。但是,即使在短时间内,情绪也可能波动,而不是保持稳定状态。由于其3-D拓扑结构,也很难全面使用EEG空间分布。为了解决上述问题,我们在本研究中提出了一个本地时间空间模式学习图表网络(LTS-GAT)。在LTS-GAT中,使用划分和串扰方案来检查基于图形注意机制的脑电图模式的时间和空间维度的局部信息。添加了动力域歧视器,以提高针对脑电图统计数据的个体间变化的鲁棒性,以学习不同参与者的鲁棒性脑电图特征表示。我们在两个公共数据集上评估了LTS-GAT,用于在个人依赖和独立范式下进行情感计算研究。与其他现有主流方法相比,LTS-GAT模型的有效性被证明。此外,使用可视化方法来说明不同大脑区域和情绪识别的关系。同时,还对不同时间段的权重进行了可视化,以研究情绪稀疏问题。
translated by 谷歌翻译
旨在解决不完整的多视图数据中缺少部分视图的聚类问题的不完整的多视图聚类,近年来受到了越来越多的关注。尽管已经开发了许多方法,但大多数方法要么无法灵活地处理不完整的多视图数据,因此使用任意丢失的视图,或者不考虑视图之间信息失衡的负面因素。此外,某些方法并未完全探索所有不完整视图的局部结构。为了解决这些问题,本文提出了一种简单但有效的方法,称为局部稀疏不完整的多视图聚类(LSIMVC)。与现有方法不同,LSIMVC打算通过优化一个稀疏的正则化和新颖的图形嵌入式多视图矩阵分数模型来从不完整的多视图数据中学习稀疏和结构化的潜在表示。具体而言,在基于矩阵分解的这种新型模型中,引入了基于L1规范的稀疏约束,以获得稀疏的低维单个表示和稀疏共识表示。此外,引入了新的本地图嵌入项以学习结构化共识表示。与现有作品不同,我们的本地图嵌入术语汇总了图形嵌入任务和共识表示任务中的简洁术语。此外,为了减少多视图学习的不平衡因素,将自适应加权学习方案引入LSIMVC。最后,给出了有效的优化策略来解决我们提出的模型的优化问题。在六个不完整的多视图数据库上执行的全面实验结果证明,我们的LSIMVC的性能优于最新的IMC方法。该代码可在https://github.com/justsmart/lsimvc中找到。
translated by 谷歌翻译
面部情感识别是识别心理学用来诊断患者的重要工具之一。面部和面部情感识别是机器学习卓越的领域。由于不同的环境,例如照明条件,姿势变化,偏航运动和遮挡,面部情绪识别是对数字图像处理的开放挑战。深度学习方法已显示出图像识别的显着改善。但是,准确性和时间仍然需要改进。这项研究旨在在训练期间提高面部情绪识别的准确性,并使用Extreme Learning Machine(CNNeelm)增强的修改后的卷积神经网络减少处理时间。该系统需要(CNNeelm)提高培训期间图像注册的准确性。此外,该系统通过拟议的CNNeelm模型认识到六种面部情绪快乐,悲伤,厌恶,恐惧,惊喜和中立。研究表明,与经过改进的随机梯度下降(SGD)技术相比,总体面部情绪识别精度的提高了2%。借助Extreme Learning Machine(ELM)分类器,处理时间从113ms中降至65ms,可以从20fps的视频剪辑中平滑地对每个帧进行分类。使用预先训练的InceptionV3模型,建议使用JAFFE,CK+和FER2013表达数据集训练所提出的CNNeelm模型。仿真结果显示出准确性和处理时间的显着改善,使该模型适合视频分析过程。此外,该研究解决了处理面部图像所需的大量处理时间的问题。
translated by 谷歌翻译
在本文中,我们提出了一个称为SDFE-LV的大规模,多源和不受约束的数据库,用于发现长视频中完整动态面部表达的发作和偏移帧,这被称为动态面部表情斑点的主题(DFE)和许多面部表达分析任务的重要步骤。具体而言,SDFE-LV由1,191个长视频组成,每个视频包含一个或多个完整的动态面部表情。此外,在相应的长视频中,每个完整的动态面部表达都被10次训练有素的注释者独立标记了五次。据我们所知,SDFE-LV是DFES任务的第一个无限制的大规模数据库,其长期视频是从多个现实世界/密切现实世界中的媒体来源收集的,例如电视采访,纪录片,电影和电影,以及我们媒体短视频。因此,在实践中,SDFE-LV数据库上的DFE任务将遇到许多困难,例如头部姿势变化,遮挡和照明。我们还通过使用许多最新的深度发现方法,从不同角度提供了全面的基准评估,因此对DFE感兴趣的研究人员可以快速而轻松地开始。最后,通过有关实验评估结果的深入讨论,我们试图指出几个有意义的方向来处理DFES任务,并希望将来DFE可以更好地进步。此外,SDFE-LV将仅尽快自由发布供学术使用。
translated by 谷歌翻译
As one of the most important psychic stress reactions, micro-expressions (MEs), are spontaneous and transient facial expressions that can reveal the genuine emotions of human beings. Thus, recognizing MEs (MER) automatically is becoming increasingly crucial in the field of affective computing, and provides essential technical support in lie detection, psychological analysis and other areas. However, the lack of abundant ME data seriously restricts the development of cutting-edge data-driven MER models. Despite the recent efforts of several spontaneous ME datasets to alleviate this problem, it is still a tiny amount of work. To solve the problem of ME data hunger, we construct a dynamic spontaneous ME dataset with the largest current ME data scale, called DFME (Dynamic Facial Micro-expressions), which includes 7,526 well-labeled ME videos induced by 671 participants and annotated by more than 20 annotators throughout three years. Afterwards, we adopt four classical spatiotemporal feature learning models on DFME to perform MER experiments to objectively verify the validity of DFME dataset. In addition, we explore different solutions to the class imbalance and key-frame sequence sampling problems in dynamic MER respectively on DFME, so as to provide a valuable reference for future research. The comprehensive experimental results show that our DFME dataset can facilitate the research of automatic MER, and provide a new benchmark for MER. DFME will be published via https://mea-lab-421.github.io.
translated by 谷歌翻译
在过去的几十年中,已经进行了许多尝试来解决从其相应的低分辨率(LR)对应物中恢复高分辨率(HR)面部形象的问题,这是通常被称为幻觉的任务。尽管通过位置补丁和基于深度学习的方法实现了令人印象深刻的性能,但大多数技术仍然无法恢复面孔的特定特定功能。前一组算法通常在存在更高水平的降解存在下产生模糊和过天气输出,而后者产生的面部有时绝不使得输入图像中的个体类似于个体。在本文中,将引入一种新的面部超分辨率方法,其中幻觉面被迫位于可用训练面跨越的子空间中。因此,与大多数现有面的幻觉技术相比,由于这种面部子空间之前,重建是为了回收特定人的面部特征,而不是仅仅增加图像定量分数。此外,通过最近的3D面部重建领域的进步启发,还呈现了一种有效的3D字典对齐方案,通过该方案,该算法能够处理在不受控制的条件下拍摄的低分辨率面。在几个众所周知的面部数据集上进行的广泛实验中,所提出的算法通过生成详细和接近地面真理结果来显示出色的性能,这在定量和定性评估中通过显着的边距来实现了最先进的面部幻觉算法。
translated by 谷歌翻译
由于巨大的未标记数据的出现,现在已经增加了更加关注无监督的功能选择。需要考虑使用更有效的顺序使用样品训练学习方法的样本和潜在效果的分布,以提高该方法的鲁棒性。自定步学习是考虑样本培训顺序的有效方法。在本研究中,通过整合自花枢学习和子空间学习框架来提出无监督的特征选择。此外,保留了局部歧管结构,并且特征的冗余受到两个正则化术语的约束。 $ l_ {2,1 / 2} $ - norm应用于投影矩阵,旨在保留歧视特征,并进一步缓解数据中噪声的影响。然后,提出了一种迭代方法来解决优化问题。理论上和实验证明了该方法的收敛性。将所提出的方法与九个现实世界数据集上的其他技术的算法进行比较。实验结果表明,该方法可以提高聚类方法的性能,优于其他比较算法。
translated by 谷歌翻译
Unsupervised domain adaptation (UDA) aims to transfer knowledge from a well-labeled source domain to a different but related unlabeled target domain with identical label space. Currently, the main workhorse for solving UDA is domain alignment, which has proven successful. However, it is often difficult to find an appropriate source domain with identical label space. A more practical scenario is so-called partial domain adaptation (PDA) in which the source label set or space subsumes the target one. Unfortunately, in PDA, due to the existence of the irrelevant categories in the source domain, it is quite hard to obtain a perfect alignment, thus resulting in mode collapse and negative transfer. Although several efforts have been made by down-weighting the irrelevant source categories, the strategies used tend to be burdensome and risky since exactly which irrelevant categories are unknown. These challenges motivate us to find a relatively simpler alternative to solve PDA. To achieve this, we first provide a thorough theoretical analysis, which illustrates that the target risk is bounded by both model smoothness and between-domain discrepancy. Considering the difficulty of perfect alignment in solving PDA, we turn to focus on the model smoothness while discard the riskier domain alignment to enhance the adaptability of the model. Specifically, we instantiate the model smoothness as a quite simple intra-domain structure preserving (IDSP). To our best knowledge, this is the first naive attempt to address the PDA without domain alignment. Finally, our empirical results on multiple benchmark datasets demonstrate that IDSP is not only superior to the PDA SOTAs by a significant margin on some benchmarks (e.g., +10% on Cl->Rw and +8% on Ar->Rw ), but also complementary to domain alignment in the standard UDA
translated by 谷歌翻译
使用卷积神经网络,面部属性(例如,年龄和吸引力)估算性能得到了大大提高。然而,现有方法在培训目标和评估度量之间存在不一致,因此它们可能是次优。此外,这些方法始终采用具有大量参数的图像分类或面部识别模型,其携带昂贵的计算成本和存储开销。在本文中,我们首先分析了两种最新方法(排名CNN和DLDL)之间的基本关系,并表明排名方法实际上是隐含的学习标签分布。因此,该结果首先将两个现有的最新方法统一到DLDL框架中。其次,为了减轻不一致和降低资源消耗,我们设计了一种轻量级网络架构,并提出了一个统一的框架,可以共同学习面部属性分发和回归属性值。在面部年龄和吸引力估算任务中都证明了我们的方法的有效性。我们的方法使用单一模型实现新的最先进的结果,使用36美元\倍,参数减少3美元,在面部年龄/吸引力估算上的推动速度为3美元。此外,即使参数的数量进一步降低到0.9m(3.8MB磁盘存储),我们的方法也可以实现与最先进的结果。
translated by 谷歌翻译
基于相似性的聚类方法根据数据之间的成对相似性将数据分离为簇,而成对相似性对于它们的性能至关重要。在本文中,我们通过判别性相似性(CDS)}提出了{\ em聚类,这是一种新的方法,可以学习数据群集的区分性相似性。 CD从每个数据分区学习一个无监督的基于相似性的分类器,并通过最大程度地减少与数据分区关联的学习分类器的概括错误来搜索数据的最佳分区。通过通过Rademacher复杂性进行的概括分析,基于无监督相似性的分类器的概括误差表示为来自不同类别的数据之间的判别性相似性之和。事实证明,派生的判别性相似性也可以通过构成内核密度分类的综合平方误差引起。为了评估提出的判别性相似性的性能,我们提出了一种使用内核作为相似性函数的新聚类方法,即通过无监督的内核分类(CDSK)CD,其有效性通过实验结果证明。
translated by 谷歌翻译
人类的情感认可是人工智能的积极研究领域,在过去几年中取得了实质性的进展。许多最近的作品主要关注面部区域以推断人类的情感,而周围的上下文信息没有有效地利用。在本文中,我们提出了一种新的深网络,有效地识别使用新的全球局部注意机制的人类情绪。我们的网络旨在独立地从两个面部和上下文区域提取特征,然后使用注意模块一起学习它们。以这种方式,面部和上下文信息都用于推断人类的情绪,从而增强分类器的歧视。密集实验表明,我们的方法超越了最近的最先进的方法,最近的情感数据集是公平的保证金。定性地,我们的全球局部注意力模块可以提取比以前的方法更有意义的注意图。我们网络的源代码和培训模型可在https://github.com/minhnhatvt/glamor-net上获得
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
多任务学习是基于深度学习的面部表情识别任务的有效学习策略。但是,当在不同任务之间传输信息时,大多数现有方法都考虑了特征选择,这可能在培训多任务网络时可能导致任务干扰。为了解决这个问题,我们提出了一种新颖的选择性特征共享方法,并建立一个用于面部表情识别和面部表达合成的多任务网络。该方法可以有效地转移不同任务之间的有益特征,同时过滤无用和有害信息。此外,我们采用了面部表情综合任务来扩大并平衡训练数据集以进一步提高所提出的方法的泛化能力。实验结果表明,该方法在那些常用的面部表情识别基准上实现了最先进的性能,这使其成为现实世界面部表情识别问题的潜在解决方案。
translated by 谷歌翻译
不同的人以不同的方式衰老。为每个人学习个性化的年龄估计器是年龄估计的有前途的方向,因为它可以更好地建模衰老过程的个性化。但是,由于高级要求,大多数现有的个性化方法都缺乏大规模数据集:身份标签和足够的样本使每个人形成长期衰老模式。在本文中,我们旨在学习没有上述要求的个性化年龄估计量,并提出一种元学习方法,称为年龄估计。与大多数现有的个性化方法不同,这些方法学习了培训集中每个人的个性化估计器的参数,我们的方法将映射从身份信息到年龄估计器参数学习。具体而言,我们引入了个性化的估算器元学习器,该估计量元学习器将身份功能作为输入并输出定制估算器的参数。这样,我们的方法就可以学习元知识而没有上述要求,并无缝将学习的元知识转移到测试集中,这使我们能够利用现有的大规模年龄数据集,而无需任何其他注释。在包括Morph II,Chalearn Lap 2015和Chalearn Lap 2016数据库在内的三个基准数据集上进行的大量实验结果表明,我们的元大大提高了现有的个性化方法的性能,并优于最先进的方法。
translated by 谷歌翻译