通过面部和物理表达表达和识别情绪是社会互动的重要组成部分。情绪识别是计算机愿景的基本任务,由于其各种应用,主要用于允许人类和机器之间更加自然的相互作用。情感识别侧重于分析面部表情的常见方法,需要图像中面部的自动定位。虽然这些方法可以在受控场景中正确地分类情绪,但是在处理无约束的日常交互时,这种技术有限。我们提出了一种基于自适应多线索的情感认可的新深度学习方法,从而提取来自上下文和身体姿势的信息,人类通常用于社会互动和沟通。我们将所提出的方法与CAER-S数据集中的最先进方法进行比较,评估达到89.30%的管道中的不同组件
translated by 谷歌翻译
人类的情感认可是人工智能的积极研究领域,在过去几年中取得了实质性的进展。许多最近的作品主要关注面部区域以推断人类的情感,而周围的上下文信息没有有效地利用。在本文中,我们提出了一种新的深网络,有效地识别使用新的全球局部注意机制的人类情绪。我们的网络旨在独立地从两个面部和上下文区域提取特征,然后使用注意模块一起学习它们。以这种方式,面部和上下文信息都用于推断人类的情绪,从而增强分类器的歧视。密集实验表明,我们的方法超越了最近的最先进的方法,最近的情感数据集是公平的保证金。定性地,我们的全球局部注意力模块可以提取比以前的方法更有意义的注意图。我们网络的源代码和培训模型可在https://github.com/minhnhatvt/glamor-net上获得
translated by 谷歌翻译
在大多数领域,从人工智能和游戏到人类计算机互动(HCI)和心理学,面部表情识别是一个重要的研究主题。本文提出了一个用于面部表达识别的混合模型,该模型包括深度卷积神经网络(DCNN)和HAAR级联深度学习体系结构。目的是将实时和数字面部图像分类为所考虑的七个面部情感类别之一。这项研究中使用的DCNN具有更多的卷积层,恢复激活功能以及多个内核,以增强滤波深度和面部特征提取。此外,HAAR级联模型还相互用于检测实时图像和视频帧中的面部特征。来自Kaggle存储库(FER-2013)的灰度图像,然后利用图形处理单元(GPU)计算以加快培训和验证过程。预处理和数据增强技术用于提高培训效率和分类性能。实验结果表明,与最先进的实验和研究相比,分类性能有了显着改善的分类性能。同样,与其他常规模型相比,本文验证了所提出的体系结构在分类性能方面表现出色,提高了6%,总计高达70%的精度,并且执行时间较小,为2098.8S。
translated by 谷歌翻译
步态情绪识别在智能系统中起着至关重要的作用。大多数现有方法通过随着时间的推移专注于当地行动来识别情绪。但是,他们忽略了时间域中不同情绪的有效距离是不同的,而且步行过程中的当地行动非常相似。因此,情绪应由全球状态而不是间接的本地行动代表。为了解决这些问题,这项工作通过构建动态的时间接受场并设计多尺度信息聚集以识别情绪,从而在这项工作中介绍了新型的多量表自适应图卷积网络(MSA-GCN)。在我们的模型中,自适应选择性时空图卷积旨在动态选择卷积内核,以获得不同情绪的软时空特征。此外,跨尺度映射融合机制(CSFM)旨在构建自适应邻接矩阵,以增强信息相互作用并降低冗余。与以前的最先进方法相比,所提出的方法在两个公共数据集上实现了最佳性能,将地图提高了2 \%。我们还进行了广泛的消融研究,以显示不同组件在我们的方法中的有效性。
translated by 谷歌翻译
面部情感识别是识别心理学用来诊断患者的重要工具之一。面部和面部情感识别是机器学习卓越的领域。由于不同的环境,例如照明条件,姿势变化,偏航运动和遮挡,面部情绪识别是对数字图像处理的开放挑战。深度学习方法已显示出图像识别的显着改善。但是,准确性和时间仍然需要改进。这项研究旨在在训练期间提高面部情绪识别的准确性,并使用Extreme Learning Machine(CNNeelm)增强的修改后的卷积神经网络减少处理时间。该系统需要(CNNeelm)提高培训期间图像注册的准确性。此外,该系统通过拟议的CNNeelm模型认识到六种面部情绪快乐,悲伤,厌恶,恐惧,惊喜和中立。研究表明,与经过改进的随机梯度下降(SGD)技术相比,总体面部情绪识别精度的提高了2%。借助Extreme Learning Machine(ELM)分类器,处理时间从113ms中降至65ms,可以从20fps的视频剪辑中平滑地对每个帧进行分类。使用预先训练的InceptionV3模型,建议使用JAFFE,CK+和FER2013表达数据集训练所提出的CNNeelm模型。仿真结果显示出准确性和处理时间的显着改善,使该模型适合视频分析过程。此外,该研究解决了处理面部图像所需的大量处理时间的问题。
translated by 谷歌翻译
显着性预测是指建模公开注意的计算任务。社会提示极大地影响了我们的注意力,从而改变了我们的眼睛运动和行为。为了强调此类特征的功效,我们提出了一种神经模型,用于整合社会提示和加权其影响。我们的模型包括两个阶段。在第一阶段,我们通过关注凝视,估计凝视方向和认识情感来检测两个社会线索。然后,通过图像处理操作将这些特征转化为时空图。转换的表示形式传播到第二阶段(GASP),在那里我们探索了晚期融合的各种技术,以整合社会提示并引入两个子网络,以将注意力引向相关的刺激。我们的实验表明,融合方法为静态整合方法获得了更好的结果,而非融合方法每种模态的影响尚不清楚,当与复发模型进行动态显着性预测相结合时,会产生更好的结果。我们表明,与没有社交线索的动态显着性模型相​​比,凝视方向和情感表示对基础真相对应的提高至少为5%。此外,情感表示可以改善喘气,支持在预测显着性方面考虑偏见的注意力。
translated by 谷歌翻译
微表达(MES)是非自愿的面部运动,揭示了人们在高利害情况下隐藏的感受,并对医疗,国家安全,审讯和许多人机交互系统具有实际重要性。早期的MER方法主要基于传统的外观和几何特征。最近,随着各种领域的深度学习(DL)的成功,神经网络已得到MER的兴趣。不同于宏观表达,MES是自发的,微妙的,快速的面部运动,导致数据收集困难,因此具有小规模的数据集。由于上述我的角色,基于DL的MER变得挑战。迄今为止,已提出各种DL方法来解决我的问题并提高MER表现。在本调查中,我们对深度微表达识别(MER)进行了全面的审查,包括数据集,深度MER管道和最具影响力方法的基准标记。本调查定义了该领域的新分类法,包括基于DL的MER的所有方面。对于每个方面,总结和讨论了基本方法和高级发展。此外,我们得出了坚固的深层MER系统设计的剩余挑战和潜在方向。据我们所知,这是对深度MEL方法的第一次调查,该调查可以作为未来MER研究的参考点。
translated by 谷歌翻译
狗主人通常能够识别出揭示其狗的主观状态的行为线索,例如疼痛。但是自动识别疼痛状态非常具有挑战性。本文提出了一种基于视频的新型,两流深的神经网络方法,以解决此问题。我们提取和预处理身体关键点,并在视频中计算关键点和RGB表示的功能。我们提出了一种处理自我十分和缺少关键点的方法。我们还提出了一个由兽医专业人员收集的独特基于视频的狗行为数据集,并注释以进行疼痛,并通过建议的方法报告良好的分类结果。这项研究是基于机器学习的狗疼痛状态估计的第一批作品之一。
translated by 谷歌翻译
与人类类似,动物的面部表情与情绪状态紧密相关。但是,与人类领域相反,动物面部表情对情绪状态的自动识别是没有充满反应的,这主要是由于数据收集和建立地面真相的困难,涉及非语言用户的情绪状态。我们将最近的深度学习技术应用于在受控的实验环境中收集的数据集上对狗的挫败进行分类和(负面)的挫败感。我们探索在此任务的不同监督下不同骨干(例如,重新连接,VIT)的适用性,并发现自我监督的预定的VIT(DINO-VIT)的特征优于其他替代方案。据我们所知,这项工作是第一个解决对受控实验中获得的数据自动分类的任务。
translated by 谷歌翻译
Understanding the facial expressions of our interlocutor is important to enrich the communication and to give it a depth that goes beyond the explicitly expressed. In fact, studying one's facial expression gives insight into their hidden emotion state. However, even as humans, and despite our empathy and familiarity with the human emotional experience, we are only able to guess what the other might be feeling. In the fields of artificial intelligence and computer vision, Facial Emotion Recognition (FER) is a topic that is still in full growth mostly with the advancement of deep learning approaches and the improvement of data collection. The main purpose of this paper is to compare the performance of three state-of-the-art networks, each having their own approach to improve on FER tasks, on three FER datasets. The first and second sections respectively describe the three datasets and the three studied network architectures designed for an FER task. The experimental protocol, the results and their interpretation are outlined in the remaining sections.
translated by 谷歌翻译
在情感计算领域的基于生理信号的情感识别,已经支付了相当大的关注。对于可靠性和用户友好的采集,电卸电子活动(EDA)在实际应用中具有很大的优势。然而,基于EDA的情感识别与数百个科目仍然缺乏有效的解决方案。在本文中,我们的工作试图融合主题的各个EDA功能和外部诱发的音乐功能。我们提出了端到端的多模式框架,1维剩余时间和通道注意网络(RTCAN-1D)。对于EDA特征,基于新型的基于凸优化的EDA(CVXEDA)方法被应用于将EDA信号分解为PAHSIC和TONC信号,以进行动态和稳定的功能。首先涉及基于EDA的情感识别的渠道时间关注机制,以改善时间和渠道明智的表示。对于音乐功能,我们将音乐信号与开源工具包opensmile处理,以获取外部特征向量。来自EDA信号和来自音乐的外部情绪基准的个体情感特征在分类层中融合。我们对三个多模式数据集(PMEMO,DEAP,AMIGOS)进行了系统的比较,适用于2级薪酬/唤醒情感识别。我们提出的RTCAN-1D优于现有的最先进的模型,这也验证了我们的工作为大规模情感认可提供了可靠和有效的解决方案。我们的代码已在https://github.com/guanghaoyin/rtcan-1发布。
translated by 谷歌翻译
The emergence of COVID-19 has had a global and profound impact, not only on society as a whole, but also on the lives of individuals. Various prevention measures were introduced around the world to limit the transmission of the disease, including face masks, mandates for social distancing and regular disinfection in public spaces, and the use of screening applications. These developments also triggered the need for novel and improved computer vision techniques capable of (i) providing support to the prevention measures through an automated analysis of visual data, on the one hand, and (ii) facilitating normal operation of existing vision-based services, such as biometric authentication schemes, on the other. Especially important here, are computer vision techniques that focus on the analysis of people and faces in visual data and have been affected the most by the partial occlusions introduced by the mandates for facial masks. Such computer vision based human analysis techniques include face and face-mask detection approaches, face recognition techniques, crowd counting solutions, age and expression estimation procedures, models for detecting face-hand interactions and many others, and have seen considerable attention over recent years. The goal of this survey is to provide an introduction to the problems induced by COVID-19 into such research and to present a comprehensive review of the work done in the computer vision based human analysis field. Particular attention is paid to the impact of facial masks on the performance of various methods and recent solutions to mitigate this problem. Additionally, a detailed review of existing datasets useful for the development and evaluation of methods for COVID-19 related applications is also provided. Finally, to help advance the field further, a discussion on the main open challenges and future research direction is given.
translated by 谷歌翻译
面部表情因人而异,每个随机图像的亮度,对比度和分辨率都不同。这就是为什么识别面部表情非常困难的原因。本文使用卷积神经网络(CNN)提出了一个有效的面部情感识别系统(愤怒,厌恶,恐惧,幸福,悲伤,惊喜和中立)的系统,该系统可以预测和分配每种情绪的概率。由于深度学习模型从数据中学习,因此,我们提出的系统通过各种预处理步骤处理每个图像,以更好地预测。首先通过面部检测算法将每个图像都包含在训练数据集中。由于CNN需要大量数据,因此我们使用每个图像上的各种过滤器重复了数据。将大小80*100的预处理图像作为输入传递到CNN的第一层。使用了三个卷积层,其次是合并层和三层密集层。致密层的辍学率为20%。该模型通过组合两个公开可用的数据集(Jaffe和Kdef)进行了培训。 90%的数据用于培训,而10%用于测试。我们使用合并的数据集实现了78.1%的最高精度。此外,我们设计了提出的系统的应用程序,该系统具有图形用户界面,该界面实时对情绪进行了分类。
translated by 谷歌翻译
对象姿态估计有多个重要应用,例如机器人抓握和增强现实。我们提出了一种估计了提高当前提案的准确性的6D对象的6D姿势,仍然可以实时使用。我们的方法使用RGB-D数据作为段对象的输入并估计它们的姿势。它使用具有多个头部的神经网络,一个头估计对象分类并生成掩码,第二估计转换向量的值,最后一个头估计表示对象旋转的四元轴的值。这些头部利用特征提取和特征融合期间使用的金字塔架构。我们的方法可以实时使用,其低推理时间为0.12秒并具有高精度。通过这种快速推理和良好准确性的组合,可以在机器人挑选和放置任务和/或增强现实应用中使用我们的方法。
translated by 谷歌翻译
动物运动跟踪和姿势识别的进步一直是动物行为研究的游戏规则改变者。最近,越来越多的作品比跟踪“更深”,并解决了对动物内部状态(例如情绪和痛苦)的自动认识,目的是改善动物福利,这使得这是对该领域进行系统化的及时时刻。本文对基于计算机的识别情感状态和动物的疼痛的研究进行了全面调查,并涉及面部行为和身体行为分析。我们总结了迄今为止在这个主题中所付出的努力 - 对它们进行分类,从不同的维度进行分类,突出挑战和研究差距,并提供最佳实践建议,以推进该领域以及一些未来的研究方向。
translated by 谷歌翻译
人类影响识别是一个完善的研究领域,具有许多应用,例如心理护理,但现有方法认为所有兴趣情绪都是先验的作为注释培训例子。然而,通过新颖的心理学理论的人类情感谱的粒度和改进的上升和改善语境中的情绪增加给数据收集和标签工作带来了相当大的压力。在本文中,我们在语境中概念化了对情绪的一次性识别 - 一种新的问题,旨在识别来自单个支持样品的更精细粒子水平的人体影响。为了解决这项具有挑战性的任务,我们遵循深度度量学习范例,并引入多模态情绪嵌入方法,通过利用人类外观的互补信息和通过语义分割网络获得的语义场景上下文来最大限度地减少相同情绪嵌入的距离。我们上下文感知模型的所有流都使用加权三态丢失和加权交叉熵损失来共同优化。我们对适应我们单次识别问题的Demotic DataSet的分类和数值情感识别任务进行了彻底的实验,揭示了从单一示例中分类人类影响是一项艰巨的任务。尽管如此,我们模型的所有变体都明显优于随机基线,同时利用语义场景上下文一致地提高了学习的表示,在一次射击情感识别中设置最先进的结果。为了促进对人类影响国家的更普遍表示的研究,我们将在https://github.com/kpeng9510/affect-dml下公开向社区公开提供我们的基准和模型。
translated by 谷歌翻译
来自静态图像的面部表情识别是计算机视觉应用中的一个具有挑战性的问题。卷积神经网络(CNN),用于各种计算机视觉任务的最先进的方法,在预测具有极端姿势,照明和闭塞条件的面部的表达式中已经有限。为了缓解这个问题,CNN通常伴随着传输,多任务或集合学习等技术,这些技术通常以增加的计算复杂性的成本提供高精度。在这项工作中,我们提出了一种基于零件的集合转移学习网络,其模型通过将面部特征的空间方向模式与特定表达相关来模拟人类如何识别面部表达。它由5个子网络组成,每个子网络从面部地标的五个子集中执行转移学习:眉毛,眼睛,鼻子,嘴巴或颌骨表达分类。我们表明我们所提出的集合网络使用从面部肌肉的电机运动发出的视觉模式来预测表达,并展示从面部地标定位转移到面部表情识别的实用性。我们在CK +,Jaffe和SFew数据集上测试所提出的网络,并且它分别优于CK +和Jaffe数据集的基准,分别为0.51%和5.34%。此外,所提出的集合网络仅包括1.65M的型号参数,确保在培训和实时部署期间的计算效率。我们所提出的集合的Grad-Cam可视化突出了其子网的互补性质,是有效集合网络的关键设计参数。最后,交叉数据集评估结果表明,我们建议的集合具有高泛化能力,使其适合现实世界使用。
translated by 谷歌翻译
Hand and face play an important role in expressing sign language. Their features are usually especially leveraged to improve system performance. However, to effectively extract visual representations and capture trajectories for hands and face, previous methods always come at high computations with increased training complexity. They usually employ extra heavy pose-estimation networks to locate human body keypoints or rely on additional pre-extracted heatmaps for supervision. To relieve this problem, we propose a self-emphasizing network (SEN) to emphasize informative spatial regions in a self-motivated way, with few extra computations and without additional expensive supervision. Specifically, SEN first employs a lightweight subnetwork to incorporate local spatial-temporal features to identify informative regions, and then dynamically augment original features via attention maps. It's also observed that not all frames contribute equally to recognition. We present a temporal self-emphasizing module to adaptively emphasize those discriminative frames and suppress redundant ones. A comprehensive comparison with previous methods equipped with hand and face features demonstrates the superiority of our method, even though they always require huge computations and rely on expensive extra supervision. Remarkably, with few extra computations, SEN achieves new state-of-the-art accuracy on four large-scale datasets, PHOENIX14, PHOENIX14-T, CSL-Daily, and CSL. Visualizations verify the effects of SEN on emphasizing informative spatial and temporal features. Code is available at https://github.com/hulianyuyy/SEN_CSLR
translated by 谷歌翻译
自动影响使用视觉提示的识别是对人类和机器之间完全互动的重要任务。可以在辅导系统和人机交互中找到应用程序。朝向该方向的关键步骤是面部特征提取。在本文中,我们提出了一个面部特征提取器模型,由Realey公司提供的野外和大规模收集的视频数据集培训。数据集由百万标记的框架组成,2,616万科目。随着时间信息对情绪识别域很重要,我们利用LSTM单元来捕获数据中的时间动态。为了展示我们预先训练的面部影响模型的有利性质,我们使用Recola数据库,并与当前的最先进的方法进行比较。我们的模型在一致的相关系数方面提供了最佳结果。
translated by 谷歌翻译
由于价格合理的可穿戴摄像头和大型注释数据集的可用性,在过去几年中,Egintric Vision(又名第一人称视觉-FPV)的应用程序在过去几年中蓬勃发展。可穿戴摄像机的位置(通常安装在头部上)允许准确记录摄像头佩戴者在其前面的摄像头,尤其是手和操纵物体。这种内在的优势可以从多个角度研究手:将手及其部分定位在图像中;了解双手涉及哪些行动和活动;并开发依靠手势的人类计算机界面。在这项调查中,我们回顾了使用以自我为中心的愿景专注于手的文献,将现有方法分类为:本地化(其中的手或部分在哪里?);解释(手在做什么?);和应用程序(例如,使用以上为中心的手提示解决特定问题的系统)。此外,还提供了带有手基注释的最突出的数据集的列表。
translated by 谷歌翻译