在大多数领域,从人工智能和游戏到人类计算机互动(HCI)和心理学,面部表情识别是一个重要的研究主题。本文提出了一个用于面部表达识别的混合模型,该模型包括深度卷积神经网络(DCNN)和HAAR级联深度学习体系结构。目的是将实时和数字面部图像分类为所考虑的七个面部情感类别之一。这项研究中使用的DCNN具有更多的卷积层,恢复激活功能以及多个内核,以增强滤波深度和面部特征提取。此外,HAAR级联模型还相互用于检测实时图像和视频帧中的面部特征。来自Kaggle存储库(FER-2013)的灰度图像,然后利用图形处理单元(GPU)计算以加快培训和验证过程。预处理和数据增强技术用于提高培训效率和分类性能。实验结果表明,与最先进的实验和研究相比,分类性能有了显着改善的分类性能。同样,与其他常规模型相比,本文验证了所提出的体系结构在分类性能方面表现出色,提高了6%,总计高达70%的精度,并且执行时间较小,为2098.8S。
translated by 谷歌翻译
面部情感识别是识别心理学用来诊断患者的重要工具之一。面部和面部情感识别是机器学习卓越的领域。由于不同的环境,例如照明条件,姿势变化,偏航运动和遮挡,面部情绪识别是对数字图像处理的开放挑战。深度学习方法已显示出图像识别的显着改善。但是,准确性和时间仍然需要改进。这项研究旨在在训练期间提高面部情绪识别的准确性,并使用Extreme Learning Machine(CNNeelm)增强的修改后的卷积神经网络减少处理时间。该系统需要(CNNeelm)提高培训期间图像注册的准确性。此外,该系统通过拟议的CNNeelm模型认识到六种面部情绪快乐,悲伤,厌恶,恐惧,惊喜和中立。研究表明,与经过改进的随机梯度下降(SGD)技术相比,总体面部情绪识别精度的提高了2%。借助Extreme Learning Machine(ELM)分类器,处理时间从113ms中降至65ms,可以从20fps的视频剪辑中平滑地对每个帧进行分类。使用预先训练的InceptionV3模型,建议使用JAFFE,CK+和FER2013表达数据集训练所提出的CNNeelm模型。仿真结果显示出准确性和处理时间的显着改善,使该模型适合视频分析过程。此外,该研究解决了处理面部图像所需的大量处理时间的问题。
translated by 谷歌翻译
面部表情因人而异,每个随机图像的亮度,对比度和分辨率都不同。这就是为什么识别面部表情非常困难的原因。本文使用卷积神经网络(CNN)提出了一个有效的面部情感识别系统(愤怒,厌恶,恐惧,幸福,悲伤,惊喜和中立)的系统,该系统可以预测和分配每种情绪的概率。由于深度学习模型从数据中学习,因此,我们提出的系统通过各种预处理步骤处理每个图像,以更好地预测。首先通过面部检测算法将每个图像都包含在训练数据集中。由于CNN需要大量数据,因此我们使用每个图像上的各种过滤器重复了数据。将大小80*100的预处理图像作为输入传递到CNN的第一层。使用了三个卷积层,其次是合并层和三层密集层。致密层的辍学率为20%。该模型通过组合两个公开可用的数据集(Jaffe和Kdef)进行了培训。 90%的数据用于培训,而10%用于测试。我们使用合并的数据集实现了78.1%的最高精度。此外,我们设计了提出的系统的应用程序,该系统具有图形用户界面,该界面实时对情绪进行了分类。
translated by 谷歌翻译
分析对人脸上的表达在识别人的情绪和行为方面发挥着非常重要的作用。识别这些表达式会自动导致自然人机接口的重要组成部分。因此,该领域的研究在生物公制认证,监控系统,情感到各种社交媒体平台中的情感方面具有广泛的应用。另一个申请包括进行客户满意度调查。正如我们所知,大型公司使巨额投资获得反馈并进行调查,但未能获得公平的反应。通过面部手势的情感和性别识别是一种技术,旨在通过他们的评价监测客户行为来改善产品和服务性能。在过去几年中,在特征提取机制,面部检测和表达分类技术方面已经进行了各种各样的进展。本文是实施一个用于构建可以检测到人的情绪和性别的实时系统的集合CNN。实验结果表明,在FER-2013 DataSet上的7个课程(愤怒,恐惧,悲伤,快乐,惊喜,中立,中立,厌恶)和IMDB数据集上的性别分类(男性或女性)的95%,精度为68%的准确性。我们的工作可以预测单一面部图像以及多个面部图像的情感和性别。此外,当通过网络摄像头给出输入时,我们的完整流水线可以花费小于0.5秒才能生成结果。
translated by 谷歌翻译
The study proposes and tests a technique for automated emotion recognition through mouth detection via Convolutional Neural Networks (CNN), meant to be applied for supporting people with health disorders with communication skills issues (e.g. muscle wasting, stroke, autism, or, more simply, pain) in order to recognize emotions and generate real-time feedback, or data feeding supporting systems. The software system starts the computation identifying if a face is present on the acquired image, then it looks for the mouth location and extracts the corresponding features. Both tasks are carried out using Haar Feature-based Classifiers, which guarantee fast execution and promising performance. If our previous works focused on visual micro-expressions for personalized training on a single user, this strategy aims to train the system also on generalized faces data sets.
translated by 谷歌翻译
人类的情感认可是人工智能的积极研究领域,在过去几年中取得了实质性的进展。许多最近的作品主要关注面部区域以推断人类的情感,而周围的上下文信息没有有效地利用。在本文中,我们提出了一种新的深网络,有效地识别使用新的全球局部注意机制的人类情绪。我们的网络旨在独立地从两个面部和上下文区域提取特征,然后使用注意模块一起学习它们。以这种方式,面部和上下文信息都用于推断人类的情绪,从而增强分类器的歧视。密集实验表明,我们的方法超越了最近的最先进的方法,最近的情感数据集是公平的保证金。定性地,我们的全球局部注意力模块可以提取比以前的方法更有意义的注意图。我们网络的源代码和培训模型可在https://github.com/minhnhatvt/glamor-net上获得
translated by 谷歌翻译
来自静态图像的面部表情识别是计算机视觉应用中的一个具有挑战性的问题。卷积神经网络(CNN),用于各种计算机视觉任务的最先进的方法,在预测具有极端姿势,照明和闭塞条件的面部的表达式中已经有限。为了缓解这个问题,CNN通常伴随着传输,多任务或集合学习等技术,这些技术通常以增加的计算复杂性的成本提供高精度。在这项工作中,我们提出了一种基于零件的集合转移学习网络,其模型通过将面部特征的空间方向模式与特定表达相关来模拟人类如何识别面部表达。它由5个子网络组成,每个子网络从面部地标的五个子集中执行转移学习:眉毛,眼睛,鼻子,嘴巴或颌骨表达分类。我们表明我们所提出的集合网络使用从面部肌肉的电机运动发出的视觉模式来预测表达,并展示从面部地标定位转移到面部表情识别的实用性。我们在CK +,Jaffe和SFew数据集上测试所提出的网络,并且它分别优于CK +和Jaffe数据集的基准,分别为0.51%和5.34%。此外,所提出的集合网络仅包括1.65M的型号参数,确保在培训和实时部署期间的计算效率。我们所提出的集合的Grad-Cam可视化突出了其子网的互补性质,是有效集合网络的关键设计参数。最后,交叉数据集评估结果表明,我们建议的集合具有高泛化能力,使其适合现实世界使用。
translated by 谷歌翻译
大量人群遭受全世界认知障碍。认知障碍的早期发现对患者和护理人员来说都非常重要。然而,现有方法具有短缺,例如诊所和神经影像阶段参与的时间消耗和财务费用。已经发现认知障碍的患者显示出异常的情绪模式。在本文中,我们展示了一种新的深度卷积网络的系统,通过分析面部情绪的演变来检测认知障碍,而参与者正在观看设计的视频刺激。在我们所提出的系统中,使用来自MobileNet的层和支持向量机(SVM)的图层开发了一种新的面部表情识别算法,这在3个数据集中显示了令人满意的性能。为了验证拟议的检测认知障碍系统,已经邀请了61名老年人,包括认知障碍和健康人作为对照组的患者参加实验,并相应地建立了一个数据集。使用此数据集,所提出的系统已成功实现73.3%的检测精度。
translated by 谷歌翻译
使用视频/图像的驾驶员嗜睡检测是当今驾驶员安全时间最重要的领域之一。在诸如嗜睡检测的计算机视觉应用中应用的深度学习技术,尤其是卷积神经网络(CNN)的发展,由于近几十年来,由于技术的巨大增加,已经显示出有前途的结果。关闭或闪烁过度,打呵欠,点头和闭塞的眼睛都是嗜睡的关键方面。在这项工作中,我们在Yawdd数据集上应用了四种不同的卷积神经网络(CNN)技术,以检测和检查困难程度的程度,这取决于具有特定姿势和遮挡变化的打开频率。初步计算结果表明,我们所提出的集合卷积神经网络(ECNN)通过实现0.935的F1得分优于传统的基于CNN的方法,而另外三个CNN,如CNN1,CNN2和CNN3接近的方法,则获得0.92,0.90,和0.912 F1分别分别分别进行评分。
translated by 谷歌翻译
自动影响使用视觉提示的识别是对人类和机器之间完全互动的重要任务。可以在辅导系统和人机交互中找到应用程序。朝向该方向的关键步骤是面部特征提取。在本文中,我们提出了一个面部特征提取器模型,由Realey公司提供的野外和大规模收集的视频数据集培训。数据集由百万标记的框架组成,2,616万科目。随着时间信息对情绪识别域很重要,我们利用LSTM单元来捕获数据中的时间动态。为了展示我们预先训练的面部影响模型的有利性质,我们使用Recola数据库,并与当前的最先进的方法进行比较。我们的模型在一致的相关系数方面提供了最佳结果。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
Quadruped robots are currently used in industrial robotics as mechanical aid to automate several routine tasks. However, presently, the usage of such a robot in a domestic setting is still very much a part of the research. This paper discusses the understanding and virtual simulation of such a robot capable of detecting and understanding human emotions, generating its gait, and responding via sounds and expression on a screen. To this end, we use a combination of reinforcement learning and software engineering concepts to simulate a quadruped robot that can understand emotions, navigate through various terrains and detect sound sources, and respond to emotions using audio-visual feedback. This paper aims to establish the framework of simulating a quadruped robot that is emotionally intelligent and can primarily respond to audio-visual stimuli using motor or audio response. The emotion detection from the speech was not as performant as ERANNs or Zeta Policy learning, still managing an accuracy of 63.5%. The video emotion detection system produced results that are almost at par with the state of the art, with an accuracy of 99.66%. Due to its "on-policy" learning process, the PPO algorithm was extremely rapid to learn, allowing the simulated dog to demonstrate a remarkably seamless gait across the different cadences and variations. This enabled the quadruped robot to respond to generated stimuli, allowing us to conclude that it functions as predicted and satisfies the aim of this work.
translated by 谷歌翻译
最近的语音情绪识别分析与使用MFCCS频谱图特征和实现诸如卷积神经网络(CNNS)的神经网络方法的实施进行了相当大的进展。胶囊网络(CAPSNET)对CNN的替代品感谢其具有较大容量的分层表示。为了解决这些问题,本研究介绍了独立于文本和独立的讲话者独立的SER新颖体系结构,其中基于结构特征提出了双通道长短短期内存压缩帽(DC-LSTM Compsnet)算法Capsnet。我们所提出的新型分类器可以确保语音情感识别中模型和足够的压缩方法的能效,这不会通过彩铃的原始结构提供。此外,网格搜索方法用于获得最佳解决方案。结果目睹了培训和测试运行时间的性能和减少。用于评估我们的算法的语音数据集是:阿拉伯语Emirati-Egrented语料库,模拟和实际压力语料库下的英语演讲,情感语音和歌曲语料库的英语Ryerson Audio-Visual数据库,以及人群源性情绪多模式演员数据集。这项工作揭示了与其他已知方法相比的最佳特征提取方法是MFCCS Delta-Delta。使用四个数据集和MFCCS Delta-Delta,DC-LSTM CompsNet超越了所有最先进的系统,古典分类器,CNN和原始帽。我们的结果表明,基于Capsnet的拟议工作产生了89.3%的平均情绪识别准确性,其结果表明,拟议的工作产生了89.3%的89.3%。 CNN,支持向量机,多层Perceptron,K-最近邻居,径向基函数和幼稚贝叶斯。
translated by 谷歌翻译
发现自闭症谱系障碍(ASD)是各种职业治疗师之间的主要问题。这种神经开发障碍的最重要挑战在于分析和探索其早期发展阶段的儿童各种症状的事实。此类早期识别可以提高治疗师和临床医生,以提供适当的辅助支持,使儿童引起独立的生活。儿童所感知的面部表情和情感可能导致自闭症的早期干预。在这方面,纸张实施识别基本面部表情并在时间变体因素探索他们的情绪。通过使用CNN识别的68个地标点在正面上绘制的具有由称为RCNN-FER系统形成的预测网络,通过CNN识别的面部表达来分析情绪。本文采用R-CNN,以提高准确性和性能的优势,随着时间复杂性降低,以预测情绪为文本网络分析。在与为自闭症社会提供的此类标识的简单机器学习模型相比,这些文件证明了识别自闭症儿童的情感更好的准确性。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
本文讨论了面部表达识别模型和描述生成模型,以构建图像中人的图像和面部表情的描述性句子。我们的研究表明,Yolov5比传统的CNN获得了KDEF数据集的所有情绪的更好结果。特别是,CNN和Yolov5模型的精度分别为0.853和0.938。使用VGG16与LSTM模型编码的描述提出了用于基于合并体系结构的图像描述的模型。 Yolov5还用于识别图像中对象的主要颜色,并在必要时纠正生成的描述中的颜色单词。如果描述包含指称一个人的单词,我们会认识到图像中人的情感。最后,我们结合了所有模型的结果,以创建描述图像中视觉内容和人类情感的句子。越南语中FlickR8K数据集的实验结果实现了BLLEU-1,BLEU-2,BLEU-3,BLEU-4分数为0.628; 0.425; 0.280;和0.174。
translated by 谷歌翻译
为了产生最大的影响,必须使用基于证据的决策制定公共卫生计划。创建机器学习算法是为了收集,存储,处理和分析数据以提供知识和指导决策。任何监视系统的关键部分是图像分析。截至最近,计算机视觉和机器学习的社区最终对此感到好奇。这项研究使用各种机器学习和图像处理方法来检测和预测疟疾疾病。在我们的研究中,我们发现了深度学习技术作为具有更广泛适用于疟疾检测的智能工具的潜力,通过协助诊断病情,可以使医生受益。我们研究了针对计算机框架和组织的深度学习的共同限制,计算需要准备数据,准备开销,实时执行和解释能力,并发现对这些限制的轴承的未来询问。
translated by 谷歌翻译
纯粹后的损害评估对于管理资源分配和执行有效响应至关重要。传统上,这种评估是通过野外侦察进行的,该侦察速度缓慢,危险且艰巨。取而代之的是,在本文中,我们进一步提出了通过卷积神经网络实施深度学习的想法,以便将建筑物的后卫星卫星图像分类为被洪水/损坏或未损坏的。该实验是在2017年哈维飓风之后使用的,该数据集采用了一个包含大休斯顿地区的纯种后卫星图像的数据集进行。本文实施了三个卷积神经网络模型体系结构,并配对了其他模型考虑,以实现高精度(超过99%),(超过99%),,超过99%),(超过99%)加强在殖民后灾难评估中有效使用机器学习。
translated by 谷歌翻译
微表达(MES)是非自愿的面部运动,揭示了人们在高利害情况下隐藏的感受,并对医疗,国家安全,审讯和许多人机交互系统具有实际重要性。早期的MER方法主要基于传统的外观和几何特征。最近,随着各种领域的深度学习(DL)的成功,神经网络已得到MER的兴趣。不同于宏观表达,MES是自发的,微妙的,快速的面部运动,导致数据收集困难,因此具有小规模的数据集。由于上述我的角色,基于DL的MER变得挑战。迄今为止,已提出各种DL方法来解决我的问题并提高MER表现。在本调查中,我们对深度微表达识别(MER)进行了全面的审查,包括数据集,深度MER管道和最具影响力方法的基准标记。本调查定义了该领域的新分类法,包括基于DL的MER的所有方面。对于每个方面,总结和讨论了基本方法和高级发展。此外,我们得出了坚固的深层MER系统设计的剩余挑战和潜在方向。据我们所知,这是对深度MEL方法的第一次调查,该调查可以作为未来MER研究的参考点。
translated by 谷歌翻译
基于全面的生物识别是一个广泛的研究区域。然而,仅使用部分可见的面,例如在遮盖的人的情况下,是一个具有挑战性的任务。在这项工作中使用深卷积神经网络(CNN)来提取来自遮盖者面部图像的特征。我们发现,第六和第七完全连接的层,FC6和FC7分别在VGG19网络的结构中提供了鲁棒特征,其中这两层包含4096个功能。这项工作的主要目标是测试基于深度学习的自动化计算机系统的能力,不仅要识别人,还要对眼睛微笑等性别,年龄和面部表达的认可。我们的实验结果表明,我们为所有任务获得了高精度。最佳记录的准确度值高达99.95%,用于识别人员,99.9%,年龄识别的99.9%,面部表情(眼睛微笑)认可为80.9%。
translated by 谷歌翻译