在过去的十年中,电子学习已经彻底改变了学生通过随时随地获得素质教育的学习方式。然而,由于各种原因,学生经常会分心,这在很大程度上影响了学习能力。许多研究人员一直在努力提高在线教育的质量,但我们需要一个整体方法来解决这个问题。本文打算提供一种机制,该机制使用相机馈送和麦克风输入来监测在线类别期间学生的实时关注水平。我们探讨了本研究的各种图像处理技术和机器学习算法。我们提出了一个系统,它使用五个不同的非语言特征来计算基于计算机的任务期间学生的注意得分,并为学生和组织生成实时反馈。我们可以使用所产生的反馈作为启发式价值,以分析学生的整体性能以及讲师的教学标准。
translated by 谷歌翻译
面部表情因人而异,每个随机图像的亮度,对比度和分辨率都不同。这就是为什么识别面部表情非常困难的原因。本文使用卷积神经网络(CNN)提出了一个有效的面部情感识别系统(愤怒,厌恶,恐惧,幸福,悲伤,惊喜和中立)的系统,该系统可以预测和分配每种情绪的概率。由于深度学习模型从数据中学习,因此,我们提出的系统通过各种预处理步骤处理每个图像,以更好地预测。首先通过面部检测算法将每个图像都包含在训练数据集中。由于CNN需要大量数据,因此我们使用每个图像上的各种过滤器重复了数据。将大小80*100的预处理图像作为输入传递到CNN的第一层。使用了三个卷积层,其次是合并层和三层密集层。致密层的辍学率为20%。该模型通过组合两个公开可用的数据集(Jaffe和Kdef)进行了培训。 90%的数据用于培训,而10%用于测试。我们使用合并的数据集实现了78.1%的最高精度。此外,我们设计了提出的系统的应用程序,该系统具有图形用户界面,该界面实时对情绪进行了分类。
translated by 谷歌翻译
我们介绍了Daisee,这是第一个多标签视频分类数据集,该数据集由112个用户捕获的9068个视频片段,用于识别野外无聊,混乱,参与度和挫败感的用户情感状态。该数据集具有四个级别的标签 - 每个情感状态都非常低,低,高和很高,它们是人群注释并与使用专家心理学家团队创建的黄金标准注释相关的。我们还使用当今可用的最先进的视频分类方法在此数据集上建立了基准结果。我们认为,黛西(Daisee)将为研究社区提供特征提取,基于上下文的推理以及为相关任务开发合适的机器学习方法的挑战,从而为进一步的研究提供了跳板。该数据集可在https://people.iith.ac.in/vineethnb/resources/daisee/daisee/index.html下载。
translated by 谷歌翻译
在大多数领域,从人工智能和游戏到人类计算机互动(HCI)和心理学,面部表情识别是一个重要的研究主题。本文提出了一个用于面部表达识别的混合模型,该模型包括深度卷积神经网络(DCNN)和HAAR级联深度学习体系结构。目的是将实时和数字面部图像分类为所考虑的七个面部情感类别之一。这项研究中使用的DCNN具有更多的卷积层,恢复激活功能以及多个内核,以增强滤波深度和面部特征提取。此外,HAAR级联模型还相互用于检测实时图像和视频帧中的面部特征。来自Kaggle存储库(FER-2013)的灰度图像,然后利用图形处理单元(GPU)计算以加快培训和验证过程。预处理和数据增强技术用于提高培训效率和分类性能。实验结果表明,与最先进的实验和研究相比,分类性能有了显着改善的分类性能。同样,与其他常规模型相比,本文验证了所提出的体系结构在分类性能方面表现出色,提高了6%,总计高达70%的精度,并且执行时间较小,为2098.8S。
translated by 谷歌翻译
面部情感识别是识别心理学用来诊断患者的重要工具之一。面部和面部情感识别是机器学习卓越的领域。由于不同的环境,例如照明条件,姿势变化,偏航运动和遮挡,面部情绪识别是对数字图像处理的开放挑战。深度学习方法已显示出图像识别的显着改善。但是,准确性和时间仍然需要改进。这项研究旨在在训练期间提高面部情绪识别的准确性,并使用Extreme Learning Machine(CNNeelm)增强的修改后的卷积神经网络减少处理时间。该系统需要(CNNeelm)提高培训期间图像注册的准确性。此外,该系统通过拟议的CNNeelm模型认识到六种面部情绪快乐,悲伤,厌恶,恐惧,惊喜和中立。研究表明,与经过改进的随机梯度下降(SGD)技术相比,总体面部情绪识别精度的提高了2%。借助Extreme Learning Machine(ELM)分类器,处理时间从113ms中降至65ms,可以从20fps的视频剪辑中平滑地对每个帧进行分类。使用预先训练的InceptionV3模型,建议使用JAFFE,CK+和FER2013表达数据集训练所提出的CNNeelm模型。仿真结果显示出准确性和处理时间的显着改善,使该模型适合视频分析过程。此外,该研究解决了处理面部图像所需的大量处理时间的问题。
translated by 谷歌翻译
分析对人脸上的表达在识别人的情绪和行为方面发挥着非常重要的作用。识别这些表达式会自动导致自然人机接口的重要组成部分。因此,该领域的研究在生物公制认证,监控系统,情感到各种社交媒体平台中的情感方面具有广泛的应用。另一个申请包括进行客户满意度调查。正如我们所知,大型公司使巨额投资获得反馈并进行调查,但未能获得公平的反应。通过面部手势的情感和性别识别是一种技术,旨在通过他们的评价监测客户行为来改善产品和服务性能。在过去几年中,在特征提取机制,面部检测和表达分类技术方面已经进行了各种各样的进展。本文是实施一个用于构建可以检测到人的情绪和性别的实时系统的集合CNN。实验结果表明,在FER-2013 DataSet上的7个课程(愤怒,恐惧,悲伤,快乐,惊喜,中立,中立,厌恶)和IMDB数据集上的性别分类(男性或女性)的95%,精度为68%的准确性。我们的工作可以预测单一面部图像以及多个面部图像的情感和性别。此外,当通过网络摄像头给出输入时,我们的完整流水线可以花费小于0.5秒才能生成结果。
translated by 谷歌翻译
意识检测技术一直在各种企业中获得牵引力;最常用于驾驶员疲劳检测,最近的研究已经转向使用计算机视觉技术来分析在线教室等环境中的用户注意。本文旨在通过分析预测意识和疲劳的最大贡献,扩展了以前的分支检测研究。我们利用开源面部分析工具包OpenFace,以分析不同程度的注意力水平的受试者的视觉数据。然后,使用支持向量机(SVM),我们创建了几种用于用户注意的预测模型,并识别导向渐变(HOG)和动作单位的直方图,是我们测试的功能的最大预测因子。我们还将这种SVM的性能与利用卷积和/或经常性神经网络(CNN和CRNN)的性能进行了比较了这种SVM的性能。有趣的是,CRNN似乎没有比他们的CNN同行更好地表现出来。虽然深入学习方法实现了更大的预测精度,但使用较少的资源,使用某些参数来利用SVMS,能够逼近深度学习方法的性能。
translated by 谷歌翻译
In education and intervention programs, user engagement has been identified as a major factor in successful program completion. Automatic measurement of user engagement provides helpful information for instructors to meet program objectives and individualize program delivery. In this paper, we present a novel approach for video-based engagement measurement in virtual learning programs. We propose to use affect states, continuous values of valence and arousal extracted from consecutive video frames, along with a new latent affective feature vector and behavioral features for engagement measurement. Deep-learning sequential models are trained and validated on the extracted frame-level features. In addition, due to the fact that engagement is an ordinal variable, we develop the ordinal versions of the above models in order to address the problem of engagement measurement as an ordinal classification problem. We evaluated the performance of the proposed method on the only two publicly available video engagement measurement datasets, DAiSEE and EmotiW-EW, containing videos of students in online learning programs. Our experiments show a state-of-the-art engagement level classification accuracy of 67.4% on the DAiSEE dataset, and a regression mean squared error of 0.0508 on the EmotiW-EW dataset. Our ablation study shows the effectiveness of incorporating affect states and ordinality of engagement in engagement measurement.
translated by 谷歌翻译
由于COVID-19,许多学校通过视频会议软件在线考试已经采用了许多学校。虽然方便,但教师要同时显示的学生变焦窗口监督在线考试是具有挑战性的。在本文中,我们提出了IEXAM,这是一种智能的在线考试监测和分析系统,不仅可以使用面部检测来帮助监护人实时学生识别,而且还可以检测到常见的异常行为(包括面部消失,旋转的面部,旋转的面部,旋转,,旋转,并在考试期间用另一个人替换)通过基于面部识别后的外观后视频分析。为了建立这样的新型系统,我们克服了三个挑战。首先,我们发现了一种轻巧的方法来捕获考试视频流并实时分析它们。其次,我们利用每个学生的变焦窗口上显示的左角名称,并提出了改进的OCR(光学角色识别)技术来自动收集具有动态位置的学生面孔的地面真相。第三,我们进行了几次实验比较和优化,以有效缩短教师PC所需的训练时间和测试时间。我们的评估表明,IEXAM可以实现高精度,实时面部检测为90.4%,后验后面部识别率为98.4%,同时保持可接受的运行时性能。我们已经在https://github.com/vprlab/iexam上提供了IEXAM的源代码。
translated by 谷歌翻译
人类的情感认可是人工智能的积极研究领域,在过去几年中取得了实质性的进展。许多最近的作品主要关注面部区域以推断人类的情感,而周围的上下文信息没有有效地利用。在本文中,我们提出了一种新的深网络,有效地识别使用新的全球局部注意机制的人类情绪。我们的网络旨在独立地从两个面部和上下文区域提取特征,然后使用注意模块一起学习它们。以这种方式,面部和上下文信息都用于推断人类的情绪,从而增强分类器的歧视。密集实验表明,我们的方法超越了最近的最先进的方法,最近的情感数据集是公平的保证金。定性地,我们的全球局部注意力模块可以提取比以前的方法更有意义的注意图。我们网络的源代码和培训模型可在https://github.com/minhnhatvt/glamor-net上获得
translated by 谷歌翻译
Technology has transformed traditional educational systems around the globe; integrating digital learning tools into classrooms offers students better opportunities to learn efficiently and allows the teacher to transfer knowledge more easily. In recent years, there have been many improvements in smart classrooms. For instance, the integration of facial emotion recognition systems (FER) has transformed the classroom into an emotionally aware area using the power of machine intelligence and IoT. This paper provides a consolidated survey of the state-of-the-art in the concept of smart classrooms and presents how the application of FER systems significantly takes this concept to the next level
translated by 谷歌翻译
Studying facial expressions is a notoriously difficult endeavor. Recent advances in the field of affective computing have yielded impressive progress in automatically detecting facial expressions from pictures and videos. However, much of this work has yet to be widely disseminated in social science domains such as psychology. Current state of the art models require considerable domain expertise that is not traditionally incorporated into social science training programs. Furthermore, there is a notable absence of user-friendly and open-source software that provides a comprehensive set of tools and functions that support facial expression research. In this paper, we introduce Py-Feat, an open-source Python toolbox that provides support for detecting, preprocessing, analyzing, and visualizing facial expression data. Py-Feat makes it easy for domain experts to disseminate and benchmark computer vision models and also for end users to quickly process, analyze, and visualize face expression data. We hope this platform will facilitate increased use of facial expression data in human behavior research.
translated by 谷歌翻译
近年来,虚拟学习已成为传统课堂教学的替代方法。学生参与虚拟学习可能会对满足学习目标和计划辍学风险产生重大影响。在虚拟学习环境中,有许多专门针对学生参与度(SE)的测量工具。在这项关键综述中,我们分析了这些作品,并从不同的参与定义和测量量表上突出了不一致之处。现有研究人员之间的这种多样性在比较不同的注释和构建可推广的预测模型时可能会出现问题。我们进一步讨论了有关参与注释和设计缺陷的问题。我们根据我们定义的七个参与注释的七个维度分析现有的SE注释量表,包括来源,用于注释的数据模式,注释发生的时间,注释发生的时间段,抽象,组合和组合水平的时间段,定量。令人惊讶的发现之一是,在SE测量中,很少有审查的数据集使用了现有的精神法法学验证量表中的注释中。最后,我们讨论了除虚拟学习以外的其他一些范围,这些量表具有用于测量虚拟学习中SE的潜力。
translated by 谷歌翻译
基于视觉的深度学习模型对于演讲和听力受损和秘密通信可能是有希望的。虽然这种非言语通信主要通过手势和面部表情调查,但到目前为止,洛杉状态(即打开/关闭)的解释/翻译系统没有跟踪努力的研究。为了支持这一发展,本文报告了两个新的卷积神经网络(CNN)模型用于嘴唇状态检测。建立两个突出的嘴唇地标检测器,DLIB和MediaPipe,我们用一组六个关键地标简化嘴唇状态模型,并使用它们对嘴唇状态分类的距离。因此,开发了两种模型以计算嘴唇的打开和关闭,因此,它们可以将符号分类为总数。调查不同的帧速率,唇部运动和面部角度以确定模型的有效性。我们早期的实验结果表明,在平均每秒6帧(FPS)和95.25%的平均水平检测精度的平均值相对较慢,DLIB的模型相对较慢。相比之下,带有MediaPipe的模型提供了更快的地标检测能力,平均FPS为20,检测精度为94.4%。因此,这两种模型都可以有效地将非口头语义中的嘴唇状态解释为自然语言。
translated by 谷歌翻译
这项工作代表了沉浸式数字学习平台的系统面部表达识别和面部压力分析算法的实验和开发过程。该系统从用户网络摄像头检索,并使用人工神经网络(ANN)算法对其进行评估。 ANN输出信号可用于评分和改进学习过程。将ANN适应新系统可能需要大量的实施工作或重复ANN培训。还存在与运行ANN所需的最小硬件有关的局限性。为了使这些限制超过这些约束,提出了一些可能的面部表达识别和面部压力分析算法的实现。新解决方案的实施使得提高识别面部表情的准确性并提高其响应速度成为可能。实验结果表明,与社交设备相比,使用开发的算法可以以更高的速度检测心率。
translated by 谷歌翻译
大量人群遭受全世界认知障碍。认知障碍的早期发现对患者和护理人员来说都非常重要。然而,现有方法具有短缺,例如诊所和神经影像阶段参与的时间消耗和财务费用。已经发现认知障碍的患者显示出异常的情绪模式。在本文中,我们展示了一种新的深度卷积网络的系统,通过分析面部情绪的演变来检测认知障碍,而参与者正在观看设计的视频刺激。在我们所提出的系统中,使用来自MobileNet的层和支持向量机(SVM)的图层开发了一种新的面部表情识别算法,这在3个数据集中显示了令人满意的性能。为了验证拟议的检测认知障碍系统,已经邀请了61名老年人,包括认知障碍和健康人作为对照组的患者参加实验,并相应地建立了一个数据集。使用此数据集,所提出的系统已成功实现73.3%的检测精度。
translated by 谷歌翻译
来自静态图像的面部表情识别是计算机视觉应用中的一个具有挑战性的问题。卷积神经网络(CNN),用于各种计算机视觉任务的最先进的方法,在预测具有极端姿势,照明和闭塞条件的面部的表达式中已经有限。为了缓解这个问题,CNN通常伴随着传输,多任务或集合学习等技术,这些技术通常以增加的计算复杂性的成本提供高精度。在这项工作中,我们提出了一种基于零件的集合转移学习网络,其模型通过将面部特征的空间方向模式与特定表达相关来模拟人类如何识别面部表达。它由5个子网络组成,每个子网络从面部地标的五个子集中执行转移学习:眉毛,眼睛,鼻子,嘴巴或颌骨表达分类。我们表明我们所提出的集合网络使用从面部肌肉的电机运动发出的视觉模式来预测表达,并展示从面部地标定位转移到面部表情识别的实用性。我们在CK +,Jaffe和SFew数据集上测试所提出的网络,并且它分别优于CK +和Jaffe数据集的基准,分别为0.51%和5.34%。此外,所提出的集合网络仅包括1.65M的型号参数,确保在培训和实时部署期间的计算效率。我们所提出的集合的Grad-Cam可视化突出了其子网的互补性质,是有效集合网络的关键设计参数。最后,交叉数据集评估结果表明,我们建议的集合具有高泛化能力,使其适合现实世界使用。
translated by 谷歌翻译
通常根据历史崩溃数据来实践道路的风险评估。有时缺少有关驾驶员行为和实时交通情况的信息。在本文中,安全的路线映射(SRM)模型是一种开发道路动态风险热图的方法,可扩展在做出预测时考虑驾驶员行为。 Android应用程序旨在收集驱动程序的信息并将其上传到服务器。在服务器上,面部识别提取了驱动程序的数据,例如面部地标,凝视方向和情绪。检测到驾驶员的嗜睡和分心,并评估驾驶性能。同时,动态的流量信息由路边摄像头捕获并上传到同一服务器。采用基于纵向扫描的动脉交通视频分析来识别视频中的车辆以建立速度和轨迹概况。基于这些数据,引入了LightGBM模型,以预测接下来一两秒钟的驾驶员的冲突指数。然后,使用模糊逻辑模型合并了多个数据源,包括历史崩溃计数和预测的交通冲突指标,以计算道路细分的风险评分。使用从实际的交通交叉点和驾驶模拟平台收集的数据来说明所提出的SRM模型。预测结果表明该模型是准确的,并且增加的驱动程序行为功能将改善模型的性能。最后,为可视化目的而生成风险热图。当局可以使用动态热图来指定安全的走廊,并调度执法部门以及驱动程序,以预警和行程计划。
translated by 谷歌翻译
在驾驶的背景下进行警觉性监控可改善安全性并挽救生命。基于计算机视觉的警报监视是一个活跃的研究领域。但是,存在警觉性监控的算法和数据集主要针对年轻人(18-50岁)。我们提出了一个针对老年人进行车辆警报监控的系统。通过设计研究,我们确定了适合在5级车辆中独立旅行的老年人的变量和参数。我们实施了一个原型旅行者监测系统,并评估了十个老年人(70岁及以上)的警报检测算法。我们以适合初学者或从业者的详细级别报告系统设计和实施。我们的研究表明,数据集的开发是开发针对老年人的警觉性监测系统的首要挑战。这项研究是迄今为止研究不足的人群中的第一项研究,并通过参与方法对未来的算法开发和系统设计具有影响。
translated by 谷歌翻译
Training facial emotion recognition models requires large sets of data and costly annotation processes. To alleviate this problem, we developed a gamified method of acquiring annotated facial emotion data without an explicit labeling effort by humans. The game, which we named Facegame, challenges the players to imitate a displayed image of a face that portrays a particular basic emotion. Every round played by the player creates new data that consists of a set of facial features and landmarks, already annotated with the emotion label of the target facial expression. Such an approach effectively creates a robust, sustainable, and continuous machine learning training process. We evaluated Facegame with an experiment that revealed several contributions to the field of affective computing. First, the gamified data collection approach allowed us to access a rich variation of facial expressions of each basic emotion due to the natural variations in the players' facial expressions and their expressive abilities. We report improved accuracy when the collected data were used to enrich well-known in-the-wild facial emotion datasets and consecutively used for training facial emotion recognition models. Second, the natural language prescription method used by the Facegame constitutes a novel approach for interpretable explainability that can be applied to any facial emotion recognition model. Finally, we observed significant improvements in the facial emotion perception and expression skills of the players through repeated game play.
translated by 谷歌翻译