智能论文笔记

Affect-driven Ordinal Engagement Measurement from Video

Ali Abedi , Shehroz Khan

分类：计算机视觉

2021-06-21

In education and intervention programs, user engagement has been identified as a major factor in successful program completion. Automatic measurement of user engagement provides helpful information for instructors to meet program objectives and individualize program delivery. In this paper, we present a novel approach for video-based engagement measurement in virtual learning programs. We propose to use affect states, continuous values of valence and arousal extracted from consecutive video frames, along with a new latent affective feature vector and behavioral features for engagement measurement. Deep-learning sequential models are trained and validated on the extracted frame-level features. In addition, due to the fact that engagement is an ordinal variable, we develop the ordinal versions of the above models in order to address the problem of engagement measurement as an ordinal classification problem. We evaluated the performance of the proposed method on the only two publicly available video engagement measurement datasets, DAiSEE and EmotiW-EW, containing videos of students in online learning programs. Our experiments show a state-of-the-art engagement level classification accuracy of 67.4% on the DAiSEE dataset, and a regression mean squared error of 0.0508 on the EmotiW-EW dataset. Our ablation study shows the effectiveness of incorporating affect states and ordinality of engagement in engagement measurement.

translated by 谷歌翻译

Inconsistencies in Measuring Student Engagement in Virtual Learning -- A Critical Review

Shehroz S. Khan , Ali Abedi , Tracey Colella

分类：计算机视觉

2022-08-09

近年来，虚拟学习已成为传统课堂教学的替代方法。学生参与虚拟学习可能会对满足学习目标和计划辍学风险产生重大影响。在虚拟学习环境中，有许多专门针对学生参与度（SE）的测量工具。在这项关键综述中，我们分析了这些作品，并从不同的参与定义和测量量表上突出了不一致之处。现有研究人员之间的这种多样性在比较不同的注释和构建可推广的预测模型时可能会出现问题。我们进一步讨论了有关参与注释和设计缺陷的问题。我们根据我们定义的七个参与注释的七个维度分析现有的SE注释量表，包括来源，用于注释的数据模式，注释发生的时间，注释发生的时间段，抽象，组合和组合水平的时间段，定量。令人惊讶的发现之一是，在SE测量中，很少有审查的数据集使用了现有的精神法法学验证量表中的注释中。最后，我们讨论了除虚拟学习以外的其他一些范围，这些量表具有用于测量虚拟学习中SE的潜力。

translated by 谷歌翻译

Going Deeper than Tracking: a Survey of Computer-Vision Based Recognition of Animal Pain and Affective States

Sofia Broomé , Marcelo Feighelstein , Anna Zamansky , Gabriel Carreira Lencioni , Pia Haubro Andersen , Francisca Pessanha , Marwa Mahmoud , Hedvig Kjellström , Albert Ali Salah

分类：计算机视觉

2022-06-16

动物运动跟踪和姿势识别的进步一直是动物行为研究的游戏规则改变者。最近，越来越多的作品比跟踪“更深”，并解决了对动物内部状态（例如情绪和痛苦）的自动认识，目的是改善动物福利，这使得这是对该领域进行系统化的及时时刻。本文对基于计算机的识别情感状态和动物的疼痛的研究进行了全面调查，并涉及面部行为和身体行为分析。我们总结了迄今为止在这个主题中所付出的努力 - 对它们进行分类，从不同的维度进行分类，突出挑战和研究差距，并提供最佳实践建议，以推进该领域以及一些未来的研究方向。

translated by 谷歌翻译

DAiSEE: Towards User Engagement Recognition in the Wild

Abhay Gupta , Arjun D'Cunha , Kamal Awasthi , Vineeth Balasubramanian

分类：计算机视觉 | 机器学习

2016-09-07

我们介绍了Daisee，这是第一个多标签视频分类数据集，该数据集由112个用户捕获的9068个视频片段，用于识别野外无聊，混乱，参与度和挫败感的用户情感状态。该数据集具有四个级别的标签 - 每个情感状态都非常低，低，高和很高，它们是人群注释并与使用专家心理学家团队创建的黄金标准注释相关的。我们还使用当今可用的最先进的视频分类方法在此数据集上建立了基准结果。我们认为，黛西（Daisee）将为研究社区提供特征提取，基于上下文的推理以及为相关任务开发合适的机器学习方法的挑战，从而为进一步的研究提供了跳板。该数据集可在https://people.iith.ac.in/vineethnb/resources/daisee/daisee/index.html下载。

translated by 谷歌翻译

SFF-DA: Sptialtemporal Feature Fusion for Detecting Anxiety Nonintrusively

Haimiao Mo , Yuchen Li , Shanlin Yang , Wei Zhang , Shuai Ding

分类：计算机视觉

2022-08-12

早期发现焦虑症对于减少精神障碍患者的苦难并改善治疗结果至关重要。基于MHealth平台的焦虑筛查在提高筛选效率和降低筛查成本方面具有特殊实用价值。实际上，受试者的身体和心理评估中移动设备的差异以及数据质量不均匀的问题和现实世界中数据的少量数据量使现有方法无效。因此，我们提出了一个基于时空特征融合的框架，用于非触发焦虑。为了降低数据质量不平衡的影响，我们构建了一个基于“ 3DCNN+LSTM”的特征提取网络，并融合了面部行为和非接触式生理学的时空特征。此外，我们设计了一种相似性评估策略，以解决较小的数据样本量导致模型准确性下降的问题。我们的框架已通过现实世界中的机组数据集进行了验证，并且两个公共数据集UBFC-Phys和Swell-KW。实验结果表明，我们框架的总体性能要比最新的比较方法更好。

translated by 谷歌翻译

More is Better: A Database for Spontaneous Micro-Expression with High Frame Rates

Sirui Zhao , Huaying Tang , Xinglong Mao , Shifeng Liu , Hanqing Tao , Hao Wang , Tong Xu , Enhong Chen

分类：计算机视觉

2023-01-03

As one of the most important psychic stress reactions, micro-expressions (MEs), are spontaneous and transient facial expressions that can reveal the genuine emotions of human beings. Thus, recognizing MEs (MER) automatically is becoming increasingly crucial in the field of affective computing, and provides essential technical support in lie detection, psychological analysis and other areas. However, the lack of abundant ME data seriously restricts the development of cutting-edge data-driven MER models. Despite the recent efforts of several spontaneous ME datasets to alleviate this problem, it is still a tiny amount of work. To solve the problem of ME data hunger, we construct a dynamic spontaneous ME dataset with the largest current ME data scale, called DFME (Dynamic Facial Micro-expressions), which includes 7,526 well-labeled ME videos induced by 671 participants and annotated by more than 20 annotators throughout three years. Afterwards, we adopt four classical spatiotemporal feature learning models on DFME to perform MER experiments to objectively verify the validity of DFME dataset. In addition, we explore different solutions to the class imbalance and key-frame sequence sampling problems in dynamic MER respectively on DFME, so as to provide a valuable reference for future research. The comprehensive experimental results show that our DFME dataset can facilitate the research of automatic MER, and provide a new benchmark for MER. DFME will be published via https://mea-lab-421.github.io.

translated by 谷歌翻译

Class-attention Video Transformer for Engagement Intensity Prediction

Xusheng Ai , Victor S. Sheng , Chunhua Li

分类：计算机视觉 | 机器学习

2022-08-12

为了处理变异长度的长视频，先前的作品提取了多模式功能并将其融合以预测学生的参与强度。在本文中，我们在视频变压器（CAVT）中提出了一个新的端到端方法类的关注，该方法涉及一个向量来处理类嵌入并均匀地对变异长的视频和固定的端到端学习 - 长度短视频。此外，为了解决缺乏足够的样本，我们提出了一种二进制代表采样方法（BOR）来添加每个视频的多个视频序列以增强训练集。BORS+CAVT不仅可以在EMOTIW-EP数据集上实现最先进的MSE（0.0495），而且还可以在Daisee数据集上获得最新的MSE（0.0377）。代码和模型将在https://github.com/mountainai/cavt上公开提供。

translated by 谷歌翻译

DeepTMH: Multimodal Semi-supervised framework leveraging Affective and Cognitive engagement for Telemental Health

Pooja Guhan , Naman Awasthi , Ritwika Das , Manas Agarwal , Kathryn McDonald , Kristin Bussell , Dinesh Manocha , Gloria Reeves , Aniket Bera

分类：计算机视觉

2020-11-17

为了帮助现有的Telemental Mechanical服务，我们提出Deeptmh，这是一种通过提取对应于心理学文献经常使用的情感和认知特征的潜视和认知特征来模拟Telemental Mealth Session视频的新框架。我们的方法利用半监督学习的进步来解决Telemental Healts Sessience视频领域的数据稀缺，包括多模式半监督GaN，以检测Telemental卫生课程中的重要心理健康指标。我们展示了我们框架的有用性和与现有工作中的两项任务对比：参与回归和价值回归，这两者都对心理学家在眼药性健康会议期间对心理学家很重要。我们的框架报告了RMSE在参与回归中的RMSE方法的40％，并在价值唤醒回归中的SOTA方法中的50％改善。为了解决Telemental Health空间中公开的数据集的稀缺性，我们发布了一个新的数据集，Medica，用于心理健康患者参与检测。我们的数据集，Medica由1299个视频组成，每节3秒长。据我们所知，我们的方法是基于心理驱动的情感和认知功能来模拟Telemental Healts会话数据的第一种方法，这也通过利用半监督设置来解决数据稀疏性。

translated by 谷歌翻译

A Multimodal Approach for Automatic Mania Assessment in Bipolar Disorder

Pınar Baki

分类：自然语言处理 | 机器学习

2021-12-17

双相情感障碍是一种心理健康障碍，导致情绪波动，从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的，并从患者的护理人员获得的报告。随后，诊断取决于专家的经验，并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标，并让患者的更容易观察较长的时间。此外，在Covid-19大流行期间，对遥控和诊断的需求变得尤为重要。在本论文中，我们根据声学，语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统，以及各种融合技术。除了使用单向特征处理整个患者会话外，还研究了剪辑的任务级调查。在多模式融合系统中使用声学，语言和视觉特征，我们实现了64.8％的未加权平均召回得分，这提高了在该数据集上实现的最先进的性能。

translated by 谷歌翻译

Global-Local Attention for Emotion Recognition

Nhat Le , Khanh Nguyen , Anh Nguyen , Bac Le

分类：计算机视觉

2021-11-07

人类的情感认可是人工智能的积极研究领域，在过去几年中取得了实质性的进展。许多最近的作品主要关注面部区域以推断人类的情感，而周围的上下文信息没有有效地利用。在本文中，我们提出了一种新的深网络，有效地识别使用新的全球局部注意机制的人类情绪。我们的网络旨在独立地从两个面部和上下文区域提取特征，然后使用注意模块一起学习它们。以这种方式，面部和上下文信息都用于推断人类的情绪，从而增强分类器的歧视。密集实验表明，我们的方法超越了最近的最先进的方法，最近的情感数据集是公平的保证金。定性地，我们的全球局部注意力模块可以提取比以前的方法更有意义的注意图。我们网络的源代码和培训模型可在https://github.com/minhnhatvt/glamor-net上获得

translated by 谷歌翻译

How Facial Features Convey Attention in Stationary Environments

Janelle Domantay

分类：计算机视觉

2021-11-29

意识检测技术一直在各种企业中获得牵引力;最常用于驾驶员疲劳检测，最近的研究已经转向使用计算机视觉技术来分析在线教室等环境中的用户注意。本文旨在通过分析预测意识和疲劳的最大贡献，扩展了以前的分支检测研究。我们利用开源面部分析工具包OpenFace，以分析不同程度的注意力水平的受试者的视觉数据。然后，使用支持向量机（SVM），我们创建了几种用于用户注意的预测模型，并识别导向渐变（HOG）和动作单位的直方图，是我们测试的功能的最大预测因子。我们还将这种SVM的性能与利用卷积和/或经常性神经网络（CNN和CRNN）的性能进行了比较了这种SVM的性能。有趣的是，CRNN似乎没有比他们的CNN同行更好地表现出来。虽然深入学习方法实现了更大的预测精度，但使用较少的资源，使用某些参数来利用SVMS，能够逼近深度学习方法的性能。

translated by 谷歌翻译

Face-to-Face Co-Located Human-Human Social Interaction Analysis using Nonverbal Cues: A Survey

Cigdem Beyan , Alessandro Vinciarelli , Alessio Del Bue

分类：人工智能 | 计算机视觉 | 机器学习

2022-07-20

这项工作对最近的努力进行了系统的综述（自2010年以来），旨在自动分析面对面共同关联的人类社交互动中显示的非语言提示。专注于非语言提示的主要原因是，这些是社会和心理现象的物理，可检测到的痕迹。因此，检测和理解非语言提示至少在一定程度上意味着检测和理解社会和心理现象。所涵盖的主题分为三个：a）建模社会特征，例如领导力，主导，人格特质，b）社会角色认可和社会关系检测以及c）群体凝聚力，同情，rapport和so的互动动态分析向前。我们针对共同的相互作用，其中相互作用的人永远是人类。该调查涵盖了各种各样的环境和场景，包括独立的互动，会议，室内和室外社交交流，二元对话以及人群动态。对于他们每个人，调查都考虑了非语言提示分析的三个主要要素，即数据，传感方法和计算方法。目的是突出显示过去十年的主要进步，指出现有的限制并概述未来的方向。

translated by 谷歌翻译

Deep Learning for Micro-expression Recognition: A Survey

Yante Li , Jinsheng Wei , Yang Liu , Janne Kauttonen , Guoying Zhao

分类：计算机视觉

2021-07-06

微表达（MES）是非自愿的面部运动，揭示了人们在高利害情况下隐藏的感受，并对医疗，国家安全，审讯和许多人机交互系统具有实际重要性。早期的MER方法主要基于传统的外观和几何特征。最近，随着各种领域的深度学习（DL）的成功，神经网络已得到MER的兴趣。不同于宏观表达，MES是自发的，微妙的，快速的面部运动，导致数据收集困难，因此具有小规模的数据集。由于上述我的角色，基于DL的MER变得挑战。迄今为止，已提出各种DL方法来解决我的问题并提高MER表现。在本调查中，我们对深度微表达识别（MER）进行了全面的审查，包括数据集，深度MER管道和最具影响力方法的基准标记。本调查定义了该领域的新分类法，包括基于DL的MER的所有方面。对于每个方面，总结和讨论了基本方法和高级发展。此外，我们得出了坚固的深层MER系统设计的剩余挑战和潜在方向。据我们所知，这是对深度MEL方法的第一次调查，该调查可以作为未来MER研究的参考点。

translated by 谷歌翻译

Are 3D Face Shapes Expressive Enough for Recognising Continuous Emotions and Action Unit Intensities?

Mani Kumar Tellamekala , Ömer Sümer , Björn W. Schuller , Elisabeth André , Timo Giesbrecht , Michel Valstar

分类：计算机视觉

2022-07-03

识别面部视频的连续情绪和动作单元（AU）强度需要对表达动态的空间和时间理解。现有作品主要依赖2D面的外观来提取这种动态。这项工作着重于基于参数3D面向形状模型的有希望的替代方案，该模型解散了不同的变异因素，包括表达诱导的形状变化。我们旨在了解与最先进的2D外观模型相比，在估计价值和AU强度方面表现性3D面部形状如何。我们基准了四个最近的3D面对准模型：Expnet，3DDFA-V2，DECA和EMOCA。在价值估计中，3D面模型的表达特征始终超过以前的作品，并在SEWA和AVEC 2019 CES CORPORA上的平均一致性相关性分别为.739和.574。我们还研究了BP4D和DISFA数据集的AU强度估计的3D面形状如何执行，并报告说3D脸部功能在AUS 4、6、10、12和25中与2D外观特征相当，但没有整个集合。 aus。为了理解这种差异，我们在价值和AUS之间进行了对应分析，该分析指出，准确的价值预测可能仅需要少数AU的知识。

translated by 谷歌翻译

Head Matters: Explainable Human-centered Trait Prediction from Head Motion Dynamics

Surbhi Madan , Monika Gahalawat , Tanaya Guha , Ramanathan Subramanian

分类：机器学习

2021-12-15

我们展示了基本的头部动作单位被称为行为分析的Kinemes，以预测人格和面试特征。将头部运动模式转换为一系列型术语有助于发现表征目标性状的潜在时间签名，从而实现有效和可说明的特征预测。利用Kinemes和面部动作编码系统（FACS）特征来预测（a）在第一次印象上的海洋人格性状候选筛选视频中，（b）在MIT数据集上的面试特征，我们注意到：（1）长期用Kineme序列训练的内存（LSTM）网络表现优于或类似于用面部图像培训的卷积神经网络（CNN）;（2）与Kinemes组合的FACS动作单位（AUS）组合实现了精确的预测和解释，并且（3）预测性能受到朝向头部和面部运动的时间长度的影响。

translated by 谷歌翻译

Learning from Label Relationships in Human Affect

Niki Maria Foteinopoulou , Ioannis Patras

分类：计算机视觉

2022-07-12

人类的情感和心理状态以自动化的方式估计，面临许多困难，包括从差或没有时间分辨率的标签中学习，从很少有数据的数据集中学习（通常是由于机密性约束），并且（非常）很长 - 野外视频。由于这些原因，深度学习方法倾向于过度合适，也就是说，在最终回归任务上获得概括性差的潜在表示。为了克服这一点，在这项工作中，我们介绍了两个互补的贡献。首先，我们引入了一种新型的关系损失，以解决多标签回归和序数问题，该问题规则学习并导致更好的概括。拟议的损失使用标签矢量间歇间信息来通过将批次标签距离与潜在特征空间中的距离进行对齐，从而学习更好的潜在表示。其次，我们利用了两个阶段的注意体系结构，该体系结构通过使用相邻夹中的功能作为时间上下文来估计每个剪辑的目标。我们评估了关于连续影响和精神分裂症严重程度估计问题的提议方法，因为两者之间存在方法论和背景相似之处。实验结果表明，所提出的方法的表现优于所有基准。在精神分裂症的领域中，拟议的方法学优于先前的最先进的利润率，其PCC的PCC绩效高达78％的绩效（85％）（85％），并且比以前的工作高得多（Uplift FiftLift最多40％）。在情感识别的情况下，我们在OMG和AMIGOS数据集上都以CCC为基础的先前基于以前的方法。对于Amigos而言，我们的唤醒和价值分别均优于先前的SOTA CCC，分别为9％和13％，在OMG数据集中，我们的效果均优于先前的视力，唤醒和价值均高达5％。

translated by 谷歌翻译

Classification of Abnormal Hand Movement for Aiding in Autism Detection: Machine Learning Study

Anish Lakkapragada , Aaron Kline , Onur Cezmi Mutlu , Kelley Paskov , Brianna Chrisman , Nate Stockham , Peter Washington , Dennis Wall

分类：计算机视觉

2021-08-18

正式的自闭症诊断可以是效率低下和冗长的过程。尽管有证据表明早期的干预导致更好的治疗结果，但家庭可能会等待几个月或更长时间。数字技术检测与自闭症相关的行为的存在可以扩展到儿科诊断。这项工作旨在展示深度学习技术的可行性，用于从非结构化的家庭视频检测手动拍打作为验证模型和数字技术是否可以利用自闭症诊断的第一步。我们使用了自我刺激行为数据集（SSBD），其中包含75个手扑扑，头部敲打和儿童展示的旋转。从所有的手拍摄视频中，我们提取了100个扑扑的100个正和控制视频，每个持续时间为2到5秒。利用地标驱动方法和MobileNet V2的预训练层，我们的最高性能模型在评估5倍的交叉验证时，达到了84％（90％精度和80％召回）的测试F1得分。这项工作为开发精确的深层学习方法提供了对自闭症相关行为的活动检测的第一步。

translated by 谷歌翻译

Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space Using Joint Cross-Attention

R Gnana Praveen , Eric Granger , Patrick Cardinal

分类：计算机视觉

2022-09-19

自动情绪识别（ER）最近由于其在许多实际应用中的潜力而引起了很多兴趣。在这种情况下，已经证明多模式方法可以通过结合多样化和互补的信息来源，从而提高性能（超过单峰方法），从而为嘈杂和缺失的方式提供了一些鲁棒性。在本文中，我们根据从视频中提取的面部和声音方式融合的尺寸ER专注于尺寸，其中探索了互补的视听（A-V）关系，以预测个人在价值空间中的情绪状态。大多数最先进的融合技术都依赖于反复的网络或常规的注意机制，这些机制无法有效利用A-V模式的互补性。为了解决这个问题，我们引入了A-V融合的联合跨注意模型，该模型在A-V模态上提取显着特征，从而可以有效利用模式间关系，同时保留模式内关系。特别是，它根据联合特征表示与单个模式的相关性计算交叉意义权重。通过将联合A-V特征表示形式部署到交叉意见模块中，它有助于同时利用内模式和模态关系，从而显着改善系统的性能，而不是香草交叉意见模块。我们提出的方法的有效性是在Recola和AffWild2数据集的挑战性视频中通过实验验证的。结果表明，我们的跨注意A-V融合模型提供了一种具有成本效益的解决方案，即使模式是嘈杂或不存在的，也可以超越最先进的方法。

translated by 谷歌翻译

Multimodal Personality Recognition using Cross-Attention Transformer and Behaviour Encoding

Tanay Agrawal , Dhruv Agarwal , Michal Balazia , Neelabh Sinha , Francois Bremond

分类：计算机视觉 | 人工智能

2021-12-22

人格计算和情感计算最近在许多研究领域获得了兴趣。任务的数据集通常具有视频，音频，语言和生物信号等多种方式。在本文中，我们提出了一种灵活的型号，用于利用所有可用数据的任务。该任务涉及复杂的关系，并避免使用大型模型进行视频处理，我们提出了使用行为编码，该行为编码具有对模型的最小变化的性能提升性能。近期使用变压器的横向感到流行，并且用于融合不同的方式。由于可能存在长期关系，因此不希望将输入破坏到块中，因此所提出的模型将整个输入处理在一起。我们的实验表明了上述每个贡献的重要性

translated by 谷歌翻译

Short and Long Range Relation Based Spatio-Temporal Transformer for Micro-Expression Recognition

Liangfei Zhang , Xiaopeng Hong , Ognjen Arandjelovic , Guoying Zhao

分类：计算机视觉

2021-12-10

无意识和自发的，微小表达在一个人的真实情绪的推动中是有用的，即使尝试隐藏它们。由于它们短的持续时间和低强度，对微表达的识别是情感计算中的艰巨任务。基于手工制作的时空特征的早期工作最近被不同的深度学习方法取代了现在竞争最先进的性能。然而，捕获本地和全球时空模式的问题仍然挑战。为此，本文我们提出了一种新颖的时空变压器架构 - 据我们所知，是微表达识别的第一种纯粹变压器的方法（即任何卷积网络使用的方法）。该架构包括用于学习空间模式的空间编码器，用于时间维度分析的时间聚合器和分类头。三种广泛使用的自发性微表达数据集，即Smic-HS，Casme II和SAMM的综合评估表明，该方法始终如一地优于现有技术，是发表在微表达上发表文献中的第一个框架在任何上述数据集上识别以实现未加权的F1分数大于0.9。

translated by 谷歌翻译