智能论文笔记

Evaluating Temporal Patterns in Applied Infant Affect Recognition

Allen Chang , Lauren Klein , Marcelo R. Rosales , Weiyang Deng , Beth A. Smith , Maja J. Matarić

分类：人工智能

2022-09-07

代理商必须连续监视其伴侣的情感状态，以了解和参与社交互动。但是，评估情感识别的方法不能说明在情感状态之间的阻塞或过渡期间可能发生的分类绩效的变化。本文解决了在婴儿机器人相互作用的背景下影响分类表现的时间模式，在这种情况下，婴儿的情感状态有助于他们参与治疗性腿部运动活动的能力。为了支持视频记录中面部遮挡的鲁棒性，我们训练了婴儿使用面部和身体功能的识别分类器。接下来，我们对表现最佳模型进行了深入的分析，以评估随着模型遇到丢失的数据和不断变化的婴儿影响，性能如何随时间变化。在高度信心提取功能的时间窗口期间，经过训练的面部功能的单峰模型与在面部和身体特征训练的多模式模型相同的最佳性能。但是，在整个数据集上评估时，多模型模型的表现优于单峰模型。此外，在预测情感状态过渡并在对同一情感状态进行多个预测后改善时，模型性能是最弱的。这些发现强调了将身体特征纳入婴儿的连续影响识别的好处。我们的工作强调了随着时间的流逝和在存在丢失的数据的存在时，评估模型性能变异性的重要性。

translated by 谷歌翻译

Towards Inclusive HRI: Using Sim2Real to Address Underrepresentation in Emotion Expression Recognition

Saba Akhyani , Mehryar Abbasi Boroujeni , Mo Chen , Angelica Lim

分类：计算机视觉

2022-08-15

与人类相互作用的机器人和人造代理应该能够在没有偏见和不平等的情况下这样做，但是众所周知，面部感知系统对某些人来说比其他人的工作更差。在我们的工作中，我们旨在建立一个可以以更透明和包容的方式感知人类的系统。具体而言，我们专注于对人脸的动态表达，由于隐私问题以及面部本质上可识别的事实，这很难为广泛的人收集。此外，从互联网收集的数据集不一定代表一般人群。我们通过提供SIM2REAL方法来解决这个问题，在该方法中，我们使用一套3D模拟的人类模型，使我们能够创建一个可审核的合成数据集覆盖1）在六种基本情绪之外，代表性不足的面部表情（例如混乱）； 2）种族或性别少数群体； 3）机器人可能在现实世界中遇到人类的广泛视角。通过增强包含包含4536个样本的合成数据集的123个样本的小型动态情感表达数据集，我们在自己的数据集上的准确性提高了15％，与外部基准数据集的11％相比，我们的精度为11％，与同一模型体系结构的性能相比没有合成训练数据。我们还表明，当体系结构的特征提取权重从头开始训练时，这一额外的步骤专门针对种族少数群体的准确性。

translated by 谷歌翻译

A Multimodal Approach for Automatic Mania Assessment in Bipolar Disorder

Pınar Baki

分类：自然语言处理 | 机器学习

2021-12-17

双相情感障碍是一种心理健康障碍，导致情绪波动，从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的，并从患者的护理人员获得的报告。随后，诊断取决于专家的经验，并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标，并让患者的更容易观察较长的时间。此外，在Covid-19大流行期间，对遥控和诊断的需求变得尤为重要。在本论文中，我们根据声学，语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统，以及各种融合技术。除了使用单向特征处理整个患者会话外，还研究了剪辑的任务级调查。在多模式融合系统中使用声学，语言和视觉特征，我们实现了64.8％的未加权平均召回得分，这提高了在该数据集上实现的最先进的性能。

translated by 谷歌翻译

Classification of Abnormal Hand Movement for Aiding in Autism Detection: Machine Learning Study

Anish Lakkapragada , Aaron Kline , Onur Cezmi Mutlu , Kelley Paskov , Brianna Chrisman , Nate Stockham , Peter Washington , Dennis Wall

分类：计算机视觉

2021-08-18

正式的自闭症诊断可以是效率低下和冗长的过程。尽管有证据表明早期的干预导致更好的治疗结果，但家庭可能会等待几个月或更长时间。数字技术检测与自闭症相关的行为的存在可以扩展到儿科诊断。这项工作旨在展示深度学习技术的可行性，用于从非结构化的家庭视频检测手动拍打作为验证模型和数字技术是否可以利用自闭症诊断的第一步。我们使用了自我刺激行为数据集（SSBD），其中包含75个手扑扑，头部敲打和儿童展示的旋转。从所有的手拍摄视频中，我们提取了100个扑扑的100个正和控制视频，每个持续时间为2到5秒。利用地标驱动方法和MobileNet V2的预训练层，我们的最高性能模型在评估5倍的交叉验证时，达到了84％（90％精度和80％召回）的测试F1得分。这项工作为开发精确的深层学习方法提供了对自闭症相关行为的活动检测的第一步。

translated by 谷歌翻译

Affect-Aware Deep Belief Network Representations for Multimodal Unsupervised Deception Detection

Leena Mathur , Maja J Matarić

分类：计算机视觉 | 机器学习

2021-08-17

检测欺骗社会行为的自动化系统可以增强人类跨越医疗，社会工作和法律域名。标记为培训的数据集可以为现实世界，高赌注的背景感染培训监督欺骗检测模型。为了解决这一挑战，我们提出了第一种无监督的方法来检测现实世界，高赌注欺骗的视频，而无需标签。本文提出了我们对感知无监督无监督的深度信仰网络（DBN）的新方法，以学习欺骗性和真实行为的歧视。绘制心理学理论，链接影响和欺骗，我们试验在面部价，面部震荡，音频和视觉特征上培训的单峰和基于多峰的DBN方法。除了使用面部影响作为培训DBN模型的功能之外，我们还介绍了使用面部影响作为视听表示的对齐器的DBN培训过程。我们对无监督高斯混合模型聚类进行了分类实验，以评估我们的方法。我们最好的无人监督方法（对面部价和视觉特征培训）实现了80％，表现优于80％，表现相当于完全监督的模型。我们的成绩激发了未来的无监督，影响野外欺骗和其他社会行为的计算方法。

translated by 谷歌翻译

Joint Engagement Classification using Video Augmentation Techniques for Multi-person Human-robot Interaction

Yubin Kim , Huili Chen , Sharifa Alghowinem , Cynthia Breazeal , Hae Won Park

分类：计算机视觉

2022-12-28

Affect understanding capability is essential for social robots to autonomously interact with a group of users in an intuitive and reciprocal way. However, the challenge of multi-person affect understanding comes from not only the accurate perception of each user's affective state (e.g., engagement) but also the recognition of the affect interplay between the members (e.g., joint engagement) that presents as complex, but subtle, nonverbal exchanges between them. Here we present a novel hybrid framework for identifying a parent-child dyad's joint engagement by combining a deep learning framework with various video augmentation techniques. Using a dataset of parent-child dyads reading storybooks together with a social robot at home, we first train RGB frame- and skeleton-based joint engagement recognition models with four video augmentation techniques (General Aug, DeepFake, CutOut, and Mixed) applied datasets to improve joint engagement classification performance. Second, we demonstrate experimental results on the use of trained models in the robot-parent-child interaction context. Third, we introduce a behavior-based metric for evaluating the learned representation of the models to investigate the model interpretability when recognizing joint engagement. This work serves as the first step toward fully unlocking the potential of end-to-end video understanding models pre-trained on large public datasets and augmented with data augmentation and visualization techniques for affect recognition in the multi-person human-robot interaction in the wild.

translated by 谷歌翻译

DeepStroke: An Efficient Stroke Screening Framework for Emergency Rooms with Multimodal Adversarial Deep Learning

Tongan Cai , Haomiao Ni , Mingli Yu , Xiaolei Huang , Kelvin Wong , John Volpi , James Z. Wang , Stephen T. C. Wong

分类：计算机视觉 | 人工智能

2021-09-24

在急诊室（ER）环境中，中风分类或筛查是一个普遍的挑战。由于MRI的慢速吞吐量和高成本，通常会进行快速CT而不是MRI。在此过程中通常提到临床测试，但误诊率仍然很高。我们提出了一个新型的多模式深度学习框架，深沉的中风，以通过识别较小的面部肌肉不协调的模式来实现计算机辅助中风的存在评估，并使怀疑急性环境中的中风的患者无能为力。我们提出的深雷克斯（Deepstroke）在中风分流器中容易获得一分钟的面部视频数据和音频数据，用于局部面部瘫痪检测和全球语音障碍分析。采用了转移学习来减少面部侵蚀偏见并提高普遍性。我们利用多模式的横向融合来结合低水平和高级特征，并为关节训练提供相互正则化。引入了新型的对抗训练以获得无身份和中风的特征。与实际急诊室患者进行的视频ADIO数据集进行的实验表明，与分类团队和ER医生相比，中风的表现要优于最先进的模型，并且取得更好的性能，比传统的敏感性高出10.94％，高7.37％的精度高出7.37％。当特异性对齐时，中风分类。同时，每个评估都可以在不到六分钟的时间内完成，这表明该框架的临床翻译潜力很大。

translated by 谷歌翻译

Face-to-Face Co-Located Human-Human Social Interaction Analysis using Nonverbal Cues: A Survey

Cigdem Beyan , Alessandro Vinciarelli , Alessio Del Bue

分类：人工智能 | 计算机视觉 | 机器学习

2022-07-20

这项工作对最近的努力进行了系统的综述（自2010年以来），旨在自动分析面对面共同关联的人类社交互动中显示的非语言提示。专注于非语言提示的主要原因是，这些是社会和心理现象的物理，可检测到的痕迹。因此，检测和理解非语言提示至少在一定程度上意味着检测和理解社会和心理现象。所涵盖的主题分为三个：a）建模社会特征，例如领导力，主导，人格特质，b）社会角色认可和社会关系检测以及c）群体凝聚力，同情，rapport和so的互动动态分析向前。我们针对共同的相互作用，其中相互作用的人永远是人类。该调查涵盖了各种各样的环境和场景，包括独立的互动，会议，室内和室外社交交流，二元对话以及人群动态。对于他们每个人，调查都考虑了非语言提示分析的三个主要要素，即数据，传感方法和计算方法。目的是突出显示过去十年的主要进步，指出现有的限制并概述未来的方向。

translated by 谷歌翻译

Going Deeper than Tracking: a Survey of Computer-Vision Based Recognition of Animal Pain and Affective States

Sofia Broomé , Marcelo Feighelstein , Anna Zamansky , Gabriel Carreira Lencioni , Pia Haubro Andersen , Francisca Pessanha , Marwa Mahmoud , Hedvig Kjellström , Albert Ali Salah

分类：计算机视觉

2022-06-16

动物运动跟踪和姿势识别的进步一直是动物行为研究的游戏规则改变者。最近，越来越多的作品比跟踪“更深”，并解决了对动物内部状态（例如情绪和痛苦）的自动认识，目的是改善动物福利，这使得这是对该领域进行系统化的及时时刻。本文对基于计算机的识别情感状态和动物的疼痛的研究进行了全面调查，并涉及面部行为和身体行为分析。我们总结了迄今为止在这个主题中所付出的努力 - 对它们进行分类，从不同的维度进行分类，突出挑战和研究差距，并提供最佳实践建议，以推进该领域以及一些未来的研究方向。

translated by 谷歌翻译

Affect-driven Ordinal Engagement Measurement from Video

Ali Abedi , Shehroz Khan

分类：计算机视觉

2021-06-21

In education and intervention programs, user engagement has been identified as a major factor in successful program completion. Automatic measurement of user engagement provides helpful information for instructors to meet program objectives and individualize program delivery. In this paper, we present a novel approach for video-based engagement measurement in virtual learning programs. We propose to use affect states, continuous values of valence and arousal extracted from consecutive video frames, along with a new latent affective feature vector and behavioral features for engagement measurement. Deep-learning sequential models are trained and validated on the extracted frame-level features. In addition, due to the fact that engagement is an ordinal variable, we develop the ordinal versions of the above models in order to address the problem of engagement measurement as an ordinal classification problem. We evaluated the performance of the proposed method on the only two publicly available video engagement measurement datasets, DAiSEE and EmotiW-EW, containing videos of students in online learning programs. Our experiments show a state-of-the-art engagement level classification accuracy of 67.4% on the DAiSEE dataset, and a regression mean squared error of 0.0508 on the EmotiW-EW dataset. Our ablation study shows the effectiveness of incorporating affect states and ordinality of engagement in engagement measurement.

translated by 谷歌翻译

Inconsistencies in Measuring Student Engagement in Virtual Learning -- A Critical Review

Shehroz S. Khan , Ali Abedi , Tracey Colella

分类：计算机视觉

2022-08-09

近年来，虚拟学习已成为传统课堂教学的替代方法。学生参与虚拟学习可能会对满足学习目标和计划辍学风险产生重大影响。在虚拟学习环境中，有许多专门针对学生参与度（SE）的测量工具。在这项关键综述中，我们分析了这些作品，并从不同的参与定义和测量量表上突出了不一致之处。现有研究人员之间的这种多样性在比较不同的注释和构建可推广的预测模型时可能会出现问题。我们进一步讨论了有关参与注释和设计缺陷的问题。我们根据我们定义的七个参与注释的七个维度分析现有的SE注释量表，包括来源，用于注释的数据模式，注释发生的时间，注释发生的时间段，抽象，组合和组合水平的时间段，定量。令人惊讶的发现之一是，在SE测量中，很少有审查的数据集使用了现有的精神法法学验证量表中的注释中。最后，我们讨论了除虚拟学习以外的其他一些范围，这些量表具有用于测量虚拟学习中SE的潜力。

translated by 谷歌翻译

Towards Intercultural Affect Recognition: Audio-Visual Affect Recognition in the Wild Across Six Cultures

Leena Mathur , Ralph Adolphs , Maja J Matarić

分类：计算机视觉 | 机器学习

2022-07-31

在我们的多元文化世界中，支持人类的情感意识AI系统需要能够感知各种文化情绪表达模式变化的影响的能力。这些模型必须在未经培训的文化背景下表现良好。情感计算中的一个标准假设是，在同一文化中受过训练和使用的识别模型（文化内部）的表现将比在一种文化中训练并用于不同文化（跨文化）的模型更好。我们测试了这一假设，并使用来自六种文化的现实世界二元相互作用的视频进行了对跨文化影响识别模型的首次系统研究。我们在时间因果发现下开发了一种基于注意力的特征选择方法，以识别可以在跨文化情感识别模型中利用的行为线索。在所有六种文化中，我们的发现表明，跨文化影响识别模型比内文化模型更有效或更有效。我们确定并为跨文化情感识别而做出有用的行为特征；在本研究的背景下，视觉方式的面部特征比音频方式更有用。我们的论文介绍了跨文化影响识别系统未来发展的概念和动机。

translated by 谷歌翻译

DAiSEE: Towards User Engagement Recognition in the Wild

Abhay Gupta , Arjun D'Cunha , Kamal Awasthi , Vineeth Balasubramanian

分类：计算机视觉 | 机器学习

2016-09-07

我们介绍了Daisee，这是第一个多标签视频分类数据集，该数据集由112个用户捕获的9068个视频片段，用于识别野外无聊，混乱，参与度和挫败感的用户情感状态。该数据集具有四个级别的标签 - 每个情感状态都非常低，低，高和很高，它们是人群注释并与使用专家心理学家团队创建的黄金标准注释相关的。我们还使用当今可用的最先进的视频分类方法在此数据集上建立了基准结果。我们认为，黛西（Daisee）将为研究社区提供特征提取，基于上下文的推理以及为相关任务开发合适的机器学习方法的挑战，从而为进一步的研究提供了跳板。该数据集可在https://people.iith.ac.in/vineethnb/resources/daisee/daisee/index.html下载。

translated by 谷歌翻译

More is Better: A Database for Spontaneous Micro-Expression with High Frame Rates

Sirui Zhao , Huaying Tang , Xinglong Mao , Shifeng Liu , Hanqing Tao , Hao Wang , Tong Xu , Enhong Chen

分类：计算机视觉

2023-01-03

As one of the most important psychic stress reactions, micro-expressions (MEs), are spontaneous and transient facial expressions that can reveal the genuine emotions of human beings. Thus, recognizing MEs (MER) automatically is becoming increasingly crucial in the field of affective computing, and provides essential technical support in lie detection, psychological analysis and other areas. However, the lack of abundant ME data seriously restricts the development of cutting-edge data-driven MER models. Despite the recent efforts of several spontaneous ME datasets to alleviate this problem, it is still a tiny amount of work. To solve the problem of ME data hunger, we construct a dynamic spontaneous ME dataset with the largest current ME data scale, called DFME (Dynamic Facial Micro-expressions), which includes 7,526 well-labeled ME videos induced by 671 participants and annotated by more than 20 annotators throughout three years. Afterwards, we adopt four classical spatiotemporal feature learning models on DFME to perform MER experiments to objectively verify the validity of DFME dataset. In addition, we explore different solutions to the class imbalance and key-frame sequence sampling problems in dynamic MER respectively on DFME, so as to provide a valuable reference for future research. The comprehensive experimental results show that our DFME dataset can facilitate the research of automatic MER, and provide a new benchmark for MER. DFME will be published via https://mea-lab-421.github.io.

translated by 谷歌翻译

Deep Learning for Micro-expression Recognition: A Survey

Yante Li , Jinsheng Wei , Yang Liu , Janne Kauttonen , Guoying Zhao

分类：计算机视觉

2021-07-06

微表达（MES）是非自愿的面部运动，揭示了人们在高利害情况下隐藏的感受，并对医疗，国家安全，审讯和许多人机交互系统具有实际重要性。早期的MER方法主要基于传统的外观和几何特征。最近，随着各种领域的深度学习（DL）的成功，神经网络已得到MER的兴趣。不同于宏观表达，MES是自发的，微妙的，快速的面部运动，导致数据收集困难，因此具有小规模的数据集。由于上述我的角色，基于DL的MER变得挑战。迄今为止，已提出各种DL方法来解决我的问题并提高MER表现。在本调查中，我们对深度微表达识别（MER）进行了全面的审查，包括数据集，深度MER管道和最具影响力方法的基准标记。本调查定义了该领域的新分类法，包括基于DL的MER的所有方面。对于每个方面，总结和讨论了基本方法和高级发展。此外，我们得出了坚固的深层MER系统设计的剩余挑战和潜在方向。据我们所知，这是对深度MEL方法的第一次调查，该调查可以作为未来MER研究的参考点。

translated by 谷歌翻译

Automatic Estimation of Self-Reported Pain by Trajectory Analysis in the Manifold of Fixed Rank Positive Semi-Definite Matrices

Benjamin Szczapa , Mohamed Daoudi , Stefano Berretti , Pietro Pala , Alberto Del Bimbo , Zakia Hammal

分类：计算机视觉

2022-09-05

我们提出了一种自动方法，以根据从视频中提取的面部标志来估算自我报告的疼痛。对于每个视频序列，我们将面部分解为四个不同的区域，并通过使用这些区域的地标对面部运动的动态进行建模来衡量疼痛强度。基于革兰氏矩阵的公式用于代表固定等级的对称正极半明确矩阵Riemannian歧管上的地标轨迹。曲线拟合算法用于平滑轨迹，并执行时间对齐以计算歧管上的轨迹之间的相似性。然后对支持矢量回归分类器进行训练，以编码与自我报告的疼痛强度测量一致的疼痛强度水平。最后，进行每个区域的估计后期融合以获得最终的预测疼痛水平。提出的方法将在两个公开可用的数据集上进行评估，即UNBCMCMASTER肩部疼痛档案和Biovid热疼痛数据集。我们使用不同的测试协议将我们的方法与两个数据集的最新方法进行了比较，以显示所提出的方法的竞争力。

translated by 谷歌翻译

DeepTMH: Multimodal Semi-supervised framework leveraging Affective and Cognitive engagement for Telemental Health

Pooja Guhan , Naman Awasthi , Ritwika Das , Manas Agarwal , Kathryn McDonald , Kristin Bussell , Dinesh Manocha , Gloria Reeves , Aniket Bera

分类：计算机视觉

2020-11-17

为了帮助现有的Telemental Mechanical服务，我们提出Deeptmh，这是一种通过提取对应于心理学文献经常使用的情感和认知特征的潜视和认知特征来模拟Telemental Mealth Session视频的新框架。我们的方法利用半监督学习的进步来解决Telemental Healts Sessience视频领域的数据稀缺，包括多模式半监督GaN，以检测Telemental卫生课程中的重要心理健康指标。我们展示了我们框架的有用性和与现有工作中的两项任务对比：参与回归和价值回归，这两者都对心理学家在眼药性健康会议期间对心理学家很重要。我们的框架报告了RMSE在参与回归中的RMSE方法的40％，并在价值唤醒回归中的SOTA方法中的50％改善。为了解决Telemental Health空间中公开的数据集的稀缺性，我们发布了一个新的数据集，Medica，用于心理健康患者参与检测。我们的数据集，Medica由1299个视频组成，每节3秒长。据我们所知，我们的方法是基于心理驱动的情感和认知功能来模拟Telemental Healts会话数据的第一种方法，这也通过利用半监督设置来解决数据稀疏性。

translated by 谷歌翻译

Multimodal Personality Recognition using Cross-Attention Transformer and Behaviour Encoding

Tanay Agrawal , Dhruv Agarwal , Michal Balazia , Neelabh Sinha , Francois Bremond

分类：计算机视觉 | 人工智能

2021-12-22

人格计算和情感计算最近在许多研究领域获得了兴趣。任务的数据集通常具有视频，音频，语言和生物信号等多种方式。在本文中，我们提出了一种灵活的型号，用于利用所有可用数据的任务。该任务涉及复杂的关系，并避免使用大型模型进行视频处理，我们提出了使用行为编码，该行为编码具有对模型的最小变化的性能提升性能。近期使用变压器的横向感到流行，并且用于融合不同的方式。由于可能存在长期关系，因此不希望将输入破坏到块中，因此所提出的模型将整个输入处理在一起。我们的实验表明了上述每个贡献的重要性

translated by 谷歌翻译

SFF-DA: Sptialtemporal Feature Fusion for Detecting Anxiety Nonintrusively

Haimiao Mo , Yuchen Li , Shanlin Yang , Wei Zhang , Shuai Ding

分类：计算机视觉

2022-08-12

早期发现焦虑症对于减少精神障碍患者的苦难并改善治疗结果至关重要。基于MHealth平台的焦虑筛查在提高筛选效率和降低筛查成本方面具有特殊实用价值。实际上，受试者的身体和心理评估中移动设备的差异以及数据质量不均匀的问题和现实世界中数据的少量数据量使现有方法无效。因此，我们提出了一个基于时空特征融合的框架，用于非触发焦虑。为了降低数据质量不平衡的影响，我们构建了一个基于“ 3DCNN+LSTM”的特征提取网络，并融合了面部行为和非接触式生理学的时空特征。此外，我们设计了一种相似性评估策略，以解决较小的数据样本量导致模型准确性下降的问题。我们的框架已通过现实世界中的机组数据集进行了验证，并且两个公共数据集UBFC-Phys和Swell-KW。实验结果表明，我们框架的总体性能要比最新的比较方法更好。

translated by 谷歌翻译

Can AI detect pain and express pain empathy? A review from emotion recognition and a human-centered AI perspective

Siqi Cao , Di Fu , Xu Yang , Stefan Wermter , Xun Liu , Haiyan Wu

分类：人工智能

2021-10-08

Sensory and emotional experiences such as pain and empathy are essential for mental and physical health. Cognitive neuroscience has been working on revealing mechanisms underlying pain and empathy. Furthermore, as trending research areas, computational pain recognition and empathic artificial intelligence (AI) show progress and promise for healthcare or human-computer interaction. Although AI research has recently made it increasingly possible to create artificial systems with affective processing, most cognitive neuroscience and AI research do not jointly address the issues of empathy in AI and cognitive neuroscience. The main aim of this paper is to introduce key advances, cognitive challenges and technical barriers in computational pain recognition and the implementation of artificial empathy. Our discussion covers the following topics: How can AI recognize pain from unimodal and multimodal information? Is it crucial for AI to be empathic? What are the benefits and challenges of empathic AI? Despite some consensus on the importance of AI, including empathic recognition and responses, we also highlight future challenges for artificial empathy and possible paths from interdisciplinary perspectives. Furthermore, we discuss challenges for responsible evaluation of cognitive methods and computational techniques and show approaches to future work to contribute to affective assistants capable of empathy.

translated by 谷歌翻译