智能论文笔记

Depression Recognition using Remote Photoplethysmography from Facial Videos

Constantino Álvarez Casado , Manuel Lage Cañellas , Miguel Bordallo López

分类：计算机视觉 | 机器学习

2022-06-09

抑郁症是一种可能对个人健康有害的精神疾病。在早期阶段的心理健康障碍和精确诊断对避免社交，生理或心理副作用至关重要。这项工作分析了生理信号，以观察不同的抑郁状态是否对血液体积脉冲（BVP）和心率变异性（HRV）反应产生明显影响。尽管通常，HRV功能是根据使用基于接触的传感器（例如可穿戴设备）获得的生物信号计算的，但我们提出了一种新型方案，该方案直接从面部视频中提取，只是基于视觉信息，从而消除了对任何基于接触的设备的需求。我们的解决方案基于能够以完全无监督的方式提取完整的远程光摄影信号（RPPG）的管道。我们使用这些RPPG信号来计算60多个统计，几何和生理特征，这些特征将进一步用于训练多个机器学习回归器以识别不同水平的抑郁症。两个基准数据集的实验表明，这种方法可根据语音或面部表达方式提供与其他视听模态的可比结果，并有可能补充它们。此外，提出的方法获得的结果显示出了有希望和扎实的性能，表现优于手工设计的方法，并且与基于深度学习的方法相媲美。

translated by 谷歌翻译

Improving Depression estimation from facial videos with face alignment, training optimization and scheduling

Manuel Lage Cañellas , Constantino Álvarez Casado , Le Nguyen , Miguel Bordallo López

分类：计算机视觉 | 人工智能

2022-12-13

Deep learning models have shown promising results in recognizing depressive states using video-based facial expressions. While successful models typically leverage using 3D-CNNs or video distillation techniques, the different use of pretraining, data augmentation, preprocessing, and optimization techniques across experiments makes it difficult to make fair architectural comparisons. We propose instead to enhance two simple models based on ResNet-50 that use only static spatial information by using two specific face alignment methods and improved data augmentation, optimization, and scheduling techniques. Our extensive experiments on benchmark datasets obtain similar results to sophisticated spatio-temporal models for single streams, while the score-level fusion of two different streams outperforms state-of-the-art methods. Our findings suggest that specific modifications in the preprocessing and training process result in noticeable differences in the performance of the models and could hide the actual originally attributed to the use of different neural network architectures.

translated by 谷歌翻译

Non-contact Pain Recognition from Video Sequences with Remote Physiological Measurements Prediction

Ruijing Yang , Ziyu Guan , Zitong Yu , Xiaoyi Feng , Jinye Peng , Guoying Zhao

分类：计算机视觉

2021-05-18

自动疼痛识别对于医学诊断和治疗至关重要。现有工程分为三类：评估面部外观变化，利用生理线索，或以多模态的方式融合它们。然而，（1）外观变化很容易受到阻碍客观疼痛识别的主观因素的影响。此外，基于外观的方法忽略了对于随时间建模表达的远程空间依赖性。（2）通过在人体上附着传感器来获得生理学提示，这不方便和不舒服。在本文中，我们提出了一种新的多任务学习框架，其以非接触方式编码外观变化和生理线索以进行疼痛识别。该框架能够通过所学习的外观表示的提出的注意机制来捕获局部和远程依赖性，这是通过在辅助任务中从视频中恢复的恢复的时间上富集的富集。该框架被称为RPPG的时空关注网络（RSTAN），并允许我们在公开的止痛数据库上建立非接触疼痛识别的最先进的性能。它展示了RPPG预测可以用作辅助任务，以便于非接触自动疼痛识别。

translated by 谷歌翻译

Fusion of Physiological and Behavioural Signals on SPD Manifolds with Application to Stress and Pain Detection

Yujin WU , Mohamed Daoudi , Ali Amad , Laurent Sparrow , Fabien D'Hondt

分类：机器学习 | 人工智能

2022-07-17

现有的多模式应力/疼痛识别方法通常独立地从不同模态中提取特征，因此忽略了交叉模式相关性。本文提出了一个新的几何框架，用于利用对称阳性定位（SPD）矩阵作为一种表示形式的多模式应力/疼痛检测，该代表结合了协方差和交叉稳定性的生理和行为信号的相关关系。考虑到SPD矩阵的Riemannian流形的非线性，众所周知的机器学习技术不适合对这些矩阵进行分类。因此，采用切线空间映射方法将派生的SPD矩阵序列映射到可将基于LSTM的网络用于分类的切线空间中的向量序列。提出的框架已在两个公共多模式数据集上进行了评估，这两者都取得了压力和疼痛检测任务的最新结果。

translated by 谷歌翻译

SFF-DA: Sptialtemporal Feature Fusion for Detecting Anxiety Nonintrusively

Haimiao Mo , Yuchen Li , Shanlin Yang , Wei Zhang , Shuai Ding

分类：计算机视觉

2022-08-12

早期发现焦虑症对于减少精神障碍患者的苦难并改善治疗结果至关重要。基于MHealth平台的焦虑筛查在提高筛选效率和降低筛查成本方面具有特殊实用价值。实际上，受试者的身体和心理评估中移动设备的差异以及数据质量不均匀的问题和现实世界中数据的少量数据量使现有方法无效。因此，我们提出了一个基于时空特征融合的框架，用于非触发焦虑。为了降低数据质量不平衡的影响，我们构建了一个基于“ 3DCNN+LSTM”的特征提取网络，并融合了面部行为和非接触式生理学的时空特征。此外，我们设计了一种相似性评估策略，以解决较小的数据样本量导致模型准确性下降的问题。我们的框架已通过现实世界中的机组数据集进行了验证，并且两个公共数据集UBFC-Phys和Swell-KW。实验结果表明，我们框架的总体性能要比最新的比较方法更好。

translated by 谷歌翻译

Two-stage Temporal Modelling Framework for Video-based Depression Recognition using Graph Representation

Jiaqi Xu , Siyang Song , Keerthy Kusumam , Hatice Gunes , Michel Valstar

分类：计算机视觉

2021-11-30

基于视频的自动抑郁分析提供了一种快速，客观和可重复的自我评估解决方案，近年来已被广泛发展。虽然抑郁线索可能被各个时间尺度的人类面部行为反映，但大多数现有方法都集中在短期或视频级面部行为中的模拟抑郁症。从这个意义上讲，我们提出了一个两级框架，模拟了从多尺度短期和视频级面部行为模拟了抑郁严重程度。短期抑郁行为建模阶段首先学习来自多个短时间尺度的抑郁相关的面部行为特征，其中提出了一种凹陷特征增强（DFE）模块来增强所有时间尺度的抑郁相关线索并去除非抑郁症噪音。然后，视频级抑郁行为建模阶段提出了两个新颖的曲线图编码策略，即顺序图形表示（SEG）和频谱图表示（SPG），以将目标视频的所有短期特征重新编码为视频 - 级别图形表示，总结抑郁相关的多尺度视频级时间信息。结果，所产生的图表表示使用短期和长期面部Beahviour模式预测抑郁严重程度。 AVEC 2013和AVEC 2014数据集上的实验结果表明，所提出的DFE模块不断增强各种CNN模型的抑郁严重性估计性能，而SPG优于其他视频级建模方法。更重要的是，与拟议的两级框架实现的结果表明，与广泛使用的单阶段建模方法相比，其有前景和坚实的性能。

translated by 谷歌翻译

A Multimodal Approach for Automatic Mania Assessment in Bipolar Disorder

Pınar Baki

分类：自然语言处理 | 机器学习

2021-12-17

双相情感障碍是一种心理健康障碍，导致情绪波动，从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的，并从患者的护理人员获得的报告。随后，诊断取决于专家的经验，并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标，并让患者的更容易观察较长的时间。此外，在Covid-19大流行期间，对遥控和诊断的需求变得尤为重要。在本论文中，我们根据声学，语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统，以及各种融合技术。除了使用单向特征处理整个患者会话外，还研究了剪辑的任务级调查。在多模式融合系统中使用声学，语言和视觉特征，我们实现了64.8％的未加权平均召回得分，这提高了在该数据集上实现的最先进的性能。

translated by 谷歌翻译

DeepTMH: Multimodal Semi-supervised framework leveraging Affective and Cognitive engagement for Telemental Health

Pooja Guhan , Naman Awasthi , Ritwika Das , Manas Agarwal , Kathryn McDonald , Kristin Bussell , Dinesh Manocha , Gloria Reeves , Aniket Bera

分类：计算机视觉

2020-11-17

为了帮助现有的Telemental Mechanical服务，我们提出Deeptmh，这是一种通过提取对应于心理学文献经常使用的情感和认知特征的潜视和认知特征来模拟Telemental Mealth Session视频的新框架。我们的方法利用半监督学习的进步来解决Telemental Healts Sessience视频领域的数据稀缺，包括多模式半监督GaN，以检测Telemental卫生课程中的重要心理健康指标。我们展示了我们框架的有用性和与现有工作中的两项任务对比：参与回归和价值回归，这两者都对心理学家在眼药性健康会议期间对心理学家很重要。我们的框架报告了RMSE在参与回归中的RMSE方法的40％，并在价值唤醒回归中的SOTA方法中的50％改善。为了解决Telemental Health空间中公开的数据集的稀缺性，我们发布了一个新的数据集，Medica，用于心理健康患者参与检测。我们的数据集，Medica由1299个视频组成，每节3秒长。据我们所知，我们的方法是基于心理驱动的情感和认知功能来模拟Telemental Healts会话数据的第一种方法，这也通过利用半监督设置来解决数据稀疏性。

translated by 谷歌翻译

Camera Measurement of Physiological Vital Signs

Daniel McDuff

分类：计算机视觉 | 机器学习

2021-11-22

对医疗保健监控的远程工具的需求从未如此明显。摄像机测量生命体征利用成像装置通过分析人体的图像来计算生理变化。建立光学，机器学习，计算机视觉和医学的进步这些技术以来的数码相机的发明以来已经显着进展。本文介绍了对生理生命体征的相机测量综合调查，描述了它们可以测量的重要标志和实现所做的计算技术。我涵盖了临床和非临床应用以及这些应用需要克服的挑战，以便从概念上推进。最后，我描述了对研究社区可用的当前资源（数据集和代码），并提供了一个全面的网页（https://cameravitals.github.io/），其中包含这些资源的链接以及其中引用的所有文件的分类列表文章。

translated by 谷歌翻译

Domain-specific Learning of Multi-scale Facial Dynamics for Apparent Personality Traits Prediction

Fang Li

分类：计算机视觉

2022-09-09

人格决定其日常生活和工作行为的各个方面。由于人格特征随着时间的流逝而相对稳定，并且对于每个主题而言是独一无二的，因此以前的方法经常从单一框架或短期行为推断性格。此外，他们中的大多数人未能专门提取特定于人格的人格认可。在本文中，我们提出了一种基于视频的新型自动人格特质识别方法，该方法包括：（1）A \ TextBf {域特异性面部行为模型}模块，该模块提取了与人格相关的多规模短期人类面部行为特征; （2）a \ textbf {长期行为建模}模块，该模块总结了视频的所有短期特征作为长期/视频级别的个性表示，并且（3）a \ textbf {多任务个性人格特征预测模块}该模型在所有特征之间的基本关系中，并根据视频级别的个性表示共同预测它们。我们在Chalearn First Ampression数据集上进行了实验，我们的方法与最先进的结果相当。重要的是，我们表明所有三个提议的模块都为人格认可带来了重要的好处。

translated by 谷歌翻译

Face-to-Face Co-Located Human-Human Social Interaction Analysis using Nonverbal Cues: A Survey

Cigdem Beyan , Alessandro Vinciarelli , Alessio Del Bue

分类：人工智能 | 计算机视觉 | 机器学习

2022-07-20

这项工作对最近的努力进行了系统的综述（自2010年以来），旨在自动分析面对面共同关联的人类社交互动中显示的非语言提示。专注于非语言提示的主要原因是，这些是社会和心理现象的物理，可检测到的痕迹。因此，检测和理解非语言提示至少在一定程度上意味着检测和理解社会和心理现象。所涵盖的主题分为三个：a）建模社会特征，例如领导力，主导，人格特质，b）社会角色认可和社会关系检测以及c）群体凝聚力，同情，rapport和so的互动动态分析向前。我们针对共同的相互作用，其中相互作用的人永远是人类。该调查涵盖了各种各样的环境和场景，包括独立的互动，会议，室内和室外社交交流，二元对话以及人群动态。对于他们每个人，调查都考虑了非语言提示分析的三个主要要素，即数据，传感方法和计算方法。目的是突出显示过去十年的主要进步，指出现有的限制并概述未来的方向。

translated by 谷歌翻译

Hybrid Multimodal Feature Extraction, Mining and Fusion for Sentiment Analysis

Jia Li , Ziyang Zhang , Junjie Lang , Yueqi Jiang , Liuwei An , Peng Zou , Yangyang Xu , Sheng Gao , Jie Lin , Chunxiao Fan

分类：计算机视觉 | 自然语言处理

2022-08-05

在本文中，我们介绍了2022年多模式情感分析挑战（MUSE）的解决方案，其中包括Muse-Humor，Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯（Muse 2022）着重于幽默检测，情绪反应和多模式的情感压力，利用不同的方式和数据集。在我们的工作中，提取了不同种类的多模式特征，包括声学，视觉，文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中，1）提取了一些新的音频功能，面部表达功能和段落级文本嵌入以进行准确的改进。 2）我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3）在模型培训中应用有效的数据增强策略，以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战，我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战，我们在测试集上的Pearson相关系数为0.3879，它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge，我们的方法在测试数据集上的唤醒和价值都优于基线，达到了0.5151的最终综合结果。

translated by 谷歌翻译

Automatic Estimation of Self-Reported Pain by Trajectory Analysis in the Manifold of Fixed Rank Positive Semi-Definite Matrices

Benjamin Szczapa , Mohamed Daoudi , Stefano Berretti , Pietro Pala , Alberto Del Bimbo , Zakia Hammal

分类：计算机视觉

2022-09-05

我们提出了一种自动方法，以根据从视频中提取的面部标志来估算自我报告的疼痛。对于每个视频序列，我们将面部分解为四个不同的区域，并通过使用这些区域的地标对面部运动的动态进行建模来衡量疼痛强度。基于革兰氏矩阵的公式用于代表固定等级的对称正极半明确矩阵Riemannian歧管上的地标轨迹。曲线拟合算法用于平滑轨迹，并执行时间对齐以计算歧管上的轨迹之间的相似性。然后对支持矢量回归分类器进行训练，以编码与自我报告的疼痛强度测量一致的疼痛强度水平。最后，进行每个区域的估计后期融合以获得最终的预测疼痛水平。提出的方法将在两个公开可用的数据集上进行评估，即UNBCMCMASTER肩部疼痛档案和Biovid热疼痛数据集。我们使用不同的测试协议将我们的方法与两个数据集的最新方法进行了比较，以显示所提出的方法的竞争力。

translated by 谷歌翻译

Deep Learning for Micro-expression Recognition: A Survey

Yante Li , Jinsheng Wei , Yang Liu , Janne Kauttonen , Guoying Zhao

分类：计算机视觉

2021-07-06

微表达（MES）是非自愿的面部运动，揭示了人们在高利害情况下隐藏的感受，并对医疗，国家安全，审讯和许多人机交互系统具有实际重要性。早期的MER方法主要基于传统的外观和几何特征。最近，随着各种领域的深度学习（DL）的成功，神经网络已得到MER的兴趣。不同于宏观表达，MES是自发的，微妙的，快速的面部运动，导致数据收集困难，因此具有小规模的数据集。由于上述我的角色，基于DL的MER变得挑战。迄今为止，已提出各种DL方法来解决我的问题并提高MER表现。在本调查中，我们对深度微表达识别（MER）进行了全面的审查，包括数据集，深度MER管道和最具影响力方法的基准标记。本调查定义了该领域的新分类法，包括基于DL的MER的所有方面。对于每个方面，总结和讨论了基本方法和高级发展。此外，我们得出了坚固的深层MER系统设计的剩余挑战和潜在方向。据我们所知，这是对深度MEL方法的第一次调查，该调查可以作为未来MER研究的参考点。

translated by 谷歌翻译

Affect-driven Ordinal Engagement Measurement from Video

Ali Abedi , Shehroz Khan

分类：计算机视觉

2021-06-21

In education and intervention programs, user engagement has been identified as a major factor in successful program completion. Automatic measurement of user engagement provides helpful information for instructors to meet program objectives and individualize program delivery. In this paper, we present a novel approach for video-based engagement measurement in virtual learning programs. We propose to use affect states, continuous values of valence and arousal extracted from consecutive video frames, along with a new latent affective feature vector and behavioral features for engagement measurement. Deep-learning sequential models are trained and validated on the extracted frame-level features. In addition, due to the fact that engagement is an ordinal variable, we develop the ordinal versions of the above models in order to address the problem of engagement measurement as an ordinal classification problem. We evaluated the performance of the proposed method on the only two publicly available video engagement measurement datasets, DAiSEE and EmotiW-EW, containing videos of students in online learning programs. Our experiments show a state-of-the-art engagement level classification accuracy of 67.4% on the DAiSEE dataset, and a regression mean squared error of 0.0508 on the EmotiW-EW dataset. Our ablation study shows the effectiveness of incorporating affect states and ordinality of engagement in engagement measurement.

translated by 谷歌翻译

Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space Using Joint Cross-Attention

R Gnana Praveen , Eric Granger , Patrick Cardinal

分类：计算机视觉

2022-09-19

自动情绪识别（ER）最近由于其在许多实际应用中的潜力而引起了很多兴趣。在这种情况下，已经证明多模式方法可以通过结合多样化和互补的信息来源，从而提高性能（超过单峰方法），从而为嘈杂和缺失的方式提供了一些鲁棒性。在本文中，我们根据从视频中提取的面部和声音方式融合的尺寸ER专注于尺寸，其中探索了互补的视听（A-V）关系，以预测个人在价值空间中的情绪状态。大多数最先进的融合技术都依赖于反复的网络或常规的注意机制，这些机制无法有效利用A-V模式的互补性。为了解决这个问题，我们引入了A-V融合的联合跨注意模型，该模型在A-V模态上提取显着特征，从而可以有效利用模式间关系，同时保留模式内关系。特别是，它根据联合特征表示与单个模式的相关性计算交叉意义权重。通过将联合A-V特征表示形式部署到交叉意见模块中，它有助于同时利用内模式和模态关系，从而显着改善系统的性能，而不是香草交叉意见模块。我们提出的方法的有效性是在Recola和AffWild2数据集的挑战性视频中通过实验验证的。结果表明，我们的跨注意A-V融合模型提供了一种具有成本效益的解决方案，即使模式是嘈杂或不存在的，也可以超越最先进的方法。

translated by 谷歌翻译

Learning Motion-Robust Remote Photoplethysmography through Arbitrary Resolution Videos

Jianwei Li , Zitong Yu , Jingang Shi

分类：计算机视觉

2022-11-30

Remote photoplethysmography (rPPG) enables non-contact heart rate (HR) estimation from facial videos which gives significant convenience compared with traditional contact-based measurements. In the real-world long-term health monitoring scenario, the distance of the participants and their head movements usually vary by time, resulting in the inaccurate rPPG measurement due to the varying face resolution and complex motion artifacts. Different from the previous rPPG models designed for a constant distance between camera and participants, in this paper, we propose two plug-and-play blocks (i.e., physiological signal feature extraction block (PFE) and temporal face alignment block (TFA)) to alleviate the degradation of changing distance and head motion. On one side, guided with representative-area information, PFE adaptively encodes the arbitrary resolution facial frames to the fixed-resolution facial structure features. On the other side, leveraging the estimated optical flow, TFA is able to counteract the rPPG signal confusion caused by the head movement thus benefit the motion-robust rPPG signal recovery. Besides, we also train the model with a cross-resolution constraint using a two-stream dual-resolution framework, which further helps PFE learn resolution-robust facial rPPG features. Extensive experiments on three benchmark datasets (UBFC-rPPG, COHFACE and PURE) demonstrate the superior performance of the proposed method. One highlight is that with PFE and TFA, the off-the-shelf spatio-temporal rPPG models can predict more robust rPPG signals under both varying face resolution and severe head movement scenarios. The codes are available at https://github.com/LJW-GIT/Arbitrary_Resolution_rPPG.

translated by 谷歌翻译

Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition

Gnana Praveen R , Eric Granger , Patrick Cardinal

分类：计算机视觉

2021-11-09

多模式分析最近对情感计算的兴趣很大，因为它可以提高情感识别对孤立的单模态方法的整体准确性。多式联情绪识别最有效的技术有效地利用各种和互补的信息来源，例如面部，声带和生理方式，提供全面的特征表示。在本文中，我们专注于基于视频中提取的面部和声乐方式的融合的尺寸情感识别，其中可以捕获复杂的时空关系。大多数现有的融合技术依赖于经常性网络或传统的注意机制，这些机制没有有效地利用视听（A-V）方式的互补性质。我们介绍了一种跨关注融合方法来提取A-V模式的显着特征，允许准确地预测连续值的价值和唤醒。我们的新的跨关节A-V融合模型有效利用了模态关系。特别地，它计算跨关注权重，以专注于各个模态跨越更贡献的特征，从而组合贡献特征表示，然后将其馈送到完全连接的层以用于预测价和唤醒。所提出的方法的有效性在通过Recolat和疲劳（私人）数据集中的视频上进行了实验验证。结果表明，我们的跨关节A-V融合模型是一种经济高效的方法，优于最先进的融合方法。代码可用：\ url {https://github.com/praveena2j/cross-attentional-av-fusion}

translated by 谷歌翻译

LFPS-Net: a lightweight fast pulse simulation network for BVP estimation

Jialiang Zhuang , Yun Zhang , Yuheng Chen , Xiujuan Zheng

分类：计算机视觉

2022-06-25

基于远程光摄氏学的心率估计在几种特定情况下（例如健康监测和疲劳检测）起着重要作用。现有良好的方法致力于将多个重叠视频剪辑的预测HR平均作为30秒面部视频的最终结果。尽管这些具有数百层和数千个渠道的方法是高度准确且健壮的，但它们需要巨大的计算预算和30秒的等待时间，这极大地限制了算法的应用来扩展。在这些CicumStacnces下，我们提出了一个轻巧的快速脉冲模拟网络（LFPS-NET），在非常有限的计算和时间预算中追求最佳准确性，重点关注通用的移动平台，例如智能手机。为了抑制噪声组件并在短时间内获得稳定的脉冲，我们设计了多频模态信号融合机制，该机制利用了时频域分析理论，以将多模式信息与复杂信号分开。它有助于继续进行网络，而无需添加任何参数，可以更轻松地学习有效的热门。此外，我们设计了一个过采样培训策略，以解决由数据集的分布不平衡引起的问题。对于30秒的面部视频，我们提出的方法在大多数评估指标上取得了最佳结果，以估计心率或心率变异性与最佳论文相比。提出的方法仍然可以使用短时（〜15秒）的主体视频获得非常具竞争力的结果。

translated by 谷歌翻译

Remote Photoplethysmography from Low Resolution videos: An end-to-end solution using Efficient ConvNets

Bharath Ramakrishnan , Ruijia Deng

分类：计算机视觉

2022-08-14

在过去的几年中，从面部视频中对心脏脉搏的测量已成为对研究的有趣追求。这主要是由于以非侵入性方式获得个人心率的重要性越来越重要，这对于游戏和医疗行业的应用可能非常有用。在过去的几年中，研究的另一个工具领域是深度学习的出现，并使用深度神经网络来增强任务绩效。在这项工作中，我们建议使用有效的卷积网络来准确测量低分辨率面部视频的用户心率。此外，为了确保我们能够实时获得心律，我们通过修剪深度学习模型来压缩深度学习模型，从而减少其内存足迹。我们在MAHNOB数据集上基准了方法的性能，并在多种方法中比较了其性能。

translated by 谷歌翻译