早期发现焦虑症对于减少精神障碍患者的苦难并改善治疗结果至关重要。基于MHealth平台的焦虑筛查在提高筛选效率和降低筛查成本方面具有特殊实用价值。实际上,受试者的身体和心理评估中移动设备的差异以及数据质量不均匀的问题和现实世界中数据的少量数据量使现有方法无效。因此,我们提出了一个基于时空特征融合的框架,用于非触发焦虑。为了降低数据质量不平衡的影响,我们构建了一个基于“ 3DCNN+LSTM”的特征提取网络,并融合了面部行为和非接触式生理学的时空特征。此外,我们设计了一种相似性评估策略,以解决较小的数据样本量导致模型准确性下降的问题。我们的框架已通过现实世界中的机组数据集进行了验证,并且两个公共数据集UBFC-Phys和Swell-KW。实验结果表明,我们框架的总体性能要比最新的比较方法更好。
translated by 谷歌翻译
监测呼吸率对于帮助我们识别呼吸系统疾病至关重要。常规呼吸监测的设备不方便且几乎无法使用。最近的研究表明,非接触式技术(例如光摄影学和红外热成像)从面部收集呼吸信号并监测呼吸的能力。但是,当前的非接触式呼吸监测技术的精度较差,因为它们对照明和运动伪影等环境影响很敏感。此外,在现实世界中医疗应用程序设置中,用户与云之间的频繁联系可能会导致服务请求延迟,并可能导致个人数据的丢失。我们提出了一种具有合作三层设计的非接触式呼吸速率监测系统,以提高呼吸监测的精度并减少数据传输延迟。为了减少数据传输和网络延迟,我们的三层体系结构逐层分解了呼吸监视的计算任务。此外,我们通过设计目标跟踪算法和消除假峰以提取高质量呼吸信号的算法来提高呼吸监测的准确性。通过收集数据并在面部选择几个感兴趣的区域,我们能够提取呼吸信号并研究不同区域如何影响呼吸监测。实验的结果表明,当使用鼻部区域提取呼吸信号时,它在实验上表现最好。我们的方法的表现比竞争对手的方法更好,同时传输较少的数据。
translated by 谷歌翻译
对医疗保健监控的远程工具的需求从未如此明显。摄像机测量生命体征利用成像装置通过分析人体的图像来计算生理变化。建立光学,机器学习,计算机视觉和医学的进步这些技术以来的数码相机的发明以来已经显着进展。本文介绍了对生理生命体征的相机测量综合调查,描述了它们可以测量的重要标志和实现所做的计算技术。我涵盖了临床和非临床应用以及这些应用需要克服的挑战,以便从概念上推进。最后,我描述了对研究社区可用的当前资源(数据集和代码),并提供了一个全面的网页(https://cameravitals.github.io/),其中包含这些资源的链接以及其中引用的所有文件的分类列表文章。
translated by 谷歌翻译
这项工作对最近的努力进行了系统的综述(自2010年以来),旨在自动分析面对面共同关联的人类社交互动中显示的非语言提示。专注于非语言提示的主要原因是,这些是社会和心理现象的物理,可检测到的痕迹。因此,检测和理解非语言提示至少在一定程度上意味着检测和理解社会和心理现象。所涵盖的主题分为三个:a)建模社会特征,例如领导力,主导,人格特质,b)社会角色认可和社会关系检测以及c)群体凝聚力,同情,rapport和so的互动动态分析向前。我们针对共同的相互作用,其中相互作用的人永远是人类。该调查涵盖了各种各样的环境和场景,包括独立的互动,会议,室内和室外社交交流,二元对话以及人群动态。对于他们每个人,调查都考虑了非语言提示分析的三个主要要素,即数据,传感方法和计算方法。目的是突出显示过去十年的主要进步,指出现有的限制并概述未来的方向。
translated by 谷歌翻译
As one of the most important psychic stress reactions, micro-expressions (MEs), are spontaneous and transient facial expressions that can reveal the genuine emotions of human beings. Thus, recognizing MEs (MER) automatically is becoming increasingly crucial in the field of affective computing, and provides essential technical support in lie detection, psychological analysis and other areas. However, the lack of abundant ME data seriously restricts the development of cutting-edge data-driven MER models. Despite the recent efforts of several spontaneous ME datasets to alleviate this problem, it is still a tiny amount of work. To solve the problem of ME data hunger, we construct a dynamic spontaneous ME dataset with the largest current ME data scale, called DFME (Dynamic Facial Micro-expressions), which includes 7,526 well-labeled ME videos induced by 671 participants and annotated by more than 20 annotators throughout three years. Afterwards, we adopt four classical spatiotemporal feature learning models on DFME to perform MER experiments to objectively verify the validity of DFME dataset. In addition, we explore different solutions to the class imbalance and key-frame sequence sampling problems in dynamic MER respectively on DFME, so as to provide a valuable reference for future research. The comprehensive experimental results show that our DFME dataset can facilitate the research of automatic MER, and provide a new benchmark for MER. DFME will be published via https://mea-lab-421.github.io.
translated by 谷歌翻译
远程光插图学(RPPG)是一种快速,有效,廉价和方便的方法,用于收集生物识别数据,因为它可以使用面部视频来估算生命体征。事实证明,远程非接触式医疗服务供应在COVID-19大流行期间是可怕的必要性。我们提出了一个端到端框架,以根据用户的视频中的RPPG方法来衡量人们的生命体征,包括心率(HR),心率变异性(HRV),氧饱和度(SPO2)和血压(BP)(BP)(BP)用智能手机相机捕获的脸。我们以实时的基于深度学习的神经网络模型来提取面部标志。通过使用预测的面部标志来提取多个称为利益区域(ROI)的面部斑块(ROI)。应用了几个过滤器,以减少称为血量脉冲(BVP)信号的提取的心脏信号中ROI的噪声。我们使用两个公共RPPG数据集培训和验证了机器学习模型,即Tokyotech RPPG和脉搏率检测(PURE)数据集,我们的模型在其上实现了以下平均绝对错误(MAE):a),HR,1.73和3.95 BEATS- beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-s-s-s-s-s-y-peats-beats-beats-beats-ship-s-s-s-in-chin-p-in-in-in-in-in-c--in-in-c-le-in-in- -t一下制。每分钟(bpm),b)分别为HRV,分别为18.55和25.03 ms,c)对于SPO2,纯数据集上的MAE为1.64。我们在现实生活环境中验证了端到端的RPPG框架,修订,从而创建了视频HR数据集。我们的人力资源估计模型在此数据集上达到了2.49 bpm的MAE。由于没有面对视频的BP测量不存在公开可用的RPPG数据集,因此我们使用了带有指标传感器信号的数据集来训练我们的模型,还创建了我们自己的视频数据集Video-BP。在我们的视频BP数据集中,我们的BP估计模型的收缩压(SBP)达到6.7 mmHg,舒张压(DBP)的MAE为9.6 mmHg。
translated by 谷歌翻译
双相情感障碍是一种心理健康障碍,导致情绪波动,从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的,并从患者的护理人员获得的报告。随后,诊断取决于专家的经验,并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标,并让患者的更容易观察较长的时间。此外,在Covid-19大流行期间,对遥控和诊断的需求变得尤为重要。在本论文中,我们根据声学,语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统,以及各种融合技术。除了使用单向特征处理整个患者会话外,还研究了剪辑的任务级调查。在多模式融合系统中使用声学,语言和视觉特征,我们实现了64.8%的未加权平均召回得分,这提高了在该数据集上实现的最先进的性能。
translated by 谷歌翻译
在急诊室(ER)环境中,中风分类或筛查是一个普遍的挑战。由于MRI的慢速吞吐量和高成本,通常会进行快速CT而不是MRI。在此过程中通常提到临床测试,但误诊率仍然很高。我们提出了一个新型的多模式深度学习框架,深沉的中风,以通过识别较小的面部肌肉不协调的模式来实现计算机辅助中风的存在评估,并使怀疑急性环境中的中风的患者无能为力。我们提出的深雷克斯(Deepstroke)在中风分流器中容易获得一分钟的面部视频数据和音频数据,用于局部面部瘫痪检测和全球语音障碍分析。采用了转移学习来减少面部侵蚀偏见并提高普遍性。我们利用多模式的横向融合来结合低水平和高级特征,并为关节训练提供相互正则化。引入了新型的对抗训练以获得无身份和中风的特征。与实际急诊室患者进行的视频ADIO数据集进行的实验表明,与分类团队和ER医生相比,中风的表现要优于最先进的模型,并且取得更好的性能,比传统的敏感性高出10.94%,高7.37%的精度高出7.37%。当特异性对齐时,中风分类。同时,每个评估都可以在不到六分钟的时间内完成,这表明该框架的临床翻译潜力很大。
translated by 谷歌翻译
睡眠是一种基本的生理过程,对于维持健康的身心至关重要。临床睡眠监测的黄金标准是多核桃摄影(PSG),基于哪个睡眠可以分为五个阶段,包括尾脉冲睡眠(REM睡眠)/非REM睡眠1(N1)/非REM睡眠2 (n2)/非REM睡眠3(n3)。然而,PSG昂贵,繁重,不适合日常使用。对于长期睡眠监测,无处不在的感测可以是解决方案。最近,心脏和运动感测在分类三阶段睡眠方面变得流行,因为两种方式都可以从研究级或消费者级设备中获得(例如,Apple Watch)。但是,为最大准确性融合数据的最佳仍然是一个打开的问题。在这项工作中,我们综合地研究了深度学习(DL)的高级融合技术,包括三种融合策略,三个融合方法以及三级睡眠分类,基于两个公共数据集。实验结果表明,通过融合心脏/运动传感方式可以可靠地分类三阶段睡眠,这可能成为在睡眠中进行大规模睡眠阶段评估研究或长期自动跟踪的实用工具。为了加快普遍存在/可穿戴计算社区的睡眠研究的进展,我们制作了该项目开源,可以在:https://github.com/bzhai/ubi-sleepnet找到代码。
translated by 谷歌翻译
Sensory and emotional experiences such as pain and empathy are essential for mental and physical health. Cognitive neuroscience has been working on revealing mechanisms underlying pain and empathy. Furthermore, as trending research areas, computational pain recognition and empathic artificial intelligence (AI) show progress and promise for healthcare or human-computer interaction. Although AI research has recently made it increasingly possible to create artificial systems with affective processing, most cognitive neuroscience and AI research do not jointly address the issues of empathy in AI and cognitive neuroscience. The main aim of this paper is to introduce key advances, cognitive challenges and technical barriers in computational pain recognition and the implementation of artificial empathy. Our discussion covers the following topics: How can AI recognize pain from unimodal and multimodal information? Is it crucial for AI to be empathic? What are the benefits and challenges of empathic AI? Despite some consensus on the importance of AI, including empathic recognition and responses, we also highlight future challenges for artificial empathy and possible paths from interdisciplinary perspectives. Furthermore, we discuss challenges for responsible evaluation of cognitive methods and computational techniques and show approaches to future work to contribute to affective assistants capable of empathy.
translated by 谷歌翻译
现有的多模式应力/疼痛识别方法通常独立地从不同模态中提取特征,因此忽略了交叉模式相关性。本文提出了一个新的几何框架,用于利用对称阳性定位(SPD)矩阵作为一种表示形式的多模式应力/疼痛检测,该代表结合了协方差和交叉稳定性的生理和行为信号的相关关系。考虑到SPD矩阵的Riemannian流形的非线性,众所周知的机器学习技术不适合对这些矩阵进行分类。因此,采用切线空间映射方法将派生的SPD矩阵序列映射到可将基于LSTM的网络用于分类的切线空间中的向量序列。提出的框架已在两个公共多模式数据集上进行了评估,这两者都取得了压力和疼痛检测任务的最新结果。
translated by 谷歌翻译
深度学习属于人工智能领域,机器执行通常需要某种人类智能的任务。类似于大脑的基本结构,深度学习算法包括一种人工神经网络,其类似于生物脑结构。利用他们的感官模仿人类的学习过程,深入学习网络被送入(感官)数据,如文本,图像,视频或声音。这些网络在不同的任务中优于最先进的方法,因此,整个领域在过去几年中看到了指数增长。这种增长在过去几年中每年超过10,000多种出版物。例如,只有在医疗领域中的所有出版物中覆盖的搜索引擎只能在Q3 2020中覆盖所有出版物的子集,用于搜索术语“深度学习”,其中大约90%来自过去三年。因此,对深度学习领域的完全概述已经不可能在不久的将来获得,并且在不久的将来可能会难以获得难以获得子场的概要。但是,有几个关于深度学习的综述文章,这些文章专注于特定的科学领域或应用程序,例如计算机愿景的深度学习进步或在物体检测等特定任务中进行。随着这些调查作为基础,这一贡献的目的是提供对不同科学学科的深度学习的第一个高级,分类的元调查。根据底层数据来源(图像,语言,医疗,混合)选择了类别(计算机愿景,语言处理,医疗信息和其他工程)。此外,我们还审查了每个子类别的常见架构,方法,专业,利弊,评估,挑战和未来方向。
translated by 谷歌翻译
创伤后应激障碍(PTSD)是一种长期衰弱的精神状况,是针对灾难性生活事件(例如军事战斗,性侵犯和自然灾害)而发展的。 PTSD的特征是过去的创伤事件,侵入性思想,噩梦,过度维护和睡眠障碍的闪回,所有这些都会影响一个人的生活,并导致相当大的社会,职业和人际关系障碍。 PTSD的诊断是由医学专业人员使用精神障碍诊断和统计手册(DSM)中定义的PTSD症状的自我评估问卷进行的。在本文中,这是我们第一次收集,注释并为公共发行准备了一个新的视频数据库,用于自动PTSD诊断,在野生数据集中称为PTSD。该数据库在采集条件下表现出“自然”和巨大的差异,面部表达,照明,聚焦,分辨率,年龄,性别,种族,遮挡和背景。除了描述数据集集合的详细信息外,我们还提供了评估野生数据集中PTSD的基于计算机视觉和机器学习方法的基准。此外,我们建议并评估基于深度学习的PTSD检测方法。提出的方法显示出非常有希望的结果。有兴趣的研究人员可以从:http://www.lissi.fr/ptsd-dataset/下载PTSD-in-wild数据集的副本
translated by 谷歌翻译
动物运动跟踪和姿势识别的进步一直是动物行为研究的游戏规则改变者。最近,越来越多的作品比跟踪“更深”,并解决了对动物内部状态(例如情绪和痛苦)的自动认识,目的是改善动物福利,这使得这是对该领域进行系统化的及时时刻。本文对基于计算机的识别情感状态和动物的疼痛的研究进行了全面调查,并涉及面部行为和身体行为分析。我们总结了迄今为止在这个主题中所付出的努力 - 对它们进行分类,从不同的维度进行分类,突出挑战和研究差距,并提供最佳实践建议,以推进该领域以及一些未来的研究方向。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译
注意缺陷/多动症(ADHD)是一种神经发育障碍,高度流行,需要临床专家才能诊断。众所周知,个人的观察行为反映在眼睛运动中,直接与注意机制和高阶认知过程有关。因此,我们探讨了是否可以根据记录的眼动动作以及在免费观看任务中的视频刺激信息进行检测到多动症。为此,我们开发了一个基于端到端的深度学习序列模型%,该模型%使用眼动扫描路径,我们将其预先培训在相关任务上,该任务可获得更多数据。我们发现该方法实际上能够检测ADHD并胜过相关的基线。我们在消融研究中研究了输入特征的相关性。有趣的是,我们发现该模型的性能与视频内容密切相关,该视频为未来的实验设计提供了见解。
translated by 谷歌翻译
准确诊断自闭症谱系障碍(ASD),随后有效康复对该疾病的管理至关重要。人工智能(AI)技术可以帮助医生应用自动诊断和康复程序。 AI技术包括传统机器学习(ML)方法和深度学习(DL)技术。常规ML方法采用各种特征提取和分类技术,但在DL中,特征提取和分类过程是智能的,一体地完成的。诊断ASD的DL方法已经专注于基于神经影像动物的方法。神经成像技术是无侵入性疾病标志物,可能对ASD诊断有用。结构和功能神经影像技术提供了关于大脑的结构(解剖结构和结构连接)和功能(活性和功能连接)的实质性信息。由于大脑的复杂结构和功能,提出了在不利用像DL这样的强大AI技术的情况下使用神经影像数据进行ASD诊断的最佳程序可能是具有挑战性的。本文研究了借助DL网络进行以区分ASD进行的研究。还评估了用于支持ASD患者的康复工具,用于利用DL网络的支持患者。最后,我们将在ASD的自动检测和康复中提出重要挑战,并提出了一些未来的作品。
translated by 谷歌翻译
为了帮助现有的Telemental Mechanical服务,我们提出Deeptmh,这是一种通过提取对应于心理学文献经常使用的情感和认知特征的潜视和认知特征来模拟Telemental Mealth Session视频的新框架。我们的方法利用半监督学习的进步来解决Telemental Healts Sessience视频领域的数据稀缺,包括多模式半监督GaN,以检测Telemental卫生课程中的重要心理健康指标。我们展示了我们框架的有用性和与现有工作中的两项任务对比:参与回归和价值回归,这两者都对心理学家在眼药性健康会议期间对心理学家很重要。我们的框架报告了RMSE在参与回归中的RMSE方法的40%,并在价值唤醒回归中的SOTA方法中的50%改善。为了解决Telemental Health空间中公开的数据集的稀缺性,我们发布了一个新的数据集,Medica,用于心理健康患者参与检测。我们的数据集,Medica由1299个视频组成,每节3秒长。据我们所知,我们的方法是基于心理驱动的情感和认知功能来模拟Telemental Healts会话数据的第一种方法,这也通过利用半监督设置来解决数据稀疏性。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译