双相情感障碍是一种心理健康障碍,导致情绪波动,从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的,并从患者的护理人员获得的报告。随后,诊断取决于专家的经验,并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标,并让患者的更容易观察较长的时间。此外,在Covid-19大流行期间,对遥控和诊断的需求变得尤为重要。在本论文中,我们根据声学,语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统,以及各种融合技术。除了使用单向特征处理整个患者会话外,还研究了剪辑的任务级调查。在多模式融合系统中使用声学,语言和视觉特征,我们实现了64.8%的未加权平均召回得分,这提高了在该数据集上实现的最先进的性能。
translated by 谷歌翻译
夫妻通常在一起管理慢性疾病,管理层对患者及其浪漫伴侣造成了情感上的伤害。因此,认识到日常生活中每个伴侣的情绪可以提供对他们在慢性疾病管理中的情感健康的见解。当前,评估每个伴侣的情绪的过程是手动,时间密集和昂贵的。尽管夫妻之间存在着关于情感识别的作品,但这些作品都没有使用夫妻在日常生活中的互动中收集的数据。在这项工作中,我们收集了85小时(1,021个5分钟样本)现实世界多模式智能手表传感器数据(语音,心率,加速度计和陀螺仪)和自我报告的情绪数据(n = 612)(13个伙伴)(13)夫妻)在日常生活中管理2型糖尿病。我们提取了生理,运动,声学和语言特征,以及训练有素的机器学习模型(支持向量机和随机森林),以识别每个伴侣的自我报告的情绪(价和唤醒)。我们最佳模型的结果比偶然的结果更好,唤醒和价值分别为63.8%和78.1%。这项工作有助于建立自动情绪识别系统,最终使伙伴能够监视他们在日常生活中的情绪,并能够提供干预措施以改善其情感幸福感。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
在本文中,我们介绍了2022年多模式情感分析挑战(MUSE)的解决方案,其中包括Muse-Humor,Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯(Muse 2022)着重于幽默检测,情绪反应和多模式的情感压力,利用不同的方式和数据集。在我们的工作中,提取了不同种类的多模式特征,包括声学,视觉,文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中,1)提取了一些新的音频功能,面部表达功能和段落级文本嵌入以进行准确的改进。 2)我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3)在模型培训中应用有效的数据增强策略,以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战,我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战,我们在测试集上的Pearson相关系数为0.3879,它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge,我们的方法在测试数据集上的唤醒和价值都优于基线,达到了0.5151的最终综合结果。
translated by 谷歌翻译
创伤后应激障碍(PTSD)是一种长期衰弱的精神状况,是针对灾难性生活事件(例如军事战斗,性侵犯和自然灾害)而发展的。 PTSD的特征是过去的创伤事件,侵入性思想,噩梦,过度维护和睡眠障碍的闪回,所有这些都会影响一个人的生活,并导致相当大的社会,职业和人际关系障碍。 PTSD的诊断是由医学专业人员使用精神障碍诊断和统计手册(DSM)中定义的PTSD症状的自我评估问卷进行的。在本文中,这是我们第一次收集,注释并为公共发行准备了一个新的视频数据库,用于自动PTSD诊断,在野生数据集中称为PTSD。该数据库在采集条件下表现出“自然”和巨大的差异,面部表达,照明,聚焦,分辨率,年龄,性别,种族,遮挡和背景。除了描述数据集集合的详细信息外,我们还提供了评估野生数据集中PTSD的基于计算机视觉和机器学习方法的基准。此外,我们建议并评估基于深度学习的PTSD检测方法。提出的方法显示出非常有希望的结果。有兴趣的研究人员可以从:http://www.lissi.fr/ptsd-dataset/下载PTSD-in-wild数据集的副本
translated by 谷歌翻译
未能及时诊断并有效治疗抑郁症会导致全世界有超过2.8亿人患有这种心理障碍。抑郁症的信息提示可以从不同的异质资源(例如音频,视觉和文本数据)中收获,从而提高了对自动估计的新有效多模式融合方法的需求。在这项工作中,我们解决了从多模式数据中自动识别抑郁症的任务,并引入了一种接触机制,以连接异质信息,同时利用卷积双向LSTM作为我们的骨架。为了验证这一想法,我们对公共DAIC-WOZ基准进行了广泛的实验,以进行抑郁评估,该评估具有不同的评估模式,并考虑了特定性别的偏见。提出的模型在检测严重抑郁症和4.92 MAE时以0.89的精度和0.70 F1得分产生有效的结果。我们基于注意力的融合模块始终优于常规的晚期融合方法,并且与先前发表的抑郁估计框架相比,取得了竞争性能,同时学习诊断端到端的疾病并依靠较少的预处理步骤。
translated by 谷歌翻译
动物运动跟踪和姿势识别的进步一直是动物行为研究的游戏规则改变者。最近,越来越多的作品比跟踪“更深”,并解决了对动物内部状态(例如情绪和痛苦)的自动认识,目的是改善动物福利,这使得这是对该领域进行系统化的及时时刻。本文对基于计算机的识别情感状态和动物的疼痛的研究进行了全面调查,并涉及面部行为和身体行为分析。我们总结了迄今为止在这个主题中所付出的努力 - 对它们进行分类,从不同的维度进行分类,突出挑战和研究差距,并提供最佳实践建议,以推进该领域以及一些未来的研究方向。
translated by 谷歌翻译
幽默是人类情感和认知的重要因素。它的自动理解可以促进更自然的人类设备互动和人工智能的人性化。当前的幽默检测方法仅基于分阶段数据,使其不适用于“现实世界”应用程序。我们通过引入新颖的Passau自发足球教练幽默(Passau-SFCH)数据集来解决这种缺陷,包括大约11个小时的录音。在马丁的幽默风格问卷中提出的幽默及其尺寸(情感和方向)的存在,请注释Passau-SFCH数据集。我们进行了一系列实验,采用了经过预定的变压器,卷积神经网络和专家设计的功能。分析了每种模式(文本,音频,视频)的表现,以进行自发幽默识别,并研究了它们的互补性。我们的发现表明,对于对幽默及其情感的自动分析,面部表情是最有希望的,而幽默方向可以通过基于文本的功能进行建模。结果揭示了各种主题之间的差异,突出了幽默用法和风格的个性。此外,我们观察到决策级融合会产生最佳认可结果。最后,我们在https://www.github.com/eihw/passau-sfch上公开代码。可以根据要求获得Passau-SFCH数据集。
translated by 谷歌翻译
情感计算在人与机器之间的关系中非常重要。在本文中,提出了一种基于语音信号的语音情感识别(SER)的系统,其利用不同处理阶段的新技术。该系统由三个阶段组成:功能提取,功能选择,最终要素分类。在第一阶段,使用新的和多样性特征(如韵律,光谱和频谱)特征,从语音信号和光泽 - 波形信号中提取复杂的长期统计特征。 SER系统的挑战之一是区分相关情绪。这些特征是言语情绪的好鉴别者,并提高Ser识别类似和不同情绪的能力。此特征向量具有大量维度自然具有冗余。在第二阶段,使用经典特征选择技术以及用于减少特征向量维度的新量子启发技术,减少了特征向量尺寸的数量。在第三阶段,优化的特征向量由加权深稀疏的极端学习机(ELM)分类器分类。分类器以三个步骤执行分类:稀疏随机特征学习,使用奇异值分解(SVD)技术的正交随机投影,以及使用广义Tikhonov正规技术的最后一步中的鉴别分类。此外,许多现有的情绪数据集遭受数据不平衡分布的问题,这反过来增加了分类误差并降低了系统性能。在本文中,还提出了一种新的加权方法来处理类别不平衡,比现有的加权方法更有效。所提出的方法是在三个标准情绪数据库上进行评估。
translated by 谷歌翻译
早期发现焦虑症对于减少精神障碍患者的苦难并改善治疗结果至关重要。基于MHealth平台的焦虑筛查在提高筛选效率和降低筛查成本方面具有特殊实用价值。实际上,受试者的身体和心理评估中移动设备的差异以及数据质量不均匀的问题和现实世界中数据的少量数据量使现有方法无效。因此,我们提出了一个基于时空特征融合的框架,用于非触发焦虑。为了降低数据质量不平衡的影响,我们构建了一个基于“ 3DCNN+LSTM”的特征提取网络,并融合了面部行为和非接触式生理学的时空特征。此外,我们设计了一种相似性评估策略,以解决较小的数据样本量导致模型准确性下降的问题。我们的框架已通过现实世界中的机组数据集进行了验证,并且两个公共数据集UBFC-Phys和Swell-KW。实验结果表明,我们框架的总体性能要比最新的比较方法更好。
translated by 谷歌翻译
这项工作对最近的努力进行了系统的综述(自2010年以来),旨在自动分析面对面共同关联的人类社交互动中显示的非语言提示。专注于非语言提示的主要原因是,这些是社会和心理现象的物理,可检测到的痕迹。因此,检测和理解非语言提示至少在一定程度上意味着检测和理解社会和心理现象。所涵盖的主题分为三个:a)建模社会特征,例如领导力,主导,人格特质,b)社会角色认可和社会关系检测以及c)群体凝聚力,同情,rapport和so的互动动态分析向前。我们针对共同的相互作用,其中相互作用的人永远是人类。该调查涵盖了各种各样的环境和场景,包括独立的互动,会议,室内和室外社交交流,二元对话以及人群动态。对于他们每个人,调查都考虑了非语言提示分析的三个主要要素,即数据,传感方法和计算方法。目的是突出显示过去十年的主要进步,指出现有的限制并概述未来的方向。
translated by 谷歌翻译
为了帮助现有的Telemental Mechanical服务,我们提出Deeptmh,这是一种通过提取对应于心理学文献经常使用的情感和认知特征的潜视和认知特征来模拟Telemental Mealth Session视频的新框架。我们的方法利用半监督学习的进步来解决Telemental Healts Sessience视频领域的数据稀缺,包括多模式半监督GaN,以检测Telemental卫生课程中的重要心理健康指标。我们展示了我们框架的有用性和与现有工作中的两项任务对比:参与回归和价值回归,这两者都对心理学家在眼药性健康会议期间对心理学家很重要。我们的框架报告了RMSE在参与回归中的RMSE方法的40%,并在价值唤醒回归中的SOTA方法中的50%改善。为了解决Telemental Health空间中公开的数据集的稀缺性,我们发布了一个新的数据集,Medica,用于心理健康患者参与检测。我们的数据集,Medica由1299个视频组成,每节3秒长。据我们所知,我们的方法是基于心理驱动的情感和认知功能来模拟Telemental Healts会话数据的第一种方法,这也通过利用半监督设置来解决数据稀疏性。
translated by 谷歌翻译
欺骗检测是一项重要的任务,由于其潜在应用,它一直是热门研究主题。它可以在许多领域中应用,从国家安全(例如机场安全,法学和执法部门)到现实生活申请(例如,商业和计算机愿景)。但是,仍然存在一些关键问题,值得进行更多调查。欺骗检测任务中的重大挑战之一是数据稀缺问题。到目前为止,仅发布了一个用于人类欺骗检测的多模式基准开放数据集,其中包含121个用于欺骗检测的视频剪辑(即欺骗性类别为61个,而真实的班级为60)。这样的数据很难驱动基于神经网络的深层方法。因此,这些现有模型通常会遭受过度拟合的问题和低概括能力的困扰。此外,地面真相数据包含许多因素的无法使用的帧。但是,大多数文献都没有注意这些问题。因此,在本文中,我们设计了一系列数据预处理方法,以首先处理上述问题。然后,我们提出了一个多模式欺骗检测框架,以构建我们新颖的基于情感状态的功能,并使用开放的工具包开机仪从音频模式中提取功能。我们还设计了一个投票方案,以结合从视觉和音频方式获得的情绪状态信息。最后,我们可以通过我们的自设计算法来确定新颖的情感状态转换功能。在实验中,我们将提出方法与最先进的多模式欺骗检测方法进行了批判性分析和比较。实验结果表明,多模式欺骗检测的总体性能从87.77%到92.78%,ROC-AUC的准确性显着提高,从0.9221到0.9265。
translated by 谷歌翻译
室内场景识别是一种不断增长的领域,具有巨大的行为理解,机器人本地化和老年人监测等。在这项研究中,我们使用从社交媒体收集的多模态学习和视频数据来从新的角度来看场景识别的任务。社交媒体视频的可访问性和各种可以为现代场景识别技术和应用提供现实数据。我们提出了一种基于转录语音的融合到文本和视觉功能的模型,用于在名为Instaindoor的室内场景的社交媒体视频的新型数据集上进行分类。我们的模型可实现高达70%的精度和0.7 F1分数。此外,我们通过在室内场景的YouTube-8M子集上基准测试,我们突出了我们的方法的潜力,在那里它达到了74%的精度和0.74f1分数。我们希望这项工作的贡献铺平了在挑战领域的室内场景认可领域的新型研究。
translated by 谷歌翻译
人类通过不同的渠道表达感受或情绪。以语言为例,它在不同的视觉声学上下文下需要不同的情绪。为了精确了解人类意图,并减少歧义和讽刺引起的误解,我们应该考虑多式联路信号,包括文本,视觉和声学信号。至关重要的挑战是融合不同的特征模式以进行情绪分析。为了有效地融合不同的方式携带的信息,更好地预测情绪,我们设计了一种基于新的多主题的融合网络,这是由任何两个对方式之间的相互作用不同的观察来启发,它们是不同的,并且它们不同样有助于最终的情绪预测。通过分配具有合理关注和利用残余结构的声学 - 视觉,声学 - 文本和视觉文本特征,我们参加了重要的特征。我们对四个公共多模式数据集进行了广泛的实验,包括中文和三种英文中的一个。结果表明,我们的方法优于现有的方法,并可以解释双模相互作用在多种模式中的贡献。
translated by 谷歌翻译
Covid-19在全球范围内影响了223多个国家。迫切需要非侵入性,低成本和高度可扩展的解决方案来检测COVID-19,尤其是在PCR测试无普遍可用的低资源国家。我们的目的是开发一个深度学习模型,使用普通人群(语音录音和简短问卷)通过其个人设备自发提供的语音数据记录来识别Covid-19。这项工作的新颖性在于开发一个深度学习模型,以鉴定来自语音记录的199名患者。方法:我们使用了由893个音频样本组成的剑桥大学数据集,该数据集由4352名参与者的人群来源,这些参与者使用了COVID-19 Sounds应用程序。使用MEL光谱分析提取语音功能。根据语音数据,我们开发了深度学习分类模型,以检测阳性的Covid-19情况。这些模型包括长期术语记忆(LSTM)和卷积神经网络(CNN)。我们将它们的预测能力与基线分类模型进行了比较,即逻辑回归和支持向量机。结果:基于MEL频率CEPSTRAL系数(MFCC)功能的LSTM具有最高的精度(89%),其灵敏度和特异性分别为89%和89%,其结果通过提议的模型获得了显着改善,这表明该结果显着改善与艺术状态获得的结果相比,COVID-19诊断的预测准确性。结论:深度学习可以检测到199例患者的声音中的细微变化,并有令人鼓舞的结果。作为当前测试技术的补充,该模型可以使用简单的语音分析帮助卫生专业人员快速诊断和追踪Covid-19案例
translated by 谷歌翻译
阿尔茨海默氏病(AD)构成了一种神经退行性疾病,对人们的日常生活造成了严重后果,如果没有可用的治愈方法,请及早诊断出来。阿尔茨海默氏症是痴呆症的最常见原因,它构成了记忆丧失的一般术语。由于痴呆症会影响言语,因此现有的研究计划着重于检测自发言语的痴呆症。然而,关于语音数据转换为对数 - 梅尔频谱图和梅尔频率cepstral系数(MFCC)以及预验证模型的使用,几乎没有做出的工作。同时,关于变压器网络的使用以及两种模式(即语音和笔录)的方式,几乎没有完成工作。为了解决这些局限性,首先我们采用了几个验证的模型,而视觉变压器(VIT)则取得了最高的评估结果。其次,我们提出了多模型模型。更具体地说,我们引入的模型包括封闭式的多模式单元,以控制每种模态对最终分类和跨模式关注的影响,以便以有效的方式捕获两种模态之间的关系。在Adress挑战数据集上进行的广泛实验证明了所提出的模型的有效性及其优于最先进的方法。
translated by 谷歌翻译
多模式情感分析由于其在多模式相互作用中的信息互补性而具有广泛的应用。以前的作品更多地着重于研究有效的联合表示,但他们很少考虑非峰值提取和多模层融合的数据冗余性的不足。在本文中,提出了一个基于视频的跨模式辅助网络(VCAN),该网络由音频特征映射模块和跨模式选择模块组成。第一个模块旨在大大提高音频功能提取的特征多样性,旨在通过提供更全面的声学表示来提高分类精度。为了授权该模型处理冗余视觉功能,第二个模块是在集成视听数据时有效地过滤冗余视觉框架的。此外,引入了由几个图像分类网络组成的分类器组,以预测情感极性和情感类别。关于RAVDESS,CMU-MOSI和CMU-MOSEI基准的广泛实验结果表明,VCAN明显优于提高多模式情感分析的分类准确性的最新方法。
translated by 谷歌翻译
基于签名的技术使数学洞察力洞悉不断发展的数据的复杂流之间的相互作用。这些见解可以自然地转化为理解流数据的数值方法,也许是由于它们的数学精度,已被证明在数据不规则而不是固定的情况下分析流的数据以及数据和数据的尺寸很有用样本量均为中等。了解流的多模式数据是指数的:$ d $ d $的字母中的$ n $字母中的一个单词可以是$ d^n $消息之一。签名消除了通过采样不规则性引起的指数级噪声,但仍然存在指数量的信息。这项调查旨在留在可以直接管理指数缩放的域中。在许多问题中,可伸缩性问题是一个重要的挑战,但需要另一篇调查文章和进一步的想法。这项调查描述了一系列环境集足够小以消除大规模机器学习的可能性,并且可以有效地使用一小部分免费上下文和原则性功能。工具的数学性质可以使他们对非数学家的使用恐吓。本文中介绍的示例旨在弥合此通信差距,并提供从机器学习环境中绘制的可进行的工作示例。笔记本可以在线提供这些示例中的一些。这项调查是基于伊利亚·雪佛兰(Ilya Chevryev)和安德烈·科米利津(Andrey Kormilitzin)的早期论文,它们在这种机械开发的较早时刻大致相似。本文说明了签名提供的理论见解是如何在对应用程序数据的分析中简单地实现的,这种方式在很大程度上对数据类型不可知。
translated by 谷歌翻译