Traditional screening practices for anxiety and depression pose an impediment to monitoring and treating these conditions effectively. However, recent advances in NLP and speech modelling allow textual, acoustic, and hand-crafted language-based features to jointly form the basis of future mental health screening and condition detection. Speech is a rich and readily available source of insight into an individual's cognitive state and by leveraging different aspects of speech, we can develop new digital biomarkers for depression and anxiety. To this end, we propose a multi-modal system for the screening of depression and anxiety from self-administered speech tasks. The proposed model integrates deep-learned features from audio and text, as well as hand-crafted features that are informed by clinically-validated domain knowledge. We find that augmenting hand-crafted features with deep-learned features improves our overall classification F1 score comparing to a baseline of hand-crafted features alone from 0.58 to 0.63 for depression and from 0.54 to 0.57 for anxiety. The findings of our work suggest that speech-based biomarkers for depression and anxiety hold significant promise in the future of digital health.
translated by 谷歌翻译
鉴于AD的高流行,对阿尔茨海默氏病(AD)检测的强大策略很重要。在本文中,我们研究了来自最近的Adresso挑战数据集的三种AD检测方法的性能和概括性:1)使用常规声学特征2)使用新型的预训练的声学嵌入式3)结合声学特征和嵌入。我们发现,尽管基于特征的方法具有更高的精度,但依赖于预训练的嵌入的分类方法证明在多个性能的多个指标中具有更高且更平衡的交叉验证性能。此外,仅嵌入方法更具概括性。我们的最佳模型在挑战中优于声学基线2.8%。
translated by 谷歌翻译
阿尔茨海默氏病(AD)构成了一种神经退行性疾病,对人们的日常生活造成了严重后果,如果没有可用的治愈方法,请及早诊断出来。阿尔茨海默氏症是痴呆症的最常见原因,它构成了记忆丧失的一般术语。由于痴呆症会影响言语,因此现有的研究计划着重于检测自发言语的痴呆症。然而,关于语音数据转换为对数 - 梅尔频谱图和梅尔频率cepstral系数(MFCC)以及预验证模型的使用,几乎没有做出的工作。同时,关于变压器网络的使用以及两种模式(即语音和笔录)的方式,几乎没有完成工作。为了解决这些局限性,首先我们采用了几个验证的模型,而视觉变压器(VIT)则取得了最高的评估结果。其次,我们提出了多模型模型。更具体地说,我们引入的模型包括封闭式的多模式单元,以控制每种模态对最终分类和跨模式关注的影响,以便以有效的方式捕获两种模态之间的关系。在Adress挑战数据集上进行的广泛实验证明了所提出的模型的有效性及其优于最先进的方法。
translated by 谷歌翻译
双相情感障碍是一种心理健康障碍,导致情绪波动,从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的,并从患者的护理人员获得的报告。随后,诊断取决于专家的经验,并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标,并让患者的更容易观察较长的时间。此外,在Covid-19大流行期间,对遥控和诊断的需求变得尤为重要。在本论文中,我们根据声学,语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统,以及各种融合技术。除了使用单向特征处理整个患者会话外,还研究了剪辑的任务级调查。在多模式融合系统中使用声学,语言和视觉特征,我们实现了64.8%的未加权平均召回得分,这提高了在该数据集上实现的最先进的性能。
translated by 谷歌翻译
标准化测试在检测认知障碍中起着至关重要的作用。先前的工作表明,使用标准化图片描述任务中的音频数据可以自动检测认知障碍。提出的研究超出了这一点,评估了我们对来自两个标准化神经心理学测试的数据,即德国SKT和德国版本的CERAD-NB,以及患者与心理学家之间的半结构化临床访谈。对于测试,我们关注三个子测试的语音记录:阅读数字(SKT 3),干扰(SKT 7)和口头流利度(Cerad-NB 1)。我们表明,标准化测试的声学特征可用于可靠地区分非受损的人的认知受损个体。此外,我们提供的证据表明,即使是从访谈的随机语音样本中提取的特征也可能是认知障碍的歧视者。在我们的基线实验中,我们使用开米的功能和支持向量机分类器。在改进的设置中,我们表明使用WAV2VEC 2.0功能,我们可以达到高达85%的精度。
translated by 谷歌翻译
创伤后应激障碍(PTSD)是一种长期衰弱的精神状况,是针对灾难性生活事件(例如军事战斗,性侵犯和自然灾害)而发展的。 PTSD的特征是过去的创伤事件,侵入性思想,噩梦,过度维护和睡眠障碍的闪回,所有这些都会影响一个人的生活,并导致相当大的社会,职业和人际关系障碍。 PTSD的诊断是由医学专业人员使用精神障碍诊断和统计手册(DSM)中定义的PTSD症状的自我评估问卷进行的。在本文中,这是我们第一次收集,注释并为公共发行准备了一个新的视频数据库,用于自动PTSD诊断,在野生数据集中称为PTSD。该数据库在采集条件下表现出“自然”和巨大的差异,面部表达,照明,聚焦,分辨率,年龄,性别,种族,遮挡和背景。除了描述数据集集合的详细信息外,我们还提供了评估野生数据集中PTSD的基于计算机视觉和机器学习方法的基准。此外,我们建议并评估基于深度学习的PTSD检测方法。提出的方法显示出非常有希望的结果。有兴趣的研究人员可以从:http://www.lissi.fr/ptsd-dataset/下载PTSD-in-wild数据集的副本
translated by 谷歌翻译
鉴于AD的高流行和传统方法的高成本,与自动检测阿尔茨海默氏病(AD)有关的研究很重要。由于广告会显着影响自发语音的声学,因此语音处理和机器学习(ML)为可靠地检测AD提供了有希望的技术。但是,语音音频可能会受到不同类型的背景噪声的影响,重要的是要了解噪声如何影响ML模型检测到语音的AD的准确性。在本文中,我们研究了来自五个不同类别的15种类型的环境噪声对四种具有三种声音表示的ML模型的性能的影响。我们进行了彻底的分析,显示了ML模型和声学特征如何受到不同类型的声学噪声的影响。我们表明声音噪声不一定是有害的 - 某些类型的噪声对AD检测模型有益,并帮助将精度提高到4.8%。我们提供有关如何利用声学噪声的建议,以通过在现实世界中部署的ML模型获得最佳性能结果。
translated by 谷歌翻译
监测普遍的空气传播疾病,例如COVID-19的特征涉及呼吸评估。虽然听诊是一种症状监测的主流方法,但其诊断效用受到专用医院就诊的需求而受到阻碍。基于便携式设备上呼吸道声音的记录,持续的远程监视是一种有希望的替代方法,可以帮助筛选Covid-19。在这项研究中,我们介绍了一种新型的深度学习方法,可以将Covid-19患者与健康对照组区分开,鉴于咳嗽或呼吸声的音频记录。所提出的方法利用新型的层次谱图变压器(HST)在呼吸声的光谱图表示上。 HST在频谱图中体现了在本地窗口上的自我发挥机制,并且窗口大小在模型阶段逐渐生长,以捕获本地环境。将HST与最新的常规和深度学习基线进行比较。在跨国数据集上进行的全面演示表明,HST优于竞争方法,在检测COVID-19案例中,在接收器操作特征曲线(AUC)下达到了97%以上的面积。
translated by 谷歌翻译
我们提出了一个基于深度学习的自动咳嗽分类器,可以区分结核病(TB)与Covid-19咳嗽和健康咳嗽。 TB和Covid-19都是呼吸道疾病,具有传染性,咳嗽是一种主要的症状,每年夺走了数千人的生命。在室内和室外设置都收集了咳嗽的录音,并使用来自全球各地受试者的智能手机上传,因此包含各种噪声。该咳嗽数据包括1.68小时的结核病咳嗽,18.54分钟的咳嗽,咳嗽和1.69小时的健康咳嗽,47例TB患者,229例Covid-19患者和1498例健康患者,并用于培训和评估CNN,LSTM和Resnet505050 。这三个深度体系结构在2.14小时的打喷嚏,2.91小时的语音和2.79小时的噪音中也进行了预训练,以提高性能。通过使用SMOTE数据平衡技术并使用诸如F1得分和AUC之类的性能指标来解决我们数据集中的类不平衡。我们的研究表明,从预先训练的RESNET50中获得了最高的0.9259和0.8631的F1分数,两级(TB与CoVID-19)和三级(TB VS VS COVID-19与健康)的咳嗽分类,咳嗽分类,,咳嗽分类任务,三级(TB vs vs covid-19)分别。深度转移学习的应用改善了分类器的性能,并使它们更加坚固,因为它们在交叉验证折叠上更好地概括了。他们的表现超过了世界卫生组织(WHO)设定的结核病分类测试要求。产生最佳性能的功能包含MFCC的高阶,这表明人耳朵无法感知结核病和COVID-19之间的差异。这种类型的咳嗽音频分类是非接触,具有成本效益的,并且可以轻松地部署在智能手机上,因此它可以成为TB和COVID-19筛查的绝佳工具。
translated by 谷歌翻译
尽管最新的自动语音识别(ASR)系统的性能得到改善,但转录错误仍然不可避免。当用于帮助临床文档时,这些错误可能会对医疗保健等关键领域产生重大影响。因此,检测ASR错误是防止进一步传播下游应用程序的关键第一步。为此,我们提出了一种新颖的端到端方法,用于使用Audio-Transcript Indailment进行ASR误差检测。据我们所知,我们是第一个将此问题作为音频段及其相应的成绩单段之间的端到端核对任务的人。我们的直觉是,当没有识别错误时,音频和笔录之间应该有双向构成,反之亦然。提出的模型利用声学编码器和语言编码器分别对语音和转录本进行建模。两种模式的编码表示形式都被融合以预测元素。由于我们的实验中使用了医生对话,因此特别强调了医学术语。我们提出的模型在所有转录误差上的分类错误率(CER)为26.2%,特别是在医疗错误上的分类错误率为23%,导致强大基线的改善分别提高了12%和15.4%。
translated by 谷歌翻译
这项工作旨在自动评估儿童的语言发展是否适合年龄。经过验证的语音和语言测试用于此目的测试听觉记忆。在这项工作中,任务是确定是否正确说出了口语非单词。我们比较有动机来建模特定语言结构的不同方法:低水平特征(FFT),扬声器嵌入(ECAPA-TDNN),素化 - 动机的嵌入(WAV2VEC 2.0)和语音嵌入Senones(ASR ASR ACOSTIC模型)形式。每种方法都提供了类似VGG的5层CNN分类器的输入。我们还检查了每个非单词的适应性。使用来自口头非单词的不同幼儿园的录音进行了对拟议系统的评估。 ECAPA-TDNN和低级FFT特征不会明确模型语音信息; WAV2VEC2.0经过素数标签训练,我们的ASR声学模型包含(子)语音信息。我们发现,语音建模越颗粒状,达到的识别率就越高。在ASR声学模型特征上训练的最佳系统的精度为89.4%,在ROC(接收器操作特征)曲线(AUC)下的面积为0.923。与FFT-BASELINE相比,这对应于20.2%和AUC相对0.309的改善。
translated by 谷歌翻译
Alzheimer's disease (AD) is a progressive neurological disorder, meaning that the symptoms develop gradually throughout the years. It is also the main cause of dementia, which affects memory, thinking skills, and mental abilities. Nowadays, researchers have moved their interest towards AD detection from spontaneous speech, since it constitutes a time-effective procedure. However, existing state-of-the-art works proposing multimodal approaches do not take into consideration the inter- and intra-modal interactions and propose early and late fusion approaches. To tackle these limitations, we propose deep neural networks, which can be trained in an end-to-end trainable way and capture the inter- and intra-modal interactions. Firstly, each audio file is converted to an image consisting of three channels, i.e., log-Mel spectrogram, delta, and delta-delta. Next, each transcript is passed through a BERT model followed by a gated self-attention layer. Similarly, each image is passed through a Swin Transformer followed by an independent gated self-attention layer. Acoustic features are extracted also from each audio file. Finally, the representation vectors from the different modalities are fed to a tensor fusion layer for capturing the inter-modal interactions. Extensive experiments conducted on the ADReSS Challenge dataset indicate that our introduced approaches obtain valuable advantages over existing research initiatives reaching Accuracy and F1-score up to 86.25% and 85.48% respectively.
translated by 谷歌翻译
阿尔茨海默氏病(AD)是痴呆症的主要原因,伴随着记忆力的丧失,如果未按时诊断,可能会导致人们的日常生活造成严重后果。很少有作品利用基于变压器的网络,尽管获得了高度的精度,但在模型可解释性方面几乎没有完成工作。此外,尽管迷你精神状态考试(MMSE)分数与痴呆症的识别密不可分,但研究工作面临着痴呆症鉴定的任务以及将MMSE分数作为两个独立任务的预测任务。为了解决这些局限性,我们采用了几种基于变压器的模型,伯特(Bert)的准确性最高为87.50%。同时,我们提出了一种可解释的方法来检测基于暹罗网络的准确性高达83.75%的患者。接下来,我们介绍了两个多任务学习模型,其中主要任务是指痴呆症的识别(二进制分类),而辅助辅助学则对应于痴呆症的严重程度(多类分类)。我们的模型在多任务学习环境中检测AD患者的准确度等于86.25%。最后,我们提出了一些新方法,以识别AD患者和非AD的语言模式,包括文本统计,词汇唯一性,单词用法,通过详细的语言分析和解释性技术(LIME)(LIME)。发现表明AD和非AD患者之间的语言差异显着差异。
translated by 谷歌翻译
未能及时诊断并有效治疗抑郁症会导致全世界有超过2.8亿人患有这种心理障碍。抑郁症的信息提示可以从不同的异质资源(例如音频,视觉和文本数据)中收获,从而提高了对自动估计的新有效多模式融合方法的需求。在这项工作中,我们解决了从多模式数据中自动识别抑郁症的任务,并引入了一种接触机制,以连接异质信息,同时利用卷积双向LSTM作为我们的骨架。为了验证这一想法,我们对公共DAIC-WOZ基准进行了广泛的实验,以进行抑郁评估,该评估具有不同的评估模式,并考虑了特定性别的偏见。提出的模型在检测严重抑郁症和4.92 MAE时以0.89的精度和0.70 F1得分产生有效的结果。我们基于注意力的融合模块始终优于常规的晚期融合方法,并且与先前发表的抑郁估计框架相比,取得了竞争性能,同时学习诊断端到端的疾病并依靠较少的预处理步骤。
translated by 谷歌翻译
*内容警告:此工作显示明确和强烈令人反感的语言的示例。 Covid-19大流行引起了抗亚洲仇外心理和偏见的激增。许多人已经向社交媒体表达了这些负面情绪,需要开发可靠的系统来检测仇恨言论,往往是代表性的人口统计。在本文中,我们使用2种实验方法创建和注释推特推文的语料库,以探讨较好的粒度的反亚洲滥用和仇恨言论。使用具有较少偏置注释的数据集,我们部署多种模型,并检查其他相关的语料库的适用性来完成这些多任务分类。除了展示有希望的结果外,我们的实验还提供了对文化和后勤因素的差别,以了解不同人口统计学的讨厌讲话。我们的分析旨在促进对仇恨语音检测领域的理解,特别是对低资源群体。
translated by 谷歌翻译
电子健康记录(EHRS)在患者级别汇总了多种信息,并保留了整个时间内患者健康状况进化的轨迹代表。尽管此信息提供了背景,并且可以由医生利用以监控患者的健康并进行更准确的预后/诊断,但患者记录可以包含长期跨度的信息,这些信息与快速生成的医疗数据速率相结合,使临床决策变得更加复杂。患者轨迹建模可以通过以可扩展的方式探索现有信息来帮助,并可以通过促进预防医学实践来增强医疗保健质量。我们为建模患者轨迹提出了一种解决方案,该解决方案结合了不同类型的信息并考虑了临床数据的时间方面。该解决方案利用了两种不同的架构:一组支持灵活的输入功能集,以将患者的录取转换为密集的表示;以及在基于复发的架构中进行的第二次探索提取的入院表示,其中使用滑动窗口机制在子序列中处理患者轨迹。使用公开可用的模仿III临床数据库评估了开发的解决方案,以两种不同的临床结果,意外的患者再入院和疾病进展。获得的结果证明了第一个体系结构使用单个患者入院进行建模和诊断预测的潜力。虽然临床文本中的信息并未显示在其他现有作品中观察到的判别能力,但这可以通过微调临床模型来解释。最后,我们使用滑动窗口机制来表示基于序列的体系结构的潜力,以表示输入数据,从而获得与其他现有解决方案的可比性能。
translated by 谷歌翻译
阿尔茨海默氏病(AD)的早期诊断对于促进预防性护理和延迟进展至关重要。基于语音的自动广告筛选系统为其他临床筛查技术提供了一种非侵入性,更可扩展的替代方案。此类专业数据的稀缺性会导致模型选择和特征学习的不确定性。为此,本文调查了功能和模型组合方法的使用,以改善Bert和Roberta预先训练的文本编码有限数据的域微调的鲁棒性,然后在将结果的嵌入功能馈入后端分类器集合之前通过多数投票制定最终的广告检测决定。在ADRESS20挑战数据集上进行的实验表明,使用模型和功能组合在系统开发中获得了一致的性能改进。使用手册和ASR语音转录本在ADRESS20测试集上分别获得了91.67%和93.75%的最先进的AD检测精度,该准确的准确性是由48位老年人组成的。
translated by 谷歌翻译
在本文中,我们描述了一种表示音频信号的表示方法,以实现COVID-19检测任务。将原始音频样品用1D卷积过滤器进行处理,这些过滤器被参数化为余弦调制的高斯函数。这些内核的选择允许将滤纸解释为光滑的带通滤波器。过滤后的输出汇总,对数压缩并用于基于自我注意的相关加权机制。相关权重强调了时间频分解的关键区域,这对于下游任务很重要。该模型的后续层由复发架构组成,模型经过训练,以执行COVID-19检测任务。在我们对COSWARA数据集的实验中,我们表明,所提出的模型在基线系统以及其他表示学习方法上实现了显着的性能改进。此外,提出的方法被证明适用于语音和呼吸信号以及从较大的数据集中转移学习。
translated by 谷歌翻译
由于医疗技术的进步,预防性医疗保健以及对老年医学健康的越来越重视,全球平均预期寿命正在增加。因此,必须开发检测和跟踪老年人人群认知功能中与衰老相关的疾病的技术。特别是,鉴于该疾病的患病率和当前方法的成本,与自动检测和评估有关阿尔茨海默氏病(AD)的研究至关重要。由于广告影响了语音和词汇的声学,因此自然语言处理和机器学习为可靠地检测AD提供了有希望的技术。我们比较和对比十个线性回归模型的性能,以预测Adress挑战数据集上的迷你门会状态考试得分。我们提取了13000多种手工制作和学习的功能,可捕捉语言和声学现象。使用通过两种方法选择的54个顶部功能的子集:(1)递归消除和(2)相关得分,我们的表现要优于同一任务的最新基线。在评分和评估每个模型选定特征子集的统计显着性时,我们发现,对于给定的任务,手工制作的语言特征比声学和学识渊博的特征更为重要。
translated by 谷歌翻译
口吃是一种多种言语障碍,会损害个人的沟通能力。口吃(PWS)的人经常使用语音疗法来应对自己的病情。改善具有这种非典型语音或跟踪语音疗法的人的语音识别系统将需要能够检测功能障碍的系统,同时能够检测到治疗中获得的语​​音技术。本文表明,用于在含有口吃的语音上结结巴巴的口吃的微调2VEC 2.0 [1],结合多任务的学习,增强了通用Purepose Wav2VEC 2.0的有效性,以检测语音在语音中检测说话的功能;内部和跨语言。我们通过训练支持向量机分类器评估我们的FluencyBank的方法[2]和以德国治疗为中心的Kassel Fluency(KSOF)[3]数据集[3]数据集,该数据集使用六种不同结肠相关的事件类型中提取的功能:块:块: ,延长,声音重复,单词重复,插入和 - 特定于治疗 - 语音修改。使用来自微调模型的嵌入式嵌入会导致相对分类的性能增长到高达27%W.R.T. F1得分。
translated by 谷歌翻译