标准化测试在检测认知障碍中起着至关重要的作用。先前的工作表明,使用标准化图片描述任务中的音频数据可以自动检测认知障碍。提出的研究超出了这一点,评估了我们对来自两个标准化神经心理学测试的数据,即德国SKT和德国版本的CERAD-NB,以及患者与心理学家之间的半结构化临床访谈。对于测试,我们关注三个子测试的语音记录:阅读数字(SKT 3),干扰(SKT 7)和口头流利度(Cerad-NB 1)。我们表明,标准化测试的声学特征可用于可靠地区分非受损的人的认知受损个体。此外,我们提供的证据表明,即使是从访谈的随机语音样本中提取的特征也可能是认知障碍的歧视者。在我们的基线实验中,我们使用开米的功能和支持向量机分类器。在改进的设置中,我们表明使用WAV2VEC 2.0功能,我们可以达到高达85%的精度。
translated by 谷歌翻译
对于痴呆症筛查和监测,标准化测试在临床常规中起着关键作用,因为它们旨在通过测量各种认知任务的性能来最大程度地降低主观性。在本文中,我们报告了一项由半标准化病史组成的研究,然后进行了两个标准化的神经心理学测试,即SKT和CERAD-NB。这些测试包括基本任务,例如命名对象,学习单词列表,以及广泛使用的工具,例如MMSE。大多数任务是在口头上执行的,因此应适用于基于成绩单的自动评分。对于第一批30例患者,我们根据手动和自动转录分析了专家手动评估与自动评估之间的相关性。对于SKT和CERAD-NB,我们都可以使用手动笔录观察到高至完美的相关性。对于某些相关性较低的任务,自动评分比人类参考更严格,因为它仅限于音频。使用自动转录,相关性降低,并且与识别精度有关;但是,我们仍然观察到高达0.98(SKT)和0.85(CERAD-NB)的高相关性。我们表明,使用单词替代方案有助于减轻识别错误,并随后改善与专家分数的相关性。
translated by 谷歌翻译
爆发两年多后,Covid-19的大流行继续困扰世界各地的医疗系统,给稀缺资源带来压力,并夺走了人类的生命。从一开始,已经采用了各种基于AI的CoVID-19检测和监测工具,以试图通过及时诊断来阻止感染的潮流。特别是,已经建议计算机试听是一种非侵入性,成本效益和环保的替代方法,可通过声音通过声音来检测COVID-19的感染。但是,像所有AI方法一样,计算机试镜也很大程度上取决于可用数据的数量和质量,并且由于此类数据的敏感性,大规模的COVID-19声音数据集很难获取 - 除其他原因外。为此,我们介绍了COVYT数据集 - 一种新颖的Covid-19数据集,该数据集是从包含来自65位演讲者的8个小时以上语音的公共资源中收集的。与其他现有的COVID-19声音数据集相比,COVYT数据集的独特功能是,它包括所有65位扬声器的covid-19正和负样本。我们使用可解释的音频描述来分析Covid-19的声学表现,并使用可解释的音频描述,并研究几种分类场景,并调查一些分类场景,以将基于公平的言语的COVID进行适当的分配策略-19检测。
translated by 谷歌翻译
口吃是一种多种言语障碍,会损害个人的沟通能力。口吃(PWS)的人经常使用语音疗法来应对自己的病情。改善具有这种非典型语音或跟踪语音疗法的人的语音识别系统将需要能够检测功能障碍的系统,同时能够检测到治疗中获得的语​​音技术。本文表明,用于在含有口吃的语音上结结巴巴的口吃的微调2VEC 2.0 [1],结合多任务的学习,增强了通用Purepose Wav2VEC 2.0的有效性,以检测语音在语音中检测说话的功能;内部和跨语言。我们通过训练支持向量机分类器评估我们的FluencyBank的方法[2]和以德国治疗为中心的Kassel Fluency(KSOF)[3]数据集[3]数据集,该数据集使用六种不同结肠相关的事件类型中提取的功能:块:块: ,延长,声音重复,单词重复,插入和 - 特定于治疗 - 语音修改。使用来自微调模型的嵌入式嵌入会导致相对分类的性能增长到高达27%W.R.T. F1得分。
translated by 谷歌翻译
双相情感障碍是一种心理健康障碍,导致情绪波动,从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的,并从患者的护理人员获得的报告。随后,诊断取决于专家的经验,并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标,并让患者的更容易观察较长的时间。此外,在Covid-19大流行期间,对遥控和诊断的需求变得尤为重要。在本论文中,我们根据声学,语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统,以及各种融合技术。除了使用单向特征处理整个患者会话外,还研究了剪辑的任务级调查。在多模式融合系统中使用声学,语言和视觉特征,我们实现了64.8%的未加权平均召回得分,这提高了在该数据集上实现的最先进的性能。
translated by 谷歌翻译
口吃是一种复杂的言语障碍,会对个人有效沟通的能力产生负面影响。口吃(PWS)的人通常在这种情况下遭受很大的痛苦,并通过治疗寻求帮助。流利的塑形是一种治疗方法,PWSS学会修改他们的语音以帮助他们克服口吃。即使在治疗后,掌握这种语音技术也需要时间和练习。治疗后不久,对成功的评估很高,但复发率很高。为了能够长期监视语音行为,检测口吃事件和语音修改的能力可以帮助PWSS和语音病理学家跟踪流利程度。监测可以通过检测流利度的失误来提早进行干预的能力。据我们所知,没有公共数据集可用,其中包含接受口吃疗法的人的演讲,这些疗法改变了口语风格。这项工作介绍了Kassel Fluency(KSOF),这是一项基于疗法的数据集,其中包含超过5500个PWSS。这些剪辑标记为六种与口吃相关的事件类型:块,延长,声音重复,单词重复,插入和 - 特定于治疗 - 语音修改。音频是在Kasseler Stottertherapie研究所期间记录的。该数据将根据要求提供用于研究目的。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
鉴于AD的高流行,对阿尔茨海默氏病(AD)检测的强大策略很重要。在本文中,我们研究了来自最近的Adresso挑战数据集的三种AD检测方法的性能和概括性:1)使用常规声学特征2)使用新型的预训练的声学嵌入式3)结合声学特征和嵌入。我们发现,尽管基于特征的方法具有更高的精度,但依赖于预训练的嵌入的分类方法证明在多个性能的多个指标中具有更高且更平衡的交叉验证性能。此外,仅嵌入方法更具概括性。我们的最佳模型在挑战中优于声学基线2.8%。
translated by 谷歌翻译
Covid-19在全球范围内影响了223多个国家。迫切需要非侵入性,低成本和高度可扩展的解决方案来检测COVID-19,尤其是在PCR测试无普遍可用的低资源国家。我们的目的是开发一个深度学习模型,使用普通人群(语音录音和简短问卷)通过其个人设备自发提供的语音数据记录来识别Covid-19。这项工作的新颖性在于开发一个深度学习模型,以鉴定来自语音记录的199名患者。方法:我们使用了由893个音频样本组成的剑桥大学数据集,该数据集由4352名参与者的人群来源,这些参与者使用了COVID-19 Sounds应用程序。使用MEL光谱分析提取语音功能。根据语音数据,我们开发了深度学习分类模型,以检测阳性的Covid-19情况。这些模型包括长期术语记忆(LSTM)和卷积神经网络(CNN)。我们将它们的预测能力与基线分类模型进行了比较,即逻辑回归和支持向量机。结果:基于MEL频率CEPSTRAL系数(MFCC)功能的LSTM具有最高的精度(89%),其灵敏度和特异性分别为89%和89%,其结果通过提议的模型获得了显着改善,这表明该结果显着改善与艺术状态获得的结果相比,COVID-19诊断的预测准确性。结论:深度学习可以检测到199例患者的声音中的细微变化,并有令人鼓舞的结果。作为当前测试技术的补充,该模型可以使用简单的语音分析帮助卫生专业人员快速诊断和追踪Covid-19案例
translated by 谷歌翻译
创伤后应激障碍(PTSD)是一种长期衰弱的精神状况,是针对灾难性生活事件(例如军事战斗,性侵犯和自然灾害)而发展的。 PTSD的特征是过去的创伤事件,侵入性思想,噩梦,过度维护和睡眠障碍的闪回,所有这些都会影响一个人的生活,并导致相当大的社会,职业和人际关系障碍。 PTSD的诊断是由医学专业人员使用精神障碍诊断和统计手册(DSM)中定义的PTSD症状的自我评估问卷进行的。在本文中,这是我们第一次收集,注释并为公共发行准备了一个新的视频数据库,用于自动PTSD诊断,在野生数据集中称为PTSD。该数据库在采集条件下表现出“自然”和巨大的差异,面部表达,照明,聚焦,分辨率,年龄,性别,种族,遮挡和背景。除了描述数据集集合的详细信息外,我们还提供了评估野生数据集中PTSD的基于计算机视觉和机器学习方法的基准。此外,我们建议并评估基于深度学习的PTSD检测方法。提出的方法显示出非常有希望的结果。有兴趣的研究人员可以从:http://www.lissi.fr/ptsd-dataset/下载PTSD-in-wild数据集的副本
translated by 谷歌翻译
夫妻通常在一起管理慢性疾病,管理层对患者及其浪漫伴侣造成了情感上的伤害。因此,认识到日常生活中每个伴侣的情绪可以提供对他们在慢性疾病管理中的情感健康的见解。当前,评估每个伴侣的情绪的过程是手动,时间密集和昂贵的。尽管夫妻之间存在着关于情感识别的作品,但这些作品都没有使用夫妻在日常生活中的互动中收集的数据。在这项工作中,我们收集了85小时(1,021个5分钟样本)现实世界多模式智能手表传感器数据(语音,心率,加速度计和陀螺仪)和自我报告的情绪数据(n = 612)(13个伙伴)(13)夫妻)在日常生活中管理2型糖尿病。我们提取了生理,运动,声学和语言特征,以及训练有素的机器学习模型(支持向量机和随机森林),以识别每个伴侣的自我报告的情绪(价和唤醒)。我们最佳模型的结果比偶然的结果更好,唤醒和价值分别为63.8%和78.1%。这项工作有助于建立自动情绪识别系统,最终使伙伴能够监视他们在日常生活中的情绪,并能够提供干预措施以改善其情感幸福感。
translated by 谷歌翻译
由于医疗技术的进步,预防性医疗保健以及对老年医学健康的越来越重视,全球平均预期寿命正在增加。因此,必须开发检测和跟踪老年人人群认知功能中与衰老相关的疾病的技术。特别是,鉴于该疾病的患病率和当前方法的成本,与自动检测和评估有关阿尔茨海默氏病(AD)的研究至关重要。由于广告影响了语音和词汇的声学,因此自然语言处理和机器学习为可靠地检测AD提供了有希望的技术。我们比较和对比十个线性回归模型的性能,以预测Adress挑战数据集上的迷你门会状态考试得分。我们提取了13000多种手工制作和学习的功能,可捕捉语言和声学现象。使用通过两种方法选择的54个顶部功能的子集:(1)递归消除和(2)相关得分,我们的表现要优于同一任务的最新基线。在评分和评估每个模型选定特征子集的统计显着性时,我们发现,对于给定的任务,手工制作的语言特征比声学和学识渊博的特征更为重要。
translated by 谷歌翻译
作为最普遍的神经退行性疾病之一,帕金森病(PD)对患者的精细运动技能产生了重大影响。在语音生产过程中不同铰接器的复杂相互作用和所需肌肉张力的实现变得越来越困难,从而导致发狂的言论。在受影响的个体中通常可以观察到元音不稳定性,浆液发音和慢演说的特征模式,并在先前的研究中分析以确定PD的存在和进展。在这项工作中,我们使用了专门培训的语音识别器,以研究PD如何影响患者的语音占地面积。我们重新发现了许多在以前的贡献中描述的模式,尽管我们的系统从未见过此前从未见过任何病理演讲。此外,我们可以表明来自神经网络的中间激活可以用作编码与个人疾病状态有关的信息的特征向量。我们还能够直接将演讲者的专家额定智能性与语音预测的平均置信相提并论。我们的结果支持假设,即培训能够分析PD语音的系统不一定需要病理数据。
translated by 谷歌翻译
本文经验研究了不同数据拆分和分裂策略对功能障碍检测系统性能的影响。为此,我们使用具有分类头的WAV2VEC 2.0模型以及支持向量机(SVM)以及从WAV2VEC 2.0模型中提取的功能进行实验。我们使用播客(SEP-28K)数据集中的口吃事件的不同非说明书和说话者的分裂训练和评估系统,以阐明结果W.R.T.的可变性。使用使用的分区方法。此外,我们表明SEP-28K数据集仅由少数扬声器主导,因此很难评估。为了解决这个问题,我们创建了Sep-28k扩展(Sep-28k-e),其中包含半自动生成的扬声器和性别信息,为SEP-28K语料库,建议不同的数据拆分,每个数据分配有用,可用于评估方法的其他方面用于功能障碍检测。
translated by 谷歌翻译
这项工作旨在自动评估儿童的语言发展是否适合年龄。经过验证的语音和语言测试用于此目的测试听觉记忆。在这项工作中,任务是确定是否正确说出了口语非单词。我们比较有动机来建模特定语言结构的不同方法:低水平特征(FFT),扬声器嵌入(ECAPA-TDNN),素化 - 动机的嵌入(WAV2VEC 2.0)和语音嵌入Senones(ASR ASR ACOSTIC模型)形式。每种方法都提供了类似VGG的5层CNN分类器的输入。我们还检查了每个非单词的适应性。使用来自口头非单词的不同幼儿园的录音进行了对拟议系统的评估。 ECAPA-TDNN和低级FFT特征不会明确模型语音信息; WAV2VEC2.0经过素数标签训练,我们的ASR声学模型包含(子)语音信息。我们发现,语音建模越颗粒状,达到的识别率就越高。在ASR声学模型特征上训练的最佳系统的精度为89.4%,在ROC(接收器操作特征)曲线(AUC)下的面积为0.923。与FFT-BASELINE相比,这对应于20.2%和AUC相对0.309的改善。
translated by 谷歌翻译
Covid-19大流行为感染检测和监测解决方案产生了重大的兴趣和需求。在本文中,我们提出了一种机器学习方法,可以使用在消费者设备上进行的录音来快速分离Covid-19。该方法将信号处理方法与微调深层学习网络相结合,提供了信号去噪,咳嗽检测和分类的方法。我们还开发并部署了一个移动应用程序,使用症状检查器与语音,呼吸和咳嗽信号一起使用,以检测Covid-19感染。该应用程序对两个开放的数据集和最终用户在测试版测试期间收集的嘈杂数据显示了鲁棒性能。
translated by 谷歌翻译
早期发现焦虑症对于减少精神障碍患者的苦难并改善治疗结果至关重要。基于MHealth平台的焦虑筛查在提高筛选效率和降低筛查成本方面具有特殊实用价值。实际上,受试者的身体和心理评估中移动设备的差异以及数据质量不均匀的问题和现实世界中数据的少量数据量使现有方法无效。因此,我们提出了一个基于时空特征融合的框架,用于非触发焦虑。为了降低数据质量不平衡的影响,我们构建了一个基于“ 3DCNN+LSTM”的特征提取网络,并融合了面部行为和非接触式生理学的时空特征。此外,我们设计了一种相似性评估策略,以解决较小的数据样本量导致模型准确性下降的问题。我们的框架已通过现实世界中的机组数据集进行了验证,并且两个公共数据集UBFC-Phys和Swell-KW。实验结果表明,我们框架的总体性能要比最新的比较方法更好。
translated by 谷歌翻译
作为对威胁或不利条件的神经生理学反应,压力会影响认知,情绪和行为,并在持续暴露的情况下对健康产生有害的影响。由于语音的情感内容固有地由个人的身心状态调节,因此大量的研究专门研究了引起压力的任务负荷的副语言相关性。从历史上看,语音应力分析(VSA)是使用常规数字信号处理(DSP)技术进行的。尽管基于深神网络(DNN)的现代方法发展了现代方法,但由于多种压力源和个体压力感知的差异,准确检测语音压力仍然很困难。为此,我们介绍了一组五个数据集,用于语音中的任务负载检测。在志愿者队列中诱发了认知或身体压力,累积数量超过一百位讲话者,因此收集了声音记录。我们使用数据集设计和评估了一种新型的自我监督音频表示,该音频表示利用了手工制作的功能(基于DSP)的有效性和数据驱动的DNN表示的复杂性。值得注意的是,所提出的方法的表现优于广泛的手工特征集和新型的基于DNN的音频表示方法。
translated by 谷歌翻译
苏黎世认知语言处理语料库(Zuco)提供了来自两种读取范例,正常读取和特定任务读数的眼跟踪和脑电图信号。我们分析了机器学习方法是否能够使用眼睛跟踪和EEG功能对这两个任务进行分类。我们使用聚合的句子级别功能以及细粒度的单词级别来实现模型。我们在主题内和交叉对象评估方案中测试模型。所有模型都在Zuco 1.0和Zuco 2.0数据子集上进行测试,其特征在于不同的记录程序,因此允许不同的概括水平。最后,我们提供了一系列的控制实验,以更详细地分析结果。
translated by 谷歌翻译
幽默是人类情感和认知的重要因素。它的自动理解可以促进更自然的人类设备互动和人工智能的人性化。当前的幽默检测方法仅基于分阶段数据,使其不适用于“现实世界”应用程序。我们通过引入新颖的Passau自发足球教练幽默(Passau-SFCH)数据集来解决这种缺陷,包括大约11个小时的录音。在马丁的幽默风格问卷中提出的幽默及其尺寸(情感和方向)的存在,请注释Passau-SFCH数据集。我们进行了一系列实验,采用了经过预定的变压器,卷积神经网络和专家设计的功能。分析了每种模式(文本,音频,视频)的表现,以进行自发幽默识别,并研究了它们的互补性。我们的发现表明,对于对幽默及其情感的自动分析,面部表情是最有希望的,而幽默方向可以通过基于文本的功能进行建模。结果揭示了各种主题之间的差异,突出了幽默用法和风格的个性。此外,我们观察到决策级融合会产生最佳认可结果。最后,我们在https://www.github.com/eihw/passau-sfch上公开代码。可以根据要求获得Passau-SFCH数据集。
translated by 谷歌翻译