在这项工作中,我们探讨了肺结核(TB)咳嗽分类的复发性神经网络体系结构。与以前在该领域实施深层体系结构的尝试不成功的尝试相反,我们表明基本的双向长期记忆网络(BILSTM)可以提高性能。此外,我们表明,通过与新提供的基于注意力的架构一起进行贪婪的特征选择,该体系结构学习患者不变特征,与基线和其他所考虑的架构相比,可以实现更好的概括。此外,这种注意机制允许检查被认为对进行分类很重要的音频信号的时间区域。最后,我们开发了一种神经风格转移技术来推断理想的输入,随后可以分析。我们发现结核病和非结核咳嗽的理想功率谱之间存在明显的差异,这些功率光谱为音频信号中特征的起源提供了线索。
translated by 谷歌翻译
Covid-19大流行为感染检测和监测解决方案产生了重大的兴趣和需求。在本文中,我们提出了一种机器学习方法,可以使用在消费者设备上进行的录音来快速分离Covid-19。该方法将信号处理方法与微调深层学习网络相结合,提供了信号去噪,咳嗽检测和分类的方法。我们还开发并部署了一个移动应用程序,使用症状检查器与语音,呼吸和咳嗽信号一起使用,以检测Covid-19感染。该应用程序对两个开放的数据集和最终用户在测试版测试期间收集的嘈杂数据显示了鲁棒性能。
translated by 谷歌翻译
我们提出了一个基于深度学习的自动咳嗽分类器,可以区分结核病(TB)与Covid-19咳嗽和健康咳嗽。 TB和Covid-19都是呼吸道疾病,具有传染性,咳嗽是一种主要的症状,每年夺走了数千人的生命。在室内和室外设置都收集了咳嗽的录音,并使用来自全球各地受试者的智能手机上传,因此包含各种噪声。该咳嗽数据包括1.68小时的结核病咳嗽,18.54分钟的咳嗽,咳嗽和1.69小时的健康咳嗽,47例TB患者,229例Covid-19患者和1498例健康患者,并用于培训和评估CNN,LSTM和Resnet505050 。这三个深度体系结构在2.14小时的打喷嚏,2.91小时的语音和2.79小时的噪音中也进行了预训练,以提高性能。通过使用SMOTE数据平衡技术并使用诸如F1得分和AUC之类的性能指标来解决我们数据集中的类不平衡。我们的研究表明,从预先训练的RESNET50中获得了最高的0.9259和0.8631的F1分数,两级(TB与CoVID-19)和三级(TB VS VS COVID-19与健康)的咳嗽分类,咳嗽分类,,咳嗽分类任务,三级(TB vs vs covid-19)分别。深度转移学习的应用改善了分类器的性能,并使它们更加坚固,因为它们在交叉验证折叠上更好地概括了。他们的表现超过了世界卫生组织(WHO)设定的结核病分类测试要求。产生最佳性能的功能包含MFCC的高阶,这表明人耳朵无法感知结核病和COVID-19之间的差异。这种类型的咳嗽音频分类是非接触,具有成本效益的,并且可以轻松地部署在智能手机上,因此它可以成为TB和COVID-19筛查的绝佳工具。
translated by 谷歌翻译
Covid-19在全球范围内影响了223多个国家。迫切需要非侵入性,低成本和高度可扩展的解决方案来检测COVID-19,尤其是在PCR测试无普遍可用的低资源国家。我们的目的是开发一个深度学习模型,使用普通人群(语音录音和简短问卷)通过其个人设备自发提供的语音数据记录来识别Covid-19。这项工作的新颖性在于开发一个深度学习模型,以鉴定来自语音记录的199名患者。方法:我们使用了由893个音频样本组成的剑桥大学数据集,该数据集由4352名参与者的人群来源,这些参与者使用了COVID-19 Sounds应用程序。使用MEL光谱分析提取语音功能。根据语音数据,我们开发了深度学习分类模型,以检测阳性的Covid-19情况。这些模型包括长期术语记忆(LSTM)和卷积神经网络(CNN)。我们将它们的预测能力与基线分类模型进行了比较,即逻辑回归和支持向量机。结果:基于MEL频率CEPSTRAL系数(MFCC)功能的LSTM具有最高的精度(89%),其灵敏度和特异性分别为89%和89%,其结果通过提议的模型获得了显着改善,这表明该结果显着改善与艺术状态获得的结果相比,COVID-19诊断的预测准确性。结论:深度学习可以检测到199例患者的声音中的细微变化,并有令人鼓舞的结果。作为当前测试技术的补充,该模型可以使用简单的语音分析帮助卫生专业人员快速诊断和追踪Covid-19案例
translated by 谷歌翻译
该报告描述了用于在第二次DICOVA挑战中使用三种不同的声学模态(即语音,呼吸和咳嗽)来检测COVID-19阳性的系统。所提出的系统基于4种不同方法的组合,每种方法都集中在问题的一个方面上,并在呼吸,咳嗽和语音轨道上分别达到86.41、77.60和84.55的盲试AUC,并且这三个轨道的融合中的AUC为85.37。
translated by 谷歌翻译
Covid-19大流行是人类的祸害,宣称全世界超过500万人的生活。虽然疫苗正在全世界分布,但表观需要实惠的筛选技术,以便为无法获得传统医学的世界服务。人工智能可以提供利用咳嗽声音作为主要筛选模式的解决方案。本文介绍了多种模型,这些模型在学术文献目前呈现的最大评估数据集上取得了相对尊敬的性能。此外,我们还显示性能随着培训数据规模而增加,表明世界各地的数据收集,以帮助使用非传统方式对抗Covid-19大流行。
translated by 谷歌翻译
爆发两年多后,Covid-19的大流行继续困扰世界各地的医疗系统,给稀缺资源带来压力,并夺走了人类的生命。从一开始,已经采用了各种基于AI的CoVID-19检测和监测工具,以试图通过及时诊断来阻止感染的潮流。特别是,已经建议计算机试听是一种非侵入性,成本效益和环保的替代方法,可通过声音通过声音来检测COVID-19的感染。但是,像所有AI方法一样,计算机试镜也很大程度上取决于可用数据的数量和质量,并且由于此类数据的敏感性,大规模的COVID-19声音数据集很难获取 - 除其他原因外。为此,我们介绍了COVYT数据集 - 一种新颖的Covid-19数据集,该数据集是从包含来自65位演讲者的8个小时以上语音的公共资源中收集的。与其他现有的COVID-19声音数据集相比,COVYT数据集的独特功能是,它包括所有65位扬声器的covid-19正和负样本。我们使用可解释的音频描述来分析Covid-19的声学表现,并使用可解释的音频描述,并研究几种分类场景,并调查一些分类场景,以将基于公平的言语的COVID进行适当的分配策略-19检测。
translated by 谷歌翻译
咳嗽音频信号分类是筛查呼吸道疾病(例如COVID-19)的潜在有用工具。由于从这种传染性疾病的患者那里收集数据是危险的,因此许多研究团队已转向众包来迅速收集咳嗽声数据,因为它是为了生成咳嗽数据集的工作。 Coughvid数据集邀请专家医生诊断有限数量上传的记录中存在的潜在疾病。但是,这种方法遭受了咳嗽的潜在标签,以及专家之间的显着分歧。在这项工作中,我们使用半监督的学习(SSL)方法来提高咳嗽数据集的标签一致性以及COVID-19的鲁棒性与健康的咳嗽声音分类。首先,我们利用现有的SSL专家知识聚合技术来克服数据集中的标签不一致和稀疏性。接下来,我们的SSL方法用于识别可用于训练或增加未来咳嗽分类模型的重新标记咳嗽音频样本的子样本。证明了重新标记的数据的一致性,因为它表现出高度的类可分离性,尽管原始数据集中存在专家标签不一致,但它比用户标记的数据高3倍。此外,在重新标记的数据中放大了用户标记的音频段的频谱差异,从而导致健康和COVID-19咳嗽之间的功率频谱密度显着不同,这既证明了新数据集的一致性及其与新数据的一致性及其与新数据的一致性的提高,其解释性与其与其解释性的一致性相同。声学的观点。最后,我们演示了如何使用重新标记的数据集来训练咳嗽分类器。这种SSL方法可用于结合几位专家的医学知识,以提高任何诊断分类任务的数据库一致性。
translated by 谷歌翻译
监测普遍的空气传播疾病,例如COVID-19的特征涉及呼吸评估。虽然听诊是一种症状监测的主流方法,但其诊断效用受到专用医院就诊的需求而受到阻碍。基于便携式设备上呼吸道声音的记录,持续的远程监视是一种有希望的替代方法,可以帮助筛选Covid-19。在这项研究中,我们介绍了一种新型的深度学习方法,可以将Covid-19患者与健康对照组区分开,鉴于咳嗽或呼吸声的音频记录。所提出的方法利用新型的层次谱图变压器(HST)在呼吸声的光谱图表示上。 HST在频谱图中体现了在本地窗口上的自我发挥机制,并且窗口大小在模型阶段逐渐生长,以捕获本地环境。将HST与最新的常规和深度学习基线进行比较。在跨国数据集上进行的全面演示表明,HST优于竞争方法,在检测COVID-19案例中,在接收器操作特征曲线(AUC)下达到了97%以上的面积。
translated by 谷歌翻译
呼吸声分类中的问题已在去年的临床科学家和医学研究员团体中获得了良好的关注,以诊断Covid-19疾病。迄今为止,各种模型的人工智能(AI)进入了现实世界,从人类生成的声音等人生成的声音中检测了Covid-19疾病,例如语音/言语,咳嗽和呼吸。实现卷积神经网络(CNN)模型,用于解决基于人工智能(AI)的机器上的许多真实世界问题。在这种情况下,建议并实施一个维度(1D)CNN,以诊断Covid-19的呼吸系统疾病,例如语音,咳嗽和呼吸。应用基于增强的机制来改善Covid-19声音数据集的预处理性能,并使用1D卷积网络自动化Covid-19疾病诊断。此外,使用DDAE(数据去噪自动编码器)技术来产生诸如输入功能的深声特征,而不是采用MFCC(MEL频率跳跃系数)的标准输入,并且它更好地执行比以前的型号的准确性和性能。
translated by 谷歌翻译
肺癌是全球癌症死亡的主要原因,肺腺癌是最普遍的肺癌形式。 EGFR阳性肺腺癌已被证明对TKI治疗的反应率很高,这是肺癌分子测试的基本性质。尽管目前的指南考虑必要测试,但很大一部分患者并未常规化,导致数百万的人未接受最佳治疗肺癌。测序是EGFR突变分子测试的黄金标准,但是结果可能需要数周的时间才能回来,这在时间限制的情况下并不理想。能够快速,便宜地检测EGFR突变的替代筛查工具的开发,同时保存组织以进行测序可以帮助减少受比较治疗的患者的数量。我们提出了一种多模式方法,该方法将病理图像和临床变量整合在一起,以预测EGFR突变状态,迄今为止最大的临床队列中的AUC为84%。这样的计算模型可以以很少的额外成本进行大部分部署。它的临床应用可以减少中国接受亚最佳治疗的患者数量53.1%,在美国将高达96.6%的患者减少96.6%。
translated by 谷歌翻译
双相情感障碍是一种心理健康障碍,导致情绪波动,从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的,并从患者的护理人员获得的报告。随后,诊断取决于专家的经验,并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标,并让患者的更容易观察较长的时间。此外,在Covid-19大流行期间,对遥控和诊断的需求变得尤为重要。在本论文中,我们根据声学,语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统,以及各种融合技术。除了使用单向特征处理整个患者会话外,还研究了剪辑的任务级调查。在多模式融合系统中使用声学,语言和视觉特征,我们实现了64.8%的未加权平均召回得分,这提高了在该数据集上实现的最先进的性能。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
电子健康记录(EHRS)在患者级别汇总了多种信息,并保留了整个时间内患者健康状况进化的轨迹代表。尽管此信息提供了背景,并且可以由医生利用以监控患者的健康并进行更准确的预后/诊断,但患者记录可以包含长期跨度的信息,这些信息与快速生成的医疗数据速率相结合,使临床决策变得更加复杂。患者轨迹建模可以通过以可扩展的方式探索现有信息来帮助,并可以通过促进预防医学实践来增强医疗保健质量。我们为建模患者轨迹提出了一种解决方案,该解决方案结合了不同类型的信息并考虑了临床数据的时间方面。该解决方案利用了两种不同的架构:一组支持灵活的输入功能集,以将患者的录取转换为密集的表示;以及在基于复发的架构中进行的第二次探索提取的入院表示,其中使用滑动窗口机制在子序列中处理患者轨迹。使用公开可用的模仿III临床数据库评估了开发的解决方案,以两种不同的临床结果,意外的患者再入院和疾病进展。获得的结果证明了第一个体系结构使用单个患者入院进行建模和诊断预测的潜力。虽然临床文本中的信息并未显示在其他现有作品中观察到的判别能力,但这可以通过微调临床模型来解释。最后,我们使用滑动窗口机制来表示基于序列的体系结构的潜力,以表示输入数据,从而获得与其他现有解决方案的可比性能。
translated by 谷歌翻译
作为最普遍的神经退行性疾病之一,帕金森病(PD)对患者的精细运动技能产生了重大影响。在语音生产过程中不同铰接器的复杂相互作用和所需肌肉张力的实现变得越来越困难,从而导致发狂的言论。在受影响的个体中通常可以观察到元音不稳定性,浆液发音和慢演说的特征模式,并在先前的研究中分析以确定PD的存在和进展。在这项工作中,我们使用了专门培训的语音识别器,以研究PD如何影响患者的语音占地面积。我们重新发现了许多在以前的贡献中描述的模式,尽管我们的系统从未见过此前从未见过任何病理演讲。此外,我们可以表明来自神经网络的中间激活可以用作编码与个人疾病状态有关的信息的特征向量。我们还能够直接将演讲者的专家额定智能性与语音预测的平均置信相提并论。我们的结果支持假设,即培训能够分析PD语音的系统不一定需要病理数据。
translated by 谷歌翻译
COVID-19导致与不同的SARS-COV-2变体相关的多种感染波。研究报告了这些变体对患者呼吸健康的影响不同。我们探索从COVID-19受试者收集的声学信号是否显示出可区分的声学模式,这表明有可能预测潜在的病毒变体。我们分析了从三个主题库中收集的COSWARA数据集,即i)健康,ii)在三角洲变体占主导地位期间记录的covid-199受试者,以及III)来自Omicron Expear中记录的COVID-19的数据。我们的发现表明,咳嗽,呼吸和语音等多种声音类别表明,在将COVID-19与Omicron和Delta变体进行比较时,声音特征差异很大。在曲线下,分类区域大大超过了被Omicron感染的受试者与三角洲感染者的机会。使用来自多个声音类别的得分融合,我们在95%的特异性下获得了89%和52.4%的敏感性的区域。此外,使用分层三类方法将声学数据分类为健康和共同-19阳性,并将进一步的COVID受试者分为三角洲和Omicron变体,从而提供了高水平的3类分类精度。这些结果提出了设计基于声音的COVID-19诊断方法的新方法。
translated by 谷歌翻译
我们寻求基于8,380临床验证样品的咳嗽声,评估Covid-19的快速初级筛查工具的检测性能,从8,380临床验证的样品进行实验室分子测试(2,339 Covid-19阳性和6,041个Covid-19负面)。根据患者的定量RT-PCR(QRT-PCR)分析,循环阈值和淋巴细胞计数,根据结果和严重程度临床标记样品。我们所提出的通用方法是一种基于经验模式分解(EMD)的算法,其随后基于音频特征的张量和具有称为Deplecough的卷积层的深层人工神经网络分类器的分类。基于张量尺寸的数量,即DepeCough2D和DeepCOUGH3D,两种不同版本的深度。这些方法已部署在多平台概念验证Web应用程序CoughDetect中以匿名管理此测试。 Covid-19识别结果率达到了98.800.83%,敏感性为96.431.85%的有前途的AUC(面积),特异性为96.201.74%,81.08%5.05%AUC,用于识别三个严重程度。我们提出的Web工具和支持稳健,快速,需要Covid-19的需求识别的基础算法有助于快速检测感染。我们认为,它有可能大大妨碍世界各地的Covid-19大流行。
translated by 谷歌翻译
标准化测试在检测认知障碍中起着至关重要的作用。先前的工作表明,使用标准化图片描述任务中的音频数据可以自动检测认知障碍。提出的研究超出了这一点,评估了我们对来自两个标准化神经心理学测试的数据,即德国SKT和德国版本的CERAD-NB,以及患者与心理学家之间的半结构化临床访谈。对于测试,我们关注三个子测试的语音记录:阅读数字(SKT 3),干扰(SKT 7)和口头流利度(Cerad-NB 1)。我们表明,标准化测试的声学特征可用于可靠地区分非受损的人的认知受损个体。此外,我们提供的证据表明,即使是从访谈的随机语音样本中提取的特征也可能是认知障碍的歧视者。在我们的基线实验中,我们使用开米的功能和支持向量机分类器。在改进的设置中,我们表明使用WAV2VEC 2.0功能,我们可以达到高达85%的精度。
translated by 谷歌翻译
鉴于AD的高流行,对阿尔茨海默氏病(AD)检测的强大策略很重要。在本文中,我们研究了来自最近的Adresso挑战数据集的三种AD检测方法的性能和概括性:1)使用常规声学特征2)使用新型的预训练的声学嵌入式3)结合声学特征和嵌入。我们发现,尽管基于特征的方法具有更高的精度,但依赖于预训练的嵌入的分类方法证明在多个性能的多个指标中具有更高且更平衡的交叉验证性能。此外,仅嵌入方法更具概括性。我们的最佳模型在挑战中优于声学基线2.8%。
translated by 谷歌翻译
可以处理各种扬声器和声学条件的模型在语音情感识别(Ser)中至关重要。通常,这些模型往往会在培训期间呈现扬声器或声学条件时显示混合结果。本文调查了交叉组件数据互补和数据增强对Ser模型的影响(从相同的语料库中的测试设置)和不匹配(从不同的语料库测试)条件。介绍了使用六种情绪语音集团的调查,其中包括单一和多个扬声器以及情感风格的变化(作用,引发,自然)和记录条件。观察结果表明,正如预期的那样,在单一语料库上培训的模型在匹配条件下表现最佳,而性能在不匹配的条件下减少10-40%,具体取决于语料库特定功能。在混合语料库上培训的型号在不匹配的上下文中可以更稳定,与匹配条件中的单个语料库模型相比,性能减少的范围为1%至8%。数据增强产生额外的收益高达4%,似乎有利于比匹配的不匹配条件。
translated by 谷歌翻译