鉴于AD的高流行和传统方法的高成本,与自动检测阿尔茨海默氏病(AD)有关的研究很重要。由于广告会显着影响自发语音的声学,因此语音处理和机器学习(ML)为可靠地检测AD提供了有希望的技术。但是,语音音频可能会受到不同类型的背景噪声的影响,重要的是要了解噪声如何影响ML模型检测到语音的AD的准确性。在本文中,我们研究了来自五个不同类别的15种类型的环境噪声对四种具有三种声音表示的ML模型的性能的影响。我们进行了彻底的分析,显示了ML模型和声学特征如何受到不同类型的声学噪声的影响。我们表明声音噪声不一定是有害的 - 某些类型的噪声对AD检测模型有益,并帮助将精度提高到4.8%。我们提供有关如何利用声学噪声的建议,以通过在现实世界中部署的ML模型获得最佳性能结果。
translated by 谷歌翻译
鉴于AD的高流行,对阿尔茨海默氏病(AD)检测的强大策略很重要。在本文中,我们研究了来自最近的Adresso挑战数据集的三种AD检测方法的性能和概括性:1)使用常规声学特征2)使用新型的预训练的声学嵌入式3)结合声学特征和嵌入。我们发现,尽管基于特征的方法具有更高的精度,但依赖于预训练的嵌入的分类方法证明在多个性能的多个指标中具有更高且更平衡的交叉验证性能。此外,仅嵌入方法更具概括性。我们的最佳模型在挑战中优于声学基线2.8%。
translated by 谷歌翻译
Covid-19在全球范围内影响了223多个国家。迫切需要非侵入性,低成本和高度可扩展的解决方案来检测COVID-19,尤其是在PCR测试无普遍可用的低资源国家。我们的目的是开发一个深度学习模型,使用普通人群(语音录音和简短问卷)通过其个人设备自发提供的语音数据记录来识别Covid-19。这项工作的新颖性在于开发一个深度学习模型,以鉴定来自语音记录的199名患者。方法:我们使用了由893个音频样本组成的剑桥大学数据集,该数据集由4352名参与者的人群来源,这些参与者使用了COVID-19 Sounds应用程序。使用MEL光谱分析提取语音功能。根据语音数据,我们开发了深度学习分类模型,以检测阳性的Covid-19情况。这些模型包括长期术语记忆(LSTM)和卷积神经网络(CNN)。我们将它们的预测能力与基线分类模型进行了比较,即逻辑回归和支持向量机。结果:基于MEL频率CEPSTRAL系数(MFCC)功能的LSTM具有最高的精度(89%),其灵敏度和特异性分别为89%和89%,其结果通过提议的模型获得了显着改善,这表明该结果显着改善与艺术状态获得的结果相比,COVID-19诊断的预测准确性。结论:深度学习可以检测到199例患者的声音中的细微变化,并有令人鼓舞的结果。作为当前测试技术的补充,该模型可以使用简单的语音分析帮助卫生专业人员快速诊断和追踪Covid-19案例
translated by 谷歌翻译
双相情感障碍是一种心理健康障碍,导致情绪波动,从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的,并从患者的护理人员获得的报告。随后,诊断取决于专家的经验,并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标,并让患者的更容易观察较长的时间。此外,在Covid-19大流行期间,对遥控和诊断的需求变得尤为重要。在本论文中,我们根据声学,语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统,以及各种融合技术。除了使用单向特征处理整个患者会话外,还研究了剪辑的任务级调查。在多模式融合系统中使用声学,语言和视觉特征,我们实现了64.8%的未加权平均召回得分,这提高了在该数据集上实现的最先进的性能。
translated by 谷歌翻译
爆发两年多后,Covid-19的大流行继续困扰世界各地的医疗系统,给稀缺资源带来压力,并夺走了人类的生命。从一开始,已经采用了各种基于AI的CoVID-19检测和监测工具,以试图通过及时诊断来阻止感染的潮流。特别是,已经建议计算机试听是一种非侵入性,成本效益和环保的替代方法,可通过声音通过声音来检测COVID-19的感染。但是,像所有AI方法一样,计算机试镜也很大程度上取决于可用数据的数量和质量,并且由于此类数据的敏感性,大规模的COVID-19声音数据集很难获取 - 除其他原因外。为此,我们介绍了COVYT数据集 - 一种新颖的Covid-19数据集,该数据集是从包含来自65位演讲者的8个小时以上语音的公共资源中收集的。与其他现有的COVID-19声音数据集相比,COVYT数据集的独特功能是,它包括所有65位扬声器的covid-19正和负样本。我们使用可解释的音频描述来分析Covid-19的声学表现,并使用可解释的音频描述,并研究几种分类场景,并调查一些分类场景,以将基于公平的言语的COVID进行适当的分配策略-19检测。
translated by 谷歌翻译
Covid-19大流行为感染检测和监测解决方案产生了重大的兴趣和需求。在本文中,我们提出了一种机器学习方法,可以使用在消费者设备上进行的录音来快速分离Covid-19。该方法将信号处理方法与微调深层学习网络相结合,提供了信号去噪,咳嗽检测和分类的方法。我们还开发并部署了一个移动应用程序,使用症状检查器与语音,呼吸和咳嗽信号一起使用,以检测Covid-19感染。该应用程序对两个开放的数据集和最终用户在测试版测试期间收集的嘈杂数据显示了鲁棒性能。
translated by 谷歌翻译
阿尔茨海默氏病(AD)构成了一种神经退行性疾病,对人们的日常生活造成了严重后果,如果没有可用的治愈方法,请及早诊断出来。阿尔茨海默氏症是痴呆症的最常见原因,它构成了记忆丧失的一般术语。由于痴呆症会影响言语,因此现有的研究计划着重于检测自发言语的痴呆症。然而,关于语音数据转换为对数 - 梅尔频谱图和梅尔频率cepstral系数(MFCC)以及预验证模型的使用,几乎没有做出的工作。同时,关于变压器网络的使用以及两种模式(即语音和笔录)的方式,几乎没有完成工作。为了解决这些局限性,首先我们采用了几个验证的模型,而视觉变压器(VIT)则取得了最高的评估结果。其次,我们提出了多模型模型。更具体地说,我们引入的模型包括封闭式的多模式单元,以控制每种模态对最终分类和跨模式关注的影响,以便以有效的方式捕获两种模态之间的关系。在Adress挑战数据集上进行的广泛实验证明了所提出的模型的有效性及其优于最先进的方法。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
由于医疗技术的进步,预防性医疗保健以及对老年医学健康的越来越重视,全球平均预期寿命正在增加。因此,必须开发检测和跟踪老年人人群认知功能中与衰老相关的疾病的技术。特别是,鉴于该疾病的患病率和当前方法的成本,与自动检测和评估有关阿尔茨海默氏病(AD)的研究至关重要。由于广告影响了语音和词汇的声学,因此自然语言处理和机器学习为可靠地检测AD提供了有希望的技术。我们比较和对比十个线性回归模型的性能,以预测Adress挑战数据集上的迷你门会状态考试得分。我们提取了13000多种手工制作和学习的功能,可捕捉语言和声学现象。使用通过两种方法选择的54个顶部功能的子集:(1)递归消除和(2)相关得分,我们的表现要优于同一任务的最新基线。在评分和评估每个模型选定特征子集的统计显着性时,我们发现,对于给定的任务,手工制作的语言特征比声学和学识渊博的特征更为重要。
translated by 谷歌翻译
呼吸声分类中的问题已在去年的临床科学家和医学研究员团体中获得了良好的关注,以诊断Covid-19疾病。迄今为止,各种模型的人工智能(AI)进入了现实世界,从人类生成的声音等人生成的声音中检测了Covid-19疾病,例如语音/言语,咳嗽和呼吸。实现卷积神经网络(CNN)模型,用于解决基于人工智能(AI)的机器上的许多真实世界问题。在这种情况下,建议并实施一个维度(1D)CNN,以诊断Covid-19的呼吸系统疾病,例如语音,咳嗽和呼吸。应用基于增强的机制来改善Covid-19声音数据集的预处理性能,并使用1D卷积网络自动化Covid-19疾病诊断。此外,使用DDAE(数据去噪自动编码器)技术来产生诸如输入功能的深声特征,而不是采用MFCC(MEL频率跳跃系数)的标准输入,并且它更好地执行比以前的型号的准确性和性能。
translated by 谷歌翻译
Gait has been used in clinical and healthcare applications to assess the physical and cognitive health of older adults. Acoustic based gait detection is a promising approach to collect gait data of older adults passively and non-intrusively. However, there has been limited work in developing acoustic based gait detectors that can operate in noisy polyphonic acoustic scenes of homes and care homes. We attribute this to the lack of good quality gait datasets from the real-world to train a gait detector on. In this paper, we put forward a novel machine learning based filter which can triage gait audio samples suitable for training machine learning models for gait detection. The filter achieves this by eliminating noisy samples at an f(1) score of 0.85 and prioritising gait samples with distinct spectral features and minimal noise. To demonstrate the effectiveness of the filter, we train and evaluate a deep learning model on gait datasets collected from older adults with and without applying the filter. The model registers an increase of 25 points in its f(1) score on unseen real-word gait data when trained with the filtered gait samples. The proposed filter will help automate the task of manual annotation of gait samples for training acoustic based gait detection models for older adults in indoor environments.
translated by 谷歌翻译
标准化测试在检测认知障碍中起着至关重要的作用。先前的工作表明,使用标准化图片描述任务中的音频数据可以自动检测认知障碍。提出的研究超出了这一点,评估了我们对来自两个标准化神经心理学测试的数据,即德国SKT和德国版本的CERAD-NB,以及患者与心理学家之间的半结构化临床访谈。对于测试,我们关注三个子测试的语音记录:阅读数字(SKT 3),干扰(SKT 7)和口头流利度(Cerad-NB 1)。我们表明,标准化测试的声学特征可用于可靠地区分非受损的人的认知受损个体。此外,我们提供的证据表明,即使是从访谈的随机语音样本中提取的特征也可能是认知障碍的歧视者。在我们的基线实验中,我们使用开米的功能和支持向量机分类器。在改进的设置中,我们表明使用WAV2VEC 2.0功能,我们可以达到高达85%的精度。
translated by 谷歌翻译
阿尔茨海默氏病(AD)是痴呆症的主要原因,伴随着记忆力的丧失,如果未按时诊断,可能会导致人们的日常生活造成严重后果。很少有作品利用基于变压器的网络,尽管获得了高度的精度,但在模型可解释性方面几乎没有完成工作。此外,尽管迷你精神状态考试(MMSE)分数与痴呆症的识别密不可分,但研究工作面临着痴呆症鉴定的任务以及将MMSE分数作为两个独立任务的预测任务。为了解决这些局限性,我们采用了几种基于变压器的模型,伯特(Bert)的准确性最高为87.50%。同时,我们提出了一种可解释的方法来检测基于暹罗网络的准确性高达83.75%的患者。接下来,我们介绍了两个多任务学习模型,其中主要任务是指痴呆症的识别(二进制分类),而辅助辅助学则对应于痴呆症的严重程度(多类分类)。我们的模型在多任务学习环境中检测AD患者的准确度等于86.25%。最后,我们提出了一些新方法,以识别AD患者和非AD的语言模式,包括文本统计,词汇唯一性,单词用法,通过详细的语言分析和解释性技术(LIME)(LIME)。发现表明AD和非AD患者之间的语言差异显着差异。
translated by 谷歌翻译
语音活动检测(VAD)旨在检测音频信号上的语音段,这对于许多今天的基于语音的应用程序来说是必要的第一步。当前的最新方法着重于训练直接包含声学中包含的神经网络,例如MEL Filter Basks(MFBS)。因此,此类方法需要一个额外的归一化步骤,以适应影响声学的新领域,这可能仅仅是由于说话者,麦克风或环境的变化所致。此外,这个归一化步骤通常是一种具有一定局限性的基本方法,例如高度容易受到新域可用的数据量。在这里,我们利用了众包共同的声音(CV)语料库,以表明基于自我监督学习(SSL)的表示形式可以很好地适应不同的领域,因为它们是通过跨多个领域的语音表达来计算的。 SSL表示也比基于手工制作的表示(MFB)和现成的VAD的系统获得更好的结果,并在跨域设置方面有了显着改善。
translated by 谷歌翻译
在这项研究中,开发了一种机器学习模型,用于自动检测呼吸系统声音,例如在疾病诊断中进行打喷嚏和咳嗽。自动模型和探讨呼吸声的发展,携带有价值的信息,导致早期诊断和治疗。本研究开发了一个成功的机器学习模型,这是对挑战的强烈反应,称为“OSFHOME”开放式接入平台上的“辉瑞数字医学挑战”。 “环境声音分类”称为ESC-50和Audioset Sound文件用于准备数据集。在该数据集中由三个部分组成,从训练,测试和验证样品中提取有效地显示咳嗽和打喷嚏声音分析的功能。基于MEL频率谱系齐系数(MFCC)特征提取方法,准备了数学和统计特征。考虑了三种不同的分类技术在包含超过3800个不同的声音的数据集中执行成功的呼吸声分类。支持向量机(SVM)具有径向基函数(RBF)内核,集合聚合和决策树分类方法用作分类技术。为了尝试将咳嗽和打喷嚏来自其他声音的声音,SVM与RBF内核的成功取得了83%。
translated by 谷歌翻译
Traditional screening practices for anxiety and depression pose an impediment to monitoring and treating these conditions effectively. However, recent advances in NLP and speech modelling allow textual, acoustic, and hand-crafted language-based features to jointly form the basis of future mental health screening and condition detection. Speech is a rich and readily available source of insight into an individual's cognitive state and by leveraging different aspects of speech, we can develop new digital biomarkers for depression and anxiety. To this end, we propose a multi-modal system for the screening of depression and anxiety from self-administered speech tasks. The proposed model integrates deep-learned features from audio and text, as well as hand-crafted features that are informed by clinically-validated domain knowledge. We find that augmenting hand-crafted features with deep-learned features improves our overall classification F1 score comparing to a baseline of hand-crafted features alone from 0.58 to 0.63 for depression and from 0.54 to 0.57 for anxiety. The findings of our work suggest that speech-based biomarkers for depression and anxiety hold significant promise in the future of digital health.
translated by 谷歌翻译
控制传染病是一个主要的健康优先事项,因为它们可以传播和感染人类,从而演变为流行病或流行病。因此,早期发现传染病是一种重要需求,许多研究人员已经开发出在早期诊断它们的模型。本文审查了用于传染病诊断的最新机器学习(ML)算法的研究文章。我们从2015年至2022年搜索了科学,ScienceDirect,PubMed,Springer和IEEE数据库,确定了审查的ML模型的优缺点,并讨论了推进该领域研究的可能建议。我们发现大多数文章都使用了小型数据集,其中很少有实时数据。我们的结果表明,合适的ML技术取决于数据集的性质和所需的目标。
translated by 谷歌翻译
人们的个人卫生习惯在每日生活方式中照顾身体和健康的状况。保持良好的卫生习惯不仅减少了患疾病的机会,而且还可以降低社区中传播疾病的风险。鉴于目前的大流行,每天的习惯,例如洗手或定期淋浴,在人们中至关重要,尤其是对于单独生活在家里或辅助生活设施中的老年人。本文提出了一个新颖的非侵入性框架,用于使用我们采用机器学习技术的振动传感器监测人卫生。该方法基于地球通传感器,数字化器和实用外壳中具有成本效益的计算机板的组合。监测日常卫生常规可能有助于医疗保健专业人员积极主动,而不是反应性,以识别和控制社区内潜在暴发的传播。实验结果表明,将支持向量机(SVM)用于二元分类,在不同卫生习惯的分类中表现出约95%的有希望的准确性。此外,基于树的分类器(随机福雷斯特和决策树)通过实现最高精度(100%)优于其他模型,这意味着可以使用振动和非侵入性传感器对卫生事件进行分类,以监测卫生活动。
translated by 谷歌翻译
在许多临床情况下,迫切需要具有自动呼吸声分析能力的可靠,遥远,连续的实时呼吸声监测仪,例如在监测2019年冠状病毒疾病的疾病进展中,以用手持式听觉仪替换常规的听诊。但是,在实际应用中尚未验证强大的计算机呼吸道声音分析算法。 In this study, we developed a lung sound database (HF_Lung_V1) comprising 9,765 audio files of lung sounds (duration of 15 s each), 34,095 inhalation labels, 18,349 exhalation labels, 13,883 continuous adventitious sound (CAS) labels (comprising 8,457 wheeze labels, 686个Stridor标签和4,740个Rhonchi标签)和15,606个不连续的不定声标签(所有crack带)。我们进行了长期短期记忆(LSTM),门控复发单元(GRU),双向LSTM(BILSTM),双向GRU(BIGRU),卷积神经网络(CNN)-LSTM,CNN-GRU,CNN-BILSTM,CNN-BILSTM,CNN-BILSTM,CNN-BILSTM,CNN-GRU,我们进行了基准测试。和CNN-BIGRU模型用于呼气阶段检测和不定声检测。我们还对基于LSTM的模型,单向模型和双向模型以及带有CNN和CNN的模型之间进行了性能比较。结果表明,这些模型在肺部声音分析中表现出足够的性能。在大多数定义任务中,基于GRU的模型在接收器操作特征曲线下的F1分数和区域上优于基于LSTM的模型。此外,所有双向模型的表现都优于其单向对应物。最后,添加CNN提高了肺部声音分析的准确性,尤其是在CAS检测任务中。
translated by 谷歌翻译
我们提出了一个基于深度学习的自动咳嗽分类器,可以区分结核病(TB)与Covid-19咳嗽和健康咳嗽。 TB和Covid-19都是呼吸道疾病,具有传染性,咳嗽是一种主要的症状,每年夺走了数千人的生命。在室内和室外设置都收集了咳嗽的录音,并使用来自全球各地受试者的智能手机上传,因此包含各种噪声。该咳嗽数据包括1.68小时的结核病咳嗽,18.54分钟的咳嗽,咳嗽和1.69小时的健康咳嗽,47例TB患者,229例Covid-19患者和1498例健康患者,并用于培训和评估CNN,LSTM和Resnet505050 。这三个深度体系结构在2.14小时的打喷嚏,2.91小时的语音和2.79小时的噪音中也进行了预训练,以提高性能。通过使用SMOTE数据平衡技术并使用诸如F1得分和AUC之类的性能指标来解决我们数据集中的类不平衡。我们的研究表明,从预先训练的RESNET50中获得了最高的0.9259和0.8631的F1分数,两级(TB与CoVID-19)和三级(TB VS VS COVID-19与健康)的咳嗽分类,咳嗽分类,,咳嗽分类任务,三级(TB vs vs covid-19)分别。深度转移学习的应用改善了分类器的性能,并使它们更加坚固,因为它们在交叉验证折叠上更好地概括了。他们的表现超过了世界卫生组织(WHO)设定的结核病分类测试要求。产生最佳性能的功能包含MFCC的高阶,这表明人耳朵无法感知结核病和COVID-19之间的差异。这种类型的咳嗽音频分类是非接触,具有成本效益的,并且可以轻松地部署在智能手机上,因此它可以成为TB和COVID-19筛查的绝佳工具。
translated by 谷歌翻译