自闭症谱系障碍(ASD)是一种神经发育障碍,导致发生改变的行为,社会发展和通信模式。在过去几年中,自闭症患病率增加了两倍,现在有1分中有1个现在受到影响。鉴于传统诊断是一种冗长,劳动密集型的过程,已经对自动筛选自闭症的发展系统来说,已经提出了重大关注。韵律异常是自闭症的最明显的迹象,受影响的儿童展示言语特质,包括梯度,单调的语调,非典型音高和不规则语言压力模式。在这项工作中,我们展示了一套机器学习方法,以检测自闭症和神经典型(NT)儿童在家庭环境中捕获的自闭症语音音频中的自闭症。我们考虑了三种方法来检测儿童的自闭症语言:首先,在提取的音频特征(包括熔融频率跳跃系数)上培训的随机森林;二,卷积神经网络(CNNS)培训谱图;第三,微调Wav2Vec 2.0 - 基于最先进的基于变压器的ASR模型。我们在从斯坦福的猜测中培训我们的小说Todaset的小说数据集的分类器?移动游戏,一个应用程序,旨在在自然家庭环境中占有自闭症和神经典型的儿童的视频。随机森林分类器实现了70%的精度,微调Wav2Vec 2.0型号达到了77%的精度,CNN在将儿童的音频视为ASD或NT时,CNN可实现79%的准确性。我们的模型能够在具有不一致的录制质量选择的家庭音频剪辑上培训时预测自闭症状态,这可能更广泛地对现实世界的条件。这些结果表明,机器学习方法提供了在没有专门设备的语音中自动检测自闭症的承诺。
translated by 谷歌翻译
正式的自闭症诊断可以是效率低下和冗长的过程。尽管有证据表明早期的干预导致更好的治疗结果,但家庭可能会等待几个月或更长时间。数字技术检测与自闭症相关的行为的存在可以扩展到儿科诊断。这项工作旨在展示深度学习技术的可行性,用于从非结构化的家庭视频检测手动拍打作为验证模型和数字技术是否可以利用自闭症诊断的第一步。我们使用了自我刺激行为数据集(SSBD),其中包含75个手扑扑,头部敲打和儿童展示的旋转。从所有的手拍摄视频中,我们提取了100个扑扑的100个正和控制视频,每个持续时间为2到5秒。利用地标驱动方法和MobileNet V2的预训练层,我们的最高性能模型在评估5倍的交叉验证时,达到了84%(90%精度和80%召回)的测试F1得分。这项工作为开发精确的深层学习方法提供了对自闭症相关行为的活动检测的第一步。
translated by 谷歌翻译
Covid-19大流行为感染检测和监测解决方案产生了重大的兴趣和需求。在本文中,我们提出了一种机器学习方法,可以使用在消费者设备上进行的录音来快速分离Covid-19。该方法将信号处理方法与微调深层学习网络相结合,提供了信号去噪,咳嗽检测和分类的方法。我们还开发并部署了一个移动应用程序,使用症状检查器与语音,呼吸和咳嗽信号一起使用,以检测Covid-19感染。该应用程序对两个开放的数据集和最终用户在测试版测试期间收集的嘈杂数据显示了鲁棒性能。
translated by 谷歌翻译
夫妻通常在一起管理慢性疾病,管理层对患者及其浪漫伴侣造成了情感上的伤害。因此,认识到日常生活中每个伴侣的情绪可以提供对他们在慢性疾病管理中的情感健康的见解。当前,评估每个伴侣的情绪的过程是手动,时间密集和昂贵的。尽管夫妻之间存在着关于情感识别的作品,但这些作品都没有使用夫妻在日常生活中的互动中收集的数据。在这项工作中,我们收集了85小时(1,021个5分钟样本)现实世界多模式智能手表传感器数据(语音,心率,加速度计和陀螺仪)和自我报告的情绪数据(n = 612)(13个伙伴)(13)夫妻)在日常生活中管理2型糖尿病。我们提取了生理,运动,声学和语言特征,以及训练有素的机器学习模型(支持向量机和随机森林),以识别每个伴侣的自我报告的情绪(价和唤醒)。我们最佳模型的结果比偶然的结果更好,唤醒和价值分别为63.8%和78.1%。这项工作有助于建立自动情绪识别系统,最终使伙伴能够监视他们在日常生活中的情绪,并能够提供干预措施以改善其情感幸福感。
translated by 谷歌翻译
Covid-19在全球范围内影响了223多个国家。迫切需要非侵入性,低成本和高度可扩展的解决方案来检测COVID-19,尤其是在PCR测试无普遍可用的低资源国家。我们的目的是开发一个深度学习模型,使用普通人群(语音录音和简短问卷)通过其个人设备自发提供的语音数据记录来识别Covid-19。这项工作的新颖性在于开发一个深度学习模型,以鉴定来自语音记录的199名患者。方法:我们使用了由893个音频样本组成的剑桥大学数据集,该数据集由4352名参与者的人群来源,这些参与者使用了COVID-19 Sounds应用程序。使用MEL光谱分析提取语音功能。根据语音数据,我们开发了深度学习分类模型,以检测阳性的Covid-19情况。这些模型包括长期术语记忆(LSTM)和卷积神经网络(CNN)。我们将它们的预测能力与基线分类模型进行了比较,即逻辑回归和支持向量机。结果:基于MEL频率CEPSTRAL系数(MFCC)功能的LSTM具有最高的精度(89%),其灵敏度和特异性分别为89%和89%,其结果通过提议的模型获得了显着改善,这表明该结果显着改善与艺术状态获得的结果相比,COVID-19诊断的预测准确性。结论:深度学习可以检测到199例患者的声音中的细微变化,并有令人鼓舞的结果。作为当前测试技术的补充,该模型可以使用简单的语音分析帮助卫生专业人员快速诊断和追踪Covid-19案例
translated by 谷歌翻译
注意缺陷/多动症(ADHD)是一种神经发育障碍,高度流行,需要临床专家才能诊断。众所周知,个人的观察行为反映在眼睛运动中,直接与注意机制和高阶认知过程有关。因此,我们探讨了是否可以根据记录的眼动动作以及在免费观看任务中的视频刺激信息进行检测到多动症。为此,我们开发了一个基于端到端的深度学习序列模型%,该模型%使用眼动扫描路径,我们将其预先培训在相关任务上,该任务可获得更多数据。我们发现该方法实际上能够检测ADHD并胜过相关的基线。我们在消融研究中研究了输入特征的相关性。有趣的是,我们发现该模型的性能与视频内容密切相关,该视频为未来的实验设计提供了见解。
translated by 谷歌翻译
双相情感障碍是一种心理健康障碍,导致情绪波动,从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的,并从患者的护理人员获得的报告。随后,诊断取决于专家的经验,并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标,并让患者的更容易观察较长的时间。此外,在Covid-19大流行期间,对遥控和诊断的需求变得尤为重要。在本论文中,我们根据声学,语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统,以及各种融合技术。除了使用单向特征处理整个患者会话外,还研究了剪辑的任务级调查。在多模式融合系统中使用声学,语言和视觉特征,我们实现了64.8%的未加权平均召回得分,这提高了在该数据集上实现的最先进的性能。
translated by 谷歌翻译
Vocal Bursts -- short, non-speech vocalizations that convey emotions, such as laughter, cries, sighs, moans, and groans -- are an often-overlooked aspect of speech emotion recognition, but an important aspect of human vocal communication. One barrier to study of these interesting vocalizations is a lack of large datasets. I am pleased to introduce the EmoGator dataset, which consists of 32,040 samples from 365 speakers, 16.91 hours of audio; each sample classified into one of 30 distinct emotion categories by the speaker. Several different approaches to construct classifiers to identify emotion categories will be discussed, and directions for future research will be suggested. Data set is available for download from https://github.com/fredbuhl/EmoGator.
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
呼吸声分类中的问题已在去年的临床科学家和医学研究员团体中获得了良好的关注,以诊断Covid-19疾病。迄今为止,各种模型的人工智能(AI)进入了现实世界,从人类生成的声音等人生成的声音中检测了Covid-19疾病,例如语音/言语,咳嗽和呼吸。实现卷积神经网络(CNN)模型,用于解决基于人工智能(AI)的机器上的许多真实世界问题。在这种情况下,建议并实施一个维度(1D)CNN,以诊断Covid-19的呼吸系统疾病,例如语音,咳嗽和呼吸。应用基于增强的机制来改善Covid-19声音数据集的预处理性能,并使用1D卷积网络自动化Covid-19疾病诊断。此外,使用DDAE(数据去噪自动编码器)技术来产生诸如输入功能的深声特征,而不是采用MFCC(MEL频率跳跃系数)的标准输入,并且它更好地执行比以前的型号的准确性和性能。
translated by 谷歌翻译
目的:确定逼真,但是电磁图的计算上有效模型可用于预先列车,具有广泛的形态和特定于给定条件的形态和异常 - T波段(TWA)由于创伤后应激障碍,或重点 - 在稀有人的小型数据库上显着提高了性能。方法:使用先前经过验证的人工ECG模型,我们生成了180,000人的人工ECG,有或没有重要的TWA,具有不同的心率,呼吸率,TWA幅度和ECG形态。在70,000名患者中培训的DNN进行分类为25种不同的节奏,将输出层修改为二进制类(TWA或NO-TWA,或等效,PTSD或NO-PTSD),并对人工ECG进行转移学习。在最终转移学习步骤中,DNN在ECG的培训和交叉验证,从12个PTE和24个控件,用于使用三个数据库的所有组合。主要结果:通过进行转移学习步骤,使用预先培训的心律失常DNN,人工数据和真实的PTSD相关的心电图数据,发现了最佳性能的方法(AUROC = 0.77,精度= 0.72,F1-SCATE = 0.64) 。从训练中删除人工数据导致性能的最大下降。从培训中取出心律失常数据提供了适度但重要的,表现下降。最终模型在人工数据上显示出在性能下没有显着下降,表明没有过度拟合。意义:在医疗保健中,通常只有一小部分高质量数据和标签,或更大的数据库,质量较低(和较差的相关)标签。这里呈现的范式,涉及基于模型的性能提升,通过在大型现实人工数据库和部分相关的真实数据库上传输学习来提供解决方案。
translated by 谷歌翻译
本文介绍了一个用于分析声学数据的系统,以帮助使用计算机对儿童语音疾病进行诊断和分类。该分析集中于识别和分类四种不同类型的中国误解。该研究收集并产生了一个含有2540次停止,Velar,辅音元音和带有正常或病理表关节特征的儿童的语料库。每个录音都伴随着语音疗法领域的详细注释。语音样本的分类是使用三种良好的神经网络模型来完成图像分类的。使用从语音声音中提取的三组MFCC参数创建特征图,并将其汇总到三维数据结构中作为模型输入。我们采用六种技术进行数据增强,以增加可用数据集的同时避免过度仿真。实验检查了四种不同类别的中文短语和字符的可用性。具有不同数据子集的实验证明了系统准确检测分析发音障碍的能力。
translated by 谷歌翻译
如今,数据收集在各个领域有所改善,医疗领域也不例外。由于数字听诊器的进度和可用性,听诊是医生的重要诊断技术,非常适合机器学习的应用。由于进行了大量的听诊,数据的可用性为对声音的更有效分析提供了机会,即使专家之间的预后准确性也仍然很低。在这项研究中,在各种机器学习方案中使用了45例患者的数字6通道听诊,目的是区分正常和异常的肺部声音。使用Python库冲浪板提取了音频功能(例如基本频率F0-4,响度,HNR,DFA以及对数能,RMS和MFCC的描述性统计)。窗口和特征聚合和串联策略用于在无监督(公平砍伐的森林)和受监督的(随机森林)机器学习设置中为基于树的合奏模型准备数据。使用9倍分层的交叉验证重复进行了30次进行评估。测试了对受试者的平均输出的决策融合,并发现有用。监督模型比无监督的模型具有一致的优势,在基于侧面的检测中,平均AUC ROC为0.691(准确性为71.11%,Kappa 0.416,F1分数0.771),平均AUC ROC为0.721(准确性68.89%,Kappa 0.371,F1-0.371,F1 0.371,F1-0.371,F1-0.371,F1 0.371,f1。得分为0.650)在基于患者的检测中。
translated by 谷歌翻译
咳嗽音频信号分类是筛查呼吸道疾病(例如COVID-19)的潜在有用工具。由于从这种传染性疾病的患者那里收集数据是危险的,因此许多研究团队已转向众包来迅速收集咳嗽声数据,因为它是为了生成咳嗽数据集的工作。 Coughvid数据集邀请专家医生诊断有限数量上传的记录中存在的潜在疾病。但是,这种方法遭受了咳嗽的潜在标签,以及专家之间的显着分歧。在这项工作中,我们使用半监督的学习(SSL)方法来提高咳嗽数据集的标签一致性以及COVID-19的鲁棒性与健康的咳嗽声音分类。首先,我们利用现有的SSL专家知识聚合技术来克服数据集中的标签不一致和稀疏性。接下来,我们的SSL方法用于识别可用于训练或增加未来咳嗽分类模型的重新标记咳嗽音频样本的子样本。证明了重新标记的数据的一致性,因为它表现出高度的类可分离性,尽管原始数据集中存在专家标签不一致,但它比用户标记的数据高3倍。此外,在重新标记的数据中放大了用户标记的音频段的频谱差异,从而导致健康和COVID-19咳嗽之间的功率频谱密度显着不同,这既证明了新数据集的一致性及其与新数据的一致性及其与新数据的一致性的提高,其解释性与其与其解释性的一致性相同。声学的观点。最后,我们演示了如何使用重新标记的数据集来训练咳嗽分类器。这种SSL方法可用于结合几位专家的医学知识,以提高任何诊断分类任务的数据库一致性。
translated by 谷歌翻译
对任何自闭症谱系疾病的筛选是一种复杂的过程,通常涉及行为观察和基于问卷的测试的杂交。通常在受控环境中进行,此过程需要培训的临床医生或精神科医生进行此类评估。在移动平台上的技术进步浪潮中,已经在纳入移动和平板电脑设备上的这种评估时进行了多次尝试。在本文中,我们分析了使用这种筛选测试产生的视频。本文报道了使用观察者与显示屏距离的效果的第一次使用,同时向2-7岁的儿童作为自闭症的行为标记进行感官敏感性测试,在休闲家庭设置中使用如此的潜力很有希望。
translated by 谷歌翻译
我们提出了一个基于深度学习的自动咳嗽分类器,可以区分结核病(TB)与Covid-19咳嗽和健康咳嗽。 TB和Covid-19都是呼吸道疾病,具有传染性,咳嗽是一种主要的症状,每年夺走了数千人的生命。在室内和室外设置都收集了咳嗽的录音,并使用来自全球各地受试者的智能手机上传,因此包含各种噪声。该咳嗽数据包括1.68小时的结核病咳嗽,18.54分钟的咳嗽,咳嗽和1.69小时的健康咳嗽,47例TB患者,229例Covid-19患者和1498例健康患者,并用于培训和评估CNN,LSTM和Resnet505050 。这三个深度体系结构在2.14小时的打喷嚏,2.91小时的语音和2.79小时的噪音中也进行了预训练,以提高性能。通过使用SMOTE数据平衡技术并使用诸如F1得分和AUC之类的性能指标来解决我们数据集中的类不平衡。我们的研究表明,从预先训练的RESNET50中获得了最高的0.9259和0.8631的F1分数,两级(TB与CoVID-19)和三级(TB VS VS COVID-19与健康)的咳嗽分类,咳嗽分类,,咳嗽分类任务,三级(TB vs vs covid-19)分别。深度转移学习的应用改善了分类器的性能,并使它们更加坚固,因为它们在交叉验证折叠上更好地概括了。他们的表现超过了世界卫生组织(WHO)设定的结核病分类测试要求。产生最佳性能的功能包含MFCC的高阶,这表明人耳朵无法感知结核病和COVID-19之间的差异。这种类型的咳嗽音频分类是非接触,具有成本效益的,并且可以轻松地部署在智能手机上,因此它可以成为TB和COVID-19筛查的绝佳工具。
translated by 谷歌翻译
爆发两年多后,Covid-19的大流行继续困扰世界各地的医疗系统,给稀缺资源带来压力,并夺走了人类的生命。从一开始,已经采用了各种基于AI的CoVID-19检测和监测工具,以试图通过及时诊断来阻止感染的潮流。特别是,已经建议计算机试听是一种非侵入性,成本效益和环保的替代方法,可通过声音通过声音来检测COVID-19的感染。但是,像所有AI方法一样,计算机试镜也很大程度上取决于可用数据的数量和质量,并且由于此类数据的敏感性,大规模的COVID-19声音数据集很难获取 - 除其他原因外。为此,我们介绍了COVYT数据集 - 一种新颖的Covid-19数据集,该数据集是从包含来自65位演讲者的8个小时以上语音的公共资源中收集的。与其他现有的COVID-19声音数据集相比,COVYT数据集的独特功能是,它包括所有65位扬声器的covid-19正和负样本。我们使用可解释的音频描述来分析Covid-19的声学表现,并使用可解释的音频描述,并研究几种分类场景,并调查一些分类场景,以将基于公平的言语的COVID进行适当的分配策略-19检测。
translated by 谷歌翻译
创伤后应激障碍(PTSD)是一种长期衰弱的精神状况,是针对灾难性生活事件(例如军事战斗,性侵犯和自然灾害)而发展的。 PTSD的特征是过去的创伤事件,侵入性思想,噩梦,过度维护和睡眠障碍的闪回,所有这些都会影响一个人的生活,并导致相当大的社会,职业和人际关系障碍。 PTSD的诊断是由医学专业人员使用精神障碍诊断和统计手册(DSM)中定义的PTSD症状的自我评估问卷进行的。在本文中,这是我们第一次收集,注释并为公共发行准备了一个新的视频数据库,用于自动PTSD诊断,在野生数据集中称为PTSD。该数据库在采集条件下表现出“自然”和巨大的差异,面部表达,照明,聚焦,分辨率,年龄,性别,种族,遮挡和背景。除了描述数据集集合的详细信息外,我们还提供了评估野生数据集中PTSD的基于计算机视觉和机器学习方法的基准。此外,我们建议并评估基于深度学习的PTSD检测方法。提出的方法显示出非常有希望的结果。有兴趣的研究人员可以从:http://www.lissi.fr/ptsd-dataset/下载PTSD-in-wild数据集的副本
translated by 谷歌翻译
Pneumonia, a respiratory infection brought on by bacteria or viruses, affects a large number of people, especially in developing and impoverished countries where high levels of pollution, unclean living conditions, and overcrowding are frequently observed, along with insufficient medical infrastructure. Pleural effusion, a condition in which fluids fill the lung and complicate breathing, is brought on by pneumonia. Early detection of pneumonia is essential for ensuring curative care and boosting survival rates. The approach most usually used to diagnose pneumonia is chest X-ray imaging. The purpose of this work is to develop a method for the automatic diagnosis of bacterial and viral pneumonia in digital x-ray pictures. This article first presents the authors' technique, and then gives a comprehensive report on recent developments in the field of reliable diagnosis of pneumonia. In this study, here tuned a state-of-the-art deep convolutional neural network to classify plant diseases based on images and tested its performance. Deep learning architecture is compared empirically. VGG19, ResNet with 152v2, Resnext101, Seresnet152, Mobilenettv2, and DenseNet with 201 layers are among the architectures tested. Experiment data consists of two groups, sick and healthy X-ray pictures. To take appropriate action against plant diseases as soon as possible, rapid disease identification models are preferred. DenseNet201 has shown no overfitting or performance degradation in our experiments, and its accuracy tends to increase as the number of epochs increases. Further, DenseNet201 achieves state-of-the-art performance with a significantly a smaller number of parameters and within a reasonable computing time. This architecture outperforms the competition in terms of testing accuracy, scoring 95%. Each architecture was trained using Keras, using Theano as the backend.
translated by 谷歌翻译
鉴于AD的高流行和传统方法的高成本,与自动检测阿尔茨海默氏病(AD)有关的研究很重要。由于广告会显着影响自发语音的声学,因此语音处理和机器学习(ML)为可靠地检测AD提供了有希望的技术。但是,语音音频可能会受到不同类型的背景噪声的影响,重要的是要了解噪声如何影响ML模型检测到语音的AD的准确性。在本文中,我们研究了来自五个不同类别的15种类型的环境噪声对四种具有三种声音表示的ML模型的性能的影响。我们进行了彻底的分析,显示了ML模型和声学特征如何受到不同类型的声学噪声的影响。我们表明声音噪声不一定是有害的 - 某些类型的噪声对AD检测模型有益,并帮助将精度提高到4.8%。我们提供有关如何利用声学噪声的建议,以通过在现实世界中部署的ML模型获得最佳性能结果。
translated by 谷歌翻译