本文介绍了一个用于分析声学数据的系统,以帮助使用计算机对儿童语音疾病进行诊断和分类。该分析集中于识别和分类四种不同类型的中国误解。该研究收集并产生了一个含有2540次停止,Velar,辅音元音和带有正常或病理表关节特征的儿童的语料库。每个录音都伴随着语音疗法领域的详细注释。语音样本的分类是使用三种良好的神经网络模型来完成图像分类的。使用从语音声音中提取的三组MFCC参数创建特征图,并将其汇总到三维数据结构中作为模型输入。我们采用六种技术进行数据增强,以增加可用数据集的同时避免过度仿真。实验检查了四种不同类别的中文短语和字符的可用性。具有不同数据子集的实验证明了系统准确检测分析发音障碍的能力。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
呼吸声分类中的问题已在去年的临床科学家和医学研究员团体中获得了良好的关注,以诊断Covid-19疾病。迄今为止,各种模型的人工智能(AI)进入了现实世界,从人类生成的声音等人生成的声音中检测了Covid-19疾病,例如语音/言语,咳嗽和呼吸。实现卷积神经网络(CNN)模型,用于解决基于人工智能(AI)的机器上的许多真实世界问题。在这种情况下,建议并实施一个维度(1D)CNN,以诊断Covid-19的呼吸系统疾病,例如语音,咳嗽和呼吸。应用基于增强的机制来改善Covid-19声音数据集的预处理性能,并使用1D卷积网络自动化Covid-19疾病诊断。此外,使用DDAE(数据去噪自动编码器)技术来产生诸如输入功能的深声特征,而不是采用MFCC(MEL频率跳跃系数)的标准输入,并且它更好地执行比以前的型号的准确性和性能。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
Pneumonia, a respiratory infection brought on by bacteria or viruses, affects a large number of people, especially in developing and impoverished countries where high levels of pollution, unclean living conditions, and overcrowding are frequently observed, along with insufficient medical infrastructure. Pleural effusion, a condition in which fluids fill the lung and complicate breathing, is brought on by pneumonia. Early detection of pneumonia is essential for ensuring curative care and boosting survival rates. The approach most usually used to diagnose pneumonia is chest X-ray imaging. The purpose of this work is to develop a method for the automatic diagnosis of bacterial and viral pneumonia in digital x-ray pictures. This article first presents the authors' technique, and then gives a comprehensive report on recent developments in the field of reliable diagnosis of pneumonia. In this study, here tuned a state-of-the-art deep convolutional neural network to classify plant diseases based on images and tested its performance. Deep learning architecture is compared empirically. VGG19, ResNet with 152v2, Resnext101, Seresnet152, Mobilenettv2, and DenseNet with 201 layers are among the architectures tested. Experiment data consists of two groups, sick and healthy X-ray pictures. To take appropriate action against plant diseases as soon as possible, rapid disease identification models are preferred. DenseNet201 has shown no overfitting or performance degradation in our experiments, and its accuracy tends to increase as the number of epochs increases. Further, DenseNet201 achieves state-of-the-art performance with a significantly a smaller number of parameters and within a reasonable computing time. This architecture outperforms the competition in terms of testing accuracy, scoring 95%. Each architecture was trained using Keras, using Theano as the backend.
translated by 谷歌翻译
双相情感障碍是一种心理健康障碍,导致情绪波动,从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的,并从患者的护理人员获得的报告。随后,诊断取决于专家的经验,并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标,并让患者的更容易观察较长的时间。此外,在Covid-19大流行期间,对遥控和诊断的需求变得尤为重要。在本论文中,我们根据声学,语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统,以及各种融合技术。除了使用单向特征处理整个患者会话外,还研究了剪辑的任务级调查。在多模式融合系统中使用声学,语言和视觉特征,我们实现了64.8%的未加权平均召回得分,这提高了在该数据集上实现的最先进的性能。
translated by 谷歌翻译
众所周知,学习障碍主要干扰阅读,写作和数学等基本学习技能,会影响世界上约10%的儿童。作为神经发育障碍的一部分的运动技能和运动协调不足可能成为学习写作困难(障碍)的原因因素,从而阻碍了个人的学术轨道。障碍症的体征和症状包括但不限于不规则的笔迹,不正确的写作媒介处理,缓慢或劳力的写作,不寻常的手部位等。所有类型的学习障碍的评估标准是由医学医学进行的检查专家。少数可用的人工智能筛查系统用于障碍症,依赖于相应图像中手写的独特特征。这项工作对文献中儿童的现有自动化障碍诊断系统进行了综述。这项工作的主要重点是审查基于人工智能的儿童诊断的基于人工智能的系统。这项工作讨论了数据收集方法,重要的手写功能,用于诊断障碍症的文献中使用的机器学习算法。除此之外,本文还讨论了一些基于非人工智能的自动化系统。此外,本文讨论了现有系统的缺点,并提出了一个新颖的障碍诊断框架。
translated by 谷歌翻译
Covid-19在全球范围内影响了223多个国家。迫切需要非侵入性,低成本和高度可扩展的解决方案来检测COVID-19,尤其是在PCR测试无普遍可用的低资源国家。我们的目的是开发一个深度学习模型,使用普通人群(语音录音和简短问卷)通过其个人设备自发提供的语音数据记录来识别Covid-19。这项工作的新颖性在于开发一个深度学习模型,以鉴定来自语音记录的199名患者。方法:我们使用了由893个音频样本组成的剑桥大学数据集,该数据集由4352名参与者的人群来源,这些参与者使用了COVID-19 Sounds应用程序。使用MEL光谱分析提取语音功能。根据语音数据,我们开发了深度学习分类模型,以检测阳性的Covid-19情况。这些模型包括长期术语记忆(LSTM)和卷积神经网络(CNN)。我们将它们的预测能力与基线分类模型进行了比较,即逻辑回归和支持向量机。结果:基于MEL频率CEPSTRAL系数(MFCC)功能的LSTM具有最高的精度(89%),其灵敏度和特异性分别为89%和89%,其结果通过提议的模型获得了显着改善,这表明该结果显着改善与艺术状态获得的结果相比,COVID-19诊断的预测准确性。结论:深度学习可以检测到199例患者的声音中的细微变化,并有令人鼓舞的结果。作为当前测试技术的补充,该模型可以使用简单的语音分析帮助卫生专业人员快速诊断和追踪Covid-19案例
translated by 谷歌翻译
Covid-19大流行为感染检测和监测解决方案产生了重大的兴趣和需求。在本文中,我们提出了一种机器学习方法,可以使用在消费者设备上进行的录音来快速分离Covid-19。该方法将信号处理方法与微调深层学习网络相结合,提供了信号去噪,咳嗽检测和分类的方法。我们还开发并部署了一个移动应用程序,使用症状检查器与语音,呼吸和咳嗽信号一起使用,以检测Covid-19感染。该应用程序对两个开放的数据集和最终用户在测试版测试期间收集的嘈杂数据显示了鲁棒性能。
translated by 谷歌翻译
作为最普遍的神经退行性疾病之一,帕金森病(PD)对患者的精细运动技能产生了重大影响。在语音生产过程中不同铰接器的复杂相互作用和所需肌肉张力的实现变得越来越困难,从而导致发狂的言论。在受影响的个体中通常可以观察到元音不稳定性,浆液发音和慢演说的特征模式,并在先前的研究中分析以确定PD的存在和进展。在这项工作中,我们使用了专门培训的语音识别器,以研究PD如何影响患者的语音占地面积。我们重新发现了许多在以前的贡献中描述的模式,尽管我们的系统从未见过此前从未见过任何病理演讲。此外,我们可以表明来自神经网络的中间激活可以用作编码与个人疾病状态有关的信息的特征向量。我们还能够直接将演讲者的专家额定智能性与语音预测的平均置信相提并论。我们的结果支持假设,即培训能够分析PD语音的系统不一定需要病理数据。
translated by 谷歌翻译
自动语音识别和文本到语音系统主要以监督方式培训,需要高质量,准确标记的语音数据集。在这项工作中,我们研究语音数据的常见问题,并为语音数据集的构建和交互式错误分析引入工具箱。施工工具基于K \“urzinger等。工作,并且,尽我们所知,数据集探索工具是世界上第一个这类开源工具。我们演示了如何应用这些工具来创建一个俄语语音数据集并分析现有语音数据集(多语种LibrisPeech,Mozilla Common语音)。该工具是开放的,作为Nemo框架的一部分。
translated by 谷歌翻译
我们寻求基于8,380临床验证样品的咳嗽声,评估Covid-19的快速初级筛查工具的检测性能,从8,380临床验证的样品进行实验室分子测试(2,339 Covid-19阳性和6,041个Covid-19负面)。根据患者的定量RT-PCR(QRT-PCR)分析,循环阈值和淋巴细胞计数,根据结果和严重程度临床标记样品。我们所提出的通用方法是一种基于经验模式分解(EMD)的算法,其随后基于音频特征的张量和具有称为Deplecough的卷积层的深层人工神经网络分类器的分类。基于张量尺寸的数量,即DepeCough2D和DeepCOUGH3D,两种不同版本的深度。这些方法已部署在多平台概念验证Web应用程序CoughDetect中以匿名管理此测试。 Covid-19识别结果率达到了98.800.83%,敏感性为96.431.85%的有前途的AUC(面积),特异性为96.201.74%,81.08%5.05%AUC,用于识别三个严重程度。我们提出的Web工具和支持稳健,快速,需要Covid-19的需求识别的基础算法有助于快速检测感染。我们认为,它有可能大大妨碍世界各地的Covid-19大流行。
translated by 谷歌翻译
在本文中,我们介绍了Amharic语音情绪数据集(亚胺),涵盖了四条方言(Gojjam,Wollo,Shewa和Londer)和五种不同的情绪(中性,恐惧,快乐,悲伤和生气)。我们认为它是Amharic语言的第一个语音情感认可(Ser)数据集。 65志愿者参与者,所有母语人员,记录2,474个声音样本,长度为2至4秒。八名法官将情绪分配给具有高协议水平的样本(Fleiss Kappa = 0.8)。生成的数据集可免费下载。接下来,我们开发了一个四层变体,我们称之为vggb。然后使用vggb进行三种实验,用于Ser,使用ASED。首先,我们研究了熔融谱图特征或熔融频率谱系数(MFCC)的特点是Amharic最适合的。这是通过培训ASID的两个VGGB SER模型来完成的,使用MEL-谱图和使用MFCC的另一个。尝试了四种形式的培训,标准交叉验证和三种变体,基于句子,方言和扬声器组。因此,用于训练的句子不会用于测试,以及方言和扬声器组的句子。结论是,在所有四种训练方案下,MFCC功能都是优越的。因此,MFCC采用实验2,其中VGGB和其他三种现有模型进行了验证:Resnet50,Alex-Net和LSTM。 vggb被发现具有非常好的准确性(90.73%)以及最快的培训时间。在实验3中,在培训在两个现有的SER数据集,RAVDES(英语)和EMO-DB(德语)以及ASED(Amharic)上进行培训时比较VGGB的性能。结果与这些语言相当,仿真是最高的。这表明VGGB可以成功应用于其他语言。我们希望Ased将鼓励研究人员试验其他模型为Amharic Ser。
translated by 谷歌翻译
手语是聋人和听力受损社区中使用的沟通语言的主要形式。在听力障碍和听力社区之间进行简单互相的沟通,建立一个能够将口语翻译成手语的强大系统,反之亦然是基本的。为此,标志语言识别和生产是制作这种双向系统的两个必要零件。手语识别和生产需要应对一些关键挑战。在这项调查中,我们审查了使用深度学习的手语制作(SLP)和相关领域的最近进展。为了有更现实的观点来签署语言,我们介绍了聋人文化,聋人中心,手语的心理视角,口语和手语之间的主要差异。此外,我们介绍了双向手语翻译系统的基本组成部分,讨论了该领域的主要挑战。此外,简要介绍了SLP中的骨干架构和方法,并提出了拟议的SLP分类物。最后,介绍了SLP和绩效评估的一般框架,也讨论了SLP最近的发展,优势和限制,评论可能的未来研究的可能线条。
translated by 谷歌翻译
心脏听诊是用于检测和识别许多心脏病的最具成本效益的技术之一。基于Auscultation的计算机辅助决策系统可以支持他们的决定中的医生。遗憾的是,在临床试验中的应用仍然很小,因为它们中的大多数仅旨在检测音盲局部信号中的额外或异常波的存在,即,仅提供二进制地面真理变量(普通VS异常)。这主要是由于缺乏大型公共数据集,其中存在对这种异常波(例如,心脏杂音)的更详细描述。为基于听诊的医疗建议系统铺平了更有效的研究,我们的团队准备了目前最大的儿科心声数据集。从1568名患者的四个主要听诊位置收集了5282个录音,在此过程中,手动注释了215780人的心声。此外,并且首次通过专家注释器根据其定时,形状,俯仰,分级和质量来手动注释每个心脏杂音。此外,鉴定了杂音的听诊位置以及杂音更集中检测到杂音的位置位置。对于相对大量的心脏声音的这种详细描述可以为新机器学习算法铺平道路,该算法具有真实世界的应用,用于检测和分析诊断目的的杂波。
translated by 谷歌翻译
爆发两年多后,Covid-19的大流行继续困扰世界各地的医疗系统,给稀缺资源带来压力,并夺走了人类的生命。从一开始,已经采用了各种基于AI的CoVID-19检测和监测工具,以试图通过及时诊断来阻止感染的潮流。特别是,已经建议计算机试听是一种非侵入性,成本效益和环保的替代方法,可通过声音通过声音来检测COVID-19的感染。但是,像所有AI方法一样,计算机试镜也很大程度上取决于可用数据的数量和质量,并且由于此类数据的敏感性,大规模的COVID-19声音数据集很难获取 - 除其他原因外。为此,我们介绍了COVYT数据集 - 一种新颖的Covid-19数据集,该数据集是从包含来自65位演讲者的8个小时以上语音的公共资源中收集的。与其他现有的COVID-19声音数据集相比,COVYT数据集的独特功能是,它包括所有65位扬声器的covid-19正和负样本。我们使用可解释的音频描述来分析Covid-19的声学表现,并使用可解释的音频描述,并研究几种分类场景,并调查一些分类场景,以将基于公平的言语的COVID进行适当的分配策略-19检测。
translated by 谷歌翻译
代码切换是在对话期间交换语言时的语音现象。尽管对会话语言中的代码切换的自发性,但大多数现有工程通过读取语音而不是自发的语音来收集代码切换数据。Ascend(一个自发的中国英语数据集)介绍了香港收集的自发多转对话对话中英语代码切换语料库的高质量资源。我们报告了提升的设计和收集语音数据的程序,包括在这项工作中的注释。上升包括23个双语,这些双语流利,汉英都流利,而且由9.23小时的清洁语音组成。
translated by 谷歌翻译
自闭症谱系障碍(ASD)是一种神经发育障碍,导致发生改变的行为,社会发展和通信模式。在过去几年中,自闭症患病率增加了两倍,现在有1分中有1个现在受到影响。鉴于传统诊断是一种冗长,劳动密集型的过程,已经对自动筛选自闭症的发展系统来说,已经提出了重大关注。韵律异常是自闭症的最明显的迹象,受影响的儿童展示言语特质,包括梯度,单调的语调,非典型音高和不规则语言压力模式。在这项工作中,我们展示了一套机器学习方法,以检测自闭症和神经典型(NT)儿童在家庭环境中捕获的自闭症语音音频中的自闭症。我们考虑了三种方法来检测儿童的自闭症语言:首先,在提取的音频特征(包括熔融频率跳跃系数)上培训的随机森林;二,卷积神经网络(CNNS)培训谱图;第三,微调Wav2Vec 2.0 - 基于最先进的基于变压器的ASR模型。我们在从斯坦福的猜测中培训我们的小说Todaset的小说数据集的分类器?移动游戏,一个应用程序,旨在在自然家庭环境中占有自闭症和神经典型的儿童的视频。随机森林分类器实现了70%的精度,微调Wav2Vec 2.0型号达到了77%的精度,CNN在将儿童的音频视为ASD或NT时,CNN可实现79%的准确性。我们的模型能够在具有不一致的录制质量选择的家庭音频剪辑上培训时预测自闭症状态,这可能更广泛地对现实世界的条件。这些结果表明,机器学习方法提供了在没有专门设备的语音中自动检测自闭症的承诺。
translated by 谷歌翻译
深度学习技术的发展极大地促进了自动语音识别(ASR)技术的性能提高,该技术证明了在许多任务中与人类听力相当的能力。语音接口正变得越来越广泛地用作许多应用程序和智能设备的输入。但是,现有的研究表明,DNN很容易受到轻微干扰的干扰,并且会出现错误的识别,这对于由声音控制的智能语音应用非常危险。
translated by 谷歌翻译
现有的源单元手机识别方法缺乏源设备的长期特征表征,从而导致与源单元相关特征的不准确表示,从而导致识别精度不足。在本文中,我们提出了一种基于时空表示学习的源细胞手机识别方法,其中包括两个主要部分:提取顺序高斯平均矩阵特征和基于时空表示学习的识别模型的构建。在特征提取部分中,基于对记录源信号的时间序列表示的分析,我们通过使用高斯混合模型对数据分布的灵敏度提取具有长期和短期表示能力的顺序高斯平均矩阵。在模型构建部分中,我们设计了一个结构化的时空表示网络C3D-BILSTM,以充分表征时空信息,结合3D卷积网络和双向长期短期记忆网络,用于短期光谱信息和长期的长期记忆网络波动信息表示学习,并通过融合记录源信号的时空特征信息来准确识别细胞手机。该方法的平均准确性为99.03%的封闭设置识别在CCNU \ _Mobile数据集中的45个手机识别,而在小样本尺寸实验中的平均识别率为98.18%,识别性能优于现有的最新目前的识别性能方法。实验结果表明,该方法在多级细胞手机识别中表现出出色的识别性能。
translated by 谷歌翻译