智能论文笔记

Developing a multi-variate prediction model for the detection of COVID-19 from Crowd-sourced Respiratory Voice Data

Wafaa Aljbawi , Sami O. Simmons , Visara Urovi

分类：机器学习

2022-09-08

Covid-19在全球范围内影响了223多个国家。迫切需要非侵入性，低成本和高度可扩展的解决方案来检测COVID-19，尤其是在PCR测试无普遍可用的低资源国家。我们的目的是开发一个深度学习模型，使用普通人群（语音录音和简短问卷）通过其个人设备自发提供的语音数据记录来识别Covid-19。这项工作的新颖性在于开发一个深度学习模型，以鉴定来自语音记录的199名患者。方法：我们使用了由893个音频样本组成的剑桥大学数据集，该数据集由4352名参与者的人群来源，这些参与者使用了COVID-19 Sounds应用程序。使用MEL光谱分析提取语音功能。根据语音数据，我们开发了深度学习分类模型，以检测阳性的Covid-19情况。这些模型包括长期术语记忆（LSTM）和卷积神经网络（CNN）。我们将它们的预测能力与基线分类模型进行了比较，即逻辑回归和支持向量机。结果：基于MEL频率CEPSTRAL系数（MFCC）功能的LSTM具有最高的精度（89％），其灵敏度和特异性分别为89％和89％，其结果通过提议的模型获得了显着改善，这表明该结果显着改善与艺术状态获得的结果相比，COVID-19诊断的预测准确性。结论：深度学习可以检测到199例患者的声音中的细微变化，并有令人鼓舞的结果。作为当前测试技术的补充，该模型可以使用简单的语音分析帮助卫生专业人员快速诊断和追踪Covid-19案例

translated by 谷歌翻译

Designing a natural voice interface rely mostly on Speech recognition for interaction between human and their modern digital life equipment. In addition, speech recognition narrows the gap between monolingual individuals to better exchange communication. However, the field lacks wide support for several universal languages and their dialects, while most of the daily conversations are carried out using them. This paper comes to inspect the viability of designing an Automatic Speech Recognition model for the Sudanese dialect, which is one of the Arabic Language dialects, and its complexity is a product of historical and social conditions unique to its speakers. This condition is reflected in both the form and content of the dialect, so this paper gives an overview of the Sudanese dialect and the tasks of collecting represented resources and pre-processing performed to construct a modest dataset to overcome the lack of annotated data. Also proposed end- to-end speech recognition model, the design of the model was formed using Convolution Neural Networks. The Sudanese dialect dataset would be a stepping stone to enable future Natural Language Processing research targeting the dialect. The designed model provided some insights into the current recognition task and reached an average Label Error Rate of 73.67%.

translated by 谷歌翻译

语言的视觉基础旨在用多种视觉知识来源（例如图像和视频）丰富语言表示。尽管视觉接地是一个深入研究的领域，但视觉接地的语言方面并没有得到太多关注。本研究调查了单词嵌入的语法视觉基础。我们在两个视觉和语言空间之间提出了一种隐式对齐技术，其中语言之间的文本信息相互作用以丰富预训练的文本单词嵌入。我们专注于实验中的三种语言，即英语，阿拉伯语和德语。我们获得了这些语言的视觉接地矢量表示形式，并研究了一种或多种语言的视觉接地是否改善了嵌入在单词相似性和分类基准上的嵌入性能。我们的实验表明，语法知识可以改善类似语言（例如德语和英语）的扎根嵌入性能。但是，德语或英语用阿拉伯语的语言基础导致单词相似性基准的性能略有降解。另一方面，我们观察到了分类基准的相反趋势，而阿拉伯语对英语的进步最大。在讨论部分中，提出了这些发现的几个原因。我们希望我们的实验为进一步研究的基线提供了有关语法间视觉接地的基准。

translated by 谷歌翻译

Masader（Alyafeai等，2021）创建了一种元数据结构，用于分类阿拉伯NLP数据集。但是，开发一种简单的方法来探索这种目录是一项艰巨的任务。为了为探索目录的用户和研究人员提供最佳体验，必须解决一些设计和用户体验的挑战。此外，用户与网站的交互可能提供了一种简单的方法来改善目录。在本文中，我们介绍了Masader Plus，该网络接口供用户浏览masader。我们演示了数据探索，过滤和简单的API，该API允许用户从后端检查数据集。可以使用此链接https://arbml.github.io/masader探索masader plus。可以在此处找到的视频录制说明界面的录制https://www.youtube.com/watch?v=setDlseqchk。

translated by 谷歌翻译