智能论文笔记

Wake-Cough: cough spotting and cougher identification for personalised long-term cough monitoring

Madhurananda Pahar , Marisa Klopper , Byron Reeve , Rob Warren , Grant Theron , Andreas Diacon , Thomas Niesler

分类：机器学习

2021-10-07

我们提出“唤醒咳嗽”，这是使用resnet50咳嗽到咳嗽的应用，并使用i-vectors识别咳嗽者，以实现长期的个性化咳嗽监测系统。咳嗽记录在一个安静（73 $ \ pm $ 5 dB）和嘈杂（34 $ \ pm $ 17 dB）环境中，用于提取I-向量，X-向量和D-向量，用作分类器的功能。当使用MLP使用2-SEC长咳嗽片段在嘈杂的环境中使用MLP区分51个咳嗽者时，该系统可以达到90.02 \％的精度。当在安静环境中使用更长（100秒）段的5和14个咳嗽者区分5至14个咳嗽者时，这种准确性分别提高到99.78％和98.39％。与语音不同，I-向量在识别咳嗽者方面的表现优于X-向量和D-向量。这些咳嗽是在Google语音命令数据集中添加的额外类，并通过在触发短语中保存端到端的时间域信息来提取功能。使用RESNET50在35个其他触发短语中发现咳嗽时，达到了88.58％的最高精度。因此，Wake咳嗽代表了一个个性化的，非侵入性的咳嗽监测系统，该系统的功率有效，因为在设备上的唤醒词检测可以使基于智能手机的监视设备大多处于休眠状态。这使伴尾咳嗽在多床病房环境中极具吸引力，以监测患者从肺部疾病（例如结核病（TB）和Covid-19）中的长期恢复。

translated by 谷歌翻译

Automatic Tuberculosis and COVID-19 cough classification using deep learning

Madhurananda Pahar , Marisa Klopper , Byron Reeve , Rob Warren , Grant Theron , Andreas Diacon , Thomas Niesler

分类：机器学习

2022-05-11

我们提出了一个基于深度学习的自动咳嗽分类器，可以区分结核病（TB）与Covid-19咳嗽和健康咳嗽。 TB和Covid-19都是呼吸道疾病，具有传染性，咳嗽是一种主要的症状，每年夺走了数千人的生命。在室内和室外设置都收集了咳嗽的录音，并使用来自全球各地受试者的智能手机上传，因此包含各种噪声。该咳嗽数据包括1.68小时的结核病咳嗽，18.54分钟的咳嗽，咳嗽和1.69小时的健康咳嗽，47例TB患者，229例Covid-19患者和1498例健康患者，并用于培训和评估CNN，LSTM和Resnet505050 。这三个深度体系结构在2.14小时的打喷嚏，2.91小时的语音和2.79小时的噪音中也进行了预训练，以提高性能。通过使用SMOTE数据平衡技术并使用诸如F1得分和AUC之类的性能指标来解决我们数据集中的类不平衡。我们的研究表明，从预先训练的RESNET50中获得了最高的0.9259和0.8631的F1分数，两级（TB与CoVID-19）和三级（TB VS VS COVID-19与健康）的咳嗽分类，咳嗽分类，，咳嗽分类任务，三级（TB vs vs covid-19）分别。深度转移学习的应用改善了分类器的性能，并使它们更加坚固，因为它们在交叉验证折叠上更好地概括了。他们的表现超过了世界卫生组织（WHO）设定的结核病分类测试要求。产生最佳性能的功能包含MFCC的高阶，这表明人耳朵无法感知结核病和COVID-19之间的差异。这种类型的咳嗽音频分类是非接触，具有成本效益的，并且可以轻松地部署在智能手机上，因此它可以成为TB和COVID-19筛查的绝佳工具。

translated by 谷歌翻译

Machine Learning for Stuttering Identification: Review, Challenges and Future Directions

Shakeel Ahmad Sheikh , Md Sahidullah , Fabrice Hirsch , Slim Ouni

分类：机器学习

2021-07-08

口吃是一种言语障碍，在此期间，语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题，涉及病理学，心理学，声学和信号处理，使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域，但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中，我们回顾了全面的声学特征，基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。

translated by 谷歌翻译

X-vectors: Robust dnn embeddings for speaker recognition

分类：

In this paper, we use data augmentation to improve performance of deep neural network (DNN) embeddings for speaker recognition. The DNN, which is trained to discriminate between speakers, maps variable-length utterances to fixed-dimensional embeddings that we call x-vectors. Prior studies have found that embeddings leverage large-scale training datasets better than i-vectors. However, it can be challenging to collect substantial quantities of labeled data for training. We use data augmentation, consisting of added noise and reverberation, as an inexpensive method to multiply the amount of training data and improve robustness. The x-vectors are compared with i-vector baselines on Speakers in the Wild and NIST SRE 2016 Cantonese. We find that while augmentation is beneficial in the PLDA classifier, it is not helpful in the i-vector extractor. However, the x-vector DNN effectively exploits data augmentation, due to its supervised training. As a result, the x-vectors achieve superior performance on the evaluation datasets.

translated by 谷歌翻译

Automatic COVID-19 disease diagnosis using 1D convolutional neural network and augmentation with human respiratory sound based on parameters: cough, breath, and voice

Kranthi Kumar Lella , Alphonse Pja

分类：机器学习

2021-12-14

呼吸声分类中的问题已在去年的临床科学家和医学研究员团体中获得了良好的关注，以诊断Covid-19疾病。迄今为止，各种模型的人工智能（AI）进入了现实世界，从人类生成的声音等人生成的声音中检测了Covid-19疾病，例如语音/言语，咳嗽和呼吸。实现卷积神经网络（CNN）模型，用于解决基于人工智能（AI）的机器上的许多真实世界问题。在这种情况下，建议并实施一个维度（1D）CNN，以诊断Covid-19的呼吸系统疾病，例如语音，咳嗽和呼吸。应用基于增强的机制来改善Covid-19声音数据集的预处理性能，并使用1D卷积网络自动化Covid-19疾病诊断。此外，使用DDAE（数据去噪自动编码器）技术来产生诸如输入功能的深声特征，而不是采用MFCC（MEL频率跳跃系数）的标准输入，并且它更好地执行比以前的型号的准确性和性能。

translated by 谷歌翻译

Multi-user VoiceFilter-Lite via Attentive Speaker Embedding

Rajeev Rikhye , Quan Wang , Qiao Liang , Yanzhang He , Ian McGraw

分类：机器学习

2021-07-02

在本文中，我们提出了一种解决方案，以允许扬声器条件语音模型，例如VoiceFilter-Lite，以支持单个通过中的任意数量的注册用户。这是通过使用多个扬声器嵌入的注意机制来实现，以计算单个细小嵌入，然后将其用作模型的侧面输入。我们实现了多用户VoiceFilter-Lite并为三个任务进行了评估：（1）流自动语音识别（ASR）任务; （2）独立于文本的扬声器验证任务; （3）个性化关键级检测任务，其中ASR必须在嘈杂的环境中检测来自多个注册用户的关键次数。我们的实验表明，在最多四个注册的用户中，多用户VoiceFilter-Lite能够在具有重叠语音时显着降低语音识别和扬声器验证错误，而不会影响其他声学条件下的性能。这种细心的扬声器嵌入方法也可以轻松应用于其他扬声器条件模型，如个人VAD和个性化ASR。

translated by 谷歌翻译

ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications

Juan Zuluaga-Gomez , Karel Veselý , Igor Szöke , Petr Motlicek , Martin Kocour , Mickael Rigault , Khalid Choukri , Amrutha Prasad , Seyyed Saeed Sarfjoo , Iuliia Nigmatulina

分类：自然语言处理 | 人工智能

2022-11-08

Personal assistants, automatic speech recognizers and dialogue understanding systems are becoming more critical in our interconnected digital world. A clear example is air traffic control (ATC) communications. ATC aims at guiding aircraft and controlling the airspace in a safe and optimal manner. These voice-based dialogues are carried between an air traffic controller (ATCO) and pilots via very-high frequency radio channels. In order to incorporate these novel technologies into ATC (low-resource domain), large-scale annotated datasets are required to develop the data-driven AI systems. Two examples are automatic speech recognition (ASR) and natural language understanding (NLU). In this paper, we introduce the ATCO2 corpus, a dataset that aims at fostering research on the challenging ATC field, which has lagged behind due to lack of annotated data. The ATCO2 corpus covers 1) data collection and pre-processing, 2) pseudo-annotations of speech data, and 3) extraction of ATC-related named entities. The ATCO2 corpus is split into three subsets. 1) ATCO2-test-set corpus contains 4 hours of ATC speech with manual transcripts and a subset with gold annotations for named-entity recognition (callsign, command, value). 2) The ATCO2-PL-set corpus consists of 5281 hours of unlabeled ATC data enriched with automatic transcripts from an in-domain speech recognizer, contextual information, speaker turn information, signal-to-noise ratio estimate and English language detection score per sample. Both available for purchase through ELDA at http://catalog.elra.info/en-us/repository/browse/ELRA-S0484. 3) The ATCO2-test-set-1h corpus is a one-hour subset from the original test set corpus, that we are offering for free at https://www.atco2.org/data. We expect the ATCO2 corpus will foster research on robust ASR and NLU not only in the field of ATC communications but also in the general research community.

translated by 谷歌翻译

End-to-end Alexa Device Arbitration

Jarred Barber , Yifeng Fan , Tao Zhang

分类：机器学习

2021-12-08

我们介绍了扬声器本地化问题的变种，我们呼叫设备仲裁。在设备仲裁问题中，用户将由多个分布式麦克风阵列（智能家居设备）检测到的关键字，并且我们希望确定哪个设备最接近用户。我们提出了一个端到端机器学习系统而不是解决完整的本地化问题。该系统了解在每个设备上独立计算的功能嵌入。然后，每个设备的嵌入式聚合在一起以产生最终的仲裁决策。我们使用大规模的房间模拟来生成培训和评估数据，并将系统与信号处理基线进行比较。

translated by 谷歌翻译

PTSD in the Wild: A Video Database for Studying Post-Traumatic Stress Disorder Recognition in Unconstrained Environments

Moctar Abdoul Latif Sawadogo , Furkan Pala , Gurkirat Singh , Imen Selmi , Pauline Puteaux , Alice Othmani

分类：计算机视觉 | 机器学习

2022-09-28

创伤后应激障碍（PTSD）是一种长期衰弱的精神状况，是针对灾难性生活事件（例如军事战斗，性侵犯和自然灾害）而发展的。 PTSD的特征是过去的创伤事件，侵入性思想，噩梦，过度维护和睡眠障碍的闪回，所有这些都会影响一个人的生活，并导致相当大的社会，职业和人际关系障碍。 PTSD的诊断是由医学专业人员使用精神障碍诊断和统计手册（DSM）中定义的PTSD症状的自我评估问卷进行的。在本文中，这是我们第一次收集，注释并为公共发行准备了一个新的视频数据库，用于自动PTSD诊断，在野生数据集中称为PTSD。该数据库在采集条件下表现出“自然”和巨大的差异，面部表达，照明，聚焦，分辨率，年龄，性别，种族，遮挡和背景。除了描述数据集集合的详细信息外，我们还提供了评估野生数据集中PTSD的基于计算机视觉和机器学习方法的基准。此外，我们建议并评估基于深度学习的PTSD检测方法。提出的方法显示出非常有希望的结果。有兴趣的研究人员可以从：http：//www.lissi.fr/ptsd-dataset/下载PTSD-in-wild数据集的副本

translated by 谷歌翻译

COVYT: Introducing the Coronavirus YouTube and TikTok speech dataset featuring the same speakers with and without infection

Andreas Triantafyllopoulos , Anastasia Semertzidou , Meishu Song , Florian B. Pokorny , Björn W. Schuller

分类：机器学习

2022-06-20

爆发两年多后，Covid-19的大流行继续困扰世界各地的医疗系统，给稀缺资源带来压力，并夺走了人类的生命。从一开始，已经采用了各种基于AI的CoVID-19检测和监测工具，以试图通过及时诊断来阻止感染的潮流。特别是，已经建议计算机试听是一种非侵入性，成本效益和环保的替代方法，可通过声音通过声音来检测COVID-19的感染。但是，像所有AI方法一样，计算机试镜也很大程度上取决于可用数据的数量和质量，并且由于此类数据的敏感性，大规模的COVID-19声音数据集很难获取 - 除其他原因外。为此，我们介绍了COVYT数据集 - 一种新颖的Covid-19数据集，该数据集是从包含来自65位演讲者的8个小时以上语音的公共资源中收集的。与其他现有的COVID-19声音数据集相比，COVYT数据集的独特功能是，它包括所有65位扬声器的covid-19正和负样本。我们使用可解释的音频描述来分析Covid-19的声学表现，并使用可解释的音频描述，并研究几种分类场景，并调查一些分类场景，以将基于公平的言语的COVID进行适当的分配策略-19检测。

translated by 谷歌翻译

KSoF: The Kassel State of Fluency Dataset -- A Therapy Centered Dataset of Stuttering

Sebastian P. Bayerl , Alexander Wolff von Gudenberg , Florian Hönig , Elmar Nöth , Korbinian Riedhammer

分类：自然语言处理

2022-03-10

口吃是一种复杂的言语障碍，会对个人有效沟通的能力产生负面影响。口吃（PWS）的人通常在这种情况下遭受很大的痛苦，并通过治疗寻求帮助。流利的塑形是一种治疗方法，PWSS学会修改他们的语音以帮助他们克服口吃。即使在治疗后，掌握这种语音技术也需要时间和练习。治疗后不久，对成功的评估很高，但复发率很高。为了能够长期监视语音行为，检测口吃事件和语音修改的能力可以帮助PWSS和语音病理学家跟踪流利程度。监测可以通过检测流利度的失误来提早进行干预的能力。据我们所知，没有公共数据集可用，其中包含接受口吃疗法的人的演讲，这些疗法改变了口语风格。这项工作介绍了Kassel Fluency（KSOF），这是一项基于疗法的数据集，其中包含超过5500个PWSS。这些剪辑标记为六种与口吃相关的事件类型：块，延长，声音重复，单词重复，插入和 - 特定于治疗 - 语音修改。音频是在Kasseler Stottertherapie研究所期间记录的。该数据将根据要求提供用于研究目的。

translated by 谷歌翻译

Developing a multi-variate prediction model for the detection of COVID-19 from Crowd-sourced Respiratory Voice Data

Wafaa Aljbawi , Sami O. Simmons , Visara Urovi

分类：机器学习

2022-09-08

Covid-19在全球范围内影响了223多个国家。迫切需要非侵入性，低成本和高度可扩展的解决方案来检测COVID-19，尤其是在PCR测试无普遍可用的低资源国家。我们的目的是开发一个深度学习模型，使用普通人群（语音录音和简短问卷）通过其个人设备自发提供的语音数据记录来识别Covid-19。这项工作的新颖性在于开发一个深度学习模型，以鉴定来自语音记录的199名患者。方法：我们使用了由893个音频样本组成的剑桥大学数据集，该数据集由4352名参与者的人群来源，这些参与者使用了COVID-19 Sounds应用程序。使用MEL光谱分析提取语音功能。根据语音数据，我们开发了深度学习分类模型，以检测阳性的Covid-19情况。这些模型包括长期术语记忆（LSTM）和卷积神经网络（CNN）。我们将它们的预测能力与基线分类模型进行了比较，即逻辑回归和支持向量机。结果：基于MEL频率CEPSTRAL系数（MFCC）功能的LSTM具有最高的精度（89％），其灵敏度和特异性分别为89％和89％，其结果通过提议的模型获得了显着改善，这表明该结果显着改善与艺术状态获得的结果相比，COVID-19诊断的预测准确性。结论：深度学习可以检测到199例患者的声音中的细微变化，并有令人鼓舞的结果。作为当前测试技术的补充，该模型可以使用简单的语音分析帮助卫生专业人员快速诊断和追踪Covid-19案例

translated by 谷歌翻译

A Multi-tasking Model of Speaker-Keyword Classification for Keeping Human in the Loop of Drone-assisted Inspection

Yu Li , Anisha Parsan , Bill Wang , Penghao Dong , Shanshan Yao , Ruwen Qin

分类：人工智能

2022-07-08

音频命令是一种首选的沟通媒介，可将检查员保持在半自治无人机进行的民用基础设施检查环境中。为了了解一组异质和动态检查员的特定工作命令，需要为小组成本开发一个模型，并在组更改时很容易适应。本文的动机是建立一个具有股票分布的架构的多任务深度学习模型。该体系结构允许两个分类任务共享功能提取器，然后通过功能投影和协作培训在提取功能中交织在一起的特定主题和关键字特定功能。一组五个授权主题的基本模型对本研究收集的检查关键字数据集进行了培训和测试。该模型在分类任何授权检查员的关键字时达到了95.3％或更高的平均准确性。它在扬声器分类中的平均准确性为99.2％。由于该模型从合并的培训数据中学习的更丰富的关键字表示，因此将基本模型调整为新检查员只需要该检查员的少量培训数据，例如每个关键字五个话语。在验证授权检查员和76.1 \％的检测中，使用说话者分类分数进行检查员验证可以达到至少93.9％的成功率。此外，本文展示了所提出的模型对公共数据集上的大型组的适用性。本文为解决AI辅助人类机器人互动面临的挑战提供了解决方案，包括工人异质性，工人动态和工作异质性。

translated by 谷歌翻译

Going Beyond the Cookie Theft Picture Test: Detecting Cognitive Impairments using Acoustic Features

Franziska Braun , Andreas Erzigkeit , Hartmut Lehfeld , Thomas Hillemacher , Korbinian Riedhammer , Sebastian P. Bayerl

分类：自然语言处理

2022-06-10

标准化测试在检测认知障碍中起着至关重要的作用。先前的工作表明，使用标准化图片描述任务中的音频数据可以自动检测认知障碍。提出的研究超出了这一点，评估了我们对来自两个标准化神经心理学测试的数据，即德国SKT和德国版本的CERAD-NB，以及患者与心理学家之间的半结构化临床访谈。对于测试，我们关注三个子测试的语音记录：阅读数字（SKT 3），干扰（SKT 7）和口头流利度（Cerad-NB 1）。我们表明，标准化测试的声学特征可用于可靠地区分非受损的人的认知受损个体。此外，我们提供的证据表明，即使是从访谈的随机语音样本中提取的特征也可能是认知障碍的歧视者。在我们的基线实验中，我们使用开米的功能和支持向量机分类器。在改进的设置中，我们表明使用WAV2VEC 2.0功能，我们可以达到高达85％的精度。

translated by 谷歌翻译

Project Achoo: A Practical Model and Application for COVID-19 Detection from Recordings of Breath, Voice, and Cough

Alexander Ponomarchuk , Ilya Burenko , Elian Malkin , Ivan Nazarov , Vladimir Kokh , Manvel Avetisian , Leonid Zhukov

分类：机器学习

2021-07-12

Covid-19大流行为感染检测和监测解决方案产生了重大的兴趣和需求。在本文中，我们提出了一种机器学习方法，可以使用在消费者设备上进行的录音来快速分离Covid-19。该方法将信号处理方法与微调深层学习网络相结合，提供了信号去噪，咳嗽检测和分类的方法。我们还开发并部署了一个移动应用程序，使用症状检查器与语音，呼吸和咳嗽信号一起使用，以检测Covid-19感染。该应用程序对两个开放的数据集和最终用户在测试版测试期间收集的嘈杂数据显示了鲁棒性能。

translated by 谷歌翻译

Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings

Naoyuki Kanda , Jian Wu , Yu Wu , Xiong Xiao , Zhong Meng , Xiaofei Wang , Yashesh Gaur , Zhuo Chen , Jinyu Li , Takuya Yoshioka

分类：自然语言处理

2022-03-30

本文介绍了流式扬声器的自动语音识别（SA-ASR）模型，该模型可以识别``即使多个人同时讲话，谁说'谁说什么”。我们的模型基于令牌级的序列化输出培训（T-SOT），该培训最近提议以流媒体方式转录多对词的演讲。为了进一步认识说话者的身份，我们提出了一个基于编码器的扬声器嵌入提取器，该扬声器可以估算每个公认的代币的说话者表示，不仅是从非重叠的语音中，而且还来自重叠的语音。所提出的扬声器嵌入为T-vector，与T-SOT ASR模型同步提取，从而可以通过低潜伏期的多词器转录来联合执行说话者识别（SID）或说话者诊断（SD）。我们通过使用LibrisPeechMix和Libralics Corpora评估了ASR和SID/SD联合任务的建议模型。所提出的模型比以前的流媒体模型获得了更高的准确性，并且与最新的离线SA-ASR模型显示出可比甚至更高的结果。

translated by 谷歌翻译

Overlapped speech and gender detection with WavLM pre-trained features

Martin Lebourdais , Marie Tahon , Antoine Laurent , Sylvain Meignier

分类：人工智能

2022-09-09

本文重点介绍了重叠的语音和性别检测，以研究法国视听媒体中男女之间的互动（性别平等监测项目）。在这种应用程序上下文中，我们需要根据说话者的性别自动划分语音信号，并确定至少有两个说话者同时讲话。我们建议使用WAVLM模型，该模型具有在大量语音数据上进行预训练的优点，以构建重叠的语音检测（OSD）和性别检测（GD）系统。在这项研究中，我们使用两个不同的语料库。 Dihard III语料库非常适合OSD任务，但缺乏性别信息。盟友语料库符合项目申请上下文。我们最好的OSD系统是具有WAVLM预训练功能作为输入的时间卷积网络（TCN），该功能达到了Dihard上最先进的F1得分性能。神经GD在法国广播新闻盟友数据的性别平衡子集上接受了WAVLM输入的培训，并获得了97.9％的准确性。这项工作为人类科学研究人员开辟了有关法国媒体中男女表示差异的新观点。

translated by 谷歌翻译

IndicSUPERB: A Speech Processing Universal Performance Benchmark for Indian languages

Tahir Javed , Kaushal Santosh Bhogale , Abhigyan Raman , Anoop Kunchukuttan , Pratyush Kumar , Mitesh M. Khapra

分类：自然语言处理

2022-08-24

AI研究中的基石是创建和采用标准化培训和测试数据集，以指定最新模型的进度。一个特别成功的例子是用于培训和评估英语自然语言理解（NLU）模型的胶水数据集。围绕基于BERT的语言模型的大量研究围绕着胶水中NLU任务的性能改进。为了评估其他语言的语言模型，创建了几个特定语言的胶水数据集。语音语言理解（SLU）的领域遵循了类似的轨迹。大型自我监督模型（例如WAV2VEC2）的成功实现了具有相对易于访问的未标记数据的语音模型。然后可以在SLU任务（例如出色的基准测试）上评估这些模型。在这项工作中，我们将其扩展到通过释放Indicsuperb基准测试来指示语言。具体来说，我们做出以下三项贡献。（i）我们收集了Kathbath，其中包含来自印度203个地区的1,218个贡献者的12个印度语言的1,684小时的标记语音数据。（ii）使用Kathbath，我们在6个语音任务中创建基准：自动语音识别，扬声器验证，说话者识别（单声道/多），语言识别，逐个示例查询以及对12种语言的关键字发现。（iii）在发布的基准测试中，我们与常用的基线Fbank一起训练和评估不同的自我监督模型。我们表明，在大多数任务上，特定于语言的微调模型比基线更准确，包括对于语言识别任务的76 \％差距。但是，对于说话者识别，在大型数据集上训练的自我监督模型证明了一个优势。我们希望Indicsuperb有助于发展印度语言的语音语言理解模型的进步。

translated by 谷歌翻译

Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition

Amrutha Prasad , Juan Zuluaga-Gomez , Petr Motlicek , Saeed Sarfjoo , Iuliia Nigmatulina , Oliver Ohneiser , Hartmut Helmke

分类：自然语言处理 | 机器学习

2021-08-27

Automatic Speech Recognition (ASR) for air traffic control is generally trained by pooling Air Traffic Controller (ATCO) and pilot data into one set. This is motivated by the fact that pilot's voice communications are more scarce than ATCOs. Due to this data imbalance and other reasons (e.g., varying acoustic conditions), the speech from ATCOs is usually recognized more accurately than from pilots. Automatically identifying the speaker roles is a challenging task, especially in the case of the noisy voice recordings collected using Very High Frequency (VHF) receivers or due to the unavailability of the push-to-talk (PTT) signal, i.e., both audio channels are mixed. In this work, we propose to (1) automatically segment the ATCO and pilot data based on an intuitive approach exploiting ASR transcripts and (2) subsequently consider an automatic recognition of ATCOs' and pilots' voice as two separate tasks. Our work is performed on VHF audio data with high noise levels, i.e., signal-to-noise (SNR) ratios below 15 dB, as this data is recognized to be helpful for various speech-based machine-learning tasks. Specifically, for the speaker role identification task, the module is represented by a simple yet efficient knowledge-based system exploiting a grammar defined by the International Civil Aviation Organization (ICAO). The system accepts text as the input, either manually verified annotations or automatically generated transcripts. The developed approach provides an average accuracy in speaker role identification of about 83%. Finally, we show that training an acoustic model for ASR tasks separately (i.e., separate models for ATCOs and pilots) or using a multitask approach is well suited for the noisy data and outperforms the traditional ASR system where all data is pooled together.

translated by 谷歌翻译

Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition

Yuan Gong , Jin Yu , James Glass

分类：机器学习

2022-05-06

识别人类非语音发声是一项重要的任务，并且具有广泛的应用，例如自动音频转录和健康状况监测。但是，现有数据集具有相对少量的声音样本或嘈杂的标签。结果，最先进的音频事件分类模型在检测人声音方面的表现可能不佳。为了支持建立强大而准确的声音识别的研究，我们创建了一个人声数据集，该数据集由21,000多个众包笑声，叹息，咳嗽，喉咙清理，打喷嚏和嗅探组成，来自3,365个独特的主题。实验表明，通过将人声数据集添加到现有数据集中作为培训材料，模型的人声识别性能可以显着提高41.9％。此外，与以前的数据集不同，人声数据集包含元信息，例如说话者年龄，性别，母语，国家和健康状况。

translated by 谷歌翻译