这项工作的目的是研究互补的特征,这些特征可以帮助典型的MEL频率经系系数(MFCC),以封闭,有限的set set Word识别为不同母亲说话的英语说话者。与源自语音信号的光谱能量的MFCC不同,提议的频率饮食(FCS)封装了语音光谱不同带的光谱中心,由MEL FILLEC BANK定义。观察到这些功能与MFCC结合使用,可提供英语单词识别的相对性能提高,尤其是在各种嘈杂条件下。两阶段的卷积神经网络(CNN)用于模拟用阿拉伯语,法语和西班牙口音说出的英语单词的特征。
translated by 谷歌翻译
音频是人类交流最常用的方式之一,但与此同时,它很容易被欺骗人们滥用。随着AI的革命,几乎每个人都可以访问相关技术,从而使罪犯犯罪和伪造变得简单。在这项工作中,我们引入了一种深度学习方法,以开发一种分类器,该分类器将盲目地将输入音频分类为真实或模仿。提出的模型接受了从大型音频数据集提取的一组重要功能的培训,以获取分类器,该分类器已在不同音频的相同功能上进行了测试。为这项工作创建了两个数据集;所有英语数据集和混合数据集(阿拉伯语和英语)。这些数据集已通过GitHub提供,可在https://github.com/sass7/dataset上使用研究社区。为了进行比较,还通过人类检查对音频进行了分类,主题是母语人士。随之而来的结果很有趣,并且表现出强大的精度。
translated by 谷歌翻译
以前的研究已经证实了利用明晰度信息达到改善的语音增强(SE)性能的有效性。通过使用铰接特征的地点/方式增强原始声学特征,可以引导SE过程考虑执行增强时输入语音的剖视特性。因此,我们认为关节属性的上下文信息应包括有用的信息,并可以进一步利用不同的语言。在这项研究中,我们提出了一个SE系统,通过优化英语和普通话的增强演讲中的上下文清晰度信息来提高其性能。我们通过联合列车与端到端的自动语音识别(E2E ASR)模型进行联合列车,预测广播序列(BPC)而不是单词序列的序列。同时,开发了两种培训策略,以基于基于BPC的ASR:多任务学习和深度特征培训策略来培训SE系统。 Timit和TMhint DataSet上的实验结果证实了上下文化学信息促进了SE系统,以实现比传统声学模型(AM)更好的结果。此外,与用单声道ASR培训的另一SE系统相比,基于BPC的ASR(提供上下文化学信息)可以在不同的信噪比(SNR)下更有效地改善SE性能。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
The transition angles are defined to describe the vowel-to-vowel transitions in the acoustic space of the Spectral Subband Centroids, and the findings show that they are similar among speakers and speaking rates. In this paper, we propose to investigate the usage of polar coordinates in favor of angles to describe a speech signal by characterizing its acoustic trajectory and using them in Automatic Speech Recognition. According to the experimental results evaluated on the BRAF100 dataset, the polar coordinates achieved significantly higher accuracy than the angles in the mixed and cross-gender speech recognitions, demonstrating that these representations are superior at defining the acoustic trajectory of the speech signal. Furthermore, the accuracy was significantly improved when they were utilized with their first and second-order derivatives ($\Delta$, $\Delta$$\Delta$), especially in cross-female recognition. However, the results showed they were not much more gender-independent than the conventional Mel-frequency Cepstral Coefficients (MFCCs).
translated by 谷歌翻译
自动扬声器识别算法通常使用预定义的过滤库,例如MEL频率和伽马酮滤波器,以表征语音音频。但是,已经观察到使用这些滤纸提取的功能对各种音频降解没有弹性。在这项工作中,我们提出了一种基于学习的技术,以从大量的语音音频中推断出滤纸设计。这种过滤库的目的是提取特征在非理想的音频条件下(例如退化,持续时间短和多语言语音)的功能。为此,1D卷积神经网络旨在直接从原始的语音音频中学习一个名为deepvox的时间域滤纸。其次,开发了一种自适应三重态挖掘技术,以有效地挖掘最适合训练过滤器的数据样本。第三,对DeepVox FilterBanks进行的详细消融研究揭示了提取特征中的声源和声带特征的存在。 Voxceleb2,NIST SRE 2008、2010和2018和Fisher Speech数据集的实验结果证明了DeepVox特征在各种退化,短期和多语言语音中的功效。 DeepVox的功能还显示出可提高现有说话者识别算法的性能,例如XVECTOR-PLDA和IVECTOR-PLDA。
translated by 谷歌翻译
在本文中,我们首先提供了述评最先进的情感语音转换研究以及现有的情绪语音数据库。然后,我们激励开发一种新颖的情绪语音数据库(ESD),这些数据库(ESD)解决了越来越多的研究需求。借鉴了本文,现在可以向研究界提供ESD数据库。ESD数据库由10名母语和10个母语的扬声器发表的350个平行话语组成,涵盖5个情感类别(中性,快乐,愤怒,悲伤和惊喜)。在受控的声学环境中记录了超过29小时的语音数据。该数据库适用于多扬声器和交叉语言情绪转换研究。如案例研究,我们在ESD数据库上实施了几种最先进的情绪转换系统。本文在释放释放时提供了对ESD的参考研究。
translated by 谷歌翻译
Automatic Speech Recognition (ASR) for air traffic control is generally trained by pooling Air Traffic Controller (ATCO) and pilot data into one set. This is motivated by the fact that pilot's voice communications are more scarce than ATCOs. Due to this data imbalance and other reasons (e.g., varying acoustic conditions), the speech from ATCOs is usually recognized more accurately than from pilots. Automatically identifying the speaker roles is a challenging task, especially in the case of the noisy voice recordings collected using Very High Frequency (VHF) receivers or due to the unavailability of the push-to-talk (PTT) signal, i.e., both audio channels are mixed. In this work, we propose to (1) automatically segment the ATCO and pilot data based on an intuitive approach exploiting ASR transcripts and (2) subsequently consider an automatic recognition of ATCOs' and pilots' voice as two separate tasks. Our work is performed on VHF audio data with high noise levels, i.e., signal-to-noise (SNR) ratios below 15 dB, as this data is recognized to be helpful for various speech-based machine-learning tasks. Specifically, for the speaker role identification task, the module is represented by a simple yet efficient knowledge-based system exploiting a grammar defined by the International Civil Aviation Organization (ICAO). The system accepts text as the input, either manually verified annotations or automatically generated transcripts. The developed approach provides an average accuracy in speaker role identification of about 83%. Finally, we show that training an acoustic model for ASR tasks separately (i.e., separate models for ATCOs and pilots) or using a multitask approach is well suited for the noisy data and outperforms the traditional ASR system where all data is pooled together.
translated by 谷歌翻译
本文介绍了一种无监督的基于分段的稳健语音活动检测方法(RVAD)。该方法包括两个去噪之后的传递,然后是语音活动检测(VAD)阶段。在第一通道中,通过使用后验信噪比(SNR)加权能量差来检测语音信号中的高能段,并且如果在段内没有检测到间距,则该段被认为是高能量噪声段并设置为零。在第二种通过中,语音信号由语音增强方法进行去噪,探索了几种方法。接下来,具有间距的相邻帧被分组在一起以形成音调段,并且基于语音统计,俯仰段进一步从两端延伸,以便包括浊音和发声声音和可能的非语音部分。最后,将后验SNR加权能量差应用于用于检测语音活动的去噪语音信号的扩展桨距片段。我们使用两个数据库,大鼠和极光-2评估所提出的方法的VAD性能,该方法包含大量噪声条件。在扬声器验证性能方面进一步评估RVAD方法,在Reddots 2016挑战数据库及其噪声损坏版本方面。实验结果表明,RVAD与许多现有方法有利地比较。此外,我们介绍了一种修改版的RVAD,其中通过计算有效的光谱平坦度计算替换计算密集的俯仰提取。修改的版本显着降低了适度较低的VAD性能成本的计算复杂性,这是在处理大量数据并在低资源设备上运行时的优势。 RVAD的源代码被公开可用。
translated by 谷歌翻译
视频到语音是从口语说话视频中重建音频演讲的过程。此任务的先前方法依赖于两个步骤的过程,该过程从视频中推断出中间表示,然后使用Vocoder或波形重建算法将中间表示形式解码为波形音频。在这项工作中,我们提出了一个基于生成对抗网络(GAN)的新的端到端视频到语音模型,该模型将口语视频转换为波形端到端,而无需使用任何中间表示或单独的波形合成算法。我们的模型由一个编码器架构组成,该体系结构接收原始视频作为输入并生成语音,然后将其馈送到波形评论家和权力评论家。基于这两个批评家的对抗损失的使用可以直接综合原始音频波形并确保其现实主义。此外,我们的三个比较损失的使用有助于建立生成的音频和输入视频之间的直接对应关系。我们表明,该模型能够用诸如网格之类的受约束数据集重建语音,并且是第一个为LRW(野外唇读)生成可理解的语音的端到端模型,以数百名扬声器为特色。完全记录在“野外”。我们使用四个客观指标来评估两种不同的情况下生成的样本,这些客观指标衡量了人工语音的质量和清晰度。我们证明,所提出的方法在Grid和LRW上的大多数指标上都优于以前的所有作品。
translated by 谷歌翻译
扬声器日流是一个标签音频或视频录制的任务,与扬声器身份或短暂的任务标记对应于扬声器标识的类,以识别“谁谈到何时发表讲话”。在早期,对MultiSpeaker录音的语音识别开发了扬声器日益衰退算法,以使扬声器自适应处理能够实现扬声器自适应处理。这些算法还将自己的价值作为独立应用程序随着时间的推移,为诸如音频检索等下游任务提供特定于扬声器的核算。最近,随着深度学习技术的出现,这在讲话应用领域的研究和实践中引起了革命性的变化,对扬声器日益改善已经进行了快速进步。在本文中,我们不仅审查了扬声器日益改善技术的历史发展,而且还审查了神经扬声器日益改善方法的最新进步。此外,我们讨论了扬声器日复速度系统如何与语音识别应用相结合,以及最近深度学习的激增是如何引领联合建模这两个组件互相互补的方式。通过考虑这种令人兴奋的技术趋势,我们认为本文对社区提供了有价值的贡献,以通过巩固具有神经方法的最新发展,从而促进更有效的扬声器日益改善进一步进展。
translated by 谷歌翻译
尽管针对正常语音的自动语音识别(ASR)技术取得了迅速的进展,但迄今为止,准确认识违反障碍和老年语音仍然是高度挑战的任务。由于这些用户中经常发现的移动性问题,很难为ASR系统开发收集大量此类数据。为此,数据增强技术起着至关重要的作用。与现有的数据增强技术相反,仅修改光谱轮廓的说话速率或整体形状,使用一组新颖的扬声器依赖(SD)生成对抗网络(Gan )本文基于数据增强方法。这些既可以灵活地允许:a)在可用的语音数据可用时修改时间或速度的正常语音光谱,并更接近受损说话者的扬声器; b)对于非平行数据,SVD分解了正常语音频谱基础特征,要转换为目标老年人说话者的特征,然后再与时间基础重组以生成最先进的TDNN的增强数据和构象体ASR系统培训。实验是针对四个任务进行的:英语Uapseech和Torgo违反语音语音Corpora;英国痴呆症皮特和广东话JCCOCC MOCA老年语音数据集。所提出的基于GAN的数据增强方法始终优于基线速度扰动方法,最多可在Torgo和Dementiabank数据上降低4.91%和3.0%的绝对速度(相对相对9.61%和6.4%)。应用基于LHUC的扬声器适应后,保留了一致的性能改进。
translated by 谷歌翻译
在本文中,我们提出了一种解决方案,以允许扬声器条件语音模型,例如VoiceFilter-Lite,以支持单个通过中的任意数量的注册用户。这是通过使用多个扬声器嵌入的注意机制来实现,以计算单个细小嵌入,然后将其用作模型的侧面输入。我们实现了多用户VoiceFilter-Lite并为三个任务进行了评估:(1)流自动语音识别(ASR)任务; (2)独立于文本的扬声器验证任务; (3)个性化关键级检测任务,其中ASR必须在嘈杂的环境中检测来自多个注册用户的关键次数。我们的实验表明,在最多四个注册的用户中,多用户VoiceFilter-Lite能够在具有重叠语音时显着降低语音识别和扬声器验证错误,而不会影响其他声学条件下的性能。这种细心的扬声器嵌入方法也可以轻松应用于其他扬声器条件模型,如个人VAD和个性化ASR。
translated by 谷歌翻译
学习一种新语言涉及不断比较语音作品与环境的参考作品。在言语获取的早期,孩子们进行了发音调整以符合他们的看护人的言论。一种语言的成年学习者调整他们的演讲以匹配导师参考。本文提出了一种合成产生正确的发音反馈的方法。此外,我们的目标是在保持演讲者的原始声音的同时产生校正后的生产。该系统提示用户发音短语。记录语音,并用与不准确音素相关的样品用零掩盖。该波形是对语音生成器的输入,作为具有U-NET体系结构的深度学习介绍系统实现,并经过培训以输出重建的语音。该训练集由未损坏的适当语音示例组成,并且对发电机进行了训练以重建原始的适当语音。我们评估了系统的性能在音素替代英语以及发音障碍儿童的最小对单词方面的性能。结果表明,人类听众稍微偏爱我们产生的语音,而不是用不同的扬声器的生产来平滑地替换音素。
translated by 谷歌翻译
本文介绍了第一个致力于2020挑战的结果和分析,重点是开发语音技术的匿名解决方案。我们提供了对提交的系统和评估结果的分析,提供了挑战设计的系统概述。特别是,我们描述了用于系统开发和评估的语音匿名任务和数据集。此外,我们呈现不同的攻击模型和相关目标和主观评估指标。我们介绍了两个匿名化的基线,并提供了由挑战参与者开发的匿名化系统的摘要描述。我们向基线和提交的系统报告客观和主观评估结果。此外,我们提出了作为评估后分析的一部分开发的替代隐私度量和攻击模型的实验结果。最后,我们总结了我们的见解和观察,这将影响下一个语音普遍挑战版的设计和未来语音匿名化研究的某些方向。
translated by 谷歌翻译
我们为基于语义信息(称为ConceptBeam的语义信息)提出了一个新颖的框架。目标语音提取意味着在混合物中提取目标扬声器的语音。典型的方法一直在利用音频信号的性能,例如谐波结构和到达方向。相反,ConceptBeam通过语义线索解决了问题。具体来说,我们使用概念规范(例如图像或语音)提取说话者谈论概念的演讲,即感兴趣的主题。解决这个新颖的问题将为对话中讨论的特定主题等创新应用打开门。与关键字不同,概念是抽象的概念,使直接代表目标概念的挑战。在我们的方案中,通过将概念规范映射到共享的嵌入空间,将概念编码为语义嵌入。可以使用由图像及其口语字幕组成的配对数据进行深度度量学习来构建这种独立的空间。我们使用它来桥接模式依赖性信息,即混合物中的语音段以及指定的,无模式的概念。作为我们方案的证明,我们使用与口语标题相关的一组图像进行了实验。也就是说,我们从这些口语字幕中产生了语音混合物,并将图像或语音信号用作概念指定符。然后,我们使用已识别段的声学特征提取目标语音。我们将ConceptBeam与两种方法进行比较:一种基于从识别系统获得的关键字,另一个基于声音源分离。我们表明,概念束明显优于基线方法,并根据语义表示有效提取语音。
translated by 谷歌翻译
低资源语言的自动语音识别(ASR)改善了语言少数群体的访问,以便人工智能(AI)提供的技术优势。在本文中,我们通过创建一个新的粤语数据集来解决香港广东语言的数据稀缺问题。我们的数据集多域粤语语料库(MDCC)由73.6小时的清洁阅读语音与成绩单配对,从香港的粤语有声读物收集。它结合了哲学,政治,教育,文化,生活方式和家庭领域,涵盖了广泛的主题。我们还查看所有现有的粤语数据集,并在两个最大的数据集(MDCC和公共语音ZH-HK)上执行实验。我们根据其语音类型,数据源,总大小和可用性分析现有数据集。使用Fairseq S2T变压器,最先进的ASR模型进行实验结果,显示了我们数据集的有效性。此外,我们通过在MDCC和常见的声音ZH-HK上应用多数据集学习来创建一个强大而强大的粤语ASR模型。
translated by 谷歌翻译
Automatic speech recognition (ASR) meets more informal and free-form input data as voice user interfaces and conversational agents such as the voice assistants such as Alexa, Google Home, etc., gain popularity. Conversational speech is both the most difficult and environmentally relevant sort of data for speech recognition. In this paper, we take a linguistic perspective, and take the French language as a case study toward disambiguation of the French homophones. Our contribution aims to provide more insight into human speech transcription accuracy in conditions to reproduce those of state-of-the-art ASR systems, although in a much focused situation. We investigate a case study involving the most common errors encountered in the automatic transcription of French language.
translated by 谷歌翻译
We propose to characterize and improve the performance of blind room impulse response (RIR) estimation systems in the context of a downstream application scenario, far-field automatic speech recognition (ASR). We first draw the connection between improved RIR estimation and improved ASR performance, as a means of evaluating neural RIR estimators. We then propose a GAN-based architecture that encodes RIR features from reverberant speech and constructs an RIR from the encoded features, and uses a novel energy decay relief loss to optimize for capturing energy-based properties of the input reverberant speech. We show that our model outperforms the state-of-the-art baselines on acoustic benchmarks (by 72% on the energy decay relief and 22% on an early-reflection energy metric), as well as in an ASR evaluation task (by 6.9% in word error rate).
translated by 谷歌翻译
由于人工智能的改进,扬声器识别(SI)技术带来了一个伟大的方向,现在广泛用于各种各样的领域。Si最重要的组件之一是特征提取,对Si过程和性能具有显着影响。结果,彻底研究,对比和分析了许多特征提取策略。本文利用了情绪环境下伪装声音中的发言者识别五个不同的特征提取方法。为了显着评估这项工作,使用了三种效果:高倾斜,低音和电子语音转换(EVC)。实验结果报道称,级联的熔融频率谱系数(MFCCs),MFCCS-DERTA和MFCCS-DELTA-DELTA是最佳特征提取方法。
translated by 谷歌翻译