最近,基于深度学习(DL)的非侵入性语音评估模型引起了极大的关注。许多研究报告说,这些基于DL的模型产生令人满意的评估性能和良好的灵活性,但是它们在看不见的环境中的性能仍然是一个挑战。此外,与质量分数相比,更少的研究详细阐述了深度学习模型以估计可理解性得分。这项研究提出了一个多任务语音可理解性预测模型,称为MTI-NET,用于同时预测人类和机器的可理解性度量。具体而言,鉴于语音话语,MTI-NET旨在预测人类的主观听力测试结果和单词错误率(WER)分数。我们还研究了几种可以改善MTI-NET预测性能的方法。首先,我们比较不同功能(包括自我监督学习(SSL)模型的低级功能和嵌入)和MTI-NET的预测目标。其次,我们探讨了转移学习和多任务学习对培训MTI-NET的影响。最后,我们研究了微调SSL嵌入的潜在优势。实验结果证明了使用跨域特征,多任务学习和微调SSL嵌入的有效性。此外,已经证实,MTI-NET预测的可理解性和WER得分与地面真实分数高度相关。
translated by 谷歌翻译
在这项研究中,我们提出了一种跨域多目标语音评估模型,即MOSA-net,可以同时估算多个语音评估度量。更具体地,MOSA-Net旨在基于作为输入的测试语音信号来估计语音质量,可懂度和失真评估分数。它包括用于表示提取的卷积神经网络和双向长短期存储器(CNN-BLSTM)架构,以及每个评估度量的乘法注意层和完全连接的层。此外,来自自我监督学习模型的跨域特征(光谱和时域特征)和潜在的表示用作将丰富的声学信息与不同语音表示相结合的输入,以获得更准确的评估。实验结果表明,MOSA-Net可以精确地预测语音质量(PESQ),短时间客观可懂度(STOI)和语音失真指数(SDI)分数的感知评估,并且在噪声下进行了测试,并且在任何看法测试下都有增强的语音话语条件(测试扬声器和训练集中涉及的噪音类型)或看不见的测试条件(其中测试扬声器和噪声类型不参与训练集)。鉴于确认的预测能力,我们进一步采用了MOSA网的潜在表示来引导语音增强(SE)过程,并导出了质量清晰度(QI)-AWARE SE(QIA-SE)方法。实验结果表明,与客观评估指标和定性评估测试相比,QIA-SE与基线SE系统相比提供了卓越的增强性能。
translated by 谷歌翻译
提高用户在嘈杂环境中理解语音的听力能力对于助听器设备的开发至关重要。为此,得出一个可以公平地预测HA用户语音清晰度的度量标准很重要。一种直接的方法是进行主观听力测试,并将测试结果用作评估度量。但是,进行大规模的听力测试是耗时且昂贵的。因此,将几个评估指标得出作为主观听力测试结果的替代物。在这项研究中,我们提出了一个多支链的语音可理解性预测模型(MBI-NET),以预测HA用户的主观可理解性评分。 MBI-NET由两个模型分支组成,每个分支由听力损失模型,跨域特征提取模块和语音可理解性预测模型组成,以从一个通道处理语音信号。两个分支的输出通过线性层融合,以获得预测的语音清晰度得分。实验结果证实了MBI-NET的有效性,MBI-NET的有效性比轨道1中的基线系统和轨道2在Clarity Preditation Challenge挑战2022数据集中产生的预测分数更高。
translated by 谷歌翻译
语音智能评估模型是研究人员的重要工具,用于评估和改进语音处理模型。在本研究中,我们提出了INQSS,一种语音智能性评估模型,它使用频谱图和散射系数作为输入特征。此外,INQSS使用了一个多任务学习网络,其中质量分数可以指导语音可智能性评估的培训。由此产生的模型可以预测智能性分数,而且可以预测演讲的质量评分。实验结果证实,散射系数和质量分数是信息性的。此外,我们释放了TMHINT-QI,这是一个中国语音数据集,记录了清洁,嘈杂和增强的演讲的质量和可懂度分数。
translated by 谷歌翻译
无需清洁参考,非侵入式语音评估方法对客观评估引起了很大的关注。最近,已经应用了深度神经网络(DNN)模型来构建非侵入式语音评估方法并确认提供了有希望的性能。但是,基于DNN的大多数方法都是针对正常听力侦听者设计的,而不考虑听力损失因素。在本研究中,我们提出了一种由双向长期内存(BLSTM)模型形成的DNN的助听器语音评估网络(HASA-Net),以根据输入语音信号和指定的同时预测语音质量和可懂度分数听力损失模式。据我们所知,Hasa-net是利用统一的DNN的非侵入性模型来融入质量和可智能性评估的第一项工作。实验结果表明,HASA-NET的预测语音质量和可智能性评分与两个公知的侵入性助听剂评估指标高度相关,助听器语音质量指数(HASQI)和助听器语音感知指数(HASPI)。
translated by 谷歌翻译
以前的研究已经证实了利用明晰度信息达到改善的语音增强(SE)性能的有效性。通过使用铰接特征的地点/方式增强原始声学特征,可以引导SE过程考虑执行增强时输入语音的剖视特性。因此,我们认为关节属性的上下文信息应包括有用的信息,并可以进一步利用不同的语言。在这项研究中,我们提出了一个SE系统,通过优化英语和普通话的增强演讲中的上下文清晰度信息来提高其性能。我们通过联合列车与端到端的自动语音识别(E2E ASR)模型进行联合列车,预测广播序列(BPC)而不是单词序列的序列。同时,开发了两种培训策略,以基于基于BPC的ASR:多任务学习和深度特征培训策略来培训SE系统。 Timit和TMhint DataSet上的实验结果证实了上下文化学信息促进了SE系统,以实现比传统声学模型(AM)更好的结果。此外,与用单声道ASR培训的另一SE系统相比,基于BPC的ASR(提供上下文化学信息)可以在不同的信噪比(SNR)下更有效地改善SE性能。
translated by 谷歌翻译
Speech quality assessment has been a critical component in many voice communication related applications such as telephony and online conferencing. Traditional intrusive speech quality assessment requires the clean reference of the degraded utterance to provide an accurate quality measurement. This requirement limits the usability of these methods in real-world scenarios. On the other hand, non-intrusive subjective measurement is the ``golden standard" in evaluating speech quality as human listeners can intrinsically evaluate the quality of any degraded speech with ease. In this paper, we propose a novel end-to-end model structure called Convolutional Context-Aware Transformer (CCAT) network to predict the mean opinion score (MOS) of human raters. We evaluate our model on three MOS-annotated datasets spanning multiple languages and distortion types and submit our results to the ConferencingSpeech 2022 Challenge. Our experiments show that CCAT provides promising MOS predictions compared to current state-of-art non-intrusive speech assessment models with average Pearson correlation coefficient (PCC) increasing from 0.530 to 0.697 and average RMSE decreasing from 0.768 to 0.570 compared to the baseline model on the challenge evaluation test set.
translated by 谷歌翻译
最近,先驱工作发现,演讲预训练模型可以解决全堆栈语音处理任务,因为该模型利用底层学习扬声器相关信息和顶层以编码与内容相关的信息。由于网络容量有限,我们认为如果模型专用于音频内容信息学习,则可以进一步提高语音识别性能。为此,我们向自我监督学习(ILS-SSL)提出中间层监督,这将模型通过在中间层上添加额外的SSL丢失来尽可能地专注于内容信息。 LibrisPeech测试 - 其他集合的实验表明,我们的方法显着优于Hubert,这实现了基数/大型模型的W / O语言模型设置的相对字错误率降低了23.5%/ 11.6%。详细分析显示我们模型的底层与拼音单元具有更好的相关性,这与我们的直觉一致,并解释了我们对ASR的方法的成功。
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
这项工作旨在自动评估儿童的语言发展是否适合年龄。经过验证的语音和语言测试用于此目的测试听觉记忆。在这项工作中,任务是确定是否正确说出了口语非单词。我们比较有动机来建模特定语言结构的不同方法:低水平特征(FFT),扬声器嵌入(ECAPA-TDNN),素化 - 动机的嵌入(WAV2VEC 2.0)和语音嵌入Senones(ASR ASR ACOSTIC模型)形式。每种方法都提供了类似VGG的5层CNN分类器的输入。我们还检查了每个非单词的适应性。使用来自口头非单词的不同幼儿园的录音进行了对拟议系统的评估。 ECAPA-TDNN和低级FFT特征不会明确模型语音信息; WAV2VEC2.0经过素数标签训练,我们的ASR声学模型包含(子)语音信息。我们发现,语音建模越颗粒状,达到的识别率就越高。在ASR声学模型特征上训练的最佳系统的精度为89.4%,在ROC(接收器操作特征)曲线(AUC)下的面积为0.923。与FFT-BASELINE相比,这对应于20.2%和AUC相对0.309的改善。
translated by 谷歌翻译
Self-supervised learning (SSL) methods such as WavLM have shown promising speech separation (SS) results in small-scale simulation-based experiments. In this work, we extend the exploration of the SSL-based SS by massively scaling up both the pre-training data (more than 300K hours) and fine-tuning data (10K hours). We also investigate various techniques to efficiently integrate the pre-trained model with the SS network under a limited computation budget, including a low frame rate SSL model training setup and a fine-tuning scheme using only the part of the pre-trained model. Compared with a supervised baseline and the WavLM-based SS model using feature embeddings obtained with the previously released 94K hours trained WavLM, our proposed model obtains 15.9% and 11.2% of relative word error rate (WER) reductions, respectively, for a simulated far-field speech mixture test set. For conversation transcription on real meeting recordings using continuous speech separation, the proposed model achieves 6.8% and 10.6% of relative WER reductions over the purely supervised baseline on AMI and ICSI evaluation sets, respectively, while reducing the computational cost by 38%.
translated by 谷歌翻译
尽管最近的神经文本到语音(TTS)系统已经实现了高质量的语音合成,但存在TTS系统产生低质量语音的情况,主要是由知识蒸馏期间有限的训练数据或信息丢失引起的。因此,我们提出了一种新的方法,通过在感知损失的监督下通过培训TTS模型来改善语音质量,这测量了最大可能的语音质量分数和预测的距离。我们首先预先训练平均意见评分(MOS)预测模型,然后使用预先训练的MOS预测模型训练TTS模型以最大化合成语音的MOS。所提出的方法可以普遍应用(即,无论TTS模型架构还是语音质量校准的原因)和有效地应用(即,不增加推理时间或模型复杂性)。 MOS和手机错误率的评估结果表明,我们的建议方法在自然和可懂度方面提高了以前的模型。
translated by 谷歌翻译
平均意见评分(MOS)是语音合成系统的典型主观评估指标。由于收集MOS是耗时的,因此如果有自动评估的准确MOS预测模型,那将是可取的。在这项工作中,我们提出了一个新型MOS预测模型DDOS。DDOS利用域自适应预训练来进一步预训练自制的学习模型,以进行合成语音。并添加了一个建议的模块来对每个话语的意见分数分布进行建模。使用提出的组件,DDOS在BVCC数据集上的表现优于先前的作品。BC2019数据集的零射击传输结果得到显着改善。DDO还以系统级别的分数在Interspeech 2022 Voicemos挑战中赢得了第二名。
translated by 谷歌翻译
通道不匹配和噪声干扰的补偿对于强大的自动语音识别至关重要。增强的语音已引入声学模型的多条件训练中,以提高其概括能力。在本文中,提出了一个基于两个级联神经结构的噪音感知训练框架,以共同优化语音增强和语音识别。功能增强模块由多任务自动编码器组成,嘈杂的语音被分解为干净的语音和噪声。通过将其增强的,吸引噪音的和嘈杂的特征连接起来,通过优化预测的无晶格最大互信息和预测状态序列之间的无晶格最大互助和交叉熵,声音模块将每个特征型仪表型映射到Triphone状态。除了分解时间延迟神经网络(TDNN-F)及其卷积变体(CNN-TDNNF),均具有Specaug,两个提议的系统的单词错误率(WER)分别为3.90%和3.55% Aurora-4任务。与使用BigRAM和Trigram语言模型进行解码的最佳现有系统相比,拟议的基于CNN-TDNNF的系统的相对降低分别为15.20%和33.53%。此外,提出的基于CNN-TDNNF的系统还优于AMI任务上的基线CNN-TDNNF系统。
translated by 谷歌翻译
Collecting sufficient labeled data for spoken language understanding (SLU) is expensive and time-consuming. Recent studies achieved promising results by using pre-trained models in low-resource scenarios. Inspired by this, we aim to ask: which (if any) pre-training strategies can improve performance across SLU benchmarks? To answer this question, we employ four types of pre-trained models and their combinations for SLU. We leverage self-supervised speech and language models (LM) pre-trained on large quantities of unpaired data to extract strong speech and text representations. We also explore using supervised models pre-trained on larger external automatic speech recognition (ASR) or SLU corpora. We conduct extensive experiments on the SLU Evaluation (SLUE) benchmark and observe self-supervised pre-trained models to be more powerful, with pre-trained LM and speech models being most beneficial for the Sentiment Analysis and Named Entity Recognition task, respectively.
translated by 谷歌翻译
Modern speech enhancement (SE) networks typically implement noise suppression through time-frequency masking, latent representation masking, or discriminative signal prediction. In contrast, some recent works explore SE via generative speech synthesis, where the system's output is synthesized by a neural vocoder after an inherently lossy feature-denoising step. In this paper, we propose a denoising vocoder (DeVo) approach, where a vocoder accepts noisy representations and learns to directly synthesize clean speech. We leverage rich representations from self-supervised learning (SSL) speech models to discover relevant features. We conduct a candidate search across 15 potential SSL front-ends and subsequently train our vocoder adversarially with the best SSL configuration. Additionally, we demonstrate a causal version capable of running on streaming audio with 10ms latency and minimal performance degradation. Finally, we conduct both objective evaluations and subjective listening studies to show our system improves objective metrics and outperforms an existing state-of-the-art SE model subjectively.
translated by 谷歌翻译
在我们以前的工作中,我们提出了一个歧视性自动编码器(DCAE)进行语音识别。 DCAE将两个训练方案结合在一起。首先,由于DCAE的目标是学习编码器映射,因此重建语音和输入语音之间的平方误差被最小化。其次,在代码层中,基于框架的语音嵌入是通过最小化地面真相标签和预测的Triphone-State分数之间的分类跨熵来获得的。 DCAE是根据Kaldi工具包开发的,通过将各种TDNN模型视为编码器。在本文中,我们进一步提出了三个新版本的DCAE。首先,使用了一个新的目标函数,该函数使用了地面真相和预测的Triphone-State序列之间的分类跨膜和相互信息。所得的DCAE称为基于链的DCAE(C-DCAE)。为了应用于强大的语音识别,我们将C-DCAE进一步扩展到层次结构和平行结构,从而导致HC-DCAE和PC-DCAE。在这两个模型中,重建的嘈杂语音与输入嘈杂语音以及增强语音和参考清洁语音之间的误差之间的误差都归功于目标函数。 WSJ和Aurora-4 Corpora的实验结果表明,我们的DCAE模型优于基线系统。
translated by 谷歌翻译
基于深度学习(DL)的语音增强方法通常优化,以最小化干净和增强语音功能之间的距离。这些经常导致语音质量改善,但它们缺乏普遍化,并且可能无法在实际嘈杂情况下提供所需的语音可懂度。为了解决这些挑战,研究人员已经探索了智能性(I-O)丢失函数和用于更强大的语音增强(SE)的视听(AV)信息的集成。在本文中,我们介绍了基于DL的I-O SE算法利用AV信息,这是一种新颖且以前未开发的研究方向。具体而言,我们介绍了一个完全卷积的AV SE模型,它使用改进的短时客观可懂度(STOI)度量作为培训成本函数。据我们所知,这是第一个利用基于I-O的I-O的损耗函数的AV模式集成的第一项工作。比较实验结果表明,我们提出的I-O AV SE框架优于与传统距离的损耗功能训练的仅音频(AO)和AV模型,就标准客观的扬声器和噪声处理。
translated by 谷歌翻译
Recently proposed self-supervised learning approaches have been successful for pre-training speech representation models. The utility of these learned representations has been observed empirically, but not much has been studied about the type or extent of information encoded in the pre-trained representations themselves. Developing such insights can help understand the capabilities and limits of these models and enable the research community to more efficiently develop their usage for downstream applications. In this work, we begin to fill this gap by examining one recent and successful pre-trained model (wav2vec 2.0), via its intermediate representation vectors, using a suite of analysis tools. We use the metrics of canonical correlation, mutual information, and performance on simple downstream tasks with non-parametric probes, in order to (i) query for acoustic and linguistic information content, (ii) characterize the evolution of information across model layers, and (iii) understand how fine-tuning the model for automatic speech recognition (ASR) affects these observations. Our findings motivate modifying the fine-tuning protocol for ASR, which produces improved word error rates in a low-resource setting.
translated by 谷歌翻译
一个名为语音处理通用性能基准(Superb)的排行榜,它旨在基准测试各种下游语音任务的共享自我监督学习(SSL)语音模型的性能,并推动了研究用于语音表示学习。 SuperB演示语音SSL上游模型通过仅限最小的调整来提高各种下游任务的性能。由于自我监督学习上游模型的范式,其次是下游任务,在语音界引起更多关注,表征此类范例的对抗性稳健性是高优先级的。在本文中,我们首次尝试在零知识对手和有限知识对手的袭击下调查此类范例的对抗脆弱性。实验结果表明,Superb提出的范例严重易受有限的知识对手的影响,零知识对手产生的攻击是可转移性的。 XAB测试验证了制作的对抗性攻击的难以察觉。
translated by 谷歌翻译