我们调查密集连接的卷积网络(DENSENETS)及其扩展,以域对抗稳健性演讲识别。Densenets是非常深的,紧凑型卷积神经网络,对计算机视觉的最先进的结果表明了令人难以置信的改进。我们的实验结果表明,除了基于神经网络的基于神经网络之类的诸如深馈神经网络和卷积神经网络之类的基于神经网络的模型,Densenets更加稳健。此外,域对抗性学习可以进一步提高抗体对两者的鲁棒性,已知和未知的噪声条件。
translated by 谷歌翻译
在我们以前的工作中,我们提出了一个歧视性自动编码器(DCAE)进行语音识别。 DCAE将两个训练方案结合在一起。首先,由于DCAE的目标是学习编码器映射,因此重建语音和输入语音之间的平方误差被最小化。其次,在代码层中,基于框架的语音嵌入是通过最小化地面真相标签和预测的Triphone-State分数之间的分类跨熵来获得的。 DCAE是根据Kaldi工具包开发的,通过将各种TDNN模型视为编码器。在本文中,我们进一步提出了三个新版本的DCAE。首先,使用了一个新的目标函数,该函数使用了地面真相和预测的Triphone-State序列之间的分类跨膜和相互信息。所得的DCAE称为基于链的DCAE(C-DCAE)。为了应用于强大的语音识别,我们将C-DCAE进一步扩展到层次结构和平行结构,从而导致HC-DCAE和PC-DCAE。在这两个模型中,重建的嘈杂语音与输入嘈杂语音以及增强语音和参考清洁语音之间的误差之间的误差都归功于目标函数。 WSJ和Aurora-4 Corpora的实验结果表明,我们的DCAE模型优于基线系统。
translated by 谷歌翻译
以前的研究已经证实了利用明晰度信息达到改善的语音增强(SE)性能的有效性。通过使用铰接特征的地点/方式增强原始声学特征,可以引导SE过程考虑执行增强时输入语音的剖视特性。因此,我们认为关节属性的上下文信息应包括有用的信息,并可以进一步利用不同的语言。在这项研究中,我们提出了一个SE系统,通过优化英语和普通话的增强演讲中的上下文清晰度信息来提高其性能。我们通过联合列车与端到端的自动语音识别(E2E ASR)模型进行联合列车,预测广播序列(BPC)而不是单词序列的序列。同时,开发了两种培训策略,以基于基于BPC的ASR:多任务学习和深度特征培训策略来培训SE系统。 Timit和TMhint DataSet上的实验结果证实了上下文化学信息促进了SE系统,以实现比传统声学模型(AM)更好的结果。此外,与用单声道ASR培训的另一SE系统相比,基于BPC的ASR(提供上下文化学信息)可以在不同的信噪比(SNR)下更有效地改善SE性能。
translated by 谷歌翻译
通道不匹配和噪声干扰的补偿对于强大的自动语音识别至关重要。增强的语音已引入声学模型的多条件训练中,以提高其概括能力。在本文中,提出了一个基于两个级联神经结构的噪音感知训练框架,以共同优化语音增强和语音识别。功能增强模块由多任务自动编码器组成,嘈杂的语音被分解为干净的语音和噪声。通过将其增强的,吸引噪音的和嘈杂的特征连接起来,通过优化预测的无晶格最大互信息和预测状态序列之间的无晶格最大互助和交叉熵,声音模块将每个特征型仪表型映射到Triphone状态。除了分解时间延迟神经网络(TDNN-F)及其卷积变体(CNN-TDNNF),均具有Specaug,两个提议的系统的单词错误率(WER)分别为3.90%和3.55% Aurora-4任务。与使用BigRAM和Trigram语言模型进行解码的最佳现有系统相比,拟议的基于CNN-TDNNF的系统的相对降低分别为15.20%和33.53%。此外,提出的基于CNN-TDNNF的系统还优于AMI任务上的基线CNN-TDNNF系统。
translated by 谷歌翻译
本文着重于设计一种噪声端到端音频语音识别(AVSR)系统。为此,我们提出了视觉上下文驱动的音频功能增强模块(V-Cafe),以在视听通讯的帮助下增强输入噪声音频语音。所提出的V-Cafe旨在捕获唇部运动的过渡,即视觉上下文,并通过考虑获得的视觉上下文来产生降噪面膜。通过与上下文相关的建模,可以完善掩模生成Viseme-to-phoneme映射中的歧义。嘈杂的表示用降噪面膜掩盖,从而增强了音频功能。增强的音频功能与视觉特征融合在一起,并将其带入由构象异构体和变压器组成的编码器模型,以进行语音识别。我们显示了带有V-fafe的端到端AVSR,可以进一步改善AVSR的噪声。使用两个最大的视听数据集LRS2和LRS3评估了所提出方法的有效性。
translated by 谷歌翻译
在本文中,我们探索了一个改进的框架,以训练单腔神经增强模型,以识别强大的语音识别。设计的训练框架扩展了现有的混合训练标准,以利用未配对的干净语音和真实的嘈杂数据。发现未配对的干净言语对于提高实际嘈杂言论的分离语音质量至关重要。所提出的方法还对处理和未加工的信号进行混合,以减轻处理工件。单渠道Chime-3真实测试集上的实验表明,在语音识别性能方面,对在不匹配的模拟数据上训练的增强系统的语音识别性能以有监督的方式或以不受欢迎的方式对匹配的真实数据进行了显着改善。与未经处理的信号相比,使用端到端和混合声模型在未经扭曲的数据进行重新纠正的情况下,该系统已实现了16%至39%的相对减少。
translated by 谷歌翻译
本文提出了通过语音增强改善嘈杂演讲的自动语音识别的最新调查。我们提出了一种名为Multi-Coldiminators CycliCan的新型方法,以降低输入语音的噪声,从而提高自动语音识别性能。我们所提出的方法利用了语音增强的Cycleangan框架而无需任何并行数据,并通过引入检查不同频率区域的多个鉴别器来改进它。此外,我们表明,在训练数据的同类子集上训练多个发电机比所有训练数据上的一个发电机更好。我们在CHIME-3数据集中评估我们的方法,并在评估集上观察到开发集的提高高达10.03%,高达14.09%。
translated by 谷歌翻译
这项工作旨在自动评估儿童的语言发展是否适合年龄。经过验证的语音和语言测试用于此目的测试听觉记忆。在这项工作中,任务是确定是否正确说出了口语非单词。我们比较有动机来建模特定语言结构的不同方法:低水平特征(FFT),扬声器嵌入(ECAPA-TDNN),素化 - 动机的嵌入(WAV2VEC 2.0)和语音嵌入Senones(ASR ASR ACOSTIC模型)形式。每种方法都提供了类似VGG的5层CNN分类器的输入。我们还检查了每个非单词的适应性。使用来自口头非单词的不同幼儿园的录音进行了对拟议系统的评估。 ECAPA-TDNN和低级FFT特征不会明确模型语音信息; WAV2VEC2.0经过素数标签训练,我们的ASR声学模型包含(子)语音信息。我们发现,语音建模越颗粒状,达到的识别率就越高。在ASR声学模型特征上训练的最佳系统的精度为89.4%,在ROC(接收器操作特征)曲线(AUC)下的面积为0.923。与FFT-BASELINE相比,这对应于20.2%和AUC相对0.309的改善。
translated by 谷歌翻译
我们介绍重要的是,通过向语音的不重要区域添加噪音而不是重要地区来增加语音分类和识别模型的技术来增加语音分类和识别模型的技术。通过培训的数据增强代理预测每个话语的重要性,以最大限度地提高它增加的噪声量,同时最小化其对识别性能的影响。我们的方法的有效性在谷歌语音命令(GSC)数据集中的两个版本上说明了。在标准GSC测试集上,与传统噪声增强相比,它实现了23.3%的相对差错率降低,该噪声增强在不考虑它可能最有效的地方的情况下对语音应用噪声。它还提供了25.4%的错误率与基线相比没有数据增强的基线。此外,所提出的重要名称优于常规噪声增强和两个测试集上的基线,并添加了附加噪声。
translated by 谷歌翻译
最近在各种语音域应用中提出了卷积增强的变压器(构象异构体),例如自动语音识别(ASR)和语音分离,因为它们可以捕获本地和全球依赖性。在本文中,我们提出了一个基于构型的度量生成对抗网络(CMGAN),以在时间频率(TF)域中进行语音增强(SE)。发电机使用两阶段构象体块编码大小和复杂的频谱图信息,以模拟时间和频率依赖性。然后,解码器将估计分解为尺寸掩模的解码器分支,以滤除不需要的扭曲和复杂的细化分支,以进一步改善幅度估计并隐式增强相信息。此外,我们还包括一个度量歧视器来通过优化相应的评估评分来减轻度量不匹配。客观和主观评估表明,与三个语音增强任务(DeNoising,dereverberation和Super-Losity)中的最新方法相比,CMGAN能够表现出卓越的性能。例如,对语音库+需求数据集的定量降解分析表明,CMGAN的表现优于以前的差距,即PESQ为3.41,SSNR为11.10 dB。
translated by 谷歌翻译
本文介绍了在自动语音识别(ASR)的语境中的声学模型的新型深度学习架构,称为MixNet。除了在LSTM-HMM中的DNN-HMM和存储器单元中的完全连接层之外,该模型使用基于专家(MOE)的混合的两个附加层。在输入时操作的第一个Moe层基于预定义的广义语音类,并且在倒数第二层操作的第二层基于自动学习的声学类。在自然语音中,不同声学类的分布在分布中是不可避免的,这导致帧间错误分类。如果经过修改的传统架构,则预期ASR精度将改进,以使其更适合于占这种重叠。 MixNet正在开发牢记这一点。通过散点图进行的分析验证了MOE确实改善了转化为更好ASR精度的类之间的分离。实验在大型词汇ASR任务上进行,表明,与传统模型,即DNN和LSTM分别提供了13.6%和10.0%的单词误差速率,即使用SMBR标准训练。与用于电话分类的现有方法相比(由EIGEN等人),我们所提出的方法产生了显着的改善。
translated by 谷歌翻译
基于对专家的声音模型,具有动态路由机制已经证明了语音识别的有希望的结果。路由器架构的设计原理对于大型型号容量和高计算效率很重要。我们以前的工作Speepmoe仅使用本地图形嵌入嵌入来帮助路由器进行路由决策。为了进一步提高语音识别性能,反对不同的域和重音,我们提出了一种新的路由器架构,该架构将额外的全局域和重点嵌入路由器输入以促进适应性。实验结果表明,所提出的Speepmoe2可以实现比较参数的较低字符的误差率(CER),而不是多域和多重点任务上的Spearmmoe。主要是,拟议的方法分别提供多元域任务的相对12.8%的相对元改善,分别为多重点任务的相对经济增长1.9%-17.7%。此外,增加专家人数也取得了一致的性能改进,并保持计算成本不变。
translated by 谷歌翻译
我们研究了在不利环境中学习强大声学模型的问题,其特征是训练和测试条件之间存在显着不匹配。这个问题对于需要在看不见的环境中表现良好的语音识别系统的部署至关重要。首先,我们从理论上将数据增强表征为笼子风险最小化的实例,该实例旨在通过替换在输入空间上定义经验密度的三角洲函数来改善培训期间的风险估计,并具有近似值的近似值。培训样品。更具体地说,我们假设可以使用高斯人的混合物来近似以训练样品为中心的当地社区,并从理论上证明这可以将强大的电感偏置纳入学习过程。然后,我们通过数据增强方案隐式地指定各个混合物组件,旨在解决声学模型中伪造相关性的常见来源。为了避免由于信息丢失而引起的鲁棒性的潜在混杂影响,这与标准特征提取技术(例如Fbank和MFCC功能)有关,我们重点关注基于波形的设置。我们的经验结果表明,该方法可以推广到看不见的噪声条件,与使用标准风险最小化原则进行训练相比,分布外概括的相对改善150%。此外,结果证明了相对于使用旨在匹配测试话语特征的训练样本的模型,相对于模型的竞争性能。
translated by 谷歌翻译
在这项研究中,我们提出了一种跨域多目标语音评估模型,即MOSA-net,可以同时估算多个语音评估度量。更具体地,MOSA-Net旨在基于作为输入的测试语音信号来估计语音质量,可懂度和失真评估分数。它包括用于表示提取的卷积神经网络和双向长短期存储器(CNN-BLSTM)架构,以及每个评估度量的乘法注意层和完全连接的层。此外,来自自我监督学习模型的跨域特征(光谱和时域特征)和潜在的表示用作将丰富的声学信息与不同语音表示相结合的输入,以获得更准确的评估。实验结果表明,MOSA-Net可以精确地预测语音质量(PESQ),短时间客观可懂度(STOI)和语音失真指数(SDI)分数的感知评估,并且在噪声下进行了测试,并且在任何看法测试下都有增强的语音话语条件(测试扬声器和训练集中涉及的噪音类型)或看不见的测试条件(其中测试扬声器和噪声类型不参与训练集)。鉴于确认的预测能力,我们进一步采用了MOSA网的潜在表示来引导语音增强(SE)过程,并导出了质量清晰度(QI)-AWARE SE(QIA-SE)方法。实验结果表明,与客观评估指标和定性评估测试相比,QIA-SE与基线SE系统相比提供了卓越的增强性能。
translated by 谷歌翻译
Recent work has shown that convolutional networks can be substantially deeper, more accurate, and efficient to train if they contain shorter connections between layers close to the input and those close to the output. In this paper, we embrace this observation and introduce the Dense Convolutional Network (DenseNet), which connects each layer to every other layer in a feed-forward fashion. Whereas traditional convolutional networks with L layers have L connections-one between each layer and its subsequent layer-our network has L(L+1) 2 direct connections. For each layer, the feature-maps of all preceding layers are used as inputs, and its own feature-maps are used as inputs into all subsequent layers. DenseNets have several compelling advantages: they alleviate the vanishing-gradient problem, strengthen feature propagation, encourage feature reuse, and substantially reduce the number of parameters. We evaluate our proposed architecture on four highly competitive object recognition benchmark tasks SVHN, and ImageNet). DenseNets obtain significant improvements over the state-of-the-art on most of them, whilst requiring less computation to achieve high performance. Code and pre-trained models are available at https://github.com/liuzhuang13/DenseNet.
translated by 谷歌翻译
Automatic Speech Recognition (ASR) for air traffic control is generally trained by pooling Air Traffic Controller (ATCO) and pilot data into one set. This is motivated by the fact that pilot's voice communications are more scarce than ATCOs. Due to this data imbalance and other reasons (e.g., varying acoustic conditions), the speech from ATCOs is usually recognized more accurately than from pilots. Automatically identifying the speaker roles is a challenging task, especially in the case of the noisy voice recordings collected using Very High Frequency (VHF) receivers or due to the unavailability of the push-to-talk (PTT) signal, i.e., both audio channels are mixed. In this work, we propose to (1) automatically segment the ATCO and pilot data based on an intuitive approach exploiting ASR transcripts and (2) subsequently consider an automatic recognition of ATCOs' and pilots' voice as two separate tasks. Our work is performed on VHF audio data with high noise levels, i.e., signal-to-noise (SNR) ratios below 15 dB, as this data is recognized to be helpful for various speech-based machine-learning tasks. Specifically, for the speaker role identification task, the module is represented by a simple yet efficient knowledge-based system exploiting a grammar defined by the International Civil Aviation Organization (ICAO). The system accepts text as the input, either manually verified annotations or automatically generated transcripts. The developed approach provides an average accuracy in speaker role identification of about 83%. Finally, we show that training an acoustic model for ASR tasks separately (i.e., separate models for ATCOs and pilots) or using a multitask approach is well suited for the noisy data and outperforms the traditional ASR system where all data is pooled together.
translated by 谷歌翻译
这项工作的目的是研究互补的特征,这些特征可以帮助典型的MEL频率经系系数(MFCC),以封闭,有限的set set Word识别为不同母亲说话的英语说话者。与源自语音信号的光谱能量的MFCC不同,提议的频率饮食(FCS)封装了语音光谱不同带的光谱中心,由MEL FILLEC BANK定义。观察到这些功能与MFCC结合使用,可提供英语单词识别的相对性能提高,尤其是在各种嘈杂条件下。两阶段的卷积神经网络(CNN)用于模拟用阿拉伯语,法语和西班牙口音说出的英语单词的特征。
translated by 谷歌翻译
混合动力和端到端(E2E)自动语音识别(ASR)系统之间的基本建模差异在其中创造了巨大的多样性和互补性。本文研究了混合TDNN和构型E2E ASR系统的基于多通的逆转和交叉适应系统组合方法。在多通恢复中,最先进的混合动力LF-MMI训练有素的CNN-TDNN系统具有速度扰动,规格和贝叶斯学习隐藏单元供款(LHUC)扬声器的适应器,以在被恢复之前产生初始的N-tesk输出由扬声器适应构象异构体系统,使用2向跨系统得分插值。在交叉适应中,混合CNN-TDNN系统适用于构象异构体系统的1好的输出,反之亦然。在300小时的总机语料库上进行的实验表明,使用两种系统组合方法中的任何一个得出的组合系统都超过了单个系统。在NIST HUB5'00,RT03和RT03和RT02评估数据。
translated by 谷歌翻译
In this paper, we use data augmentation to improve performance of deep neural network (DNN) embeddings for speaker recognition. The DNN, which is trained to discriminate between speakers, maps variable-length utterances to fixed-dimensional embeddings that we call x-vectors. Prior studies have found that embeddings leverage large-scale training datasets better than i-vectors. However, it can be challenging to collect substantial quantities of labeled data for training. We use data augmentation, consisting of added noise and reverberation, as an inexpensive method to multiply the amount of training data and improve robustness. The x-vectors are compared with i-vector baselines on Speakers in the Wild and NIST SRE 2016 Cantonese. We find that while augmentation is beneficial in the PLDA classifier, it is not helpful in the i-vector extractor. However, the x-vector DNN effectively exploits data augmentation, due to its supervised training. As a result, the x-vectors achieve superior performance on the evaluation datasets.
translated by 谷歌翻译