端到端(E2E)神经建模已成为开发计算机辅助语言培训(CAPT)系统的一个主要思想,对基于传统发音评分的方法表示竞争性能。然而,所需的当前E2E神经方法面临至少两个关键挑战。一方面,大多数E2E方法以自回归方式使用左右波束搜索操作,以指示L2学习者的发音。然而,这导致推理速度非常慢,这不可避免地阻碍了他们的实际用途。另一方面,E2E神经方法通常是数据贪婪,同时,非训练数据量不足通常会降低误用检测和诊断(MD&D)的疗效。作为回应,我们提出了一种新的MD&D方法,利用非归共(NAR)E2E神经建模,以大大加速推理时间,同时通过传统的E2E神经方法保持性能。此外,我们设计并开发了堆叠在我们的方法的NAR E2E模型之上的发音建模网络,以进一步提高MD&D的有效性。与某些直接的E2E模型和基于DNN-HMM声学模型构建的基于ICONIC发音评分的方法相比,在L2-arctic英语数据集上进行的经验实验似乎验证了我们方法的可行性。
translated by 谷歌翻译
端到端模型正在成为误用检测和诊断(MDD)的流行方法。许多实际应用要求的流MDD框架仍然是一个挑战。本文提出了一种名为CCA-MDD的流端到端MDD框架。CCA-MDD支持在线处理,并且能够实时运行。CCA-MDD的编码器包括基于Conv变压器网络的流式声学编码器,并改善了命名的耦合横向(CCA)的改进的横向关注。耦合的横向于预先编码的语言特征集成了编码的声学特征。应用从多任务学习培训的解码器的集合用于最终MDD决策。公开的Corpora实验表明,CCA-MDD可实现可比性的性能,以发布离线端到端MDD模型。
translated by 谷歌翻译
会话言论通常在话语水平上以松散的句法结构体现,但同时表现出连续话语的局部相干关系。事先工作已经表明,使用经常性神经网络或长短期存储器语言模型(LM)捕获较长的上下文信息可能遭受最近的偏置,而不是在远程上下文中。为了捕获词语和跨越话语之间的长期语义互动,我们提出了对话语音的自动语音识别(ASR)中语言建模的不同谈话历史融合方法。此外,引入了一种新的函数融合机制,该机制被引入熔断器并利用当前话语的声学嵌入和其相应的对话历史的语义含量以协作方式。为了塑造我们的想法,我们将ASR N-Best假设救援人员框架作为预测问题,利用BERT,一个标志性的预训练LM,作为成分车辆,以便于从给定的N最佳假设列表中选择Oracle假设。在AMI基准数据集上进行的实证实验似乎展示了我们对某些目前的线上的方法相关的可行性和功效。
translated by 谷歌翻译
研究界长期以来一直在非本地语音中研究了计算机辅助的发音训练(上尉)方法。研究人员致力于研究各种模型架构,例如贝叶斯网络和深度学习方法,以及分析语音信号的不同表示。尽管近年来取得了重大进展,但现有的CAPT方法仍无法以高精度检测发音误差(在40 \%-80 \%召回时只有60 \%精度)。关键问题之一是发音错误检测模型的可靠培训所需的语音错误的可用性较低。如果我们有一个可以模仿非本地语音并产生任何数量的训练数据的生成模型,那么检测发音错误的任务将容易得多。我们介绍了基于音素到音量(P2P),文本到语音(T2S)以及语音到语音(S2S)转换的三种创新技术,以生成正确发音和错误发音的合成语音。我们表明,这些技术不仅提高了三个机器学习模型的准确性,以检测发音错误,而且还有助于在现场建立新的最新技术。早期的研究使用了简单的语音生成技术,例如P2P转换,但仅是提高发音误差检测准确性的附加机制。另一方面,我们认为语音生成是检测发音误差的第一类方法。这些技术的有效性在检测发音和词汇应力误差的任务中进行了评估。评估中使用了非本地英语言语语料库。与最先进的方法相比,最佳提出的S2S技术将AUC度量误差的准确性从41 \%提高到41 \%从0.528提高到0.749。
translated by 谷歌翻译
错位检测和诊断(MDD)技术是计算机辅助发音训练系统(CAPT)的关键组成部分。在评估受约束语音的发音质量的领域中,给定的转录可以扮演教师的角色。常规方法已充分利用了模型构建或改善系统性能的先前文本,例如强制对准和扩展识别网络。最近,一些基于端到端的方法试图将先前的文本纳入模型训练中,并初步显示出有效性。但是,先前的研究主要考虑将原始注意力机制与文本表示融合,而无需考虑可能的文本 - 概述不匹配。在本文中,我们提出了一种门控策略,该策略在抑制无关的文本信息的同时,对相关音频功能更为重要。此外,鉴于转录,我们设计了额外的对比损失,以减少音素识别和MDD的学习目标之间的差距。我们使用两个公共可用数据集(Timit和L2-极)进行了实验,而我们的最佳模型将F1分数从57.51美元\%$ $ $ $ $ 61.75 \%\%\%提高。此外,我们提供了详细的分析,以阐明门控机制和对MDD的对比度学习的有效性。
translated by 谷歌翻译
以前的研究已经证实了利用明晰度信息达到改善的语音增强(SE)性能的有效性。通过使用铰接特征的地点/方式增强原始声学特征,可以引导SE过程考虑执行增强时输入语音的剖视特性。因此,我们认为关节属性的上下文信息应包括有用的信息,并可以进一步利用不同的语言。在这项研究中,我们提出了一个SE系统,通过优化英语和普通话的增强演讲中的上下文清晰度信息来提高其性能。我们通过联合列车与端到端的自动语音识别(E2E ASR)模型进行联合列车,预测广播序列(BPC)而不是单词序列的序列。同时,开发了两种培训策略,以基于基于BPC的ASR:多任务学习和深度特征培训策略来培训SE系统。 Timit和TMhint DataSet上的实验结果证实了上下文化学信息促进了SE系统,以实现比传统声学模型(AM)更好的结果。此外,与用单声道ASR培训的另一SE系统相比,基于BPC的ASR(提供上下文化学信息)可以在不同的信噪比(SNR)下更有效地改善SE性能。
translated by 谷歌翻译
我们介绍BERTPHONE,一个在大型语音上培训的变压器编码器,输出可以用于扬声器和语言识别的语音感知的上下文表示向量。这是通过对两个目标的培训来实现的:首先是通过调整伯特对连续领域的启发,涉及掩蔽输入框架的跨度并重建用于声学表示学习的整个序列;其次,由ASR的瓶颈特征成功的启发是应用于音素标签的序列级CTC损失,用于语音表示学习。我们预留了两种BERTPHONE型号(一个在FISHER上,一个在TED-lium上),并用它们用作两个任务的X-Vector-Sique DNN中的特征提取器。我们达到最先进的$ C _ {\ TEXT {AVG}} $ 6.16就具有挑战性的LRE07 3SEC封闭式语言识别任务。在Fisher和VoxceleB扬声器识别任务上,我们在培训BertPhone向量而不是MFCC时,我们看到扬声器EER的相对减少18%。通常,BERTPHONE在同一数据上优于先前的语音预制方法。我们在https://github.com/awslabs/speech -representations释放我们的代码和模型。
translated by 谷歌翻译
常规的自动语音识别系统不会产生标点符号,这对于语音识别结果的可读性很重要。随后的自然语言处理任务(例如机器翻译)也需要它们。标点符号预测模型上有许多作品将标点符号插入语音识别结果中作为后处理。但是,这些研究并未利用声学信息进行标点符号预测,并且直接受语音识别错误的影响。在这项研究中,我们提出了一个端到端模型,该模型将语音作为输入并输出标点的文本。在使用声学信息时,该模型有望在语音识别错误方面可靠地预测标点符号。我们还建议使用辅助损失,以使用中间层和未插入文本的输出来训练模型。通过实验,我们将提出的模型的性能与级联系统的性能进行比较。所提出的模型比级联系统获得更高的标点符号预测准确性,而无需牺牲语音识别错误率。还证明,使用中间输出针对未插入文本的多任务学习有效。此外,与级联系统相比,提出的模型仅具有约1/7的参数。
translated by 谷歌翻译
最近,语音界正在看到从基于深神经网络的混合模型移动到自动语音识别(ASR)的端到端(E2E)建模的显着趋势。虽然E2E模型在大多数基准测试中实现最先进的,但在ASR精度方面,混合模型仍然在当前的大部分商业ASR系统中使用。有很多实际的因素会影响生产模型部署决定。传统的混合模型,用于数十年的生产优化,通常擅长这些因素。在不为所有这些因素提供优异的解决方案,E2E模型很难被广泛商业化。在本文中,我们将概述最近的E2E模型的进步,专注于解决行业视角的挑战技术。
translated by 谷歌翻译
Uyghur语音常常遇到辅音和元音减少,这可能导致Uyghur自动语音识别(ASR)的性能下降。我们最近提出的基于掩蔽的学习策略,电话遮蔽训练(PMT),减轻了这种现象在Uyghur Asr的影响。尽管PMT实现了显着改进,但由于PMT(音素)和建模单元(字件)的掩模单元之间的粒度不匹配,仍然存在进一步提升的空间。为了提高PMT的性能,我们提出了PMT(PM-MET)的多建模单元训练(MMUT)架构融合。 MUT框架的概念是将编码器分成两个部分,包括声学级表示(AF-TO-PLR)和音素级表示的声学特征序列(PLR-TO-WPLR)。它允许通过基于中间音素的CTC丢失来优化AF-To-PLR,以了解PMT带来的富音素级上下文信息。 UYGHUR ASR上的实验结果表明,该提出的方法显着改善,优于纯PMT(减少24.0至23.7,在Read-Test上,分别在口服检验中的38.4至36.8。我们还使用ESPNET1对960小时的LibrisPeech基准进行实验,该基准测试在没有LM Fusion的所有测试集上实现约10%的相对WER减少,与最新的ESPNET1预先训练的模型相比。
translated by 谷歌翻译
最近,语音表示学习改善了许多与语音有关的任务,例如语音识别,语音分类和语音到文本翻译。但是,以上所有任务都朝着语音理解的方向发展,但是对于反向方向,言语综合,由于产生高质量语音的挑战性质,代表性学习的潜力尚未实现。为了解决这个问题,我们提出了我们的框架,对准的声音文本预处理($^3 $ t),该框架在培训期间重建了带有文本输入和声学文本对齐的蒙面声信号。通过这种方式,预处理的模型可以生成高质量的重建频谱图,可以直接应用于语音编辑和看不见的扬声器tts。实验显示了$^3 $ t在语音编辑上的SOTA模型,并在没有外部说话者验证模型的情况下改善了多扬声器语音综合。
translated by 谷歌翻译
Recurrent sequence generators conditioned on input data through an attention mechanism have recently shown very good performance on a range of tasks including machine translation, handwriting synthesis [1, 2] and image caption generation [3]. We extend the attention-mechanism with features needed for speech recognition. We show that while an adaptation of the model used for machine translation in [2] reaches a competitive 18.7% phoneme error rate (PER) on the TIMIT phoneme recognition task, it can only be applied to utterances which are roughly as long as the ones it was trained on. We offer a qualitative explanation of this failure and propose a novel and generic method of adding location-awareness to the attention mechanism to alleviate this issue. The new method yields a model that is robust to long inputs and achieves 18% PER in single utterances and 20% in 10-times longer (repeated) utterances. Finally, we propose a change to the attention mechanism that prevents it from concentrating too much on single frames, which further reduces PER to 17.6% level.
translated by 谷歌翻译
口音构成了识别文化,情感,行为等的组成部分。人们经常由于口音而以不同的方式相互感知。口音本身可以是地位,自豪感和其他情感信息的传送带,可以通过语音本身捕获。口音本身可以定义为:“特定领域,国家或社会群体中的人的单词”或“在单词中给出的音节,句子中的单词或一组音符的特殊强调的方式音符”。语音识别是语音识别领域中最重要的问题之一。语音识别是计算机科学和语言学研究的跨学科子场,其中的主要目的是开发能够将语音转换为文本的技术。演讲可以是任何形式的,例如阅读语音或自发演讲,对话言语。语音与文本不同,有很多多样性。这种多样性源于环境条件,说话者到扬声器的变化,渠道噪音,由于残疾而导致的言语产生差异,存在不足。因此,语音确实是等待被利用的丰富信息来源。
translated by 谷歌翻译
在空中交通管制(ATC)控制器飞行员谈话的自动语音指令的理解(SIU)不仅需要认识到的演讲词和语义,但也确定了演讲者的角色。然而,很少有在空中交通通信专注于扬声器的作用识别(SRI)自动认识系统发表的作品。在本文中,我们制定管制员 - 驾驶员通信的SRI任务作为二元分类问题。提出此外,基于文本的,基于语音和语音和文本为基础的多模态的方法来达到SRI任务的全面比较。消融的比较方法的影响,各种先进的神经网络架构应用进行优化的,基于语音的基于文本和方法的实现。最重要的是,多模态扬声器的作用识别网络(MMSRINet)设计同时考虑语音和文本模式功能实现的SRI任务。聚集形态特征,模态融合模块提出了保险丝和模态注意机制和自我关注池层,分别挤声音和文本表示。最后,比较的方法进行验证从现实世界ATC环境中收集的语料库ATCSpeech。实验结果表明,所有的比较方法是对SRI任务分别工作,并提议MMSRINet显示出比上都看到和看不到数据的其他方法的有竞争力的性能和稳定性,达到98.56%,98.08和%的准确度。
translated by 谷歌翻译
在自动语音识别(ASR)研究中,歧视性标准在DNN-HMM系统中取得了出色的性能。鉴于这一成功,采用判别标准是有望提高端到端(E2E)ASR系统的性能。有了这一动机,以前的作品将最小贝叶斯风险(MBR,歧视性标准之一)引入了E2E ASR系统中。但是,基于MBR的方法的有效性和效率受到损害:MBR标准仅用于系统培训,这在训练和解码之间造成了不匹配;基于MBR的方法中的直接解码过程导致需要预先训练的模型和缓慢的训练速度。为此,在这项工作中提出了新的算法,以整合另一种广泛使用的判别标准,无晶格的最大互信息(LF-MMI),不仅在训练阶段,而且在解码过程中。提出的LF-MI训练和解码方法显示了它们对两个广泛使用的E2E框架的有效性:基于注意力的编码器解码器(AEDS)和神经传感器(NTS)。与基于MBR的方法相比,提出的LF-MMI方法:保持训练和解码之间的一致性;避开直立的解码过程;来自具有卓越训练效率的随机初始化模型的火车。实验表明,LF-MI方法的表现优于其MBR对应物,并始终导致各种框架和数据集从30小时到14.3k小时上的统计学意义改进。所提出的方法在Aishell-1(CER 4.10%)和Aishell-2(CER 5.02%)数据集上实现了最先进的结果(SOTA)。代码已发布。
translated by 谷歌翻译
尽管流媒体助手系统已在许多应用中使用,但该系统通常集中于不自然的单次交互,假设来自单个语音查询的输入毫不犹豫地或不足。但是,除了反弹之外,常见的对话说法通常涉及多个转弯的查询。这些疏远包括暂停思考,犹豫,延长单词,填补的停顿和重复的短语。这使得通过对话演讲进行语音识别,其中包括有多个查询,这是一项具有挑战性的任务。为了更好地建模对话互动,至关重要的是,歧视汇率和查询的结束至关重要,以使用户能够在用户完成时,同时使系统尽快做出响应,以使用户保持地板的折衷。在本文中,我们提出了一个基于端到端(E2E)语音识别器的转折预测指标。我们的最佳系统是通过共同优化ASR任务并检测用户何时停止思考或完成口语来获得的。所提出的方法显示,在预测真正的转弯率的97%以上的召回率和85%的精度率中,在设计集中仅100毫秒延迟,设计了4种类型的对话说法中插入4种散布。
translated by 谷歌翻译
学习一种新语言涉及不断比较语音作品与环境的参考作品。在言语获取的早期,孩子们进行了发音调整以符合他们的看护人的言论。一种语言的成年学习者调整他们的演讲以匹配导师参考。本文提出了一种合成产生正确的发音反馈的方法。此外,我们的目标是在保持演讲者的原始声音的同时产生校正后的生产。该系统提示用户发音短语。记录语音,并用与不准确音素相关的样品用零掩盖。该波形是对语音生成器的输入,作为具有U-NET体系结构的深度学习介绍系统实现,并经过培训以输出重建的语音。该训练集由未损坏的适当语音示例组成,并且对发电机进行了训练以重建原始的适当语音。我们评估了系统的性能在音素替代英语以及发音障碍儿童的最小对单词方面的性能。结果表明,人类听众稍微偏爱我们产生的语音,而不是用不同的扬声器的生产来平滑地替换音素。
translated by 谷歌翻译
端到端(E2E)模型在口语理解(SLU)系统中变得越来越流行,并开始实现基于管道的方法的竞争性能。但是,最近的工作表明,这些模型努力以相同的意图概括为新的措辞,这表明模型无法理解给定话语的语义内容。在这项工作中,我们在E2E-SLU框架内的未标记文本数据中预先训练了在未标记的文本数据上进行预先训练的语言模型,以构建强大的语义表示。同时结合语义信息和声学信息可以增加推理时间,从而在语音助手等应用程序中部署时会导致高潜伏期。我们开发了一个2频道的SLU系统,该系统使用第一张音频的几秒钟的声学信息进行低潜伏期预测,并通过结合语义和声学表示在第二次通过中进行更高质量的预测。我们从先前的2次端到端语音识别系统上的工作中获得了灵感,该系统同时使用审议网络就可以在音频和第一通道假设上进行。所提出的2个通用SLU系统在Fluent Speech命令挑战集和SLURP数据集上优于基于声学的SLU模型,并减少了延迟,从而改善了用户体验。作为ESPNET-SLU工具包的一部分,我们的代码和模型公开可用。
translated by 谷歌翻译
This paper introduces a new open source platform for end-toend speech processing named ESPnet. ESPnet mainly focuses on end-to-end automatic speech recognition (ASR), and adopts widely-used dynamic neural network toolkits, Chainer and Py-Torch, as a main deep learning engine. ESPnet also follows the Kaldi ASR toolkit style for data processing, feature extraction/format, and recipes to provide a complete setup for speech recognition and other speech processing experiments. This paper explains a major architecture of this software platform, several important functionalities, which differentiate ESPnet from other open source ASR toolkits, and experimental results with major ASR benchmarks.
translated by 谷歌翻译
在本文中,我们提出了一个名为Wenet的开源,生产第一和生产准备的语音识别工具包,其中实现了一种新的双通方法,以统一流传输和非流媒体端到端(E2E)语音识别单一模型。 WENET的主要动机是缩放研究与E2E演示识别模型的生产之间的差距。 Wenet提供了一种有效的方法,可以在几个真实情景中运送ASR应用程序,这是其他开源E2E语音识别工具包的主要差异和优势。在我们的工具包中,实现了一种新的双通方法。我们的方法提出了一种基于动态的基于块的关注策略,变压器层,允许任意右上下文长度修改在混合CTC /注意架构中。只有更改块大小,可以轻松控制推理延迟。然后,CTC假设被注意力解码器重新筛选以获得最终结果。我们在使用WENET上的Aishell-1数据集上的实验表明,与标准的非流式变压器相比,我们的模型在非流式ASR中实现了5.03 \%相对字符的误差率(CER)。在模型量化之后,我们的模型执行合理的RTF和延迟。
translated by 谷歌翻译