使用未知数量的扬声器数量的单通道远场录制的自动语音识别(ASR)传统上由级联模块解决。最近的研究表明,与模块化系统相比,端到端(E2E)多扬声器ASR模型可以实现卓越的识别准确性。但是,这些模型不会确保由于其对完整音频上下文的依赖性而实时适用性。这项工作采用实时适用性,作为模型设计的第一优先级,并解决了以前的多扬声器经常性神经网络传感器(MS-RNN-T)的几个挑战。首先,我们在训练期间介绍一般的重叠言论模拟,在LibrisPeechMix测试集上产生14%的相对字错误率(WER)改进。其次,我们提出了一种新的多转RNN-T(MT-RNN-T)模型,其具有基于重叠的目标布置策略,其概括为任意数量的扬声器,而没有模型架构的变化。我们调查在Liblics测试集上培训训练期间看到的最大扬声器数量的影响,并在两位扬声器MS-RNN-T上报告28%的相对加速。第三,我们试验丰富的转录战略,共同承认和分割多方言论。通过深入分析,我们讨论所提出的系统的潜在陷阱以及未来的未来研究方向。
translated by 谷歌翻译
本文提出了代币级别的序列化输出训练(T-SOT),这是流式传输多对话者自动语音识别(ASR)的新型框架。与使用多个输出分支的现有流媒体多对话者ASR模型不同,T-SOT模型只有一个单个输出分支,该分支基于其排放时间生成多个扬声器的识别令牌(例如,单词,子字)。引入了指示“虚拟”输出通道更改的特殊令牌,以跟踪重叠的话语。与先前的流媒体ASR模型相比,T-SOT模型具有较低的推理成本和更简单的模型体系结构的优点。此外,在我们对LibrisPeechMix和Librics数据集的实验中,基于T-SOT的变压器换能器模型可实现最新的单词错误率,从而有很大的差距。对于非重叠的语音,T-SOT模型在精度和计算成本方面与单调的ASR模型相提并论,为单个单词和多对话者方案部署一个模型打开了大门。
translated by 谷歌翻译
本文介绍了流式扬声器的自动语音识别(SA-ASR)模型,该模型可以识别``即使多个人同时讲话,谁说'谁说什么”。我们的模型基于令牌级的序列化输出培训(T-SOT),该培训最近提议以流媒体方式转录多对词的演讲。为了进一步认识说话者的身份,我们提出了一个基于编码器的扬声器嵌入提取器,该扬声器可以估算每个公认的代币的说话者表示,不仅是从非重叠的语音中,而且还来自重叠的语音。所提出的扬声器嵌入为T-vector,与T-SOT ASR模型同步提取,从而可以通过低潜伏期的多词器转录来联合执行说话者识别(SID)或说话者诊断(SD)。我们通过使用LibrisPeechMix和Libralics Corpora评估了ASR和SID/SD联合任务的建议模型。所提出的模型比以前的流媒体模型获得了更高的准确性,并且与最新的离线SA-ASR模型显示出可比甚至更高的结果。
translated by 谷歌翻译
扬声器日流是一个标签音频或视频录制的任务,与扬声器身份或短暂的任务标记对应于扬声器标识的类,以识别“谁谈到何时发表讲话”。在早期,对MultiSpeaker录音的语音识别开发了扬声器日益衰退算法,以使扬声器自适应处理能够实现扬声器自适应处理。这些算法还将自己的价值作为独立应用程序随着时间的推移,为诸如音频检索等下游任务提供特定于扬声器的核算。最近,随着深度学习技术的出现,这在讲话应用领域的研究和实践中引起了革命性的变化,对扬声器日益改善已经进行了快速进步。在本文中,我们不仅审查了扬声器日益改善技术的历史发展,而且还审查了神经扬声器日益改善方法的最新进步。此外,我们讨论了扬声器日复速度系统如何与语音识别应用相结合,以及最近深度学习的激增是如何引领联合建模这两个组件互相互补的方式。通过考虑这种令人兴奋的技术趋势,我们认为本文对社区提供了有价值的贡献,以通过巩固具有神经方法的最新发展,从而促进更有效的扬声器日益改善进一步进展。
translated by 谷歌翻译
在本文中,我们在多方会议场景中对说话者的自动语音识别(SA-ASR)进行了比较研究,这一主题越来越关注丰富的转录。具体而言,本研究评估了三种方法。第一种方法,即FD-SOT,由框架级诊断模型组成,以识别说话者和多对话者ASR以识别话语。通过对齐诊断结果和公认的假设,可以获得说话者归因的转录。但是,由于模块化的独立性,这种对齐策略可能会遭受错误的时间戳,从而严重阻碍了模型性能。因此,我们提出了第二种方法WD-SOT,以通过引入单词水平诊断模型来解决对齐误差,从而可以摆脱这种时间戳对齐依赖性。为了进一步缓解对齐问题,我们提出了第三种方法TS-ASR,该方法可以训练目标扬声器分离模块和ASR模块。通过比较每种SA-ASR方法的各种策略,对真实会议场景语料库的实验结果,AlimeTing,表明WD-SOT方法可在平均扬声器依赖性角色错误率(SD-CER)相对降低10.7%,与之相比FD-SOT方法。此外,TS-ASR方法还优于FD-SOT方法,并带来16.5%的相对平均SD-CER减少。
translated by 谷歌翻译
言语分离的许多最近进步主要针对具有高重叠程度的短音频话语的合成混合物。这些数据集与真实的会话数据显着不同,因此,在这些数据集上培训和评估的模型不会概括到真实的会话方案。使用大多数这些模型用于长形式语音的另一个问题是由于时间频率掩模或置换不变训练(PIT)损耗的无监督聚类,因此是分离的语音段的非明确顺序。这导致准确地缝合用于自动语音识别(ASR)的下游任务的均匀扬声器段。在本文中,我们提出了一种扬声器调节分离器,在直接从混合信号中提取的扬声器嵌入物上训练。我们使用定向丢失训练此模型,该丢失调节分离的段的顺序。使用此模型,我们对真实会话数据的单词错误率(WER)进行了重大改进,而无需额外的重新拼接步骤。
translated by 谷歌翻译
本文介绍了一个新型的流媒体自动语音识别(ASR)框架,用于由带有任意几何形状的遥远麦克风阵列捕获的多对话者重叠语音。我们的名为T-Sot-VA的框架在独立开发了两种最近的技术上。基于令牌级别的序列化输出训练(T-SOT),数量几何形状 - 反应连续的语音分离或VARARRARY和流媒体多对话者ASR。为了结合两种技术的最佳,我们新设计了一个基于T-SOT的ASR模型,该模型基于Vararray的两个分离的语音信号生成序列化的多对话者转录。我们还为这种ASR模型提出了一种预训练方案,我们基于单膜单键式ASR训练数据来模拟Vararray的输出信号。使用AMI会议语料库的对话转录实验表明,基于提议的框架的系统大大优于常规的框架。我们的系统分别在保留流媒体推理能力的同时,在多远离微米频道设置中分别实现了AMI开发和评估集的最新单词错误率为13.7%和15.5%。
translated by 谷歌翻译
In this work we propose a novel token-based training strategy that improves Transformer-Transducer (T-T) based speaker change detection (SCD) performance. The conventional T-T based SCD model loss optimizes all output tokens equally. Due to the sparsity of the speaker changes in the training data, the conventional T-T based SCD model loss leads to sub-optimal detection accuracy. To mitigate this issue, we use a customized edit-distance algorithm to estimate the token-level SCD false accept (FA) and false reject (FR) rates during training and optimize model parameters to minimize a weighted combination of the FA and FR, focusing the model on accurately predicting speaker changes. We also propose a set of evaluation metrics that align better with commercial use cases. Experiments on a group of challenging real-world datasets show that the proposed training method can significantly improve the overall performance of the SCD model with the same number of parameters.
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
Self-supervised learning (SSL) methods such as WavLM have shown promising speech separation (SS) results in small-scale simulation-based experiments. In this work, we extend the exploration of the SSL-based SS by massively scaling up both the pre-training data (more than 300K hours) and fine-tuning data (10K hours). We also investigate various techniques to efficiently integrate the pre-trained model with the SS network under a limited computation budget, including a low frame rate SSL model training setup and a fine-tuning scheme using only the part of the pre-trained model. Compared with a supervised baseline and the WavLM-based SS model using feature embeddings obtained with the previously released 94K hours trained WavLM, our proposed model obtains 15.9% and 11.2% of relative word error rate (WER) reductions, respectively, for a simulated far-field speech mixture test set. For conversation transcription on real meeting recordings using continuous speech separation, the proposed model achieves 6.8% and 10.6% of relative WER reductions over the purely supervised baseline on AMI and ICSI evaluation sets, respectively, while reducing the computational cost by 38%.
translated by 谷歌翻译
在本文中,我们提出了一种解决方案,以允许扬声器条件语音模型,例如VoiceFilter-Lite,以支持单个通过中的任意数量的注册用户。这是通过使用多个扬声器嵌入的注意机制来实现,以计算单个细小嵌入,然后将其用作模型的侧面输入。我们实现了多用户VoiceFilter-Lite并为三个任务进行了评估:(1)流自动语音识别(ASR)任务; (2)独立于文本的扬声器验证任务; (3)个性化关键级检测任务,其中ASR必须在嘈杂的环境中检测来自多个注册用户的关键次数。我们的实验表明,在最多四个注册的用户中,多用户VoiceFilter-Lite能够在具有重叠语音时显着降低语音识别和扬声器验证错误,而不会影响其他声学条件下的性能。这种细心的扬声器嵌入方法也可以轻松应用于其他扬声器条件模型,如个人VAD和个性化ASR。
translated by 谷歌翻译
在许多启用语音的人机交互情景中,用户语音可以与设备播放音频重叠。在这些实例中,诸如关键字斑点(KW)和设备定向语音检测(DDD)的任务的性能可能显着降低。为了解决这个问题,我们提出了一种隐含的声学回声消除(IAEC)框架,其中训练神经网络以利用参考麦克风信道的附加信息来学习忽略干扰信号并提高检测性能。我们分别研究了这个框架,分别为kWs和ddd的任务,一个增强版的谷歌语音命令v2和一个真实世界的alexa设备数据集。值得注意的是,在设备播放条件期间,我们显示DDD任务的假拒绝率为566 \%。我们还表现出与KWS任务的强大端到端神经回声消除+ KW基准的性能相当或卓越的性能,其数量级计算要求较少。
translated by 谷歌翻译
最近,语音界正在看到从基于深神经网络的混合模型移动到自动语音识别(ASR)的端到端(E2E)建模的显着趋势。虽然E2E模型在大多数基准测试中实现最先进的,但在ASR精度方面,混合模型仍然在当前的大部分商业ASR系统中使用。有很多实际的因素会影响生产模型部署决定。传统的混合模型,用于数十年的生产优化,通常擅长这些因素。在不为所有这些因素提供优异的解决方案,E2E模型很难被广泛商业化。在本文中,我们将概述最近的E2E模型的进步,专注于解决行业视角的挑战技术。
translated by 谷歌翻译
在长时间到数小时的长时间话语中,提高端到端ASR模型的性能是语音识别的持续挑战。一个常见的解决方案是使用单独的语音活动检测器(VAD)事先将音频分割,该声音活动检测器(VAD)纯粹基于声音/非语音信息来决定段边界位置。但是,VAD细分器可能是现实世界语音的最佳选择,例如,一个完整的句子应该整体上可能包含犹豫(“设置... 5点钟的警报”) 。我们建议用端到端的ASR模型替换VAD,能够以流方式预测段边界,从而使细分决定不仅在更好的声学特征上,而且还可以在解码文本的语义特征上进行,并具有可忽略的额外功能计算。在现实世界长音频(YouTube)的实验中,长度长达30分钟,我们证明了相对改善的8.5%,并且与VAD段基线相比,中位段延迟潜伏期的中位数延迟延迟减少了250毫秒。 - ART构象体RNN-T模型。
translated by 谷歌翻译
视频到语音是从口语说话视频中重建音频演讲的过程。此任务的先前方法依赖于两个步骤的过程,该过程从视频中推断出中间表示,然后使用Vocoder或波形重建算法将中间表示形式解码为波形音频。在这项工作中,我们提出了一个基于生成对抗网络(GAN)的新的端到端视频到语音模型,该模型将口语视频转换为波形端到端,而无需使用任何中间表示或单独的波形合成算法。我们的模型由一个编码器架构组成,该体系结构接收原始视频作为输入并生成语音,然后将其馈送到波形评论家和权力评论家。基于这两个批评家的对抗损失的使用可以直接综合原始音频波形并确保其现实主义。此外,我们的三个比较损失的使用有助于建立生成的音频和输入视频之间的直接对应关系。我们表明,该模型能够用诸如网格之类的受约束数据集重建语音,并且是第一个为LRW(野外唇读)生成可理解的语音的端到端模型,以数百名扬声器为特色。完全记录在“野外”。我们使用四个客观指标来评估两种不同的情况下生成的样本,这些客观指标衡量了人工语音的质量和清晰度。我们证明,所提出的方法在Grid和LRW上的大多数指标上都优于以前的所有作品。
translated by 谷歌翻译
本文介绍了增强现实耳机的嘈杂语音识别,该耳机有助于在真实的多方对话环境中进行口头交流。在模拟环境中积极研究的一种主要方法是,基于以监督方式训练的深神经网络(DNNS),依次执行语音增强和自动语音识别(ASR)。但是,在我们的任务中,由于培训和测试条件与用户的头部移动之间的不匹配,因此这种预处理的系统无法正常工作。为了仅增强目标扬声器的话语,我们基于基于DNN的语音掩码估计器使用束构造,该估计量可以适应地提取与头部相关特定方向相对应的语音组件。我们提出了一种半监督的适应方法,该方法使用带有地面真实转录和嘈杂的语音信号的干净语音信号在运行时共同更新蒙版估计器和ASR模型,并具有高度固定的估计转录。使用最先进的语音识别系统的比较实验表明,所提出的方法显着改善了ASR性能。
translated by 谷歌翻译
许多自动语音识别(ASR)数据集包括一个单一的预定义测试集,该测试集由一个或多个演讲者组成,其语音从未出现在培训集中。但是,对于说话者数量很少的数据集,这种“持有说明器”的数据分配策略可能不是理想的选择。这项研究调查了具有最小ASR培训资源的五种语言的十种不同数据拆分方法。我们发现(1)模型性能取决于选择哪个扬声器进行测试; (2)所有固定扬声器的平均单词错误率(WER)不仅与多个随机拆分的平均差异相当,而且与任何给定的单个随机拆分相当; (3)当数据以启发性或对抗性分开时,通常也可以比较; (4)话语持续时间和强度是可变性的相对预测因素,而不管数据分解如何。这些结果表明,广泛使用的宣传者输出的ASR数据分配方法可以产生不反映未见数据或说话者模型性能的结果。在面对数据稀疏时,随机拆分可以产生更可靠和可推广的估计。
translated by 谷歌翻译
设备的端到端(E2E)模型已显示出对质量和延迟的英语语音搜索任务的常规模型的改进。 E2E模型还显示了多语言自动语音识别(ASR)的有希望的结果。在本文中,我们将以前的容量解决方案扩展到流应用程序,并提出流媒体多语言E2E ASR系统,该系统在设备上完全运行,质量和延迟与单个单语言模型相当。为了实现这一目标,我们提出了一个编码器端量模型和一个终端(EOU)联合层,以提高质量和延迟权衡。我们的系统以语言不可知论的方式构建,允许它实时支持本条件的代码切换。为了解决大型模型的可行性问题,我们进行了设备分析,并用最近开发的嵌入解码器代替了耗时的LSTM解码器。通过这些更改,我们设法在不到实时的时间内在移动设备上运行了这样的系统。
translated by 谷歌翻译
视频到语音的合成(也称为Lip-speech)是指沉默的唇部动作转换为相应的音频。由于其自我监督的性质(即可以在无需手动标记的情况下训练)以及在线可用的视听数据的收集量不断增长,因此该任务受到了越来越多的关注。尽管有这些强烈的动机,现代视频到语音的作品主要集中在词汇和环境中具有很大限制的中小型语料库。在这项工作中,我们引入了一个可扩展的视频到语音框架,该框架由两个组件组成:视频到光谱图预测器和一个预训练的神经声码器,该框架将MEL频谱图转换为波形音频。我们在LRW上取得了最先进的效果,并且在LRW上的表现要优于以前的方法。更重要的是,通过使用简单的FeedForward模型专注于频谱图预测,我们可以有效地将方法扩展到非常不受约束的数据集:据我们所知,我们是第一个在具有挑战性的LRS3数据集上显示出可理解的结果。
translated by 谷歌翻译
近年来,在设备上的演讲识别(ASR)的个性化已经爆炸性增长,这在很大程度上是由于个人助理功能在移动设备和智能家居扬声器上越来越受欢迎。在这项工作中,我们提出了个人VAD 2.0,这是一种个性化的语音活动探测器,可检测目标扬声器的语音活动,作为流媒体上的ASR系统的一部分。尽管以前的概念证明研究已经验证了个人VAD的有效性,但在生产中可以使用该模型之前,仍然存在一些关键的挑战:首先,在招生和无人列的场景中,质量必须令人满意。其次,它应该以流媒体方式运行。最后,型号的大小应足够小,以适合有限的延迟和CPU/内存预算。为了满足多方面的要求,我们提出了一系列新颖的设计:1)高级扬声器嵌入调制方法; 2)一种新的培训范式,以概括为无数的条件; 3)用于延迟和资源限制的体系结构和运行时优化。对现实语音识别系统的广泛实验证明了我们提出的方法的最新性能。
translated by 谷歌翻译