Recognizing a word shortly after it is spoken is an important requirement for automatic speech recognition (ASR) systems in real-world scenarios. As a result, a large body of work on streaming audio-only ASR models has been presented in the literature. However, streaming audio-visual automatic speech recognition (AV-ASR) has received little attention in earlier works. In this work, we propose a streaming AV-ASR system based on a hybrid connectionist temporal classification (CTC)/attention neural network architecture. The audio and the visual encoder neural networks are both based on the conformer architecture, which is made streamable using chunk-wise self-attention (CSA) and causal convolution. Streaming recognition with a decoder neural network is realized by using the triggered attention technique, which performs time-synchronous decoding with joint CTC/attention scoring. For frame-level ASR criteria, such as CTC, a synchronized response from the audio and visual encoders is critical for a joint AV decision making process. In this work, we propose a novel alignment regularization technique that promotes synchronization of the audio and visual encoder, which in turn results in better word error rates (WERs) at all SNR levels for streaming and offline AV-ASR models. The proposed AV-ASR model achieves WERs of 2.0% and 2.6% on the Lip Reading Sentences 3 (LRS3) dataset in an offline and online setup, respectively, which both present state-of-the-art results when no external training data are used.
translated by 谷歌翻译
基于音频的自动语音识别(ASR)在嘈杂的环境中显着降低,并且特别容易受到干扰语音的影响,因为模型无法确定要转录的扬声器。视听语音识别(AVSR)系统通过将音频流与不变噪声不变的可视信息补充,帮助模型对所需扬声器的视觉信息来提高鲁棒性。但是,以前的AVSR工作仅关注监督学习设置;因此,通过可用的标记数据量阻碍了进度。在这项工作中,我们提出了一个自我监督的AVSR框架,建立在视听休伯特(AV-HUBERT),是最先进的视听语音表示学习模型。在最大可用的AVSR基准数据集LRS3中,我们的方法在存在的情况下使用少于10%的标签数据(433HR与30HR)之前的最先进(28.0%与14.1%)优于〜50%(28.0%vs.14.1%)禁止噪声,平均减少了基于音频模型的WER以上超过75%(25.8%与5.8%)。
translated by 谷歌翻译
本文着重于设计一种噪声端到端音频语音识别(AVSR)系统。为此,我们提出了视觉上下文驱动的音频功能增强模块(V-Cafe),以在视听通讯的帮助下增强输入噪声音频语音。所提出的V-Cafe旨在捕获唇部运动的过渡,即视觉上下文,并通过考虑获得的视觉上下文来产生降噪面膜。通过与上下文相关的建模,可以完善掩模生成Viseme-to-phoneme映射中的歧义。嘈杂的表示用降噪面膜掩盖,从而增强了音频功能。增强的音频功能与视觉特征融合在一起,并将其带入由构象异构体和变压器组成的编码器模型,以进行语音识别。我们显示了带有V-fafe的端到端AVSR,可以进一步改善AVSR的噪声。使用两个最大的视听数据集LRS2和LRS3评估了所提出方法的有效性。
translated by 谷歌翻译
语音的视频录制包含相关的音频和视觉信息,为语音表示从扬声器的唇部运动和产生的声音提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HUBERT),是视听语音的自我监督的代表学习框架,这些屏幕屏蔽了多流视频输入并预测自动发现和迭代地精制多模式隐藏单元。 AV-HUBERT学习强大的视听语音表示,这些语音表示受益于唇读和自动语音识别。在最大的公众唇读基准LRS3(433小时)中,AV-Hubert达到32.5%WER,只有30个小时的标签数据,优于前一种最先进的方法(33.6%)培训,达到了一千次转录的视频数据(31k小时)。当使用来自LRS3的所有433小时的标记数据并结合自培训时,唇读WER进一步降低至26.9%。使用我们在相同的基准测试中使用您的视听表示,用于音频语音识别的相对效率为40%,而最先进的性能(1.3%Vs 2.3%)。我们的代码和模型可在https://github.com/facebookResearch/av_hubert获得
translated by 谷歌翻译
视听自动语音识别(AV-ASR)是ASR的扩展,它通常来自扬声器嘴的动作。与仅关注唇部运动的作品不同,我们研究了整个视觉框架(视觉动作,对象,背景等)的贡献。这对于不一定可见的说话者不一定可见的视频特别有用。为了解决这项任务,我们提出了一个新的序列到序列视听ASR变压器(Avatar),该序列是从频谱图和全帧RGB端到端训练的。为了防止音频流主导训练,我们提出了不同的单词掩盖策略,从而鼓励我们的模型注意视觉流。我们证明了视觉模态对2 AV-ASR基准测试的贡献,尤其是在模拟噪声的情况下,并表明我们的模型以很大的边距优于所有其他先前的工作。最后,我们还为AV-ASR创建了一个名为Visspeech的新的现实世界测试床,该床在挑战性的音频条件下展示了视觉模态的贡献。
translated by 谷歌翻译
尽管视听模型与仅限音频模型相比可以产生卓越的性能和鲁棒性,但由于缺乏标记和未标记的视听数据以及每种方式部署一个模型的成本,它们的开发和采用受到阻碍。在本文中,我们提出了U-Hubert,这是一个自制的预训练框架,可以通过统一的蒙版群集预测目标来利用多模式和单峰语音。通过在预训练期间利用模态辍学,我们证明了一个微调模型可以在PAR上取得比较的性能或比最先进的模态特异性模型更好。此外,我们仅在音频上进行微调的模型可以通过视听和视觉语音输入来表现良好,从而实现了零击的模态概括,以实现语音识别和扬声器验证。特别是,我们的单个模型在带有音频/视听/视觉输入的LRS3上产生1.2%/1.4%/27.2%的语音识别单词错误率。
translated by 谷歌翻译
视听自动语音识别(AV-ASR)通过引入视频模式作为其他信息来源来扩展语音识别。在这项工作中,使用说话者嘴的运动中包含的信息用于增强音频功能。传统上,视频模式是通过3D卷积神经网络(例如VGG的3D版本)处理的。最近,图像变压器网络ARXIV:2010.11929展示了为图像分类任务提取丰富的视觉特征的能力。在这里,我们建议用视频变压器替换3D卷积以提取视觉特征。我们在YouTube视频的大规模语料库上训练基准和提议的模型。在YouTube视频的标记子集以及LRS3-TED公共语料库中评估了我们的方法的性能。我们最好的仅视频模型在YTDEV18上获得了34.9%的WER,而LRS3-TED则获得了19.3%,比我们的卷积基线获得了10%和9%的相对改善。在微调模型(1.6%WER)之后,我们实现了在LRS3-TED上进行视听识别的最先进的状态。此外,在一系列关于多人AV-ASR的实验中,我们在卷积视频前端获得了2%的平均相对降低。
translated by 谷歌翻译
Audio-visual speech recognition (AVSR) has gained remarkable success for ameliorating the noise-robustness of speech recognition. Mainstream methods focus on fusing audio and visual inputs to obtain modality-invariant representations. However, such representations are prone to over-reliance on audio modality as it is much easier to recognize than video modality in clean conditions. As a result, the AVSR model underestimates the importance of visual stream in face of noise corruption. To this end, we leverage visual modality-specific representations to provide stable complementary information for the AVSR task. Specifically, we propose a reinforcement learning (RL) based framework called MSRL, where the agent dynamically harmonizes modality-invariant and modality-specific representations in the auto-regressive decoding process. We customize a reward function directly related to task-specific metrics (i.e., word error rate), which encourages the MSRL to effectively explore the optimal integration strategy. Experimental results on the LRS3 dataset show that the proposed method achieves state-of-the-art in both clean and various noisy conditions. Furthermore, we demonstrate the better generality of MSRL system than other baselines when test set contains unseen noises.
translated by 谷歌翻译
本文调查了视听扬声器表示的自我监督的预训练,其中显示了视觉流,显示说话者的口腔区域与语音一起用作输入。我们的研究重点是视听隐藏单元BERT(AV-HUBERT)方法,该方法是最近开发的通用音频语音训练前训练框架。我们进行了广泛的实验,以探测预训练和视觉方式的有效性。实验结果表明,AV-Hubert可以很好地概括与说话者相关的下游任务,从而使标签效率提高了大约10倍的仅10倍,仅音频和视听扬声器验证。我们还表明,结合视觉信息,甚至仅仅是唇部区域,都大大提高了性能和噪声稳健性,在清洁条件下将EER降低了38%,在嘈杂的条件下将EER降低了75%。
translated by 谷歌翻译
We present RAVEn, a self-supervised multi-modal approach to jointly learn visual and auditory speech representations. Our pre-training objective involves encoding masked inputs, and then predicting contextualised targets generated by slowly-evolving momentum encoders. Driven by the inherent differences between video and audio, our design is asymmetric w.r.t. the two modalities' pretext tasks: Whereas the auditory stream predicts both the visual and auditory targets, the visual one predicts only the auditory targets. We observe strong results in low- and high-resource labelled data settings when fine-tuning the visual and auditory encoders resulting from a single pre-training stage, in which the encoders are jointly trained. Notably, RAVEn surpasses all self-supervised methods on visual speech recognition (VSR) on LRS3, and combining RAVEn with self-training using only 30 hours of labelled data even outperforms a recent semi-supervised method trained on 90,000 hours of non-public data. At the same time, we achieve state-of-the-art results in the LRS3 low-resource setting for auditory speech recognition (as well as for VSR). Our findings point to the viability of learning powerful speech representations entirely from raw video and audio, i.e., without relying on handcrafted features. Code and models will be made public.
translated by 谷歌翻译
Prior works on improving speech quality with visual input typically study each type of auditory distortion separately (e.g., separation, inpainting, video-to-speech) and present tailored algorithms. This paper proposes to unify these subjects and study Generalized Speech Enhancement, where the goal is not to reconstruct the exact reference clean signal, but to focus on improving certain aspects of speech. In particular, this paper concerns intelligibility, quality, and video synchronization. We cast the problem as audio-visual speech resynthesis, which is composed of two steps: pseudo audio-visual speech recognition (P-AVSR) and pseudo text-to-speech synthesis (P-TTS). P-AVSR and P-TTS are connected by discrete units derived from a self-supervised speech model. Moreover, we utilize self-supervised audio-visual speech model to initialize P-AVSR. The proposed model is coined ReVISE. ReVISE is the first high-quality model for in-the-wild video-to-speech synthesis and achieves superior performance on all LRS3 audio-visual enhancement tasks with a single model. To demonstrates its applicability in the real world, ReVISE is also evaluated on EasyCom, an audio-visual benchmark collected under challenging acoustic conditions with only 1.6 hours of training data. Similarly, ReVISE greatly suppresses noise and improves quality. Project page: https://wnhsu.github.io/ReVISE.
translated by 谷歌翻译
本文介绍了一个新型的流媒体自动语音识别(ASR)框架,用于由带有任意几何形状的遥远麦克风阵列捕获的多对话者重叠语音。我们的名为T-Sot-VA的框架在独立开发了两种最近的技术上。基于令牌级别的序列化输出训练(T-SOT),数量几何形状 - 反应连续的语音分离或VARARRARY和流媒体多对话者ASR。为了结合两种技术的最佳,我们新设计了一个基于T-SOT的ASR模型,该模型基于Vararray的两个分离的语音信号生成序列化的多对话者转录。我们还为这种ASR模型提出了一种预训练方案,我们基于单膜单键式ASR训练数据来模拟Vararray的输出信号。使用AMI会议语料库的对话转录实验表明,基于提议的框架的系统大大优于常规的框架。我们的系统分别在保留流媒体推理能力的同时,在多远离微米频道设置中分别实现了AMI开发和评估集的最新单词错误率为13.7%和15.5%。
translated by 谷歌翻译
这项工作的目的是通过利用视频中的音频和视觉流的自然共同发生来研究语音重建(视频到音频)对语音重建(视频到音频)的影响。我们提出了Lipsound2,其包括编码器 - 解码器架构和位置感知注意机制,可直接将面部图像序列映射到熔化谱图,而无需任何人类注释。提出的Lipsound2模型首先在$ 2400H的$ 2400h多语言(例如英语和德语)视听数据(VoxceleB2)上进行预先培训。为了验证所提出的方法的概括性,我们将在与以前的方法相比,微调在域特定数据集(网格,TCD-Timit)上进行预先训练的模型,以实现对语音质量和可懂度的显着提高扬声器依赖和依赖的设置。除了英语外,我们还在CMLR数据集上进行中文语音重建,以验证对转移性的影响。最后,我们通过微调在预先训练的语音识别系统上产生生成的音频并在英语和中文基准数据集中实现最先进的性能来培训级联唇读(视频到文本)系统。
translated by 谷歌翻译
主动演讲者的检测和语音增强已成为视听场景中越来越有吸引力的主题。根据它们各自的特征,独立设计的体系结构方案已被广泛用于与每个任务的对应。这可能导致模型特定于任务所学的表示形式,并且不可避免地会导致基于多模式建模的功能缺乏概括能力。最近的研究表明,建立听觉和视觉流之间的跨模式关系是针对视听多任务学习挑战的有前途的解决方案。因此,作为弥合视听任务中多模式关联的动机,提出了一个统一的框架,以通过在本研究中通过联合学习视听模型来实现目标扬声器的检测和语音增强。
translated by 谷歌翻译
传统上,自动语音识别的研究重点是对音频表示的本地首选编码,以预测话语中的语音。不幸的是,依靠此类超本地信息的方法往往容易受到本地级腐败(例如音频框架掉落或大声的噪音)和全球级别的噪音(例如环境噪音或背景噪音)在训练期间看到。在这项工作中,我们介绍了一种新颖的方法,该方法利用了基于掩盖语言建模的自我监督的学习技术来计算对话语发生的环境的全球多模式编码。然后,我们使用一个新的深融合框架将这种全局上下文集成到传统的ASR方法中,并证明所得的方法可以在LibrisPeech上胜过高达7%的基线方法;内部数据集的收益范围从6%(较大型号)到45%(在较小的型号上)。
translated by 谷歌翻译
人类脑中脑中的背景利用异质感官信息,以有效地执行包括视觉和听力的认知任务。例如,在鸡尾酒会党的情况下,人类听觉Cortex上下文中的视听(AV)提示才能更好地感知言论。最近的研究表明,与音频SE模型相比,AV语音增强(SE)模型可以显着提高信噪比(SNR)环境的极低信号的语音质量和可懂度。然而,尽管在AV SE的领域进行了显着的研究,但具有低延迟的实时处理模型的开发仍然是一个强大的技术挑战。在本文中,我们为低延迟扬声器的独立AV SE提供了一种新颖的框架,可以概括一系列视觉和声学噪声。特别地,提出了一种生成的对抗性网络(GaN)来解决AV SE的视觉缺陷的实际问题。此外,我们提出了一种基于神经网络的深度神经网络的实时AV SE模型,考虑到从GaN的清洁的视觉语音输出来提供更强大的SE。拟议的框架使用客观语音质量和可懂度指标和主观上市测试对合成和真实嘈杂的AV语料库进行评估。比较仿真结果表明,我们的实时AV SE框架优于最先进的SE方法,包括最近的基于DNN的SE模型。
translated by 谷歌翻译
最近,语音界正在看到从基于深神经网络的混合模型移动到自动语音识别(ASR)的端到端(E2E)建模的显着趋势。虽然E2E模型在大多数基准测试中实现最先进的,但在ASR精度方面,混合模型仍然在当前的大部分商业ASR系统中使用。有很多实际的因素会影响生产模型部署决定。传统的混合模型,用于数十年的生产优化,通常擅长这些因素。在不为所有这些因素提供优异的解决方案,E2E模型很难被广泛商业化。在本文中,我们将概述最近的E2E模型的进步,专注于解决行业视角的挑战技术。
translated by 谷歌翻译
在本文中,我们提出了一种新的双通方法来统一一个模型中的流和非流媒体端到端(E2E)语音识别。我们的型号采用混合CTC /注意架构,其中编码器中的构装层被修改。我们提出了一种基于动态的块的注意力策略,以允许任意右上下文长度。在推理时间,CTC解码器以流式方式生成n最佳假设。只有更改块大小,可以轻松控制推理延迟。然后,CTC假设被注意力解码器重新筛选以获得最终结果。这种有效的备用过程导致句子级延迟非常小。我们在开放的170小时Aishell-1数据集上的实验表明,所提出的方法可以简单有效地统一流和非流化模型。在Aishell-1测试集上,与标准的非流式变压器相比,我们的统一模型在非流式ASR中实现了5.60%的相对字符错误率(CER)减少。同一模型在流式ASR系统中实现了5.42%的CER,640ms延迟。
translated by 谷歌翻译
视听目标语音提取旨在通过查看唇部运动来从嘈杂的混合物中提取某个说话者的语音,这取得了重大进展,结合了时间域的语音分离模型和视觉特征提取器(CNN)。融合音频和视频信息的一个问题是它们具有不同的时间分辨率。当前的大多数研究都会沿时间维度进行视觉特征,以便音频和视频功能能够随时间对齐。但是,我们认为唇部运动主要包含长期或电话级信息。基于这个假设,我们提出了一种融合视听功能的新方法。我们观察到,对于dprnn \ cite {dprnn},互联维度的时间分辨率可能非常接近视频帧的时间分辨率。像\ cite {sepformer}一样,dprnn中的LSTM被内部内部和牙间的自我注意力所取代,但是在提出的算法中,界界的注意力将视觉特征作为附加特征流。这样可以防止视觉提示的提高采样,从而导致更有效的视听融合。结果表明,与其他基于时间域的视听融合模型相比,我们获得了优越的结果。
translated by 谷歌翻译
本文提出了代币级别的序列化输出训练(T-SOT),这是流式传输多对话者自动语音识别(ASR)的新型框架。与使用多个输出分支的现有流媒体多对话者ASR模型不同,T-SOT模型只有一个单个输出分支,该分支基于其排放时间生成多个扬声器的识别令牌(例如,单词,子字)。引入了指示“虚拟”输出通道更改的特殊令牌,以跟踪重叠的话语。与先前的流媒体ASR模型相比,T-SOT模型具有较低的推理成本和更简单的模型体系结构的优点。此外,在我们对LibrisPeechMix和Librics数据集的实验中,基于T-SOT的变压器换能器模型可实现最新的单词错误率,从而有很大的差距。对于非重叠的语音,T-SOT模型在精度和计算成本方面与单调的ASR模型相提并论,为单个单词和多对话者方案部署一个模型打开了大门。
translated by 谷歌翻译