唇读旨在仅基于唇部运动来预测语音。当它专注于视觉信息以建模语音时,其性能本质上对个人唇部外观和动作敏感。这使得唇读模型由于训练和测试条件之间的不匹配而将其应用于看不见的说话者时显示出降级的性能。演讲者的适应技术旨在减少火车和测试扬声器之间的不匹配,从而指导训练有素的模型,以专注于对语音内容进行建模而不由说话者变化介入。与数十年来基于音频的语音识别所做的努力相反,扬声器适应方法在唇部阅读中尚未得到很好的研究。在本文中,为了纠正看不见的扬声器的唇读模型的性能降解,我们提出了一种扬声器自适应的唇部阅读方法,即用户依赖用户。依赖用户的填充是一种特定于扬声器的输入,可以参与预训练的唇读模型的视觉特征提取阶段。因此,可以在编码视觉功能期间考虑不同扬声器的唇外观和动作信息,适合单个扬声器。此外,所提出的方法不需要1)任何其他层,2)修改预训练模型的学习权重,以及3)预训练期间使用的火车数据的扬声器标签。它只能以受监督或无监督的方式仅学习用户依赖的填充,直接适应了看不见的说话者。最后,为了减轻公共唇阅读数据库中的扬声器信息不足,我们将众所周知的视听数据库的扬声器标记为LRW,并设计出一种名为LRW-ID的不可见语的唇lip阅读方案。
translated by 谷歌翻译
这项工作的目的是通过利用视频中的音频和视觉流的自然共同发生来研究语音重建(视频到音频)对语音重建(视频到音频)的影响。我们提出了Lipsound2,其包括编码器 - 解码器架构和位置感知注意机制,可直接将面部图像序列映射到熔化谱图,而无需任何人类注释。提出的Lipsound2模型首先在$ 2400H的$ 2400h多语言(例如英语和德语)视听数据(VoxceleB2)上进行预先培训。为了验证所提出的方法的概括性,我们将在与以前的方法相比,微调在域特定数据集(网格,TCD-Timit)上进行预先训练的模型,以实现对语音质量和可懂度的显着提高扬声器依赖和依赖的设置。除了英语外,我们还在CMLR数据集上进行中文语音重建,以验证对转移性的影响。最后,我们通过微调在预先训练的语音识别系统上产生生成的音频并在英语和中文基准数据集中实现最先进的性能来培训级联唇读(视频到文本)系统。
translated by 谷歌翻译
这项工作的目的是从无声说话的脸部视频中重建演讲。最近的研究表明,来自无声说话面部视频的综合语音表现令人印象深刻。但是,他们尚未明确考虑不同扬声器的不同身份特征,这些特征在视频到语音综合中构成了挑战,这对于不可见的扬声器设置变得更加至关重要。与以前的方法不同,我们的方法是将语音内容和外观风格与给定的无声说话的面部视频分开。通过指导模型独立专注于建模这两个表示形式,即使给出了看不见主题的输入视频,我们也可以从模型中获得高清晰度的语音。为此,我们介绍了语音视觉选择模块,该模块将语音内容和扬声器身份与输入视频的视觉特征分开。分散的表示形式通过基于VISAGE风格的合成器共同纳入综合语音,该合成器通过在维护语音内容的同时涂上VISAGE风格来产生语音。因此,提议的框架带来了合成语音包含正确内容的优势,即使给出了看不见的主题的无声说话的脸部视频。我们验证了在网格,TCD-TIMIT志愿者和LRW数据集上提出的框架的有效性。可以在补充材料中听到综合语音。
translated by 谷歌翻译
本文的目标是学习强烈的唇读模型,可以在静音视频中识别语音。大多数事先有效地处理开放式视觉语音识别问题,通过调整在漫步的可视化功能之上的现有自动语音识别技术。相反,在本文中,我们专注于唇读中遇到的独特挑战,并提出量身定制的解决方案。为此,我们提出以下贡献:(1)我们提出了一种基于关注的汇集机制来聚合视觉语音表示; (2)我们首次使用Sub-Word单元进行唇读,并显示这使我们能够更好地模拟任务的含糊不限; (3)我们提出了一种用于视觉语音检测(VSD)的模型,在唇读网络顶部培训。在上文之后,我们在公共数据集训练时获得最先进的LRS2和LRS3基准,甚至通过使用更少的数据量级验证的大规模工业数据集培训的型号。我们最好的模型在LRS2数据集中实现了22.6%的字错误率,这是唇读模型前所未有的性能,显着降低了唇读和自动语音识别之间的性能差距。此外,在AVA-ActiveSpeaker基准测试中,我们的VSD模型超越了所有可视基线,甚至优于最近的几种视听方法。
translated by 谷歌翻译
语音的视频录制包含相关的音频和视觉信息,为语音表示从扬声器的唇部运动和产生的声音提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HUBERT),是视听语音的自我监督的代表学习框架,这些屏幕屏蔽了多流视频输入并预测自动发现和迭代地精制多模式隐藏单元。 AV-HUBERT学习强大的视听语音表示,这些语音表示受益于唇读和自动语音识别。在最大的公众唇读基准LRS3(433小时)中,AV-Hubert达到32.5%WER,只有30个小时的标签数据,优于前一种最先进的方法(33.6%)培训,达到了一千次转录的视频数据(31k小时)。当使用来自LRS3的所有433小时的标记数据并结合自培训时,唇读WER进一步降低至26.9%。使用我们在相同的基准测试中使用您的视听表示,用于音频语音识别的相对效率为40%,而最先进的性能(1.3%Vs 2.3%)。我们的代码和模型可在https://github.com/facebookResearch/av_hubert获得
translated by 谷歌翻译
本文着重于设计一种噪声端到端音频语音识别(AVSR)系统。为此,我们提出了视觉上下文驱动的音频功能增强模块(V-Cafe),以在视听通讯的帮助下增强输入噪声音频语音。所提出的V-Cafe旨在捕获唇部运动的过渡,即视觉上下文,并通过考虑获得的视觉上下文来产生降噪面膜。通过与上下文相关的建模,可以完善掩模生成Viseme-to-phoneme映射中的歧义。嘈杂的表示用降噪面膜掩盖,从而增强了音频功能。增强的音频功能与视觉特征融合在一起,并将其带入由构象异构体和变压器组成的编码器模型,以进行语音识别。我们显示了带有V-fafe的端到端AVSR,可以进一步改善AVSR的噪声。使用两个最大的视听数据集LRS2和LRS3评估了所提出方法的有效性。
translated by 谷歌翻译
当我们讲话时,可以从嘴唇的运动中推断出演讲的韵律和内容。在这项工作中,我们探讨了唇部综合的唇部任务,即,仅考虑说话者的唇部运动,我们将学习言语的唇部运动,我们专注于学习准确的唇部,以在不受限制的大型词汇环境中为多个说话者提供语音映射。我们通过其面部特征,即年龄,性别,种族和嘴唇动作来捕捉说话者的声音身份,即产生说话者身份的言语。为此,我们提出了一种新颖的方法“ lip2speech”,并采用关键设计选择,以实现无约束场景中语音合成的准确唇部。我们还使用定量,定性指标和人类评估进行了各种实验和广泛的评估。
translated by 谷歌翻译
视频到语音的合成(也称为Lip-speech)是指沉默的唇部动作转换为相应的音频。由于其自我监督的性质(即可以在无需手动标记的情况下训练)以及在线可用的视听数据的收集量不断增长,因此该任务受到了越来越多的关注。尽管有这些强烈的动机,现代视频到语音的作品主要集中在词汇和环境中具有很大限制的中小型语料库。在这项工作中,我们引入了一个可扩展的视频到语音框架,该框架由两个组件组成:视频到光谱图预测器和一个预训练的神经声码器,该框架将MEL频谱图转换为波形音频。我们在LRW上取得了最先进的效果,并且在LRW上的表现要优于以前的方法。更重要的是,通过使用简单的FeedForward模型专注于频谱图预测,我们可以有效地将方法扩展到非常不受约束的数据集:据我们所知,我们是第一个在具有挑战性的LRS3数据集上显示出可理解的结果。
translated by 谷歌翻译
本文调查了视听扬声器表示的自我监督的预训练,其中显示了视觉流,显示说话者的口腔区域与语音一起用作输入。我们的研究重点是视听隐藏单元BERT(AV-HUBERT)方法,该方法是最近开发的通用音频语音训练前训练框架。我们进行了广泛的实验,以探测预训练和视觉方式的有效性。实验结果表明,AV-Hubert可以很好地概括与说话者相关的下游任务,从而使标签效率提高了大约10倍的仅10倍,仅音频和视听扬声器验证。我们还表明,结合视觉信息,甚至仅仅是唇部区域,都大大提高了性能和噪声稳健性,在清洁条件下将EER降低了38%,在嘈杂的条件下将EER降低了75%。
translated by 谷歌翻译
在这项工作中,我们解决了为野外任何演讲者发出静音唇部视频演讲的问题。与以前的作品形成鲜明对比的是,我们的方法(i)不仅限于固定数量的扬声器,(ii)并未明确对域或词汇构成约束,并且(iii)涉及在野外记录的视频,反对实验室环境。该任务提出了许多挑战,关键是,所需的目标语音的许多功能(例如语音,音调和语言内容)不能完全从无声的面部视频中推断出来。为了处理这些随机变化,我们提出了一种新的VAE-GAN结构,该结构学会了将唇部和语音序列关联到变化中。在指导培训过程的多个强大的歧视者的帮助下,我们的发电机学会了以任何人的唇部运动中的任何声音综合语音序列。多个数据集上的广泛实验表明,我们的优于所有基线的差距很大。此外,我们的网络可以在特定身份的视频上进行微调,以实现与单扬声器模型相当的性能,该模型接受了$ 4 \ times $ $数据的培训。我们进行了大量的消融研究,以分析我们体系结构不同模块的效果。我们还提供了一个演示视频,该视频与我们的网站上的代码和经过训练的模型一起展示了几个定性结果: -合成}}
translated by 谷歌翻译
视频到语音是从口语说话视频中重建音频演讲的过程。此任务的先前方法依赖于两个步骤的过程,该过程从视频中推断出中间表示,然后使用Vocoder或波形重建算法将中间表示形式解码为波形音频。在这项工作中,我们提出了一个基于生成对抗网络(GAN)的新的端到端视频到语音模型,该模型将口语视频转换为波形端到端,而无需使用任何中间表示或单独的波形合成算法。我们的模型由一个编码器架构组成,该体系结构接收原始视频作为输入并生成语音,然后将其馈送到波形评论家和权力评论家。基于这两个批评家的对抗损失的使用可以直接综合原始音频波形并确保其现实主义。此外,我们的三个比较损失的使用有助于建立生成的音频和输入视频之间的直接对应关系。我们表明,该模型能够用诸如网格之类的受约束数据集重建语音,并且是第一个为LRW(野外唇读)生成可理解的语音的端到端模型,以数百名扬声器为特色。完全记录在“野外”。我们使用四个客观指标来评估两种不同的情况下生成的样本,这些客观指标衡量了人工语音的质量和清晰度。我们证明,所提出的方法在Grid和LRW上的大多数指标上都优于以前的所有作品。
translated by 谷歌翻译
在本文中,我们呈现VDTTS,一个视觉驱动的文本到语音模型。通过配音而激励,VDTTS利用视频帧作为伴随文本的附加输入,并生成与视频信号匹配的语音。我们展示了这允许VDTTS,与普通的TTS模型不同,产生不仅具有自然暂停和间距等韵律变化的语音,而且还与输入视频同步。实验,我们显示我们的模型产生良好的同步输出,接近地面真理的视频语音同步质量,在几个具有挑战性的基准中,包括来自VoxceleB2的“野外”内容。我们鼓励读者查看演示视频,演示视频语音同步,对扬声器ID交换和韵律的鲁棒性。
translated by 谷歌翻译
将文本输入转换为视频内容的任务已成为合成媒体生成的重要主题。已经提出了几种方法,其中一些方法在受限的任务中达到了近距离表现。在本文中,我们通过将文本转换为唇部标记来解决文本到视频生成问题的次要发音。但是,我们使用模块化,可控的系统体系结构进行此操作,并评估其每个组件。我们的标题名为Flexlip的系统分为两个单独的模块:文本到语音和语音到唇,都具有基本可控的深神经网络体系结构。这种模块化可以轻松替换其每个组件,同时还可以通过解开或投影输入功能来快速适应新的扬声器身份。我们表明,通过仅将数据的数据用于音频生成组件,而对于语音到唇部分量的5分钟,生成的唇部标记的客观度量与使用较大较大的唇部标记相当一组训练样本。我们还通过考虑数据和系统配置的几个方面,对系统的完整流进行了一系列客观评估措施。这些方面与培训数据的质量和数量有关,使用预审计的模型以及其中包含的数据以及目标扬声器的身份;关于后者,我们表明我们可以通过简单地更新模型中的嘴唇形状来对看不见的身份进行零拍的唇部适应。
translated by 谷歌翻译
在本文中,我们提出了一个神经端到端系统,用于保存视频的语音,唇部同步翻译。该系统旨在将多个组件模型结合在一起,并以目标语言的目标语言与目标语言的原始扬声器演讲的视频与目标语音相结合,但在语音,语音特征,面对原始扬声器的视频中保持着重点。管道从自动语音识别开始,包括重点检测,然后是翻译模型。然后,翻译后的文本由文本到语音模型合成,该模型重新创建了原始句子映射的原始重点。然后,使用语音转换模型将结果的合成语音映射到原始扬声器的声音。最后,为了将扬声器的嘴唇与翻译的音频同步,有条件的基于对抗网络的模型生成了相对于输入面图像以及语音转换模型的输出的适应性唇部运动的帧。最后,系统将生成的视频与转换后的音频结合在一起,以产生最终输出。结果是一个扬声器用另一种语言说话的视频而不真正知道。为了评估我们的设计,我们介绍了完整系统的用户研究以及对单个组件的单独评估。由于没有可用的数据集来评估我们的整个系统,因此我们收集了一个测试集并在此测试集上评估我们的系统。结果表明,我们的系统能够生成令人信服的原始演讲者的视频,同时保留原始说话者的特征。收集的数据集将共享。
translated by 谷歌翻译
主动演讲者的检测和语音增强已成为视听场景中越来越有吸引力的主题。根据它们各自的特征,独立设计的体系结构方案已被广泛用于与每个任务的对应。这可能导致模型特定于任务所学的表示形式,并且不可避免地会导致基于多模式建模的功能缺乏概括能力。最近的研究表明,建立听觉和视觉流之间的跨模式关系是针对视听多任务学习挑战的有前途的解决方案。因此,作为弥合视听任务中多模式关联的动机,提出了一个统一的框架,以通过在本研究中通过联合学习视听模型来实现目标扬声器的检测和语音增强。
translated by 谷歌翻译
配音是重新录制演员对话的后期生产过程,广泛用于电影制作和视频制作。它通常由专业的语音演员手动进行,他用适当的韵律读取行,以及与预先录制的视频同步。在这项工作中,我们提出了神经翻译,第一个神经网络模型来解决新型自动视频配音(AVD)任务:合成与来自文本给定视频同步的人类语音。神经杜布斯是一种多模态文本到语音(TTS)模型,它利用视频中的唇部运动来控制所生成的语音的韵律。此外,为多扬声器设置开发了一种基于图像的扬声器嵌入(ISE)模块,这使得神经Dubber能够根据扬声器的脸部产生具有合理的Timbre的语音。化学讲座的实验单扬声器数据集和LRS2多扬声器数据集显示,神经杜布斯可以在语音质量方面产生与最先进的TTS模型的语音声音。最重要的是,定性和定量评估都表明,神经杜布斯可以通过视频控制综合演讲的韵律,并产生与视频同步的高保真语音。
translated by 谷歌翻译
视听自动语音识别(AV-ASR)通过引入视频模式作为其他信息来源来扩展语音识别。在这项工作中,使用说话者嘴的运动中包含的信息用于增强音频功能。传统上,视频模式是通过3D卷积神经网络(例如VGG的3D版本)处理的。最近,图像变压器网络ARXIV:2010.11929展示了为图像分类任务提取丰富的视觉特征的能力。在这里,我们建议用视频变压器替换3D卷积以提取视觉特征。我们在YouTube视频的大规模语料库上训练基准和提议的模型。在YouTube视频的标记子集以及LRS3-TED公共语料库中评估了我们的方法的性能。我们最好的仅视频模型在YTDEV18上获得了34.9%的WER,而LRS3-TED则获得了19.3%,比我们的卷积基线获得了10%和9%的相对改善。在微调模型(1.6%WER)之后,我们实现了在LRS3-TED上进行视听识别的最先进的状态。此外,在一系列关于多人AV-ASR的实验中,我们在卷积视频前端获得了2%的平均相对降低。
translated by 谷歌翻译
视听自动语音识别(AV-ASR)是ASR的扩展,它通常来自扬声器嘴的动作。与仅关注唇部运动的作品不同,我们研究了整个视觉框架(视觉动作,对象,背景等)的贡献。这对于不一定可见的说话者不一定可见的视频特别有用。为了解决这项任务,我们提出了一个新的序列到序列视听ASR变压器(Avatar),该序列是从频谱图和全帧RGB端到端训练的。为了防止音频流主导训练,我们提出了不同的单词掩盖策略,从而鼓励我们的模型注意视觉流。我们证明了视觉模态对2 AV-ASR基准测试的贡献,尤其是在模拟噪声的情况下,并表明我们的模型以很大的边距优于所有其他先前的工作。最后,我们还为AV-ASR创建了一个名为Visspeech的新的现实世界测试床,该床在挑战性的音频条件下展示了视觉模态的贡献。
translated by 谷歌翻译
Audio-visual approaches involving visual inputs have laid the foundation for recent progress in speech separation. However, the optimization of the concurrent usage of auditory and visual inputs is still an active research area. Inspired by the cortico-thalamo-cortical circuit, in which the sensory processing mechanisms of different modalities modulate one another via the non-lemniscal sensory thalamus, we propose a novel cortico-thalamo-cortical neural network (CTCNet) for audio-visual speech separation (AVSS). First, the CTCNet learns hierarchical auditory and visual representations in a bottom-up manner in separate auditory and visual subnetworks, mimicking the functions of the auditory and visual cortical areas. Then, inspired by the large number of connections between cortical regions and the thalamus, the model fuses the auditory and visual information in a thalamic subnetwork through top-down connections. Finally, the model transmits this fused information back to the auditory and visual subnetworks, and the above process is repeated several times. The results of experiments on three speech separation benchmark datasets show that CTCNet remarkably outperforms existing AVSS methods with considerablely fewer parameters. These results suggest that mimicking the anatomical connectome of the mammalian brain has great potential for advancing the development of deep neural networks. Project repo is https://github.com/JusperLee/CTCNet.
translated by 谷歌翻译
视听扬声器日复速度旨在检测使用听觉和视觉信号时的``谁说话。现有的视听深度数据集主要专注于会议室或新闻工作室等室内环境,这些工作室与电影,纪录片和观众情景喜剧等许多情景中的野外视频完全不同。要创建一个能够有效地比较野外视频的日复速度方法的测试平台,我们向AVA电影数据集注释说话者深度标签,并创建一个名为AVA-AVD的新基准。由于不同的场景,复杂的声学条件和完全偏离屏幕扬声器,该基准是挑战。然而,如何处理偏离屏幕和屏幕上的扬声器仍然是一个关键挑战。为了克服它,我们提出了一种新的视听关系网络(AVR-Net),它引入了有效的模态掩模,以基于可见性捕获辨别信息。实验表明,我们的方法不仅可以优于最先进的方法,而且可以更加强大,因为改变屏幕扬声器的比率。消融研究证明了拟议的AVR-NET和尤其是日复一化的模态掩模的优点。我们的数据和代码将公开可用。
translated by 谷歌翻译