唇读是从唇部运动识别语音的操作。这是一项艰巨的任务,因为在发音时嘴唇的动作是类似的。在对话期间,景观用于描述唇部运动。本文旨在展示如何通过将视频到字符分为两个阶段,即将视频转换为Viseme,然后使用单独的型号将Viseme转换为角色来使用外部文本数据(用于对角色映射)。与正常序列相比,我们所提出的方法通过4 \%改善了4 \%的序列次序列在BBC-oxford唇读数2(LRS2)数据集上序列唇读模型。
translated by 谷歌翻译
本文的目标是学习强烈的唇读模型,可以在静音视频中识别语音。大多数事先有效地处理开放式视觉语音识别问题,通过调整在漫步的可视化功能之上的现有自动语音识别技术。相反,在本文中,我们专注于唇读中遇到的独特挑战,并提出量身定制的解决方案。为此,我们提出以下贡献:(1)我们提出了一种基于关注的汇集机制来聚合视觉语音表示; (2)我们首次使用Sub-Word单元进行唇读,并显示这使我们能够更好地模拟任务的含糊不限; (3)我们提出了一种用于视觉语音检测(VSD)的模型,在唇读网络顶部培训。在上文之后,我们在公共数据集训练时获得最先进的LRS2和LRS3基准,甚至通过使用更少的数据量级验证的大规模工业数据集培训的型号。我们最好的模型在LRS2数据集中实现了22.6%的字错误率,这是唇读模型前所未有的性能,显着降低了唇读和自动语音识别之间的性能差距。此外,在AVA-ActiveSpeaker基准测试中,我们的VSD模型超越了所有可视基线,甚至优于最近的几种视听方法。
translated by 谷歌翻译
这项工作的目的是通过利用视频中的音频和视觉流的自然共同发生来研究语音重建(视频到音频)对语音重建(视频到音频)的影响。我们提出了Lipsound2,其包括编码器 - 解码器架构和位置感知注意机制,可直接将面部图像序列映射到熔化谱图,而无需任何人类注释。提出的Lipsound2模型首先在$ 2400H的$ 2400h多语言(例如英语和德语)视听数据(VoxceleB2)上进行预先培训。为了验证所提出的方法的概括性,我们将在与以前的方法相比,微调在域特定数据集(网格,TCD-Timit)上进行预先训练的模型,以实现对语音质量和可懂度的显着提高扬声器依赖和依赖的设置。除了英语外,我们还在CMLR数据集上进行中文语音重建,以验证对转移性的影响。最后,我们通过微调在预先训练的语音识别系统上产生生成的音频并在英语和中文基准数据集中实现最先进的性能来培训级联唇读(视频到文本)系统。
translated by 谷歌翻译
唇读旨在仅基于唇部运动来预测语音。当它专注于视觉信息以建模语音时,其性能本质上对个人唇部外观和动作敏感。这使得唇读模型由于训练和测试条件之间的不匹配而将其应用于看不见的说话者时显示出降级的性能。演讲者的适应技术旨在减少火车和测试扬声器之间的不匹配,从而指导训练有素的模型,以专注于对语音内容进行建模而不由说话者变化介入。与数十年来基于音频的语音识别所做的努力相反,扬声器适应方法在唇部阅读中尚未得到很好的研究。在本文中,为了纠正看不见的扬声器的唇读模型的性能降解,我们提出了一种扬声器自适应的唇部阅读方法,即用户依赖用户。依赖用户的填充是一种特定于扬声器的输入,可以参与预训练的唇读模型的视觉特征提取阶段。因此,可以在编码视觉功能期间考虑不同扬声器的唇外观和动作信息,适合单个扬声器。此外,所提出的方法不需要1)任何其他层,2)修改预训练模型的学习权重,以及3)预训练期间使用的火车数据的扬声器标签。它只能以受监督或无监督的方式仅学习用户依赖的填充,直接适应了看不见的说话者。最后,为了减轻公共唇阅读数据库中的扬声器信息不足,我们将众所周知的视听数据库的扬声器标记为LRW,并设计出一种名为LRW-ID的不可见语的唇lip阅读方案。
translated by 谷歌翻译
在本文中,我们研究了波斯语的G2P转换的端到端和多模块框架的应用。结果表明,我们提出的多模型G2P系统在准确性和速度方面优于我们的端到端系统。该系统由发音词典作为我们的查找表组成,以及使用GRU和Transformer架构创建的波斯语中的同符,OOV和EZAFE的单独模型。该系统是序列级别而不是单词级别,它使其能够有效地捕获单词(跨字信息)之间的不成文关系,而无需进行任何预处理,而无需进行任何预歧歧义和EZAFE识别。经过评估后,我们的系统达到了94.48%的单词级准确性,表现优于先前的波斯语G2P系统。
translated by 谷歌翻译
在本文中,我们提出了一个神经端到端系统,用于保存视频的语音,唇部同步翻译。该系统旨在将多个组件模型结合在一起,并以目标语言的目标语言与目标语言的原始扬声器演讲的视频与目标语音相结合,但在语音,语音特征,面对原始扬声器的视频中保持着重点。管道从自动语音识别开始,包括重点检测,然后是翻译模型。然后,翻译后的文本由文本到语音模型合成,该模型重新创建了原始句子映射的原始重点。然后,使用语音转换模型将结果的合成语音映射到原始扬声器的声音。最后,为了将扬声器的嘴唇与翻译的音频同步,有条件的基于对抗网络的模型生成了相对于输入面图像以及语音转换模型的输出的适应性唇部运动的帧。最后,系统将生成的视频与转换后的音频结合在一起,以产生最终输出。结果是一个扬声器用另一种语言说话的视频而不真正知道。为了评估我们的设计,我们介绍了完整系统的用户研究以及对单个组件的单独评估。由于没有可用的数据集来评估我们的整个系统,因此我们收集了一个测试集并在此测试集上评估我们的系统。结果表明,我们的系统能够生成令人信服的原始演讲者的视频,同时保留原始说话者的特征。收集的数据集将共享。
translated by 谷歌翻译
当我们讲话时,可以从嘴唇的运动中推断出演讲的韵律和内容。在这项工作中,我们探讨了唇部综合的唇部任务,即,仅考虑说话者的唇部运动,我们将学习言语的唇部运动,我们专注于学习准确的唇部,以在不受限制的大型词汇环境中为多个说话者提供语音映射。我们通过其面部特征,即年龄,性别,种族和嘴唇动作来捕捉说话者的声音身份,即产生说话者身份的言语。为此,我们提出了一种新颖的方法“ lip2speech”,并采用关键设计选择,以实现无约束场景中语音合成的准确唇部。我们还使用定量,定性指标和人类评估进行了各种实验和广泛的评估。
translated by 谷歌翻译
将文本输入转换为视频内容的任务已成为合成媒体生成的重要主题。已经提出了几种方法,其中一些方法在受限的任务中达到了近距离表现。在本文中,我们通过将文本转换为唇部标记来解决文本到视频生成问题的次要发音。但是,我们使用模块化,可控的系统体系结构进行此操作,并评估其每个组件。我们的标题名为Flexlip的系统分为两个单独的模块:文本到语音和语音到唇,都具有基本可控的深神经网络体系结构。这种模块化可以轻松替换其每个组件,同时还可以通过解开或投影输入功能来快速适应新的扬声器身份。我们表明,通过仅将数据的数据用于音频生成组件,而对于语音到唇部分量的5分钟,生成的唇部标记的客观度量与使用较大较大的唇部标记相当一组训练样本。我们还通过考虑数据和系统配置的几个方面,对系统的完整流进行了一系列客观评估措施。这些方面与培训数据的质量和数量有关,使用预审计的模型以及其中包含的数据以及目标扬声器的身份;关于后者,我们表明我们可以通过简单地更新模型中的嘴唇形状来对看不见的身份进行零拍的唇部适应。
translated by 谷歌翻译
语音的视频录制包含相关的音频和视觉信息,为语音表示从扬声器的唇部运动和产生的声音提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HUBERT),是视听语音的自我监督的代表学习框架,这些屏幕屏蔽了多流视频输入并预测自动发现和迭代地精制多模式隐藏单元。 AV-HUBERT学习强大的视听语音表示,这些语音表示受益于唇读和自动语音识别。在最大的公众唇读基准LRS3(433小时)中,AV-Hubert达到32.5%WER,只有30个小时的标签数据,优于前一种最先进的方法(33.6%)培训,达到了一千次转录的视频数据(31k小时)。当使用来自LRS3的所有433小时的标记数据并结合自培训时,唇读WER进一步降低至26.9%。使用我们在相同的基准测试中使用您的视听表示,用于音频语音识别的相对效率为40%,而最先进的性能(1.3%Vs 2.3%)。我们的代码和模型可在https://github.com/facebookResearch/av_hubert获得
translated by 谷歌翻译
手写的文本识别问题是由计算机视觉社区的研究人员广泛研究的,因为它的改进和适用于日常生活的范围,它是模式识别的子域。自从过去几十年以来,基于神经网络的系统的计算能力提高了计算能力,因此有助于提供最新的手写文本识别器。在同一方向上,我们采用了两个最先进的神经网络系统,并将注意力机制合并在一起。注意技术已被广泛用于神经机器翻译和自动语音识别的领域,现在正在文本识别域中实现。在这项研究中,我们能够在IAM数据集上达到4.15%的字符错误率和9.72%的单词错误率,7.07%的字符错误率和GW数据集的16.14%单词错误率与现有的Flor合并后,GW数据集的单词错误率等。建筑学。为了进一步分析,我们还使用了类似于Shi等人的系统。具有贪婪解码器的神经网络系统,观察到基本模型的字符错误率提高了23.27%。
translated by 谷歌翻译
手语是聋人和听力受损社区中使用的沟通语言的主要形式。在听力障碍和听力社区之间进行简单互相的沟通,建立一个能够将口语翻译成手语的强大系统,反之亦然是基本的。为此,标志语言识别和生产是制作这种双向系统的两个必要零件。手语识别和生产需要应对一些关键挑战。在这项调查中,我们审查了使用深度学习的手语制作(SLP)和相关领域的最近进展。为了有更现实的观点来签署语言,我们介绍了聋人文化,聋人中心,手语的心理视角,口语和手语之间的主要差异。此外,我们介绍了双向手语翻译系统的基本组成部分,讨论了该领域的主要挑战。此外,简要介绍了SLP中的骨干架构和方法,并提出了拟议的SLP分类物。最后,介绍了SLP和绩效评估的一般框架,也讨论了SLP最近的发展,优势和限制,评论可能的未来研究的可能线条。
translated by 谷歌翻译
Handwritten Text Recognition (HTR) is more interesting and challenging than printed text due to uneven variations in the handwriting style of the writers, content, and time. HTR becomes more challenging for the Indic languages because of (i) multiple characters combined to form conjuncts which increase the number of characters of respective languages, and (ii) near to 100 unique basic Unicode characters in each Indic script. Recently, many recognition methods based on the encoder-decoder framework have been proposed to handle such problems. They still face many challenges, such as image blur and incomplete characters due to varying writing styles and ink density. We argue that most encoder-decoder methods are based on local visual features without explicit global semantic information. In this work, we enhance the performance of Indic handwritten text recognizers using global semantic information. We use a semantic module in an encoder-decoder framework for extracting global semantic information to recognize the Indic handwritten texts. The semantic information is used in both the encoder for supervision and the decoder for initialization. The semantic information is predicted from the word embedding of a pre-trained language model. Extensive experiments demonstrate that the proposed framework achieves state-of-the-art results on handwritten texts of ten Indic languages.
translated by 谷歌翻译
对于普通人来说,了解唇部运动并从中推断出讲话是很困难的。准确的唇部阅读的任务从说话者的各种线索及其上下文或环境环境中获得帮助。每个演讲者都有不同的口音和说话风格,可以从他们的视觉和语音功能中推断出来。这项工作旨在了解语音和单个说话者在不受约束和大型词汇中的嘴唇运动顺序之间的相关性/映射。我们将帧序列建模为在自动编码器设置中的变压器之前,并学会了利用音频和视频的时间属性的关节嵌入。我们使用深度度量学习学习时间同步,这指导解码器与输入唇部运动同步生成语音。因此,预测性后部为我们提供了以说话者的说话风格产生的演讲。我们已经在网格和LIP2WAV化学讲座数据集上训练了模型,以评估在不受限制的自然环境中唇部运动的单个扬声器自然语音生成任务。使用人类评估的各种定性和定量指标进行了广泛的评估还表明,我们的方法在几乎所有评估指标上都优于lip2wav化学数据集(在不受约束的环境中的大词汇)(在不受约束的环境中的大词汇),并且在边缘上胜过了较大的范围。网格数据集。
translated by 谷歌翻译
我们提出了一种用于计算自动语音识别(ASR)中错误率的新方法。这个新的指标是针对包含半字符的语言,可以以不同形式编写相同的字符。我们在印地语中实施了我们的方法论,这是指示上下文中的主要语言之一,我们认为这种方法可扩展到包含大型字符集的其他类似语言。我们称我们的指标替代单词错误率(AWER)和替代字符错误率(ACER)。我们使用wav2Vec 2.0 \ cite {baevski2020wav2vec}训练我们的ASR模型。此外,我们使用语言模型来改善我们的模型性能。我们的结果表明,在分析单词和角色级别的错误率方面有了显着提高,ASR系统的可解释性提高了高达$ 3 $ \%的AWER,印地语的ACER $ 7 $ \%。我们的实验表明,在具有复杂发音的语言中,有多种写单词而不改变其含义的方式。在这种情况下,Awer和Acer将更有用,而不是将其作为指标。此外,我们通过新的公制脚本为印地语开了一个21小时的新基准测试数据集。
translated by 谷歌翻译
我们介绍了一种用于跨语言训练ASR系统的方法,使用目标语言绝对没有转录的训练数据,并且没有相关语言的语音知识。我们的方法使用了一种解密算法的新应用,该算法仅在目标语言中仅操作不配对的语音和文本数据。我们将此破译应用于由通用电话识别器产生的电话序列,由语言语音语料库培训,我们遵循平稳半监督培训,以获得新语言的声学模型。据我们所知,这是零资源交叉语言ASR的第一种实用方法,不依赖于任何手工制作的语音信息。我们对来自Globalphone语料库的读语音进行了实验,并表明可以在目标语言中仅在20分钟的数据上学习解密模型。当用于生成半监督培训的伪标签时,我们获得了比在同一数据上培训的等同完全监督模型的25%至仅5%的绝对差。
translated by 谷歌翻译
由于深度学习的出现,图像数据的最新技术对单眼3D面对重建的重建取得了令人印象深刻的进步。但是,它主要集中于来自单个RGB图像的输入,忽略以下重要因素:a)如今,感兴趣的绝大多数面部图像数据不是来自单个图像,而是来自包含丰富动态信息的视频。 。 b)此外,这些视频通常以某种形式的口头交流捕捉个人(公众对话,电视会议,视听人类计算机的互动,访谈,电影中的独白/对话等)。当在此类视频中应用现有的3D面部重建方法时,重建口腔区域的形状和运动中的伪影通常很严重,因为它们与语音音频不太匹配。为了克服上述局限性,我们提出了3D口表达的视觉语音感知重建的第一种方法。我们通过提出“口语”损失来做到这一点,该损失指导拟合过程,从而使3D重建的说话头的感知与原始录像相似。我们证明,有趣的是,与传统的具有里程碑意义的损失,甚至直接3D监督相比,口头损失更适合3D重建嘴运动。此外,设计的方法不依赖于任何文本转录或相应的音频,因此非常适合在未标记的数据集中培训。我们通过对三个大规模数据集的详尽客观评估以及通过两种基于网络的用户研究进行主观评估来验证方法的效率。
translated by 谷歌翻译
自动语音识别(ASR)是新服务的关键元素,可帮助用户与自动化系统进行交互。深度学习方法使得用单词错误率低于5%的英语ASR部署系统成为可能。但是,这些方法的使用仅适用于具有数百或数千小时音频及其相应转录的语言。为了使所谓的低资源语言加快可以改善其ASR系统性能的资源的可用性,正在研究基于现有的资源来创建新资源的方法。在本文中,我们描述了我们的数据增强方法,以改善低资源和凝集性语言的ASR模型的结果。我们使用Wav2letter ++模型进行了为Quechua开发ASR的实验。通过我们的基本模型方法,我们将WER降低了8.73%。由此产生的ASR模型获得了22.75%的WER,并接受了99小时的原始资源和99小时的合成数据的培训,并结合了文本增强和合成语音发电
translated by 谷歌翻译
音译是NLP域中的一项任务,其中输出单词是使用任何外语字母编写的类似单词。如今,该系统已针对多种语言对开发,涉及英语作为源或目标单词,并在Google Translate和聊天机器人等多个地方部署。但是,在指示语言的领域进行的研究很少进行,将其译为其他指示语言。本文展示了一个基于变压器(具有一些修改)的多语言模型,该模型比该域中的所有现有模型都可以显着更高的性能和准确性,并且比最先进的模型获得了更好的结果。本文显示了一个模型,该模型可以在以下五种语言之间进行任何一对 - 英语,印地语,孟加拉语,卡纳达语和泰米尔语之间的音译。它适用于语言在任何书面任务中都是通信的障碍的情况。该模型击败了最先进的(对于上述五种语言中的所有对 - 英语,印地语,孟加拉语,卡纳达语和泰米尔语),并获得了80.7%的前1位准确性得分,比比当前最佳结果。此外,该模型在语音准确性方面达到了93.5%(音译主要是基于语音/声音的任务)。
translated by 谷歌翻译
这项工作提出了一个基于注意力的序列到序列模型,用于手写单词识别,并探讨了用于HTR系统数据有效培训的转移学习。为了克服培训数据稀缺性,这项工作利用了在场景文本图像上预先训练的模型,作为调整手写识别模型的起点。Resnet特征提取和基于双向LSTM的序列建模阶段一起形成编码器。预测阶段由解码器和基于内容的注意机制组成。拟议的端到端HTR系统的有效性已在新型的多作用数据集IMGUR5K和IAM数据集上进行了经验评估。实验结果评估了HTR框架的性能,并通过对误差案例的深入分析进一步支持。源代码和预培训模型可在https://github.com/dmitrijsk/attentionhtr上找到。
translated by 谷歌翻译
自动言论(POS)标记是许多自然语言处理(NLP)任务的预处理步骤,例如名称实体识别(NER),语音处理,信息提取,单词sense sisse disampigation和Machine Translation。它已经在英语和欧洲语言方面取得了令人鼓舞的结果,但是使用印度语言,尤其是在Odia语言中,由于缺乏支持工具,资源和语言形态丰富性,因此尚未得到很好的探索。不幸的是,我们无法为ODIA找到一个开源POS标记,并且仅尝试为ODIA语言开发POS标记器的尝试。这项研究工作的主要贡献是介绍有条件的随机场(CRF)和基于深度学习的方法(CNN和双向长期短期记忆)来开发ODIA的语音部分。我们使用了一个公开访问的语料库,并用印度标准局(BIS)标签设定了数据集。但是,全球的大多数语言都使用了带有通用依赖项(UD)标签集注释的数据集。因此,要保持统一性,odia数据集应使用相同的标签集。因此,我们已经构建了一个从BIS标签集到UD标签集的简单映射。我们对CRF模型进行了各种特征集输入,观察到构造特征集的影响。基于深度学习的模型包括BI-LSTM网络,CNN网络,CRF层,角色序列信息和预训练的单词向量。通过使用卷积神经网络(CNN)和BI-LSTM网络提取角色序列信息。实施了神经序列标记模型的六种不同组合,并研究了其性能指标。已经观察到具有字符序列特征和预训练的单词矢量的BI-LSTM模型取得了显着的最新结果。
translated by 谷歌翻译