随着深度学习和智能车辆的兴起,智能助手已成为促进驾驶和提供额外功能的重要车内组件。车内智能助手应该能够处理一般以及与汽车相关的命令并执行相应的操作,从而简化驾驶并提高安全性。但是,在这个研究领域,大多数数据集都采用主要语言,例如英语和中文。对于低资源语言,存在一个巨大的数据稀缺问题,阻碍了对更广泛社区的研究和应用的发展。因此,至关重要的是,拥有更多的基准来提高认识并激发低资源语言的研究。为了减轻此问题,我们收集了一个新的数据集,即广东话音频 - 视听语音识别(CI-AVSR),以使用视频和音频数据在广东话中使用拼写语言识别。与此同时,我们提出了广东话音频的语音识别在车内命令,这是社区在车内场景下应对低资源语音识别的新挑战。
translated by 谷歌翻译
随着深度学习和智能车辆的兴起,智能助手已成为促进驾驶和提供额外功能的基本内部组件。汽车智能助理应该能够处理一般的和与汽车有关的命令,并执行相应的操作,减轻驾驶和提高安全性。但是,对于低资源语言存在数据稀缺问题,妨碍了研究和应用的发展。在本文中,我们介绍了一个新的DataSet,粤式视听语音识别(CI-AVSR),用于粤语中的车载命令识别,具有视频和音频数据。它由令人宣传的30个粤语发言者记录的200个车载命令的4,984个样本(8.3小时)组成。此外,我们使用常见的内部内部背景噪声增强我们的数据集来模拟真实环境,产生比收集的数据集大10倍。我们提供我们数据集的清洁和增强版本的详细统计信息。此外,我们实施了两个多模式基线以证明CI-AVSR的有效性。实验结果表明,利用视觉信号提高了模型的整体性能。虽然我们的最佳模型可以在清洁测试集上实现相当大的质量,但嘈杂数据的语音识别质量仍然是较差的,并且仍然是真正的车载语音识别系统的极其具有挑战性的任务。数据集和代码将在https://github.com/hltchkust/ci-avsr发布。
translated by 谷歌翻译
AI研究中的基石是创建和采用标准化培训和测试数据集,以指定最新模型的进度。一个特别成功的例子是用于培训和评估英语自然语言理解(NLU)模型的胶水数据集。围绕基于BERT的语言模型的大量研究围绕着胶水中NLU任务的性能改进。为了评估其他语言的语言模型,创建了几个特定语言的胶水数据集。语音语言理解(SLU)的领域遵循了类似的轨迹。大型自我监督模型(例如WAV2VEC2)的成功实现了具有相对易于访问的未标记数据的语音模型。然后可以在SLU任务(例如出色的基准测试)上评估这些模型。在这项工作中,我们将其扩展到通过释放Indicsuperb基准测试来指示语言。具体来说,我们做出以下三项贡献。 (i)我们收集了Kathbath,其中包含来自印度203个地区的1,218个贡献者的12个印度语言的1,684小时的标记语音数据。 (ii)使用Kathbath,我们在6个语音任务中创建基准:自动语音识别,扬声器验证,说话者识别(单声道/多),语言识别,逐个示例查询以及对12种语言的关键字发现。 (iii)在发布的基准测试中,我们与常用的基线Fbank一起训练和评估不同的自我监督模型。我们表明,在大多数任务上,特定于语言的微调模型比基线更准确,包括对于语言识别任务的76 \%差距。但是,对于说话者识别,在大型数据集上训练的自我监督模型证明了一个优势。我们希望Indicsuperb有助于发展印度语言的语音语言理解模型的进步。
translated by 谷歌翻译
低资源语言的自动语音识别(ASR)改善了语言少数群体的访问,以便人工智能(AI)提供的技术优势。在本文中,我们通过创建一个新的粤语数据集来解决香港广东语言的数据稀缺问题。我们的数据集多域粤语语料库(MDCC)由73.6小时的清洁阅读语音与成绩单配对,从香港的粤语有声读物收集。它结合了哲学,政治,教育,文化,生活方式和家庭领域,涵盖了广泛的主题。我们还查看所有现有的粤语数据集,并在两个最大的数据集(MDCC和公共语音ZH-HK)上执行实验。我们根据其语音类型,数据源,总大小和可用性分析现有数据集。使用Fairseq S2T变压器,最先进的ASR模型进行实验结果,显示了我们数据集的有效性。此外,我们通过在MDCC和常见的声音ZH-HK上应用多数据集学习来创建一个强大而强大的粤语ASR模型。
translated by 谷歌翻译
代码切换是在对话期间交换语言时的语音现象。尽管对会话语言中的代码切换的自发性,但大多数现有工程通过读取语音而不是自发的语音来收集代码切换数据。Ascend(一个自发的中国英语数据集)介绍了香港收集的自发多转对话对话中英语代码切换语料库的高质量资源。我们报告了提升的设计和收集语音数据的程序,包括在这项工作中的注释。上升包括23个双语,这些双语流利,汉英都流利,而且由9.23小时的清洁语音组成。
translated by 谷歌翻译
基于音频的自动语音识别(ASR)在嘈杂的环境中显着降低,并且特别容易受到干扰语音的影响,因为模型无法确定要转录的扬声器。视听语音识别(AVSR)系统通过将音频流与不变噪声不变的可视信息补充,帮助模型对所需扬声器的视觉信息来提高鲁棒性。但是,以前的AVSR工作仅关注监督学习设置;因此,通过可用的标记数据量阻碍了进度。在这项工作中,我们提出了一个自我监督的AVSR框架,建立在视听休伯特(AV-HUBERT),是最先进的视听语音表示学习模型。在最大可用的AVSR基准数据集LRS3中,我们的方法在存在的情况下使用少于10%的标签数据(433HR与30HR)之前的最先进(28.0%与14.1%)优于〜50%(28.0%vs.14.1%)禁止噪声,平均减少了基于音频模型的WER以上超过75%(25.8%与5.8%)。
translated by 谷歌翻译
我们提出Vakyansh,这是一种用指示语言识别语音识别的端到端工具包。印度拥有近121种语言和大约125亿扬声器。然而,大多数语言在数据和预验证的模型方面都是低资源。通过Vakyansh,我们介绍了自动数据管道,用于数据创建,模型培训,模型评估和部署。我们以23个指示语言和Train Wav2Vec 2.0预验证的模型创建14,000小时的语音数据。然后,对这些预审预告措施的模型进行了修订,以创建18个指示语言的最先进的语音识别模型,其次是语言模型和标点符号修复模型。我们以使命开源所有这些资源,这将激发语音社区使用ASR模型以指示语言开发语音的首次应用程序。
translated by 谷歌翻译
最近的工作设计了方法来证明ASR培训中的模型更新可以泄漏计算更新中使用的话语的潜在敏感属性。在这项工作中,我们设计了第一种方法来证明有关培训ASR模型培训数据的信息泄漏。我们设计了噪声遮罩,这是一种填充风格的方法,用于从训练有素的ASR模型中提取培训数据的有针对性部分。我们通过在四个设置中使用用于训练最先进的构象模型的LibrisPeech数据集中提取名称来证明噪声掩蔽的成功。特别是,我们证明我们能够以11.8%的精度从蒙面的训练说话中提取正确的名称,而该模型的时间为55.2%的时间,则可以输出一些名称。此外,我们表明,即使在使用合成音频和部分成绩单的设置中,我们的方法也达到2.5%的正确名称准确性(47.7%的任何名称成功率)。最后,我们设计了单词辍学,这是一种数据增强方法,我们在训练中与多级训练一起使用(MTR),它提供了可比的实用程序作为基线,并通过在四个评估的设置中通过噪声掩盖进行了大大减轻提取。
translated by 谷歌翻译
自动语音识别(ASR)系统已变得无处不在。它们可以在各种形状因素中找到,在我们的日常生活中越来越重要。因此,确保这些系统公平地与人口的不同亚组是至关重要的。在本文中,我们介绍,AeChevox是评估ASR系统的公平性的自动化测试框架。 Aequevox模拟不同的环境,以评估ASR系统对不同群体的有效性。此外,我们还调查所选择的模拟是否可易于对人类易于理解。我们进一步提出了一种故障定位技术,能够识别对这些不同环境不稳健的单词。 Aequevox的两个组件都能够在没有地面真理数据的情况下运行。我们使用三个不同的商业ASR评估了来自四个不同数据集的equevox。我们的实验表明,非母语,女性和尼日利亚语扬声器分别产生109%,528.5%和156.9%,平均分别比母语,男性和英国米德兰斯扬声器更多。我们的用户学习还揭示了82.9%的模拟(通过语音转换采用)的可理解性评级高于七(十分之一),评级最低为6.78。这进一步验证了AeChevox发现的公平违规行为。最后,我们展示了非强大的单词,如eApevox中体现的故障定位技术所预测的,显示出的错误,而不是所有ASR的预测强大的单词。
translated by 谷歌翻译
自动语音识别和文本到语音系统主要以监督方式培训,需要高质量,准确标记的语音数据集。在这项工作中,我们研究语音数据的常见问题,并为语音数据集的构建和交互式错误分析引入工具箱。施工工具基于K \“urzinger等。工作,并且,尽我们所知,数据集探索工具是世界上第一个这类开源工具。我们演示了如何应用这些工具来创建一个俄语语音数据集并分析现有语音数据集(多语种LibrisPeech,Mozilla Common语音)。该工具是开放的,作为Nemo框架的一部分。
translated by 谷歌翻译
本文调查了视听扬声器表示的自我监督的预训练,其中显示了视觉流,显示说话者的口腔区域与语音一起用作输入。我们的研究重点是视听隐藏单元BERT(AV-HUBERT)方法,该方法是最近开发的通用音频语音训练前训练框架。我们进行了广泛的实验,以探测预训练和视觉方式的有效性。实验结果表明,AV-Hubert可以很好地概括与说话者相关的下游任务,从而使标签效率提高了大约10倍的仅10倍,仅音频和视听扬声器验证。我们还表明,结合视觉信息,甚至仅仅是唇部区域,都大大提高了性能和噪声稳健性,在清洁条件下将EER降低了38%,在嘈杂的条件下将EER降低了75%。
translated by 谷歌翻译
在本文中,我们提出了一种解决方案,以允许扬声器条件语音模型,例如VoiceFilter-Lite,以支持单个通过中的任意数量的注册用户。这是通过使用多个扬声器嵌入的注意机制来实现,以计算单个细小嵌入,然后将其用作模型的侧面输入。我们实现了多用户VoiceFilter-Lite并为三个任务进行了评估:(1)流自动语音识别(ASR)任务; (2)独立于文本的扬声器验证任务; (3)个性化关键级检测任务,其中ASR必须在嘈杂的环境中检测来自多个注册用户的关键次数。我们的实验表明,在最多四个注册的用户中,多用户VoiceFilter-Lite能够在具有重叠语音时显着降低语音识别和扬声器验证错误,而不会影响其他声学条件下的性能。这种细心的扬声器嵌入方法也可以轻松应用于其他扬声器条件模型,如个人VAD和个性化ASR。
translated by 谷歌翻译
视听自动语音识别(AV-ASR)是ASR的扩展,它通常来自扬声器嘴的动作。与仅关注唇部运动的作品不同,我们研究了整个视觉框架(视觉动作,对象,背景等)的贡献。这对于不一定可见的说话者不一定可见的视频特别有用。为了解决这项任务,我们提出了一个新的序列到序列视听ASR变压器(Avatar),该序列是从频谱图和全帧RGB端到端训练的。为了防止音频流主导训练,我们提出了不同的单词掩盖策略,从而鼓励我们的模型注意视觉流。我们证明了视觉模态对2 AV-ASR基准测试的贡献,尤其是在模拟噪声的情况下,并表明我们的模型以很大的边距优于所有其他先前的工作。最后,我们还为AV-ASR创建了一个名为Visspeech的新的现实世界测试床,该床在挑战性的音频条件下展示了视觉模态的贡献。
translated by 谷歌翻译
视频到语音的合成(也称为Lip-speech)是指沉默的唇部动作转换为相应的音频。由于其自我监督的性质(即可以在无需手动标记的情况下训练)以及在线可用的视听数据的收集量不断增长,因此该任务受到了越来越多的关注。尽管有这些强烈的动机,现代视频到语音的作品主要集中在词汇和环境中具有很大限制的中小型语料库。在这项工作中,我们引入了一个可扩展的视频到语音框架,该框架由两个组件组成:视频到光谱图预测器和一个预训练的神经声码器,该框架将MEL频谱图转换为波形音频。我们在LRW上取得了最先进的效果,并且在LRW上的表现要优于以前的方法。更重要的是,通过使用简单的FeedForward模型专注于频谱图预测,我们可以有效地将方法扩展到非常不受约束的数据集:据我们所知,我们是第一个在具有挑战性的LRS3数据集上显示出可理解的结果。
translated by 谷歌翻译
我们提出了一种用于计算自动语音识别(ASR)中错误率的新方法。这个新的指标是针对包含半字符的语言,可以以不同形式编写相同的字符。我们在印地语中实施了我们的方法论,这是指示上下文中的主要语言之一,我们认为这种方法可扩展到包含大型字符集的其他类似语言。我们称我们的指标替代单词错误率(AWER)和替代字符错误率(ACER)。我们使用wav2Vec 2.0 \ cite {baevski2020wav2vec}训练我们的ASR模型。此外,我们使用语言模型来改善我们的模型性能。我们的结果表明,在分析单词和角色级别的错误率方面有了显着提高,ASR系统的可解释性提高了高达$ 3 $ \%的AWER,印地语的ACER $ 7 $ \%。我们的实验表明,在具有复杂发音的语言中,有多种写单词而不改变其含义的方式。在这种情况下,Awer和Acer将更有用,而不是将其作为指标。此外,我们通过新的公制脚本为印地语开了一个21小时的新基准测试数据集。
translated by 谷歌翻译
构建可用的无线电监控自动语音识别(ASR)系统是资源不足的语言的一项挑战性任务,但这在广播是公众沟通和讨论的主要媒介的社会中至关重要。联合国在乌干达的最初努力证明了如何理解被社交媒体排除在社交媒体中的农村人的看法在国家规划中很重要。但是,由于缺乏转录的语音数据集,这些努力正受到挑战。在本文中,Makerere人工智能研究实验室发布了155小时的Luganda Radio演讲语料库。据我们所知,这是撒哈拉以南非洲第一个公开可用的广播数据集。本文描述了语音语料库的开发,并使用开源语音识别工具包Coqui STT Toolkit提出了基线Luganda ASR绩效结果。
translated by 谷歌翻译
培训多语言自动语音识别(ASR)系统具有挑战性,因为声学和词汇信息通常是特定于语言的。由于缺乏开源数据集和不同方法的结果,培训对Indo语言的多语言系统更加困难。我们将端到端多语言语音识别系统的性能与以语言识别(LID)为条件的单语模型的性能进行比较。来自多语言模型的解码信息用于语言识别,然后与单语模型结合使用,以改善跨语言的50%WER。我们还提出了一种类似的技术来解决代码切换问题,并在印度英语和孟加拉国英语中分别达到21.77和28.27。我们的工作谈到了如何将基于变压器的ASR尤其是WAV2VEC 2.0应用于开发用于指示语言的多语言ASR和代码转换ASR。
translated by 谷歌翻译
人类脑中脑中的背景利用异质感官信息,以有效地执行包括视觉和听力的认知任务。例如,在鸡尾酒会党的情况下,人类听觉Cortex上下文中的视听(AV)提示才能更好地感知言论。最近的研究表明,与音频SE模型相比,AV语音增强(SE)模型可以显着提高信噪比(SNR)环境的极低信号的语音质量和可懂度。然而,尽管在AV SE的领域进行了显着的研究,但具有低延迟的实时处理模型的开发仍然是一个强大的技术挑战。在本文中,我们为低延迟扬声器的独立AV SE提供了一种新颖的框架,可以概括一系列视觉和声学噪声。特别地,提出了一种生成的对抗性网络(GaN)来解决AV SE的视觉缺陷的实际问题。此外,我们提出了一种基于神经网络的深度神经网络的实时AV SE模型,考虑到从GaN的清洁的视觉语音输出来提供更强大的SE。拟议的框架使用客观语音质量和可懂度指标和主观上市测试对合成和真实嘈杂的AV语料库进行评估。比较仿真结果表明,我们的实时AV SE框架优于最先进的SE方法,包括最近的基于DNN的SE模型。
translated by 谷歌翻译
端到端的口语理解(SLU)使用单个模型直接从音频中预测意图。它有望通过利用中间文本表示中丢失的声学信息来提高助手系统的性能,并防止自动语音识别(ASR)中的级联错误。此外,在部署助手系统时,拥有一个统一模型具有效率优势。但是,具有语义解析标签的公共音频数据集有限的数量阻碍了该领域的研究进展。在本文中,我们发布了以任务为导向的语义解析(Stop)数据集,该数据集是公开可用的最大,最复杂的SLU数据集。此外,我们定义了低资源拆分,以建立有限的标记数据时改善SLU的基准。此外,除了人类录制的音频外,我们还发布了TTS生成版本,以基于端到端SLU系统的低资源域适应性的性能。最初的实验表明,端到端SLU模型的性能比级联的同行差一些,我们希望这能鼓励未来的工作。
translated by 谷歌翻译
人民的言论是自由下载的30,000小时,并在CC-BY-SA下进行学术和商业用途的许可的受监管的会话英语语音识别数据集(具有CC-by子集)。通过使用现有转录搜索适当许可的音频数据来通过搜索互联网来收集数据。我们描述了我们的数据收集方法,并在Apache 2.0许可证下发布了我们的数据收集系统。我们表明,在此数据集上培训的模型在Librispeech的测试清洁测试集上实现了9.98%的单词错误率。最后,我们讨论了围绕创建一个相当大量的机器学习的法律和道德问题,并计划继续维护项目的计划根据MLCommons的赞助。
translated by 谷歌翻译