尽管最新的自动语音识别(ASR)系统的性能得到改善,但转录错误仍然不可避免。当用于帮助临床文档时,这些错误可能会对医疗保健等关键领域产生重大影响。因此,检测ASR错误是防止进一步传播下游应用程序的关键第一步。为此,我们提出了一种新颖的端到端方法,用于使用Audio-Transcript Indailment进行ASR误差检测。据我们所知,我们是第一个将此问题作为音频段及其相应的成绩单段之间的端到端核对任务的人。我们的直觉是,当没有识别错误时,音频和笔录之间应该有双向构成,反之亦然。提出的模型利用声学编码器和语言编码器分别对语音和转录本进行建模。两种模式的编码表示形式都被融合以预测元素。由于我们的实验中使用了医生对话,因此特别强调了医学术语。我们提出的模型在所有转录误差上的分类错误率(CER)为26.2%,特别是在医疗错误上的分类错误率为23%,导致强大基线的改善分别提高了12%和15.4%。
translated by 谷歌翻译
In this paper, we perform an exhaustive evaluation of different representations to address the intent classification problem in a Spoken Language Understanding (SLU) setup. We benchmark three types of systems to perform the SLU intent detection task: 1) text-based, 2) lattice-based, and a novel 3) multimodal approach. Our work provides a comprehensive analysis of what could be the achievable performance of different state-of-the-art SLU systems under different circumstances, e.g., automatically- vs. manually-generated transcripts. We evaluate the systems on the publicly available SLURP spoken language resource corpus. Our results indicate that using richer forms of Automatic Speech Recognition (ASR) outputs allows SLU systems to improve in comparison to the 1-best setup (4% relative improvement). However, crossmodal approaches, i.e., learning from acoustic and text embeddings, obtains performance similar to the oracle setup, and a relative improvement of 18% over the 1-best configuration. Thus, crossmodal architectures represent a good alternative to overcome the limitations of working purely automatically generated textual data.
translated by 谷歌翻译
我们介绍Audiolm,这是具有长期一致性高质量音频产生的框架。 Audiolm将输入音频映射到一系列离散令牌,并将音频生成作为此表示空间中的语言建模任务。我们展示了现有的音频令牌如何在重建质量和长期结构之间提供不同的权衡,我们提出了一个混合代币化计划来实现这两个目标。也就是说,我们利用在音频中预先训练的蒙版语言模型的离散激活来捕获长期结构和神经音频编解码器产生的离散代码,以实现高质量的合成。通过培训大型原始音频波形,Audiolm学会了在简短的提示下产生自然和连贯的连续性。当接受演讲训练时,没有任何笔录或注释,Audiolm会在句法和语义上产生可行的语音连续性,同时还为看不见的说话者保持说话者身份和韵律。此外,我们演示了我们的方法如何通过产生连贯的钢琴音乐连续性来超越语音,尽管受过训练而没有任何象征性的音乐代表。
translated by 谷歌翻译
在本文中,我们提出了一种新颖的架构,用于直接提取语音到语音摘要Essumm,它是一个无监督的模型,而无需依赖中间转录的文本。与以前的文本演示方法不同,我们旨在直接从语音中生成摘要,而无需转录。首先,根据语音信号的声学特征提取一组较小的语音段。对于每个候选语音段,为潜在的语音表示度度量设计了基于距离的汇总置信度评分。具体来说,我们利用现成的自我监督卷积神经网络来提取RAW Audio的深层语音功能。我们的方法会自动预测具有目标摘要长度的关键信息的最佳语音段序列。两个著名的会议数据集(AMI和ICSI语料库)的广泛结果表明,我们基于语音的直接方法通过未转录的数据提高汇总质量的有效性。我们还观察到,我们的无监督语音方法甚至在需要额外的语音识别的情况下以近期基于成绩单的摘要方法进行表现。
translated by 谷歌翻译
While the Turkish language is listed among low-resource languages, literature on Turkish automatic speech recognition (ASR) is relatively old. In this report, we present our findings on Turkish ASR with speech representation learning using HUBERT. We investigate pre-training HUBERT for Turkish with large-scale data curated from online resources. We pre-train our model using 6,500 hours of speech data from YouTube. The results show that the models are not ready for commercial use since they are not robust against disturbances that typically occur in real-world settings such as variations in accents, slang, background noise and interference. We analyze typical errors and the limitations of the models for use in commercial settings.
translated by 谷歌翻译
毒性言论,也被称为仇恨言论,被认为是今天批评在线社交媒体的重要问题之一。最近关于有毒语音检测的工作受到文本的模型,没有现有的毒性检测从口语中的出口检测。在本文中,我们提出了一种从口语中检测毒性的新口语处理任务。我们介绍了排毒,这是英语演讲的第一个公开的毒性注释数据集,来自各种公开可用的语音数据库,包括超过200万个话语。最后,我们还提供了对毒性注释的语音语料库的分析可以帮助促进E2E模型的发展,更好地捕获语音中的各种韵律线索,从而提高了口语的毒性分类。
translated by 谷歌翻译
药物误差最常发生在订购或处方阶段,可能导致医疗并发症和健康结果差。虽然可以使用不同的技术捕获这些误差;这项工作的重点是对处方信息的文本和上下文分析,以检测和防止潜在的药物误差。在本文中,我们演示了如何使用基于从数千名患者记录的现实世界医疗数据中提取的数据集来检测写入或口语文本中的异常的异常语言模型。所提出的模型能够基于诸如患者数据的上下文信息学习文本依赖关系的模式,并预测错误输出。实验结果屈服于最高可达96.63%的精度,对于最具现实世界的应用,这是令人满意的最高可达79.55%。
translated by 谷歌翻译
利用上下文信息是提高对话自动语音识别(ASR)的性能的直观想法。以前的作品通常采用公认的历史话语假设作为前面的背景,这可能会偏向于由于不可避免的历史认可错误而导致的当前公认假设。为了避免此问题,我们提出了一个音频文本跨模式表示器,以直接从先前的语音中学习上下文表示。具体而言,它由两个与模态相关的编码器组成,从语音和相应的文本中提取高级潜在特征,以及一个跨模式编码器,旨在学习语音和文本之间的相关性。我们随机掩盖每种模式的一些输入令牌和输入序列。然后,在交叉模式编码器上使用模态级别的CTC损失进行令牌错失或模态失误预测。因此,该模型不仅捕获了特定模式中的双向上下文依赖性,还捕获了不同模态之间的关系。然后,在训练对话ASR系统的训练期间,提取器将被冻结以提取上述语音的文本表示,而该表示形式则用作通过注意机制将其作为供应给ASR解码器的上下文。拟议方法的有效性在几个普通话对话中得到了验证,并且在MagicData数据集中,达到了最高的字符错误率(CER)最高16%。
translated by 谷歌翻译
In this modern era of technology with e-commerce developing at a rapid pace, it is very important to understand customer requirements and details from a business conversation. It is very crucial for customer retention and satisfaction. Extracting key insights from these conversations is very important when it comes to developing their product or solving their issue. Understanding customer feedback, responses, and important details of the product are essential and it would be done using Named entity recognition (NER). For extracting the entities we would be converting the conversations to text using the optimal speech-to-text model. The model would be a two-stage network in which the conversation is converted to text. Then, suitable entities are extracted using robust techniques using a NER BERT transformer model. This will aid in the enrichment of customer experience when there is an issue which is faced by them. If a customer faces a problem he will call and register his complaint. The model will then extract the key features from this conversation which will be necessary to look into the problem. These features would include details like the order number, and the exact problem. All these would be extracted directly from the conversation and this would reduce the effort of going through the conversation again.
translated by 谷歌翻译
口头语言建模的最新工作表明,可以从原始音频中学习语言的可能性,而无需任何文本标签。该方法首先依赖于将音频转换为一系列离散单元(或伪文本),然后直接在此类伪文本上训练语言模型。这是必要的离散瓶颈,在语音信号的编码中可能引入不可逆转的错误,还是我们可以完全没有离散单位学习语言模型?在这项工作中,我们研究了离散和连续表示在口语建模中的作用。我们表明,离散化对于口语建模的良好结果确实至关重要。我们表明,离散化可以从连续功能中消除语言上无关的信息,从而有助于提高语言建模表演。在这项研究的基础上,我们培训了Hubert功能离散单元的语言模型,达到新的最先进的结果,导致了零资源语音挑战的词汇,句法和语义指标2021(轨道1-仅讲话)。
translated by 谷歌翻译
语音的视频录制包含相关的音频和视觉信息,为语音表示从扬声器的唇部运动和产生的声音提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HUBERT),是视听语音的自我监督的代表学习框架,这些屏幕屏蔽了多流视频输入并预测自动发现和迭代地精制多模式隐藏单元。 AV-HUBERT学习强大的视听语音表示,这些语音表示受益于唇读和自动语音识别。在最大的公众唇读基准LRS3(433小时)中,AV-Hubert达到32.5%WER,只有30个小时的标签数据,优于前一种最先进的方法(33.6%)培训,达到了一千次转录的视频数据(31k小时)。当使用来自LRS3的所有433小时的标记数据并结合自培训时,唇读WER进一步降低至26.9%。使用我们在相同的基准测试中使用您的视听表示,用于音频语音识别的相对效率为40%,而最先进的性能(1.3%Vs 2.3%)。我们的代码和模型可在https://github.com/facebookResearch/av_hubert获得
translated by 谷歌翻译
口语理解(SLU)是大多数人机相互作用系统中的核心任务。随着智能家居,智能手机和智能扬声器的出现,SLU已成为该行业的关键技术。在经典的SLU方法中,自动语音识别(ASR)模块将语音信号转录为文本表示,自然语言理解(NLU)模块从中提取语义信息。最近,基于深神经网络的端到端SLU(E2E SLU)已经获得了动力,因为它受益于ASR和NLU部分的联合优化,因此限制了管道架构的误差效应的级联反应。但是,对于E2E模型用于预测语音输入的概念和意图的实际语言特性知之甚少。在本文中,我们提出了一项研究,以确定E2E模型执行SLU任务的信号特征和其他语言特性。该研究是在必须处理非英语(此处法语)语音命令的智能房屋的应用领域进行的。结果表明,良好的E2E SLU性能并不总是需要完美的ASR功能。此外,结果表明,与管道模型相比,E2E模型在处理背景噪声和句法变化方面具有出色的功能。最后,更细粒度的分析表明,E2E模型使用输入信号的音调信息来识别语音命令概念。本文概述的结果和方法提供了一个跳板,以进一步分析语音处理中的E2E模型。
translated by 谷歌翻译
我们旨在使用大量自动转录语音来改进口语建模(LM)。我们利用INA(法国国家视听学院)的收藏,并在350,000小时的电视节目中应用ASR后获得19GB的文本。由此,通过微调现有的LM(FLAUBERT)或通过从头开始训练LM来培训口语模型。新模型(Flaubert-Oral)与社区共享,并评估了3个下游任务:口语理解,电视节目的分类和语音句法解析。结果表明,与最初的Flaubert版本相比,Flaubert-Oral可能是有益的,表明尽管其固有的嘈杂性,但ASR生成的文本仍可用于构建口头语言模型。
translated by 谷歌翻译
Spoken language understanding (SLU) tasks have been studied for many decades in the speech research community, but have not received as much attention as lower-level tasks like speech and speaker recognition. In particular, there are not nearly as many SLU task benchmarks, and many of the existing ones use data that is not freely available to all researchers. Recent work has begun to introduce such benchmark datasets for several tasks. In this work, we introduce several new annotated SLU benchmark tasks based on freely available speech data, which complement existing benchmarks and address gaps in the SLU evaluation landscape. We contribute four tasks: question answering and summarization involve inference over longer speech sequences; named entity localization addresses the speech-specific task of locating the targeted content in the signal; dialog act classification identifies the function of a given speech utterance. We follow the blueprint of the Spoken Language Understanding Evaluation (SLUE) benchmark suite. In order to facilitate the development of SLU models that leverage the success of pre-trained speech representations, we will be publishing for each task (i) annotations for a relatively small fine-tuning set, (ii) annotated development and test sets, and (iii) baseline models for easy reproducibility and comparisons. In this work, we present the details of data collection and annotation and the performance of the baseline models. We also perform sensitivity analysis of pipeline models' performance (speech recognizer + text model) to the speech recognition accuracy, using more than 20 state-of-the-art speech recognition models.
translated by 谷歌翻译
捷克语是一种非常特殊的语言,因为它在形式和口语形式之间的差异很大。虽然正式(书面)形式主要用于官方文件,文学和公开演讲,但通言(口语)表格在休闲演讲中被广泛使用。该差距引入了ASR系统的严重问题,尤其是在培训或评估包含大量口语语音(例如Malach Project)的数据集上的ASR模型时。在本文中,我们正在根据端到端ASR系统中的新范式解决这个问题,最近引入了自我监督的音频变压器。具体而言,我们正在研究口语语音对WAV2VEC 2.0模型性能的影响及其直接转录口语演讲的能力。我们在培训成绩单,语言模型和评估笔录中以正式和口语形式提出结果。
translated by 谷歌翻译
虽然现代自动语音识别(ASR)系统可以实现高性能,但它们可能会产生削弱读者体验并对下游任务造成伤害的错误。为了提高ASR假设的准确性和可靠性,我们提出了一种用于语音识别器的跨模型后处理系统,其中1)熔断来自不同方式的声学特征和文本特征,2)接合置信度估计器和多个误差校正器任务学习时尚和3)统一纠错和话语抑制模块。与单模或单任务模型相比,我们提出的系统被证明更有效和高效。实验结果表明,我们的后处理系统导致对工业ASR系统的单扬声器和多扬声器语音相对降低的10%相对减少,每个令牌约为1.7ms延迟确保在流语音识别中可以接受后处理引入的额外延迟。
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
扬声器日流是一个标签音频或视频录制的任务,与扬声器身份或短暂的任务标记对应于扬声器标识的类,以识别“谁谈到何时发表讲话”。在早期,对MultiSpeaker录音的语音识别开发了扬声器日益衰退算法,以使扬声器自适应处理能够实现扬声器自适应处理。这些算法还将自己的价值作为独立应用程序随着时间的推移,为诸如音频检索等下游任务提供特定于扬声器的核算。最近,随着深度学习技术的出现,这在讲话应用领域的研究和实践中引起了革命性的变化,对扬声器日益改善已经进行了快速进步。在本文中,我们不仅审查了扬声器日益改善技术的历史发展,而且还审查了神经扬声器日益改善方法的最新进步。此外,我们讨论了扬声器日复速度系统如何与语音识别应用相结合,以及最近深度学习的激增是如何引领联合建模这两个组件互相互补的方式。通过考虑这种令人兴奋的技术趋势,我们认为本文对社区提供了有价值的贡献,以通过巩固具有神经方法的最新发展,从而促进更有效的扬声器日益改善进一步进展。
translated by 谷歌翻译
本文研究了一种新型的预训练技术,该技术具有未配对的语音数据Segend2C,用于基于编码器的自动语音识别(ASR)。在一个多任务学习框架内,我们使用声音单元(即伪代码)介绍了编码器 - 编码器网络的两个预训练任务,这些任务来自离线聚类模型。一种是通过在编码器输出中通过掩盖语言建模来预测伪代码,例如Hubert模型,而另一个使解码器学会学会重建伪代码自动加工,而不是生成文本脚本。通过这种方式,解码器学会了在学习生成正确的文本之前先用代码重建原始语音信息。在Librispeech语料库上进行的综合实验表明,在没有解码器预训练的情况下,提出的Speek2C可以相对将单词错误率(WER)降低19.2%,并且在最先进的WAV2VEC 2.0和HUBERT上的表现显着优于微调子集为10h和100h。我们在https://github.com/microsoft/speecht5/tree/main/main/speech2c上发布代码和模型。
translated by 谷歌翻译
Collecting sufficient labeled data for spoken language understanding (SLU) is expensive and time-consuming. Recent studies achieved promising results by using pre-trained models in low-resource scenarios. Inspired by this, we aim to ask: which (if any) pre-training strategies can improve performance across SLU benchmarks? To answer this question, we employ four types of pre-trained models and their combinations for SLU. We leverage self-supervised speech and language models (LM) pre-trained on large quantities of unpaired data to extract strong speech and text representations. We also explore using supervised models pre-trained on larger external automatic speech recognition (ASR) or SLU corpora. We conduct extensive experiments on the SLU Evaluation (SLUE) benchmark and observe self-supervised pre-trained models to be more powerful, with pre-trained LM and speech models being most beneficial for the Sentiment Analysis and Named Entity Recognition task, respectively.
translated by 谷歌翻译