多通道多扬声器的自动语音识别(ASR)重叠的语音仍然是语音社区最具挑战性的任务之一。在本文中,我们首次利用3D空间中的目标扬声器的位置信息来研究挑战。为了探讨所提出的3D空间特征的强度,研究了两个范例。 1)带有多通道语音分离模块的流水线系统,后跟最先进的单通道ASR模块; 2)3D空间特征直接用作无明确分离模块的ASR系统的输入的“一体化”模型。它们都是完全可分辨的,并且可以回到倒端的端到端。我们在模拟重叠的语音和实际录音上测试它们。实验结果表明,1)所提出的一体化模型对流水线系统实现了类似的误码率,同时将推理时间减少一半; 2)所提出的3D空间特征显着优于(31 \%CERR)所有先前的应用程序在两个范例中使用的所有先前作品。
translated by 谷歌翻译
Recently, many deep learning based beamformers have been proposed for multi-channel speech separation. Nevertheless, most of them rely on extra cues known in advance, such as speaker feature, face image or directional information. In this paper, we propose an end-to-end beamforming network for direction guided speech separation given merely the mixture signal, namely MIMO-DBnet. Specifically, we design a multi-channel input and multiple outputs architecture to predict the direction-of-arrival based embeddings and beamforming weights for each source. The precisely estimated directional embedding provides quite effective spatial discrimination guidance for the neural beamformer to offset the effect of phase wrapping, thus allowing more accurate reconstruction of two sources' speech signals. Experiments show that our proposed MIMO-DBnet not only achieves a comprehensive decent improvement compared to baseline systems, but also maintain the performance on high frequency bands when phase wrapping occurs.
translated by 谷歌翻译
在本文中,我们介绍了在单个神经网络中执行同时扬声器分离,DERE失眠和扬声器识别的盲言语分离和DERERATERATION(BSSD)网络。扬声器分离由一组预定义的空间线索引导。通过使用神经波束成形进行DERERATERATION,通过嵌入向量和三联挖掘来辅助扬声器识别。我们介绍了一种使用复值神经网络的频域模型,以及在潜伏空间中执行波束成形的时域变体。此外,我们提出了一个块在线模式来处理更长的录音,因为它们在会议场景中发生。我们在规模独立信号方面评估我们的系统,以失真率(SI-SI-SIS),字错误率(WER)和相等的错误率(eer)。
translated by 谷歌翻译
本文介绍了增强现实耳机的嘈杂语音识别,该耳机有助于在真实的多方对话环境中进行口头交流。在模拟环境中积极研究的一种主要方法是,基于以监督方式训练的深神经网络(DNNS),依次执行语音增强和自动语音识别(ASR)。但是,在我们的任务中,由于培训和测试条件与用户的头部移动之间的不匹配,因此这种预处理的系统无法正常工作。为了仅增强目标扬声器的话语,我们基于基于DNN的语音掩码估计器使用束构造,该估计量可以适应地提取与头部相关特定方向相对应的语音组件。我们提出了一种半监督的适应方法,该方法使用带有地面真实转录和嘈杂的语音信号的干净语音信号在运行时共同更新蒙版估计器和ASR模型,并具有高度固定的估计转录。使用最先进的语音识别系统的比较实验表明,所提出的方法显着改善了ASR性能。
translated by 谷歌翻译
In a scenario with multiple persons talking simultaneously, the spatial characteristics of the signals are the most distinct feature for extracting the target signal. In this work, we develop a deep joint spatial-spectral non-linear filter that can be steered in an arbitrary target direction. For this we propose a simple and effective conditioning mechanism, which sets the initial state of the filter's recurrent layers based on the target direction. We show that this scheme is more effective than the baseline approach and increases the flexibility of the filter at no performance cost. The resulting spatially selective non-linear filters can also be used for speech separation of an arbitrary number of speakers and enable very accurate multi-speaker localization as we demonstrate in this paper.
translated by 谷歌翻译
在本文中,我们在多方会议场景中对说话者的自动语音识别(SA-ASR)进行了比较研究,这一主题越来越关注丰富的转录。具体而言,本研究评估了三种方法。第一种方法,即FD-SOT,由框架级诊断模型组成,以识别说话者和多对话者ASR以识别话语。通过对齐诊断结果和公认的假设,可以获得说话者归因的转录。但是,由于模块化的独立性,这种对齐策略可能会遭受错误的时间戳,从而严重阻碍了模型性能。因此,我们提出了第二种方法WD-SOT,以通过引入单词水平诊断模型来解决对齐误差,从而可以摆脱这种时间戳对齐依赖性。为了进一步缓解对齐问题,我们提出了第三种方法TS-ASR,该方法可以训练目标扬声器分离模块和ASR模块。通过比较每种SA-ASR方法的各种策略,对真实会议场景语料库的实验结果,AlimeTing,表明WD-SOT方法可在平均扬声器依赖性角色错误率(SD-CER)相对降低10.7%,与之相比FD-SOT方法。此外,TS-ASR方法还优于FD-SOT方法,并带来16.5%的相对平均SD-CER减少。
translated by 谷歌翻译
在本文中,我们探索了一个改进的框架,以训练单腔神经增强模型,以识别强大的语音识别。设计的训练框架扩展了现有的混合训练标准,以利用未配对的干净语音和真实的嘈杂数据。发现未配对的干净言语对于提高实际嘈杂言论的分离语音质量至关重要。所提出的方法还对处理和未加工的信号进行混合,以减轻处理工件。单渠道Chime-3真实测试集上的实验表明,在语音识别性能方面,对在不匹配的模拟数据上训练的增强系统的语音识别性能以有监督的方式或以不受欢迎的方式对匹配的真实数据进行了显着改善。与未经处理的信号相比,使用端到端和混合声模型在未经扭曲的数据进行重新纠正的情况下,该系统已实现了16%至39%的相对减少。
translated by 谷歌翻译
言语分离的许多最近进步主要针对具有高重叠程度的短音频话语的合成混合物。这些数据集与真实的会话数据显着不同,因此,在这些数据集上培训和评估的模型不会概括到真实的会话方案。使用大多数这些模型用于长形式语音的另一个问题是由于时间频率掩模或置换不变训练(PIT)损耗的无监督聚类,因此是分离的语音段的非明确顺序。这导致准确地缝合用于自动语音识别(ASR)的下游任务的均匀扬声器段。在本文中,我们提出了一种扬声器调节分离器,在直接从混合信号中提取的扬声器嵌入物上训练。我们使用定向丢失训练此模型,该丢失调节分离的段的顺序。使用此模型,我们对真实会话数据的单词错误率(WER)进行了重大改进,而无需额外的重新拼接步骤。
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
最近在各种语音域应用中提出了卷积增强的变压器(构象异构体),例如自动语音识别(ASR)和语音分离,因为它们可以捕获本地和全球依赖性。在本文中,我们提出了一个基于构型的度量生成对抗网络(CMGAN),以在时间频率(TF)域中进行语音增强(SE)。发电机使用两阶段构象体块编码大小和复杂的频谱图信息,以模拟时间和频率依赖性。然后,解码器将估计分解为尺寸掩模的解码器分支,以滤除不需要的扭曲和复杂的细化分支,以进一步改善幅度估计并隐式增强相信息。此外,我们还包括一个度量歧视器来通过优化相应的评估评分来减轻度量不匹配。客观和主观评估表明,与三个语音增强任务(DeNoising,dereverberation和Super-Losity)中的最新方法相比,CMGAN能够表现出卓越的性能。例如,对语音库+需求数据集的定量降解分析表明,CMGAN的表现优于以前的差距,即PESQ为3.41,SSNR为11.10 dB。
translated by 谷歌翻译
在本文中,我们提出了一种解决方案,以允许扬声器条件语音模型,例如VoiceFilter-Lite,以支持单个通过中的任意数量的注册用户。这是通过使用多个扬声器嵌入的注意机制来实现,以计算单个细小嵌入,然后将其用作模型的侧面输入。我们实现了多用户VoiceFilter-Lite并为三个任务进行了评估:(1)流自动语音识别(ASR)任务; (2)独立于文本的扬声器验证任务; (3)个性化关键级检测任务,其中ASR必须在嘈杂的环境中检测来自多个注册用户的关键次数。我们的实验表明,在最多四个注册的用户中,多用户VoiceFilter-Lite能够在具有重叠语音时显着降低语音识别和扬声器验证错误,而不会影响其他声学条件下的性能。这种细心的扬声器嵌入方法也可以轻松应用于其他扬声器条件模型,如个人VAD和个性化ASR。
translated by 谷歌翻译
使用多个麦克风进行语音增强的主要优点是,可以使用空间滤波来补充节奏光谱处理。在传统的环境中,通常单独执行线性空间滤波(波束形成)和单通道后过滤。相比之下,采用深层神经网络(DNN)有一种趋势来学习联合空间和速度 - 光谱非线性滤波器,这意味着对线性处理模型的限制以及空间和节奏单独处理的限制光谱信息可能可以克服。但是,尚不清楚导致此类数据驱动的过滤器以良好性能进行多通道语音增强的内部机制。因此,在这项工作中,我们通过仔细控制网络可用的信息源(空间,光谱和时间)来分析由DNN实现的非线性空间滤波器的性质及其与时间和光谱处理的相互依赖性。我们确认了非线性空间处理模型的优越性,该模型在挑战性的扬声器提取方案中优于Oracle线性空间滤波器,以低于0.24的POLQA得分,较少数量的麦克风。我们的分析表明,在特定的光谱信息中应与空间信息共同处理,因为这会提高过滤器的空间选择性。然后,我们的系统评估会导致一个简单的网络体系结构,该网络体系结构在扬声器提取任务上的最先进的网络体系结构优于0.22 POLQA得分,而CHIME3数据上的POLQA得分为0.32。
translated by 谷歌翻译
使用未知数量的扬声器数量的单通道远场录制的自动语音识别(ASR)传统上由级联模块解决。最近的研究表明,与模块化系统相比,端到端(E2E)多扬声器ASR模型可以实现卓越的识别准确性。但是,这些模型不会确保由于其对完整音频上下文的依赖性而实时适用性。这项工作采用实时适用性,作为模型设计的第一优先级,并解决了以前的多扬声器经常性神经网络传感器(MS-RNN-T)的几个挑战。首先,我们在训练期间介绍一般的重叠言论模拟,在LibrisPeechMix测试集上产生14%的相对字错误率(WER)改进。其次,我们提出了一种新的多转RNN-T(MT-RNN-T)模型,其具有基于重叠的目标布置策略,其概括为任意数量的扬声器,而没有模型架构的变化。我们调查在Liblics测试集上培训训练期间看到的最大扬声器数量的影响,并在两位扬声器MS-RNN-T上报告28%的相对加速。第三,我们试验丰富的转录战略,共同承认和分割多方言论。通过深入分析,我们讨论所提出的系统的潜在陷阱以及未来的未来研究方向。
translated by 谷歌翻译
频域神经波束形成器是最近多通道语音分离模型的主流方法。尽管有明确定义的行为和有效性,但这种频域波束形成器仍然具有有界Oracle性能的局限性以及为复值操作设计适当网络的困难。在本文中,我们提出了一个时域广义维纳滤波器(TD-GWF),传统频域波束形成器的扩展,具有更高的Oracle性能,并且仅涉及实际的操作。我们还提供关于TD-GWF如何连接到传统频域波束形成器的讨论。实验结果表明,通过在最近提出的连续神经波束形成管道中取代TD-GWF的频域波线形成器,可以实现显着性能改进。
translated by 谷歌翻译
我们为基于语义信息(称为ConceptBeam的语义信息)提出了一个新颖的框架。目标语音提取意味着在混合物中提取目标扬声器的语音。典型的方法一直在利用音频信号的性能,例如谐波结构和到达方向。相反,ConceptBeam通过语义线索解决了问题。具体来说,我们使用概念规范(例如图像或语音)提取说话者谈论概念的演讲,即感兴趣的主题。解决这个新颖的问题将为对话中讨论的特定主题等创新应用打开门。与关键字不同,概念是抽象的概念,使直接代表目标概念的挑战。在我们的方案中,通过将概念规范映射到共享的嵌入空间,将概念编码为语义嵌入。可以使用由图像及其口语字幕组成的配对数据进行深度度量学习来构建这种独立的空间。我们使用它来桥接模式依赖性信息,即混合物中的语音段以及指定的,无模式的概念。作为我们方案的证明,我们使用与口语标题相关的一组图像进行了实验。也就是说,我们从这些口语字幕中产生了语音混合物,并将图像或语音信号用作概念指定符。然后,我们使用已识别段的声学特征提取目标语音。我们将ConceptBeam与两种方法进行比较:一种基于从识别系统获得的关键字,另一个基于声音源分离。我们表明,概念束明显优于基线方法,并根据语义表示有效提取语音。
translated by 谷歌翻译
设备方向听到需要从给定方向的音频源分离,同时实现严格的人类难以察觉的延迟要求。虽然神经网络可以实现比传统的波束形成器的性能明显更好,但所有现有型号都缺乏对计算受限的可穿戴物的低延迟因果推断。我们展示了一个混合模型,将传统的波束形成器与定制轻质神经网络相结合。前者降低了后者的计算负担,并且还提高了其普遍性,而后者旨在进一步降低存储器和计算开销,以实现实时和低延迟操作。我们的评估显示了合成数据上最先进的因果推断模型的相当性能,同时实现了模型尺寸的5倍,每秒计算的4倍,处理时间减少5倍,更好地概括到真实的硬件数据。此外,我们的实时混合模型在为低功耗可穿戴设备设计的移动CPU上运行8毫秒,并实现17.5毫秒的端到端延迟。
translated by 谷歌翻译
基于深度的学习模型具有显着提高了语音分离的性能与鸡尾酒会等输入混合物。突出的方法(例如,频域和时域语音分离)通常建立回归模型以使用基于掩蔽的设计和信号级损耗标准(例如,MSE或SI-)来预测来自混合的地面真理语音。(例如,MSE或SI- SNR)。这项研究首次证明了基于综合的方法也可以在这个问题上表现良好,具有很大的灵活性和强大的潜力。具体地,我们提出了一种基于离散符号的识别的新型语音分离/增强模型,并将语音分离/增强相关任务的范例转换为分类。通过利用具有离散符号的输入的合成模型,在预测离散符号序列之后,可以重新合成每个目标语音。基于WSJ0-2MIX和VCTK-Noisy Corpora的评估结果在各种设置中表明,我们所提出的方法可以稳定地用高语音质量且没有任何干扰的分离的语音,这难以避免基于回归的方法。此外,通过忽略的聆听质量损失,通过我们的方法可以轻松实现增强/分离演讲的扬声器转换。
translated by 谷歌翻译
Deep neural networks (DNN) techniques have become pervasive in domains such as natural language processing and computer vision. They have achieved great success in these domains in task such as machine translation and image generation. Due to their success, these data driven techniques have been applied in audio domain. More specifically, DNN models have been applied in speech enhancement domain to achieve denosing, dereverberation and multi-speaker separation in monaural speech enhancement. In this paper, we review some dominant DNN techniques being employed to achieve speech separation. The review looks at the whole pipeline of speech enhancement from feature extraction, how DNN based tools are modelling both global and local features of speech and model training (supervised and unsupervised). We also review the use of speech-enhancement pre-trained models to boost speech enhancement process. The review is geared towards covering the dominant trends with regards to DNN application in speech enhancement in speech obtained via a single speaker.
translated by 谷歌翻译
本文提出了将语音分离和增强(SSE)集成到ESPNET工具包中的最新进展。与以前的ESPNET-SE工作相比,已经添加了许多功能,包括最近的最新语音增强模型,并具有各自的培训和评估食谱。重要的是,已经设计了一个新界面,以灵活地将语音增强前端与其他任务相结合,包括自动语音识别(ASR),语音翻译(ST)和口语理解(SLU)。为了展示这种集成,我们在精心设计的合成数据集上进行了实验,用于嘈杂的多通道ST和SLU任务,可以用作未来研究的基准语料库。除了这些新任务外,我们还使用Chime-4和WSJ0-2MIX进行基准多链和单渠道SE方法。结果表明,即使在ASR以外的任务,尤其是在多频道方案中,SE前端与后端任务的集成也是一个有希望的研究方向。该代码可在https://github.com/espnet/espnet上在线获得。 HuggingFace上发布了这项工作的另一个贡献的多通道ST和SLU数据集。
translated by 谷歌翻译
扬声器日流是一个标签音频或视频录制的任务,与扬声器身份或短暂的任务标记对应于扬声器标识的类,以识别“谁谈到何时发表讲话”。在早期,对MultiSpeaker录音的语音识别开发了扬声器日益衰退算法,以使扬声器自适应处理能够实现扬声器自适应处理。这些算法还将自己的价值作为独立应用程序随着时间的推移,为诸如音频检索等下游任务提供特定于扬声器的核算。最近,随着深度学习技术的出现,这在讲话应用领域的研究和实践中引起了革命性的变化,对扬声器日益改善已经进行了快速进步。在本文中,我们不仅审查了扬声器日益改善技术的历史发展,而且还审查了神经扬声器日益改善方法的最新进步。此外,我们讨论了扬声器日复速度系统如何与语音识别应用相结合,以及最近深度学习的激增是如何引领联合建模这两个组件互相互补的方式。通过考虑这种令人兴奋的技术趋势,我们认为本文对社区提供了有价值的贡献,以通过巩固具有神经方法的最新发展,从而促进更有效的扬声器日益改善进一步进展。
translated by 谷歌翻译