本文介绍了增强现实耳机的嘈杂语音识别,该耳机有助于在真实的多方对话环境中进行口头交流。在模拟环境中积极研究的一种主要方法是,基于以监督方式训练的深神经网络(DNNS),依次执行语音增强和自动语音识别(ASR)。但是,在我们的任务中,由于培训和测试条件与用户的头部移动之间的不匹配,因此这种预处理的系统无法正常工作。为了仅增强目标扬声器的话语,我们基于基于DNN的语音掩码估计器使用束构造,该估计量可以适应地提取与头部相关特定方向相对应的语音组件。我们提出了一种半监督的适应方法,该方法使用带有地面真实转录和嘈杂的语音信号的干净语音信号在运行时共同更新蒙版估计器和ASR模型,并具有高度固定的估计转录。使用最先进的语音识别系统的比较实验表明,所提出的方法显着改善了ASR性能。
translated by 谷歌翻译
本文介绍了增强现实耳机(AR)耳机的实用响应和性能感知的开发,该耳机可帮助用户了解在真实嘈杂的回声环境中进行的对话(例如,鸡尾酒会)。人们可以使用称为快速多通道非负矩阵分解(FastMNMF)的最先进的盲源分离方法,该方法在各种环境中都可以在各种环境中效果很好。但是,其沉重的计算成本阻止了其在实时处理中的应用。相反,一种使用深神网络(DNN)来估算语音和噪声的空间信息的有监督的束形方法很容易适合实时处理,但在不匹配的条件下,性能急剧下降。鉴于这种互补特征,我们提出了一种基于基于DNN的横梁成形的双过程强大的在线语音增强方法,并通过FastMNMF引导的适应性。 FastMNMF(后端)以迷你批次样式进行,嘈杂和增强的语音对与原始的并行训练数据一起使用,用于更新方向感知的DNN(前端),并在可计算上可允许的间隔内进行反向传播。该方法与盲遗产方法一起使用,称为加权预测错误(WPE),用于抄写扬声器的嘈杂的回响语音,可以从视频中检测到,或以用户的手势或眼睛注视,以流式传输方式和空间显示。用AR技术的转录。我们的实验表明,仅使用十二分钟的观察,随着运行时间的适应,单词错误率提高了10点以上。
translated by 谷歌翻译
在本文中,我们探索了一个改进的框架,以训练单腔神经增强模型,以识别强大的语音识别。设计的训练框架扩展了现有的混合训练标准,以利用未配对的干净语音和真实的嘈杂数据。发现未配对的干净言语对于提高实际嘈杂言论的分离语音质量至关重要。所提出的方法还对处理和未加工的信号进行混合,以减轻处理工件。单渠道Chime-3真实测试集上的实验表明,在语音识别性能方面,对在不匹配的模拟数据上训练的增强系统的语音识别性能以有监督的方式或以不受欢迎的方式对匹配的真实数据进行了显着改善。与未经处理的信号相比,使用端到端和混合声模型在未经扭曲的数据进行重新纠正的情况下,该系统已实现了16%至39%的相对减少。
translated by 谷歌翻译
通道不匹配和噪声干扰的补偿对于强大的自动语音识别至关重要。增强的语音已引入声学模型的多条件训练中,以提高其概括能力。在本文中,提出了一个基于两个级联神经结构的噪音感知训练框架,以共同优化语音增强和语音识别。功能增强模块由多任务自动编码器组成,嘈杂的语音被分解为干净的语音和噪声。通过将其增强的,吸引噪音的和嘈杂的特征连接起来,通过优化预测的无晶格最大互信息和预测状态序列之间的无晶格最大互助和交叉熵,声音模块将每个特征型仪表型映射到Triphone状态。除了分解时间延迟神经网络(TDNN-F)及其卷积变体(CNN-TDNNF),均具有Specaug,两个提议的系统的单词错误率(WER)分别为3.90%和3.55% Aurora-4任务。与使用BigRAM和Trigram语言模型进行解码的最佳现有系统相比,拟议的基于CNN-TDNNF的系统的相对降低分别为15.20%和33.53%。此外,提出的基于CNN-TDNNF的系统还优于AMI任务上的基线CNN-TDNNF系统。
translated by 谷歌翻译
多通道多扬声器的自动语音识别(ASR)重叠的语音仍然是语音社区最具挑战性的任务之一。在本文中,我们首次利用3D空间中的目标扬声器的位置信息来研究挑战。为了探讨所提出的3D空间特征的强度,研究了两个范例。 1)带有多通道语音分离模块的流水线系统,后跟最先进的单通道ASR模块; 2)3D空间特征直接用作无明确分离模块的ASR系统的输入的“一体化”模型。它们都是完全可分辨的,并且可以回到倒端的端到端。我们在模拟重叠的语音和实际录音上测试它们。实验结果表明,1)所提出的一体化模型对流水线系统实现了类似的误码率,同时将推理时间减少一半; 2)所提出的3D空间特征显着优于(31 \%CERR)所有先前的应用程序在两个范例中使用的所有先前作品。
translated by 谷歌翻译
使用多个麦克风进行语音增强的主要优点是,可以使用空间滤波来补充节奏光谱处理。在传统的环境中,通常单独执行线性空间滤波(波束形成)和单通道后过滤。相比之下,采用深层神经网络(DNN)有一种趋势来学习联合空间和速度 - 光谱非线性滤波器,这意味着对线性处理模型的限制以及空间和节奏单独处理的限制光谱信息可能可以克服。但是,尚不清楚导致此类数据驱动的过滤器以良好性能进行多通道语音增强的内部机制。因此,在这项工作中,我们通过仔细控制网络可用的信息源(空间,光谱和时间)来分析由DNN实现的非线性空间滤波器的性质及其与时间和光谱处理的相互依赖性。我们确认了非线性空间处理模型的优越性,该模型在挑战性的扬声器提取方案中优于Oracle线性空间滤波器,以低于0.24的POLQA得分,较少数量的麦克风。我们的分析表明,在特定的光谱信息中应与空间信息共同处理,因为这会提高过滤器的空间选择性。然后,我们的系统评估会导致一个简单的网络体系结构,该网络体系结构在扬声器提取任务上的最先进的网络体系结构优于0.22 POLQA得分,而CHIME3数据上的POLQA得分为0.32。
translated by 谷歌翻译
在本文中,我们提出了一种解决方案,以允许扬声器条件语音模型,例如VoiceFilter-Lite,以支持单个通过中的任意数量的注册用户。这是通过使用多个扬声器嵌入的注意机制来实现,以计算单个细小嵌入,然后将其用作模型的侧面输入。我们实现了多用户VoiceFilter-Lite并为三个任务进行了评估:(1)流自动语音识别(ASR)任务; (2)独立于文本的扬声器验证任务; (3)个性化关键级检测任务,其中ASR必须在嘈杂的环境中检测来自多个注册用户的关键次数。我们的实验表明,在最多四个注册的用户中,多用户VoiceFilter-Lite能够在具有重叠语音时显着降低语音识别和扬声器验证错误,而不会影响其他声学条件下的性能。这种细心的扬声器嵌入方法也可以轻松应用于其他扬声器条件模型,如个人VAD和个性化ASR。
translated by 谷歌翻译
扬声器日流是一个标签音频或视频录制的任务,与扬声器身份或短暂的任务标记对应于扬声器标识的类,以识别“谁谈到何时发表讲话”。在早期,对MultiSpeaker录音的语音识别开发了扬声器日益衰退算法,以使扬声器自适应处理能够实现扬声器自适应处理。这些算法还将自己的价值作为独立应用程序随着时间的推移,为诸如音频检索等下游任务提供特定于扬声器的核算。最近,随着深度学习技术的出现,这在讲话应用领域的研究和实践中引起了革命性的变化,对扬声器日益改善已经进行了快速进步。在本文中,我们不仅审查了扬声器日益改善技术的历史发展,而且还审查了神经扬声器日益改善方法的最新进步。此外,我们讨论了扬声器日复速度系统如何与语音识别应用相结合,以及最近深度学习的激增是如何引领联合建模这两个组件互相互补的方式。通过考虑这种令人兴奋的技术趋势,我们认为本文对社区提供了有价值的贡献,以通过巩固具有神经方法的最新发展,从而促进更有效的扬声器日益改善进一步进展。
translated by 谷歌翻译
在本文中,我们介绍了在单个神经网络中执行同时扬声器分离,DERE失眠和扬声器识别的盲言语分离和DERERATERATION(BSSD)网络。扬声器分离由一组预定义的空间线索引导。通过使用神经波束成形进行DERERATERATION,通过嵌入向量和三联挖掘来辅助扬声器识别。我们介绍了一种使用复值神经网络的频域模型,以及在潜伏空间中执行波束成形的时域变体。此外,我们提出了一个块在线模式来处理更长的录音,因为它们在会议场景中发生。我们在规模独立信号方面评估我们的系统,以失真率(SI-SI-SIS),字错误率(WER)和相等的错误率(eer)。
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
以前的研究已经证实了利用明晰度信息达到改善的语音增强(SE)性能的有效性。通过使用铰接特征的地点/方式增强原始声学特征,可以引导SE过程考虑执行增强时输入语音的剖视特性。因此,我们认为关节属性的上下文信息应包括有用的信息,并可以进一步利用不同的语言。在这项研究中,我们提出了一个SE系统,通过优化英语和普通话的增强演讲中的上下文清晰度信息来提高其性能。我们通过联合列车与端到端的自动语音识别(E2E ASR)模型进行联合列车,预测广播序列(BPC)而不是单词序列的序列。同时,开发了两种培训策略,以基于基于BPC的ASR:多任务学习和深度特征培训策略来培训SE系统。 Timit和TMhint DataSet上的实验结果证实了上下文化学信息促进了SE系统,以实现比传统声学模型(AM)更好的结果。此外,与用单声道ASR培训的另一SE系统相比,基于BPC的ASR(提供上下文化学信息)可以在不同的信噪比(SNR)下更有效地改善SE性能。
translated by 谷歌翻译
In a scenario with multiple persons talking simultaneously, the spatial characteristics of the signals are the most distinct feature for extracting the target signal. In this work, we develop a deep joint spatial-spectral non-linear filter that can be steered in an arbitrary target direction. For this we propose a simple and effective conditioning mechanism, which sets the initial state of the filter's recurrent layers based on the target direction. We show that this scheme is more effective than the baseline approach and increases the flexibility of the filter at no performance cost. The resulting spatially selective non-linear filters can also be used for speech separation of an arbitrary number of speakers and enable very accurate multi-speaker localization as we demonstrate in this paper.
translated by 谷歌翻译
Recently, many deep learning based beamformers have been proposed for multi-channel speech separation. Nevertheless, most of them rely on extra cues known in advance, such as speaker feature, face image or directional information. In this paper, we propose an end-to-end beamforming network for direction guided speech separation given merely the mixture signal, namely MIMO-DBnet. Specifically, we design a multi-channel input and multiple outputs architecture to predict the direction-of-arrival based embeddings and beamforming weights for each source. The precisely estimated directional embedding provides quite effective spatial discrimination guidance for the neural beamformer to offset the effect of phase wrapping, thus allowing more accurate reconstruction of two sources' speech signals. Experiments show that our proposed MIMO-DBnet not only achieves a comprehensive decent improvement compared to baseline systems, but also maintain the performance on high frequency bands when phase wrapping occurs.
translated by 谷歌翻译
使用未知数量的扬声器数量的单通道远场录制的自动语音识别(ASR)传统上由级联模块解决。最近的研究表明,与模块化系统相比,端到端(E2E)多扬声器ASR模型可以实现卓越的识别准确性。但是,这些模型不会确保由于其对完整音频上下文的依赖性而实时适用性。这项工作采用实时适用性,作为模型设计的第一优先级,并解决了以前的多扬声器经常性神经网络传感器(MS-RNN-T)的几个挑战。首先,我们在训练期间介绍一般的重叠言论模拟,在LibrisPeechMix测试集上产生14%的相对字错误率(WER)改进。其次,我们提出了一种新的多转RNN-T(MT-RNN-T)模型,其具有基于重叠的目标布置策略,其概括为任意数量的扬声器,而没有模型架构的变化。我们调查在Liblics测试集上培训训练期间看到的最大扬声器数量的影响,并在两位扬声器MS-RNN-T上报告28%的相对加速。第三,我们试验丰富的转录战略,共同承认和分割多方言论。通过深入分析,我们讨论所提出的系统的潜在陷阱以及未来的未来研究方向。
translated by 谷歌翻译
在我们以前的工作中,我们提出了一个歧视性自动编码器(DCAE)进行语音识别。 DCAE将两个训练方案结合在一起。首先,由于DCAE的目标是学习编码器映射,因此重建语音和输入语音之间的平方误差被最小化。其次,在代码层中,基于框架的语音嵌入是通过最小化地面真相标签和预测的Triphone-State分数之间的分类跨熵来获得的。 DCAE是根据Kaldi工具包开发的,通过将各种TDNN模型视为编码器。在本文中,我们进一步提出了三个新版本的DCAE。首先,使用了一个新的目标函数,该函数使用了地面真相和预测的Triphone-State序列之间的分类跨膜和相互信息。所得的DCAE称为基于链的DCAE(C-DCAE)。为了应用于强大的语音识别,我们将C-DCAE进一步扩展到层次结构和平行结构,从而导致HC-DCAE和PC-DCAE。在这两个模型中,重建的嘈杂语音与输入嘈杂语音以及增强语音和参考清洁语音之间的误差之间的误差都归功于目标函数。 WSJ和Aurora-4 Corpora的实验结果表明,我们的DCAE模型优于基线系统。
translated by 谷歌翻译
采用深层神经网络(DNN)直接学习多通道语音增强的过滤器,这可能是将线性空间过滤器与独立的节奏光谱后过滤器相结合的传统方法的两个关键优势:1)非线性空间过滤器克服源自线性处理模型的潜在限制和2)空间和速度光谱信息的关节处理可以利用不同信息来源之间的相互依赖性。最近提出了各种基于DNN的非线性过滤器,报告了良好的增强性能。但是,对于将网络体系结构设计变成机会游戏的内部机制知之甚少。因此,在本文中,我们执行实验,以更好地了解基于DNN的非线性过滤器对空间,光谱和时间信息的内部处理。一方面,我们在艰难的语音提取方案中的实验证实了非线性空间滤波的重要性,该空间过滤的重要性超过了Oracle线性空间滤波器,高于0.24 POLQA得分。另一方面,我们证明了联合处理导致较大的性能差距,除了空间信息之外,在利用光谱与时间信息的网络体系结构之间得分为0.4 POLQA得分。
translated by 谷歌翻译
We propose to characterize and improve the performance of blind room impulse response (RIR) estimation systems in the context of a downstream application scenario, far-field automatic speech recognition (ASR). We first draw the connection between improved RIR estimation and improved ASR performance, as a means of evaluating neural RIR estimators. We then propose a GAN-based architecture that encodes RIR features from reverberant speech and constructs an RIR from the encoded features, and uses a novel energy decay relief loss to optimize for capturing energy-based properties of the input reverberant speech. We show that our model outperforms the state-of-the-art baselines on acoustic benchmarks (by 72% on the energy decay relief and 22% on an early-reflection energy metric), as well as in an ASR evaluation task (by 6.9% in word error rate).
translated by 谷歌翻译
Deep neural networks (DNN) techniques have become pervasive in domains such as natural language processing and computer vision. They have achieved great success in these domains in task such as machine translation and image generation. Due to their success, these data driven techniques have been applied in audio domain. More specifically, DNN models have been applied in speech enhancement domain to achieve denosing, dereverberation and multi-speaker separation in monaural speech enhancement. In this paper, we review some dominant DNN techniques being employed to achieve speech separation. The review looks at the whole pipeline of speech enhancement from feature extraction, how DNN based tools are modelling both global and local features of speech and model training (supervised and unsupervised). We also review the use of speech-enhancement pre-trained models to boost speech enhancement process. The review is geared towards covering the dominant trends with regards to DNN application in speech enhancement in speech obtained via a single speaker.
translated by 谷歌翻译
在本文中,提出了一种用于加权预测误差(WPE)方法的Kalman滤波变体的神经网络增强算法。滤波器随机变化是通过使用过滤器残留误差和信号特性端对端的深神经网络(DNN)预测的。提出的框架允许在类似于Whamr!的单渠道嘈杂的混响数据集上进行稳健的编织。当目标语音功率频谱密度不完全了解并且观察值嘈杂时,Kalman过滤WPE仅预测剩余误差的滤波器变化时,才会在增强信号中引入失真。提出的方法通过以数据驱动的方式纠正滤波器变化估计来避免这些扭曲,从而将方法的鲁棒性增加到噪声方案。此外,与DNN支持的递归最小二乘正方形变体相比,它产生了强烈的脊椎和脱氧性能,尤其是对于高度嘈杂的输入。
translated by 谷歌翻译
人类脑中脑中的背景利用异质感官信息,以有效地执行包括视觉和听力的认知任务。例如,在鸡尾酒会党的情况下,人类听觉Cortex上下文中的视听(AV)提示才能更好地感知言论。最近的研究表明,与音频SE模型相比,AV语音增强(SE)模型可以显着提高信噪比(SNR)环境的极低信号的语音质量和可懂度。然而,尽管在AV SE的领域进行了显着的研究,但具有低延迟的实时处理模型的开发仍然是一个强大的技术挑战。在本文中,我们为低延迟扬声器的独立AV SE提供了一种新颖的框架,可以概括一系列视觉和声学噪声。特别地,提出了一种生成的对抗性网络(GaN)来解决AV SE的视觉缺陷的实际问题。此外,我们提出了一种基于神经网络的深度神经网络的实时AV SE模型,考虑到从GaN的清洁的视觉语音输出来提供更强大的SE。拟议的框架使用客观语音质量和可懂度指标和主观上市测试对合成和真实嘈杂的AV语料库进行评估。比较仿真结果表明,我们的实时AV SE框架优于最先进的SE方法,包括最近的基于DNN的SE模型。
translated by 谷歌翻译