本文提出了一种单通道语音增强方法,以减少低信噪比(SNR)水平和非平稳噪声条件下的噪声并增强语音。具体而言,我们专注于使用高斯混合模型(GMM)基于具有参数Wiener滤波器的多阶段过程来建模噪声。提出的噪声模型估计了更准确的噪声功率频谱密度(PSD),并且与传统的Wiener滤波方法相比,在各种噪声条件下可以更好地概括。模拟表明,所提出的方法可以在低SNR级别的语音质量(PESQ)和清晰度(Stoi)方面取得更好的性能。
translated by 谷歌翻译
本文介绍了一种无监督的基于分段的稳健语音活动检测方法(RVAD)。该方法包括两个去噪之后的传递,然后是语音活动检测(VAD)阶段。在第一通道中,通过使用后验信噪比(SNR)加权能量差来检测语音信号中的高能段,并且如果在段内没有检测到间距,则该段被认为是高能量噪声段并设置为零。在第二种通过中,语音信号由语音增强方法进行去噪,探索了几种方法。接下来,具有间距的相邻帧被分组在一起以形成音调段,并且基于语音统计,俯仰段进一步从两端延伸,以便包括浊音和发声声音和可能的非语音部分。最后,将后验SNR加权能量差应用于用于检测语音活动的去噪语音信号的扩展桨距片段。我们使用两个数据库,大鼠和极光-2评估所提出的方法的VAD性能,该方法包含大量噪声条件。在扬声器验证性能方面进一步评估RVAD方法,在Reddots 2016挑战数据库及其噪声损坏版本方面。实验结果表明,RVAD与许多现有方法有利地比较。此外,我们介绍了一种修改版的RVAD,其中通过计算有效的光谱平坦度计算替换计算密集的俯仰提取。修改的版本显着降低了适度较低的VAD性能成本的计算复杂性,这是在处理大量数据并在低资源设备上运行时的优势。 RVAD的源代码被公开可用。
translated by 谷歌翻译
在本文中,提出了一种用于加权预测误差(WPE)方法的Kalman滤波变体的神经网络增强算法。滤波器随机变化是通过使用过滤器残留误差和信号特性端对端的深神经网络(DNN)预测的。提出的框架允许在类似于Whamr!的单渠道嘈杂的混响数据集上进行稳健的编织。当目标语音功率频谱密度不完全了解并且观察值嘈杂时,Kalman过滤WPE仅预测剩余误差的滤波器变化时,才会在增强信号中引入失真。提出的方法通过以数据驱动的方式纠正滤波器变化估计来避免这些扭曲,从而将方法的鲁棒性增加到噪声方案。此外,与DNN支持的递归最小二乘正方形变体相比,它产生了强烈的脊椎和脱氧性能,尤其是对于高度嘈杂的输入。
translated by 谷歌翻译
采用深层神经网络(DNN)直接学习多通道语音增强的过滤器,这可能是将线性空间过滤器与独立的节奏光谱后过滤器相结合的传统方法的两个关键优势:1)非线性空间过滤器克服源自线性处理模型的潜在限制和2)空间和速度光谱信息的关节处理可以利用不同信息来源之间的相互依赖性。最近提出了各种基于DNN的非线性过滤器,报告了良好的增强性能。但是,对于将网络体系结构设计变成机会游戏的内部机制知之甚少。因此,在本文中,我们执行实验,以更好地了解基于DNN的非线性过滤器对空间,光谱和时间信息的内部处理。一方面,我们在艰难的语音提取方案中的实验证实了非线性空间滤波的重要性,该空间过滤的重要性超过了Oracle线性空间滤波器,高于0.24 POLQA得分。另一方面,我们证明了联合处理导致较大的性能差距,除了空间信息之外,在利用光谱与时间信息的网络体系结构之间得分为0.4 POLQA得分。
translated by 谷歌翻译
Deep neural networks (DNN) techniques have become pervasive in domains such as natural language processing and computer vision. They have achieved great success in these domains in task such as machine translation and image generation. Due to their success, these data driven techniques have been applied in audio domain. More specifically, DNN models have been applied in speech enhancement domain to achieve denosing, dereverberation and multi-speaker separation in monaural speech enhancement. In this paper, we review some dominant DNN techniques being employed to achieve speech separation. The review looks at the whole pipeline of speech enhancement from feature extraction, how DNN based tools are modelling both global and local features of speech and model training (supervised and unsupervised). We also review the use of speech-enhancement pre-trained models to boost speech enhancement process. The review is geared towards covering the dominant trends with regards to DNN application in speech enhancement in speech obtained via a single speaker.
translated by 谷歌翻译
使用多个麦克风进行语音增强的主要优点是,可以使用空间滤波来补充节奏光谱处理。在传统的环境中,通常单独执行线性空间滤波(波束形成)和单通道后过滤。相比之下,采用深层神经网络(DNN)有一种趋势来学习联合空间和速度 - 光谱非线性滤波器,这意味着对线性处理模型的限制以及空间和节奏单独处理的限制光谱信息可能可以克服。但是,尚不清楚导致此类数据驱动的过滤器以良好性能进行多通道语音增强的内部机制。因此,在这项工作中,我们通过仔细控制网络可用的信息源(空间,光谱和时间)来分析由DNN实现的非线性空间滤波器的性质及其与时间和光谱处理的相互依赖性。我们确认了非线性空间处理模型的优越性,该模型在挑战性的扬声器提取方案中优于Oracle线性空间滤波器,以低于0.24的POLQA得分,较少数量的麦克风。我们的分析表明,在特定的光谱信息中应与空间信息共同处理,因为这会提高过滤器的空间选择性。然后,我们的系统评估会导致一个简单的网络体系结构,该网络体系结构在扬声器提取任务上的最先进的网络体系结构优于0.22 POLQA得分,而CHIME3数据上的POLQA得分为0.32。
translated by 谷歌翻译
最近在各种语音域应用中提出了卷积增强的变压器(构象异构体),例如自动语音识别(ASR)和语音分离,因为它们可以捕获本地和全球依赖性。在本文中,我们提出了一个基于构型的度量生成对抗网络(CMGAN),以在时间频率(TF)域中进行语音增强(SE)。发电机使用两阶段构象体块编码大小和复杂的频谱图信息,以模拟时间和频率依赖性。然后,解码器将估计分解为尺寸掩模的解码器分支,以滤除不需要的扭曲和复杂的细化分支,以进一步改善幅度估计并隐式增强相信息。此外,我们还包括一个度量歧视器来通过优化相应的评估评分来减轻度量不匹配。客观和主观评估表明,与三个语音增强任务(DeNoising,dereverberation和Super-Losity)中的最新方法相比,CMGAN能够表现出卓越的性能。例如,对语音库+需求数据集的定量降解分析表明,CMGAN的表现优于以前的差距,即PESQ为3.41,SSNR为11.10 dB。
translated by 谷歌翻译
Single-channel deep speech enhancement approaches often estimate a single multiplicative mask to extract clean speech without a measure of its accuracy. Instead, in this work, we propose to quantify the uncertainty associated with clean speech estimates in neural network-based speech enhancement. Predictive uncertainty is typically categorized into aleatoric uncertainty and epistemic uncertainty. The former accounts for the inherent uncertainty in data and the latter corresponds to the model uncertainty. Aiming for robust clean speech estimation and efficient predictive uncertainty quantification, we propose to integrate statistical complex Gaussian mixture models (CGMMs) into a deep speech enhancement framework. More specifically, we model the dependency between input and output stochastically by means of a conditional probability density and train a neural network to map the noisy input to the full posterior distribution of clean speech, modeled as a mixture of multiple complex Gaussian components. Experimental results on different datasets show that the proposed algorithm effectively captures predictive uncertainty and that combining powerful statistical models and deep learning also delivers a superior speech enhancement performance.
translated by 谷歌翻译
最近,基于扩散的生成模型已引入语音增强的任务。干净的语音损坏被建模为固定的远期过程,其中逐渐添加了越来越多的噪声。通过学习以嘈杂的输入为条件的迭代方式扭转这一过程,可以产生干净的语音。我们以先前的工作为基础,并在随机微分方程的形式主义中得出训练任务。我们对基础分数匹配目标进行了详细的理论综述,并探索了不同的采样器配置,以解决测试时的反向过程。通过使用自然图像生成文献的复杂网络体系结构,与以前的出版物相比,我们可以显着提高性能。我们还表明,我们可以与最近的判别模型竞争,并在评估与培训不同的语料库时获得更好的概括。我们通过主观的听力测试对评估结果进行补充,其中我们提出的方法是最好的。此外,我们表明所提出的方法在单渠道语音覆盖中实现了出色的最新性能。我们的代码和音频示例可在线获得,请参见https://uhh.de/inf-sp-sgmse
translated by 谷歌翻译
人类脑中脑中的背景利用异质感官信息,以有效地执行包括视觉和听力的认知任务。例如,在鸡尾酒会党的情况下,人类听觉Cortex上下文中的视听(AV)提示才能更好地感知言论。最近的研究表明,与音频SE模型相比,AV语音增强(SE)模型可以显着提高信噪比(SNR)环境的极低信号的语音质量和可懂度。然而,尽管在AV SE的领域进行了显着的研究,但具有低延迟的实时处理模型的开发仍然是一个强大的技术挑战。在本文中,我们为低延迟扬声器的独立AV SE提供了一种新颖的框架,可以概括一系列视觉和声学噪声。特别地,提出了一种生成的对抗性网络(GaN)来解决AV SE的视觉缺陷的实际问题。此外,我们提出了一种基于神经网络的深度神经网络的实时AV SE模型,考虑到从GaN的清洁的视觉语音输出来提供更强大的SE。拟议的框架使用客观语音质量和可懂度指标和主观上市测试对合成和真实嘈杂的AV语料库进行评估。比较仿真结果表明,我们的实时AV SE框架优于最先进的SE方法,包括最近的基于DNN的SE模型。
translated by 谷歌翻译
通道不匹配和噪声干扰的补偿对于强大的自动语音识别至关重要。增强的语音已引入声学模型的多条件训练中,以提高其概括能力。在本文中,提出了一个基于两个级联神经结构的噪音感知训练框架,以共同优化语音增强和语音识别。功能增强模块由多任务自动编码器组成,嘈杂的语音被分解为干净的语音和噪声。通过将其增强的,吸引噪音的和嘈杂的特征连接起来,通过优化预测的无晶格最大互信息和预测状态序列之间的无晶格最大互助和交叉熵,声音模块将每个特征型仪表型映射到Triphone状态。除了分解时间延迟神经网络(TDNN-F)及其卷积变体(CNN-TDNNF),均具有Specaug,两个提议的系统的单词错误率(WER)分别为3.90%和3.55% Aurora-4任务。与使用BigRAM和Trigram语言模型进行解码的最佳现有系统相比,拟议的基于CNN-TDNNF的系统的相对降低分别为15.20%和33.53%。此外,提出的基于CNN-TDNNF的系统还优于AMI任务上的基线CNN-TDNNF系统。
translated by 谷歌翻译
在本文中,我们探索了一个改进的框架,以训练单腔神经增强模型,以识别强大的语音识别。设计的训练框架扩展了现有的混合训练标准,以利用未配对的干净语音和真实的嘈杂数据。发现未配对的干净言语对于提高实际嘈杂言论的分离语音质量至关重要。所提出的方法还对处理和未加工的信号进行混合,以减轻处理工件。单渠道Chime-3真实测试集上的实验表明,在语音识别性能方面,对在不匹配的模拟数据上训练的增强系统的语音识别性能以有监督的方式或以不受欢迎的方式对匹配的真实数据进行了显着改善。与未经处理的信号相比,使用端到端和混合声模型在未经扭曲的数据进行重新纠正的情况下,该系统已实现了16%至39%的相对减少。
translated by 谷歌翻译
我们考虑了双耳应用的音频语音分离问题,例如耳机和助听器。虽然当今的神经网络的表现非常出色(用2美元的麦克风分开$ 4+$来源),但他们假设已知或固定的最大数量来源,K。和人头形。本文打算放松这两个约束,而牺牲问题定义的略有改变。我们观察到,当接收到的混合物包含过多的来源时,将它们逐个区域分开,即将信号混合物与用户头部周围的每个圆锥形扇区隔离。这需要学习每个区域的细粒空间特性,包括人头施加的信号扭曲。我们提出了一个两阶段的自我监督框架,在该框架中,预处理耳机中听到声音以提取相对清洁的个性化信号,然后将其用于训练区域分离模型。结果表明表现出色的表现,强调了个性化在通用监督方法上的重要性。 (在我们的项目网站上可用的音频样本:https://uiuc-earable-computing.github.io/binaural/。我们相信,我们相信此结果可以帮助现实世界中的应用程序,以选择性听力,消除噪音和音频增强现实。
translated by 谷歌翻译
使用Denoisis扩散概率模型(DDPM)的神经声码器已通过适应给定的声学特征的扩散噪声分布来改善。在这项研究中,我们提出了适应扩散噪声的素描,以使其随时间变化的光谱包络变得接近条件对数 - 摩尔光谱图。随着时变的过滤这种适应可改善声音质量,尤其是在高频带中。它是在时频域中处理的,以使计算成本几乎与常规DDPM基于DDPM的神经声码器相同。实验结果表明,在分析合成和语音增强方案中,Specgrad比常规DDPM的神经声码器产生比常规DDPM的更高的语音波形。音频演示可在wavegrad.github.io/specgrad/上获得。
translated by 谷歌翻译
尽管基于深度学习的语音增强系统在提高语音信号的质量方面取得了迅速的进步,但它们仍然可以产生包含伪像且听起来不自然的输出。我们提出了一种新颖的语音增强方法,旨在通过优化言语的关键特征来提高增强信号的知觉质量和自然性。我们首先确定与语音质量良好相关的关键声学参数(例如抖动,微光和光谱通量),然后提出目标函数,旨在减少相对于这些功能的清洁语音和增强语音之间的差异。完整的声学特征是扩展的Geneva声学参数集(EGEMAPS),其中包括与语音感知相关的25种不同属性。考虑到这些功能计算的非差异性质,我们首先构建了EGEMAP的可区分估计器,然后使用它们来微调现有的语音增强系统。我们的方法是通用的,可以应用于任何现有的基于深度学习的增强系统,以进一步改善增强的语音信号。对深噪声抑制(DNS)挑战数据集进行的实验结果表明,我们的方法可以改善最新的基于深度学习的增强系统。
translated by 谷歌翻译
基于分数的生成模型(SGM)最近显示了难以生成的任务的令人印象深刻的结果,例如自然图像和音频信号的无条件生成和条件生成。在这项工作中,我们将这些模型扩展到复杂的短时傅立叶变换(STFT)域,并提出了使用复杂值的深神经网络来增强语音的新型训练任务。我们在随机微分方程(SDE)的形式主义中得出了这项训练任务,从而实现了预测器 - 矫正器采样器的使用。我们提供了以前出版物启发的替代配方,以使用生成扩散模型来增强语音,从而避免了对噪声分布的任何先前假设的需求,并使训练任务纯粹是生成纯生成的,这是我们所显示的,从而改善了增强性能。
translated by 谷歌翻译
在这项研究中,我们提出了一种跨域多目标语音评估模型,即MOSA-net,可以同时估算多个语音评估度量。更具体地,MOSA-Net旨在基于作为输入的测试语音信号来估计语音质量,可懂度和失真评估分数。它包括用于表示提取的卷积神经网络和双向长短期存储器(CNN-BLSTM)架构,以及每个评估度量的乘法注意层和完全连接的层。此外,来自自我监督学习模型的跨域特征(光谱和时域特征)和潜在的表示用作将丰富的声学信息与不同语音表示相结合的输入,以获得更准确的评估。实验结果表明,MOSA-Net可以精确地预测语音质量(PESQ),短时间客观可懂度(STOI)和语音失真指数(SDI)分数的感知评估,并且在噪声下进行了测试,并且在任何看法测试下都有增强的语音话语条件(测试扬声器和训练集中涉及的噪音类型)或看不见的测试条件(其中测试扬声器和噪声类型不参与训练集)。鉴于确认的预测能力,我们进一步采用了MOSA网的潜在表示来引导语音增强(SE)过程,并导出了质量清晰度(QI)-AWARE SE(QIA-SE)方法。实验结果表明,与客观评估指标和定性评估测试相比,QIA-SE与基线SE系统相比提供了卓越的增强性能。
translated by 谷歌翻译
In a scenario with multiple persons talking simultaneously, the spatial characteristics of the signals are the most distinct feature for extracting the target signal. In this work, we develop a deep joint spatial-spectral non-linear filter that can be steered in an arbitrary target direction. For this we propose a simple and effective conditioning mechanism, which sets the initial state of the filter's recurrent layers based on the target direction. We show that this scheme is more effective than the baseline approach and increases the flexibility of the filter at no performance cost. The resulting spatially selective non-linear filters can also be used for speech separation of an arbitrary number of speakers and enable very accurate multi-speaker localization as we demonstrate in this paper.
translated by 谷歌翻译
近年来,基于深度学习的语言增强表现出前所未有的性能。最受欢迎的单声道语音增强框架是端到端网络将嘈杂的混合物映射到清洁语音的估计。随着计算能力的增长和多通道麦克风录制的可用性,目前的作用旨在将空间统计信息与光谱信息一起融合以提高性能。尽管Mono输出的增强性能提高,但空间图像保存和主观评估在文献中没有大量关注。本文提出了一种用于语音增强的新颖立体感知框架,即,基于深度学习的语音增强的训练损失,以在增强立体声混合物的同时保留空间图像。所提出的框架是独立的模型,因此它可以应用于任何基于深度学习的架构。我们通过聆听测试提供对训练有素的模型的广泛目标和主观评估。我们表明,通过规范进行图像保存损失,整体性能得到改善,并且演讲的立体方面更好地保存。
translated by 谷歌翻译
课程学习开始在语音增强区中茁壮成长,使原始频谱估计任务将原始频谱估计任务分成多个更容易的子任务以实现更好的性能。由此,我们提出了一种双分支关注变压器,称为DB-Aiat,以并行地处理光谱的粗糙和细粒度。根据互补视角,提出了一种幅度掩蔽分支以粗略地估计整体幅度谱,并且同时设计复杂的精制分支,设计成补偿缺失的光谱细节和隐式导出的相位信息。在每个分支机构内,我们提出了一种新的注意力互感器的模块,以替换用于时间序列建模的传统RNN和时间卷积网络。具体地,提出的注意力变压器包括自适应时间 - 频率注意力变压器块和自适应分层关注模块,旨在捕获长期时间频率依赖性以及进一步聚合全局分层上下文信息。语音库+需求的实验结果表明,DB-AIAT在以前的高级系统上产生了最先进的性能(例如,3.31 PESQ,95.6%的STOI和10.79dB SSNR),其型号尺寸相对较小(2.81米)。
translated by 谷歌翻译