尽管基于深度学习的语音增强系统在提高语音信号的质量方面取得了迅速的进步,但它们仍然可以产生包含伪像且听起来不自然的输出。我们提出了一种新颖的语音增强方法,旨在通过优化言语的关键特征来提高增强信号的知觉质量和自然性。我们首先确定与语音质量良好相关的关键声学参数(例如抖动,微光和光谱通量),然后提出目标函数,旨在减少相对于这些功能的清洁语音和增强语音之间的差异。完整的声学特征是扩展的Geneva声学参数集(EGEMAPS),其中包括与语音感知相关的25种不同属性。考虑到这些功能计算的非差异性质,我们首先构建了EGEMAP的可区分估计器,然后使用它们来微调现有的语音增强系统。我们的方法是通用的,可以应用于任何现有的基于深度学习的增强系统,以进一步改善增强的语音信号。对深噪声抑制(DNS)挑战数据集进行的实验结果表明,我们的方法可以改善最新的基于深度学习的增强系统。
translated by 谷歌翻译
Modern speech enhancement (SE) networks typically implement noise suppression through time-frequency masking, latent representation masking, or discriminative signal prediction. In contrast, some recent works explore SE via generative speech synthesis, where the system's output is synthesized by a neural vocoder after an inherently lossy feature-denoising step. In this paper, we propose a denoising vocoder (DeVo) approach, where a vocoder accepts noisy representations and learns to directly synthesize clean speech. We leverage rich representations from self-supervised learning (SSL) speech models to discover relevant features. We conduct a candidate search across 15 potential SSL front-ends and subsequently train our vocoder adversarially with the best SSL configuration. Additionally, we demonstrate a causal version capable of running on streaming audio with 10ms latency and minimal performance degradation. Finally, we conduct both objective evaluations and subjective listening studies to show our system improves objective metrics and outperforms an existing state-of-the-art SE model subjectively.
translated by 谷歌翻译
We propose to characterize and improve the performance of blind room impulse response (RIR) estimation systems in the context of a downstream application scenario, far-field automatic speech recognition (ASR). We first draw the connection between improved RIR estimation and improved ASR performance, as a means of evaluating neural RIR estimators. We then propose a GAN-based architecture that encodes RIR features from reverberant speech and constructs an RIR from the encoded features, and uses a novel energy decay relief loss to optimize for capturing energy-based properties of the input reverberant speech. We show that our model outperforms the state-of-the-art baselines on acoustic benchmarks (by 72% on the energy decay relief and 22% on an early-reflection energy metric), as well as in an ASR evaluation task (by 6.9% in word error rate).
translated by 谷歌翻译
Deep neural networks (DNN) techniques have become pervasive in domains such as natural language processing and computer vision. They have achieved great success in these domains in task such as machine translation and image generation. Due to their success, these data driven techniques have been applied in audio domain. More specifically, DNN models have been applied in speech enhancement domain to achieve denosing, dereverberation and multi-speaker separation in monaural speech enhancement. In this paper, we review some dominant DNN techniques being employed to achieve speech separation. The review looks at the whole pipeline of speech enhancement from feature extraction, how DNN based tools are modelling both global and local features of speech and model training (supervised and unsupervised). We also review the use of speech-enhancement pre-trained models to boost speech enhancement process. The review is geared towards covering the dominant trends with regards to DNN application in speech enhancement in speech obtained via a single speaker.
translated by 谷歌翻译
最近在各种语音域应用中提出了卷积增强的变压器(构象异构体),例如自动语音识别(ASR)和语音分离,因为它们可以捕获本地和全球依赖性。在本文中,我们提出了一个基于构型的度量生成对抗网络(CMGAN),以在时间频率(TF)域中进行语音增强(SE)。发电机使用两阶段构象体块编码大小和复杂的频谱图信息,以模拟时间和频率依赖性。然后,解码器将估计分解为尺寸掩模的解码器分支,以滤除不需要的扭曲和复杂的细化分支,以进一步改善幅度估计并隐式增强相信息。此外,我们还包括一个度量歧视器来通过优化相应的评估评分来减轻度量不匹配。客观和主观评估表明,与三个语音增强任务(DeNoising,dereverberation和Super-Losity)中的最新方法相比,CMGAN能够表现出卓越的性能。例如,对语音库+需求数据集的定量降解分析表明,CMGAN的表现优于以前的差距,即PESQ为3.41,SSNR为11.10 dB。
translated by 谷歌翻译
以前的研究已经证实了利用明晰度信息达到改善的语音增强(SE)性能的有效性。通过使用铰接特征的地点/方式增强原始声学特征,可以引导SE过程考虑执行增强时输入语音的剖视特性。因此,我们认为关节属性的上下文信息应包括有用的信息,并可以进一步利用不同的语言。在这项研究中,我们提出了一个SE系统,通过优化英语和普通话的增强演讲中的上下文清晰度信息来提高其性能。我们通过联合列车与端到端的自动语音识别(E2E ASR)模型进行联合列车,预测广播序列(BPC)而不是单词序列的序列。同时,开发了两种培训策略,以基于基于BPC的ASR:多任务学习和深度特征培训策略来培训SE系统。 Timit和TMhint DataSet上的实验结果证实了上下文化学信息促进了SE系统,以实现比传统声学模型(AM)更好的结果。此外,与用单声道ASR培训的另一SE系统相比,基于BPC的ASR(提供上下文化学信息)可以在不同的信噪比(SNR)下更有效地改善SE性能。
translated by 谷歌翻译
基于深度学习(DL)的语音增强方法通常优化,以最小化干净和增强语音功能之间的距离。这些经常导致语音质量改善,但它们缺乏普遍化,并且可能无法在实际嘈杂情况下提供所需的语音可懂度。为了解决这些挑战,研究人员已经探索了智能性(I-O)丢失函数和用于更强大的语音增强(SE)的视听(AV)信息的集成。在本文中,我们介绍了基于DL的I-O SE算法利用AV信息,这是一种新颖且以前未开发的研究方向。具体而言,我们介绍了一个完全卷积的AV SE模型,它使用改进的短时客观可懂度(STOI)度量作为培训成本函数。据我们所知,这是第一个利用基于I-O的I-O的损耗函数的AV模式集成的第一项工作。比较实验结果表明,我们提出的I-O AV SE框架优于与传统距离的损耗功能训练的仅音频(AO)和AV模型,就标准客观的扬声器和噪声处理。
translated by 谷歌翻译
人类脑中脑中的背景利用异质感官信息,以有效地执行包括视觉和听力的认知任务。例如,在鸡尾酒会党的情况下,人类听觉Cortex上下文中的视听(AV)提示才能更好地感知言论。最近的研究表明,与音频SE模型相比,AV语音增强(SE)模型可以显着提高信噪比(SNR)环境的极低信号的语音质量和可懂度。然而,尽管在AV SE的领域进行了显着的研究,但具有低延迟的实时处理模型的开发仍然是一个强大的技术挑战。在本文中,我们为低延迟扬声器的独立AV SE提供了一种新颖的框架,可以概括一系列视觉和声学噪声。特别地,提出了一种生成的对抗性网络(GaN)来解决AV SE的视觉缺陷的实际问题。此外,我们提出了一种基于神经网络的深度神经网络的实时AV SE模型,考虑到从GaN的清洁的视觉语音输出来提供更强大的SE。拟议的框架使用客观语音质量和可懂度指标和主观上市测试对合成和真实嘈杂的AV语料库进行评估。比较仿真结果表明,我们的实时AV SE框架优于最先进的SE方法,包括最近的基于DNN的SE模型。
translated by 谷歌翻译
由于使用深度学习模型作为基本功能,语音增强(SE)的性能已大大提高。本文中,我们提出了一种感知对比度拉伸(PC)方法,以进一步提高SE性能。 PC是基于临界频带重要性函数得出的,并应用于修改SE模型的目标。具体而言,目标特征的对比是根据感知重要性拉伸的,从而提高了整体SE性能。与基于后处理的实现相比,将PC纳入培训阶段可以保留性能并减少在线计算。值得注意的是,PC可以与不同的SE模型架构和训练标准结合使用。此外,PC不影响SE模型训练的因果关系或收敛性。 VoiceBank按需数据集的实验结果表明,所提出的方法可以在因果关系(PESQ得分= 3.07)和非causal(PESQ分数= 3.35)SE任务上实现最先进的表现。
translated by 谷歌翻译
最近,基于扩散的生成模型已引入语音增强的任务。干净的语音损坏被建模为固定的远期过程,其中逐渐添加了越来越多的噪声。通过学习以嘈杂的输入为条件的迭代方式扭转这一过程,可以产生干净的语音。我们以先前的工作为基础,并在随机微分方程的形式主义中得出训练任务。我们对基础分数匹配目标进行了详细的理论综述,并探索了不同的采样器配置,以解决测试时的反向过程。通过使用自然图像生成文献的复杂网络体系结构,与以前的出版物相比,我们可以显着提高性能。我们还表明,我们可以与最近的判别模型竞争,并在评估与培训不同的语料库时获得更好的概括。我们通过主观的听力测试对评估结果进行补充,其中我们提出的方法是最好的。此外,我们表明所提出的方法在单渠道语音覆盖中实现了出色的最新性能。我们的代码和音频示例可在线获得,请参见https://uhh.de/inf-sp-sgmse
translated by 谷歌翻译
最近,卷积增强的变压器(构象异构体)在自动语音识别(ASR)和时间域语音增强(SE)中实现了有希望的表现,因为它可以捕获语音信号中的本地和全局依赖性。在本文中,我们在时间频率(TF)域中提出了SE的基于构型的度量生成对抗网络(CMGAN)。在发电机中,我们利用两阶段的构象体块来通过对时间和频率依赖性进行建模来汇总所有幅度和复杂的频谱图。大小和复杂谱图的估计在解码器阶段被解耦,然后共同掺入以重建增强的语音。此外,通过优化相应的评估评分,采用了度量歧视器来进一步提高增强估计语音的质量。语音库+需求数据集的定量分析表明,CMGAN在优于以前的模型的功能,即PESQ为3.41,SSNR为11.10 dB。
translated by 谷歌翻译
情绪转换(EVC)寻求转换话语的情绪状态,同时保留语言内容和扬声器身份。在EVC,情绪通常被视为离散类别,忽略了言论也传达了听众可以感知的各种强度水平的情绪。在本文中,我们的目标是明确地表征和控制情绪强度。我们建议解开语言内容的扬声器风格,并将扬声器风格编码成一个嵌入的嵌入空间,形成情绪嵌入的原型。我们进一步从情感标记的数据库中了解实际的情感编码器,并研究使用相对属性来表示细粒度的情绪强度。为确保情绪可理解性,我们将情感分类损失和情感嵌入了EVC网络培训中的相似性损失。根据需要,所提出的网络控制输出语音中的细粒度情绪强度。通过目标和主观评估,我们验证了建议网络的情感表达和情感强度控制的有效性。
translated by 谷歌翻译
生成的对抗网络最近在神经声音中表现出了出色的表现,表现优于最佳自动回归和基于流动的模型。在本文中,我们表明这种成功可以扩展到有条件音频的其他任务。特别是,在HIFI Vocoders的基础上,我们为带宽扩展和语音增强的新型HIFI ++一般框架提出了新颖的一般框架。我们表明,通过改进的生成器体系结构和简化的多歧视培训,HIFI ++在这些任务中的最先进的情况下表现更好或与之相提并论,同时花费大量的计算资源。通过一系列广泛的实验,我们的方法的有效性得到了验证。
translated by 谷歌翻译
Objective: Despite numerous studies proposed for audio restoration in the literature, most of them focus on an isolated restoration problem such as denoising or dereverberation, ignoring other artifacts. Moreover, assuming a noisy or reverberant environment with limited number of fixed signal-to-distortion ratio (SDR) levels is a common practice. However, real-world audio is often corrupted by a blend of artifacts such as reverberation, sensor noise, and background audio mixture with varying types, severities, and duration. In this study, we propose a novel approach for blind restoration of real-world audio signals by Operational Generative Adversarial Networks (Op-GANs) with temporal and spectral objective metrics to enhance the quality of restored audio signal regardless of the type and severity of each artifact corrupting it. Methods: 1D Operational-GANs are used with generative neuron model optimized for blind restoration of any corrupted audio signal. Results: The proposed approach has been evaluated extensively over the benchmark TIMIT-RAR (speech) and GTZAN-RAR (non-speech) datasets corrupted with a random blend of artifacts each with a random severity to mimic real-world audio signals. Average SDR improvements of over 7.2 dB and 4.9 dB are achieved, respectively, which are substantial when compared with the baseline methods. Significance: This is a pioneer study in blind audio restoration with the unique capability of direct (time-domain) restoration of real-world audio whilst achieving an unprecedented level of performance for a wide SDR range and artifact types. Conclusion: 1D Op-GANs can achieve robust and computationally effective real-world audio restoration with significantly improved performance. The source codes and the generated real-world audio datasets are shared publicly with the research community in a dedicated GitHub repository1.
translated by 谷歌翻译
这项工作介绍了开发单声扬声器特定(即个性化)语音增强模型的自我监督学习方法。尽管通才模型必须广泛地解决许多扬声器,但专业模型可以将其增强功能调整到特定说话者的声音上,并希望解决狭窄的问题。因此,除了降低计算复杂性外,专家还能够实现更佳的性能。但是,幼稚的个性化方法可能需要目标用户的干净语音,这是不方便的,例如由于记录条件不足。为此,我们将个性化作为零拍的任务,其中不使用目标扬声器的其他干净演讲来培训,或者不使用几次学习任务,在该任务中,目标是最大程度地减少清洁的持续时间用于转移学习的语音。在本文中,我们提出了自我监督的学习方法,以解决零和少量个性化任务的解决方案。所提出的方法旨在从未知的无标记数据(即,来自目标用户的内在嘈杂录音)中学习个性化的语音功能,而无需知道相应的清洁资源。我们的实验研究了三种不同的自我监督学习机制。结果表明,使用较少的模型参数以及来自目标用户的较少的清洁数据实现了零拍摄的模型,从而实现了数据效率和模型压缩目标。
translated by 谷歌翻译
在这项研究中,我们提出了一种跨域多目标语音评估模型,即MOSA-net,可以同时估算多个语音评估度量。更具体地,MOSA-Net旨在基于作为输入的测试语音信号来估计语音质量,可懂度和失真评估分数。它包括用于表示提取的卷积神经网络和双向长短期存储器(CNN-BLSTM)架构,以及每个评估度量的乘法注意层和完全连接的层。此外,来自自我监督学习模型的跨域特征(光谱和时域特征)和潜在的表示用作将丰富的声学信息与不同语音表示相结合的输入,以获得更准确的评估。实验结果表明,MOSA-Net可以精确地预测语音质量(PESQ),短时间客观可懂度(STOI)和语音失真指数(SDI)分数的感知评估,并且在噪声下进行了测试,并且在任何看法测试下都有增强的语音话语条件(测试扬声器和训练集中涉及的噪音类型)或看不见的测试条件(其中测试扬声器和噪声类型不参与训练集)。鉴于确认的预测能力,我们进一步采用了MOSA网的潜在表示来引导语音增强(SE)过程,并导出了质量清晰度(QI)-AWARE SE(QIA-SE)方法。实验结果表明,与客观评估指标和定性评估测试相比,QIA-SE与基线SE系统相比提供了卓越的增强性能。
translated by 谷歌翻译
Acoustic echo cancellation (AEC) is designed to remove echoes, reverberation, and unwanted added sounds from the microphone signal while maintaining the quality of the near-end speaker's speech. This paper proposes adaptive speech quality complex neural networks to focus on specific tasks for real-time acoustic echo cancellation. In specific, we propose a complex modularize neural network with different stages to focus on feature extraction, acoustic separation, and mask optimization receptively. Furthermore, we adopt the contrastive learning framework and novel speech quality aware loss functions to further improve the performance. The model is trained with 72 hours for pre-training and then 72 hours for fine-tuning. The proposed model outperforms the state-of-the-art performance.
translated by 谷歌翻译
对语音增强系统的培训通常不会纳入人类感知的知识,因此可能导致不自然的声音结果。通过预测网络将精神上动机的语音感知指标纳入模型培训的一部分,最近引起了人们的兴趣。但是,此类预测因子的性能受到培训数据中出现的度量分数的分布的限制。在这项工作中,我们提出了Metricgan +/-(Metricgan+的扩展,一个这样的度量动机系统),该系统引入了一个额外的网络 - 一个“脱发器”,该网络试图改善预测网络的稳健性(并通过扩展。发电机)通过确保观察训练中更广泛的度量得分。VoiceBank数据集的实验结果显示,PESQ得分的相对改善为3.8%(3.05 vs 3.22 PESQ得分),以及更好地概括对看不见的噪音和语音。
translated by 谷歌翻译
使用多个麦克风进行语音增强的主要优点是,可以使用空间滤波来补充节奏光谱处理。在传统的环境中,通常单独执行线性空间滤波(波束形成)和单通道后过滤。相比之下,采用深层神经网络(DNN)有一种趋势来学习联合空间和速度 - 光谱非线性滤波器,这意味着对线性处理模型的限制以及空间和节奏单独处理的限制光谱信息可能可以克服。但是,尚不清楚导致此类数据驱动的过滤器以良好性能进行多通道语音增强的内部机制。因此,在这项工作中,我们通过仔细控制网络可用的信息源(空间,光谱和时间)来分析由DNN实现的非线性空间滤波器的性质及其与时间和光谱处理的相互依赖性。我们确认了非线性空间处理模型的优越性,该模型在挑战性的扬声器提取方案中优于Oracle线性空间滤波器,以低于0.24的POLQA得分,较少数量的麦克风。我们的分析表明,在特定的光谱信息中应与空间信息共同处理,因为这会提高过滤器的空间选择性。然后,我们的系统评估会导致一个简单的网络体系结构,该网络体系结构在扬声器提取任务上的最先进的网络体系结构优于0.22 POLQA得分,而CHIME3数据上的POLQA得分为0.32。
translated by 谷歌翻译
Speech quality assessment has been a critical component in many voice communication related applications such as telephony and online conferencing. Traditional intrusive speech quality assessment requires the clean reference of the degraded utterance to provide an accurate quality measurement. This requirement limits the usability of these methods in real-world scenarios. On the other hand, non-intrusive subjective measurement is the ``golden standard" in evaluating speech quality as human listeners can intrinsically evaluate the quality of any degraded speech with ease. In this paper, we propose a novel end-to-end model structure called Convolutional Context-Aware Transformer (CCAT) network to predict the mean opinion score (MOS) of human raters. We evaluate our model on three MOS-annotated datasets spanning multiple languages and distortion types and submit our results to the ConferencingSpeech 2022 Challenge. Our experiments show that CCAT provides promising MOS predictions compared to current state-of-art non-intrusive speech assessment models with average Pearson correlation coefficient (PCC) increasing from 0.530 to 0.697 and average RMSE decreasing from 0.768 to 0.570 compared to the baseline model on the challenge evaluation test set.
translated by 谷歌翻译