通常,音频超分辨率模型固定了初始采样率和目标采样率,这需要对每对采样率进行训练的模型。我们介绍了NU-WAVE 2,这是一种用于神经音频上采样的扩散模型,该模型可以通过单个模型从各种采样率的输入中生成48 kHz音频信号。基于Nu-Wave的架构,NU-WAVE 2使用短时傅立叶卷积(STFC)生成谐波来解决NU-WAVE的主要故障模式,并结合带宽光谱特征变换(BSFT)来调节带宽的带宽频域中的输入。我们在实验上证明,NU-WAVE 2可产生高分辨率音频,而不论输入的采样率如何,同时需要的参数少于其他模型。官方代码和音频样本可在https://mindslab-ai.github.io/nuwave2上找到。
translated by 谷歌翻译
我们介绍了时间特征 - 方向线性调制(TFILM)模型的块在线变体,以实现带宽扩展。所提出的架构简化了TFILM的UNET骨干,以减少推理时间,并在瓶颈中采用有效的变压器来缓解性能下降。我们还利用自我监督的预测和数据增强,以提高带宽扩展信号的质量,并降低对下采样方法的灵敏度。VCTK数据集上的实验结果表明,所提出的方法优于侵入性和非侵入性度量的几个最近基线。预先训练和过滤增强也有助于稳定并提高整体性能。
translated by 谷歌翻译
我们提出了一个录音录音录音的录音录音。我们的模型通过短时傅立叶变换(STFT)将其输入转换为时频表示,并使用卷积神经网络处理所得的复杂频谱图。该网络在合成音乐数据集上培训了重建和对抗性目标,该数据集是通过将干净的音乐与从旧唱片的安静片段中提取的真实噪声样本混合而创建的。我们在合成数据集的持有测试示例中定量评估我们的方法,并通过人类对实际历史记录样本的评级进行定性评估。我们的结果表明,所提出的方法可有效消除噪音,同时保留原始音乐的质量和细节。
translated by 谷歌翻译
扩散概率模型已经证明了通过配对的扩散和反向过程模拟自然图像和原始音频波形的出色能力。可以利用反向过程的唯一特性(即,从高斯噪声和噪声信号中消除非目标信号)来恢复清洁信号。基于此属性,我们提出了一种基于扩散的基于概率模型的语言增强(漫反射)模型,其旨在从嘈杂的信号中恢复清洁语音信号。所提出的漫射模型的基本架构类似于差异 - 一种具有相对低的计算成本和足迹的高质量音频波形生成模型。为了获得更好的增强性能,我们设计了先进的反向过程,称为支持性反向过程,在每个时间步骤到预测的语音,这会增加噪音。实验结果表明,漫反射率与标准化语音银行语料库SE任务上的相关音频生成模型相当的性能。此外,相对于普遍建议的完整采样时间表,所提出的支持逆过程特别改善了快速采样,采取了几个步骤,从而产生更好的增强,从而通过传统的完整步长推断过程。
translated by 谷歌翻译
In this work, we propose DiffWave, a versatile diffusion probabilistic model for conditional and unconditional waveform generation. The model is non-autoregressive, and converts the white noise signal into structured waveform through a Markov chain with a constant number of steps at synthesis. It is efficiently trained by optimizing a variant of variational bound on the data likelihood. DiffWave produces high-fidelity audio in different waveform generation tasks, including neural vocoding conditioned on mel spectrogram, class-conditional generation, and unconditional generation. We demonstrate that DiffWave matches a strong WaveNet vocoder in terms of speech quality (MOS: 4.44 versus 4.43), while synthesizing orders of magnitude faster. In particular, it significantly outperforms autoregressive and GAN-based waveform models in the challenging unconditional generation task in terms of audio quality and sample diversity from various automatic and human evaluations. 1 * Contributed to the work during an internship at Baidu Research, USA. 1 Audio samples are in: https://diffwave-demo.github.io/
translated by 谷歌翻译
Binaural audio plays a significant role in constructing immersive augmented and virtual realities. As it is expensive to record binaural audio from the real world, synthesizing them from mono audio has attracted increasing attention. This synthesis process involves not only the basic physical warping of the mono audio, but also room reverberations and head/ear related filtrations, which, however, are difficult to accurately simulate in traditional digital signal processing. In this paper, we formulate the synthesis process from a different perspective by decomposing the binaural audio into a common part that shared by the left and right channels as well as a specific part that differs in each channel. Accordingly, we propose BinauralGrad, a novel two-stage framework equipped with diffusion models to synthesize them respectively. Specifically, in the first stage, the common information of the binaural audio is generated with a single-channel diffusion model conditioned on the mono audio, based on which the binaural audio is generated by a two-channel diffusion model in the second stage. Combining this novel perspective of two-stage synthesis with advanced generative models (i.e., the diffusion models),the proposed BinauralGrad is able to generate accurate and high-fidelity binaural audio samples. Experiment results show that on a benchmark dataset, BinauralGrad outperforms the existing baselines by a large margin in terms of both object and subject evaluation metrics (Wave L2: 0.128 vs. 0.157, MOS: 3.80 vs. 3.61). The generated audio samples (https://speechresearch.github.io/binauralgrad) and code (https://github.com/microsoft/NeuralSpeech/tree/master/BinauralGrad) are available online.
translated by 谷歌翻译
从语音音频中删除背景噪音一直是大量研究和努力的主题,尤其是由于虚拟沟通和业余声音录制的兴起,近年来。然而,背景噪声并不是唯一可以防止可理解性的不愉快干扰:混响,剪裁,编解码器工件,有问题的均衡,有限的带宽或不一致的响度同样令人不安且无处不在。在这项工作中,我们建议将言语增强的任务视为一项整体努力,并提出了一种普遍的语音增强系统,同时解决了55种不同的扭曲。我们的方法由一种使用基于得分的扩散的生成模型以及一个多分辨率调节网络,该网络通过混合密度网络进行增强。我们表明,这种方法在专家听众执行的主观测试中大大优于艺术状态。我们还表明,尽管没有考虑任何特定的快速采样策略,但它仅通过4-8个扩散步骤就可以实现竞争性的目标得分。我们希望我们的方法论和技术贡献都鼓励研究人员和实践者采用普遍的语音增强方法,可能将其作为一项生成任务。
translated by 谷歌翻译
生成的对抗网络最近在神经声音中表现出了出色的表现,表现优于最佳自动回归和基于流动的模型。在本文中,我们表明这种成功可以扩展到有条件音频的其他任务。特别是,在HIFI Vocoders的基础上,我们为带宽扩展和语音增强的新型HIFI ++一般框架提出了新颖的一般框架。我们表明,通过改进的生成器体系结构和简化的多歧视培训,HIFI ++在这些任务中的最先进的情况下表现更好或与之相提并论,同时花费大量的计算资源。通过一系列广泛的实验,我们的方法的有效性得到了验证。
translated by 谷歌翻译
基于生成对抗神经网络(GAN)的神经声码器由于其快速推理速度和轻量级网络而被广泛使用,同时产生了高质量的语音波形。由于感知上重要的语音成分主要集中在低频频段中,因此大多数基于GAN的神经声码器进行了多尺度分析,以评估降压化采样的语音波形。这种多尺度分析有助于发电机提高语音清晰度。然而,在初步实验中,我们观察到,重点放在低频频段的多尺度分析会导致意外的伪影,例如,混叠和成像伪像,这些文物降低了合成的语音波形质量。因此,在本文中,我们研究了这些伪影与基于GAN的神经声码器之间的关系,并提出了一个基于GAN的神经声码器,称为Avocodo,该机器人允许合成具有减少伪影的高保真语音。我们介绍了两种歧视者,以各种视角评估波形:协作多波段歧视者和一个子兰歧视器。我们还利用伪正常的镜像滤波器库来获得下采样的多频段波形,同时避免混音。实验结果表明,在语音和唱歌语音合成任务中,鳄梨的表现优于常规的基于GAN的神经声码器,并且可以合成无伪影的语音。尤其是,鳄梨甚至能够复制看不见的扬声器的高质量波形。
translated by 谷歌翻译
最近,基于扩散的生成模型已引入语音增强的任务。干净的语音损坏被建模为固定的远期过程,其中逐渐添加了越来越多的噪声。通过学习以嘈杂的输入为条件的迭代方式扭转这一过程,可以产生干净的语音。我们以先前的工作为基础,并在随机微分方程的形式主义中得出训练任务。我们对基础分数匹配目标进行了详细的理论综述,并探索了不同的采样器配置,以解决测试时的反向过程。通过使用自然图像生成文献的复杂网络体系结构,与以前的出版物相比,我们可以显着提高性能。我们还表明,我们可以与最近的判别模型竞争,并在评估与培训不同的语料库时获得更好的概括。我们通过主观的听力测试对评估结果进行补充,其中我们提出的方法是最好的。此外,我们表明所提出的方法在单渠道语音覆盖中实现了出色的最新性能。我们的代码和音频示例可在线获得,请参见https://uhh.de/inf-sp-sgmse
translated by 谷歌翻译
深度图像先验表明,通过简单地优化它的参数来重建单个降级图像,可以训练具有合适架构的随机初始化网络以解决反向成像问题。但是,它受到了两个实际限制。首先,它仍然不清楚如何在网络架构选择之前控制。其次,培训需要Oracle停止标准,因为在优化期间,在达到最佳值后性能降低。为了解决这些挑战,我们引入频带对应度量以表征在之前的深图像的光谱偏压,其中低频图像信号比高频对应物更快且更好地学习。根据我们的观察,我们提出了防止最终性能下降和加速收敛的技术。我们介绍了Lipschitz受控的卷积层和高斯控制的上采样层,作为深度架构中使用的层的插件替代品。实验表明,随着这些变化,在优化期间,性能不会降低,从需要对Oracle停止标准的需求中脱离我们。我们进一步勾勒出停止标准以避免多余的计算。最后,我们表明我们的方法与各种去噪,去块,染色,超级分辨率和细节增强任务的当前方法相比获得了有利的结果。代码可用于\ url {https:/github.com/shizenglin/measure-and-control-spectraL-bias}。
translated by 谷歌翻译
Diffusion-based generative models have had a high impact on the computer vision and speech processing communities these past years. Besides data generation tasks, they have also been employed for data restoration tasks like speech enhancement and dereverberation. While discriminative models have traditionally been argued to be more powerful e.g. for speech enhancement, generative diffusion approaches have recently been shown to narrow this performance gap considerably. In this paper, we systematically compare the performance of generative diffusion models and discriminative approaches on different speech restoration tasks. For this, we extend our prior contributions on diffusion-based speech enhancement in the complex time-frequency domain to the task of bandwith extension. We then compare it to a discriminatively trained neural network with the same network architecture on three restoration tasks, namely speech denoising, dereverberation and bandwidth extension. We observe that the generative approach performs globally better than its discriminative counterpart on all tasks, with the strongest benefit for non-additive distortion models, like in dereverberation and bandwidth extension. Code and audio examples can be found online at https://uhh.de/inf-sp-sgmsemultitask
translated by 谷歌翻译
最近在各种语音域应用中提出了卷积增强的变压器(构象异构体),例如自动语音识别(ASR)和语音分离,因为它们可以捕获本地和全球依赖性。在本文中,我们提出了一个基于构型的度量生成对抗网络(CMGAN),以在时间频率(TF)域中进行语音增强(SE)。发电机使用两阶段构象体块编码大小和复杂的频谱图信息,以模拟时间和频率依赖性。然后,解码器将估计分解为尺寸掩模的解码器分支,以滤除不需要的扭曲和复杂的细化分支,以进一步改善幅度估计并隐式增强相信息。此外,我们还包括一个度量歧视器来通过优化相应的评估评分来减轻度量不匹配。客观和主观评估表明,与三个语音增强任务(DeNoising,dereverberation和Super-Losity)中的最新方法相比,CMGAN能够表现出卓越的性能。例如,对语音库+需求数据集的定量降解分析表明,CMGAN的表现优于以前的差距,即PESQ为3.41,SSNR为11.10 dB。
translated by 谷歌翻译
扩散模型最近显示出对生成建模的巨大希望,在密度估计下的感知质量和自回归模型上的表现优于gan。剩余的缺点是它们的缓慢采样时间:生成高质量的样品需要数百或数千次模型评估。在这里,我们做出了两项贡献,以帮助消除这一缺点:首先,我们提出了扩散模型的新参数化,这些参数在使用几个采样步骤时提供了增加的稳定性。其次,我们提出了一种使用许多步骤提炼训练有素的确定性扩散采样器的方法,将其采用一半的采样步骤。然后,我们继续逐步将此蒸馏过程应用于我们的模型,每次将所需的采样步骤的数量减半。在CIFAR-10,Imagenet和LSUN等标准图像生成基准上,我们从最先进的采样器开始采用多达8192步,并且能够将其蒸馏到型号中,而不会丢失4个步骤多种感知质量;例如,以4个步骤在CIFAR-10上实现3.0的FID。最后,我们表明,完整的渐进式蒸馏过程不需要花费更多的时间来训练原始模型,从而代表了在火车和测试时间使用扩散的生成建模的有效解决方案。
translated by 谷歌翻译
生成时间连贯的高保真视频是生成建模研究中的重要里程碑。我们通过提出一个视频生成的扩散模型来取得这一里程碑的进步,该模型显示出非常有希望的初始结果。我们的模型是标准图像扩散体系结构的自然扩展,它可以从图像和视频数据中共同训练,我们发现这可以减少Minibatch梯度的方差并加快优化。为了生成长而更高的分辨率视频,我们引入了一种新的条件抽样技术,用于空间和时间视频扩展,该技术的性能比以前提出的方法更好。我们介绍了大型文本条件的视频生成任务,以及最新的结果,以实现视频预测和无条件视频生成的确定基准。可从https://video-diffusion.github.io/获得补充材料
translated by 谷歌翻译
基于扩散的生成模型已经证明了感知上令人印象深刻的合成能力,但是它们也可以是基于可能性的模型吗?我们以肯定的方式回答了这一点,并介绍了一个基于扩散的生成模型家族,该模型可以在标准图像密度估计基准上获得最先进的可能性。与其他基于扩散的模型不同,我们的方法允许与其他模型的其余部分共同对噪声时间表进行有效优化。我们表明,根据扩散数据的信噪比,变异下限(VLB)简化为非常短的表达,从而改善了我们对该模型类别的理论理解。使用这种见解,我们证明了文献中提出的几个模型之间的等效性。此外,我们表明连续时间VLB在噪声方面不变,除了其端点处的信噪比。这使我们能够学习一个噪声时间表,以最大程度地减少所得VLB估计器的差异,从而更快地优化。将这些进步与建筑改进相结合,我们获得了图像密度估计基准的最先进的可能性,超过了多年来主导这些基准测试的自回旋模型,通常优化了很多年。此外,我们展示了如何将模型用作BITS背包压缩方案的一部分,并展示了接近理论最佳的无损压缩率。代码可在https://github.com/google-research/vdm上找到。
translated by 谷歌翻译
生成高度详细的复杂数据是机器学习领域中的长期存在且经常考虑的问题。但是,开发细节感知的发电机仍然是一个具有挑战性和开放的问题。生成对抗网络是许多最新方法的基础。但是,他们引入了第二个网络作为损失函数训练,使对学习功能的解释变得更加困难。作为替代方案,我们提出了一种基于小波损耗公式的新方法,该方法在优化方面保持透明。在生成具有高频细节的数据时,基于小波的损耗函数用于克服常规距离指标(例如L1或L2距离)的局限性。我们表明,我们的方法可以在说明性合成测试案例中成功重建高频细节。此外,我们根据物理模拟应用于更复杂的表面时评估性能。以大致近似的模拟为输入,我们的方法在考虑它们的发展方式的同时进化了相应的空间细节。我们考虑了这个问题,从空间和时间频率方面,并利用训练有我们的小波损失的生成网络来学习表面动力学的所需时空信号。我们通过一组合成波函数测试以及弹性塑料材料的复杂2D和3D动力学测试方法的功能。
translated by 谷歌翻译
最近,基于GAN的神经声码器(如平行Wavegan,Melgan,Hifigan和Univnet)由于其轻巧和平行的结构而变得流行,从而导致具有高保真性的实时合成波形,即使在CPU上也是如此。 Hifigan和Univnet是两个Sota Vocoders。尽管它们质量很高,但仍有改进的余地。在本文中,由计算机视觉的视觉望远镜结构的激励,我们采用了一个类似的想法,并提出了一个有效且轻巧的神经声码器,称为Wolonet。在该网络中,我们开发了一个新颖的轻质块,该块使用位于曲线的动态凝胶核的位置变化,与通道无关和深度动态卷积内核。为了证明我们方法的有效性和概括性,我们进行了一项消融研究,以验证我们的新型设计,并与典型的基于GAN的歌手进行主观和客观的比较。结果表明,我们的Wolonet达到了最佳的一代质量,同时需要的参数少于两个神经SOTA声码器Hifigan和Univnet。
translated by 谷歌翻译
我们表明,级联扩散模型能够在类条件的想象生成基准上生成高保真图像,而无需辅助图像分类器的任何帮助来提高样品质量。级联的扩散模型包括多个扩散模型的流水线,其产生越来越多的分辨率,以最低分辨率的标准扩散模型开始,然后是一个或多个超分辨率扩散模型,其连续上追随图像并添加更高的分辨率细节。我们发现级联管道的样本质量至关重要的是调节增强,我们提出的数据增强较低分辨率调节输入到超级分辨率模型的方法。我们的实验表明,调节增强防止在级联模型中采样过程中的复合误差,帮助我们在256×256分辨率下,在128x128和4.88,优于63.02的分类精度分数,培训级联管道。 %(TOP-1)和84.06%(TOP-5)在256x256,优于VQ-VAE-2。
translated by 谷歌翻译
扩散模型已显示出令人印象深刻的图像产生性能,并已用于各种计算机视觉任务。不幸的是,使用扩散模型的图像生成非常耗时,因为它需要数千个采样步骤。为了解决这个问题,我们在这里提出了一种新型的金字塔扩散模型,以使用训练有位置嵌入的单个分数函数从更粗的分辨率图像开始生成高分辨率图像。这使图像生成的时间效率抽样可以解决,并在资源有限的训练时也可以解决低批量的大小问题。此外,我们表明,使用单个分数函数可以有效地用于多尺度的超分辨率问题。
translated by 谷歌翻译