本文介绍了一个统一的源滤波器网络,具有谐波源源激发生成机制。在以前的工作中,我们提出了统一的源滤波器gan(USFGAN),用于开发具有统一源滤波器神经网络体系结构的灵活语音可控性的高保真神经声码器。但是,USFGAN对Aperiodic源激发信号进行建模的能力不足,并且自然语音和生成的语音之间的声音质量仍然存在差距。为了改善源激发建模和产生的声音质量,提出了一个新的源激励生成网络,分别生成周期性和大约组件。还采用了Hifigan的高级对抗训练程序来代替原始USFGAN中使用的平行波甘的训练。客观和主观评估结果都表明,经过修改的USFGAN可显着提高基本USFGAN的声音质量,同时保持语音可控性。
translated by 谷歌翻译
基于生成对抗神经网络(GAN)的神经声码器由于其快速推理速度和轻量级网络而被广泛使用,同时产生了高质量的语音波形。由于感知上重要的语音成分主要集中在低频频段中,因此大多数基于GAN的神经声码器进行了多尺度分析,以评估降压化采样的语音波形。这种多尺度分析有助于发电机提高语音清晰度。然而,在初步实验中,我们观察到,重点放在低频频段的多尺度分析会导致意外的伪影,例如,混叠和成像伪像,这些文物降低了合成的语音波形质量。因此,在本文中,我们研究了这些伪影与基于GAN的神经声码器之间的关系,并提出了一个基于GAN的神经声码器,称为Avocodo,该机器人允许合成具有减少伪影的高保真语音。我们介绍了两种歧视者,以各种视角评估波形:协作多波段歧视者和一个子兰歧视器。我们还利用伪正常的镜像滤波器库来获得下采样的多频段波形,同时避免混音。实验结果表明,在语音和唱歌语音合成任务中,鳄梨的表现优于常规的基于GAN的神经声码器,并且可以合成无伪影的语音。尤其是,鳄梨甚至能够复制看不见的扬声器的高质量波形。
translated by 谷歌翻译
We propose Parallel WaveGAN, a distillation-free, fast, and smallfootprint waveform generation method using a generative adversarial network. In the proposed method, a non-autoregressive WaveNet is trained by jointly optimizing multi-resolution spectrogram and adversarial loss functions, which can effectively capture the time-frequency distribution of the realistic speech waveform. As our method does not require density distillation used in the conventional teacher-student framework, the entire model can be easily trained. Furthermore, our model is able to generate highfidelity speech even with its compact architecture. In particular, the proposed Parallel WaveGAN has only 1.44 M parameters and can generate 24 kHz speech waveform 28.68 times faster than realtime on a single GPU environment. Perceptual listening test results verify that our proposed method achieves 4.16 mean opinion score within a Transformer-based text-to-speech framework, which is comparative to the best distillation-based Parallel WaveNet system.
translated by 谷歌翻译
尽管在基于生成的对抗网络(GAN)的声音编码器中,该模型在MEL频谱图中生成原始波形,但在各种录音环境中为众多扬声器合成高保真音频仍然具有挑战性。在这项工作中,我们介绍了Bigvgan,这是一款通用的Vocoder,在零照片环境中在各种看不见的条件下都很好地概括了。我们将周期性的非线性和抗氧化表现引入到发电机中,这带来了波形合成所需的感应偏置,并显着提高了音频质量。根据我们改进的生成器和最先进的歧视器,我们以最大的规模训练我们的Gan Vocoder,最高到1.12亿个参数,这在文献中是前所未有的。特别是,我们识别并解决了该规模特定的训练不稳定性,同时保持高保真输出而不过度验证。我们的Bigvgan在各种分布场景中实现了最先进的零拍性能,包括新的扬声器,新颖语言,唱歌声音,音乐和乐器音频,在看不见的(甚至是嘈杂)的录制环境中。我们将在以下网址发布我们的代码和模型:https://github.com/nvidia/bigvgan
translated by 谷歌翻译
GAN vocoders are currently one of the state-of-the-art methods for building high-quality neural waveform generative models. However, most of their architectures require dozens of billion floating-point operations per second (GFLOPS) to generate speech waveforms in samplewise manner. This makes GAN vocoders still challenging to run on normal CPUs without accelerators or parallel computers. In this work, we propose a new architecture for GAN vocoders that mainly depends on recurrent and fully-connected networks to directly generate the time domain signal in framewise manner. This results in considerable reduction of the computational cost and enables very fast generation on both GPUs and low-complexity CPUs. Experimental results show that our Framewise WaveGAN vocoder achieves significantly higher quality than auto-regressive maximum-likelihood vocoders such as LPCNet at a very low complexity of 1.2 GFLOPS. This makes GAN vocoders more practical on edge and low-power devices.
translated by 谷歌翻译
Several recent work on speech synthesis have employed generative adversarial networks (GANs) to produce raw waveforms. Although such methods improve the sampling efficiency and memory usage, their sample quality has not yet reached that of autoregressive and flow-based generative models. In this work, we propose HiFi-GAN, which achieves both efficient and high-fidelity speech synthesis. As speech audio consists of sinusoidal signals with various periods, we demonstrate that modeling periodic patterns of an audio is crucial for enhancing sample quality. A subjective human evaluation (mean opinion score, MOS) of a single speaker dataset indicates that our proposed method demonstrates similarity to human quality while generating 22.05 kHz high-fidelity audio 167.9 times faster than real-time on a single V100 GPU. We further show the generality of HiFi-GAN to the melspectrogram inversion of unseen speakers and end-to-end speech synthesis. Finally, a small footprint version of HiFi-GAN generates samples 13.4 times faster than real-time on CPU with comparable quality to an autoregressive counterpart. IntroductionVoice is one of the most frequent and naturally used communication interfaces for humans. With recent developments in technology, voice is being used as a main interface in artificial intelligence (AI) voice assistant services such as Amazon Alexa, and it is also widely used in automobiles, smart homes and so forth. Accordingly, with the increase in demand for people to converse with machines, technology that synthesizes natural speech like human speech is being actively studied.Recently, with the development of neural networks, speech synthesis technology has made a rapid progress. Most neural speech synthesis models use a two-stage pipeline: 1) predicting a low resolution intermediate representation such as mel-spectrograms (
translated by 谷歌翻译
神经声码器(NVS)的发展导致了高质量和快速的波形。但是,常规的NV靶向单个采样率,并在应用于不同采样率时需要重新训练。由于语音质量和发电速度之间的权衡,合适的采样率因应用到应用而异。在这项研究中,我们提出了一种处理单个NV中多个采样率的方法,称为MSR-NV。通过从低采样率开始生成波形,MSR-NV可以有效地了解每个频段的特征,并以多个采样率合成高质量的语音。它可以被视为先前提出的NVS的扩展,在这项研究中,我们扩展了平行波甘(PWG)的结构。实验评估结果表明,所提出的方法比在16、24和48 kHz分别训练的原始PWG实现的主观质量明显更高,而没有增加推理时间。我们还表明,MSR-NV可以利用较低的采样率来利用语音来进一步提高合成语音的质量。
translated by 谷歌翻译
在神经文本到语音(TTS)中,两阶段系统或一系列单独学习的模型显示出接近人类语音的合成质量。例如,FastSpeech2将输入文本转换为MEL-SPECTROGRAM,然后HIFI-GAN从MEL-Spectogram产生了原始波形,它们分别称为声学特征发生器和神经声码器。但是,他们的训练管道有些麻烦,因为它需要进行微调和准确的语音文本对齐,以实现最佳性能。在这项工作中,我们提出了端到端的文本到语音(E2E-TTS)模型,该模型具有简化的训练管道,并优于单独学习的模型。具体而言,我们提出的模型是经过对齐模块的联合训练的FastSpeech2和HIFI-GAN。由于训练和推理之间没有声学特征不匹配,因此不需要微调。此外,我们通过在联合培训框架中采用对齐学习目标来消除对外部语音文本对齐工具的依赖。在LJSpeech语料库上进行的实验表明,所提出的模型优于公开可用的模型,ESPNET2-TT在主观评估(MOS)(MOS)和一些客观评估中的最新实现。
translated by 谷歌翻译
通过语音转换(VC)的数据增强已成功应用于仅可用于目标扬声器的中性数据时,已成功地应用于低资源表达文本到语音(TTS)。尽管VC的质量对于这种方法至关重要,但学习稳定的VC模型是一项挑战,因为在低资源场景中的数据量受到限制,并且高度表达的语音具有很大的声学变化。为了解决这个问题,我们提出了一种新型的数据增强方法,该方法结合了变化和VC技术。由于换挡数据的增强功能可以覆盖各种音高动态,因此即使只有目标扬声器中性数据的1000个话语,它也可以极大地稳定VC和TTS模型的训练。主观测试结果表明,与常规方法相比,具有拟议方法的基于快速2的情绪TTS系统改善了自然性和情绪相似性。
translated by 谷歌翻译
大多数GaN(生成的对抗网络)基于高保真波形的方法,严重依赖于鉴别者来提高其性能。然而,该GaN方法的过度使用引入了生成过程中的许多不确定性,并且通常导致音调和强度不匹配,当使用诸如唱歌语音合成(SVS)敏感时,这是致命的。为了解决这个问题,我们提出了一种高保真神经声码器的Refinegan,具有更快的实时发电能力,并专注于鲁棒性,俯仰和强度精度和全带音频生成。我们采用了一种具有基于多尺度谱图的损耗功能的播放引导的细化架构,以帮助稳定训练过程,并在使用基于GaN的训练方法的同时保持神经探测器的鲁棒性。与地面真实音频相比,使用此方法生成的音频显示在主观测试中更好的性能。该结果表明,通过消除由扬声器和记录过程产生的缺陷,在波形重建期间甚至改善了保真度。此外,进一步的研究表明,在特定类型的数据上培训的模型可以在完全看不见的语言和看不见的扬声器上相同地执行。生成的样本对在https://timedomain-tech.github.io/refinegor上提供。
translated by 谷歌翻译
生成的对抗网络最近在神经声音中表现出了出色的表现,表现优于最佳自动回归和基于流动的模型。在本文中,我们表明这种成功可以扩展到有条件音频的其他任务。特别是,在HIFI Vocoders的基础上,我们为带宽扩展和语音增强的新型HIFI ++一般框架提出了新颖的一般框架。我们表明,通过改进的生成器体系结构和简化的多歧视培训,HIFI ++在这些任务中的最先进的情况下表现更好或与之相提并论,同时花费大量的计算资源。通过一系列广泛的实验,我们的方法的有效性得到了验证。
translated by 谷歌翻译
最近,基于GAN的神经声码器(如平行Wavegan,Melgan,Hifigan和Univnet)由于其轻巧和平行的结构而变得流行,从而导致具有高保真性的实时合成波形,即使在CPU上也是如此。 Hifigan和Univnet是两个Sota Vocoders。尽管它们质量很高,但仍有改进的余地。在本文中,由计算机视觉的视觉望远镜结构的激励,我们采用了一个类似的想法,并提出了一个有效且轻巧的神经声码器,称为Wolonet。在该网络中,我们开发了一个新颖的轻质块,该块使用位于曲线的动态凝胶核的位置变化,与通道无关和深度动态卷积内核。为了证明我们方法的有效性和概括性,我们进行了一项消融研究,以验证我们的新型设计,并与典型的基于GAN的歌手进行主观和客观的比较。结果表明,我们的Wolonet达到了最佳的一代质量,同时需要的参数少于两个神经SOTA声码器Hifigan和Univnet。
translated by 谷歌翻译
在本文中,我们提出了一个可区分的世界合成器,并展示了其在端到端音频样式转移任务中的用途,例如(唱歌)语音转换和DDSP Timbre传输任务。因此,我们的基线可分化合成器没有模型参数,但可以产生足够的合成质量。我们可以通过附加轻巧的黑框邮寄来扩展基线合成器,这些邮政将进一步的处理应用于基线输出以提高忠诚度。另一种可区分的方法考虑了直接提取源激发光谱的提取,这可以改善自然性,尽管较窄的样式转移应用程序都可以提高自然性。我们的方法使用的声学特征参数化具有额外的好处,即自然会散布音调和音图信息,以便可以单独建模它们。此外,由于存在一种强大的方法来估算单声音频源的这些声学特征,因此它允许将参数丢失项添加到端到端目标函数中,这可以帮助收敛和/或进一步稳定(对抗性)训练。
translated by 谷歌翻译
最近在各种语音域应用中提出了卷积增强的变压器(构象异构体),例如自动语音识别(ASR)和语音分离,因为它们可以捕获本地和全球依赖性。在本文中,我们提出了一个基于构型的度量生成对抗网络(CMGAN),以在时间频率(TF)域中进行语音增强(SE)。发电机使用两阶段构象体块编码大小和复杂的频谱图信息,以模拟时间和频率依赖性。然后,解码器将估计分解为尺寸掩模的解码器分支,以滤除不需要的扭曲和复杂的细化分支,以进一步改善幅度估计并隐式增强相信息。此外,我们还包括一个度量歧视器来通过优化相应的评估评分来减轻度量不匹配。客观和主观评估表明,与三个语音增强任务(DeNoising,dereverberation和Super-Losity)中的最新方法相比,CMGAN能够表现出卓越的性能。例如,对语音库+需求数据集的定量降解分析表明,CMGAN的表现优于以前的差距,即PESQ为3.41,SSNR为11.10 dB。
translated by 谷歌翻译
Objective: Despite numerous studies proposed for audio restoration in the literature, most of them focus on an isolated restoration problem such as denoising or dereverberation, ignoring other artifacts. Moreover, assuming a noisy or reverberant environment with limited number of fixed signal-to-distortion ratio (SDR) levels is a common practice. However, real-world audio is often corrupted by a blend of artifacts such as reverberation, sensor noise, and background audio mixture with varying types, severities, and duration. In this study, we propose a novel approach for blind restoration of real-world audio signals by Operational Generative Adversarial Networks (Op-GANs) with temporal and spectral objective metrics to enhance the quality of restored audio signal regardless of the type and severity of each artifact corrupting it. Methods: 1D Operational-GANs are used with generative neuron model optimized for blind restoration of any corrupted audio signal. Results: The proposed approach has been evaluated extensively over the benchmark TIMIT-RAR (speech) and GTZAN-RAR (non-speech) datasets corrupted with a random blend of artifacts each with a random severity to mimic real-world audio signals. Average SDR improvements of over 7.2 dB and 4.9 dB are achieved, respectively, which are substantial when compared with the baseline methods. Significance: This is a pioneer study in blind audio restoration with the unique capability of direct (time-domain) restoration of real-world audio whilst achieving an unprecedented level of performance for a wide SDR range and artifact types. Conclusion: 1D Op-GANs can achieve robust and computationally effective real-world audio restoration with significantly improved performance. The source codes and the generated real-world audio datasets are shared publicly with the research community in a dedicated GitHub repository1.
translated by 谷歌翻译
语音编码有助于以最小的失真方式传播语音在低频带宽度网络上的传播。基于神经网络的语音编解码器最近表现出与传统方法相对于传统方法的显着改善。尽管这一新一代的编解码器能够综合高保真语音,但它们对经常性或卷积层的使用通常会限制其有效的接受场,从而阻止他们有效地压缩语音。我们建议通过使用经过预定的变压器进一步降低神经语音编解码器的比特率,该变压器能够由于其电感偏置而在输入信号中利用长距离依赖性。因此,我们与卷积编码器同时使用了经过验证的变压器,该卷积编码器是通过量化器和生成的对抗性净解码器进行训练的端到端。我们的数值实验表明,补充神经语音编解码器的卷积编码器,用变压器语音嵌入嵌入的语音编解码器,比特率为$ 600 \,\ m athrm {bps} $,在合成的语音质量中均超过原始的神经言语编解码器,当相同的比特率。主观的人类评估表明,所得编解码器的质量比运行率的三到四倍的传统编解码器的质量可比或更好。
translated by 谷歌翻译
深度学习算法的兴起引领许多研究人员使用经典信号处理方法来发声。深度学习模型已经实现了富有富有的语音合成,现实的声音纹理和虚拟乐器的音符。然而,最合适的深度学习架构仍在调查中。架构的选择紧密耦合到音频表示。声音的原始波形可以太密集和丰富,用于深入学习模型,以有效处理 - 复杂性提高培训时间和计算成本。此外,它不代表声音以其所感知的方式。因此,在许多情况下,原始音频已经使用上采样,特征提取,甚至采用波形的更高级别的图示来转换为压缩和更有意义的形式。此外,研究了所选择的形式,另外的调节表示,不同的模型架构以及用于评估重建声音的许多度量的条件。本文概述了应用于使用深度学习的声音合成的音频表示。此外,它呈现了使用深度学习模型开发和评估声音合成架构的最重要方法,始终根据音频表示。
translated by 谷歌翻译
Deep neural networks (DNN) techniques have become pervasive in domains such as natural language processing and computer vision. They have achieved great success in these domains in task such as machine translation and image generation. Due to their success, these data driven techniques have been applied in audio domain. More specifically, DNN models have been applied in speech enhancement domain to achieve denosing, dereverberation and multi-speaker separation in monaural speech enhancement. In this paper, we review some dominant DNN techniques being employed to achieve speech separation. The review looks at the whole pipeline of speech enhancement from feature extraction, how DNN based tools are modelling both global and local features of speech and model training (supervised and unsupervised). We also review the use of speech-enhancement pre-trained models to boost speech enhancement process. The review is geared towards covering the dominant trends with regards to DNN application in speech enhancement in speech obtained via a single speaker.
translated by 谷歌翻译
非平行的多与众不同的语音转换仍然是一项有趣但具有挑战性的语音处理任务。最近,基于有条件的自动编码器的方法AutoVC通过使用信息限制的瓶颈来删除说话者身份和语音内容,从而实现了出色的转换结果。但是,由于纯粹的自动编码器训练方法,很难评估内容和说话者身份的分离效果。在本文中,一个新颖的语音转换框架,名为$ \ boldsymbol t $ ext $ \ boldsymbol g $ uided $ \ boldsymbol a $ utovc(tgavc),提议更有效地将内容和音色与语音分开,其中预期的内容嵌入其中根据文本转录生产的旨在指导语音内容的提取。此外,对对抗性训练将用于消除从语音中提取的估计内容中的说话者身份信息。在预期内容嵌入和对抗培训的指导下,对内容编码器进行了培训,以从语音中提取嵌入说话者的内容。 Aishell-3数据集的实验表明,所提出的模型在自然性和转换语音的相似性方面优于AUTOVC。
translated by 谷歌翻译
我们提出了一种基于多任务对抗训练的多扬声器神经文本到语音(TTS)模型的新型培训算法。传统的基于基于的训练算法的常规生成对抗网络(GAN)通过减少自然语音和合成语音之间的统计差异来显着提高合成语音的质量。但是,该算法不能保证训练有素的TTS模型的概括性能在综合培训数据中未包括的看不见的说话者的声音中。我们的算法替代训练两个深神经网络:多任务歧视器和多扬声器神经TTS模型(即GAN的生成器)。对歧视者的训练不仅是为了区分自然语音和合成语音,而且还存在验证输入语音的说话者的存在或不存在(即,通过插值可见的说话者的嵌入向量而新生成)。同时,对发电机进行了训练,以最大程度地减少语音重建损失的加权总和和欺骗歧视者的对抗性损失,即使目标扬声器看不见,也可以实现高质量的多演讲者TT。实验评估表明,我们的算法比传统的甘斯多克算法更好地提高了合成语音的质量。
translated by 谷歌翻译