在本文中,我们提出了一个可区分的世界合成器,并展示了其在端到端音频样式转移任务中的用途,例如(唱歌)语音转换和DDSP Timbre传输任务。因此,我们的基线可分化合成器没有模型参数,但可以产生足够的合成质量。我们可以通过附加轻巧的黑框邮寄来扩展基线合成器,这些邮政将进一步的处理应用于基线输出以提高忠诚度。另一种可区分的方法考虑了直接提取源激发光谱的提取,这可以改善自然性,尽管较窄的样式转移应用程序都可以提高自然性。我们的方法使用的声学特征参数化具有额外的好处,即自然会散布音调和音图信息,以便可以单独建模它们。此外,由于存在一种强大的方法来估算单声音频源的这些声学特征,因此它允许将参数丢失项添加到端到端目标函数中,这可以帮助收敛和/或进一步稳定(对抗性)训练。
translated by 谷歌翻译
音乐表达需要控制播放的笔记,以及如何执行它们。传统的音频合成器提供了详细的表达控制,但以现实主义的成本提供了详细的表达控制。黑匣子神经音频合成和连接采样器可以产生现实的音频,但有很少的控制机制。在这项工作中,我们介绍MIDI-DDSP乐器的分层模型,可以实现现实的神经音频合成和详细的用户控制。从可解释的可分辨率数字信号处理(DDSP)合成参数开始,我们推断出富有表现力性能的音符和高级属性(例如Timbre,Vibrato,Dynamics和Asticiculation)。这将创建3级层次结构(注释,性能,合成),提供个人选择在每个级别进行干预,或利用培训的前沿(表现给出备注,综合赋予绩效)进行创造性的帮助。通过定量实验和聆听测试,我们证明了该层次结构可以重建高保真音频,准确地预测音符序列的性能属性,独立地操纵给定性能的属性,以及作为完整的系统,从新颖的音符生成现实音频顺序。通过利用可解释的层次结构,具有多个粒度的粒度,MIDI-DDSP将门打开辅助工具的门,以赋予各种音乐体验的个人。
translated by 谷歌翻译
在本文中,我们基于条件AutoEncoder提出了一种新型音频合成器CaeSynth。 Caesynth通过在其共享潜在特征空间中插入参考声音来实时合成Timbre,同时独立控制俯仰。我们展示了基于Timbre分类的精度培训条件AutoEncoder与俯仰内容的对抗正规化允许潜伏空间中的Timbre分布对Timbre插值和音调调节更有效和稳定。该方法不仅适用于创造音乐线索,还适用于基于具有环境声音的小说模型的混合现实中的音频承担。我们通过实验证明了CAESynth通过Timbre插值实时实现了光滑和高保真音频合成,并为音乐线索的独立且准确的音高控制以及与环境声音的音频提供。在线共享Python实现以及一些生成的样本。
translated by 谷歌翻译
我们提出了一种可扩展高效的神经波形编码系统,用于语音压缩。我们将语音编码问题作为一种自动汇总任务,其中卷积神经网络(CNN)在其前馈例程期间执行编码和解码作为神经波形编解码器(NWC)。所提出的NWC还将量化和熵编码定义为可培训模块,因此在优化过程期间处理编码伪像和比特率控制。通过将紧凑的模型组件引入NWC,如Gated Reseal Networks和深度可分离卷积,我们实现了效率。此外,所提出的模型具有可扩展的架构,跨模块残差学习(CMRL),以覆盖各种比特率。为此,我们采用残余编码概念来连接多个NWC自动汇总模块,其中每个NWC模块执行残差编码以恢复其上一模块已创建的任何重建损失。 CMRL也可以缩小以覆盖下比特率,因为它采用线性预测编码(LPC)模块作为其第一自动化器。混合设计通过将LPC的量化作为可分散的过程重新定义LPC和NWC集成,使系统培训端到端的方式。所提出的系统的解码器在低至中等比特率范围(12至20kbps)或高比特率(32kbps)中的两个NWC中的一个NWC(0.12百万个参数)。尽管解码复杂性尚不低于传统语音编解码器的复杂性,但是从其他神经语音编码器(例如基于WVENET的声码器)显着降低。对于宽带语音编码质量,我们的系统对AMR-WB的性能相当或卓越的性能,并在低和中等比特率下的速度试验话题上的表现。所提出的系统可以扩展到更高的比特率以实现近透明性能。
translated by 谷歌翻译
This paper describes Tacotron 2, a neural network architecture for speech synthesis directly from text. The system is composed of a recurrent sequence-to-sequence feature prediction network that maps character embeddings to mel-scale spectrograms, followed by a modified WaveNet model acting as a vocoder to synthesize time-domain waveforms from those spectrograms. Our model achieves a mean opinion score (MOS) of 4.53 comparable to a MOS of 4.58 for professionally recorded speech. To validate our design choices, we present ablation studies of key components of our system and evaluate the impact of using mel spectrograms as the conditioning input to WaveNet instead of linguistic, duration, and F0 features. We further show that using this compact acoustic intermediate representation allows for a significant reduction in the size of the WaveNet architecture.
translated by 谷歌翻译
Vocoders是能够将音频信号(通常是MEL频谱图)转换为波形的低维光谱表示。现代语音生成管道使用Vocoder作为其最终组成部分。最近为语音开发的Vocoder模型实现了高度的现实主义,因此自然想知道它们在音乐信号上的表现。与言语相比,音乐声纹理的异质性和结构提供了新的挑战。在这项工作中,我们专注于一种专为语音设计的Vocoder模型在应用于音乐时倾向于展示的一种特定工件:合成持续的音符时的俯仰不稳定性。我们认为,该伪像的特征声音是由于缺乏水平相一致性,这通常是由于使用时间域目标空间与跨度班的模型(例如卷积神经网络)不变的结果。我们提出了专门为音乐设计的新型Vocoder模型。提高音高稳定性的关键是选择由幅度频谱和相位梯度组成的移位不变的目标空间。我们讨论了启发我们重新构建Vocoder任务的原因,概述一个工作示例,并在音乐信号上进行评估。我们的方法使用新颖的谐波误差度量标准,导致60%和10%的改善了相对于现有模型的持续音符和和弦的重建。
translated by 谷歌翻译
在许多语音和音乐相关任务中,应用于音频的深度生成模型已经改善了最先进的最先进的语音和音乐相关的任务。然而,由于原始波形建模仍然是一个固有的困难任务,音频生成模型要么计算密集,依赖于低采样率,并复杂于控制或限制可能信号的性质。在这些模型中,变形自身偏析器(VAE)通过暴露潜在变量来控制生成,尽管它们通常遭受低合成质量。在本文中,我们介绍了一个实时音频变形式自动化器(RAVE),允许快速和高质量的音频波形合成。我们介绍了一种新型的两级培训程序,即表示学习和对抗性微调。我们表明,使用对潜伏空间的训练后分析允许直接控制重建保真度和表示紧凑性。通过利用原始波形的多频段分解,我们表明我们的模型是第一个能够生成48kHz音频信号,同时在标准膝上型计算机CPU上的实时运行20倍。我们使用定量和定性主观实验评估合成质量,并与现有模型相比,我们的方法的优越性。最后,我们呈现了我们模型的MigBre传输和信号压缩的应用。我们所有的源代码和音频示例都是公开的。
translated by 谷歌翻译
可微差可变合成(DWT)是用于神经音频合成的技术,其学习一段波形的字典即,通过端到端的训练。我们实现高保真音频合成,只需10到20个波纹,并演示了波形的数据驱动的波形字典如何在短音频剪辑上开辟了前所未有的一次学习范例。值得注意的是,我们显示音频操纵,例如高质量的倾斜,只使用几秒钟的输入音频。最后,我们调查使用学习的角色进行实时和交互式音频合成的性能。
translated by 谷歌翻译
本文介绍了一个统一的源滤波器网络,具有谐波源源激发生成机制。在以前的工作中,我们提出了统一的源滤波器gan(USFGAN),用于开发具有统一源滤波器神经网络体系结构的灵活语音可控性的高保真神经声码器。但是,USFGAN对Aperiodic源激发信号进行建模的能力不足,并且自然语音和生成的语音之间的声音质量仍然存在差距。为了改善源激发建模和产生的声音质量,提出了一个新的源激励生成网络,分别生成周期性和大约组件。还采用了Hifigan的高级对抗训练程序来代替原始USFGAN中使用的平行波甘的训练。客观和主观评估结果都表明,经过修改的USFGAN可显着提高基本USFGAN的声音质量,同时保持语音可控性。
translated by 谷歌翻译
我们介绍Audiolm,这是具有长期一致性高质量音频产生的框架。 Audiolm将输入音频映射到一系列离散令牌,并将音频生成作为此表示空间中的语言建模任务。我们展示了现有的音频令牌如何在重建质量和长期结构之间提供不同的权衡,我们提出了一个混合代币化计划来实现这两个目标。也就是说,我们利用在音频中预先训练的蒙版语言模型的离散激活来捕获长期结构和神经音频编解码器产生的离散代码,以实现高质量的合成。通过培训大型原始音频波形,Audiolm学会了在简短的提示下产生自然和连贯的连续性。当接受演讲训练时,没有任何笔录或注释,Audiolm会在句法和语义上产生可行的语音连续性,同时还为看不见的说话者保持说话者身份和韵律。此外,我们演示了我们的方法如何通过产生连贯的钢琴音乐连续性来超越语音,尽管受过训练而没有任何象征性的音乐代表。
translated by 谷歌翻译
FM合成是一种众所周知的算法,用于从紧凑的设计原始素中生成复杂的音色。通常具有MIDI接口,通常是不切实际的,从音频源进行控制。另一方面,可区分的数字信号处理(DDSP)已通过深度神经网络(DNN)启用了细微的音频渲染,这些音频渲染学会了从任意声音输入中控制可区分的合成层。训练过程涉及一系列音频进行监督和光谱重建损失功能。这样的功能虽然非常适合匹配光谱振幅,但却存在缺乏俯仰方向,这可能会阻碍FM合成器参数的关节优化。在本文中,我们采取了步骤,从音频输入中连续控制良好的FM合成体系结构。首先,我们讨论一组设计约束,通过标准重建损失来简化可区分的FM合成器的光谱优化。接下来,我们介绍可区分的DX7(DDX7),这是一种轻巧的体系结构,可根据一组紧凑的参数来进行乐器声音的神经FM重新合成。我们在从URMP数据集中提取的仪器样品上训练该模型,并定量证明其针对选定基准测试的音频质量可比。
translated by 谷歌翻译
在本文中,介绍了文本到读取/唱歌系统,可以适应任何扬声器的声音。它利用基于TacoTron的多级箱子声学模型在只读语音数据训练,并且在音素级别提供韵律控制。还研究了基于传统DSP算法的数据集增强和额外的韵律操纵。神经TTS模型对看不见的扬声器的有限录音进行了微调,允许与目标的扬声器语音进行敲击/歌唱合成。描述了系统的详细管道,其包括从Capella歌曲的目标音调和持续时间值提取,并将其转换为在合成之前的目标扬声器的有效音符范围内。还研究了通过WSOLA输出的输出的韵律操纵的另外的阶段,以便更好地匹配目标持续时间值。合成的话语可以与乐器伴奏轨道混合以产生完整的歌曲。通过主观聆听测试评估所提出的系统,以及与可用的备用系统相比,该系统还旨在从只读训练数据产生合成歌唱语音。结果表明,该拟议的方法可以产生高质量的敲击/歌声,具有增加的自然。
translated by 谷歌翻译
Deep neural networks (DNN) techniques have become pervasive in domains such as natural language processing and computer vision. They have achieved great success in these domains in task such as machine translation and image generation. Due to their success, these data driven techniques have been applied in audio domain. More specifically, DNN models have been applied in speech enhancement domain to achieve denosing, dereverberation and multi-speaker separation in monaural speech enhancement. In this paper, we review some dominant DNN techniques being employed to achieve speech separation. The review looks at the whole pipeline of speech enhancement from feature extraction, how DNN based tools are modelling both global and local features of speech and model training (supervised and unsupervised). We also review the use of speech-enhancement pre-trained models to boost speech enhancement process. The review is geared towards covering the dominant trends with regards to DNN application in speech enhancement in speech obtained via a single speaker.
translated by 谷歌翻译
基于生成对抗神经网络(GAN)的神经声码器由于其快速推理速度和轻量级网络而被广泛使用,同时产生了高质量的语音波形。由于感知上重要的语音成分主要集中在低频频段中,因此大多数基于GAN的神经声码器进行了多尺度分析,以评估降压化采样的语音波形。这种多尺度分析有助于发电机提高语音清晰度。然而,在初步实验中,我们观察到,重点放在低频频段的多尺度分析会导致意外的伪影,例如,混叠和成像伪像,这些文物降低了合成的语音波形质量。因此,在本文中,我们研究了这些伪影与基于GAN的神经声码器之间的关系,并提出了一个基于GAN的神经声码器,称为Avocodo,该机器人允许合成具有减少伪影的高保真语音。我们介绍了两种歧视者,以各种视角评估波形:协作多波段歧视者和一个子兰歧视器。我们还利用伪正常的镜像滤波器库来获得下采样的多频段波形,同时避免混音。实验结果表明,在语音和唱歌语音合成任务中,鳄梨的表现优于常规的基于GAN的神经声码器,并且可以合成无伪影的语音。尤其是,鳄梨甚至能够复制看不见的扬声器的高质量波形。
translated by 谷歌翻译
深度学习算法的兴起引领许多研究人员使用经典信号处理方法来发声。深度学习模型已经实现了富有富有的语音合成,现实的声音纹理和虚拟乐器的音符。然而,最合适的深度学习架构仍在调查中。架构的选择紧密耦合到音频表示。声音的原始波形可以太密集和丰富,用于深入学习模型,以有效处理 - 复杂性提高培训时间和计算成本。此外,它不代表声音以其所感知的方式。因此,在许多情况下,原始音频已经使用上采样,特征提取,甚至采用波形的更高级别的图示来转换为压缩和更有意义的形式。此外,研究了所选择的形式,另外的调节表示,不同的模型架构以及用于评估重建声音的许多度量的条件。本文概述了应用于使用深度学习的声音合成的音频表示。此外,它呈现了使用深度学习模型开发和评估声音合成架构的最重要方法,始终根据音频表示。
translated by 谷歌翻译
GAN vocoders are currently one of the state-of-the-art methods for building high-quality neural waveform generative models. However, most of their architectures require dozens of billion floating-point operations per second (GFLOPS) to generate speech waveforms in samplewise manner. This makes GAN vocoders still challenging to run on normal CPUs without accelerators or parallel computers. In this work, we propose a new architecture for GAN vocoders that mainly depends on recurrent and fully-connected networks to directly generate the time domain signal in framewise manner. This results in considerable reduction of the computational cost and enables very fast generation on both GPUs and low-complexity CPUs. Experimental results show that our Framewise WaveGAN vocoder achieves significantly higher quality than auto-regressive maximum-likelihood vocoders such as LPCNet at a very low complexity of 1.2 GFLOPS. This makes GAN vocoders more practical on edge and low-power devices.
translated by 谷歌翻译
Previous works (Donahue et al., 2018a;Engel et al., 2019a) have found that generating coherent raw audio waveforms with GANs is challenging. In this paper, we show that it is possible to train GANs reliably to generate high quality coherent waveforms by introducing a set of architectural changes and simple training techniques. Subjective evaluation metric (Mean Opinion Score, or MOS) shows the effectiveness of the proposed approach for high quality mel-spectrogram inversion. To establish the generality of the proposed techniques, we show qualitative results of our model in speech synthesis, music domain translation and unconditional music synthesis. We evaluate the various components of the model through ablation studies and suggest a set of guidelines to design general purpose discriminators and generators for conditional sequence synthesis tasks. Our model is non-autoregressive, fully convolutional, with significantly fewer parameters than competing models and generalizes to unseen speakers for mel-spectrogram inversion. Our pytorch implementation runs at more than 100x faster than realtime on GTX 1080Ti GPU and more than 2x faster than real-time on CPU, without any hardware specific optimization tricks.
translated by 谷歌翻译
神经音频/语音编码表明其能力比最近的传统方法低得多的比特率。但是,现有的神经音频/语音编解码器采用声学特征或具有卷积神经网络的学术盲功能来编码,通过该特征,编码功能中仍有时间冗余。本文将潜在域预测性编码引入VQ-VAE框架中,以完全删除此类冗余,并以端到端的方式提出了低延迟神经语音编码的TF-CODEC。具体而言,提取的特征是根据过去量化潜在框架的预测进行编码的,以便进一步删除时间相关性。更重要的是,我们在时间频输入上引入了可学习的压缩,以适应对不同比特率的主要频率和细节的关注。提出了一种基于距离映射和Gumbel-softmax的可区分矢量量化方案,以更好地模拟具有速率约束的潜在分布。多语言语音数据集的主观结果表明,在40ms的潜伏期中,提议的1kbps的TF-Codec可以比Opus 9Kbps和3Kbps的TF-Codec取得更好的质量,而3Kbps的表现都优于EVS 9.6kbps和Opus 12kbps。进行了许多研究以显示这些技术的有效性。
translated by 谷歌翻译
本文介绍了语音(TTS)系统的Microsoft端到端神经文本:暴风雪挑战2021。这一挑战的目标是从文本中综合自然和高质量的演讲,并在两个观点中接近这一目标:首先是直接模型,并在48 kHz采样率下产生波形,这比以前具有16 kHz或24 kHz采样率的先前系统带来更高的感知质量;第二个是通过系统设计来模拟语音中的变化信息,从而提高了韵律和自然。具体而言,对于48 kHz建模,我们预测声学模型中的16 kHz熔点 - 谱图,并提出称为HIFINET的声码器直接从预测的16kHz MEL谱图中产生48kHz波形,这可以更好地促进培训效率,建模稳定性和语音。质量。我们从显式(扬声器ID,语言ID,音高和持续时间)和隐式(话语级和音素级韵律)视角系统地模拟变化信息:1)对于扬声器和语言ID,我们在培训和推理中使用查找嵌入; 2)对于音高和持续时间,我们在训练中提取来自成对的文本语音数据的值,并使用两个预测器来预测推理中的值; 3)对于话语级和音素级韵律,我们使用两个参考编码器来提取训练中的值,并使用两个单独的预测器来预测推理中的值。此外,我们介绍了一个改进的符合子块,以更好地模拟声学模型中的本地和全局依赖性。对于任务SH1,DelightFultts在MOS测试中获得4.17均匀分数,4.35在SMOS测试中,表明我们所提出的系统的有效性
translated by 谷歌翻译
快速和用户控制的音乐生成可以实现创作或表演音乐的新颖方法。但是,最先进的音乐生成系统需要大量的数据和计算资源来培训,并且推断很慢。这使它们对于实时交互式使用不切实际。在这项工作中,我们介绍了Musika,Musika是一种音乐发电系统,可以使用单个消费者GPU在数百小时的音乐上进行培训,并且比消费者CPU上有任意长度的音乐的实时生成速度要快得多。我们首先学习具有对抗性自动编码器的光谱图和相位的紧凑型可逆表示,然后在此表示上训练生成性对抗网络(GAN)为特定的音乐领域训练。潜在坐标系可以并行生成任意长的摘录序列,而全局上下文向量使音乐可以在时间上保持风格连贯。我们执行定量评估,以评估生成的样品的质量,并展示钢琴和技术音乐生成的用户控制选项。我们在github.com/marcoppasini/musika上发布源代码和预估计的自动编码器重量,使得可以在几个小时内使用单个GPU的新音乐域中对GAN进行培训。
translated by 谷歌翻译