在当代流行的音乐作品中,鼓声设计通常是通过繁琐的浏览和处理声音库中预录的样品的处理来执行的。人们还可以使用专门的合成硬件,通常通过低级,音乐上毫无意义的参数来控制。如今,深度学习领域提供了通过学习的高级功能来控制合成过程的方法,并允许产生各种声音。在本文中,我们提出了Drumgan VST,这是一个使用生成对抗网络合成鼓声的插件。Drumgan VST可在44.1 kHz样品速率音频上运行,提供独立且连续的仪表类控件,并具有编码的神经网络,该网络映射到GAN的潜在空间中,从而可以重新合成并操纵前持有的鼓声。我们提供了许多声音示例和建议的VST插件的演示。
translated by 谷歌翻译
深度学习算法的兴起引领许多研究人员使用经典信号处理方法来发声。深度学习模型已经实现了富有富有的语音合成,现实的声音纹理和虚拟乐器的音符。然而,最合适的深度学习架构仍在调查中。架构的选择紧密耦合到音频表示。声音的原始波形可以太密集和丰富,用于深入学习模型,以有效处理 - 复杂性提高培训时间和计算成本。此外,它不代表声音以其所感知的方式。因此,在许多情况下,原始音频已经使用上采样,特征提取,甚至采用波形的更高级别的图示来转换为压缩和更有意义的形式。此外,研究了所选择的形式,另外的调节表示,不同的模型架构以及用于评估重建声音的许多度量的条件。本文概述了应用于使用深度学习的声音合成的音频表示。此外,它呈现了使用深度学习模型开发和评估声音合成架构的最重要方法,始终根据音频表示。
translated by 谷歌翻译
我们介绍了一个新的系统,用于围绕两个不同的神经网络体系结构建立的数据驱动音频声音模型设计,即生成对抗网络(GAN)和一个经常性的神经网络(RNN),它利用了每个系统的优势,以实现每个系统的独特特征目标都不能单独解决的目标。该系统的目的是生成给定的可交互性声音模型(a)该模型应能够合成的声音范围,以及(b)参数控件的规范,用于导航声音的空间。声音范围由设计器提供的数据集定义,而导航的方式由数据标签的组合以及从GAN学到的潜在空间中选择的子曼属的选择来定义。我们提出的系统利用了gan的丰富潜在空间,它由“真实数据般的声音”之间的声音组成。立即不断地更改参数并在无限的时间内生成音频。此外,我们开发了一种自组织的地图技术,用于``平滑''gan的潜在空间,从而导致音频音调之间的感知平滑插值。我们通过用户研究来验证这一过程。该系统为生成声音模型设计的最新技术做出了贡献,其中包括系统配置和用于改善插值的组件以及音乐音调和打击乐器的声音以外的音频建模功能的扩展,以使音频纹理的空间更加复杂。
translated by 谷歌翻译
快速和用户控制的音乐生成可以实现创作或表演音乐的新颖方法。但是,最先进的音乐生成系统需要大量的数据和计算资源来培训,并且推断很慢。这使它们对于实时交互式使用不切实际。在这项工作中,我们介绍了Musika,Musika是一种音乐发电系统,可以使用单个消费者GPU在数百小时的音乐上进行培训,并且比消费者CPU上有任意长度的音乐的实时生成速度要快得多。我们首先学习具有对抗性自动编码器的光谱图和相位的紧凑型可逆表示,然后在此表示上训练生成性对抗网络(GAN)为特定的音乐领域训练。潜在坐标系可以并行生成任意长的摘录序列,而全局上下文向量使音乐可以在时间上保持风格连贯。我们执行定量评估,以评估生成的样品的质量,并展示钢琴和技术音乐生成的用户控制选项。我们在github.com/marcoppasini/musika上发布源代码和预估计的自动编码器重量,使得可以在几个小时内使用单个GPU的新音乐域中对GAN进行培训。
translated by 谷歌翻译
近年来,通过深层生成模型,音频合成的进展很大。但是,最新的很难量化。在报告结果时,不同的研究通常使用不同的评估方法和不同的指标,从而直接与其他系统进行比较,即使不是不可能。此外,在大多数情况下,报告指标的感知相关性和含义都未知,禁止对实际的可用性和音频质量的任何结论性见解。本文介绍了一项研究,该研究与(i)一组先前提出的用于音频重建的客观指标以及(ii)一项听力研究,研究了最先进的方法。结果表明,当前使用的客观指标不足以描述当前系统的感知质量。
translated by 谷歌翻译
理想的音乐合成器应具有互动性和表现力,并实时产生高保真音频,以进行任意组合仪器和音符。最近的神经合成器在特定于域的模型之间表现出了折衷,这些模型仅对特定仪器或可以训练所有音乐训练但最小的控制和缓慢发电的原始波形模型提供了详细的控制。在这项工作中,我们专注于神经合成器的中间立场,这些基础可以从MIDI序列中产生音频,并实时使用仪器的任意组合。这使得具有单个模型的各种转录数据集的培训,这又提供了对各种仪器的组合和仪器的控制级别的控制。我们使用一个简单的两阶段过程:MIDI到具有编码器变压器的频谱图,然后使用生成对抗网络(GAN)频谱图逆变器将频谱图到音频。我们将训练解码器作为自回归模型进行了比较,并将其视为一种脱氧扩散概率模型(DDPM),并发现DDPM方法在定性上是优越的,并且通过音频重建和fr \'echet距离指标来衡量。鉴于这种方法的互动性和普遍性,我们发现这是迈向互动和表达性神经综合的有前途的第一步,以实现工具和音符的任意组合。
translated by 谷歌翻译
Previous works (Donahue et al., 2018a;Engel et al., 2019a) have found that generating coherent raw audio waveforms with GANs is challenging. In this paper, we show that it is possible to train GANs reliably to generate high quality coherent waveforms by introducing a set of architectural changes and simple training techniques. Subjective evaluation metric (Mean Opinion Score, or MOS) shows the effectiveness of the proposed approach for high quality mel-spectrogram inversion. To establish the generality of the proposed techniques, we show qualitative results of our model in speech synthesis, music domain translation and unconditional music synthesis. We evaluate the various components of the model through ablation studies and suggest a set of guidelines to design general purpose discriminators and generators for conditional sequence synthesis tasks. Our model is non-autoregressive, fully convolutional, with significantly fewer parameters than competing models and generalizes to unseen speakers for mel-spectrogram inversion. Our pytorch implementation runs at more than 100x faster than realtime on GTX 1080Ti GPU and more than 2x faster than real-time on CPU, without any hardware specific optimization tricks.
translated by 谷歌翻译
在许多语音和音乐相关任务中,应用于音频的深度生成模型已经改善了最先进的最先进的语音和音乐相关的任务。然而,由于原始波形建模仍然是一个固有的困难任务,音频生成模型要么计算密集,依赖于低采样率,并复杂于控制或限制可能信号的性质。在这些模型中,变形自身偏析器(VAE)通过暴露潜在变量来控制生成,尽管它们通常遭受低合成质量。在本文中,我们介绍了一个实时音频变形式自动化器(RAVE),允许快速和高质量的音频波形合成。我们介绍了一种新型的两级培训程序,即表示学习和对抗性微调。我们表明,使用对潜伏空间的训练后分析允许直接控制重建保真度和表示紧凑性。通过利用原始波形的多频段分解,我们表明我们的模型是第一个能够生成48kHz音频信号,同时在标准膝上型计算机CPU上的实时运行20倍。我们使用定量和定性主观实验评估合成质量,并与现有模型相比,我们的方法的优越性。最后,我们呈现了我们模型的MigBre传输和信号压缩的应用。我们所有的源代码和音频示例都是公开的。
translated by 谷歌翻译
脚步是多媒体应用中最无处不在的声音效果之一。了解声学特征和开发脚步声音效果的合成模型存在大量研究。在本文中,我们展示了对这项任务采用神经综合的第一次尝试。我们实施了两个基于GAN的架构,并将结果与实际记录相比以及六种传统的声音合成方法。我们的架构达到了现实主义分数,与录制的样品一样高,显示了令人鼓舞的任务结果。
translated by 谷歌翻译
我们提出了一个录音录音录音的录音录音。我们的模型通过短时傅立叶变换(STFT)将其输入转换为时频表示,并使用卷积神经网络处理所得的复杂频谱图。该网络在合成音乐数据集上培训了重建和对抗性目标,该数据集是通过将干净的音乐与从旧唱片的安静片段中提取的真实噪声样本混合而创建的。我们在合成数据集的持有测试示例中定量评估我们的方法,并通过人类对实际历史记录样本的评级进行定性评估。我们的结果表明,所提出的方法可有效消除噪音,同时保留原始音乐的质量和细节。
translated by 谷歌翻译
对机器学习和创造力领域的兴趣越来越大。这项调查概述了计算创造力理论,关键机器学习技术(包括生成深度学习)和相应的自动评估方法的历史和现状。在对该领域的主要贡献进行了批判性讨论之后,我们概述了当前的研究挑战和该领域的新兴机会。
translated by 谷歌翻译
音乐表达需要控制播放的笔记,以及如何执行它们。传统的音频合成器提供了详细的表达控制,但以现实主义的成本提供了详细的表达控制。黑匣子神经音频合成和连接采样器可以产生现实的音频,但有很少的控制机制。在这项工作中,我们介绍MIDI-DDSP乐器的分层模型,可以实现现实的神经音频合成和详细的用户控制。从可解释的可分辨率数字信号处理(DDSP)合成参数开始,我们推断出富有表现力性能的音符和高级属性(例如Timbre,Vibrato,Dynamics和Asticiculation)。这将创建3级层次结构(注释,性能,合成),提供个人选择在每个级别进行干预,或利用培训的前沿(表现给出备注,综合赋予绩效)进行创造性的帮助。通过定量实验和聆听测试,我们证明了该层次结构可以重建高保真音频,准确地预测音符序列的性能属性,独立地操纵给定性能的属性,以及作为完整的系统,从新颖的音符生成现实音频顺序。通过利用可解释的层次结构,具有多个粒度的粒度,MIDI-DDSP将门打开辅助工具的门,以赋予各种音乐体验的个人。
translated by 谷歌翻译
从语音音频中删除背景噪音一直是大量研究和努力的主题,尤其是由于虚拟沟通和业余声音录制的兴起,近年来。然而,背景噪声并不是唯一可以防止可理解性的不愉快干扰:混响,剪裁,编解码器工件,有问题的均衡,有限的带宽或不一致的响度同样令人不安且无处不在。在这项工作中,我们建议将言语增强的任务视为一项整体努力,并提出了一种普遍的语音增强系统,同时解决了55种不同的扭曲。我们的方法由一种使用基于得分的扩散的生成模型以及一个多分辨率调节网络,该网络通过混合密度网络进行增强。我们表明,这种方法在专家听众执行的主观测试中大大优于艺术状态。我们还表明,尽管没有考虑任何特定的快速采样策略,但它仅通过4-8个扩散步骤就可以实现竞争性的目标得分。我们希望我们的方法论和技术贡献都鼓励研究人员和实践者采用普遍的语音增强方法,可能将其作为一项生成任务。
translated by 谷歌翻译
与CNN的分类,分割或对象检测相比,生成网络的目标和方法根本不同。最初,它们不是作为图像分析工具,而是生成自然看起来的图像。已经提出了对抗性训练范式来稳定生成方法,并已被证明是非常成功的 - 尽管绝不是第一次尝试。本章对生成对抗网络(GAN)的动机进行了基本介绍,并通​​过抽象基本任务和工作机制并得出了早期实用方法的困难来追溯其成功的道路。将显示进行更稳定的训练方法,也将显示出不良收敛及其原因的典型迹象。尽管本章侧重于用于图像生成和图像分析的gan,但对抗性训练范式本身并非特定于图像,并且在图像分析中也概括了任务。在将GAN与最近进入场景的进一步生成建模方法进行对比之前,将闻名图像语义分割和异常检测的架构示例。这将允许对限制的上下文化观点,但也可以对gans有好处。
translated by 谷歌翻译
We show that diffusion models can achieve image sample quality superior to the current state-of-the-art generative models. We achieve this on unconditional image synthesis by finding a better architecture through a series of ablations. For conditional image synthesis, we further improve sample quality with classifier guidance: a simple, compute-efficient method for trading off diversity for fidelity using gradients from a classifier. We achieve an FID of 2.97 on ImageNet 128×128, 4.59 on ImageNet 256×256, and 7.72 on ImageNet 512×512, and we match BigGAN-deep even with as few as 25 forward passes per sample, all while maintaining better coverage of the distribution. Finally, we find that classifier guidance combines well with upsampling diffusion models, further improving FID to 3.94 on ImageNet 256×256 and 3.85 on ImageNet 512×512. We release our code at https://github.com/openai/guided-diffusion.
translated by 谷歌翻译
In this work, we propose DiffWave, a versatile diffusion probabilistic model for conditional and unconditional waveform generation. The model is non-autoregressive, and converts the white noise signal into structured waveform through a Markov chain with a constant number of steps at synthesis. It is efficiently trained by optimizing a variant of variational bound on the data likelihood. DiffWave produces high-fidelity audio in different waveform generation tasks, including neural vocoding conditioned on mel spectrogram, class-conditional generation, and unconditional generation. We demonstrate that DiffWave matches a strong WaveNet vocoder in terms of speech quality (MOS: 4.44 versus 4.43), while synthesizing orders of magnitude faster. In particular, it significantly outperforms autoregressive and GAN-based waveform models in the challenging unconditional generation task in terms of audio quality and sample diversity from various automatic and human evaluations. 1 * Contributed to the work during an internship at Baidu Research, USA. 1 Audio samples are in: https://diffwave-demo.github.io/
translated by 谷歌翻译
Objective: Despite numerous studies proposed for audio restoration in the literature, most of them focus on an isolated restoration problem such as denoising or dereverberation, ignoring other artifacts. Moreover, assuming a noisy or reverberant environment with limited number of fixed signal-to-distortion ratio (SDR) levels is a common practice. However, real-world audio is often corrupted by a blend of artifacts such as reverberation, sensor noise, and background audio mixture with varying types, severities, and duration. In this study, we propose a novel approach for blind restoration of real-world audio signals by Operational Generative Adversarial Networks (Op-GANs) with temporal and spectral objective metrics to enhance the quality of restored audio signal regardless of the type and severity of each artifact corrupting it. Methods: 1D Operational-GANs are used with generative neuron model optimized for blind restoration of any corrupted audio signal. Results: The proposed approach has been evaluated extensively over the benchmark TIMIT-RAR (speech) and GTZAN-RAR (non-speech) datasets corrupted with a random blend of artifacts each with a random severity to mimic real-world audio signals. Average SDR improvements of over 7.2 dB and 4.9 dB are achieved, respectively, which are substantial when compared with the baseline methods. Significance: This is a pioneer study in blind audio restoration with the unique capability of direct (time-domain) restoration of real-world audio whilst achieving an unprecedented level of performance for a wide SDR range and artifact types. Conclusion: 1D Op-GANs can achieve robust and computationally effective real-world audio restoration with significantly improved performance. The source codes and the generated real-world audio datasets are shared publicly with the research community in a dedicated GitHub repository1.
translated by 谷歌翻译
尽管近年来取得了惊人的进步,但最先进的音乐分离系统会产生具有显着感知缺陷的源估计,例如增加无关噪声或消除谐波。我们提出了一个后处理模型(MAKE听起来不错(MSG)后处理器),以增强音乐源分离系统的输出。我们将我们的后处理模型应用于最新的基于波形和基于频谱图的音乐源分离器,包括在训练过程中未见的分离器。我们对源分离器产生的误差的分析表明,波形模型倾向于引入更多高频噪声,而频谱图模型倾向于丢失瞬变和高频含量。我们引入了客观措施来量化这两种错误并显示味精改善了两种错误的源重建。众包主观评估表明,人类的听众更喜欢由MSG进行后处理的低音和鼓的来源估计。
translated by 谷歌翻译
鉴于音乐源分离和自动混合的最新进展,在音乐曲目中删除音频效果是开发自动混合系统的有意义的一步。本文着重于消除对音乐制作中吉他曲目应用的失真音频效果。我们探索是否可以通过设计用于源分离和音频效应建模的神经网络来解决效果的去除。我们的方法证明对混合处理和清洁信号的效果特别有效。与基于稀疏优化的最新解决方案相比,这些模型获得了更好的质量和更快的推断。我们证明这些模型不仅适合倾斜,而且适用于其他类型的失真效应。通过讨论结果,我们强调了多个评估指标的有用性,以评估重建的不同方面的变形效果去除。
translated by 谷歌翻译
尽管新成立的AI歌曲竞赛所见证的音乐作品和生产中使用AI工具在稳步增长,但使用这些工具制作的音乐分析仍然相对罕见,这是一种敏锐的洞察力,以洞悉AI工具影响音乐生产的方式。在本文中,我们介绍了一项案例研究“褪黑激素”,这是一首通过广泛使用Bassnet(最初旨在生成低音线条)的AI工具而产生的歌曲。通过分析艺术家的作品流程和歌曲项目,我们确定了与工具的负担相关的歌曲的样式特征,从而强调了习语和声音的样式表现。
translated by 谷歌翻译