Vocoders是能够将音频信号(通常是MEL频谱图)转换为波形的低维光谱表示。现代语音生成管道使用Vocoder作为其最终组成部分。最近为语音开发的Vocoder模型实现了高度的现实主义,因此自然想知道它们在音乐信号上的表现。与言语相比,音乐声纹理的异质性和结构提供了新的挑战。在这项工作中,我们专注于一种专为语音设计的Vocoder模型在应用于音乐时倾向于展示的一种特定工件:合成持续的音符时的俯仰不稳定性。我们认为,该伪像的特征声音是由于缺乏水平相一致性,这通常是由于使用时间域目标空间与跨度班的模型(例如卷积神经网络)不变的结果。我们提出了专门为音乐设计的新型Vocoder模型。提高音高稳定性的关键是选择由幅度频谱和相位梯度组成的移位不变的目标空间。我们讨论了启发我们重新构建Vocoder任务的原因,概述一个工作示例,并在音乐信号上进行评估。我们的方法使用新颖的谐波误差度量标准,导致60%和10%的改善了相对于现有模型的持续音符和和弦的重建。
translated by 谷歌翻译