智能论文笔记

Differentiable WORLD Synthesizer-based Neural Vocoder With Application To End-To-End Audio Style Transfer

Shahan Nercessian

分类：机器学习

2022-08-15

在本文中，我们提出了一个可区分的世界合成器，并展示了其在端到端音频样式转移任务中的用途，例如（唱歌）语音转换和DDSP Timbre传输任务。因此，我们的基线可分化合成器没有模型参数，但可以产生足够的合成质量。我们可以通过附加轻巧的黑框邮寄来扩展基线合成器，这些邮政将进一步的处理应用于基线输出以提高忠诚度。另一种可区分的方法考虑了直接提取源激发光谱的提取，这可以改善自然性，尽管较窄的样式转移应用程序都可以提高自然性。我们的方法使用的声学特征参数化具有额外的好处，即自然会散布音调和音图信息，以便可以单独建模它们。此外，由于存在一种强大的方法来估算单声音频源的这些声学特征，因此它允许将参数丢失项添加到端到端目标函数中，这可以帮助收敛和/或进一步稳定（对抗性）训练。

translated by 谷歌翻译