在本文中,我们提出了一个可区分的世界合成器,并展示了其在端到端音频样式转移任务中的用途,例如(唱歌)语音转换和DDSP Timbre传输任务。因此,我们的基线可分化合成器没有模型参数,但可以产生足够的合成质量。我们可以通过附加轻巧的黑框邮寄来扩展基线合成器,这些邮政将进一步的处理应用于基线输出以提高忠诚度。另一种可区分的方法考虑了直接提取源激发光谱的提取,这可以改善自然性,尽管较窄的样式转移应用程序都可以提高自然性。我们的方法使用的声学特征参数化具有额外的好处,即自然会散布音调和音图信息,以便可以单独建模它们。此外,由于存在一种强大的方法来估算单声音频源的这些声学特征,因此它允许将参数丢失项添加到端到端目标函数中,这可以帮助收敛和/或进一步稳定(对抗性)训练。
translated by 谷歌翻译