基于变化的AutoEncoder的语音转换(VAE-VC)具有仅需要对培训的发言和扬声器标签的优势。与VAE-VC中的大部分研究不同,专注于利用辅助损失或离散变量,研究了如何增加模型表达式对VAE-VC的益处和影响。具体而言,我们首先将VAE-VC分析到速率 - 失真的角度,并指出模型表达性对于VAE-VC来说意义重大,因为速率和失真反映了转化的演示的相似性和自然度。基于分析,我们提出了一种使用深层等级vae的新型VC方法,具有高模型表达性,并且由于其非自动增加的解码器而具有快速转换速度。此外,我们的分析揭示了另一个问题,当VAE的潜变量具有冗余信息时,相似性可以降级。通过使用$ \ beta $ -vae目标控制潜在变量中包含的信息来解决问题。在使用VCTK Corpus的实验中,所提出的方法在性别间环境中的自然和相似性上实现了高于3.5的平均意见分数,其高于现有的基于AutoEncoder的VC方法的分数。
translated by 谷歌翻译