智能论文笔记

Conditional Deep Hierarchical Variational Autoencoder for Voice Conversion

Kei Akuzawa , Kotaro Onishi , Keisuke Takiguchi , Kohki Mametani , Koichiro Mori

分类：机器学习

2021-12-06

基于变化的AutoEncoder的语音转换（VAE-VC）具有仅需要对培训的发言和扬声器标签的优势。与VAE-VC中的大部分研究不同，专注于利用辅助损失或离散变量，研究了如何增加模型表达式对VAE-VC的益处和影响。具体而言，我们首先将VAE-VC分析到速率 - 失真的角度，并指出模型表达性对于VAE-VC来说意义重大，因为速率和失真反映了转化的演示的相似性和自然度。基于分析，我们提出了一种使用深层等级vae的新型VC方法，具有高模型表达性，并且由于其非自动增加的解码器而具有快速转换速度。此外，我们的分析揭示了另一个问题，当VAE的潜变量具有冗余信息时，相似性可以降级。通过使用$ \ beta $ -vae目标控制潜在变量中包含的信息来解决问题。在使用VCTK Corpus的实验中，所提出的方法在性别间环境中的自然和相似性上实现了高于3.5的平均意见分数，其高于现有的基于AutoEncoder的VC方法的分数。

translated by 谷歌翻译