智能论文笔记

Predicting pairwise preferences between TTS audio stimuli using parallel ratings data and anti-symmetric twin neural networks

Cassia Valentini-Botinhao , Manuel Sam Ribeiro , Oliver Watts , Korin Richmond , Gustav Eje Henter

分类：自然语言处理

2022-09-22

自动预测主观听力测试的结果是一项具有挑战性的任务。即使听众之间的偏好是一致的，评分也可能因人而异。虽然先前的工作重点是预测单个刺激的听众评分（平均意见分数），但我们专注于预测主观偏好的更简单任务，即给出了两个语音刺激的同一文本。我们提出了一个基于抗对称双神经网络的模型，该模型是在波形对及其相应偏好分数上训练的。我们探索了注意力和复发性神经网，以说明一对刺激不符合时间的事实。为了获得大型训练集，我们将听众的评分从Mushra测试转换为反映这对中一种刺激的频率高于另一个刺激的值。具体而言，我们评估了从五年内进行的十二个Mushra评估获得的数据，其中包含不同扬声器数据的不同TTS系统。我们的结果与经过预测MOS得分的最先进模型相比有利。

translated by 谷歌翻译