智能论文笔记

Label Uncertainty Modeling and Prediction for Speech Emotion Recognition using t-Distributions

Navin Raj Prabhu , Nale Lehmann-Willenbrock , Timo Gerkmann

分类：机器学习

2022-07-25

由于不同的人对他人的情感表达方式有所不同，因此他们在唤醒和价值方面的注释本身是主观的。为了解决这个问题，这些情绪注释通常由多个注释者收集，并在注释者之间平均，以获取唤醒和价值的标签。但是，除了平均水平外，标签的不确定性也令人感兴趣，还应对自动情绪识别进行建模和预测。在文献中，为简单起见，标签不确定性建模通常以高斯对收集的注释的假设进行处理。但是，由于注释者的数量通常由于资源限制而相当小，因此我们认为高斯方法是一个相当粗略的假设。相比之下，在这项工作中，我们建议使用学生的T分布来对标签分布进行建模，这使我们可以考虑可用的注释数量。使用此模型，我们将基于相应的Kullback-Leibler差异函数得出相应的损失函数，并使用它来训练估计器以分布情绪标签，从中可以推断出平均值和不确定性。通过定性和定量分析，我们显示了T分布比高斯分布的好处。我们在AVEC'16数据集上验证了我们提出的方法。结果表明，我们基于T分布的方法对高斯方法进行了改进，而最新的不确定性建模会导致基于语音的情绪识别以及最佳甚至更快的收敛性。

translated by 谷歌翻译

情绪是主观的结构。尽管具有最先进的表现，但最近的端到端语音情感识别系统通常对情绪的主观性质不可知。在这项工作中，我们引入了端到端的贝叶斯神经网络体系结构，以捕捉情绪表达的唤醒维度的固有主观性。据我们所知，这项工作是第一个使用贝叶斯神经网络进行言语情感识别的工作。在培训中，网络学习了权重的分布，以捕获与主观唤醒注释相关的固有不确定性。为此，我们引入了一个损失项，使该模型能够在注释分布中进行明确培训，而不是专门针对均值或金标准标签进行训练。我们在AVEC'16数据集上评估了建议的方法。对结果的定性和定量分析表明，所提出的模型可以恰当地捕获主观唤醒注释的分布，最新的导致不确定性建模的平均值和标准偏差估计。

translated by 谷歌翻译