ACII情感声音爆发研讨会和竞争的重点是理解声乐爆发的多个情感维度:笑声,喘息,哭泣,尖叫声以及许多其他非语言声音,这是情感表达和人类交流的核心。今年的比赛包括四首曲目,使用1,702位扬声器的大规模和野外数据集提供59,299个发声。首先是A-VB高任务,要求竞争参与者使用十个类似的注释的情感表达强度,对情感进行新型模型进行多标签回归,包括:敬畏,恐惧和惊喜。第二个是A-VB-TWO任务,利用更传统的二维模型来进行情感,唤醒和价值。第三个是A-VB文化任务,要求参与者探索数据集的文化方面,培训本地国家依赖模型。最后,对于第四个任务,A-VB型,参与者应认识到声乐爆发的类型(例如,笑声,哭泣,咕unt)是8级分类。本文介绍了使用最先进的机器学习方法的四个轨道和基线系统。每条轨道的基线性能是通过使用端到端深度学习模型获得的,如下所示:对于A-VB-高,平均(超过10维)一致性相关系数(CCC)为0.5687 CCC为获得;对于A-VB-TWO,获得了0.5084的平均值(超过2维);对于A-VB培养物,从四个培养物中获得了0.4401的平均CCC;对于A-VB型,来自8类的基线未加权平均召回(UAR)为0.4172 UAR。
translated by 谷歌翻译