智能论文笔记

ACII情感声音爆发研讨会和竞争的重点是理解声乐爆发的多个情感维度：笑声，喘息，哭泣，尖叫声以及许多其他非语言声音，这是情感表达和人类交流的核心。今年的比赛包括四首曲目，使用1,702位扬声器的大规模和野外数据集提供59,299个发声。首先是A-VB高任务，要求竞争参与者使用十个类似的注释的情感表达强度，对情感进行新型模型进行多标签回归，包括：敬畏，恐惧和惊喜。第二个是A-VB-TWO任务，利用更传统的二维模型来进行情感，唤醒和价值。第三个是A-VB文化任务，要求参与者探索数据集的文化方面，培训本地国家依赖模型。最后，对于第四个任务，A-VB型，参与者应认识到声乐爆发的类型（例如，笑声，哭泣，咕unt）是8级分类。本文介绍了使用最先进的机器学习方法的四个轨道和基线系统。每条轨道的基线性能是通过使用端到端深度学习模型获得的，如下所示：对于A-VB-高，平均（超过10维）一致性相关系数（CCC）为0.5687 CCC为获得;对于A-VB-TWO，获得了0.5084的平均值（超过2维）；对于A-VB培养物，从四个培养物中获得了0.4401的平均CCC；对于A-VB型，来自8类的基线未加权平均召回（UAR）为0.4172 UAR。

translated by 谷歌翻译

The ICML 2022 Expressive Vocalizations Workshop and Competition: Recognizing, Generating, and Personalizing Vocal Bursts

Alice Baird , Panagiotis Tzirakis , Gauthier Gidel , Marco Jiralerspong , Eilif B. Muller , Kory Mathewson , Björn Schuller , Erik Cambria , Dacher Keltner , Alan Cowen

分类：机器学习

2022-05-03

ICML表达性发声（EXVO）的竞争重点是理解和产生声音爆发：笑声，喘息，哭泣和其他非语言发声，这是情感表达和交流至关重要的。 EXVO 2022，包括三个竞赛曲目，使用来自1,702位扬声器的59,201个发声的大规模数据集。首先是Exvo-Multitask，要求参与者训练多任务模型，以识别声音爆发中表达的情绪和人口特征。第二个，即exvo生成，要求参与者训练一种生成模型，该模型产生声音爆发，传达了十种不同的情绪。第三个exvo-fewshot要求参与者利用少量的学习融合说话者身份来训练模型，以识别声音爆发传达的10种情感。本文描述了这三个曲目，并使用最先进的机器学习策略为基线模型提供了绩效指标。每个曲目的基线如下，对于exvo-multitask，一个组合得分，计算一致性相关系数的谐波平均值（CCC），未加权的平均召回（UAR）和反向平均绝对错误（MAE）（MAE）（$ s_ {mtl） } $）充其量是0.335 $ s_ {mtl} $;对于exvo生成，我们报告了Fr \'Echet Inception距离（FID）的得分范围为4.81至8.27（取决于情绪），在训练集和生成的样品之间。然后，我们将倒置的FID与生成样品的感知评级（$ s_ {gen} $）相结合，并获得0.174 $ s_ {gen} $;对于Exvo-Fewshot，获得平均CCC为0.444。

translated by 谷歌翻译