该技术报告介绍了我们在ACII情感声音爆发(A-VB)2022研讨会和竞争中的高维情感任务(A-VB高)的情感识别管道。我们提出的方法包含三个阶段。首先,我们通过自我监督的学习方法从原始音频信号及其MEL光谱图中提取潜在特征。然后,将原始信号的功能馈送到自相关的注意力和时间意识(SA-TA)模块,以学习这些潜在特征之间的宝贵信息。最后,我们串联所有功能,并利用完全连接的层来预测每个情绪的得分。通过经验实验,我们提出的方法在测试集上实现了平均一致性相关系数(CCC)为0.7295,而基线模型上的平均一致性相关系数(CCC)为0.5686。我们方法的代码可从https://github.com/linhtd812/a-vb2022获得。
translated by 谷歌翻译
ACII情感声音爆发研讨会和竞争的重点是理解声乐爆发的多个情感维度:笑声,喘息,哭泣,尖叫声以及许多其他非语言声音,这是情感表达和人类交流的核心。今年的比赛包括四首曲目,使用1,702位扬声器的大规模和野外数据集提供59,299个发声。首先是A-VB高任务,要求竞争参与者使用十个类似的注释的情感表达强度,对情感进行新型模型进行多标签回归,包括:敬畏,恐惧和惊喜。第二个是A-VB-TWO任务,利用更传统的二维模型来进行情感,唤醒和价值。第三个是A-VB文化任务,要求参与者探索数据集的文化方面,培训本地国家依赖模型。最后,对于第四个任务,A-VB型,参与者应认识到声乐爆发的类型(例如,笑声,哭泣,咕unt)是8级分类。本文介绍了使用最先进的机器学习方法的四个轨道和基线系统。每条轨道的基线性能是通过使用端到端深度学习模型获得的,如下所示:对于A-VB-高,平均(超过10维)一致性相关系数(CCC)为0.5687 CCC为获得;对于A-VB-TWO,获得了0.5084的平均值(超过2维);对于A-VB培养物,从四个培养物中获得了0.4401的平均CCC;对于A-VB型,来自8类的基线未加权平均召回(UAR)为0.4172 UAR。
translated by 谷歌翻译
在本文中,我们介绍了2022年多模式情感分析挑战(MUSE)的解决方案,其中包括Muse-Humor,Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯(Muse 2022)着重于幽默检测,情绪反应和多模式的情感压力,利用不同的方式和数据集。在我们的工作中,提取了不同种类的多模式特征,包括声学,视觉,文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中,1)提取了一些新的音频功能,面部表达功能和段落级文本嵌入以进行准确的改进。 2)我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3)在模型培训中应用有效的数据增强策略,以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战,我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战,我们在测试集上的Pearson相关系数为0.3879,它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge,我们的方法在测试数据集上的唤醒和价值都优于基线,达到了0.5151的最终综合结果。
translated by 谷歌翻译
Human speech can be characterized by different components, including semantic content, speaker identity and prosodic information. Significant progress has been made in disentangling representations for semantic content and speaker identity in Automatic Speech Recognition (ASR) and speaker verification tasks respectively. However, it is still an open challenging research question to extract prosodic information because of the intrinsic association of different attributes, such as timbre and rhythm, and because of the need for unsupervised training schemes to achieve robust large-scale and speaker-independent ASR. The aim of this paper is to address the disentanglement of emotional prosody from speech based on unsupervised reconstruction. Specifically, we identify, design, implement and integrate three crucial components in our proposed speech reconstruction model Prosody2Vec: (1) a unit encoder that transforms speech signals into discrete units for semantic content, (2) a pretrained speaker verification model to generate speaker identity embeddings, and (3) a trainable prosody encoder to learn prosody representations. We first pretrain the Prosody2Vec representations on unlabelled emotional speech corpora, then fine-tune the model on specific datasets to perform Speech Emotion Recognition (SER) and Emotional Voice Conversion (EVC) tasks. Both objective and subjective evaluations on the EVC task suggest that Prosody2Vec effectively captures general prosodic features that can be smoothly transferred to other emotional speech. In addition, our SER experiments on the IEMOCAP dataset reveal that the prosody features learned by Prosody2Vec are complementary and beneficial for the performance of widely used speech pretraining models and surpass the state-of-the-art methods when combining Prosody2Vec with HuBERT representations. Some audio samples can be found on our demo website.
translated by 谷歌翻译
语音情感转换是修改语音话语的感知情绪的任务,同时保留词汇内容和扬声器身份。在这项研究中,我们将情感转换问题作为口语翻译任务。我们将演讲分解为离散和解散的学习表现,包括内容单位,F0,扬声器和情感。首先,我们通过将内容单元转换为目标情绪来修改语音内容,然后基于这些单元预测韵律特征。最后,通过将预测的表示馈送到神经声码器中来生成语音波形。这样的范式允许我们超越信号的光谱和参数变化,以及模型非口头发声,例如笑声插入,打开拆除等。我们客观地和主观地展示所提出的方法在基础上优于基线感知情绪和音频质量。我们严格评估了这种复杂系统的所有组成部分,并通过广泛的模型分析和消融研究结束,以更好地强调建议方法的建筑选择,优势和弱点。示例和代码将在以下链接下公开使用:https://speechbot.github.io/emotion。
translated by 谷歌翻译
声乐爆发在交流情感中起着重要的作用,使它们对于改善语音情感识别很有价值。在这里,我们介绍了我们在ACII情感声乐爆发工作室和挑战2022(A-VB)中预测声音爆发并预测其情感意义的方法。我们使用大型的自我监督音频模型作为共享的功能提取器,并比较在分类器链和注意力网络上构建的多个体系结构,并结合不确定性减少减肥策略。我们的方法超过了所有四个任务的挑战基线。
translated by 谷歌翻译
这项工作为2022年ICML表达性发声挑战exvo-multitask轨道的人声爆发音频介绍了对年龄,原产国和情感的同时估计的多任务方法。选择的方法利用了光谱 - 周期调制和自我监督的特征的组合,然后是在多任务范式中组织的编码器编码网络。我们通过检查独立的任务特定模型和联合模型来评估所构成的任务之间的互补性,并探索不同特征集的相对强度。我们还引入了一种简单的分数融合机制,以利用此任务的不同特征集的互补性。我们发现,与光谱 - 周期性接收场的得分融合结合进行了强大的数据预处理,而Hubert模型达到了我们最佳的EXVO-Multitask测试评分为0.412。
translated by 谷歌翻译
具有高质量手动注释的大型数据库在音频域中很少。因此,我们探索了一种从高度有限的标记数据中学习音频表示的自我监管的图形方法。将每个音频示例视为图节点,我们提出了一个基于子图的框架,具有新颖的自学任务,可以学习有效的音频表示。在训练过程中,通过对整个可用培训数据进行采样以利用标签和未标记的音频样本之间的关系来构建子图。在推断期间,我们使用随机边缘来减轻图形结构的开销。我们在三个基准音频数据库和两个任务上评估了模型:声学事件检测和语音情绪识别。我们的半监督模型的性能更好或与完全监督的模型相当,并且优于几个竞争现有模型。我们的模型是紧凑的(240K参数),可以产生对不同类型的信号噪声强大的通用音频表示。
translated by 谷歌翻译
ICML表达性发声(EXVO)的竞争重点是理解和产生声音爆发:笑声,喘息,哭泣和其他非语言发声,这是情感表达和交流至关重要的。 EXVO 2022,包括三个竞赛曲目,使用来自1,702位扬声器的59,201个发声的大规模数据集。首先是Exvo-Multitask,要求参与者训练多任务模型,以识别声音爆发中表达的情绪和人口特征。第二个,即exvo生成,要求参与者训练一种生成模型,该模型产生声音爆发,传达了十种不同的情绪。第三个exvo-fewshot要求参与者利用少量的学习融合说话者身份来训练模型,以识别声音爆发传达的10种情感。本文描述了这三个曲目,并使用最先进的机器学习策略为基线模型提供了绩效指标。每个曲目的基线如下,对于exvo-multitask,一个组合得分,计算一致性相关系数的谐波平均值(CCC),未加权的平均召回(UAR)和反向平均绝对错误(MAE)(MAE)($ s_ {mtl) } $)充其量是0.335 $ s_ {mtl} $;对于exvo生成,我们报告了Fr \'Echet Inception距离(FID)的得分范围为4.81至8.27(取决于情绪),在训练集和生成的样品之间。然后,我们将倒置的FID与生成样品的感知评级($ s_ {gen} $)相结合,并获得0.174 $ s_ {gen} $;对于Exvo-Fewshot,获得平均CCC为0.444。
translated by 谷歌翻译
情感语音分析是一个持续的研究主题。在该领域的一个相对较新的问题是对声乐爆发的分析,即笑声或叹息等非语言发声。解决情感声音爆发分析的当前最新方法主要基于WAV2VEC2或Hubert功能。在本文中,我们研究了WAV2VEC后继数据2VEC与多任务学习管道的使用,以一次解决不同的分析问题。为了评估我们有效的多任务学习体系结构的性能,我们参与了2022 ACII情感声音爆发挑战,这表明我们的方法在三个不同的子任务中大大胜过基线。
translated by 谷歌翻译
Text-based speech editing allows users to edit speech by intuitively cutting, copying, and pasting text to speed up the process of editing speech. In the previous work, CampNet (context-aware mask prediction network) is proposed to realize text-based speech editing, significantly improving the quality of edited speech. This paper aims at a new task: adding emotional effect to the editing speech during the text-based speech editing to make the generated speech more expressive. To achieve this task, we propose Emo-CampNet (emotion CampNet), which can provide the option of emotional attributes for the generated speech in text-based speech editing and has the one-shot ability to edit unseen speakers' speech. Firstly, we propose an end-to-end emotion-selectable text-based speech editing model. The key idea of the model is to control the emotion of generated speech by introducing additional emotion attributes based on the context-aware mask prediction network. Secondly, to prevent the emotion of the generated speech from being interfered by the emotional components in the original speech, a neutral content generator is proposed to remove the emotion from the original speech, which is optimized by the generative adversarial framework. Thirdly, two data augmentation methods are proposed to enrich the emotional and pronunciation information in the training set, which can enable the model to edit the unseen speaker's speech. The experimental results that 1) Emo-CampNet can effectively control the emotion of the generated speech in the process of text-based speech editing; And can edit unseen speakers' speech. 2) Detailed ablation experiments further prove the effectiveness of emotional selectivity and data augmentation methods. The demo page is available at https://hairuo55.github.io/Emo-CampNet/
translated by 谷歌翻译
创伤后应激障碍(PTSD)是一种长期衰弱的精神状况,是针对灾难性生活事件(例如军事战斗,性侵犯和自然灾害)而发展的。 PTSD的特征是过去的创伤事件,侵入性思想,噩梦,过度维护和睡眠障碍的闪回,所有这些都会影响一个人的生活,并导致相当大的社会,职业和人际关系障碍。 PTSD的诊断是由医学专业人员使用精神障碍诊断和统计手册(DSM)中定义的PTSD症状的自我评估问卷进行的。在本文中,这是我们第一次收集,注释并为公共发行准备了一个新的视频数据库,用于自动PTSD诊断,在野生数据集中称为PTSD。该数据库在采集条件下表现出“自然”和巨大的差异,面部表达,照明,聚焦,分辨率,年龄,性别,种族,遮挡和背景。除了描述数据集集合的详细信息外,我们还提供了评估野生数据集中PTSD的基于计算机视觉和机器学习方法的基准。此外,我们建议并评估基于深度学习的PTSD检测方法。提出的方法显示出非常有希望的结果。有兴趣的研究人员可以从:http://www.lissi.fr/ptsd-dataset/下载PTSD-in-wild数据集的副本
translated by 谷歌翻译
我们介绍了我们的多任务学习方法,以预测人声爆发中的情感,年龄和起源(即祖国/语言)。BUST2VEC利用预先训练的语音表示来捕获原始波形的声学信息,并通过对抗训练结合了模型偏见的概念。我们的模型使用预提取的功能获得了相对30%的性能增长,并在ICML EXVO 2022多任务挑战中的所有参与者中得分最高。
translated by 谷歌翻译
该技术报告介绍了我们提交给ICML表达性发声研讨会和竞争多任务轨迹(EXVO-Multitask)的建模方法。我们首先将各种尺寸的图像分类模型应用于声乐爆发的MEL-SPECTROGRAM表示,这是声音事件检测文献中的标准。这些模型的结果显示,就任务指标的谐波平均值而言,基线系统的增加了21.24%,并构成了团队对多任务轨道的主要提交。然后,我们试图通过应用大型预训练的构象模型来表征多任务轨道中的净空,该模型以前在语言学识别和掩盖膜检测等副语言任务上实现了最新的结果。我们还研究了情感表达,原产国和年龄预测的子任务之间的关系,并发现最佳性能模型被培训为单任务模型,质疑该问题是否真正从多任务设置中受益。
translated by 谷歌翻译
Vocal Bursts -- short, non-speech vocalizations that convey emotions, such as laughter, cries, sighs, moans, and groans -- are an often-overlooked aspect of speech emotion recognition, but an important aspect of human vocal communication. One barrier to study of these interesting vocalizations is a lack of large datasets. I am pleased to introduce the EmoGator dataset, which consists of 32,040 samples from 365 speakers, 16.91 hours of audio; each sample classified into one of 30 distinct emotion categories by the speaker. Several different approaches to construct classifiers to identify emotion categories will be discussed, and directions for future research will be suggested. Data set is available for download from https://github.com/fredbuhl/EmoGator.
translated by 谷歌翻译
近年来,基于脑电图的情绪识别的进步已受到人机相互作用和认知科学领域的广泛关注。但是,如何用有限的标签识别情绪已成为一种新的研究和应用瓶颈。为了解决这个问题,本文提出了一个基于人类中刺激一致的脑电图信号的自我监督组减数分裂对比学习框架(SGMC)。在SGMC中,开发了一种新型遗传学启发的数据增强方法,称为减数分裂。它利用了组中脑电图样品之间的刺激对齐,通过配对,交换和分离来生成增强组。该模型采用组投影仪,从相同的情感视频刺激触发的脑电图样本中提取组级特征表示。然后,使用对比度学习来最大程度地提高具有相同刺激的增强群体的组级表示的相似性。 SGMC在公开可用的DEAP数据集上实现了最先进的情感识别结果,其价值为94.72%和95.68%的价和唤醒维度,并且在公共种子数据集上的竞争性能也具有94.04的竞争性能。 %。值得注意的是,即使使用有限的标签,SGMC也会显示出明显的性能。此外,功能可视化的结果表明,该模型可能已经学习了与情感相关的特征表示,以改善情绪识别。在超级参数分析中进一步评估了组大小的影响。最后,进行了对照实验和消融研究以检查建筑的合理性。该代码是在线公开提供的。
translated by 谷歌翻译
Collecting sufficient labeled data for spoken language understanding (SLU) is expensive and time-consuming. Recent studies achieved promising results by using pre-trained models in low-resource scenarios. Inspired by this, we aim to ask: which (if any) pre-training strategies can improve performance across SLU benchmarks? To answer this question, we employ four types of pre-trained models and their combinations for SLU. We leverage self-supervised speech and language models (LM) pre-trained on large quantities of unpaired data to extract strong speech and text representations. We also explore using supervised models pre-trained on larger external automatic speech recognition (ASR) or SLU corpora. We conduct extensive experiments on the SLU Evaluation (SLUE) benchmark and observe self-supervised pre-trained models to be more powerful, with pre-trained LM and speech models being most beneficial for the Sentiment Analysis and Named Entity Recognition task, respectively.
translated by 谷歌翻译
人类的情感认可是人工智能的积极研究领域,在过去几年中取得了实质性的进展。许多最近的作品主要关注面部区域以推断人类的情感,而周围的上下文信息没有有效地利用。在本文中,我们提出了一种新的深网络,有效地识别使用新的全球局部注意机制的人类情绪。我们的网络旨在独立地从两个面部和上下文区域提取特征,然后使用注意模块一起学习它们。以这种方式,面部和上下文信息都用于推断人类的情绪,从而增强分类器的歧视。密集实验表明,我们的方法超越了最近的最先进的方法,最近的情感数据集是公平的保证金。定性地,我们的全球局部注意力模块可以提取比以前的方法更有意义的注意图。我们网络的源代码和培训模型可在https://github.com/minhnhatvt/glamor-net上获得
translated by 谷歌翻译
在最新的社交网络中,越来越多的人喜欢通过文字,语音和丰富的面部表情在视频中表达自己的情绪。多模式的视频情感分析技术可以根据图像中的人类表情和手势,声音和公认的自然语言自动理解用户的内部世界。但是,在现有研究中,与视觉和文本方式相比,声学方式长期以来一直处于边缘位置。也就是说,改善声学方式对整个多模式识别任务的贡献往往更加困难。此外,尽管可以通过引入常见的深度学习方法来获得更好的性能,但是这些训练模型的复杂结构始终会导致推理效率低,尤其是在暴露于高分辨率和长长视频时。此外,缺乏完全端到端的多模式视频情感识别系统阻碍了其应用。在本文中,我们为快速而有效的识别推断设计了一个完全多模式的视频对情感系统(名称为FV2E),其好处是三倍:(1)在声音中,通过有限的贡献,采用了层次结构注意方法。在声学模态上,在IEMOCAP和CMU-MOSEI数据集上胜过现有模型的性能; (2)引入视觉提取的多尺度的想法,而单一用于推理的想法会带来更高的效率,并同时保持预测准确性; (3)将预处理数据的数据进一步集成到对齐的多模式学习模型中,可以显着降低计算成本和存储空间。
translated by 谷歌翻译
多模式分析最近对情感计算的兴趣很大,因为它可以提高情感识别对孤立的单模态方法的整体准确性。多式联情绪识别最有效的技术有效地利用各种和互补的信息来源,例如面部,声带和生理方式,提供全面的特征表示。在本文中,我们专注于基于视频中提取的面部和声乐方式的融合的尺寸情感识别,其中可以捕获复杂的时空关系。大多数现有的融合技术依赖于经常性网络或传统的注意机制,这些机制没有有效地利用视听(A-V)方式的互补性质。我们介绍了一种跨关注融合方法来提取A-V模式的显着特征,允许准确地预测连续值的价值和唤醒。我们的新的跨关节A-V融合模型有效利用了模态关系。特别地,它计算跨关注权重,以专注于各个模态跨越更贡献的特征,从而组合贡献特征表示,然后将其馈送到完全连接的层以用于预测价和唤醒。所提出的方法的有效性在通过Recolat和疲劳(私人)数据集中的视频上进行了实验验证。结果表明,我们的跨关节A-V融合模型是一种经济高效的方法,优于最先进的融合方法。代码可用:\ url {https://github.com/praveena2j/cross-attentional-av-fusion}
translated by 谷歌翻译