语音情感识别(SER)有许多挑战,但是主要挑战之一是每个框架都没有统一的标准。在本文中,我们提出了Speecheq,这是一个基于多尺度统一度量的统一SER任务的框架。该指标可以通过多任务学习(MTL)培训,其中包括情感状态类别(EIS)和情感强度量表(EIS)的两个情感识别任务,以及两个音素识别和性别识别的辅助任务。对于此框架,我们构建了一个普通话SER数据集-Secemeeq数据集(SEQD)。我们对普通话的公共CASIA和ESD数据集进行了实验,这些实验表明我们的方法比基线方法相对较大,分别获得8.0 \%和6.5 \%的准确性提高。关于Iemocap的其他实验,具有四个情感类别(即生气,快乐,悲伤和中性)也表明所提出的方法达到了78.16%的加权准确性(WA)的最新方法,并且准确性不体(UA) 77.47%。
translated by 谷歌翻译
Human speech can be characterized by different components, including semantic content, speaker identity and prosodic information. Significant progress has been made in disentangling representations for semantic content and speaker identity in Automatic Speech Recognition (ASR) and speaker verification tasks respectively. However, it is still an open challenging research question to extract prosodic information because of the intrinsic association of different attributes, such as timbre and rhythm, and because of the need for unsupervised training schemes to achieve robust large-scale and speaker-independent ASR. The aim of this paper is to address the disentanglement of emotional prosody from speech based on unsupervised reconstruction. Specifically, we identify, design, implement and integrate three crucial components in our proposed speech reconstruction model Prosody2Vec: (1) a unit encoder that transforms speech signals into discrete units for semantic content, (2) a pretrained speaker verification model to generate speaker identity embeddings, and (3) a trainable prosody encoder to learn prosody representations. We first pretrain the Prosody2Vec representations on unlabelled emotional speech corpora, then fine-tune the model on specific datasets to perform Speech Emotion Recognition (SER) and Emotional Voice Conversion (EVC) tasks. Both objective and subjective evaluations on the EVC task suggest that Prosody2Vec effectively captures general prosodic features that can be smoothly transferred to other emotional speech. In addition, our SER experiments on the IEMOCAP dataset reveal that the prosody features learned by Prosody2Vec are complementary and beneficial for the performance of widely used speech pretraining models and surpass the state-of-the-art methods when combining Prosody2Vec with HuBERT representations. Some audio samples can be found on our demo website.
translated by 谷歌翻译
情绪识别(ER)旨在将人的话语分类为不同的情感类别。基于本文和声学模式之间的早期融合和基于自我注意力的多模式相互作用,在本文中,我们提出了一种多模式多任务学习方法,用于从孤立的单个话语中进行ER。Iemocap基准测试的实验表明,我们提出的模型的表现要比我们对最新的改性的重新实现要好,并且比文献中所有其他单峰和多模式方法更好地实现了性能。此外,强大的基准和消融研究证明了我们提出的方法的有效性。我们在GitHub上公开提供所有代码。
translated by 谷歌翻译
可以处理各种扬声器和声学条件的模型在语音情感识别(Ser)中至关重要。通常,这些模型往往会在培训期间呈现扬声器或声学条件时显示混合结果。本文调查了交叉组件数据互补和数据增强对Ser模型的影响(从相同的语料库中的测试设置)和不匹配(从不同的语料库测试)条件。介绍了使用六种情绪语音集团的调查,其中包括单一和多个扬声器以及情感风格的变化(作用,引发,自然)和记录条件。观察结果表明,正如预期的那样,在单一语料库上培训的模型在匹配条件下表现最佳,而性能在不匹配的条件下减少10-40%,具体取决于语料库特定功能。在混合语料库上培训的型号在不匹配的上下文中可以更稳定,与匹配条件中的单个语料库模型相比,性能减少的范围为1%至8%。数据增强产生额外的收益高达4%,似乎有利于比匹配的不匹配条件。
translated by 谷歌翻译
ICML表达性发声(EXVO)的竞争重点是理解和产生声音爆发:笑声,喘息,哭泣和其他非语言发声,这是情感表达和交流至关重要的。 EXVO 2022,包括三个竞赛曲目,使用来自1,702位扬声器的59,201个发声的大规模数据集。首先是Exvo-Multitask,要求参与者训练多任务模型,以识别声音爆发中表达的情绪和人口特征。第二个,即exvo生成,要求参与者训练一种生成模型,该模型产生声音爆发,传达了十种不同的情绪。第三个exvo-fewshot要求参与者利用少量的学习融合说话者身份来训练模型,以识别声音爆发传达的10种情感。本文描述了这三个曲目,并使用最先进的机器学习策略为基线模型提供了绩效指标。每个曲目的基线如下,对于exvo-multitask,一个组合得分,计算一致性相关系数的谐波平均值(CCC),未加权的平均召回(UAR)和反向平均绝对错误(MAE)(MAE)($ s_ {mtl) } $)充其量是0.335 $ s_ {mtl} $;对于exvo生成,我们报告了Fr \'Echet Inception距离(FID)的得分范围为4.81至8.27(取决于情绪),在训练集和生成的样品之间。然后,我们将倒置的FID与生成样品的感知评级($ s_ {gen} $)相结合,并获得0.174 $ s_ {gen} $;对于Exvo-Fewshot,获得平均CCC为0.444。
translated by 谷歌翻译
Text-based speech editing allows users to edit speech by intuitively cutting, copying, and pasting text to speed up the process of editing speech. In the previous work, CampNet (context-aware mask prediction network) is proposed to realize text-based speech editing, significantly improving the quality of edited speech. This paper aims at a new task: adding emotional effect to the editing speech during the text-based speech editing to make the generated speech more expressive. To achieve this task, we propose Emo-CampNet (emotion CampNet), which can provide the option of emotional attributes for the generated speech in text-based speech editing and has the one-shot ability to edit unseen speakers' speech. Firstly, we propose an end-to-end emotion-selectable text-based speech editing model. The key idea of the model is to control the emotion of generated speech by introducing additional emotion attributes based on the context-aware mask prediction network. Secondly, to prevent the emotion of the generated speech from being interfered by the emotional components in the original speech, a neutral content generator is proposed to remove the emotion from the original speech, which is optimized by the generative adversarial framework. Thirdly, two data augmentation methods are proposed to enrich the emotional and pronunciation information in the training set, which can enable the model to edit the unseen speaker's speech. The experimental results that 1) Emo-CampNet can effectively control the emotion of the generated speech in the process of text-based speech editing; And can edit unseen speakers' speech. 2) Detailed ablation experiments further prove the effectiveness of emotional selectivity and data augmentation methods. The demo page is available at https://hairuo55.github.io/Emo-CampNet/
translated by 谷歌翻译
在情感文本到语音和语音转换之类的应用中,需要对语音的情绪分类和情感强度评估。提出了基于支持向量机(SVM)的情绪属性排名函数,以预测情绪语音语料库的情绪强度。但是,训练有素的排名函数并未推广到新的域,这限制了应用程序范围,尤其是对于室外或看不见的语音。在本文中,我们提出了一个数据驱动的深度学习模型,即PRENTECHNET,以改善对可见和看不见的语音的情绪强度评估的概括。这是通过来自各个领域的情绪数据融合来实现的。我们遵循多任务学习网络体系结构,其中包括声学编码器,强度预测指标和辅助情感预测指标。实验表明,所提出的强度网的预测情绪强度与可见和看不见的言语的地面真实分数高度相关。我们在以下位置发布源代码:https://github.com/ttslr/strengthnet。
translated by 谷歌翻译
在多方对话中有效地发现发言者的情绪状态是设计人类类似的会话代理商的重要性。在谈话期间,扬声器的认知状态通常由于某些过去的话语而改变,这可能导致他们的情绪状态的翻转。因此,在对话期间发现扬声器情感翻转背后的原因(触发)对于解释个人话语的情感标签至关重要。在本文中,除了解决对话中的情感认可的任务(ERC),我们介绍了一种新的任务 - 情感 - 翻转推理(EFR),旨在识别过去的话语,这引发了一个人的情绪状态以在一定时间翻转。我们提出了一个掩蔽的存储器网络来解决前者和基于变换器的网络的后一种任务。为此,我们考虑融合的基准情感识别数据集,用于ERC任务的多方对话,并使用EFR的新地基标签增强它。与五个最先进的模型进行了广泛的比较,表明我们对两个任务的模型的表现。我们进一步提出了轶事证据和定性和定量误差分析,以支持与基线相比模型的优势。
translated by 谷歌翻译
对于语音情绪数据集,与日常生活中显示的表现力较低的情绪相比,很难获得大量可靠的数据,而表现出的情绪可能超过了最高。最近,已经创建了具有自然情绪的较大数据集。这项研究并没有忽略较小的,行为的数据集,而是研究了从动作情绪中学到的信息是否对检测自然情绪有用。跨科普斯研究主要考虑了跨语言甚至跨年龄数据集,并且源于注释情绪导致性能下降的不同方法。为了保持一致,考虑了四个涵盖行为的成年英语数据集,考虑了自然情绪。提出了最先进的模型,以准确研究性能的降解。该系统涉及双向LSTM具有注意机制,以对数据集进行分类。实验研究了跨科普斯和多域的训练模型的影响,结果表明信息的传递不成功。室外模型,其次是适应丢失的数据集,而域对抗训练(DAT)被证明更适合于跨数据集的情绪概括。这显示了从ACT的数据集转移到具有更多自然情绪以及对不同语料库培训的好处的积极信息。
translated by 谷歌翻译
情绪转换(EVC)寻求转换话语的情绪状态,同时保留语言内容和扬声器身份。在EVC,情绪通常被视为离散类别,忽略了言论也传达了听众可以感知的各种强度水平的情绪。在本文中,我们的目标是明确地表征和控制情绪强度。我们建议解开语言内容的扬声器风格,并将扬声器风格编码成一个嵌入的嵌入空间,形成情绪嵌入的原型。我们进一步从情感标记的数据库中了解实际的情感编码器,并研究使用相对属性来表示细粒度的情绪强度。为确保情绪可理解性,我们将情感分类损失和情感嵌入了EVC网络培训中的相似性损失。根据需要,所提出的网络控制输出语音中的细粒度情绪强度。通过目标和主观评估,我们验证了建议网络的情感表达和情感强度控制的有效性。
translated by 谷歌翻译
谈话中的情感认可(ERC)是一个重要而积极的研究问题。最近的工作表明了ERC任务使用多种方式(例如,文本,音频和视频)的好处。在谈话中,除非一些外部刺激唤起改变,否则参与者倾向于维持特定的情绪状态。在谈话中持续的潮起潮落和情绪流动。灵感来自这种观察,我们提出了一种多模式ERC模型,并通过情感转换组件增强。所提出的情感移位组件是模块化的,可以添加到任何现有的多模式ERC模型(具有几种修改),以改善情绪识别。我们尝试模型的不同变体,结果表明,包含情感移位信号有助于模型以优于ERC的现有多模型模型,从而展示了MOSEI和IEMOCAP数据集的最先进的性能。
translated by 谷歌翻译
以前的研究已经证实了利用明晰度信息达到改善的语音增强(SE)性能的有效性。通过使用铰接特征的地点/方式增强原始声学特征,可以引导SE过程考虑执行增强时输入语音的剖视特性。因此,我们认为关节属性的上下文信息应包括有用的信息,并可以进一步利用不同的语言。在这项研究中,我们提出了一个SE系统,通过优化英语和普通话的增强演讲中的上下文清晰度信息来提高其性能。我们通过联合列车与端到端的自动语音识别(E2E ASR)模型进行联合列车,预测广播序列(BPC)而不是单词序列的序列。同时,开发了两种培训策略,以基于基于BPC的ASR:多任务学习和深度特征培训策略来培训SE系统。 Timit和TMhint DataSet上的实验结果证实了上下文化学信息促进了SE系统,以实现比传统声学模型(AM)更好的结果。此外,与用单声道ASR培训的另一SE系统相比,基于BPC的ASR(提供上下文化学信息)可以在不同的信噪比(SNR)下更有效地改善SE性能。
translated by 谷歌翻译
对仇恨言论和冒犯性语言(HOF)的认可通常是作为一项分类任务,以决定文本是否包含HOF。我们研究HOF检测是否可以通过考虑HOF和类似概念之间的关系来获利:(a)HOF与情感分析有关,因为仇恨言论通常是负面陈述并表达了负面意见; (b)这与情绪分析有关,因为表达的仇恨指向作者经历(或假装体验)愤怒的同时经历(或旨在体验)恐惧。 (c)最后,HOF的一个构成要素是提及目标人或群体。在此基础上,我们假设HOF检测在与这些概念共同建模时,在多任务学习设置中进行了改进。我们将实验基于这些概念的现有数据集(情感,情感,HOF的目标),并在Hasoc Fire 2021英语子任务1A中评估我们的模型作为参与者(作为IMS-Sinai团队)。基于模型选择实验,我们考虑了多个可用的资源和共享任务的提交,我们发现人群情绪语料库,Semeval 2016年情感语料库和犯罪2019年目标检测数据的组合导致F1 =。 79在基于BERT的多任务多任务学习模型中,与Plain Bert的.7895相比。在HASOC 2019测试数据上,该结果更为巨大,而F1中的增加2pp和召回大幅增加。在两个数据集(2019,2021)中,HOF类的召回量尤其增加(2019年数据的6pp和2021数据的3pp),表明MTL具有情感,情感和目标识别是适合的方法可能部署在社交媒体平台中的预警系统。
translated by 谷歌翻译
多模式情绪识别的研究和应用最近变得越来越流行。但是,多模式情绪识别面临缺乏数据的挑战。为了解决这个问题,我们建议使用转移学习,哪些人利用最先进的预培训模型,包括WAV2VEC 2.0和BERT来执行此任务。探索了多级融合方法,包括基于共发的早期融合和与在两个嵌入训练的模型的后期融合。此外,还提出了一个多范围的框架,它不仅提取了帧级的语音嵌入,还提出了细分级别的嵌入,包括电话,音节和文字级语音嵌入,以进一步提高性能。通过将基于同时的早期融合模型和晚期融合模型与多粒性特征提取框架相结合,我们获得的结果使IEMOCAP数据集上的最佳基线方法优于最佳基线方法未加权准确性(UA)。
translated by 谷歌翻译
With the rapid development of the speech synthesis system, recent text-to-speech models have reached the level of generating natural speech similar to what humans say. But there still have limitations in terms of expressiveness. In particular, the existing emotional speech synthesis models have shown controllability using interpolated features with scaling parameters in emotional latent space. However, the emotional latent space generated from the existing models is difficult to control the continuous emotional intensity because of the entanglement of features like emotions, speakers, etc. In this paper, we propose a novel method to control the continuous intensity of emotions using semi-supervised learning. The model learns emotions of intermediate intensity using pseudo-labels generated from phoneme-level sequences of speech information. An embedding space built from the proposed model satisfies the uniform grid geometry with an emotional basis. In addition, to improve the naturalness of intermediate emotional speech, a discriminator is applied to the generation of low-level elements like duration, pitch and energy. The experimental results showed that the proposed method was superior in controllability and naturalness. The synthesized speech samples are available at https://tinyurl.com/34zaehh2
translated by 谷歌翻译
语音情感转换是修改语音话语的感知情绪的任务,同时保留词汇内容和扬声器身份。在这项研究中,我们将情感转换问题作为口语翻译任务。我们将演讲分解为离散和解散的学习表现,包括内容单位,F0,扬声器和情感。首先,我们通过将内容单元转换为目标情绪来修改语音内容,然后基于这些单元预测韵律特征。最后,通过将预测的表示馈送到神经声码器中来生成语音波形。这样的范式允许我们超越信号的光谱和参数变化,以及模型非口头发声,例如笑声插入,打开拆除等。我们客观地和主观地展示所提出的方法在基础上优于基线感知情绪和音频质量。我们严格评估了这种复杂系统的所有组成部分,并通过广泛的模型分析和消融研究结束,以更好地强调建议方法的建筑选择,优势和弱点。示例和代码将在以下链接下公开使用:https://speechbot.github.io/emotion。
translated by 谷歌翻译
情感语音综合旨在使人类的声音具有各种情感影响。当前的研究主要集中于模仿属于特定情感类型的平均风格。在本文中,我们试图在运行时与情感混合在一起。我们提出了一种新颖的表述,可以衡量不同情绪的语音样本之间的相对差异。然后,我们将公式纳入序列到序列情感文本到语音框架中。在培训期间,该框架不仅明确地表征了情感风格,而且还通过用其他情感量化差异来探索情绪的序数。在运行时,我们通过手动定义情感属性向量来控制模型以产生所需的情绪混合物。客观和主观评估验证了拟议框架的有效性。据我们所知,这项研究是关于言语中混合情绪的建模,综合和评估混合情绪的第一项研究。
translated by 谷歌翻译
最近的语音情绪识别分析与使用MFCCS频谱图特征和实现诸如卷积神经网络(CNNS)的神经网络方法的实施进行了相当大的进展。胶囊网络(CAPSNET)对CNN的替代品感谢其具有较大容量的分层表示。为了解决这些问题,本研究介绍了独立于文本和独立的讲话者独立的SER新颖体系结构,其中基于结构特征提出了双通道长短短期内存压缩帽(DC-LSTM Compsnet)算法Capsnet。我们所提出的新型分类器可以确保语音情感识别中模型和足够的压缩方法的能效,这不会通过彩铃的原始结构提供。此外,网格搜索方法用于获得最佳解决方案。结果目睹了培训和测试运行时间的性能和减少。用于评估我们的算法的语音数据集是:阿拉伯语Emirati-Egrented语料库,模拟和实际压力语料库下的英语演讲,情感语音和歌曲语料库的英语Ryerson Audio-Visual数据库,以及人群源性情绪多模式演员数据集。这项工作揭示了与其他已知方法相比的最佳特征提取方法是MFCCS Delta-Delta。使用四个数据集和MFCCS Delta-Delta,DC-LSTM CompsNet超越了所有最先进的系统,古典分类器,CNN和原始帽。我们的结果表明,基于Capsnet的拟议工作产生了89.3%的平均情绪识别准确性,其结果表明,拟议的工作产生了89.3%的89.3%。 CNN,支持向量机,多层Perceptron,K-最近邻居,径向基函数和幼稚贝叶斯。
translated by 谷歌翻译
在本文中,首先,研究了Imagenet预训练对细粒度面部情感识别(FER)的影响,这表明当应用图像的足够增强时,从头开始的训练比ImageNet Pre的微调提供了更好的结果。 -训练。接下来,我们提出了一种改善细粒度和野外FER的方法,称为混合多任务学习(HMTL)。 HMTL以多任务学习(MTL)的形式使用自我监督学习(SSL)作为经典监督学习(SL)期间的辅助任务。在训练过程中利用SSL可以从图像中获得其他信息,以完成主要细粒度SL任务。我们研究了如何在FER域中使用所提出的HMTL,通过设计两种定制版本的普通文本任务技术,令人困惑和涂漆。我们通过两种类型的HMTL在不利用其他数据的情况下,通过两种类型的HMTL在altimnet基准测试上实现了最新的结果。关于常见SSL预训练和提出的HMTL的实验结果证明了我们工作的差异和优势。但是,HMTL不仅限于FER域。对两种类型的细粒面部任务(即头部姿势估计和性别识别)进行的实验揭示了使用HMTL改善细粒度面部表示的潜力。
translated by 谷歌翻译
多模式情绪分析(MSA)是一种基本复杂的研究问题,因为不同方式与人类情绪表达的模糊性之间的异质性差距。虽然已经成功地建造了MSA的多模式表示,但仍有两个挑战需要解决:1)需要构建更强大的多模式表示来弥合异质性间隙并应对复杂的多模式相互作用和2)必须在整个信息流中有效地建模上下文动态。在这项工作中,我们提出了一种基于相互信息最大化和最小化和身份嵌入(MMMIE)的多模式表示模型。我们将模态对之间的相互信息最大化以及输入数据和相应功能之间的相互信息最小化,以挖掘模态不变和任务相关信息。此外,提出了身份嵌入,以提示下游网络来感知语境信息。两个公共数据集的实验结果证明了所提出的模型的有效性。
translated by 谷歌翻译