由于人工智能的改进,扬声器识别(SI)技术带来了一个伟大的方向,现在广泛用于各种各样的领域。Si最重要的组件之一是特征提取,对Si过程和性能具有显着影响。结果,彻底研究,对比和分析了许多特征提取策略。本文利用了情绪环境下伪装声音中的发言者识别五个不同的特征提取方法。为了显着评估这项工作,使用了三种效果:高倾斜,低音和电子语音转换(EVC)。实验结果报道称,级联的熔融频率谱系数(MFCCs),MFCCS-DERTA和MFCCS-DELTA-DELTA是最佳特征提取方法。
translated by 谷歌翻译
在这项工作中,我们对情感和压力环境中的文本独立扬声器验证性能进行了实证对比研究。这项工作结合了浅架构的深层模型,导致新的混合分类器。利用了四种不同的混合模型:深神经网络隐藏式马尔可夫模型(DNN-HMM),深神经网络 - 高斯混合模型(DNN-GMM),高斯混合模型 - 深神经网络(GMM-DNN)和隐藏的马尔可夫模型-Deep神经网络(HMM-DNN)。所有模型都基于新颖的实施架构。比较研究使用了三个不同的语音数据集:私人阿拉伯数据集和两个公共英语数据库,即在模拟和实际压力下的演讲(Susas)和情感语音和歌曲(Ravdess)的ryerson视听数据库。上述混合模型的测试结果表明,所提出的HMM-DNN利用情绪和压力环境中的验证性能。结果还表明,HMM-DNN在曲线(AUC)评估度量下的相同错误率(eer)和面积方面优于所有其他混合模型。基于三个数据集的平均所产生的验证系统分别基于HMM-DNN,DNN-HMM,DNN-GMM和GMM-DNN产生7.19%,16.85%,11.51%和11.90%的eERs。此外,我们发现,与两个谈话环境中的所有其他混合模型相比,DNN-GMM模型展示了最少的计算复杂性。相反,HMM-DNN模型需要最多的培训时间。调查结果还证明了EER和AUC值在比较平均情绪和压力表演时依赖于数据库。
translated by 谷歌翻译
最近的语音情绪识别分析与使用MFCCS频谱图特征和实现诸如卷积神经网络(CNNS)的神经网络方法的实施进行了相当大的进展。胶囊网络(CAPSNET)对CNN的替代品感谢其具有较大容量的分层表示。为了解决这些问题,本研究介绍了独立于文本和独立的讲话者独立的SER新颖体系结构,其中基于结构特征提出了双通道长短短期内存压缩帽(DC-LSTM Compsnet)算法Capsnet。我们所提出的新型分类器可以确保语音情感识别中模型和足够的压缩方法的能效,这不会通过彩铃的原始结构提供。此外,网格搜索方法用于获得最佳解决方案。结果目睹了培训和测试运行时间的性能和减少。用于评估我们的算法的语音数据集是:阿拉伯语Emirati-Egrented语料库,模拟和实际压力语料库下的英语演讲,情感语音和歌曲语料库的英语Ryerson Audio-Visual数据库,以及人群源性情绪多模式演员数据集。这项工作揭示了与其他已知方法相比的最佳特征提取方法是MFCCS Delta-Delta。使用四个数据集和MFCCS Delta-Delta,DC-LSTM CompsNet超越了所有最先进的系统,古典分类器,CNN和原始帽。我们的结果表明,基于Capsnet的拟议工作产生了89.3%的平均情绪识别准确性,其结果表明,拟议的工作产生了89.3%的89.3%。 CNN,支持向量机,多层Perceptron,K-最近邻居,径向基函数和幼稚贝叶斯。
translated by 谷歌翻译
音频是人类交流最常用的方式之一,但与此同时,它很容易被欺骗人们滥用。随着AI的革命,几乎每个人都可以访问相关技术,从而使罪犯犯罪和伪造变得简单。在这项工作中,我们引入了一种深度学习方法,以开发一种分类器,该分类器将盲目地将输入音频分类为真实或模仿。提出的模型接受了从大型音频数据集提取的一组重要功能的培训,以获取分类器,该分类器已在不同音频的相同功能上进行了测试。为这项工作创建了两个数据集;所有英语数据集和混合数据集(阿拉伯语和英语)。这些数据集已通过GitHub提供,可在https://github.com/sass7/dataset上使用研究社区。为了进行比较,还通过人类检查对音频进行了分类,主题是母语人士。随之而来的结果很有趣,并且表现出强大的精度。
translated by 谷歌翻译
在本文中,我们首先提供了述评最先进的情感语音转换研究以及现有的情绪语音数据库。然后,我们激励开发一种新颖的情绪语音数据库(ESD),这些数据库(ESD)解决了越来越多的研究需求。借鉴了本文,现在可以向研究界提供ESD数据库。ESD数据库由10名母语和10个母语的扬声器发表的350个平行话语组成,涵盖5个情感类别(中性,快乐,愤怒,悲伤和惊喜)。在受控的声学环境中记录了超过29小时的语音数据。该数据库适用于多扬声器和交叉语言情绪转换研究。如案例研究,我们在ESD数据库上实施了几种最先进的情绪转换系统。本文在释放释放时提供了对ESD的参考研究。
translated by 谷歌翻译
甚至人类智能系统也无法提供100%的准确性来识别特定个人的演讲。Machine Intelligence试图通过各种语音提取和语音建模技术来模仿说话者识别问题。本文提出了一种独立于文本的扬声器识别系统,该系统采用了MEL频率曲线系数(MFCC)进行特征提取和K-Nearest邻居(KNN)进行分类。获得的最大交叉验证精度为60%。这将在随后的研究中得到改善。
translated by 谷歌翻译
强大的语音情感识别取决于语音特征的质量。我们提出语音功能增强策略,以改善语音情感识别。我们使用了Interspeech 2010挑战功能集。我们从特征集合和应用原理分析分析到子集中确定了子集。最后,这些功能水平融合。在应用特征以识别情绪之前,使用T分布的邻居嵌入(T-SNE)分析所得的功能集。将该方法与文献中使用的最新方法进行了比较。经验证据是使用两个著名数据集绘制的:情感语音数据集(EMO-DB)和Ryerson Audio-Visual Visual Envial语音和歌曲(Ravdess)分别用于两种语言,即德语和英语。与基线研究相比,我们的七个情绪中有六个情绪中有六个情绪中有六个情绪中有六个情绪中的六个情绪中的六个情绪中的六个情绪中的六个情绪中的六个情绪中的六个情绪中的六个情绪中获得了11.5 \%的平均识别增益,而RAVDESS数据集中的七个情绪为13.8 \%。
translated by 谷歌翻译
最近,盲目的语音分离(BSS)和目标语音提取(TSE)的表现已取得了长足的进步。但是,大多数作品都专注于相对控制的条件,例如阅读语音。在更现实的情况下,性能可能会降低。引起这种降解的因素之一可能是固有的说话者变异性,例如情绪,通常在现实的语音中发生。在本文中,我们研究了情绪对TSE和BSS的影响。我们创建了一个新的测试数据集,以评估TSE和BSS。该数据集结合了Librispeech和Ryerson Audio-Visual Visual Espections and Song(Ravdess)。通过受控的实验,我们可以分析不同情绪对BSS和TSE性能的影响。我们观察到BSS对情绪相对强大,而TSE需要识别和提取目标说话者的语音,对情绪更为敏感。在比较演讲者验证实验中,我们表明,在处理情感语音时,确定目标扬声器可能特别具有挑战性。使用我们的发现,我们概述了可能改善BSS和TSE系统对情感语音的鲁棒性的潜在方向。
translated by 谷歌翻译
识别语音情绪的语言不可知论的方法仍然是一个不完整和具有挑战性的任务。在本文中,我们使用Bangla和英语语言来评估与语音中的情感是否与语言无关。这项研究分类了以下情绪:幸福,愤怒,中立,悲伤,厌恶和恐惧。我们雇用了三种情绪言论,其中前两组是由孟加拉和英语语言的本土孟加拉语扬声器开发的。第三个是多伦多情感演讲(苔丝),由加拿大母语的英语发言者开发。我们仔细选择了语言无关的韵律特征,采用了支持向量机(SVM)模型,并进行了三个实验来执行我们的主张。在第一个实验中,我们单独测量三种语音组的性能。接下来是第二种实验,我们通过组合语音集来记录分类率。最后,在第三个实验中,我们通过培训和测试不同语音集来测量识别率。虽然这项研究表明,言语情感认可(SER)大多是语言无关的,但在识别出在这两种语言中的厌恶和恐惧之类的情绪状态时存在一些差异。此外,我们的调查推断出非母语人员通过言语传达情绪,就像以其母语在母语中表达自己。
translated by 谷歌翻译
本文介绍了一种无监督的基于分段的稳健语音活动检测方法(RVAD)。该方法包括两个去噪之后的传递,然后是语音活动检测(VAD)阶段。在第一通道中,通过使用后验信噪比(SNR)加权能量差来检测语音信号中的高能段,并且如果在段内没有检测到间距,则该段被认为是高能量噪声段并设置为零。在第二种通过中,语音信号由语音增强方法进行去噪,探索了几种方法。接下来,具有间距的相邻帧被分组在一起以形成音调段,并且基于语音统计,俯仰段进一步从两端延伸,以便包括浊音和发声声音和可能的非语音部分。最后,将后验SNR加权能量差应用于用于检测语音活动的去噪语音信号的扩展桨距片段。我们使用两个数据库,大鼠和极光-2评估所提出的方法的VAD性能,该方法包含大量噪声条件。在扬声器验证性能方面进一步评估RVAD方法,在Reddots 2016挑战数据库及其噪声损坏版本方面。实验结果表明,RVAD与许多现有方法有利地比较。此外,我们介绍了一种修改版的RVAD,其中通过计算有效的光谱平坦度计算替换计算密集的俯仰提取。修改的版本显着降低了适度较低的VAD性能成本的计算复杂性,这是在处理大量数据并在低资源设备上运行时的优势。 RVAD的源代码被公开可用。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
公开演讲期间的压力很普遍,会对绩效和自信产生不利影响。已经进行了广泛的研究以开发各种模型以识别情绪状态。但是,已经进行了最少的研究,以实时使用语音分析来检测公众演讲期间的压力。在这种情况下,当前的审查表明,算法的应用未正确探索,并有助于确定创建合适的测试环境的主要障碍,同时考虑当前的复杂性和局限性。在本文中,我们介绍了我们的主要思想,并提出了一个应力检测计算算法模型,该模型可以集成到虚拟现实(VR)应用程序中,以创建一个智能的虚拟受众,以提高公开讲话技能。当与VR集成时,开发的模型将能够通过分析与指示压力的生理参数相关的语音功能来实时检测过度压力,并帮助用户逐渐控制过度的压力并改善公众演讲表现
translated by 谷歌翻译
情绪转换(EVC)寻求转换话语的情绪状态,同时保留语言内容和扬声器身份。在EVC,情绪通常被视为离散类别,忽略了言论也传达了听众可以感知的各种强度水平的情绪。在本文中,我们的目标是明确地表征和控制情绪强度。我们建议解开语言内容的扬声器风格,并将扬声器风格编码成一个嵌入的嵌入空间,形成情绪嵌入的原型。我们进一步从情感标记的数据库中了解实际的情感编码器,并研究使用相对属性来表示细粒度的情绪强度。为确保情绪可理解性,我们将情感分类损失和情感嵌入了EVC网络培训中的相似性损失。根据需要,所提出的网络控制输出语音中的细粒度情绪强度。通过目标和主观评估,我们验证了建议网络的情感表达和情感强度控制的有效性。
translated by 谷歌翻译
这项研究工作是关于语音识别的最新发展。在这项研究工作中,在存在不同的比特速率和不同噪声水平的情况下对孤立的数字识别的分析。这项研究工作是使用Audacity和HTK工具包进行的。隐藏的马尔可夫模型(HMM)是用于执行此实验的识别模型。所使用的特征提取技术是MEL频率CEPSTRUM系数(MFCC),线性预测编码(LPC),感知线性预测(PLP),MEL SPECTRUM(MELSPEC),FILLE BANK(FBANK)。已经考虑了三种不同的噪声水平来测试数据。这些包括随机噪声,风扇噪声和实时环境中的随机噪声。这样做是为了分析可用于实时应用程序的最佳环境。此外,考虑到不同采样率的五种不同类型的常用比特率,以找出最佳的比特率。
translated by 谷歌翻译
日常生活中交流最关键的方面之一是言语识别。基于自然语言处理的语音识别是将一个系统转换为另一个系统的基本要素之一。在本文中,我们创建了一个界面,将语音和其他听觉输入转换为使用数字过滤器的文本。与这种转换的许多方法相反,语言缺陷偶尔出现,性别识别,语音识别,失败(无法识别声音)和性别识别失败。由于涉及技术问题,我们开发了一个程序,该程序充当调解人,以防止启动软件问题,以消除这种小偏差。其计划的MFCC和HMM与其AI系统同步。结果,已经避免了技术错误。
translated by 谷歌翻译
Voice Conversion (VC) is the task of making a spoken utterance by one speaker sound as if uttered by a different speaker, while keeping other aspects like content unchanged. Current VC methods, focus primarily on spectral features like timbre, while ignoring the unique speaking style of people which often impacts prosody. In this study, we introduce a method for converting not only the timbre, but also prosodic information (i.e., rhythm and pitch changes) to those of the target speaker. The proposed approach is based on a pretrained, self-supervised, model for encoding speech to discrete units, which make it simple, effective, and easy to optimise. We consider the many-to-many setting with no paired data. We introduce a suite of quantitative and qualitative evaluation metrics for this setup, and empirically demonstrate the proposed approach is significantly superior to the evaluated baselines. Code and samples can be found under https://pages.cs.huji.ac.il/adiyoss-lab/dissc/ .
translated by 谷歌翻译
Human speech can be characterized by different components, including semantic content, speaker identity and prosodic information. Significant progress has been made in disentangling representations for semantic content and speaker identity in Automatic Speech Recognition (ASR) and speaker verification tasks respectively. However, it is still an open challenging research question to extract prosodic information because of the intrinsic association of different attributes, such as timbre and rhythm, and because of the need for unsupervised training schemes to achieve robust large-scale and speaker-independent ASR. The aim of this paper is to address the disentanglement of emotional prosody from speech based on unsupervised reconstruction. Specifically, we identify, design, implement and integrate three crucial components in our proposed speech reconstruction model Prosody2Vec: (1) a unit encoder that transforms speech signals into discrete units for semantic content, (2) a pretrained speaker verification model to generate speaker identity embeddings, and (3) a trainable prosody encoder to learn prosody representations. We first pretrain the Prosody2Vec representations on unlabelled emotional speech corpora, then fine-tune the model on specific datasets to perform Speech Emotion Recognition (SER) and Emotional Voice Conversion (EVC) tasks. Both objective and subjective evaluations on the EVC task suggest that Prosody2Vec effectively captures general prosodic features that can be smoothly transferred to other emotional speech. In addition, our SER experiments on the IEMOCAP dataset reveal that the prosody features learned by Prosody2Vec are complementary and beneficial for the performance of widely used speech pretraining models and surpass the state-of-the-art methods when combining Prosody2Vec with HuBERT representations. Some audio samples can be found on our demo website.
translated by 谷歌翻译
我们介绍了Shennong,一个Python工具箱和命令行实用程序,用于语音功能提取。它实现了广泛的既定现实算法状态,包括诸如熔融频率纤维滤波器或预测的线性滤波器,预先训练的神经网络,音高估计器以及扬声器归一化方法和后处理算法的谱时间滤波器。 Shennong是一种开源,易于使用,可靠和可扩展的框架。 Python的使用使得集成到其他语音建模和机器学习工具方便。它旨在替换或补充几种异质软件,例如Kaldi或Praat。在描述神农软件架构,其核心组件和实现的算法之后,本文说明了三种应用的使用:语音特征在手机辨别任务上的性能进行比较,作为语音函数的声音轨道长度归一化模型的分析用于训练的持续时间和各种噪声条件下的音高估计算法的比较。
translated by 谷歌翻译
自动扬声器识别算法通常使用预定义的过滤库,例如MEL频率和伽马酮滤波器,以表征语音音频。但是,已经观察到使用这些滤纸提取的功能对各种音频降解没有弹性。在这项工作中,我们提出了一种基于学习的技术,以从大量的语音音频中推断出滤纸设计。这种过滤库的目的是提取特征在非理想的音频条件下(例如退化,持续时间短和多语言语音)的功能。为此,1D卷积神经网络旨在直接从原始的语音音频中学习一个名为deepvox的时间域滤纸。其次,开发了一种自适应三重态挖掘技术,以有效地挖掘最适合训练过滤器的数据样本。第三,对DeepVox FilterBanks进行的详细消融研究揭示了提取特征中的声源和声带特征的存在。 Voxceleb2,NIST SRE 2008、2010和2018和Fisher Speech数据集的实验结果证明了DeepVox特征在各种退化,短期和多语言语音中的功效。 DeepVox的功能还显示出可提高现有说话者识别算法的性能,例如XVECTOR-PLDA和IVECTOR-PLDA。
translated by 谷歌翻译
在本文中,我们介绍了Amharic语音情绪数据集(亚胺),涵盖了四条方言(Gojjam,Wollo,Shewa和Londer)和五种不同的情绪(中性,恐惧,快乐,悲伤和生气)。我们认为它是Amharic语言的第一个语音情感认可(Ser)数据集。 65志愿者参与者,所有母语人员,记录2,474个声音样本,长度为2至4秒。八名法官将情绪分配给具有高协议水平的样本(Fleiss Kappa = 0.8)。生成的数据集可免费下载。接下来,我们开发了一个四层变体,我们称之为vggb。然后使用vggb进行三种实验,用于Ser,使用ASED。首先,我们研究了熔融谱图特征或熔融频率谱系数(MFCC)的特点是Amharic最适合的。这是通过培训ASID的两个VGGB SER模型来完成的,使用MEL-谱图和使用MFCC的另一个。尝试了四种形式的培训,标准交叉验证和三种变体,基于句子,方言和扬声器组。因此,用于训练的句子不会用于测试,以及方言和扬声器组的句子。结论是,在所有四种训练方案下,MFCC功能都是优越的。因此,MFCC采用实验2,其中VGGB和其他三种现有模型进行了验证:Resnet50,Alex-Net和LSTM。 vggb被发现具有非常好的准确性(90.73%)以及最快的培训时间。在实验3中,在培训在两个现有的SER数据集,RAVDES(英语)和EMO-DB(德语)以及ASED(Amharic)上进行培训时比较VGGB的性能。结果与这些语言相当,仿真是最高的。这表明VGGB可以成功应用于其他语言。我们希望Ased将鼓励研究人员试验其他模型为Amharic Ser。
translated by 谷歌翻译