智能论文笔记

Text Independent Speaker Identification System for Access Control

Oluyemi E. Adetoyi

分类：机器学习

2022-09-26

甚至人类智能系统也无法提供100％的准确性来识别特定个人的演讲。Machine Intelligence试图通过各种语音提取和语音建模技术来模仿说话者识别问题。本文提出了一种独立于文本的扬声器识别系统，该系统采用了MEL频率曲线系数（MFCC）进行特征提取和K-Nearest邻居（KNN）进行分类。获得的最大交叉验证精度为60％。这将在随后的研究中得到改善。

translated by 谷歌翻译

Novel Hybrid DNN Approaches for Speaker Verification in Emotional and Stressful Talking Environments

Ismail Shahin , Ali Bou Nassif , Nawel Nemmour , Ashraf Elnagar , Adi Alhudhaif , Kemal Polat

分类：机器学习

2021-12-26

在这项工作中，我们对情感和压力环境中的文本独立扬声器验证性能进行了实证对比研究。这项工作结合了浅架构的深层模型，导致新的混合分类器。利用了四种不同的混合模型：深神经网络隐藏式马尔可夫模型（DNN-HMM），深神经网络 - 高斯混合模型（DNN-GMM），高斯混合模型 - 深神经网络（GMM-DNN）和隐藏的马尔可夫模型-Deep神经网络（HMM-DNN）。所有模型都基于新颖的实施架构。比较研究使用了三个不同的语音数据集：私人阿拉伯数据集和两个公共英语数据库，即在模拟和实际压力下的演讲（Susas）和情感语音和歌曲（Ravdess）的ryerson视听数据库。上述混合模型的测试结果表明，所提出的HMM-DNN利用情绪和压力环境中的验证性能。结果还表明，HMM-DNN在曲线（AUC）评估度量下的相同错误率（eer）和面积方面优于所有其他混合模型。基于三个数据集的平均所产生的验证系统分别基于HMM-DNN，DNN-HMM，DNN-GMM和GMM-DNN产生7.19％，16.85％，11.51％和11.90％的eERs。此外，我们发现，与两个谈话环境中的所有其他混合模型相比，DNN-GMM模型展示了最少的计算复杂性。相反，HMM-DNN模型需要最多的培训时间。调查结果还证明了EER和AUC值在比较平均情绪和压力表演时依赖于数据库。

translated by 谷歌翻译

The exploitation of Multiple Feature Extraction Techniques for Speaker Identification in Emotional States under Disguised Voices

Noor Ahmad Al Hindawi , Ismail Shahin , Ali Bou Nassif

分类：自然语言处理

2021-12-15

由于人工智能的改进，扬声器识别（SI）技术带来了一个伟大的方向，现在广泛用于各种各样的领域。Si最重要的组件之一是特征提取，对Si过程和性能具有显着影响。结果，彻底研究，对比和分析了许多特征提取策略。本文利用了情绪环境下伪装声音中的发言者识别五个不同的特征提取方法。为了显着评估这项工作，使用了三种效果：高倾斜，低音和电子语音转换（EVC）。实验结果报道称，级联的熔融频率谱系数（MFCCs），MFCCS-DERTA和MFCCS-DELTA-DELTA是最佳特征提取方法。

translated by 谷歌翻译

Machine Learning for Stuttering Identification: Review, Challenges and Future Directions

Shakeel Ahmad Sheikh , Md Sahidullah , Fabrice Hirsch , Slim Ouni

分类：机器学习

2021-07-08

口吃是一种言语障碍，在此期间，语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题，涉及病理学，心理学，声学和信号处理，使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域，但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中，我们回顾了全面的声学特征，基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。

translated by 谷歌翻译

DeepVOX: Discovering Features from Raw Audio for Speaker Recognition in Non-ideal Audio Signals

Anurag Chowdhury , Arun Ross

分类：机器学习

2020-08-26

自动扬声器识别算法通常使用预定义的过滤库，例如MEL频率和伽马酮滤波器，以表征语音音频。但是，已经观察到使用这些滤纸提取的功能对各种音频降解没有弹性。在这项工作中，我们提出了一种基于学习的技术，以从大量的语音音频中推断出滤纸设计。这种过滤库的目的是提取特征在非理想的音频条件下（例如退化，持续时间短和多语言语音）的功能。为此，1D卷积神经网络旨在直接从原始的语音音频中学习一个名为deepvox的时间域滤纸。其次，开发了一种自适应三重态挖掘技术，以有效地挖掘最适合训练过滤器的数据样本。第三，对DeepVox FilterBanks进行的详细消融研究揭示了提取特征中的声源和声带特征的存在。 Voxceleb2，NIST SRE 2008、2010和2018和Fisher Speech数据集的实验结果证明了DeepVox特征在各种退化，短期和多语言语音中的功效。 DeepVox的功能还显示出可提高现有说话者识别算法的性能，例如XVECTOR-PLDA和IVECTOR-PLDA。

translated by 谷歌翻译

Novel Dual-Channel Long Short-Term Memory Compressed Capsule Networks for Emotion Recognition

Ismail Shahin , Noor Hindawi , Ali Bou Nassif , Adi Alhudhaif , Kemal Polat

分类：机器学习

2021-12-26

最近的语音情绪识别分析与使用MFCCS频谱图特征和实现诸如卷积神经网络（CNNS）的神经网络方法的实施进行了相当大的进展。胶囊网络（CAPSNET）对CNN的替代品感谢其具有较大容量的分层表示。为了解决这些问题，本研究介绍了独立于文本和独立的讲话者独立的SER新颖体系结构，其中基于结构特征提出了双通道长短短期内存压缩帽（DC-LSTM Compsnet）算法Capsnet。我们所提出的新型分类器可以确保语音情感识别中模型和足够的压缩方法的能效，这不会通过彩铃的原始结构提供。此外，网格搜索方法用于获得最佳解决方案。结果目睹了培训和测试运行时间的性能和减少。用于评估我们的算法的语音数据集是：阿拉伯语Emirati-Egrented语料库，模拟和实际压力语料库下的英语演讲，情感语音和歌曲语料库的英语Ryerson Audio-Visual数据库，以及人群源性情绪多模式演员数据集。这项工作揭示了与其他已知方法相比的最佳特征提取方法是MFCCS Delta-Delta。使用四个数据集和MFCCS Delta-Delta，DC-LSTM CompsNet超越了所有最先进的系统，古典分类器，CNN和原始帽。我们的结果表明，基于Capsnet的拟议工作产生了89.3％的平均情绪识别准确性，其结果表明，拟议的工作产生了89.3％的89.3％。 CNN，支持向量机，多层Perceptron，K-最近邻居，径向基函数和幼稚贝叶斯。

translated by 谷歌翻译

Speech Emotion Recognition Using Deep Sparse Auto-Encoder Extreme Learning Machine with a New Weighting Scheme and Spectro-Temporal Features Along with Classical Feature Selection and A New Quantum-Inspired Dimension Reduction Method

Fatemeh Daneshfar , Seyed Jahanshah Kabudian

分类：机器学习

2021-11-13

情感计算在人与机器之间的关系中非常重要。在本文中，提出了一种基于语音信号的语音情感识别（SER）的系统，其利用不同处理阶段的新技术。该系统由三个阶段组成：功能提取，功能选择，最终要素分类。在第一阶段，使用新的和多样性特征（如韵律，光谱和频谱）特征，从语音信号和光泽 - 波形信号中提取复杂的长期统计特征。 SER系统的挑战之一是区分相关情绪。这些特征是言语情绪的好鉴别者，并提高Ser识别类似和不同情绪的能力。此特征向量具有大量维度自然具有冗余。在第二阶段，使用经典特征选择技术以及用于减少特征向量维度的新量子启发技术，减少了特征向量尺寸的数量。在第三阶段，优化的特征向量由加权深稀疏的极端学习机（ELM）分类器分类。分类器以三个步骤执行分类：稀疏随机特征学习，使用奇异值分解（SVD）技术的正交随机投影，以及使用广义Tikhonov正规技术的最后一步中的鉴别分类。此外，许多现有的情绪数据集遭受数据不平衡分布的问题，这反过来增加了分类误差并降低了系统性能。在本文中，还提出了一种新的加权方法来处理类别不平衡，比现有的加权方法更有效。所提出的方法是在三个标准情绪数据库上进行评估。

translated by 谷歌翻译

Voice Analysis for Stress Detection and Application in Virtual Reality to Improve Public Speaking in Real-time: A Review

Arushi , Roberto Dillon , Ai Ni Teoh , Denise Dillon

分类：机器学习

2022-08-01

公开演讲期间的压力很普遍，会对绩效和自信产生不利影响。已经进行了广泛的研究以开发各种模型以识别情绪状态。但是，已经进行了最少的研究，以实时使用语音分析来检测公众演讲期间的压力。在这种情况下，当前的审查表明，算法的应用未正确探索，并有助于确定创建合适的测试环境的主要障碍，同时考虑当前的复杂性和局限性。在本文中，我们介绍了我们的主要思想，并提出了一个应力检测计算算法模型，该模型可以集成到虚拟现实（VR）应用程序中，以创建一个智能的虚拟受众，以提高公开讲话技能。当与VR集成时，开发的模型将能够通过分析与指示压力的生理参数相关的语音功能来实时检测过度压力，并帮助用户逐渐控制过度的压力并改善公众演讲表现

translated by 谷歌翻译

Towards an Efficient Voice Identification Using Wav2Vec2.0 and HuBERT Based on the Quran Reciters Dataset

Aly Moustafa , Salah A. Aly

分类：人工智能 | 自然语言处理 | 机器学习

2021-11-11

当前的身份验证和可信系统依赖于经典和生物识别方法来识别或授权用户。这些方法包括音频语音识别，眼睛和手指签名。最近的工具利用深度学习和变压器来实现更好的结果。在本文中，我们使用Wav2Vec2.0和Hubert音频表示学习工具开发了阿拉伯语扬声器识别的深度学习构建模型。端到端Wav2Vec2.0范例通过随机掩蔽一组特征向量获取上下文化语音表示了解，然后应用变压器神经网络。我们使用了一个MLP分类器，可以区分不变的标记类。我们展示了几种实验结果，可以保护拟议模型的高精度。实验确保了某些扬声器的任意波信号分别可以分别在Wav2Vec2.0和Hubert的情况下以98％和97.1％的精度识别。

translated by 谷歌翻译

rVAD: An Unsupervised Segment-Based Robust Voice Activity Detection Method

Zheng-Hua Tan , Achintya kr. Sarkar , Najim Dehak

分类：自然语言处理 | 机器学习

2019-06-09

本文介绍了一种无监督的基于分段的稳健语音活动检测方法（RVAD）。该方法包括两个去噪之后的传递，然后是语音活动检测（VAD）阶段。在第一通道中，通过使用后验信噪比（SNR）加权能量差来检测语音信号中的高能段，并且如果在段内没有检测到间距，则该段被认为是高能量噪声段并设置为零。在第二种通过中，语音信号由语音增强方法进行去噪，探索了几种方法。接下来，具有间距的相邻帧被分组在一起以形成音调段，并且基于语音统计，俯仰段进一步从两端延伸，以便包括浊音和发声声音和可能的非语音部分。最后，将后验SNR加权能量差应用于用于检测语音活动的去噪语音信号的扩展桨距片段。我们使用两个数据库，大鼠和极光-2评估所提出的方法的VAD性能，该方法包含大量噪声条件。在扬声器验证性能方面进一步评估RVAD方法，在Reddots 2016挑战数据库及其噪声损坏版本方面。实验结果表明，RVAD与许多现有方法有利地比较。此外，我们介绍了一种修改版的RVAD，其中通过计算有效的光谱平坦度计算替换计算密集的俯仰提取。修改的版本显着降低了适度较低的VAD性能成本的计算复杂性，这是在处理大量数据并在低资源设备上运行时的优势。 RVAD的源代码被公开可用。

translated by 谷歌翻译

Speech Forensics: Blind Voice Mimicry Detection

Sahar Al Ajmi , Khizar Hayat , Alaa M. Al Obaidi , Naresh Kumar , Munaf Najmuldeen , Baptiste Magnier

分类：人工智能 | 机器学习 | 神经与进化计算

2022-09-26

音频是人类交流最常用的方式之一，但与此同时，它很容易被欺骗人们滥用。随着AI的革命，几乎每个人都可以访问相关技术，从而使罪犯犯罪和伪造变得简单。在这项工作中，我们引入了一种深度学习方法，以开发一种分类器，该分类器将盲目地将输入音频分类为真实或模仿。提出的模型接受了从大型音频数据集提取的一组重要功能的培训，以获取分类器，该分类器已在不同音频的相同功能上进行了测试。为这项工作创建了两个数据集；所有英语数据集和混合数据集（阿拉伯语和英语）。这些数据集已通过GitHub提供，可在https://github.com/sass7/dataset上使用研究社区。为了进行比较，还通过人类检查对音频进行了分类，主题是母语人士。随之而来的结果很有趣，并且表现出强大的精度。

translated by 谷歌翻译

Is Speech Emotion Recognition Language-Independent? Analysis of English and Bangla Languages using Language-Independent Vocal Features

Fardin Saad , Hasan Mahmud , Md. Alamin Shaheen , Md. Kamrul Hasan , Paresha Farastu

分类：自然语言处理 | 机器学习

2021-11-21

识别语音情绪的语言不可知论的方法仍然是一个不完整和具有挑战性的任务。在本文中，我们使用Bangla和英语语言来评估与语音中的情感是否与语言无关。这项研究分类了以下情绪：幸福，愤怒，中立，悲伤，厌恶和恐惧。我们雇用了三种情绪言论，其中前两组是由孟加拉和英语语言的本土孟加拉语扬声器开发的。第三个是多伦多情感演讲（苔丝），由加拿大母语的英语发言者开发。我们仔细选择了语言无关的韵律特征，采用了支持向量机（SVM）模型，并进行了三个实验来执行我们的主张。在第一个实验中，我们单独测量三种语音组的性能。接下来是第二种实验，我们通过组合语音集来记录分类率。最后，在第三个实验中，我们通过培训和测试不同语音集来测量识别率。虽然这项研究表明，言语情感认可（SER）大多是语言无关的，但在识别出在这两种语言中的厌恶和恐惧之类的情绪状态时存在一些差异。此外，我们的调查推断出非母语人员通过言语传达情绪，就像以其母语在母语中表达自己。

translated by 谷歌翻译

Shennong: a Python toolbox for audio speech features extraction

Mathieu Bernard , Maxime Poli , Julien Karadayi , Emmanuel Dupoux

分类：自然语言处理

2021-12-10

我们介绍了Shennong，一个Python工具箱和命令行实用程序，用于语音功能提取。它实现了广泛的既定现实算法状态，包括诸如熔融频率纤维滤波器或预测的线性滤波器，预先训练的神经网络，音高估计器以及扬声器归一化方法和后处理算法的谱时间滤波器。 Shennong是一种开源，易于使用，可靠和可扩展的框架。 Python的使用使得集成到其他语音建模和机器学习工具方便。它旨在替换或补充几种异质软件，例如Kaldi或Praat。在描述神农软件架构，其核心组件和实现的算法之后，本文说明了三种应用的使用：语音特征在手机辨别任务上的性能进行比较，作为语音函数的声音轨道长度归一化模型的分析用于训练的持续时间和各种噪声条件下的音高估计算法的比较。

translated by 谷歌翻译

Identify The Beehive Sound Using Deep Learning

Shah Jafor Sadeek Quaderi , Sadia Afrin Labonno , Sadia Mostafa , Shamim Akhter

分类：机器学习

2022-09-03

鲜花在从环境中去除乏味的情况下起着至关重要的作用。开花植物的生命周期涉及授粉，受精，开花，种子形成，分散和发芽。 Honeybees授粉了所有开花植物的75％。环境污染，气候变化，自然景观拆除等等，威胁着自然栖息地，从而不断减少蜜蜂的数量。结果，一些研究人员试图解决这个问题。将声学分类应用于蜂巢声音的记录可能是检测其中的变化的一种方式。在这项研究中，我们在记录的声音上使用深度学习技术，即顺序神经网络，卷积神经网络和经常性的神经网络，以从非季节的声音中分类蜜蜂的声音。此外，我们在一些流行的非深度学习技术中进行了比较研究，即支持向量机，决策树，随机森林和na \“ ive bayes，以及深度学习技术。还在合并的记录中验证了这些技术声音（25-75％的噪音）。

translated by 谷歌翻译

Spatio-Temporal Representation Learning Enhanced Source Cell-phone Recognition from Speech Recordings

Chunyan Zeng , Shixiong Feng , Zhifeng Wang , Xiangkui Wan , Yunfan Chen , Nan Zhao

分类：人工智能

2022-08-25

现有的源单元手机识别方法缺乏源设备的长期特征表征，从而导致与源单元相关特征的不准确表示，从而导致识别精度不足。在本文中，我们提出了一种基于时空表示学习的源细胞手机识别方法，其中包括两个主要部分：提取顺序高斯平均矩阵特征和基于时空表示学习的识别模型的构建。在特征提取部分中，基于对记录源信号的时间序列表示的分析，我们通过使用高斯混合模型对数据分布的灵敏度提取具有长期和短期表示能力的顺序高斯平均矩阵。在模型构建部分中，我们设计了一个结构化的时空表示网络C3D-BILSTM，以充分表征时空信息，结合3D卷积网络和双向长期短期记忆网络，用于短期光谱信息和长期的长期记忆网络波动信息表示学习，并通过融合记录源信号的时空特征信息来准确识别细胞手机。该方法的平均准确性为99.03％的封闭设置识别在CCNU \ _Mobile数据集中的45个手机识别，而在小样本尺寸实验中的平均识别率为98.18％，识别性能优于现有的最新目前的识别性能方法。实验结果表明，该方法在多级细胞手机识别中表现出出色的识别性能。

translated by 谷歌翻译

End-To-End Audiovisual Feature Fusion for Active Speaker Detection

Fiseha B. Tesema , Zheyuan Lin , Shiqiang Zhu , Wei Song , Jason Gu , Hong Wu

分类：计算机视觉

2022-07-27

主动扬声器检测在人机相互作用中起着至关重要的作用。最近，出现了一些端到端的视听框架。但是，这些模型的推理时间没有被探索，并且由于其复杂性和较大的输入大小而不适用于实时应用。此外，他们探索了类似的功能提取策略，该策略在音频和视觉输入中采用了Convnet。这项工作提出了一种新型的两流端到端框架融合，通过VGG-M从图像中提取的特征与原始MEL频率Cepstrum系数从音频波形提取。该网络在每个流上附有两个BigRu层，以处理融合之前每个流的时间动态。融合后，将一个BigRU层附着在建模联合时间动力学上。 AVA-ACTIVESPEAKER数据集的实验结果表明，我们的新功能提取策略对嘈杂信号的鲁棒性和推理时间比在这两种模式上使用Convnet的模型更好。提出的模型预测44.41 ms之内，足够快地用于实时应用程序。我们表现最佳的模型获得了88.929％的精度，与最先进的工作相同。

translated by 谷歌翻译

A Review of Speaker Diarization: Recent Advances with Deep Learning

Tae Jin Park , Naoyuki Kanda , Dimitrios Dimitriadis , Kyu J. Han , Shinji Watanabe , Shrikanth Narayanan

分类：自然语言处理

2021-01-24

扬声器日流是一个标签音频或视频录制的任务，与扬声器身份或短暂的任务标记对应于扬声器标识的类，以识别“谁谈到何时发表讲话”。在早期，对MultiSpeaker录音的语音识别开发了扬声器日益衰退算法，以使扬声器自适应处理能够实现扬声器自适应处理。这些算法还将自己的价值作为独立应用程序随着时间的推移，为诸如音频检索等下游任务提供特定于扬声器的核算。最近，随着深度学习技术的出现，这在讲话应用领域的研究和实践中引起了革命性的变化，对扬声器日益改善已经进行了快速进步。在本文中，我们不仅审查了扬声器日益改善技术的历史发展，而且还审查了神经扬声器日益改善方法的最新进步。此外，我们讨论了扬声器日复速度系统如何与语音识别应用相结合，以及最近深度学习的激增是如何引领联合建模这两个组件互相互补的方式。通过考虑这种令人兴奋的技术趋势，我们认为本文对社区提供了有价值的贡献，以通过巩固具有神经方法的最新发展，从而促进更有效的扬声器日益改善进一步进展。

translated by 谷歌翻译

A Multimodal Approach for Automatic Mania Assessment in Bipolar Disorder

Pınar Baki

分类：自然语言处理 | 机器学习

2021-12-17

双相情感障碍是一种心理健康障碍，导致情绪波动，从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的，并从患者的护理人员获得的报告。随后，诊断取决于专家的经验，并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标，并让患者的更容易观察较长的时间。此外，在Covid-19大流行期间，对遥控和诊断的需求变得尤为重要。在本论文中，我们根据声学，语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统，以及各种融合技术。除了使用单向特征处理整个患者会话外，还研究了剪辑的任务级调查。在多模式融合系统中使用声学，语言和视觉特征，我们实现了64.8％的未加权平均召回得分，这提高了在该数据集上实现的最先进的性能。

translated by 谷歌翻译

End-to-End Video-To-Speech Synthesis using Generative Adversarial Networks

Rodrigo Mira , Konstantinos Vougioukas , Pingchuan Ma , Stavros Petridis , Björn W. Schuller , Maja Pantic

分类：机器学习 | 计算机视觉

2021-04-27

视频到语音是从口语说话视频中重建音频演讲的过程。此任务的先前方法依赖于两个步骤的过程，该过程从视频中推断出中间表示，然后使用Vocoder或波形重建算法将中间表示形式解码为波形音频。在这项工作中，我们提出了一个基于生成对抗网络（GAN）的新的端到端视频到语音模型，该模型将口语视频转换为波形端到端，而无需使用任何中间表示或单独的波形合成算法。我们的模型由一个编码器架构组成，该体系结构接收原始视频作为输入并生成语音，然后将其馈送到波形评论家和权力评论家。基于这两个批评家的对抗损失的使用可以直接综合原始音频波形并确保其现实主义。此外，我们的三个比较损失的使用有助于建立生成的音频和输入视频之间的直接对应关系。我们表明，该模型能够用诸如网格之类的受约束数据集重建语音，并且是第一个为LRW（野外唇读）生成可理解的语音的端到端模型，以数百名扬声器为特色。完全记录在“野外”。我们使用四个客观指标来评估两种不同的情况下生成的样本，这些客观指标衡量了人工语音的质量和清晰度。我们证明，所提出的方法在Grid和LRW上的大多数指标上都优于以前的所有作品。

translated by 谷歌翻译

Minimal Feature Analysis for Isolated Digit Recognition for varying encoding rates in noisy environments

Muskan Garg , Naveen Aggarwal

分类：自然语言处理 | 计算机视觉

2022-08-27

这项研究工作是关于语音识别的最新发展。在这项研究工作中，在存在不同的比特速率和不同噪声水平的情况下对孤立的数字识别的分析。这项研究工作是使用Audacity和HTK工具包进行的。隐藏的马尔可夫模型（HMM）是用于执行此实验的识别模型。所使用的特征提取技术是MEL频率CEPSTRUM系数（MFCC），线性预测编码（LPC），感知线性预测（PLP），MEL SPECTRUM（MELSPEC），FILLE BANK（FBANK）。已经考虑了三种不同的噪声水平来测试数据。这些包括随机噪声，风扇噪声和实时环境中的随机噪声。这样做是为了分析可用于实时应用程序的最佳环境。此外，考虑到不同采样率的五种不同类型的常用比特率，以找出最佳的比特率。

translated by 谷歌翻译