Accented speech recognition and accent classification are relatively under-explored research areas in speech technology. Recently, deep learning-based methods and Transformer-based pretrained models have achieved superb performances in both areas. However, most accent classification tasks focused on classifying different kinds of English accents and little attention was paid to geographically-proximate accent classification, especially under a low-resource setting where forensic speech science tasks usually encounter. In this paper, we explored three main accent modelling methods combined with two different classifiers based on 105 speaker recordings retrieved from five urban varieties in Northern England. Although speech representations generated from pretrained models generally have better performances in downstream classification, traditional methods like Mel Frequency Cepstral Coefficients (MFCCs) and formant measurements are equipped with specific strengths. These results suggest that in forensic phonetics scenario where data are relatively scarce, a simple modelling method and classifier could be competitive with state-of-the-art pretrained speech models as feature extractors, which could enhance a sooner estimation for the accent information in practices. Besides, our findings also cross-validated a new methodology in quantifying sociophonetic changes.
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
在空中交通管制(ATC)控制器飞行员谈话的自动语音指令的理解(SIU)不仅需要认识到的演讲词和语义,但也确定了演讲者的角色。然而,很少有在空中交通通信专注于扬声器的作用识别(SRI)自动认识系统发表的作品。在本文中,我们制定管制员 - 驾驶员通信的SRI任务作为二元分类问题。提出此外,基于文本的,基于语音和语音和文本为基础的多模态的方法来达到SRI任务的全面比较。消融的比较方法的影响,各种先进的神经网络架构应用进行优化的,基于语音的基于文本和方法的实现。最重要的是,多模态扬声器的作用识别网络(MMSRINet)设计同时考虑语音和文本模式功能实现的SRI任务。聚集形态特征,模态融合模块提出了保险丝和模态注意机制和自我关注池层,分别挤声音和文本表示。最后,比较的方法进行验证从现实世界ATC环境中收集的语料库ATCSpeech。实验结果表明,所有的比较方法是对SRI任务分别工作,并提议MMSRINet显示出比上都看到和看不到数据的其他方法的有竞争力的性能和稳定性,达到98.56%,98.08和%的准确度。
translated by 谷歌翻译
当前的身份验证和可信系统依赖于经典和生物识别方法来识别或授权用户。这些方法包括音频语音识别,眼睛和手指签名。最近的工具利用深度学习和变压器来实现更好的结果。在本文中,我们使用Wav2Vec2.0和Hubert音频表示学习工具开发了阿拉伯语扬声器识别的深度学习构建模型。端到端Wav2Vec2.0范例通过随机掩蔽一组特征向量获取上下文化语音表示了解,然后应用变压器神经网络。我们使用了一个MLP分类器,可以区分不变的标记类。我们展示了几种实验结果,可以保护拟议模型的高精度。实验确保了某些扬声器的任意波信号分别可以分别在Wav2Vec2.0和Hubert的情况下以98%和97.1%的精度识别。
translated by 谷歌翻译
我们使用不同的语言支持特征预处理方法研究特征密度(FD)的有效性,以估计数据集复杂性,这又用于比较估计任何训练之前机器学习(ML)分类器的潜在性能。我们假设估计数据集复杂性允许减少所需实验迭代的数量。这样我们可以优化ML模型的资源密集型培训,这是由于可用数据集大小的增加以及基于深神经网络(DNN)的模型的不断增加的普及而成为一个严重问题。由于训练大规模ML模型引起的令人惊叹的二氧化碳排放量,不断增加对更强大的计算资源需求的问题也在影响环境。该研究是在多个数据集中进行的,包括流行的数据集,例如用于培训典型情感分析模型的Yelp业务审查数据集,以及最近的数据集尝试解决网络欺凌问题,这是一个严重的社会问题,也是一个严重的社会问题一个更复杂的问题,形成了语言代表的观点。我们使用收集多种语言的网络欺凌数据集,即英语,日语和波兰语。数据集的语言复杂性的差异允许我们另外讨论语言备份的单词预处理的功效。
translated by 谷歌翻译
语言识别(LID)是自动语音识别(ASR)的建议的第一步,用于检测音频标本的口语。但是,在能够多语言语音处理的最先进的系统中,用户必须在使用它们之前明确设置一种或多种语言。因此,盖子在基于ASR的系统无法在多语言环境中解析导致语音识别失败的语言的情况下起着非常重要的作用。我们提出了一个基于注意力的卷积复发性神经网络(CRNN),该网络与音频标本的Mel频率Cepstral系数(MFCC)功能一起工作。此外,我们重现了一些最先进的方法,即卷积神经网络(CNN)和卷积复发性神经网络(CRNN),并将它们与我们提出的方法进行比较。我们对13种不同的印度语言进行了广泛的评估,我们的模型分类精度超过98%。我们的盖子模型对噪声非常强大,并在嘈杂的情况下提供了91.2%的精度。提出的模型很容易扩展到新语言。
translated by 谷歌翻译
Through solving pretext tasks, self-supervised learning leverages unlabeled data to extract useful latent representations replacing traditional input features in the downstream task. In audio/speech signal processing, a wide range of features where engineered through decades of research efforts. As it turns out, learning to predict such features (a.k.a pseudo-labels) has proven to be a particularly relevant pretext task, leading to useful self-supervised representations which prove to be effective for downstream tasks. However, methods and common practices for combining such pretext tasks for better performance on the downstream task have not been explored and understood properly. In fact, the process relies almost exclusively on a computationally heavy experimental procedure, which becomes intractable with the increase of the number of pretext tasks. This paper introduces a method to select a group of pretext tasks among a set of candidates. The method we propose estimates calibrated weights for the partial losses corresponding to the considered pretext tasks during the self-supervised training process. The experiments conducted on automatic speech recognition, speaker and emotion recognition validate our approach, as the groups selected and weighted with our method perform better than classic baselines, thus facilitating the selection and combination of relevant pseudo-labels for self-supervised representation learning.
translated by 谷歌翻译
本文重点介绍了重叠的语音和性别检测,以研究法国视听媒体中男女之间的互动(性别平等监测项目)。在这种应用程序上下文中,我们需要根据说话者的性别自动划分语音信号,并确定至少有两个说话者同时讲话。我们建议使用WAVLM模型,该模型具有在大量语音数据上进行预训练的优点,以构建重叠的语音检测(OSD)和性别检测(GD)系统。在这项研究中,我们使用两个不同的语料库。 Dihard III语料库非常适合OSD任务,但缺乏性别信息。盟友语料库符合项目申请上下文。我们最好的OSD系统是具有WAVLM预训练功能作为输入的时间卷积网络(TCN),该功能达到了Dihard上最先进的F1得分性能。神经GD在法国广播新闻盟友数据的性别平衡子集上接受了WAVLM输入的培训,并获得了97.9%的准确性。这项工作为人类科学研究人员开辟了有关法国媒体中男女表示差异的新观点。
translated by 谷歌翻译
鉴于AD的高流行,对阿尔茨海默氏病(AD)检测的强大策略很重要。在本文中,我们研究了来自最近的Adresso挑战数据集的三种AD检测方法的性能和概括性:1)使用常规声学特征2)使用新型的预训练的声学嵌入式3)结合声学特征和嵌入。我们发现,尽管基于特征的方法具有更高的精度,但依赖于预训练的嵌入的分类方法证明在多个性能的多个指标中具有更高且更平衡的交叉验证性能。此外,仅嵌入方法更具概括性。我们的最佳模型在挑战中优于声学基线2.8%。
translated by 谷歌翻译
口吃是一种多种言语障碍,会损害个人的沟通能力。口吃(PWS)的人经常使用语音疗法来应对自己的病情。改善具有这种非典型语音或跟踪语音疗法的人的语音识别系统将需要能够检测功能障碍的系统,同时能够检测到治疗中获得的语​​音技术。本文表明,用于在含有口吃的语音上结结巴巴的口吃的微调2VEC 2.0 [1],结合多任务的学习,增强了通用Purepose Wav2VEC 2.0的有效性,以检测语音在语音中检测说话的功能;内部和跨语言。我们通过训练支持向量机分类器评估我们的FluencyBank的方法[2]和以德国治疗为中心的Kassel Fluency(KSOF)[3]数据集[3]数据集,该数据集使用六种不同结肠相关的事件类型中提取的功能:块:块: ,延长,声音重复,单词重复,插入和 - 特定于治疗 - 语音修改。使用来自微调模型的嵌入式嵌入会导致相对分类的性能增长到高达27%W.R.T. F1得分。
translated by 谷歌翻译
这项工作旨在自动评估儿童的语言发展是否适合年龄。经过验证的语音和语言测试用于此目的测试听觉记忆。在这项工作中,任务是确定是否正确说出了口语非单词。我们比较有动机来建模特定语言结构的不同方法:低水平特征(FFT),扬声器嵌入(ECAPA-TDNN),素化 - 动机的嵌入(WAV2VEC 2.0)和语音嵌入Senones(ASR ASR ACOSTIC模型)形式。每种方法都提供了类似VGG的5层CNN分类器的输入。我们还检查了每个非单词的适应性。使用来自口头非单词的不同幼儿园的录音进行了对拟议系统的评估。 ECAPA-TDNN和低级FFT特征不会明确模型语音信息; WAV2VEC2.0经过素数标签训练,我们的ASR声学模型包含(子)语音信息。我们发现,语音建模越颗粒状,达到的识别率就越高。在ASR声学模型特征上训练的最佳系统的精度为89.4%,在ROC(接收器操作特征)曲线(AUC)下的面积为0.923。与FFT-BASELINE相比,这对应于20.2%和AUC相对0.309的改善。
translated by 谷歌翻译
开发语音技术是对低资源语言的挑战,其中注释和原始语音数据稀疏。马耳他是一种这样的语言。近年来,对马耳他的计算处理有所增加,包括语音技术,但后者的资源仍然稀疏。在本文中,我们考虑提高这些语言的语音识别的数据增强技术,专注于马耳他作为测试用例。我们考虑三种不同类型的数据增强:无监督的培训,多语言培训和合成演讲的使用作为培训数据。目标是确定这些技术或它们的组合,是改善起始点是大约7小时转录语音的语言的语言的最有效。我们的结果表明,在这里研究了三种数据增强技术,导致我们在不使用语言模型的情况下实现15%的绝对增长。
translated by 谷歌翻译
The rapid advancement of AI technology has made text generation tools like GPT-3 and ChatGPT increasingly accessible, scalable, and effective. This can pose serious threat to the credibility of various forms of media if these technologies are used for plagiarism, including scientific literature and news sources. Despite the development of automated methods for paraphrase identification, detecting this type of plagiarism remains a challenge due to the disparate nature of the datasets on which these methods are trained. In this study, we review traditional and current approaches to paraphrase identification and propose a refined typology of paraphrases. We also investigate how this typology is represented in popular datasets and how under-representation of certain types of paraphrases impacts detection capabilities. Finally, we outline new directions for future research and datasets in the pursuit of more effective paraphrase detection using AI.
translated by 谷歌翻译
在法医语音比较中,扬声器的嵌入在过去十年中已广泛流行。大多数审计的扬声器嵌入式嵌入都经过英语语料库进行培训,因为它很容易访问。因此,语言依赖性可能是自动法医语音比较的重要因素,尤其是当目标语言在语言上非常不同时。有许多商业系统可用,但是它们的模型主要接受与目标语言不同的语言(主要是英语)的培训。在低资源语言的情况下,开发用于法医目的的语料库,其中包含足够的扬声器来训练深度学习模型是昂贵的。这项研究旨在调查是否可以在目标低资源语言(匈牙利语)上使用预先培训的英语语料库的模型,与模型不同。另外,通常没有犯罪者(未知的扬声器)获得多个样本。因此,在有或没有说话者入学率的嫌疑人(已知)扬声器的情况下对样品进行比较。应用了两个语料库,这些语料库是专门用于法医目的的,第三个是用于传统演讲者验证的第三个语料库。使用了两种基于深度学习的扬声器嵌入向量提取方法:X-Vector和Ecapa-TDNN。说话者验证在可能性比率框架中进行了评估。在语言组合(建模,LR校准,评估)之间进行了比较。通过MinCllr和EER指标评估了结果。发现该模型以不同的语言进行了预先训练,但是在具有大量扬声器的语料库上,在语言不匹配的样本上表现良好。还检查了样本持续时间和口语样式的影响。发现相关样本的持续时间越长,性能就越好。另外,如果采用各种口语样式,则没有真正的区别。
translated by 谷歌翻译
扬声器日流是一个标签音频或视频录制的任务,与扬声器身份或短暂的任务标记对应于扬声器标识的类,以识别“谁谈到何时发表讲话”。在早期,对MultiSpeaker录音的语音识别开发了扬声器日益衰退算法,以使扬声器自适应处理能够实现扬声器自适应处理。这些算法还将自己的价值作为独立应用程序随着时间的推移,为诸如音频检索等下游任务提供特定于扬声器的核算。最近,随着深度学习技术的出现,这在讲话应用领域的研究和实践中引起了革命性的变化,对扬声器日益改善已经进行了快速进步。在本文中,我们不仅审查了扬声器日益改善技术的历史发展,而且还审查了神经扬声器日益改善方法的最新进步。此外,我们讨论了扬声器日复速度系统如何与语音识别应用相结合,以及最近深度学习的激增是如何引领联合建模这两个组件互相互补的方式。通过考虑这种令人兴奋的技术趋势,我们认为本文对社区提供了有价值的贡献,以通过巩固具有神经方法的最新发展,从而促进更有效的扬声器日益改善进一步进展。
translated by 谷歌翻译
在这项工作中,我们对情感和压力环境中的文本独立扬声器验证性能进行了实证对比研究。这项工作结合了浅架构的深层模型,导致新的混合分类器。利用了四种不同的混合模型:深神经网络隐藏式马尔可夫模型(DNN-HMM),深神经网络 - 高斯混合模型(DNN-GMM),高斯混合模型 - 深神经网络(GMM-DNN)和隐藏的马尔可夫模型-Deep神经网络(HMM-DNN)。所有模型都基于新颖的实施架构。比较研究使用了三个不同的语音数据集:私人阿拉伯数据集和两个公共英语数据库,即在模拟和实际压力下的演讲(Susas)和情感语音和歌曲(Ravdess)的ryerson视听数据库。上述混合模型的测试结果表明,所提出的HMM-DNN利用情绪和压力环境中的验证性能。结果还表明,HMM-DNN在曲线(AUC)评估度量下的相同错误率(eer)和面积方面优于所有其他混合模型。基于三个数据集的平均所产生的验证系统分别基于HMM-DNN,DNN-HMM,DNN-GMM和GMM-DNN产生7.19%,16.85%,11.51%和11.90%的eERs。此外,我们发现,与两个谈话环境中的所有其他混合模型相比,DNN-GMM模型展示了最少的计算复杂性。相反,HMM-DNN模型需要最多的培训时间。调查结果还证明了EER和AUC值在比较平均情绪和压力表演时依赖于数据库。
translated by 谷歌翻译
In this paper, we use data augmentation to improve performance of deep neural network (DNN) embeddings for speaker recognition. The DNN, which is trained to discriminate between speakers, maps variable-length utterances to fixed-dimensional embeddings that we call x-vectors. Prior studies have found that embeddings leverage large-scale training datasets better than i-vectors. However, it can be challenging to collect substantial quantities of labeled data for training. We use data augmentation, consisting of added noise and reverberation, as an inexpensive method to multiply the amount of training data and improve robustness. The x-vectors are compared with i-vector baselines on Speakers in the Wild and NIST SRE 2016 Cantonese. We find that while augmentation is beneficial in the PLDA classifier, it is not helpful in the i-vector extractor. However, the x-vector DNN effectively exploits data augmentation, due to its supervised training. As a result, the x-vectors achieve superior performance on the evaluation datasets.
translated by 谷歌翻译
最近深入学习的突破往往依靠代表学习和知识转移。近年来,开发了用于培养自动语音识别的无监督和自我监督的学习讲话技巧。迄今为止,大多数方法是特定于任务的,并且在特定任务的不同数据集或设置之间进行任务传输学习。反过来,学习任务 - 独立于转移学习的语音和交叉任务应用的代表仍然不那么常见。在这里,我们介绍了一个编码器捕获词级表示的跨任务传输学习。我们展示了预先训练的编码器在四个不同的语音和音频处理任务中的应用:(i)语音增强,(ii)语言识别,(iii)语音,噪声和音乐分类,和(iv)扬声器识别。在每项任务中,我们将跨任务转移学习方法的表现进行比较,以完成任务特定的基准。我们的结果表明,编码器通过预训练捕获的语音表示可在不同的语音处理任务和数据集中可转换。值得注意的是,即使是我们预先训练的编码器的简单应用也优于任务特定的方法,或者取决于任务。
translated by 谷歌翻译
口语理解(SLU)是大多数人机相互作用系统中的核心任务。随着智能家居,智能手机和智能扬声器的出现,SLU已成为该行业的关键技术。在经典的SLU方法中,自动语音识别(ASR)模块将语音信号转录为文本表示,自然语言理解(NLU)模块从中提取语义信息。最近,基于深神经网络的端到端SLU(E2E SLU)已经获得了动力,因为它受益于ASR和NLU部分的联合优化,因此限制了管道架构的误差效应的级联反应。但是,对于E2E模型用于预测语音输入的概念和意图的实际语言特性知之甚少。在本文中,我们提出了一项研究,以确定E2E模型执行SLU任务的信号特征和其他语言特性。该研究是在必须处理非英语(此处法语)语音命令的智能房屋的应用领域进行的。结果表明,良好的E2E SLU性能并不总是需要完美的ASR功能。此外,结果表明,与管道模型相比,E2E模型在处理背景噪声和句法变化方面具有出色的功能。最后,更细粒度的分析表明,E2E模型使用输入信号的音调信息来识别语音命令概念。本文概述的结果和方法提供了一个跳板,以进一步分析语音处理中的E2E模型。
translated by 谷歌翻译
阿尔茨海默氏病(AD)是痴呆症的主要原因,伴随着记忆力的丧失,如果未按时诊断,可能会导致人们的日常生活造成严重后果。很少有作品利用基于变压器的网络,尽管获得了高度的精度,但在模型可解释性方面几乎没有完成工作。此外,尽管迷你精神状态考试(MMSE)分数与痴呆症的识别密不可分,但研究工作面临着痴呆症鉴定的任务以及将MMSE分数作为两个独立任务的预测任务。为了解决这些局限性,我们采用了几种基于变压器的模型,伯特(Bert)的准确性最高为87.50%。同时,我们提出了一种可解释的方法来检测基于暹罗网络的准确性高达83.75%的患者。接下来,我们介绍了两个多任务学习模型,其中主要任务是指痴呆症的识别(二进制分类),而辅助辅助学则对应于痴呆症的严重程度(多类分类)。我们的模型在多任务学习环境中检测AD患者的准确度等于86.25%。最后,我们提出了一些新方法,以识别AD患者和非AD的语言模式,包括文本统计,词汇唯一性,单词用法,通过详细的语言分析和解释性技术(LIME)(LIME)。发现表明AD和非AD患者之间的语言差异显着差异。
translated by 谷歌翻译