根据语言熟悉效应(LFE),人们更好地区分母语的说话者。尽管这种认知效应在文献中很大程度上进行了研究,但实验仅在有限的语言对上进行,其结果仅显示出效果的存在,而不会产生逐渐的措施,而逐步的措施可能会随着语言对而变化。在这项工作中,我们表明Thorburn,Feldmand和Schatz(2019)引入的LFE计算模型可以解决这两个局限性。在第一个实验中,我们证明了该模型通过在本地和强调语音上复制行为发现来获得LFE的逐步度量的能力。在第二个实验中,我们通过大量语言对评估LFE,其中包括许多从未在人类上进行过测试的语言。我们表明,这种效果在各种各样的语言中得到了复制,从而提供了其普遍性的进一步证据。以LFE的逐步度量为基础,我们还表明属于同一家庭的语言产生了较小的分数,从而支持语言距离对LFE产生影响的想法。
translated by 谷歌翻译
AI研究中的基石是创建和采用标准化培训和测试数据集,以指定最新模型的进度。一个特别成功的例子是用于培训和评估英语自然语言理解(NLU)模型的胶水数据集。围绕基于BERT的语言模型的大量研究围绕着胶水中NLU任务的性能改进。为了评估其他语言的语言模型,创建了几个特定语言的胶水数据集。语音语言理解(SLU)的领域遵循了类似的轨迹。大型自我监督模型(例如WAV2VEC2)的成功实现了具有相对易于访问的未标记数据的语音模型。然后可以在SLU任务(例如出色的基准测试)上评估这些模型。在这项工作中,我们将其扩展到通过释放Indicsuperb基准测试来指示语言。具体来说,我们做出以下三项贡献。 (i)我们收集了Kathbath,其中包含来自印度203个地区的1,218个贡献者的12个印度语言的1,684小时的标记语音数据。 (ii)使用Kathbath,我们在6个语音任务中创建基准:自动语音识别,扬声器验证,说话者识别(单声道/多),语言识别,逐个示例查询以及对12种语言的关键字发现。 (iii)在发布的基准测试中,我们与常用的基线Fbank一起训练和评估不同的自我监督模型。我们表明,在大多数任务上,特定于语言的微调模型比基线更准确,包括对于语言识别任务的76 \%差距。但是,对于说话者识别,在大型数据集上训练的自我监督模型证明了一个优势。我们希望Indicsuperb有助于发展印度语言的语音语言理解模型的进步。
translated by 谷歌翻译
爆发两年多后,Covid-19的大流行继续困扰世界各地的医疗系统,给稀缺资源带来压力,并夺走了人类的生命。从一开始,已经采用了各种基于AI的CoVID-19检测和监测工具,以试图通过及时诊断来阻止感染的潮流。特别是,已经建议计算机试听是一种非侵入性,成本效益和环保的替代方法,可通过声音通过声音来检测COVID-19的感染。但是,像所有AI方法一样,计算机试镜也很大程度上取决于可用数据的数量和质量,并且由于此类数据的敏感性,大规模的COVID-19声音数据集很难获取 - 除其他原因外。为此,我们介绍了COVYT数据集 - 一种新颖的Covid-19数据集,该数据集是从包含来自65位演讲者的8个小时以上语音的公共资源中收集的。与其他现有的COVID-19声音数据集相比,COVYT数据集的独特功能是,它包括所有65位扬声器的covid-19正和负样本。我们使用可解释的音频描述来分析Covid-19的声学表现,并使用可解释的音频描述,并研究几种分类场景,并调查一些分类场景,以将基于公平的言语的COVID进行适当的分配策略-19检测。
translated by 谷歌翻译
许多自动语音识别(ASR)数据集包括一个单一的预定义测试集,该测试集由一个或多个演讲者组成,其语音从未出现在培训集中。但是,对于说话者数量很少的数据集,这种“持有说明器”的数据分配策略可能不是理想的选择。这项研究调查了具有最小ASR培训资源的五种语言的十种不同数据拆分方法。我们发现(1)模型性能取决于选择哪个扬声器进行测试; (2)所有固定扬声器的平均单词错误率(WER)不仅与多个随机拆分的平均差异相当,而且与任何给定的单个随机拆分相当; (3)当数据以启发性或对抗性分开时,通常也可以比较; (4)话语持续时间和强度是可变性的相对预测因素,而不管数据分解如何。这些结果表明,广泛使用的宣传者输出的ASR数据分配方法可以产生不反映未见数据或说话者模型性能的结果。在面对数据稀疏时,随机拆分可以产生更可靠和可推广的估计。
translated by 谷歌翻译
在本文中,我们使用一系列建模技术来调查抽象手机是否可以从接触语音声音中出现。实际上,该研究代表了尝试从语言使用的抽象出现的基于使用的语言学理论设备的尝试。我们的任务侧重于最简单的这样的假设抽象。我们测试了两个关于语言知识在语言上的语言知识的反对原则:基于内存的学习(MBL)和纠错学习(ECL)。泛化的过程得到了抽象语言学家与之运作,我们探讨了MBL和ECL是否可以产生类似语言抽象的语言知识。每个模型都有一个由一个扬声器产生的大量预处理语音。我们评估了这些简单模型所学到的一致性或稳定性以及它们引起抽象类别的能力。两种类型的模型在这些测试方面的票价不同。我们表明ECL模型可以从输入中可靠地识别了ECL模型可以学习抽象,并且至少可以从输入中可靠地识别到传统类型中的电话库存和分组。
translated by 谷歌翻译
最近最近提出了使用音韵特征而不是音素作为输入到序列TTS的输入,用于零拍摄的多语言语音合成。这种方法对于代码切换是有用的,因为它促进了嵌入在本机的流中的外语的无缝发出。在我们的工作中,我们培训了一种语言 - 无人物多相箱模型,在不同语言中常见的一组音牙衍生特征上,其目标是实现交叉语言扬声器适应。我们首先尝试语言语音相似性对几种源语言组合的交叉语言的影响。随后,我们可以在看见或一个看不见的语言中使用非常有限的新扬声器语音数据进行微调,并实现了相同质量的合成语音,同时保留了目标扬声器的身份。随着目标扬声器数据的32和8个话语,我们获得高扬声器相似性分数和与相应文献相当的自然。在仅为2种可用的适应话语的极端情况下,我们发现我们的模型表现为几滴学习者,因为在所见和看不见的语言方案中的性能相似。
translated by 谷歌翻译
研究界长期以来一直在非本地语音中研究了计算机辅助的发音训练(上尉)方法。研究人员致力于研究各种模型架构,例如贝叶斯网络和深度学习方法,以及分析语音信号的不同表示。尽管近年来取得了重大进展,但现有的CAPT方法仍无法以高精度检测发音误差(在40 \%-80 \%召回时只有60 \%精度)。关键问题之一是发音错误检测模型的可靠培训所需的语音错误的可用性较低。如果我们有一个可以模仿非本地语音并产生任何数量的训练数据的生成模型,那么检测发音错误的任务将容易得多。我们介绍了基于音素到音量(P2P),文本到语音(T2S)以及语音到语音(S2S)转换的三种创新技术,以生成正确发音和错误发音的合成语音。我们表明,这些技术不仅提高了三个机器学习模型的准确性,以检测发音错误,而且还有助于在现场建立新的最新技术。早期的研究使用了简单的语音生成技术,例如P2P转换,但仅是提高发音误差检测准确性的附加机制。另一方面,我们认为语音生成是检测发音误差的第一类方法。这些技术的有效性在检测发音和词汇应力误差的任务中进行了评估。评估中使用了非本地英语言语语料库。与最先进的方法相比,最佳提出的S2S技术将AUC度量误差的准确性从41 \%提高到41 \%从0.528提高到0.749。
translated by 谷歌翻译
在本文中,我们首先提供了述评最先进的情感语音转换研究以及现有的情绪语音数据库。然后,我们激励开发一种新颖的情绪语音数据库(ESD),这些数据库(ESD)解决了越来越多的研究需求。借鉴了本文,现在可以向研究界提供ESD数据库。ESD数据库由10名母语和10个母语的扬声器发表的350个平行话语组成,涵盖5个情感类别(中性,快乐,愤怒,悲伤和惊喜)。在受控的声学环境中记录了超过29小时的语音数据。该数据库适用于多扬声器和交叉语言情绪转换研究。如案例研究,我们在ESD数据库上实施了几种最先进的情绪转换系统。本文在释放释放时提供了对ESD的参考研究。
translated by 谷歌翻译
Analysis of Indian English (IE) pronunciation variabilities are useful in building systems for Automatic Speech Recognition (ASR) and Text-to-Speech (TTS) synthesis in the Indian context. Typically, these pronunciation variabilities have been explored by comparing IE pronunciation with Received Pronunciation (RP). However, to explore these variabilities, it is required to have labelled pronunciation data at the phonetic level, which is scarce for IE. Moreover, versatility of IE stems from the influence of a large diversity of the speakers' mother tongues and demographic region differences. Prior linguistic works have characterised features of IE variabilities qualitatively by reporting phonetic rules that represent such variations relative to RP. The qualitative descriptions often lack quantitative descriptors and data-driven analysis of diverse IE pronunciation data to characterise IE on the phonetic level. To address these issues, in this work, we consider a corpus, Indic TIMIT, containing a large set of IE varieties from 80 speakers from various regions of India. We present an analysis to obtain the new set of phonetic rules representing IE pronunciation variabilities relative to RP in a data-driven manner. We do this using 15,974 phonetic transcriptions, of which 13,632 were obtained manually in addition to those part of the corpus. Furthermore, we validate the rules obtained from the analysis against the existing phonetic rules to identify the relevance of the obtained phonetic rules and test the efficacy of Grapheme-to-Phoneme (G2P) conversion developed based on the obtained rules considering Phoneme Error Rate (PER) as the metric for performance.
translated by 谷歌翻译
Automatic speech recognition (ASR) meets more informal and free-form input data as voice user interfaces and conversational agents such as the voice assistants such as Alexa, Google Home, etc., gain popularity. Conversational speech is both the most difficult and environmentally relevant sort of data for speech recognition. In this paper, we take a linguistic perspective, and take the French language as a case study toward disambiguation of the French homophones. Our contribution aims to provide more insight into human speech transcription accuracy in conditions to reproduce those of state-of-the-art ASR systems, although in a much focused situation. We investigate a case study involving the most common errors encountered in the automatic transcription of French language.
translated by 谷歌翻译
本文介绍了第一个致力于2020挑战的结果和分析,重点是开发语音技术的匿名解决方案。我们提供了对提交的系统和评估结果的分析,提供了挑战设计的系统概述。特别是,我们描述了用于系统开发和评估的语音匿名任务和数据集。此外,我们呈现不同的攻击模型和相关目标和主观评估指标。我们介绍了两个匿名化的基线,并提供了由挑战参与者开发的匿名化系统的摘要描述。我们向基线和提交的系统报告客观和主观评估结果。此外,我们提出了作为评估后分析的一部分开发的替代隐私度量和攻击模型的实验结果。最后,我们总结了我们的见解和观察,这将影响下一个语音普遍挑战版的设计和未来语音匿名化研究的某些方向。
translated by 谷歌翻译
在本文中,介绍了文本到读取/唱歌系统,可以适应任何扬声器的声音。它利用基于TacoTron的多级箱子声学模型在只读语音数据训练,并且在音素级别提供韵律控制。还研究了基于传统DSP算法的数据集增强和额外的韵律操纵。神经TTS模型对看不见的扬声器的有限录音进行了微调,允许与目标的扬声器语音进行敲击/歌唱合成。描述了系统的详细管道,其包括从Capella歌曲的目标音调和持续时间值提取,并将其转换为在合成之前的目标扬声器的有效音符范围内。还研究了通过WSOLA输出的输出的韵律操纵的另外的阶段,以便更好地匹配目标持续时间值。合成的话语可以与乐器伴奏轨道混合以产生完整的歌曲。通过主观聆听测试评估所提出的系统,以及与可用的备用系统相比,该系统还旨在从只读训练数据产生合成歌唱语音。结果表明,该拟议的方法可以产生高质量的敲击/歌声,具有增加的自然。
translated by 谷歌翻译
培训仅使用单语言语料库的多语言神经文本到语音(NTTS)模型已成为构建基于语音克隆的Polyglot NTTS系统的流行方式。为了训练这些模型,必须了解培训语料库的组成如何影响多语言语音综合的质量。在这种情况下,通常会听到诸如“包含更多西班牙数据有助于我的意大利综合,考虑到两种语言的亲密关系?”之类的问题。不幸的是,我们发现有关该主题缺乏完整性的现有文献。在目前的工作中,我们进行了一项广泛的消融研究,旨在了解培训语料库的各种因素(例如语言家族隶属关系,性别组成和演讲者的数量)如何有助于多面化综合的质量。我们的发现包括在大多数情况下首选女性扬声器数据的观察结果,并且在培训语料库中拥有更多来自目标语言的说话者并不总是有益的。此处的发现对于数据采购和语料库构建过程提供了信息。
translated by 谷歌翻译
人类语言中发现的最强大的模式之一是ZIPF的缩写定律,即更短的单词的趋势。自ZIPF开创性研究以来,该定律被视为压缩的体现,即形式的长度最小化 - 自然交流的普遍原则。尽管对语言进行优化的说法已经变得时尚,但衡量语言优化程度的尝试却相当稀缺。在这里,我们证明压缩在无例外的大量语言中表现出来,并且独立于测量单位。这两个单词长度都可以在书面语言的字符以及口语的持续时间中检测到。此外,为了衡量优化程度,我们得出了一个随机基线的简单公式,并提出了两个分数归一化的分数,即,它们相对于最小值和随机基线都进行了归一化。我们分析了这些和其他分数的理论和统计优势和缺点。利用最佳分数,我们首次量化了语言中单词长度的最佳程度。这表明当单词长度以字符测量时,语言平均被优化至62%或67%(取决于源),当单词长度及时测量时,平均而言,平均而言,平均而言,平均而言,平均而言,平均而言,平均至65%。通常,口语持续时间比字符中的书面单词长度更优化。除了这里报告的分析外,我们的工作还铺平了衡量其他物种发声或手势的最佳程度的方法,并将其与书面,口语或签名的人类语言进行比较。
translated by 谷歌翻译
我们介绍了Shennong,一个Python工具箱和命令行实用程序,用于语音功能提取。它实现了广泛的既定现实算法状态,包括诸如熔融频率纤维滤波器或预测的线性滤波器,预先训练的神经网络,音高估计器以及扬声器归一化方法和后处理算法的谱时间滤波器。 Shennong是一种开源,易于使用,可靠和可扩展的框架。 Python的使用使得集成到其他语音建模和机器学习工具方便。它旨在替换或补充几种异质软件,例如Kaldi或Praat。在描述神农软件架构,其核心组件和实现的算法之后,本文说明了三种应用的使用:语音特征在手机辨别任务上的性能进行比较,作为语音函数的声音轨道长度归一化模型的分析用于训练的持续时间和各种噪声条件下的音高估计算法的比较。
translated by 谷歌翻译
我们对瑞士德语的四个市售语音到文本(STT)系统进行了深入评估。该系统在本报告中被匿名化,并称为系统A-D。我们将这四个系统与我们的STT模型进行了比较,该模型之后称为FHNW,并提供了有关我们如何训练模型的详细信息。为了评估模型,我们使用来自不同域的两个STT数据集。瑞士议会语料库(SPC)测试集和新闻领域中的私人数据集,在七个方言区域进行了均匀分布。我们提供详细的误差分析,以检测三个系统的优势和劣势。该分析受两个测试集的特征的限制。我们的模型在两个数据集上均评分了双语评估研究(BLEU)。在SPC测试集中,我们获得了0.607的BLEU分数,而最佳商业系统的BLEU得分为0.509。在我们的私人测试集中,我们获得了0.722的BLEU分数,最佳商业系统的BLEU得分为0.568。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
代码切换是在对话期间交换语言时的语音现象。尽管对会话语言中的代码切换的自发性,但大多数现有工程通过读取语音而不是自发的语音来收集代码切换数据。Ascend(一个自发的中国英语数据集)介绍了香港收集的自发多转对话对话中英语代码切换语料库的高质量资源。我们报告了提升的设计和收集语音数据的程序,包括在这项工作中的注释。上升包括23个双语,这些双语流利,汉英都流利,而且由9.23小时的清洁语音组成。
translated by 谷歌翻译
Speech systems are sensitive to accent variations. This is especially challenging in the Indian context, with an abundance of languages but a dearth of linguistic studies characterising pronunciation variations. The growing number of L2 English speakers in India reinforces the need to study accents and L1-L2 interactions. We investigate the accents of Indian English (IE) speakers and report in detail our observations, both specific and common to all regions. In particular, we observe the phonemic variations and phonotactics occurring in the speakers' native languages and apply this to their English pronunciations. We demonstrate the influence of 18 Indian languages on IE by comparing the native language pronunciations with IE pronunciations obtained jointly from existing literature studies and phonetically annotated speech of 80 speakers. Consequently, we are able to validate the intuitions of Indian language influences on IE pronunciations by justifying pronunciation rules from the perspective of Indian language phonology. We obtain a comprehensive description in terms of universal and region-specific characteristics of IE, which facilitates accent conversion and adaptation of existing ASR and TTS systems to different Indian accents.
translated by 谷歌翻译
在法医语音比较中,扬声器的嵌入在过去十年中已广泛流行。大多数审计的扬声器嵌入式嵌入都经过英语语料库进行培训,因为它很容易访问。因此,语言依赖性可能是自动法医语音比较的重要因素,尤其是当目标语言在语言上非常不同时。有许多商业系统可用,但是它们的模型主要接受与目标语言不同的语言(主要是英语)的培训。在低资源语言的情况下,开发用于法医目的的语料库,其中包含足够的扬声器来训练深度学习模型是昂贵的。这项研究旨在调查是否可以在目标低资源语言(匈牙利语)上使用预先培训的英语语料库的模型,与模型不同。另外,通常没有犯罪者(未知的扬声器)获得多个样本。因此,在有或没有说话者入学率的嫌疑人(已知)扬声器的情况下对样品进行比较。应用了两个语料库,这些语料库是专门用于法医目的的,第三个是用于传统演讲者验证的第三个语料库。使用了两种基于深度学习的扬声器嵌入向量提取方法:X-Vector和Ecapa-TDNN。说话者验证在可能性比率框架中进行了评估。在语言组合(建模,LR校准,评估)之间进行了比较。通过MinCllr和EER指标评估了结果。发现该模型以不同的语言进行了预先训练,但是在具有大量扬声器的语料库上,在语言不匹配的样本上表现良好。还检查了样本持续时间和口语样式的影响。发现相关样本的持续时间越长,性能就越好。另外,如果采用各种口语样式,则没有真正的区别。
translated by 谷歌翻译