非参考语音质量模型对于越来越多的应用程序很重要。 VoiceMos 2022挑战提供了一个带有主观标签的合成语音转换和文本到语音样本的数据集。这项研究着眼于在元数据的主观语音质量和数据集的分布不平衡的主观评级中可以解释的差异。使用WAV2VEC 2.0构建语音质量模型,具有其他元数据功能,其中包括评估者组和系统标识符,并获得了竞争性指标,包括Spearman等级相关系数(SRCC)为0.934,MSE为0.088,在系统级别和0.877和0.198和0.198和0.198的MSE和0.198话语级别。使用数据限制或盲目的数据和元数据进一步改善了指标。元数据分析表明,由于验证和测试数据集中每个系统使用的话语数量的广泛变化,系统级指标并不代表模型的系统级预测。我们得出的结论是,通常,条件在测试集中应具有足够的话语以绑定样本平均误差,并且在系统之间的话语计数中相对平衡,否则话语级别的指标可能更可靠和可解释。
translated by 谷歌翻译
在这项工作中,我们介绍了SOMOS数据集,这是第一个大规模的意见分数(MOS)数据集,该数据集由完全神经文本到语音(TTS)样本组成。它可以用于训练专注于现代合成器评估的自动MOS预测系统,并可以刺激声学模型评估的进步。它由LJ语音语音的20k合成话语组成,LJ语音是一个公共领域的语音数据集,是建立神经声学模型和声码器的常见基准。来自200 TTS系统(包括香草神经声学模型以及允许韵律变化的模型)产生的话语。 LPCNET VOCODER用于所有系统,因此样品的变化仅取决于声学模型。合成的话语提供了平衡,足够的域和长度覆盖范围。我们对3个英国亚马逊机械土耳其人地点进行了MOS自然评估,并共享实践,从而为这项任务提供可靠的人群注释。我们为SOMOS数据集上的最先进的MOS预测模型提供了基线结果,并显示了该模型在评估TTS话语时所面临的局限性。
translated by 谷歌翻译
Speech quality assessment has been a critical component in many voice communication related applications such as telephony and online conferencing. Traditional intrusive speech quality assessment requires the clean reference of the degraded utterance to provide an accurate quality measurement. This requirement limits the usability of these methods in real-world scenarios. On the other hand, non-intrusive subjective measurement is the ``golden standard" in evaluating speech quality as human listeners can intrinsically evaluate the quality of any degraded speech with ease. In this paper, we propose a novel end-to-end model structure called Convolutional Context-Aware Transformer (CCAT) network to predict the mean opinion score (MOS) of human raters. We evaluate our model on three MOS-annotated datasets spanning multiple languages and distortion types and submit our results to the ConferencingSpeech 2022 Challenge. Our experiments show that CCAT provides promising MOS predictions compared to current state-of-art non-intrusive speech assessment models with average Pearson correlation coefficient (PCC) increasing from 0.530 to 0.697 and average RMSE decreasing from 0.768 to 0.570 compared to the baseline model on the challenge evaluation test set.
translated by 谷歌翻译
在这项研究中,我们提出了一种跨域多目标语音评估模型,即MOSA-net,可以同时估算多个语音评估度量。更具体地,MOSA-Net旨在基于作为输入的测试语音信号来估计语音质量,可懂度和失真评估分数。它包括用于表示提取的卷积神经网络和双向长短期存储器(CNN-BLSTM)架构,以及每个评估度量的乘法注意层和完全连接的层。此外,来自自我监督学习模型的跨域特征(光谱和时域特征)和潜在的表示用作将丰富的声学信息与不同语音表示相结合的输入,以获得更准确的评估。实验结果表明,MOSA-Net可以精确地预测语音质量(PESQ),短时间客观可懂度(STOI)和语音失真指数(SDI)分数的感知评估,并且在噪声下进行了测试,并且在任何看法测试下都有增强的语音话语条件(测试扬声器和训练集中涉及的噪音类型)或看不见的测试条件(其中测试扬声器和噪声类型不参与训练集)。鉴于确认的预测能力,我们进一步采用了MOSA网的潜在表示来引导语音增强(SE)过程,并导出了质量清晰度(QI)-AWARE SE(QIA-SE)方法。实验结果表明,与客观评估指标和定性评估测试相比,QIA-SE与基线SE系统相比提供了卓越的增强性能。
translated by 谷歌翻译
已经研究了预测听众平均意见评分(MOS)的自动方法,以确保文本到语音系统的质量。许多先前的研究都集中在建筑进步(例如MBNET,LDNET等)上,以更有效的方式捕获光谱特征和MOS之间的关系,并获得了高精度。但是,从概括能力方面的最佳表示仍在很大程度上仍然未知。为此,我们比较了WAV2VEC框架获得的自我监督学习(SSL)特征与光谱特征(例如光谱图和Melspectrogron的幅度)的性能。此外,我们建议将SSL功能和功能结合起来,我们认为我们认为将基本信息保留到自动MOS上,以相互补偿其缺点。我们对从过去的暴风雪和语音转换挑战中收集的大规模听力测试语料库进行了全面的实验。我们发现,即使给定的地面真相并不总是可靠,WAV2VEC功能集也显示出最佳的概括。此外,我们发现组合表现最好,并分析了它们如何弥合光谱和WAV2VEC特征集之间的差距。
translated by 谷歌翻译
平均意见评分(MOS)是语音合成系统的典型主观评估指标。由于收集MOS是耗时的,因此如果有自动评估的准确MOS预测模型,那将是可取的。在这项工作中,我们提出了一个新型MOS预测模型DDOS。DDOS利用域自适应预训练来进一步预训练自制的学习模型,以进行合成语音。并添加了一个建议的模块来对每个话语的意见分数分布进行建模。使用提出的组件,DDOS在BVCC数据集上的表现优于先前的作品。BC2019数据集的零射击传输结果得到显着改善。DDO还以系统级别的分数在Interspeech 2022 Voicemos挑战中赢得了第二名。
translated by 谷歌翻译
In this paper, we present a novel method for phoneme-level prosody control of F0 and duration using intuitive discrete labels. We propose an unsupervised prosodic clustering process which is used to discretize phoneme-level F0 and duration features from a multispeaker speech dataset. These features are fed as an input sequence of prosodic labels to a prosody encoder module which augments an autoregressive attention-based text-to-speech model. We utilize various methods in order to improve prosodic control range and coverage, such as augmentation, F0 normalization, balanced clustering for duration and speaker-independent clustering. The final model enables fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. Instead of relying on reference utterances for inference, we introduce a prior prosody encoder which learns the style of each speaker and enables speech synthesis without the requirement of reference audio. We also fine-tune the multispeaker model to unseen speakers with limited amounts of data, as a realistic application scenario and show that the prosody control capabilities are maintained, verifying that the speaker-independent prosodic clustering is effective. Experimental results show that the model has high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
translated by 谷歌翻译
While human evaluation is the most reliable metric for evaluating speech generation systems, it is generally costly and time-consuming. Previous studies on automatic speech quality assessment address the problem by predicting human evaluation scores with machine learning models. However, they rely on supervised learning and thus suffer from high annotation costs and domain-shift problems. We propose SpeechLMScore, an unsupervised metric to evaluate generated speech using a speech-language model. SpeechLMScore computes the average log-probability of a speech signal by mapping it into discrete tokens and measures the average probability of generating the sequence of tokens. Therefore, it does not require human annotation and is a highly scalable framework. Evaluation results demonstrate that the proposed metric shows a promising correlation with human evaluation scores on different speech generation tasks including voice conversion, text-to-speech, and speech enhancement.
translated by 谷歌翻译
语音中的自我监督学习涉及在大规模的未注释的语音语料库上训练语音表示网络,然后将学习的表示形式应用于下游任务。由于语音中SSL学习的大多数下游任务主要集中在语音中的内容信息上,因此最理想的语音表示形式应该能够将不需要的变化(例如说话者的变化)从内容中删除。但是,解开扬声器非常具有挑战性,因为删除说话者的信息也很容易导致内容丢失,而后者的损害通常远远超过了前者的好处。在本文中,我们提出了一种新的SSL方法,该方法可以实现扬声器分解而不会严重丢失内容。我们的方法是根据休伯特框架改编的,并结合了解开机制,以使教师标签和博学的代表规范化。我们在一组与内容相关的下游任务上评估了说话者分解的好处,并观察到我们的扬声器示词表示的一致且著名的性能优势。
translated by 谷歌翻译
我们引入了一种新的自动评估方法,用于说话者相似性评估,这与人类感知得分一致。现代神经文本到语音模型需要大量的干净训练数据,这就是为什么许多解决方案从单个扬声器模型转换为在许多不同扬声器的示例中训练的解决方案的原因。多扬声器模型带来了新的可能性,例如更快地创建新声音,也是一个新问题 - 扬声器泄漏,其中合成示例的扬声器身份可能与目标扬声器的示例不符。当前,发现此问题的唯一方法是通过昂贵的感知评估。在这项工作中,我们提出了一种评估说话者相似性的自动方法。为此,我们扩展了有关说话者验证系统的最新工作,并评估不同的指标和说话者嵌入模型如何以隐藏的参考和锚(Mushra)分数反映多个刺激。我们的实验表明,我们可以训练一个模型来预测扬声器嵌入的扬声器相似性,其精度为0.96的扬声器嵌入,并且在话语级别上最高0.78 Pearson分数。
translated by 谷歌翻译
无需清洁参考,非侵入式语音评估方法对客观评估引起了很大的关注。最近,已经应用了深度神经网络(DNN)模型来构建非侵入式语音评估方法并确认提供了有希望的性能。但是,基于DNN的大多数方法都是针对正常听力侦听者设计的,而不考虑听力损失因素。在本研究中,我们提出了一种由双向长期内存(BLSTM)模型形成的DNN的助听器语音评估网络(HASA-Net),以根据输入语音信号和指定的同时预测语音质量和可懂度分数听力损失模式。据我们所知,Hasa-net是利用统一的DNN的非侵入性模型来融入质量和可智能性评估的第一项工作。实验结果表明,HASA-NET的预测语音质量和可智能性评分与两个公知的侵入性助听剂评估指标高度相关,助听器语音质量指数(HASQI)和助听器语音感知指数(HASPI)。
translated by 谷歌翻译
Previous databases have been designed to further the development of fake audio detection. However, fake utterances are mostly generated by altering timbre, prosody, linguistic content or channel noise of original audios. They ignore a fake situation, in which the attacker manipulates an acoustic scene of the original audio with another forgery one. It will pose a major threat to our society if some people misuse the manipulated audio with malicious purpose. Therefore, this motivates us to fill in the gap. This paper designs such a dataset for scene fake audio detection (SceneFake). A manipulated audio in the SceneFake dataset involves only tampering the acoustic scene of an utterance by using speech enhancement technologies. We can not only detect fake utterances on a seen test set but also evaluate the generalization of fake detection models to unseen manipulation attacks. Some benchmark results are described on the SceneFake dataset. Besides, an analysis of fake attacks with different speech enhancement technologies and signal-to-noise ratios are presented on the dataset. The results show that scene manipulated utterances can not be detected reliably by the existing baseline models of ASVspoof 2019. Furthermore, the detection of unseen scene manipulation audio is still challenging.
translated by 谷歌翻译
语音智能评估模型是研究人员的重要工具,用于评估和改进语音处理模型。在本研究中,我们提出了INQSS,一种语音智能性评估模型,它使用频谱图和散射系数作为输入特征。此外,INQSS使用了一个多任务学习网络,其中质量分数可以指导语音可智能性评估的培训。由此产生的模型可以预测智能性分数,而且可以预测演讲的质量评分。实验结果证实,散射系数和质量分数是信息性的。此外,我们释放了TMHINT-QI,这是一个中国语音数据集,记录了清洁,嘈杂和增强的演讲的质量和可懂度分数。
translated by 谷歌翻译
宽带音频波形评估网络(Wawenets)是直接在宽带音频波形上运行的卷积神经网络,以便对这些波形进行评估。在目前的工作中,这些评估赋予了电信语音的素质(例如嘈杂,清晰度,整体语音质量)。 Wawenets是无引用网络,因为它们不需要他们评估的波形的``参考''(原始或未经证实的)版本。我们最初的Wawenet出版物引入了四个Wawenets,并模拟了已建立的全参考语音质量或清晰度估计算法的输出。我们已经更新了Wawenet架构,以提高效率和有效性。在这里,我们提出了一个密切跟踪七个不同质量和可理解性值的单一Wawenet。我们创建了第二个网络,该网络还跟踪四个主观语音质量维度。我们提供第三个网络,专注于公正的质量分数并达到很高的共识。这项工作用13种语言利用了334小时的演讲,超过200万个全参考目标值和超过93,000个主观意见分数。我们还解释了Wawenets的操作,并使用信号处理的语言确定其操作的关键:Relus从战略上将光谱信息从非DC组件移动到DC组件中。 96输出信号的直流值在96-D潜在空间中定义了一个向量,然后将该向量映射到输入波形的质量或清晰度值。
translated by 谷歌翻译
AI研究中的基石是创建和采用标准化培训和测试数据集,以指定最新模型的进度。一个特别成功的例子是用于培训和评估英语自然语言理解(NLU)模型的胶水数据集。围绕基于BERT的语言模型的大量研究围绕着胶水中NLU任务的性能改进。为了评估其他语言的语言模型,创建了几个特定语言的胶水数据集。语音语言理解(SLU)的领域遵循了类似的轨迹。大型自我监督模型(例如WAV2VEC2)的成功实现了具有相对易于访问的未标记数据的语音模型。然后可以在SLU任务(例如出色的基准测试)上评估这些模型。在这项工作中,我们将其扩展到通过释放Indicsuperb基准测试来指示语言。具体来说,我们做出以下三项贡献。 (i)我们收集了Kathbath,其中包含来自印度203个地区的1,218个贡献者的12个印度语言的1,684小时的标记语音数据。 (ii)使用Kathbath,我们在6个语音任务中创建基准:自动语音识别,扬声器验证,说话者识别(单声道/多),语言识别,逐个示例查询以及对12种语言的关键字发现。 (iii)在发布的基准测试中,我们与常用的基线Fbank一起训练和评估不同的自我监督模型。我们表明,在大多数任务上,特定于语言的微调模型比基线更准确,包括对于语言识别任务的76 \%差距。但是,对于说话者识别,在大型数据集上训练的自我监督模型证明了一个优势。我们希望Indicsuperb有助于发展印度语言的语音语言理解模型的进步。
translated by 谷歌翻译
VOXECEL数据集广泛用于扬声器识别研究。我们的工作有两个目的。首先,我们提供发言者年龄标签和(替代)发言人性别的注释。其次,我们通过构建具有不同特征和分类器的年龄和性别识别模型来展示这种元数据的使用。我们查询不同的名人数据库,并申请共识规则以获得年龄和性别标签。我们还使用我们的标签进行比较原始的VoxceleB性别标签,以识别可能在原始VoxceleB数据中误标记的记录。在建模方面,我们设计了对识别性别和年龄的多种功能和模型的综合研究。我们使用I-Vector特征的最佳系统实现了使用Logistic回归的性别识别任务的F1分数0.9829,并且使用RIDGE回归获得了9.443年的年龄回归的最低平均绝对误差(MAE)。这表明来自野外风格语音数据的年龄估计的挑战。
translated by 谷歌翻译
这项工作探讨了在不存在的人类发声声中合成语音的任务。我们称之为此任务“扬声器生成”,并呈现Tacosawn,一个在此任务中竞争地执行的系统。Tacosawn是一种基于重复的关注文本到语音模型,了解备用空间的发行版,这使得新颖和各种扬声器采样。我们的方法易于实现,并且不需要从扬声器ID系统转移学习。我们呈现客观和主观指标,用于评估此任务的表现,并证明我们所提出的客观指标与人类对扬声器相似性相关联。我们的演示页面上有音频样本。
translated by 谷歌翻译
Voice Conversion (VC) is the task of making a spoken utterance by one speaker sound as if uttered by a different speaker, while keeping other aspects like content unchanged. Current VC methods, focus primarily on spectral features like timbre, while ignoring the unique speaking style of people which often impacts prosody. In this study, we introduce a method for converting not only the timbre, but also prosodic information (i.e., rhythm and pitch changes) to those of the target speaker. The proposed approach is based on a pretrained, self-supervised, model for encoding speech to discrete units, which make it simple, effective, and easy to optimise. We consider the many-to-many setting with no paired data. We introduce a suite of quantitative and qualitative evaluation metrics for this setup, and empirically demonstrate the proposed approach is significantly superior to the evaluated baselines. Code and samples can be found under https://pages.cs.huji.ac.il/adiyoss-lab/dissc/ .
translated by 谷歌翻译
在本文中,介绍了文本到读取/唱歌系统,可以适应任何扬声器的声音。它利用基于TacoTron的多级箱子声学模型在只读语音数据训练,并且在音素级别提供韵律控制。还研究了基于传统DSP算法的数据集增强和额外的韵律操纵。神经TTS模型对看不见的扬声器的有限录音进行了微调,允许与目标的扬声器语音进行敲击/歌唱合成。描述了系统的详细管道,其包括从Capella歌曲的目标音调和持续时间值提取,并将其转换为在合成之前的目标扬声器的有效音符范围内。还研究了通过WSOLA输出的输出的韵律操纵的另外的阶段,以便更好地匹配目标持续时间值。合成的话语可以与乐器伴奏轨道混合以产生完整的歌曲。通过主观聆听测试评估所提出的系统,以及与可用的备用系统相比,该系统还旨在从只读训练数据产生合成歌唱语音。结果表明,该拟议的方法可以产生高质量的敲击/歌声,具有增加的自然。
translated by 谷歌翻译
无监督的零射声语音转换(VC)旨在修改话语的扬声器特性,以匹配看不见的目标扬声器,而无需依赖并行培训数据。最近,已经显示了语音表示的自我监督学习在不使用转录物的情况下产生有用的语言单元,这可以直接传递给VC模型。在本文中,我们展示了通过使用长度重采样解码器来实现高质量的音频样本,这使得VC模型能够与不同的语言特征提取器和声码器一起工作,而无需它们以相同的序列长度运行。我们表明,我们的方法可以胜过VCTK数据集的许多基线。在不修改架构的情况下,我们进一步展示了a)使用来自同一扬声器的不同音频段,b)添加循环一致性损失,并且c)添加扬声器分类损失可以有助于学习更好的扬声器嵌入。我们的模型使用这些技术训练了Libritts,实现了最佳性能,产生了音频样本对目标扬声器的声音,同时保留了在字符错误率方面与实际人类话语相当的语言内容。
translated by 谷歌翻译