With the advent of deep learning, a huge number of text-to-speech (TTS) models which produce human-like speech have emerged. Recently, by introducing syntactic and semantic information w.r.t the input text, various approaches have been proposed to enrich the naturalness and expressiveness of TTS models. Although these strategies showed impressive results, they still have some limitations in utilizing language information. First, most approaches only use graph networks to utilize syntactic and semantic information without considering linguistic features. Second, most previous works do not explicitly consider adjacent words when encoding syntactic and semantic information, even though it is obvious that adjacent words are usually meaningful when encoding the current word. To address these issues, we propose Relation-aware Word Encoding Network (RWEN), which effectively allows syntactic and semantic information based on two modules (i.e., Semantic-level Relation Encoding and Adjacent Word Relation Encoding). Experimental results show substantial improvements compared to previous works.
translated by 谷歌翻译
Exploiting rich linguistic information in raw text is crucial for expressive text-to-speech (TTS). As large scale pre-trained text representation develops, bidirectional encoder representations from Transformers (BERT) has been proven to embody semantic information and employed to TTS recently. However, original or simply fine-tuned BERT embeddings still cannot provide sufficient semantic knowledge that expressive TTS models should take into account. In this paper, we propose a word-level semantic representation enhancing method based on dependency structure and pre-trained BERT embedding. The BERT embedding of each word is reprocessed considering its specific dependencies and related words in the sentence, to generate more effective semantic representation for TTS. To better utilize the dependency structure, relational gated graph network (RGGN) is introduced to make semantic information flow and aggregate through the dependency structure. The experimental results show that the proposed method can further improve the naturalness and expressiveness of synthesized speeches on both Mandarin and English datasets.
translated by 谷歌翻译
在神经文本到语音(TTS)中,两阶段系统或一系列单独学习的模型显示出接近人类语音的合成质量。例如,FastSpeech2将输入文本转换为MEL-SPECTROGRAM,然后HIFI-GAN从MEL-Spectogram产生了原始波形,它们分别称为声学特征发生器和神经声码器。但是,他们的训练管道有些麻烦,因为它需要进行微调和准确的语音文本对齐,以实现最佳性能。在这项工作中,我们提出了端到端的文本到语音(E2E-TTS)模型,该模型具有简化的训练管道,并优于单独学习的模型。具体而言,我们提出的模型是经过对齐模块的联合训练的FastSpeech2和HIFI-GAN。由于训练和推理之间没有声学特征不匹配,因此不需要微调。此外,我们通过在联合培训框架中采用对齐学习目标来消除对外部语音文本对齐工具的依赖。在LJSpeech语料库上进行的实验表明,所提出的模型优于公开可用的模型,ESPNET2-TT在主观评估(MOS)(MOS)和一些客观评估中的最新实现。
translated by 谷歌翻译
End-to-end text-to-speech synthesis (TTS) can generate highly natural synthetic speech from raw text. However, rendering the correct pitch accents is still a challenging problem for end-to-end TTS. To tackle the challenge of rendering correct pitch accent in Japanese end-to-end TTS, we adopt PnG~BERT, a self-supervised pretrained model in the character and phoneme domain for TTS. We investigate the effects of features captured by PnG~BERT on Japanese TTS by modifying the fine-tuning condition to determine the conditions helpful inferring pitch accents. We manipulate content of PnG~BERT features from being text-oriented to speech-oriented by changing the number of fine-tuned layers during TTS. In addition, we teach PnG~BERT pitch accent information by fine-tuning with tone prediction as an additional downstream task. Our experimental results show that the features of PnG~BERT captured by pretraining contain information helpful inferring pitch accent, and PnG~BERT outperforms baseline Tacotron on accent correctness in a listening test.
translated by 谷歌翻译
诸如FastSpeech之类的非自动回归文本(TTS)模型可以比以前具有可比性的自回归模型合成语音的速度要快得多。 FastSpeech模型的培训依赖于持续时间预测的自回归教师模型(提供更多信息作为输入)和知识蒸馏(以简化输出中的数据分布),这可以缓解一对多的映射问题(即多个多个映射问题语音变化对应于TTS中的同一文本)。但是,FastSpeech有几个缺点:1)教师学生的蒸馏管线很复杂且耗时,2)从教师模型中提取的持续时间不够准确,并且从教师模型中提取的目标MEL光谱图会遭受信息损失的影响。由于数据的简化,两者都限制了语音质量。在本文中,我们提出了FastSpeech 2,它解决了FastSpeech中的问题,并更好地解决了TTS中的一对一映射问题1)直接用地面实现目标直接训练该模型,而不是教师的简化输出,以及2 )作为条件输入,引入更多语音信息(例如,音高,能量和更准确的持续时间)。具体而言,我们从语音波形中提取持续时间,音高和能量,并将其直接作为训练中的条件输入,并在推理中使用预测的值。我们进一步设计了FastSpeech 2s,这是首次尝试从文本中直接生成语音波形的尝试,从而享受完全端到端推断的好处。实验结果表明,1)FastSpeech 2在FastSpeech上实现了3倍的训练,而FastSpeech 2s的推理速度甚至更快; 2)FastSpeech 2和2S的语音质量优于FastSpeech,而FastSpeech 2甚至可以超越自回归型号。音频样本可在https://speechresearch.github.io/fastspeech2/上找到。
translated by 谷歌翻译
神经端到端TTS模型的最新进展显示出在常规句子的TTS中表现出高质量的自然合成语音。但是,当TTS中考虑整个段落时,重现相似的高质量,在构建基于段落的TTS模型时需要考虑大量上下文信息。为了减轻培训的困难,我们建议通过考虑跨性别,嵌入式结构在培训中对语言和韵律信息进行建模。三个子模块,包括语言学意识,韵律和句子位置网络。具体而言,要了解嵌入在段落中的信息以及相应的组件句子之间的关系,我们利用语言学意识和韵律感知网络。段落中的信息由编码器捕获,段落中的句子间信息通过多头注意机制学习。段落中的相对句子位置由句子位置网络明确利用。拟议中的TTS模型在女性普通话中录制的讲故事的音频语料库(4.08小时)接受了培训,该模型表明,它可以产生相当自然而良好的语音段落。与基于句子的模型相比,可以更好地预测和渲染的跨句子上下文信息,例如连续句子之间的断裂和韵律变化。在段落文本上进行了测试,其长度与培训数据的典型段落长度相似,比训练数据的典型段落长得多,新模型产生的TTS语音始终优先于主观测试和基于句子的模型和在客观措施中确认。
translated by 谷歌翻译
In this paper, we present a novel method for phoneme-level prosody control of F0 and duration using intuitive discrete labels. We propose an unsupervised prosodic clustering process which is used to discretize phoneme-level F0 and duration features from a multispeaker speech dataset. These features are fed as an input sequence of prosodic labels to a prosody encoder module which augments an autoregressive attention-based text-to-speech model. We utilize various methods in order to improve prosodic control range and coverage, such as augmentation, F0 normalization, balanced clustering for duration and speaker-independent clustering. The final model enables fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. Instead of relying on reference utterances for inference, we introduce a prior prosody encoder which learns the style of each speaker and enables speech synthesis without the requirement of reference audio. We also fine-tune the multispeaker model to unseen speakers with limited amounts of data, as a realistic application scenario and show that the prosody control capabilities are maintained, verifying that the speaker-independent prosodic clustering is effective. Experimental results show that the model has high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
translated by 谷歌翻译
基于方面的情感分析(ABSA)是一项精细的情感分析任务,旨在使特定方面的情感极性推断对齐方面和相应的情感。这是具有挑战性的,因为句子可能包含多个方面或复杂(例如,有条件,协调或逆境)的关系。最近,使用图神经网络利用依赖性语法信息是最受欢迎的趋势。尽管取得了成功,但在很大程度上依赖依赖树的方法在准确地建模方面的对准及其单词方面构成了挑战,因为依赖树可能会提供无关的关联的嘈杂信号(例如,“ conj”之间的关系“ conj”之间的关系。图2中的“伟大”和“可怕”。在本文中,为了减轻这个问题,我们提出了一个双轴法意识到的图形注意网络(BISYN-GAT+)。具体而言,bisyn-gat+完全利用句子组成树的语法信息(例如,短语分割和层次结构),以建模每个方面的情感感知环境(称为内在文章)和跨方面的情感关系(称为跨性别的情感)称为Inter-Contept)学习。四个基准数据集的实验表明,BISYN-GAT+的表现始终超过最新方法。
translated by 谷歌翻译
配音是重新录制演员对话的后期生产过程,广泛用于电影制作和视频制作。它通常由专业的语音演员手动进行,他用适当的韵律读取行,以及与预先录制的视频同步。在这项工作中,我们提出了神经翻译,第一个神经网络模型来解决新型自动视频配音(AVD)任务:合成与来自文本给定视频同步的人类语音。神经杜布斯是一种多模态文本到语音(TTS)模型,它利用视频中的唇部运动来控制所生成的语音的韵律。此外,为多扬声器设置开发了一种基于图像的扬声器嵌入(ISE)模块,这使得神经Dubber能够根据扬声器的脸部产生具有合理的Timbre的语音。化学讲座的实验单扬声器数据集和LRS2多扬声器数据集显示,神经杜布斯可以在语音质量方面产生与最先进的TTS模型的语音声音。最重要的是,定性和定量评估都表明,神经杜布斯可以通过视频控制综合演讲的韵律,并产生与视频同步的高保真语音。
translated by 谷歌翻译
重音文本到语音(TTS)合成旨在以重音(L2)作为标准版本(L1)的变体生成语音。强调TTS合成具有挑战性,因为在语音渲染和韵律模式方面,L2在L1上都不同。此外,在话语中无法控制重音强度的解决方案。在这项工作中,我们提出了一种神经TTS体系结构,使我们能够控制重音及其在推理过程中的强度。这是通过三种新型机制来实现的,1)一种重音方差适配器,可以用三个韵律控制因子(即俯仰,能量和持续时间)对复杂的重音方差进行建模; 2)一种重音强度建模策略来量化重音强度; 3)一个一致性约束模块,以鼓励TTS系统在良好的水平上呈现预期的重音强度。实验表明,在重音渲染和强度控制方面,所提出的系统在基线模型上的性能优于基线模型。据我们所知,这是对具有明确强度控制的重音TT合成的首次研究。
translated by 谷歌翻译
本文介绍了语音(TTS)系统的Microsoft端到端神经文本:暴风雪挑战2021。这一挑战的目标是从文本中综合自然和高质量的演讲,并在两个观点中接近这一目标:首先是直接模型,并在48 kHz采样率下产生波形,这比以前具有16 kHz或24 kHz采样率的先前系统带来更高的感知质量;第二个是通过系统设计来模拟语音中的变化信息,从而提高了韵律和自然。具体而言,对于48 kHz建模,我们预测声学模型中的16 kHz熔点 - 谱图,并提出称为HIFINET的声码器直接从预测的16kHz MEL谱图中产生48kHz波形,这可以更好地促进培训效率,建模稳定性和语音。质量。我们从显式(扬声器ID,语言ID,音高和持续时间)和隐式(话语级和音素级韵律)视角系统地模拟变化信息:1)对于扬声器和语言ID,我们在培训和推理中使用查找嵌入; 2)对于音高和持续时间,我们在训练中提取来自成对的文本语音数据的值,并使用两个预测器来预测推理中的值; 3)对于话语级和音素级韵律,我们使用两个参考编码器来提取训练中的值,并使用两个单独的预测器来预测推理中的值。此外,我们介绍了一个改进的符合子块,以更好地模拟声学模型中的本地和全局依赖性。对于任务SH1,DelightFultts在MOS测试中获得4.17均匀分数,4.35在SMOS测试中,表明我们所提出的系统的有效性
translated by 谷歌翻译
Open Information Extraction (OpenIE) aims to extract relational tuples from open-domain sentences. Traditional rule-based or statistical models have been developed based on syntactic structures of sentences, identified by syntactic parsers. However, previous neural OpenIE models under-explore the useful syntactic information. In this paper, we model both constituency and dependency trees into word-level graphs, and enable neural OpenIE to learn from the syntactic structures. To better fuse heterogeneous information from both graphs, we adopt multi-view learning to capture multiple relationships from them. Finally, the finetuned constituency and dependency representations are aggregated with sentential semantic representations for tuple generation. Experiments show that both constituency and dependency information, and the multi-view learning are effective.
translated by 谷歌翻译
本文介绍了一种在自回归关注文本到语音系统中控制音素级别的韵律的方法。除了通常完成的常见框架中,我们将从培训集中的语音数据中直接提取音素级F0和持续时间特征,而不是学习潜在韵律特征。每个韵律特征是使用无监督聚类离散化,以便为每个话语产生一系列韵律标签。该序列与音素序列并行使用,以便通过利用韵律编码器和相应的注意模块来调节解码器。实验结果表明,该方法保留了高质量的生成语音,同时允许对F0和持续时间进行音素级控制。通过用音符替换F0集群质心,该模型还可以在扬声器范围内提供对音符和八度音的控制。
translated by 谷歌翻译
语法纠错(GEC)是检测和纠正句子中语法错误的任务。最近,神经机翻译系统已成为这项任务的流行方法。然而,这些方法缺乏使用句法知识,这在语法错误的校正中起着重要作用。在这项工作中,我们提出了一种语法引导的GEC模型(SG-GEC),它采用图表注意机制来利用依赖树的句法知识。考虑到语法不正确的源句子的依赖性树可以提供不正确的语法知识,我们提出了一个依赖树修正任务来处理它。结合数据增强方法,我们的模型在不使用任何大型预先训练模型的情况下实现了强大的性能。我们评估我们在GEC任务的公共基准上的模型,实现了竞争结果。
translated by 谷歌翻译
基于神经网络的嵌入一直是创建文本的向量表示以捕获词汇和语义相似性和差异的主流方法。通常,现有的编码方法将标点符号视为微不足道的信息;因此,通常将它们视为预定义的令牌/单词或在预处理阶段消除。但是,标点符号可能在句子的语义中发挥重要作用,例如“让我们吃\ hl {,}奶奶”和“让我们吃奶奶”。我们假设标点符号表示模型将影响下游任务的性能。因此,我们提出了一种模型 - 不足的方法,该方法同时结合了句法和上下文信息,以提高情感分类任务的性能。我们通过对公开可用数据集进行实验来证实我们的发现,并提供案例研究,我们的模型就句子中的标点符号生成了表示。
translated by 谷歌翻译
We propose a transition-based approach that, by training a single model, can efficiently parse any input sentence with both constituent and dependency trees, supporting both continuous/projective and discontinuous/non-projective syntactic structures. To that end, we develop a Pointer Network architecture with two separate task-specific decoders and a common encoder, and follow a multitask learning strategy to jointly train them. The resulting quadratic system, not only becomes the first parser that can jointly produce both unrestricted constituent and dependency trees from a single model, but also proves that both syntactic formalisms can benefit from each other during training, achieving state-of-the-art accuracies in several widely-used benchmarks such as the continuous English and Chinese Penn Treebanks, as well as the discontinuous German NEGRA and TIGER datasets.
translated by 谷歌翻译
我们通过纳入通用依赖性(UD)的句法特征来瞄准直接零射击设置中的跨语言机器阅读理解(MRC)的任务,以及我们使用的关键功能是每个句子中的语法关系。虽然以前的工作已经证明了有效的语法引导MRC模型,但我们建议采用句子际句法关系,除了基本的句子关系外,还可以进一步利用MRC任务的多句子输入中的句法依赖性。在我们的方法中,我们构建了句子间依赖图(ISDG)连接依赖树以形成横跨句子的全局句法关系。然后,我们提出了编码全局依赖关系图的ISDG编码器,通过明确地通过一个跳和多跳依赖性路径来解决句子间关系。三个多语言MRC数据集(XQUAD,MLQA,Tydiqa-Goldp)的实验表明,我们仅对英语培训的编码器能够在涵盖8种语言的所有14个测试集中提高零射性能,最高可达3.8 F1 / 5.2 EM平均改善,以及某些语言的5.2 F1 / 11.2 em。进一步的分析表明,改进可以归因于跨语言上一致的句法路径上的注意力。
translated by 谷歌翻译
本文对过去二十年来对自然语言生成(NLG)的研究提供了全面的审查,特别是与数据到文本生成和文本到文本生成深度学习方法有关,以及NLG的新应用技术。该调查旨在(a)给出关于NLG核心任务的最新综合,以及该领域采用的建筑;(b)详细介绍各种NLG任务和数据集,并提请注意NLG评估中的挑战,专注于不同的评估方法及其关系;(c)强调一些未来的强调和相对近期的研究问题,因为NLG和其他人工智能领域的协同作用而增加,例如计算机视觉,文本和计算创造力。
translated by 谷歌翻译
最近结束语音合成的最新进步使得能够产生高度自然的语音。然而,训练这些模型通常需要大量的高保真语音数据,并且对于看不见的文本,合成语音的韵律相对不自然。为了解决这些问题,我们建议将基于精细的BERT基前端与基于预先训练的FastSeech2的声学模型结合起来,以改善韵律建模。在多任务学习中,预训练的伯爵在多电话消歧任务中,联合中文词组分割任务,联合中文字分割(CWS)和演讲(POS)标记任务,以及在多任务学习中的韵律结构预测(PSP)任务框架。FastSeech 2在大规模的外部数据上预先培训,这些数据很少,但更容易获得。实验结果表明,微调BERT模型和预训练的禁止轴2可以改善韵律,特别是对于那些结构复杂的句子。
translated by 谷歌翻译
如今,预先训练的语言模型对于问题产生(QG)任务取得了巨大成功,并明显超过传统的顺序到序列方法。但是,预训练的模型将输入段视为平坦序列,因此不了解输入段的文本结构。对于QG任务,我们将文本结构建模为答案位置和句法依赖性,并提出答案局部性建模和句法掩盖的注意,以解决这些局限性。特别是,我们以高斯偏见为局部建模,以使模型能够专注于答案的上下文,并提出一种掩盖注意机制,以使输入段落的句法结构在问题生成过程中访问。在小队数据集上进行的实验表明,我们提出的两个模块改善了强大的预训练模型ProPHETNET的性能,并将它们梳理在一起,可以通过最先进的预培训模型来实现非常有竞争力的结果。
translated by 谷歌翻译