语音触发检测是一项重要的任务,它可以在目标用户说关键字短语时激活语音助手。通常对探测器进行语音数据培训,独立于说话者信息,并用于语音触发检测任务。但是,这样的说话者独立语音触发探测器通常会遭受绩效降低,因为代表性不足的群体,例如重音说话者。在这项工作中,我们提出了一个新颖的语音触发探测器,该触发探测器可以使用目标扬声器中的少量话语来提高检测准确性。我们提出的模型采用编码器架构。尽管编码器执行扬声器独立语音触发检测,但类似于传统检测器,解码器预测了每种话语的个性化嵌入。然后,获得个性化的语音触发分数作为在注册话语的嵌入与测试话语之间的相似性得分。个性化的嵌入允许在计算语音触发评分时适应目标扬声器的语音,从而提高语音触发检测精度。实验结果表明,与基线扬声器独立语音触发模型相比,所提出的方法相对降低(FRR)的相对降低38%。
translated by 谷歌翻译
个性化语音合成系统是一个非常期望的应用程序,其中系统可以使用罕见的登记录制与用户的语音产生语音。最近有两种主要方法可以在近期建立这样的系统:扬声器适配和扬声器编码。一方面,扬声器适配方法微调训练有素的多扬声器文本到语音(TTS)模型,只有少数注册样本。然而,它们需要至少有数千个微调步骤以进行高质量适应,使其难以在设备上施加。另一方面,扬声器编码方法将注册话语编码为扬声器嵌入。训练的TTS模型可以在相应的扬声器嵌入上综合用户的语音。然而,扬声器编码器遭受了所看到和看不见的扬声器之间的泛化差距。在本文中,我们建议将元学习算法应用于扬声器适应方法。更具体地说,我们使用模型不可知的元学习(MAML)作为多扬声器TTS模型的训练算法,其旨在找到一个很好的元初始化,以便快速地将模型调整到任何几次扬声器适应任务。因此,我们还可以将元训练的TTS模型调整为有效地解除扬声器。我们的实验比较了两个基线的提出方法(Meta-TTS):扬声器适配方法基线和扬声器编码方法基线。评估结果表明,Meta-TTS可以从扬声器适应基线的少量适应步骤中综合高扬声器相似性语音,而不是扬声器适配基线,并且在相同的训练方案下优于扬声器编码基线。当基线的扬声器编码器用额外的8371个扬声器进行预先培训时,Meta-TTS仍然可以越优于库特布特数据集的基线,并在VCTK数据集上实现可比结果。
translated by 谷歌翻译
在本文中,我们提出了一种解决方案,以允许扬声器条件语音模型,例如VoiceFilter-Lite,以支持单个通过中的任意数量的注册用户。这是通过使用多个扬声器嵌入的注意机制来实现,以计算单个细小嵌入,然后将其用作模型的侧面输入。我们实现了多用户VoiceFilter-Lite并为三个任务进行了评估:(1)流自动语音识别(ASR)任务; (2)独立于文本的扬声器验证任务; (3)个性化关键级检测任务,其中ASR必须在嘈杂的环境中检测来自多个注册用户的关键次数。我们的实验表明,在最多四个注册的用户中,多用户VoiceFilter-Lite能够在具有重叠语音时显着降低语音识别和扬声器验证错误,而不会影响其他声学条件下的性能。这种细心的扬声器嵌入方法也可以轻松应用于其他扬声器条件模型,如个人VAD和个性化ASR。
translated by 谷歌翻译
无监督的零射声语音转换(VC)旨在修改话语的扬声器特性,以匹配看不见的目标扬声器,而无需依赖并行培训数据。最近,已经显示了语音表示的自我监督学习在不使用转录物的情况下产生有用的语言单元,这可以直接传递给VC模型。在本文中,我们展示了通过使用长度重采样解码器来实现高质量的音频样本,这使得VC模型能够与不同的语言特征提取器和声码器一起工作,而无需它们以相同的序列长度运行。我们表明,我们的方法可以胜过VCTK数据集的许多基线。在不修改架构的情况下,我们进一步展示了a)使用来自同一扬声器的不同音频段,b)添加循环一致性损失,并且c)添加扬声器分类损失可以有助于学习更好的扬声器嵌入。我们的模型使用这些技术训练了Libritts,实现了最佳性能,产生了音频样本对目标扬声器的声音,同时保留了在字符错误率方面与实际人类话语相当的语言内容。
translated by 谷歌翻译
关键字斑点(KWS)在启用智能设备上的基于语音的用户互动方面起着至关重要的作用,而常规KWS(C-KWS)方法集中在检测用户无关的预定关键字上。但是,实际上,大多数用户互动都来自该设备中注册的目标用户,这些用户激发了构建个性化关键字发现的设备。我们设计了两个个性化的KWS任务; (1)目标用户偏置KWS(TB-KWS)和(2)仅目标用户KWS(TO-KWS)。为了解决任务,我们通过多任务学习(PK-MTL)提出个性化关键字,该关键字可以通过多任务学习和任务适应为组成。首先,我们介绍对关键字发现和扬声器验证的多任务学习,以利用用户信息到关键字发现系统。接下来,我们设计特定于任务的评分功能,以彻底适应个性化的KWS任务。我们在常规和个性化场景上评估了框架,结果表明,PK-MTL可以大大降低错误警报率,尤其是在各种实际情况下。
translated by 谷歌翻译
In this paper, we propose a new loss function called generalized end-to-end (GE2E) loss, which makes the training of speaker verification models more efficient than our previous tuple-based endto-end (TE2E) loss function. Unlike TE2E, the GE2E loss function updates the network in a way that emphasizes examples that are difficult to verify at each step of the training process. Additionally, the GE2E loss does not require an initial stage of example selection. With these properties, our model with the new loss function decreases speaker verification EER by more than 10%, while reducing the training time by 60% at the same time. We also introduce the MultiReader technique, which allows us to do domain adaptationtraining a more accurate model that supports multiple keywords (i.e., "OK Google" and "Hey Google") as well as multiple dialects.
translated by 谷歌翻译
如今,随着越来越多的系统在传统的语音转换(VC)任务中实现了良好的性能,人们的注意力在极端条件下逐渐转向VC任务。在本文中,我们提出了一种零射声语音转换的新方法。我们的目标是获取讲话者内容解剖的中间陈述,以更好地删除发言者信息并获得纯净的内容信息。因此,我们所提出的框架包含一种模块,该模块从源扬声器的声学特征中移除扬声器信息。此外,扬声器信息控制被添加到我们的系统中以维持语音克隆性能。所提出的系统由主观和客观度量评估。结果表明,我们提出的系统显着降低了零射声语音转换中的权衡问题,而且还可以对扬声器验证系统进行高欺骗功率。
translated by 谷歌翻译
近年来,在设备上的演讲识别(ASR)的个性化已经爆炸性增长,这在很大程度上是由于个人助理功能在移动设备和智能家居扬声器上越来越受欢迎。在这项工作中,我们提出了个人VAD 2.0,这是一种个性化的语音活动探测器,可检测目标扬声器的语音活动,作为流媒体上的ASR系统的一部分。尽管以前的概念证明研究已经验证了个人VAD的有效性,但在生产中可以使用该模型之前,仍然存在一些关键的挑战:首先,在招生和无人列的场景中,质量必须令人满意。其次,它应该以流媒体方式运行。最后,型号的大小应足够小,以适合有限的延迟和CPU/内存预算。为了满足多方面的要求,我们提出了一系列新颖的设计:1)高级扬声器嵌入调制方法; 2)一种新的培训范式,以概括为无数的条件; 3)用于延迟和资源限制的体系结构和运行时优化。对现实语音识别系统的广泛实验证明了我们提出的方法的最新性能。
translated by 谷歌翻译
端到端模型在自动语音识别中快速更换传统的混合模型。变压器,基于机器翻译任务的自我关注的序列到序列模型,在用于自动语音识别时已经给出了有希望的结果。本文探讨了在培训基于变压器的模型的同时在编码器输入时结合扬声器信息的不同方式,以提高其语音识别性能。我们以每个扬声器的扬声器嵌入形式呈现扬声器信息。我们使用两种类型的扬声器嵌入进行实验:在我们以前的工作中提出的X-Vectors和新颖的S-Vectors。我们向两个数据集报告结果a)肉kel讲座数据库和b)librispeech 500小时分割。NPTEL是一个开源电子学习门户,提供来自印度顶级大学的讲座。通过我们将扬声器嵌入的方法集成到模型中,我们通过基线获得了基线的错误率的改进。
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
In this paper, we present a novel method for phoneme-level prosody control of F0 and duration using intuitive discrete labels. We propose an unsupervised prosodic clustering process which is used to discretize phoneme-level F0 and duration features from a multispeaker speech dataset. These features are fed as an input sequence of prosodic labels to a prosody encoder module which augments an autoregressive attention-based text-to-speech model. We utilize various methods in order to improve prosodic control range and coverage, such as augmentation, F0 normalization, balanced clustering for duration and speaker-independent clustering. The final model enables fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. Instead of relying on reference utterances for inference, we introduce a prior prosody encoder which learns the style of each speaker and enables speech synthesis without the requirement of reference audio. We also fine-tune the multispeaker model to unseen speakers with limited amounts of data, as a realistic application scenario and show that the prosody control capabilities are maintained, verifying that the speaker-independent prosodic clustering is effective. Experimental results show that the model has high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
translated by 谷歌翻译
在本文中,我们提出了自我监督的发言者表示学习策略,该策略包括在前端的引导平衡扬声器表示学习和在后端的不确定性意识的概率扬声器嵌入训练。在前端阶段,我们通过具有均匀性正则化术语的引导训练方案来学习扬声器表示。在后端阶段,通过最大化属于同一扬声器的语音样本之间的相互似然分数来估计概率扬声器嵌入,这不仅提供扬声器表示,而且提供数据不确定性。实验结果表明,拟议的举止均衡训练策略可以有效地帮助了解扬声器表示,并以基于对比学习的传统方法优越。此外,我们展示了集成的两级框架在eer和mindcf方面进一步改善了VoxceleB1测试中的扬声器验证性能。
translated by 谷歌翻译
Voice anti-spoofing systems are crucial auxiliaries for automatic speaker verification (ASV) systems. A major challenge is caused by unseen attacks empowered by advanced speech synthesis technologies. Our previous research on one-class learning has improved the generalization ability to unseen attacks by compacting the bona fide speech in the embedding space. However, such compactness lacks consideration of the diversity of speakers. In this work, we propose speaker attractor multi-center one-class learning (SAMO), which clusters bona fide speech around a number of speaker attractors and pushes away spoofing attacks from all the attractors in a high-dimensional embedding space. For training, we propose an algorithm for the co-optimization of bona fide speech clustering and bona fide/spoof classification. For inference, we propose strategies to enable anti-spoofing for speakers without enrollment. Our proposed system outperforms existing state-of-the-art single systems with a relative improvement of 38% on equal error rate (EER) on the ASVspoof2019 LA evaluation set.
translated by 谷歌翻译
本文介绍了对F0的音素级韵律控制的方法和多销箱文本到语音设置的持续时间,基于韵律聚类。使用自回归关注的模型,并将多个箱子架构模块并联,与韵律编码器并联。提出了对基本单扬声器方法的几种改进,从而增加了韵律控制范围和覆盖范围。更具体地说,我们采用数据增强,F0​​标准化,持续时间的平衡集群,以及扬声器无关的韵律聚类。这些修改使培训集中包含的所有发言者能够进行细粒度的音素级韵律控制,同时保持扬声器标识。该模型也可以微调到具有限制数据量的看不见的扬声器,并显示其维持其韵律控制能力,验证说话者无关的韵律聚类是有效的。实验结果验证了该模型维持了高输出语音质量,并且该方法允许在每个扬声器范围内有效的韵律控制,尽管多种式箱子设置介绍的变化。
translated by 谷歌翻译
在文本到语音(TTS)综合中的语音克隆几次拍摄样式转移的任务旨在使用非常有限的中性数据将任意源扬声器的讲话方式转移到目标扬声器的语音。这是一个非常具有挑战性的任务,因为学习算法需要同时处理几次拍摄的语音克隆和扬声器洛喻解除术。加速新的目标扬声器的适应过程在现实世界应用中具有重要性,但更具挑战性。在本文中,我们使用元学习方法探讨语音克隆任务的艰难少量拍摄方式。我们调查模型 - 不可知的元学习(MAML)算法和Meta-Transfer将预先训练的多扬声器和多韵律基础TTS模型进行高度敏感,适应少量样品。域反对派培训机制和正交约束被采用解散扬声器和韵律思想,以实现有效的跨州式转移。实验结果表明,该方法能够使用来自目标扬声器的5个样本(大约12个语音数据)进行快速的语音克隆,只有100个适配步骤。音频样本可在线获取。
translated by 谷歌翻译
我们引入了一种新的自动评估方法,用于说话者相似性评估,这与人类感知得分一致。现代神经文本到语音模型需要大量的干净训练数据,这就是为什么许多解决方案从单个扬声器模型转换为在许多不同扬声器的示例中训练的解决方案的原因。多扬声器模型带来了新的可能性,例如更快地创建新声音,也是一个新问题 - 扬声器泄漏,其中合成示例的扬声器身份可能与目标扬声器的示例不符。当前,发现此问题的唯一方法是通过昂贵的感知评估。在这项工作中,我们提出了一种评估说话者相似性的自动方法。为此,我们扩展了有关说话者验证系统的最新工作,并评估不同的指标和说话者嵌入模型如何以隐藏的参考和锚(Mushra)分数反映多个刺激。我们的实验表明,我们可以训练一个模型来预测扬声器嵌入的扬声器相似性,其精度为0.96的扬声器嵌入,并且在话语级别上最高0.78 Pearson分数。
translated by 谷歌翻译
本文介绍了流式扬声器的自动语音识别(SA-ASR)模型,该模型可以识别``即使多个人同时讲话,谁说'谁说什么”。我们的模型基于令牌级的序列化输出培训(T-SOT),该培训最近提议以流媒体方式转录多对词的演讲。为了进一步认识说话者的身份,我们提出了一个基于编码器的扬声器嵌入提取器,该扬声器可以估算每个公认的代币的说话者表示,不仅是从非重叠的语音中,而且还来自重叠的语音。所提出的扬声器嵌入为T-vector,与T-SOT ASR模型同步提取,从而可以通过低潜伏期的多词器转录来联合执行说话者识别(SID)或说话者诊断(SD)。我们通过使用LibrisPeechMix和Libralics Corpora评估了ASR和SID/SD联合任务的建议模型。所提出的模型比以前的流媒体模型获得了更高的准确性,并且与最新的离线SA-ASR模型显示出可比甚至更高的结果。
translated by 谷歌翻译
State-of-the-art speaker verification frameworks have typically focused on speech enhancement techniques with increasingly deeper (more layers) and wider (number of channels) models to improve their verification performance. Instead, this paper proposes an approach to increase the model resolution capability using attention-based dynamic kernels in a convolutional neural network to adapt the model parameters to be feature-conditioned. The attention weights on the kernels are further distilled by channel attention and multi-layer feature aggregation to learn global features from speech. This approach provides an efficient solution to improving representation capacity with lower data resources. This is due to the self-adaptation to inputs of the structures of the model parameters. The proposed dynamic convolutional model achieved 1.62\% EER and 0.18 miniDCF on the VoxCeleb1 test set and has a 17\% relative improvement compared to the ECAPA-TDNN.
translated by 谷歌翻译
端到端(E2E)自动语音识别(ASR)系统通常难以识别出罕见的单词,这在训练数据中出现了很少。一种有希望的方法,提高了这种稀有词语的识别准确性,是在推理的推理中锁定在个性化/上下文信息上。在这项工作中,我们通过利用这种上下文信号,提出了一种新颖的上下文传感器传感器(CATT)网络,其通过利用这种上下文信号来改善基于最先进的变换器的ASR系统。具体地,我们提出了一种基于多主题的上下文偏置网络,其与ASR子网的其余部分共同训练。我们探讨了对编码上下文数据的不同技术,并创建最终注意上下文向量。我们还利用BLSTM和预借用的基于BERT的模型来编码上下文数据并指导网络培训。使用内部现场数据集,我们示出了使用基于BERT的上下文编码器的CATT,可提高基线变压器传感器的字错误率,并且分别优于现有的深层上下文模型24.2%和19.4%。
translated by 谷歌翻译
当前的关键字发现系统通常通过大量预定义的关键字进行培训。在开放式摄影设置中识别关键字对于个性化智能设备互动至关重要。为了实现这一目标,我们提出了一个基于MLPMixer的纯粹基于MLP的神经网络,该网络是MLPMIXER - 一种MLP模型体系结构,可有效取代视觉变压器中的注意机制。我们研究了将mlpmixer体系结构适应QBYE开放式录音录一下关键字点斑点任务的不同方法。与最先进的RNN和CNN模型的比较表明,我们的方法在挑战性情况(10DB和6DB环境)上都在公开可用的HEY-SNIPS数据集和具有400个扬声器的更大规模的内部数据集上取得了更好的性能。与基线模型相比,我们提出的模型还具有较少数量的参数和MAC。
translated by 谷歌翻译