State-of-the-art speaker verification frameworks have typically focused on speech enhancement techniques with increasingly deeper (more layers) and wider (number of channels) models to improve their verification performance. Instead, this paper proposes an approach to increase the model resolution capability using attention-based dynamic kernels in a convolutional neural network to adapt the model parameters to be feature-conditioned. The attention weights on the kernels are further distilled by channel attention and multi-layer feature aggregation to learn global features from speech. This approach provides an efficient solution to improving representation capacity with lower data resources. This is due to the self-adaptation to inputs of the structures of the model parameters. The proposed dynamic convolutional model achieved 1.62\% EER and 0.18 miniDCF on the VoxCeleb1 test set and has a 17\% relative improvement compared to the ECAPA-TDNN.
translated by 谷歌翻译
Speaker embedding extractors significantly influence the performance of clustering-based speaker diarisation systems. Conventionally, only one embedding is extracted from each speech segment. However, because of the sliding window approach, a segment easily includes two or more speakers owing to speaker change points. This study proposes a novel embedding extractor architecture, referred to as a high-resolution embedding extractor (HEE), which extracts multiple high-resolution embeddings from each speech segment. Hee consists of a feature-map extractor and an enhancer, where the enhancer with the self-attention mechanism is the key to success. The enhancer of HEE replaces the aggregation process; instead of a global pooling layer, the enhancer combines relative information to each frame via attention leveraging the global context. Extracted dense frame-level embeddings can each represent a speaker. Thus, multiple speakers can be represented by different frame-level features in each segment. We also propose an artificially generating mixture data training framework to train the proposed HEE. Through experiments on five evaluation sets, including four public datasets, the proposed HEE demonstrates at least 10% improvement on each evaluation set, except for one dataset, which we analyse that rapid speaker changes less exist.
translated by 谷歌翻译
这项工作旨在自动评估儿童的语言发展是否适合年龄。经过验证的语音和语言测试用于此目的测试听觉记忆。在这项工作中,任务是确定是否正确说出了口语非单词。我们比较有动机来建模特定语言结构的不同方法:低水平特征(FFT),扬声器嵌入(ECAPA-TDNN),素化 - 动机的嵌入(WAV2VEC 2.0)和语音嵌入Senones(ASR ASR ACOSTIC模型)形式。每种方法都提供了类似VGG的5层CNN分类器的输入。我们还检查了每个非单词的适应性。使用来自口头非单词的不同幼儿园的录音进行了对拟议系统的评估。 ECAPA-TDNN和低级FFT特征不会明确模型语音信息; WAV2VEC2.0经过素数标签训练,我们的ASR声学模型包含(子)语音信息。我们发现,语音建模越颗粒状,达到的识别率就越高。在ASR声学模型特征上训练的最佳系统的精度为89.4%,在ROC(接收器操作特征)曲线(AUC)下的面积为0.923。与FFT-BASELINE相比,这对应于20.2%和AUC相对0.309的改善。
translated by 谷歌翻译
卷积神经网络(CNNS),例如时滞神经网络(TDNN),在学习扬声器嵌入方面已经示出了它们显着的能力。但是,它们同时在存储大小,处理和记忆中带来巨大的计算成本。发现符合特定约束的专业CNN需要努力的人类专家。与手工设计的方法相比,神经结构搜索(NAS)作为自动化手动架构设计过程的实用技术,并引起了对扬声器识别等口语处理任务的越来越兴趣。在本文中,我们提出了一种高效的架构搜索框架,该架构由基于TDNN的超网络和TDNN-NAS算法组成。该提出的超网络引入了从不同层的各种分辨率的不同范围的不同范围的时间卷积,并从不同层到TDNN。在其顶部,TDNN-NAS算法通过权重共享子网迅速搜索所需的TDNN架构,这令人惊讶地减少了处理具有各种资源要求的广大设备的计算。 VOXECEL数据集上的实验结果显示了所提出的效率,可以近似有关深度,内核和宽度的$ 10 ^ {13} $架构。考虑到不同的计算约束,它实现了2.20%的误差率(eer),具有204m的乘法累积操作(Mac),1.41%eer,具有571米Mac以及0.94%的eer,具有1.45g Mac。综合调查表明,训练有素的超空心概括了在培训期间未采样的子网,并在准确性和效率之间获得有利的权衡。
translated by 谷歌翻译
The objective of this paper is speaker recognition under noisy and unconstrained conditions.We make two key contributions. First, we introduce a very large-scale audio-visual speaker recognition dataset collected from open-source media. Using a fully automated pipeline, we curate VoxCeleb2 which contains over a million utterances from over 6,000 speakers. This is several times larger than any publicly available speaker recognition dataset.Second, we develop and compare Convolutional Neural Network (CNN) models and training strategies that can effectively recognise identities from voice under various conditions. The models trained on the VoxCeleb2 dataset surpass the performance of previous works on a benchmark dataset by a significant margin.
translated by 谷歌翻译
自动扬声器识别算法通常使用预定义的过滤库,例如MEL频率和伽马酮滤波器,以表征语音音频。但是,已经观察到使用这些滤纸提取的功能对各种音频降解没有弹性。在这项工作中,我们提出了一种基于学习的技术,以从大量的语音音频中推断出滤纸设计。这种过滤库的目的是提取特征在非理想的音频条件下(例如退化,持续时间短和多语言语音)的功能。为此,1D卷积神经网络旨在直接从原始的语音音频中学习一个名为deepvox的时间域滤纸。其次,开发了一种自适应三重态挖掘技术,以有效地挖掘最适合训练过滤器的数据样本。第三,对DeepVox FilterBanks进行的详细消融研究揭示了提取特征中的声源和声带特征的存在。 Voxceleb2,NIST SRE 2008、2010和2018和Fisher Speech数据集的实验结果证明了DeepVox特征在各种退化,短期和多语言语音中的功效。 DeepVox的功能还显示出可提高现有说话者识别算法的性能,例如XVECTOR-PLDA和IVECTOR-PLDA。
translated by 谷歌翻译
最近,注意机制已成功应用于基于神经网络的说话者验证系统。将挤压和兴奋的块纳入卷积神经网络中的表现出色。但是,它使用全球平均池(GAP)简单地沿时间和频率维度平均功能,这无法在功能地图中保留足够的扬声器信息。在这项研究中,我们表明GAP是时间频域在数学上仅使用频率分解中最低频率分量的特殊情况。为了增强扬声器信息提取能力,我们建议利用多频信息,并设计两个新颖的有效注意模块,称为单频率单通道(SFSC)注意模块和多频单通道(MFSC)注意模块。提出的注意模块可以根据DCT有效地从多个频率组件中捕获更多扬声器信息。我们在Voxceleb数据集上进行了全面的实验,并对第148个UTD法医语料库进行了探测评估。实验结果表明,我们提出的SFSC和MFSC注意模块可以有效地产生更具歧视性的扬声器表示,并且优于RESNET34-SE和ECAPA-TDNN系统,而EER降低了20.9%和20.2%,而无需添加额外的网络参数。
translated by 谷歌翻译
In this paper, we use data augmentation to improve performance of deep neural network (DNN) embeddings for speaker recognition. The DNN, which is trained to discriminate between speakers, maps variable-length utterances to fixed-dimensional embeddings that we call x-vectors. Prior studies have found that embeddings leverage large-scale training datasets better than i-vectors. However, it can be challenging to collect substantial quantities of labeled data for training. We use data augmentation, consisting of added noise and reverberation, as an inexpensive method to multiply the amount of training data and improve robustness. The x-vectors are compared with i-vector baselines on Speakers in the Wild and NIST SRE 2016 Cantonese. We find that while augmentation is beneficial in the PLDA classifier, it is not helpful in the i-vector extractor. However, the x-vector DNN effectively exploits data augmentation, due to its supervised training. As a result, the x-vectors achieve superior performance on the evaluation datasets.
translated by 谷歌翻译
大多数最新的说话者验证架构都采用了多尺度处理和频道注意机制。这些模型的卷积层通常具有固定的内核大小,例如3或5。在本研究中,我们进一步为这一研究采用了选择性核心注意(SKA)机制。SKA机制允许每个卷积层以数据驱动的方式自适应地选择内核大小。它基于利用频率和通道域的注意机制。我们首先将现有的SKA模块应用于我们的基线。然后,我们提出了两个SKA变体,其中第一个变体在ECAPA-TDNN模型的前面应用,另一个变体与RES2NET骨干块结合使用。通过广泛的实验,我们证明了我们提出的两个SKA变体始终提高性能,并在三个不同的评估方案上进行测试时是互补的。
translated by 谷歌翻译
近年来见证了自动扬声器验证(ASV)的非凡发展。但是,先前的作品表明,最新的ASV模型非常容易受到语音欺骗的攻击,而最近提出的高性能欺骗对策(CM)模型仅专注于独立的反欺骗任务,而忽略了该模型随后的发言人验证过程。如何将CM和ASV集成在一起仍然是一个悬而未决的问题。最近发生了欺骗意识的说话者验证(SASV)挑战,即当共同优化CM和ASV子系统时,可以提供更好的性能。在挑战的情况下,参与者提出的集成系统必须同时拒绝冒名顶替者和欺骗目标扬声器的攻击,这些攻击者直觉有效地与可靠,欺骗的ASV系统的期望相匹配。这项工作着重于基于融合的SASV解决方案,并提出了一个多模型融合框架,以利用多个最先进的ASV和CM模型的功能。拟议的框架将SASV-EER从8.75%提高到1.17 \%,与SASV挑战中最佳基线系统相比,相对改善为86%。
translated by 谷歌翻译
在这份技术报告中,我们描述了Voxceleb演讲者识别挑战2022(VOXSRC-22)的Royalflush提交。我们的提交内容包含曲目1,该曲目1用于监督的说话者验证和曲目3,该曲目适用于半监督者验证。对于轨道1,我们开发了具有对称体系结构的功能强大的基于U-NET的扬声器嵌入提取器。拟议的系统在验证集上获得了EER的2.06%,在MindCF中获得了0.1293。与最先进的ECAPA-TDNN相比,它在EER中获得了20.7%的相对提高,而MindCF的相对提高了22.70%。对于轨道3,我们采用了源域监督和目标域自学的联合培训,以获取扬声器嵌入提取器。随后的聚类过程可以获得目标域伪扬声器标签。我们使用所有源和目标域数据以有监督的方式适应说话者嵌入提取器,从而可以充分利用这两个域信息。此外,可以重复聚类和监督域的适应性,直到验证集对性能收敛为止。我们的最终提交是融合了10种型号,并在验证集上实现了7.75%EER和0.3517 MindCF。
translated by 谷歌翻译
在本文中,我们提出了一种解决方案,以允许扬声器条件语音模型,例如VoiceFilter-Lite,以支持单个通过中的任意数量的注册用户。这是通过使用多个扬声器嵌入的注意机制来实现,以计算单个细小嵌入,然后将其用作模型的侧面输入。我们实现了多用户VoiceFilter-Lite并为三个任务进行了评估:(1)流自动语音识别(ASR)任务; (2)独立于文本的扬声器验证任务; (3)个性化关键级检测任务,其中ASR必须在嘈杂的环境中检测来自多个注册用户的关键次数。我们的实验表明,在最多四个注册的用户中,多用户VoiceFilter-Lite能够在具有重叠语音时显着降低语音识别和扬声器验证错误,而不会影响其他声学条件下的性能。这种细心的扬声器嵌入方法也可以轻松应用于其他扬声器条件模型,如个人VAD和个性化ASR。
translated by 谷歌翻译
在现实世界中,扬声器身份系统的任务是在一组注册的扬声器中识别出一个只有几个注册扬声器的示例中的扬声器。本文展示了该用例的元学习和关系网络的有效性。我们提出了改进的关系网络,用于说话者验证和很少的射击者(看不见)的说话者识别。关系网络的使用促进了前端扬声器编码器和后端模型的联合培训。受到使用典型网络在扬声器验证中使用原型网络并增加说话者嵌入的可区分性的启发,我们训练该模型以在训练集中存在的所有扬声器中对当前情节进行分类。此外,我们通过从给定的元学习插曲中提取更多信息,并提出一种新的培训方式,以使用可忽略不计的额外计算,从而提出了更快的模型收敛性。我们在Voxceleb,SITW和VCTK数据集上评估了有关说话者验证的任务和看不见的说话者识别的提议技术。所提出的方法在这两个任务上始终如一地优于现有方法。
translated by 谷歌翻译
最先进的说话者验证系统本质上取决于某种人类监督,因为它们接受了大量标记数据的培训。但是,手动注释的话语缓慢,昂贵,无法扩展到当今可用的数据量。在这项研究中,我们通过直接从原始音频中学习表征来探索说话者验证的自我监督学习。目的是生成具有较小的言论扬声器和较大言论扬声器差异的稳健扬声器嵌入。我们的方法基于最新信息最大化学习框架和密集的数据增强预处理步骤。我们在表明它们与对比度损失相结合之前表明它们实现更好的性能之前,评估了这些方法在没有对比样本的情况下工作的能力。此外,我们进行实验表明,与现有技术相比,我们的方法达到了竞争成果,并且在用一小部分标记数据进行微调时,与监督基线相比,可以获得更好的性能。
translated by 谷歌翻译
语音触发检测是一项重要的任务,它可以在目标用户说关键字短语时激活语音助手。通常对探测器进行语音数据培训,独立于说话者信息,并用于语音触发检测任务。但是,这样的说话者独立语音触发探测器通常会遭受绩效降低,因为代表性不足的群体,例如重音说话者。在这项工作中,我们提出了一个新颖的语音触发探测器,该触发探测器可以使用目标扬声器中的少量话语来提高检测准确性。我们提出的模型采用编码器架构。尽管编码器执行扬声器独立语音触发检测,但类似于传统检测器,解码器预测了每种话语的个性化嵌入。然后,获得个性化的语音触发分数作为在注册话语的嵌入与测试话语之间的相似性得分。个性化的嵌入允许在计算语音触发评分时适应目标扬声器的语音,从而提高语音触发检测精度。实验结果表明,与基线扬声器独立语音触发模型相比,所提出的方法相对降低(FRR)的相对降低38%。
translated by 谷歌翻译
已经进行了许多有效的尝试来进行虚假的音频检测。但是,他们只能提供检测结果,但没有对抗这种伤害的对策。对于许多相关的实际应用,也需要哪种模型或算法生成假音频。因此,我们提出了一个新问题,用于检测虚假音频的Vocoder指纹。实验是在由八个最先进的歌手合成的数据集上进行的。我们已经初步探索了功能和模型体系结构。T-SNE可视化表明,不同的Vocoder会生成不同的Vocoder指纹。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
端到端模型在自动语音识别中快速更换传统的混合模型。变压器,基于机器翻译任务的自我关注的序列到序列模型,在用于自动语音识别时已经给出了有希望的结果。本文探讨了在培训基于变压器的模型的同时在编码器输入时结合扬声器信息的不同方式,以提高其语音识别性能。我们以每个扬声器的扬声器嵌入形式呈现扬声器信息。我们使用两种类型的扬声器嵌入进行实验:在我们以前的工作中提出的X-Vectors和新颖的S-Vectors。我们向两个数据集报告结果a)肉kel讲座数据库和b)librispeech 500小时分割。NPTEL是一个开源电子学习门户,提供来自印度顶级大学的讲座。通过我们将扬声器嵌入的方法集成到模型中,我们通过基线获得了基线的错误率的改进。
translated by 谷歌翻译
在这项工作中,我们对情感和压力环境中的文本独立扬声器验证性能进行了实证对比研究。这项工作结合了浅架构的深层模型,导致新的混合分类器。利用了四种不同的混合模型:深神经网络隐藏式马尔可夫模型(DNN-HMM),深神经网络 - 高斯混合模型(DNN-GMM),高斯混合模型 - 深神经网络(GMM-DNN)和隐藏的马尔可夫模型-Deep神经网络(HMM-DNN)。所有模型都基于新颖的实施架构。比较研究使用了三个不同的语音数据集:私人阿拉伯数据集和两个公共英语数据库,即在模拟和实际压力下的演讲(Susas)和情感语音和歌曲(Ravdess)的ryerson视听数据库。上述混合模型的测试结果表明,所提出的HMM-DNN利用情绪和压力环境中的验证性能。结果还表明,HMM-DNN在曲线(AUC)评估度量下的相同错误率(eer)和面积方面优于所有其他混合模型。基于三个数据集的平均所产生的验证系统分别基于HMM-DNN,DNN-HMM,DNN-GMM和GMM-DNN产生7.19%,16.85%,11.51%和11.90%的eERs。此外,我们发现,与两个谈话环境中的所有其他混合模型相比,DNN-GMM模型展示了最少的计算复杂性。相反,HMM-DNN模型需要最多的培训时间。调查结果还证明了EER和AUC值在比较平均情绪和压力表演时依赖于数据库。
translated by 谷歌翻译