在商业应用程序中使用基于扬声器验证(SV)的系统时,重要的是客户与他们的性别,年龄或种族有关。在本文中,我们分析了性别和年龄对SV的影响,并在不同性别和年龄组中发现,对于不同性别和年龄组的期望的常见验证率(FRR),不同的性别和年龄组不同。为了优化所有用户的FRR,我们提出了一种关于SV的上下文(例如性别,年龄)自适应阈值框架。这些上下文可以作为许多实际应用程序的先前信息。我们还提出了一个连接的性别/年龄检测模型,以在没有这样的事先信息的情况下进行算法导出的背景。我们通过实验表明我们的上下文 - 自适应阈值化方法在建立更有效的包容性SV系统方面是有效的。具体而言,我们表明我们可以通过使用特定于性别特定阈值对VoxceB1测试设置的所需性别来减少特定性别的FRR。对OGI Kids的语音语料库类似的分析表明,通过使用年龄特定的阈值,我们可以显着减少某些年龄段的FRR,以便远远。
translated by 谷歌翻译
自动说话者识别使用数据处理来通过声音来识别说话者。如今,自动化发言人的认可已在数十亿个智能设备和呼叫中心等服务中部署。尽管在面部识别和自然语言处理等相关领域中它们的范围广泛的部署和已知偏见来源,但自动说话者识别的偏见尚未被系统地研究。我们介绍了机器学习开发工作流程中的偏见的深入经验和分析研究,这是自动说话者识别的语音生物特征和核心任务。利用一个既定的框架来理解机器学习中的伤害来源,我们表明在著名的Voxceleb说话者识别挑战中的每个开发阶段都存在偏见,包括数据生成,模型构建和实施。受影响的大多数是女性演讲者和非美国国籍,他们经历了重大的绩效退化。利用我们的发现中的见解,我们提出了减轻自动说话者识别偏见的实用建议,并概述了未来的研究指示。
translated by 谷歌翻译
VOXECEL数据集广泛用于扬声器识别研究。我们的工作有两个目的。首先,我们提供发言者年龄标签和(替代)发言人性别的注释。其次,我们通过构建具有不同特征和分类器的年龄和性别识别模型来展示这种元数据的使用。我们查询不同的名人数据库,并申请共识规则以获得年龄和性别标签。我们还使用我们的标签进行比较原始的VoxceleB性别标签,以识别可能在原始VoxceleB数据中误标记的记录。在建模方面,我们设计了对识别性别和年龄的多种功能和模型的综合研究。我们使用I-Vector特征的最佳系统实现了使用Logistic回归的性别识别任务的F1分数0.9829,并且使用RIDGE回归获得了9.443年的年龄回归的最低平均绝对误差(MAE)。这表明来自野外风格语音数据的年龄估计的挑战。
translated by 谷歌翻译
本文重点介绍了重叠的语音和性别检测,以研究法国视听媒体中男女之间的互动(性别平等监测项目)。在这种应用程序上下文中,我们需要根据说话者的性别自动划分语音信号,并确定至少有两个说话者同时讲话。我们建议使用WAVLM模型,该模型具有在大量语音数据上进行预训练的优点,以构建重叠的语音检测(OSD)和性别检测(GD)系统。在这项研究中,我们使用两个不同的语料库。 Dihard III语料库非常适合OSD任务,但缺乏性别信息。盟友语料库符合项目申请上下文。我们最好的OSD系统是具有WAVLM预训练功能作为输入的时间卷积网络(TCN),该功能达到了Dihard上最先进的F1得分性能。神经GD在法国广播新闻盟友数据的性别平衡子集上接受了WAVLM输入的培训,并获得了97.9%的准确性。这项工作为人类科学研究人员开辟了有关法国媒体中男女表示差异的新观点。
translated by 谷歌翻译
The objective of this paper is speaker recognition under noisy and unconstrained conditions.We make two key contributions. First, we introduce a very large-scale audio-visual speaker recognition dataset collected from open-source media. Using a fully automated pipeline, we curate VoxCeleb2 which contains over a million utterances from over 6,000 speakers. This is several times larger than any publicly available speaker recognition dataset.Second, we develop and compare Convolutional Neural Network (CNN) models and training strategies that can effectively recognise identities from voice under various conditions. The models trained on the VoxCeleb2 dataset surpass the performance of previous works on a benchmark dataset by a significant margin.
translated by 谷歌翻译
In this paper, we propose dictionary attacks against speaker verification - a novel attack vector that aims to match a large fraction of speaker population by chance. We introduce a generic formulation of the attack that can be used with various speech representations and threat models. The attacker uses adversarial optimization to maximize raw similarity of speaker embeddings between a seed speech sample and a proxy population. The resulting master voice successfully matches a non-trivial fraction of people in an unknown population. Adversarial waveforms obtained with our approach can match on average 69% of females and 38% of males enrolled in the target system at a strict decision threshold calibrated to yield false alarm rate of 1%. By using the attack with a black-box voice cloning system, we obtain master voices that are effective in the most challenging conditions and transferable between speaker encoders. We also show that, combined with multiple attempts, this attack opens even more to serious issues on the security of these systems.
translated by 谷歌翻译
扬声器验证(SV)为访问控制提供数十亿个支持语音的设备,并确保语音驱动技术的安全性。作为一种生物识别技术,SV有必要公正,无论其人口,社会和经济属性如何,在演讲者之间保持一致和可靠的表现。当前的SV评估实践不足以评估偏见:它们过度简化和汇总用户,不代表现实生活中的情况,并且不考虑错误的后果。本文提出了用于构建解决这些短暂事件的SV评估数据集的设计指南。我们提出了一个用于分级话语对的难度的模式,并提出了一种用于生成包容性SV数据集的算法。我们在Voxceleb1数据集上的一组实验中验证了我们提出的方法。我们的结果证实了话语对/扬声器的计数,以及语音对的难度对评估性能和可变性具有重大影响。我们的工作有助于发展包容性和公平的SV评估实践。
translated by 谷歌翻译
Speaker embedding extractors significantly influence the performance of clustering-based speaker diarisation systems. Conventionally, only one embedding is extracted from each speech segment. However, because of the sliding window approach, a segment easily includes two or more speakers owing to speaker change points. This study proposes a novel embedding extractor architecture, referred to as a high-resolution embedding extractor (HEE), which extracts multiple high-resolution embeddings from each speech segment. Hee consists of a feature-map extractor and an enhancer, where the enhancer with the self-attention mechanism is the key to success. The enhancer of HEE replaces the aggregation process; instead of a global pooling layer, the enhancer combines relative information to each frame via attention leveraging the global context. Extracted dense frame-level embeddings can each represent a speaker. Thus, multiple speakers can be represented by different frame-level features in each segment. We also propose an artificially generating mixture data training framework to train the proposed HEE. Through experiments on five evaluation sets, including four public datasets, the proposed HEE demonstrates at least 10% improvement on each evaluation set, except for one dataset, which we analyse that rapid speaker changes less exist.
translated by 谷歌翻译
在本文中,我们提出了一种解决方案,以允许扬声器条件语音模型,例如VoiceFilter-Lite,以支持单个通过中的任意数量的注册用户。这是通过使用多个扬声器嵌入的注意机制来实现,以计算单个细小嵌入,然后将其用作模型的侧面输入。我们实现了多用户VoiceFilter-Lite并为三个任务进行了评估:(1)流自动语音识别(ASR)任务; (2)独立于文本的扬声器验证任务; (3)个性化关键级检测任务,其中ASR必须在嘈杂的环境中检测来自多个注册用户的关键次数。我们的实验表明,在最多四个注册的用户中,多用户VoiceFilter-Lite能够在具有重叠语音时显着降低语音识别和扬声器验证错误,而不会影响其他声学条件下的性能。这种细心的扬声器嵌入方法也可以轻松应用于其他扬声器条件模型,如个人VAD和个性化ASR。
translated by 谷歌翻译
能够收集用户声音的强大个人设备的广泛开设了建立语音识别系统(ASR)的扬声器或参与ASR的协作学习的机会。在这两种情况下,可以构建个性化的声学模型(AM),即微调AM与特定扬声器数据。自然出现的问题是,个性化声学模型的传播是否可以泄漏个人信息。在本文中,我们表明可以通过仅利用本地适应该扬声器的神经声学模型的重量矩阵变化来检索扬声器的性别,而且还可以检索扬声器的性别,而且还可以检索他的身份。顺便提及,我们观察到在语音处理的背景下可以有助于解释深度神经网络的现象。在使用中间层时,只能使用第一层和扬声器验证几乎肯定地识别性别。我们对具有HMM / TDNN模型的TED-Lium 3数据集的实验研究显示了性别检测的95%,并且通过仅利用可以交换的个性化模型的权重,扬声器验证任务的相同错误率为9.07%而不是用户数据。
translated by 谷歌翻译
最近,注意机制已成功应用于基于神经网络的说话者验证系统。将挤压和兴奋的块纳入卷积神经网络中的表现出色。但是,它使用全球平均池(GAP)简单地沿时间和频率维度平均功能,这无法在功能地图中保留足够的扬声器信息。在这项研究中,我们表明GAP是时间频域在数学上仅使用频率分解中最低频率分量的特殊情况。为了增强扬声器信息提取能力,我们建议利用多频信息,并设计两个新颖的有效注意模块,称为单频率单通道(SFSC)注意模块和多频单通道(MFSC)注意模块。提出的注意模块可以根据DCT有效地从多个频率组件中捕获更多扬声器信息。我们在Voxceleb数据集上进行了全面的实验,并对第148个UTD法医语料库进行了探测评估。实验结果表明,我们提出的SFSC和MFSC注意模块可以有效地产生更具歧视性的扬声器表示,并且优于RESNET34-SE和ECAPA-TDNN系统,而EER降低了20.9%和20.2%,而无需添加额外的网络参数。
translated by 谷歌翻译
这项工作探讨了在不存在的人类发声声中合成语音的任务。我们称之为此任务“扬声器生成”,并呈现Tacosawn,一个在此任务中竞争地执行的系统。Tacosawn是一种基于重复的关注文本到语音模型,了解备用空间的发行版,这使得新颖和各种扬声器采样。我们的方法易于实现,并且不需要从扬声器ID系统转移学习。我们呈现客观和主观指标,用于评估此任务的表现,并证明我们所提出的客观指标与人类对扬声器相似性相关联。我们的演示页面上有音频样本。
translated by 谷歌翻译
通过未计算的数据情况和缺乏本领域缺乏标准基准的动机,我们补充了我们以前的努力,并提出了一个专为培训和评估文本无关的多通道扬声器验证系统的全面语料库。还可以容易地用于DERE失去,去噪和语音增强的实验。我们通过利用VOXECEB数据集的清洁部分顶部的数据仿真来解决缺乏多通道训练数据的缺乏问题。开发和评估试验基于复杂的传统的声音,这些声音在复杂的环境环境(声音)语料库中,我们修改以提供多渠道试验。我们发布从公共来源创建数据集的完整食谱作为Multisv语料库,我们提供了两种多通道扬声器验证系统,其中两个多通道扬声器验证系统,基于神经网络的波束成形,基于预测理想二进制掩码或更新的CONV-TASNet更新。
translated by 谷歌翻译
在本文中,我们描述了RTZR团队Voxceleb扬声器识别挑战2022(VOXSRC-22)的最高得分提交,在封闭的数据集中,扬声器验证轨道1.最高执行的系统是7型型号的融合,其中包含3种不同类型的类型模型体系结构。我们专注于培训模型以学习周期性信息。因此,所有型号均以4-6秒的镜头训练,每次发言。此外,我们采用了较大的保证金微调策略,该策略在我们的某些融合模型的先前挑战上表现出良好的表现。在评估过程中,我们应用了具有自适应对称归一化(AS-NORM)和矩阵得分平均值(MSA)的评分方法。最后,我们将模型与逻辑回归混合在一起,以融合所有受过训练的模型。最终提交在VOXSRC22测试集上实现了0.165 DCF和2.912%EER。
translated by 谷歌翻译
在现实世界中,扬声器身份系统的任务是在一组注册的扬声器中识别出一个只有几个注册扬声器的示例中的扬声器。本文展示了该用例的元学习和关系网络的有效性。我们提出了改进的关系网络,用于说话者验证和很少的射击者(看不见)的说话者识别。关系网络的使用促进了前端扬声器编码器和后端模型的联合培训。受到使用典型网络在扬声器验证中使用原型网络并增加说话者嵌入的可区分性的启发,我们训练该模型以在训练集中存在的所有扬声器中对当前情节进行分类。此外,我们通过从给定的元学习插曲中提取更多信息,并提出一种新的培训方式,以使用可忽略不计的额外计算,从而提出了更快的模型收敛性。我们在Voxceleb,SITW和VCTK数据集上评估了有关说话者验证的任务和看不见的说话者识别的提议技术。所提出的方法在这两个任务上始终如一地优于现有方法。
translated by 谷歌翻译
本文介绍了Speakin团队提交的SPEAKER验证(SV)系统,该系统针对2022年远场演讲者验证挑战(FFSVC2022)的任务2和任务2。挑战的SV任务集中在完全监督的远场演讲者验证(任务1)和半监督远场扬声器验证(任务2)的问题上。在任务1中,我们将Voxceleb和FFSVC2020数据集用作火车数据集。对于任务2,我们仅将Voxceleb数据集用作火车集。为此挑战开发了基于重新连接和基于REPVGG的架构。全局统计池结构和MQMHA池结构用于跨时间汇总框架级特征,以获得语音级别的表示。我们采用了Am-Softmax和Aam-Softmax来对产生的嵌入进行分类。我们创新提出了一种分阶段的转移学习方法。在训练阶段,我们保留扬声器的权重,并且在此阶段没有积极的样本来训练它们。然后,我们在第二阶段用正面和负样品微调这些权重。与传统的转移学习策略相比,该策略可以更好地改善模型性能。亚均值和标志的后端方法用于解决域不匹配的问题。在融合阶段,任务1中融合了三个模型,并在任务2中融合了两个模型。在FFSVC2022排行榜上,我们提交的EER为3.0049%,在Task1中,相应的MindCF为0.2938。在任务2中,EER和MindCF分别为6.2060%和0.5232。我们的方法可以提高表现出色,并在两项挑战任务中排名第一。
translated by 谷歌翻译
最近,用于语音处理的自我监督模型最近作为语音处理管道中流行的基础块出现。这些模型在未标记的音频数据上进行了预训练,然后用于语音处理下游任务,例如自动语音识别(ASR)或语音翻译(ST)。由于这些模型现在都用于研究和工业系统,因此有必要理解某些特征在培训数据中的性别分布等特征所引起的影响。我们以法语为我们的调查语言,训练和比较性别特定的WAV2VEC 2.0模型与在其预训练数据中包含不同性别平衡的模型。通过将这些模型应用于两个语音到文本下游任务:ASR和ST进行比较。结果显示了下游集成的类型。在微调端到端ASR系统之前,我们使用性别特定的预训练观察到较低的总体性能。但是,当将自我监督模型用作特征提取器时,总体ASR和ST结果遵循更复杂的模式,在这种模式下,平衡的预训练模型不一定会带来最佳结果。最后,我们粗制的“公平”度量标准(男性测试集之间测量的相对性能差异)并未显示出从平衡到特定性别的预训练的Preaded Wav2Vec 2.0模型的强烈变化。
translated by 谷歌翻译
AI研究中的基石是创建和采用标准化培训和测试数据集,以指定最新模型的进度。一个特别成功的例子是用于培训和评估英语自然语言理解(NLU)模型的胶水数据集。围绕基于BERT的语言模型的大量研究围绕着胶水中NLU任务的性能改进。为了评估其他语言的语言模型,创建了几个特定语言的胶水数据集。语音语言理解(SLU)的领域遵循了类似的轨迹。大型自我监督模型(例如WAV2VEC2)的成功实现了具有相对易于访问的未标记数据的语音模型。然后可以在SLU任务(例如出色的基准测试)上评估这些模型。在这项工作中,我们将其扩展到通过释放Indicsuperb基准测试来指示语言。具体来说,我们做出以下三项贡献。 (i)我们收集了Kathbath,其中包含来自印度203个地区的1,218个贡献者的12个印度语言的1,684小时的标记语音数据。 (ii)使用Kathbath,我们在6个语音任务中创建基准:自动语音识别,扬声器验证,说话者识别(单声道/多),语言识别,逐个示例查询以及对12种语言的关键字发现。 (iii)在发布的基准测试中,我们与常用的基线Fbank一起训练和评估不同的自我监督模型。我们表明,在大多数任务上,特定于语言的微调模型比基线更准确,包括对于语言识别任务的76 \%差距。但是,对于说话者识别,在大型数据集上训练的自我监督模型证明了一个优势。我们希望Indicsuperb有助于发展印度语言的语音语言理解模型的进步。
translated by 谷歌翻译
识别人类非语音发声是一项重要的任务,并且具有广泛的应用,例如自动音频转录和健康状况监测。但是,现有数据集具有相对少量的声音样本或嘈杂的标签。结果,最先进的音频事件分类模型在检测人声音方面的表现可能不佳。为了支持建立强大而准确的声音识别的研究,我们创建了一个人声数据集,该数据集由21,000多个众包笑声,叹息,咳嗽,喉咙清理,打喷嚏和嗅探组成,来自3,365个独特的主题。实验表明,通过将人声数据集添加到现有数据集中作为培训材料,模型的人声识别性能可以显着提高41.9%。此外,与以前的数据集不同,人声数据集包含元信息,例如说话者年龄,性别,母语,国家和健康状况。
translated by 谷歌翻译
可以处理各种扬声器和声学条件的模型在语音情感识别(Ser)中至关重要。通常,这些模型往往会在培训期间呈现扬声器或声学条件时显示混合结果。本文调查了交叉组件数据互补和数据增强对Ser模型的影响(从相同的语料库中的测试设置)和不匹配(从不同的语料库测试)条件。介绍了使用六种情绪语音集团的调查,其中包括单一和多个扬声器以及情感风格的变化(作用,引发,自然)和记录条件。观察结果表明,正如预期的那样,在单一语料库上培训的模型在匹配条件下表现最佳,而性能在不匹配的条件下减少10-40%,具体取决于语料库特定功能。在混合语料库上培训的型号在不匹配的上下文中可以更稳定,与匹配条件中的单个语料库模型相比,性能减少的范围为1%至8%。数据增强产生额外的收益高达4%,似乎有利于比匹配的不匹配条件。
translated by 谷歌翻译