扬声器验证(SV)为访问控制提供数十亿个支持语音的设备,并确保语音驱动技术的安全性。作为一种生物识别技术,SV有必要公正,无论其人口,社会和经济属性如何,在演讲者之间保持一致和可靠的表现。当前的SV评估实践不足以评估偏见:它们过度简化和汇总用户,不代表现实生活中的情况,并且不考虑错误的后果。本文提出了用于构建解决这些短暂事件的SV评估数据集的设计指南。我们提出了一个用于分级话语对的难度的模式,并提出了一种用于生成包容性SV数据集的算法。我们在Voxceleb1数据集上的一组实验中验证了我们提出的方法。我们的结果证实了话语对/扬声器的计数,以及语音对的难度对评估性能和可变性具有重大影响。我们的工作有助于发展包容性和公平的SV评估实践。
translated by 谷歌翻译
自动说话者识别使用数据处理来通过声音来识别说话者。如今,自动化发言人的认可已在数十亿个智能设备和呼叫中心等服务中部署。尽管在面部识别和自然语言处理等相关领域中它们的范围广泛的部署和已知偏见来源,但自动说话者识别的偏见尚未被系统地研究。我们介绍了机器学习开发工作流程中的偏见的深入经验和分析研究,这是自动说话者识别的语音生物特征和核心任务。利用一个既定的框架来理解机器学习中的伤害来源,我们表明在著名的Voxceleb说话者识别挑战中的每个开发阶段都存在偏见,包括数据生成,模型构建和实施。受影响的大多数是女性演讲者和非美国国籍,他们经历了重大的绩效退化。利用我们的发现中的见解,我们提出了减轻自动说话者识别偏见的实用建议,并概述了未来的研究指示。
translated by 谷歌翻译
在商业应用程序中使用基于扬声器验证(SV)的系统时,重要的是客户与他们的性别,年龄或种族有关。在本文中,我们分析了性别和年龄对SV的影响,并在不同性别和年龄组中发现,对于不同性别和年龄组的期望的常见验证率(FRR),不同的性别和年龄组不同。为了优化所有用户的FRR,我们提出了一种关于SV的上下文(例如性别,年龄)自适应阈值框架。这些上下文可以作为许多实际应用程序的先前信息。我们还提出了一个连接的性别/年龄检测模型,以在没有这样的事先信息的情况下进行算法导出的背景。我们通过实验表明我们的上下文 - 自适应阈值化方法在建立更有效的包容性SV系统方面是有效的。具体而言,我们表明我们可以通过使用特定于性别特定阈值对VoxceB1测试设置的所需性别来减少特定性别的FRR。对OGI Kids的语音语料库类似的分析表明,通过使用年龄特定的阈值,我们可以显着减少某些年龄段的FRR,以便远远。
translated by 谷歌翻译
With the advancements in deep learning (DL) and an increasing interest in data-driven speech processing methods, there is a major challenge in accessing pathological speech data. Public challenge data offers a potential remedy for this but may expose patient health information by re-identification attacks. Therefore, we investigate in this study whether or not pathological speech is more vulnerable to such re-identification than healthy speech. Our study is the first large-scale investigation on the effects of different speech pathology on automatic speaker verification (ASV) using a real-world pathological speech corpus of more than 2,000 test subjects with various speech and voice disorders from different ages. Utilizing a DL-based ASV method, we obtained a mean equal error rate (EER) of 0.89% with a standard deviation of 0.06%, which is a factor of three lower than comparable healthy speech databases. We further perform detailed analyses of external influencing factors on ASV such as age, pathology, recording environment, utterance length, and intelligibility, to explore their respective effect. Our experiments indicate that some types of speech pathology, in particular dysphonia, regardless of speech intelligibility, are more vulnerable to a breach of privacy compared to healthy speech. We also observe that the effect of pathology lies in the range of other factors, such as age, microphone, and recording environment.
translated by 谷歌翻译
最近,盲目的语音分离(BSS)和目标语音提取(TSE)的表现已取得了长足的进步。但是,大多数作品都专注于相对控制的条件,例如阅读语音。在更现实的情况下,性能可能会降低。引起这种降解的因素之一可能是固有的说话者变异性,例如情绪,通常在现实的语音中发生。在本文中,我们研究了情绪对TSE和BSS的影响。我们创建了一个新的测试数据集,以评估TSE和BSS。该数据集结合了Librispeech和Ryerson Audio-Visual Visual Espections and Song(Ravdess)。通过受控的实验,我们可以分析不同情绪对BSS和TSE性能的影响。我们观察到BSS对情绪相对强大,而TSE需要识别和提取目标说话者的语音,对情绪更为敏感。在比较演讲者验证实验中,我们表明,在处理情感语音时,确定目标扬声器可能特别具有挑战性。使用我们的发现,我们概述了可能改善BSS和TSE系统对情感语音的鲁棒性的潜在方向。
translated by 谷歌翻译
Voice anti-spoofing systems are crucial auxiliaries for automatic speaker verification (ASV) systems. A major challenge is caused by unseen attacks empowered by advanced speech synthesis technologies. Our previous research on one-class learning has improved the generalization ability to unseen attacks by compacting the bona fide speech in the embedding space. However, such compactness lacks consideration of the diversity of speakers. In this work, we propose speaker attractor multi-center one-class learning (SAMO), which clusters bona fide speech around a number of speaker attractors and pushes away spoofing attacks from all the attractors in a high-dimensional embedding space. For training, we propose an algorithm for the co-optimization of bona fide speech clustering and bona fide/spoof classification. For inference, we propose strategies to enable anti-spoofing for speakers without enrollment. Our proposed system outperforms existing state-of-the-art single systems with a relative improvement of 38% on equal error rate (EER) on the ASVspoof2019 LA evaluation set.
translated by 谷歌翻译
The objective of this paper is speaker recognition under noisy and unconstrained conditions.We make two key contributions. First, we introduce a very large-scale audio-visual speaker recognition dataset collected from open-source media. Using a fully automated pipeline, we curate VoxCeleb2 which contains over a million utterances from over 6,000 speakers. This is several times larger than any publicly available speaker recognition dataset.Second, we develop and compare Convolutional Neural Network (CNN) models and training strategies that can effectively recognise identities from voice under various conditions. The models trained on the VoxCeleb2 dataset surpass the performance of previous works on a benchmark dataset by a significant margin.
translated by 谷歌翻译
本文介绍了第一个致力于2020挑战的结果和分析,重点是开发语音技术的匿名解决方案。我们提供了对提交的系统和评估结果的分析,提供了挑战设计的系统概述。特别是,我们描述了用于系统开发和评估的语音匿名任务和数据集。此外,我们呈现不同的攻击模型和相关目标和主观评估指标。我们介绍了两个匿名化的基线,并提供了由挑战参与者开发的匿名化系统的摘要描述。我们向基线和提交的系统报告客观和主观评估结果。此外,我们提出了作为评估后分析的一部分开发的替代隐私度量和攻击模型的实验结果。最后,我们总结了我们的见解和观察,这将影响下一个语音普遍挑战版的设计和未来语音匿名化研究的某些方向。
translated by 谷歌翻译
在家庭场景(例如,对于智能演讲者)中的说话者身份(SID)是一个重要但具有挑战性的问题,因为标记的(注册)话语数量有限,声音和人口不平衡。传统的说话者识别系统从大量随机的扬声器样本中概括,从而导致识别从特定队列中汲取的家庭或以其他方式表现出高度混淆性。在这项工作中,我们提出了一种基于图形的半监督学习方法,以通过本地适应的图形归一化和多视图图的多信号融合来提高家庭级的SID准确性和鲁棒性。与其他关于家庭SID,公平性和信号融合的工作不同,这项工作着重于扬声器标签推理(评分),并提供了一种简单的解决方案,可以实现家庭特定的适应性和多信号融合,而无需调整嵌入或训练融合网络。 Voxceleb数据集的实验表明,我们的方法一致地改善了具有不同客户群和混淆程度的家庭的绩效。
translated by 谷歌翻译
爆发两年多后,Covid-19的大流行继续困扰世界各地的医疗系统,给稀缺资源带来压力,并夺走了人类的生命。从一开始,已经采用了各种基于AI的CoVID-19检测和监测工具,以试图通过及时诊断来阻止感染的潮流。特别是,已经建议计算机试听是一种非侵入性,成本效益和环保的替代方法,可通过声音通过声音来检测COVID-19的感染。但是,像所有AI方法一样,计算机试镜也很大程度上取决于可用数据的数量和质量,并且由于此类数据的敏感性,大规模的COVID-19声音数据集很难获取 - 除其他原因外。为此,我们介绍了COVYT数据集 - 一种新颖的Covid-19数据集,该数据集是从包含来自65位演讲者的8个小时以上语音的公共资源中收集的。与其他现有的COVID-19声音数据集相比,COVYT数据集的独特功能是,它包括所有65位扬声器的covid-19正和负样本。我们使用可解释的音频描述来分析Covid-19的声学表现,并使用可解释的音频描述,并研究几种分类场景,并调查一些分类场景,以将基于公平的言语的COVID进行适当的分配策略-19检测。
translated by 谷歌翻译
VOXECEL数据集广泛用于扬声器识别研究。我们的工作有两个目的。首先,我们提供发言者年龄标签和(替代)发言人性别的注释。其次,我们通过构建具有不同特征和分类器的年龄和性别识别模型来展示这种元数据的使用。我们查询不同的名人数据库,并申请共识规则以获得年龄和性别标签。我们还使用我们的标签进行比较原始的VoxceleB性别标签,以识别可能在原始VoxceleB数据中误标记的记录。在建模方面,我们设计了对识别性别和年龄的多种功能和模型的综合研究。我们使用I-Vector特征的最佳系统实现了使用Logistic回归的性别识别任务的F1分数0.9829,并且使用RIDGE回归获得了9.443年的年龄回归的最低平均绝对误差(MAE)。这表明来自野外风格语音数据的年龄估计的挑战。
translated by 谷歌翻译
在本文中,我们提出了一种解决方案,以允许扬声器条件语音模型,例如VoiceFilter-Lite,以支持单个通过中的任意数量的注册用户。这是通过使用多个扬声器嵌入的注意机制来实现,以计算单个细小嵌入,然后将其用作模型的侧面输入。我们实现了多用户VoiceFilter-Lite并为三个任务进行了评估:(1)流自动语音识别(ASR)任务; (2)独立于文本的扬声器验证任务; (3)个性化关键级检测任务,其中ASR必须在嘈杂的环境中检测来自多个注册用户的关键次数。我们的实验表明,在最多四个注册的用户中,多用户VoiceFilter-Lite能够在具有重叠语音时显着降低语音识别和扬声器验证错误,而不会影响其他声学条件下的性能。这种细心的扬声器嵌入方法也可以轻松应用于其他扬声器条件模型,如个人VAD和个性化ASR。
translated by 谷歌翻译
在这项工作中,我们对情感和压力环境中的文本独立扬声器验证性能进行了实证对比研究。这项工作结合了浅架构的深层模型,导致新的混合分类器。利用了四种不同的混合模型:深神经网络隐藏式马尔可夫模型(DNN-HMM),深神经网络 - 高斯混合模型(DNN-GMM),高斯混合模型 - 深神经网络(GMM-DNN)和隐藏的马尔可夫模型-Deep神经网络(HMM-DNN)。所有模型都基于新颖的实施架构。比较研究使用了三个不同的语音数据集:私人阿拉伯数据集和两个公共英语数据库,即在模拟和实际压力下的演讲(Susas)和情感语音和歌曲(Ravdess)的ryerson视听数据库。上述混合模型的测试结果表明,所提出的HMM-DNN利用情绪和压力环境中的验证性能。结果还表明,HMM-DNN在曲线(AUC)评估度量下的相同错误率(eer)和面积方面优于所有其他混合模型。基于三个数据集的平均所产生的验证系统分别基于HMM-DNN,DNN-HMM,DNN-GMM和GMM-DNN产生7.19%,16.85%,11.51%和11.90%的eERs。此外,我们发现,与两个谈话环境中的所有其他混合模型相比,DNN-GMM模型展示了最少的计算复杂性。相反,HMM-DNN模型需要最多的培训时间。调查结果还证明了EER和AUC值在比较平均情绪和压力表演时依赖于数据库。
translated by 谷歌翻译
我们引入了一种新的自动评估方法,用于说话者相似性评估,这与人类感知得分一致。现代神经文本到语音模型需要大量的干净训练数据,这就是为什么许多解决方案从单个扬声器模型转换为在许多不同扬声器的示例中训练的解决方案的原因。多扬声器模型带来了新的可能性,例如更快地创建新声音,也是一个新问题 - 扬声器泄漏,其中合成示例的扬声器身份可能与目标扬声器的示例不符。当前,发现此问题的唯一方法是通过昂贵的感知评估。在这项工作中,我们提出了一种评估说话者相似性的自动方法。为此,我们扩展了有关说话者验证系统的最新工作,并评估不同的指标和说话者嵌入模型如何以隐藏的参考和锚(Mushra)分数反映多个刺激。我们的实验表明,我们可以训练一个模型来预测扬声器嵌入的扬声器相似性,其精度为0.96的扬声器嵌入,并且在话语级别上最高0.78 Pearson分数。
translated by 谷歌翻译
In this paper, we propose dictionary attacks against speaker verification - a novel attack vector that aims to match a large fraction of speaker population by chance. We introduce a generic formulation of the attack that can be used with various speech representations and threat models. The attacker uses adversarial optimization to maximize raw similarity of speaker embeddings between a seed speech sample and a proxy population. The resulting master voice successfully matches a non-trivial fraction of people in an unknown population. Adversarial waveforms obtained with our approach can match on average 69% of females and 38% of males enrolled in the target system at a strict decision threshold calibrated to yield false alarm rate of 1%. By using the attack with a black-box voice cloning system, we obtain master voices that are effective in the most challenging conditions and transferable between speaker encoders. We also show that, combined with multiple attempts, this attack opens even more to serious issues on the security of these systems.
translated by 谷歌翻译
Speech-centric machine learning systems have revolutionized many leading domains ranging from transportation and healthcare to education and defense, profoundly changing how people live, work, and interact with each other. However, recent studies have demonstrated that many speech-centric ML systems may need to be considered more trustworthy for broader deployment. Specifically, concerns over privacy breaches, discriminating performance, and vulnerability to adversarial attacks have all been discovered in ML research fields. In order to address the above challenges and risks, a significant number of efforts have been made to ensure these ML systems are trustworthy, especially private, safe, and fair. In this paper, we conduct the first comprehensive survey on speech-centric trustworthy ML topics related to privacy, safety, and fairness. In addition to serving as a summary report for the research community, we point out several promising future research directions to inspire the researchers who wish to explore further in this area.
translated by 谷歌翻译
这项工作探讨了在不存在的人类发声声中合成语音的任务。我们称之为此任务“扬声器生成”,并呈现Tacosawn,一个在此任务中竞争地执行的系统。Tacosawn是一种基于重复的关注文本到语音模型,了解备用空间的发行版,这使得新颖和各种扬声器采样。我们的方法易于实现,并且不需要从扬声器ID系统转移学习。我们呈现客观和主观指标,用于评估此任务的表现,并证明我们所提出的客观指标与人类对扬声器相似性相关联。我们的演示页面上有音频样本。
translated by 谷歌翻译
语音触发检测是一项重要的任务,它可以在目标用户说关键字短语时激活语音助手。通常对探测器进行语音数据培训,独立于说话者信息,并用于语音触发检测任务。但是,这样的说话者独立语音触发探测器通常会遭受绩效降低,因为代表性不足的群体,例如重音说话者。在这项工作中,我们提出了一个新颖的语音触发探测器,该触发探测器可以使用目标扬声器中的少量话语来提高检测准确性。我们提出的模型采用编码器架构。尽管编码器执行扬声器独立语音触发检测,但类似于传统检测器,解码器预测了每种话语的个性化嵌入。然后,获得个性化的语音触发分数作为在注册话语的嵌入与测试话语之间的相似性得分。个性化的嵌入允许在计算语音触发评分时适应目标扬声器的语音,从而提高语音触发检测精度。实验结果表明,与基线扬声器独立语音触发模型相比,所提出的方法相对降低(FRR)的相对降低38%。
translated by 谷歌翻译
端到端模型在自动语音识别中快速更换传统的混合模型。变压器,基于机器翻译任务的自我关注的序列到序列模型,在用于自动语音识别时已经给出了有希望的结果。本文探讨了在培训基于变压器的模型的同时在编码器输入时结合扬声器信息的不同方式,以提高其语音识别性能。我们以每个扬声器的扬声器嵌入形式呈现扬声器信息。我们使用两种类型的扬声器嵌入进行实验:在我们以前的工作中提出的X-Vectors和新颖的S-Vectors。我们向两个数据集报告结果a)肉kel讲座数据库和b)librispeech 500小时分割。NPTEL是一个开源电子学习门户,提供来自印度顶级大学的讲座。通过我们将扬声器嵌入的方法集成到模型中,我们通过基线获得了基线的错误率的改进。
translated by 谷歌翻译
Automatic Speech Recognition (ASR) for air traffic control is generally trained by pooling Air Traffic Controller (ATCO) and pilot data into one set. This is motivated by the fact that pilot's voice communications are more scarce than ATCOs. Due to this data imbalance and other reasons (e.g., varying acoustic conditions), the speech from ATCOs is usually recognized more accurately than from pilots. Automatically identifying the speaker roles is a challenging task, especially in the case of the noisy voice recordings collected using Very High Frequency (VHF) receivers or due to the unavailability of the push-to-talk (PTT) signal, i.e., both audio channels are mixed. In this work, we propose to (1) automatically segment the ATCO and pilot data based on an intuitive approach exploiting ASR transcripts and (2) subsequently consider an automatic recognition of ATCOs' and pilots' voice as two separate tasks. Our work is performed on VHF audio data with high noise levels, i.e., signal-to-noise (SNR) ratios below 15 dB, as this data is recognized to be helpful for various speech-based machine-learning tasks. Specifically, for the speaker role identification task, the module is represented by a simple yet efficient knowledge-based system exploiting a grammar defined by the International Civil Aviation Organization (ICAO). The system accepts text as the input, either manually verified annotations or automatically generated transcripts. The developed approach provides an average accuracy in speaker role identification of about 83%. Finally, we show that training an acoustic model for ASR tasks separately (i.e., separate models for ATCOs and pilots) or using a multitask approach is well suited for the noisy data and outperforms the traditional ASR system where all data is pooled together.
translated by 谷歌翻译