The objective of this paper is speaker recognition under noisy and unconstrained conditions.We make two key contributions. First, we introduce a very large-scale audio-visual speaker recognition dataset collected from open-source media. Using a fully automated pipeline, we curate VoxCeleb2 which contains over a million utterances from over 6,000 speakers. This is several times larger than any publicly available speaker recognition dataset.Second, we develop and compare Convolutional Neural Network (CNN) models and training strategies that can effectively recognise identities from voice under various conditions. The models trained on the VoxCeleb2 dataset surpass the performance of previous works on a benchmark dataset by a significant margin.
translated by 谷歌翻译
视听扬声器日复速度旨在检测使用听觉和视觉信号时的``谁说话。现有的视听深度数据集主要专注于会议室或新闻工作室等室内环境,这些工作室与电影,纪录片和观众情景喜剧等许多情景中的野外视频完全不同。要创建一个能够有效地比较野外视频的日复速度方法的测试平台,我们向AVA电影数据集注释说话者深度标签,并创建一个名为AVA-AVD的新基准。由于不同的场景,复杂的声学条件和完全偏离屏幕扬声器,该基准是挑战。然而,如何处理偏离屏幕和屏幕上的扬声器仍然是一个关键挑战。为了克服它,我们提出了一种新的视听关系网络(AVR-Net),它引入了有效的模态掩模,以基于可见性捕获辨别信息。实验表明,我们的方法不仅可以优于最先进的方法,而且可以更加强大,因为改变屏幕扬声器的比率。消融研究证明了拟议的AVR-NET和尤其是日复一化的模态掩模的优点。我们的数据和代码将公开可用。
translated by 谷歌翻译
自动说话者识别使用数据处理来通过声音来识别说话者。如今,自动化发言人的认可已在数十亿个智能设备和呼叫中心等服务中部署。尽管在面部识别和自然语言处理等相关领域中它们的范围广泛的部署和已知偏见来源,但自动说话者识别的偏见尚未被系统地研究。我们介绍了机器学习开发工作流程中的偏见的深入经验和分析研究,这是自动说话者识别的语音生物特征和核心任务。利用一个既定的框架来理解机器学习中的伤害来源,我们表明在著名的Voxceleb说话者识别挑战中的每个开发阶段都存在偏见,包括数据生成,模型构建和实施。受影响的大多数是女性演讲者和非美国国籍,他们经历了重大的绩效退化。利用我们的发现中的见解,我们提出了减轻自动说话者识别偏见的实用建议,并概述了未来的研究指示。
translated by 谷歌翻译
In this paper, we propose dictionary attacks against speaker verification - a novel attack vector that aims to match a large fraction of speaker population by chance. We introduce a generic formulation of the attack that can be used with various speech representations and threat models. The attacker uses adversarial optimization to maximize raw similarity of speaker embeddings between a seed speech sample and a proxy population. The resulting master voice successfully matches a non-trivial fraction of people in an unknown population. Adversarial waveforms obtained with our approach can match on average 69% of females and 38% of males enrolled in the target system at a strict decision threshold calibrated to yield false alarm rate of 1%. By using the attack with a black-box voice cloning system, we obtain master voices that are effective in the most challenging conditions and transferable between speaker encoders. We also show that, combined with multiple attempts, this attack opens even more to serious issues on the security of these systems.
translated by 谷歌翻译
我们为电视节目和电影等媒体内容中的主动扬声器检测提供了一个跨模式的无监督框架。机器学习的进步使能够从语音和面部图像中识别个人方面令人印象深刻的表现。我们利用言语和面部的说话者身份信息,并将主动的说话者检测作为语音面条分配任务,从而使主动的说话者的脸和基本语音识别同一个人(角色)。我们以相关的说话者身份距离(来自所有其他语音段)来表达语音段,以捕获视频的相对身份结构。然后,我们从同时出现的面上的每个语音段分配一个主动扬声器的面孔,以使所获得的一组活跃的扬声器面显示相似的相对身份结构。此外,我们提出了一种简单有效的方法来解决言语在屏幕外出现的语音细分。我们在三个基准数据集上评估了拟议的系统 - 视觉人群聚类数据集,AVA Active Speaker数据集和哥伦比亚数据集 - 由娱乐和广播媒体的视频组成,并显示出对最先进的竞争性能,充分监督方法。
translated by 谷歌翻译
自动扬声器识别算法通常使用预定义的过滤库,例如MEL频率和伽马酮滤波器,以表征语音音频。但是,已经观察到使用这些滤纸提取的功能对各种音频降解没有弹性。在这项工作中,我们提出了一种基于学习的技术,以从大量的语音音频中推断出滤纸设计。这种过滤库的目的是提取特征在非理想的音频条件下(例如退化,持续时间短和多语言语音)的功能。为此,1D卷积神经网络旨在直接从原始的语音音频中学习一个名为deepvox的时间域滤纸。其次,开发了一种自适应三重态挖掘技术,以有效地挖掘最适合训练过滤器的数据样本。第三,对DeepVox FilterBanks进行的详细消融研究揭示了提取特征中的声源和声带特征的存在。 Voxceleb2,NIST SRE 2008、2010和2018和Fisher Speech数据集的实验结果证明了DeepVox特征在各种退化,短期和多语言语音中的功效。 DeepVox的功能还显示出可提高现有说话者识别算法的性能,例如XVECTOR-PLDA和IVECTOR-PLDA。
translated by 谷歌翻译
Speaker embedding extractors significantly influence the performance of clustering-based speaker diarisation systems. Conventionally, only one embedding is extracted from each speech segment. However, because of the sliding window approach, a segment easily includes two or more speakers owing to speaker change points. This study proposes a novel embedding extractor architecture, referred to as a high-resolution embedding extractor (HEE), which extracts multiple high-resolution embeddings from each speech segment. Hee consists of a feature-map extractor and an enhancer, where the enhancer with the self-attention mechanism is the key to success. The enhancer of HEE replaces the aggregation process; instead of a global pooling layer, the enhancer combines relative information to each frame via attention leveraging the global context. Extracted dense frame-level embeddings can each represent a speaker. Thus, multiple speakers can be represented by different frame-level features in each segment. We also propose an artificially generating mixture data training framework to train the proposed HEE. Through experiments on five evaluation sets, including four public datasets, the proposed HEE demonstrates at least 10% improvement on each evaluation set, except for one dataset, which we analyse that rapid speaker changes less exist.
translated by 谷歌翻译
在本文中,我们提出了一种解决方案,以允许扬声器条件语音模型,例如VoiceFilter-Lite,以支持单个通过中的任意数量的注册用户。这是通过使用多个扬声器嵌入的注意机制来实现,以计算单个细小嵌入,然后将其用作模型的侧面输入。我们实现了多用户VoiceFilter-Lite并为三个任务进行了评估:(1)流自动语音识别(ASR)任务; (2)独立于文本的扬声器验证任务; (3)个性化关键级检测任务,其中ASR必须在嘈杂的环境中检测来自多个注册用户的关键次数。我们的实验表明,在最多四个注册的用户中,多用户VoiceFilter-Lite能够在具有重叠语音时显着降低语音识别和扬声器验证错误,而不会影响其他声学条件下的性能。这种细心的扬声器嵌入方法也可以轻松应用于其他扬声器条件模型,如个人VAD和个性化ASR。
translated by 谷歌翻译
当我们讲话时,可以从嘴唇的运动中推断出演讲的韵律和内容。在这项工作中,我们探讨了唇部综合的唇部任务,即,仅考虑说话者的唇部运动,我们将学习言语的唇部运动,我们专注于学习准确的唇部,以在不受限制的大型词汇环境中为多个说话者提供语音映射。我们通过其面部特征,即年龄,性别,种族和嘴唇动作来捕捉说话者的声音身份,即产生说话者身份的言语。为此,我们提出了一种新颖的方法“ lip2speech”,并采用关键设计选择,以实现无约束场景中语音合成的准确唇部。我们还使用定量,定性指标和人类评估进行了各种实验和广泛的评估。
translated by 谷歌翻译
State-of-the-art speaker verification frameworks have typically focused on speech enhancement techniques with increasingly deeper (more layers) and wider (number of channels) models to improve their verification performance. Instead, this paper proposes an approach to increase the model resolution capability using attention-based dynamic kernels in a convolutional neural network to adapt the model parameters to be feature-conditioned. The attention weights on the kernels are further distilled by channel attention and multi-layer feature aggregation to learn global features from speech. This approach provides an efficient solution to improving representation capacity with lower data resources. This is due to the self-adaptation to inputs of the structures of the model parameters. The proposed dynamic convolutional model achieved 1.62\% EER and 0.18 miniDCF on the VoxCeleb1 test set and has a 17\% relative improvement compared to the ECAPA-TDNN.
translated by 谷歌翻译
在本文中,我们提出了自我监督的发言者表示学习策略,该策略包括在前端的引导平衡扬声器表示学习和在后端的不确定性意识的概率扬声器嵌入训练。在前端阶段,我们通过具有均匀性正则化术语的引导训练方案来学习扬声器表示。在后端阶段,通过最大化属于同一扬声器的语音样本之间的相互似然分数来估计概率扬声器嵌入,这不仅提供扬声器表示,而且提供数据不确定性。实验结果表明,拟议的举止均衡训练策略可以有效地帮助了解扬声器表示,并以基于对比学习的传统方法优越。此外,我们展示了集成的两级框架在eer和mindcf方面进一步改善了VoxceleB1测试中的扬声器验证性能。
translated by 谷歌翻译
本文调查了视听扬声器表示的自我监督的预训练,其中显示了视觉流,显示说话者的口腔区域与语音一起用作输入。我们的研究重点是视听隐藏单元BERT(AV-HUBERT)方法,该方法是最近开发的通用音频语音训练前训练框架。我们进行了广泛的实验,以探测预训练和视觉方式的有效性。实验结果表明,AV-Hubert可以很好地概括与说话者相关的下游任务,从而使标签效率提高了大约10倍的仅10倍,仅音频和视听扬声器验证。我们还表明,结合视觉信息,甚至仅仅是唇部区域,都大大提高了性能和噪声稳健性,在清洁条件下将EER降低了38%,在嘈杂的条件下将EER降低了75%。
translated by 谷歌翻译
在商业应用程序中使用基于扬声器验证(SV)的系统时,重要的是客户与他们的性别,年龄或种族有关。在本文中,我们分析了性别和年龄对SV的影响,并在不同性别和年龄组中发现,对于不同性别和年龄组的期望的常见验证率(FRR),不同的性别和年龄组不同。为了优化所有用户的FRR,我们提出了一种关于SV的上下文(例如性别,年龄)自适应阈值框架。这些上下文可以作为许多实际应用程序的先前信息。我们还提出了一个连接的性别/年龄检测模型,以在没有这样的事先信息的情况下进行算法导出的背景。我们通过实验表明我们的上下文 - 自适应阈值化方法在建立更有效的包容性SV系统方面是有效的。具体而言,我们表明我们可以通过使用特定于性别特定阈值对VoxceB1测试设置的所需性别来减少特定性别的FRR。对OGI Kids的语音语料库类似的分析表明,通过使用年龄特定的阈值,我们可以显着减少某些年龄段的FRR,以便远远。
translated by 谷歌翻译
主动演讲者的检测和语音增强已成为视听场景中越来越有吸引力的主题。根据它们各自的特征,独立设计的体系结构方案已被广泛用于与每个任务的对应。这可能导致模型特定于任务所学的表示形式,并且不可避免地会导致基于多模式建模的功能缺乏概括能力。最近的研究表明,建立听觉和视觉流之间的跨模式关系是针对视听多任务学习挑战的有前途的解决方案。因此,作为弥合视听任务中多模式关联的动机,提出了一个统一的框架,以通过在本研究中通过联合学习视听模型来实现目标扬声器的检测和语音增强。
translated by 谷歌翻译
The thud of a bouncing ball, the onset of speech as lips open -when visual and audio events occur together, it suggests that there might be a common, underlying event that produced both signals. In this paper, we argue that the visual and audio components of a video signal should be modeled jointly using a fused multisensory representation. We propose to learn such a representation in a self-supervised way, by training a neural network to predict whether video frames and audio are temporally aligned. We use this learned representation for three applications: (a) sound source localization, i.e. visualizing the source of sound in a video; (b) audio-visual action recognition; and (c) on/offscreen audio source separation, e.g. removing the off-screen translator's voice from a foreign official's speech. Code, models, and video results are available on our webpage: http://andrewowens.com/multisensory.
translated by 谷歌翻译
视频到语音是从口语说话视频中重建音频演讲的过程。此任务的先前方法依赖于两个步骤的过程,该过程从视频中推断出中间表示,然后使用Vocoder或波形重建算法将中间表示形式解码为波形音频。在这项工作中,我们提出了一个基于生成对抗网络(GAN)的新的端到端视频到语音模型,该模型将口语视频转换为波形端到端,而无需使用任何中间表示或单独的波形合成算法。我们的模型由一个编码器架构组成,该体系结构接收原始视频作为输入并生成语音,然后将其馈送到波形评论家和权力评论家。基于这两个批评家的对抗损失的使用可以直接综合原始音频波形并确保其现实主义。此外,我们的三个比较损失的使用有助于建立生成的音频和输入视频之间的直接对应关系。我们表明,该模型能够用诸如网格之类的受约束数据集重建语音,并且是第一个为LRW(野外唇读)生成可理解的语音的端到端模型,以数百名扬声器为特色。完全记录在“野外”。我们使用四个客观指标来评估两种不同的情况下生成的样本,这些客观指标衡量了人工语音的质量和清晰度。我们证明,所提出的方法在Grid和LRW上的大多数指标上都优于以前的所有作品。
translated by 谷歌翻译
在最近的研究中,自我监管的预训练模型倾向于在转移学习中优于监督的预训练模型。特别是,可以在语音应用中使用语音级语音表示的自我监督学习(SSL),这些语音应用需要歧视性表示话语中一致属性的表示:说话者,语言,情感和年龄。现有的框架级别的自我监督语音表示,例如WAV2VEC,可以用作带有汇总的话语级表示,但这些模型通常很大。也有SSL技术可以学习话语级的表示。最成功的方法之一是一种对比方法,它需要负采样:选择替代样品与当前样品(锚)对比。但是,这并不确保所有负面样本属于与没有标签的锚类别不同的​​类别。本文应用了一种非对抗性的自我监督方法来学习话语级的嵌入。我们对没有标签(Dino)从计算机视觉到语音进行了调整,没有标签(Dino)。与对比方法不同,Dino不需要负抽样。我们将Dino与受到监督方式训练的X-Vector进行了比较。当转移到下游任务(说话者验证,语音情绪识别(SER)和阿尔茨海默氏病检测)时,Dino的表现优于X-Vector。我们研究了转移学习过程中几个方面的影响,例如将微调过程分为步骤,块长度或增强。在微调过程中,首先调整最后一个仿射层,然后整个网络一次超过微调。使用较短的块长度,尽管它们产生了更多不同的输入,但并不一定会提高性能,这意味着至少需要具有特定长度的语音段才能为每个应用程序提高性能。增强对SER有帮助。
translated by 谷歌翻译
The task of emotion recognition in conversations (ERC) benefits from the availability of multiple modalities, as offered, for example, in the video-based MELD dataset. However, only a few research approaches use both acoustic and visual information from the MELD videos. There are two reasons for this: First, label-to-video alignments in MELD are noisy, making those videos an unreliable source of emotional speech data. Second, conversations can involve several people in the same scene, which requires the detection of the person speaking the utterance. In this paper we demonstrate that by using recent automatic speech recognition and active speaker detection models, we are able to realign the videos of MELD, and capture the facial expressions from uttering speakers in 96.92% of the utterances provided in MELD. Experiments with a self-supervised voice recognition model indicate that the realigned MELD videos more closely match the corresponding utterances offered in the dataset. Finally, we devise a model for emotion recognition in conversations trained on the face and audio information of the MELD realigned videos, which outperforms state-of-the-art models for ERC based on vision alone. This indicates that active speaker detection is indeed effective for extracting facial expressions from the uttering speakers, and that faces provide more informative visual cues than the visual features state-of-the-art models have been using so far.
translated by 谷歌翻译
本文介绍了STC有限公司的描述,该系统提交给NIST 2021扬声器识别评估,用于固定和开放的培训条件。这些系统由许多不同的子系统组成,基于使用深神经网络作为特征提取器。在NIST 2021 SRE挑战期间,我们专注于培训最先进的深部扬声器嵌入式提取器,如Contive角度裕度的损耗功能。此外,通过自动语音识别中的Wav2Vec 2.0特征的最近成功的启发,我们探讨了这种方法对提交的扬声器验证的有效性。根据我们的观察,预先训练的大wave2vec 2.0模型的微调为开放式条件提供了最佳的开展系统。我们对固定条件的WAV2VEC 2.0提取器的实验表明,与对比预测编码损失的无监督自回归预测将打开从原始语音信号训练强大的变压器的提取器。对于视频模型,我们通过RetinaFace面部探测器和深签名脸部嵌入式提取器开发了我们的最佳解决方案,培训了大面孔图像数据集。主要系统的最终结果是通过在分数水平上的不同配置融合的不同配置而获得,然后进行评分校准。
translated by 谷歌翻译
本文重点介绍了重叠的语音和性别检测,以研究法国视听媒体中男女之间的互动(性别平等监测项目)。在这种应用程序上下文中,我们需要根据说话者的性别自动划分语音信号,并确定至少有两个说话者同时讲话。我们建议使用WAVLM模型,该模型具有在大量语音数据上进行预训练的优点,以构建重叠的语音检测(OSD)和性别检测(GD)系统。在这项研究中,我们使用两个不同的语料库。 Dihard III语料库非常适合OSD任务,但缺乏性别信息。盟友语料库符合项目申请上下文。我们最好的OSD系统是具有WAVLM预训练功能作为输入的时间卷积网络(TCN),该功能达到了Dihard上最先进的F1得分性能。神经GD在法国广播新闻盟友数据的性别平衡子集上接受了WAVLM输入的培训,并获得了97.9%的准确性。这项工作为人类科学研究人员开辟了有关法国媒体中男女表示差异的新观点。
translated by 谷歌翻译