自动扬声器验证(ASV)已在现实生活中广泛用于身份认证。但是,随着语音转换的快速发展,语音合成算法和记录设备质量的提高,ASV系统很容易受到欺骗攻击。近年来,有关合成和重播语音检测的许多作品,研究人员提出了许多基于手工制作的特征的反欺骗方法,以提高合成和重播语音检测系统的准确性和鲁棒性。但是,使用手工制作的功能而不是原始波形将丢失某些信息进行抗旋转,这将降低系统的检测性能。受图像分类任务中Convnext的有希望的性能的启发,我们将Convnext网络体系结构相应地扩展到SPOOF攻击任务,并提出了端到端的反欺骗模型。通过将扩展体系结构与频道注意块相结合,提出的模型可以专注于最有用的语音表示子频段,以改善反欺骗性的性能。实验表明,对于ASVSPOOF 2019 LA评估数据集和PA评估数据集,我们提出的最佳单个系统可以达到1.88%和2.79%的误差率,这证明了该模型的抗SpoFofing能力。
translated by 谷歌翻译
近年来见证了自动扬声器验证(ASV)的非凡发展。但是,先前的作品表明,最新的ASV模型非常容易受到语音欺骗的攻击,而最近提出的高性能欺骗对策(CM)模型仅专注于独立的反欺骗任务,而忽略了该模型随后的发言人验证过程。如何将CM和ASV集成在一起仍然是一个悬而未决的问题。最近发生了欺骗意识的说话者验证(SASV)挑战,即当共同优化CM和ASV子系统时,可以提供更好的性能。在挑战的情况下,参与者提出的集成系统必须同时拒绝冒名顶替者和欺骗目标扬声器的攻击,这些攻击者直觉有效地与可靠,欺骗的ASV系统的期望相匹配。这项工作着重于基于融合的SASV解决方案,并提出了一个多模型融合框架,以利用多个最先进的ASV和CM模型的功能。拟议的框架将SASV-EER从8.75%提高到1.17 \%,与SASV挑战中最佳基线系统相比,相对改善为86%。
translated by 谷歌翻译
随着在我们日常生活中的面部识别系统的部署增加,面部呈现攻击检测(PAD)在保护面部识别系统中吸引了很多关注并发挥着关键作用。尽管通过在数据集中的手工制作和基于深度学习的方法方面取得了巨大表现,但在处理看不见场景时的性能下降。在这项工作中,我们提出了一种双流卷积神经网络(CNNS)框架。一个流适应四种学习频率滤波器,以学习频域中的特征,这些功能域不太受传感器/照明的变化的影响。另一个流利用RGB图像来补充频域的特征。此外,我们提出了分层关注模块集成,通过考虑CNN的不同层中的深度特征的性质,在不同阶段中加入来自两个流的信息。在数据集内和交叉数据集设置中评估所提出的方法,结果表明,我们所提出的方法在与最先进的最先进的最新的大多数实验装置中提高了最平移,包括明确为域适应设计的方法/换档问题。我们成功证明了我们提出的垫解决方案的设计,在一步的融合研究中,涉及我们所提出的学习频率分解,我们的分层注意模块设计和使用的损耗功能。培训码和预先接受训练的型号是公开发布的
translated by 谷歌翻译
Synthetic voice and splicing audio clips have been generated to spoof Internet users and artificial intelligence (AI) technologies such as voice authentication. Existing research work treats spoofing countermeasures as a binary classification problem: bonafide vs. spoof. This paper extends the existing Res2Net by involving the recent Conformer block to further exploit the local patterns on acoustic features. Experimental results on ASVspoof 2019 database show that the proposed SE-Res2Net-Conformer architecture is able to improve the spoofing countermeasures performance for the logical access scenario. In addition, this paper also proposes to re-formulate the existing audio splicing detection problem. Instead of identifying the complete splicing segments, it is more useful to detect the boundaries of the spliced segments. Moreover, a deep learning approach can be used to solve the problem, which is different from the previous signal processing techniques.
translated by 谷歌翻译
Recent advances in sophisticated synthetic speech generated from text-to-speech (TTS) or voice conversion (VC) systems cause threats to the existing automatic speaker verification (ASV) systems. Since such synthetic speech is generated from diverse algorithms, generalization ability with using limited training data is indispensable for a robust anti-spoofing system. In this work, we propose a transfer learning scheme based on the wav2vec 2.0 pretrained model with variational information bottleneck (VIB) for speech anti-spoofing task. Evaluation on the ASVspoof 2019 logical access (LA) database shows that our method improves the performance of distinguishing unseen spoofed and genuine speech, outperforming current state-of-the-art anti-spoofing systems. Furthermore, we show that the proposed system improves performance in low-resource and cross-dataset settings of anti-spoofing task significantly, demonstrating that our system is also robust in terms of data size and data distribution.
translated by 谷歌翻译
Voice anti-spoofing systems are crucial auxiliaries for automatic speaker verification (ASV) systems. A major challenge is caused by unseen attacks empowered by advanced speech synthesis technologies. Our previous research on one-class learning has improved the generalization ability to unseen attacks by compacting the bona fide speech in the embedding space. However, such compactness lacks consideration of the diversity of speakers. In this work, we propose speaker attractor multi-center one-class learning (SAMO), which clusters bona fide speech around a number of speaker attractors and pushes away spoofing attacks from all the attractors in a high-dimensional embedding space. For training, we propose an algorithm for the co-optimization of bona fide speech clustering and bona fide/spoof classification. For inference, we propose strategies to enable anti-spoofing for speakers without enrollment. Our proposed system outperforms existing state-of-the-art single systems with a relative improvement of 38% on equal error rate (EER) on the ASVspoof2019 LA evaluation set.
translated by 谷歌翻译
最近,先驱研究工作提出了大量的声学特征(原木功率谱图,线性频率卷轴系数,恒定的q cepstral系数等),以进行音频深层检测,获得良好的性能,并表明不同的子带对音频有不同的贡献DeepFake检测。但是,这缺乏对子带中特定信息的解释,这些功能也丢失了诸如阶段之类的信息。受合成语音机制的启发,基本频率(F0)信息用于提高综合语音的质量,而合成语音的F0仍然太平均,这与真实语音的F0差异很大。可以预期,F0可以用作重要信息来区分真正的语言和虚假语音,而由于F0的分布不规则,因此不能直接使用此信息。相反,选择了大多数F0的频带作为输入特征。同时,为了充分利用相位和全频段信息,我们还建议使用真实和虚构的频谱图作为互补输入功能,并分别对Discoint子带进行建模。最后,融合了F0的结果,真实和假想的频谱图。 ASVSPOOF 2019 LA数据集的实验结果表明,我们所提出的系统对于音频DeepFake检测任务非常有效,达到等效错误率(EER)为0.43%,几乎超过了所有系统。
translated by 谷歌翻译
最近,注意机制已成功应用于基于神经网络的说话者验证系统。将挤压和兴奋的块纳入卷积神经网络中的表现出色。但是,它使用全球平均池(GAP)简单地沿时间和频率维度平均功能,这无法在功能地图中保留足够的扬声器信息。在这项研究中,我们表明GAP是时间频域在数学上仅使用频率分解中最低频率分量的特殊情况。为了增强扬声器信息提取能力,我们建议利用多频信息,并设计两个新颖的有效注意模块,称为单频率单通道(SFSC)注意模块和多频单通道(MFSC)注意模块。提出的注意模块可以根据DCT有效地从多个频率组件中捕获更多扬声器信息。我们在Voxceleb数据集上进行了全面的实验,并对第148个UTD法医语料库进行了探测评估。实验结果表明,我们提出的SFSC和MFSC注意模块可以有效地产生更具歧视性的扬声器表示,并且优于RESNET34-SE和ECAPA-TDNN系统,而EER降低了20.9%和20.2%,而无需添加额外的网络参数。
translated by 谷歌翻译
现有的假音频检测系统通常依靠专家经验来设计声学功能或手动设计网络结构的超参数。但是,人工调整参数可能会对结果产生相对明显的影响。几乎不可能手动设置最佳参数集。因此,本文提出了一种完全自动化的终端伪造音频检测方法。我们首先使用WAV2VEC预训练模型来获得语音的高级表示。此外,对于网络结构,我们使用了名为Light-Darts的可区分体系结构搜索(飞镖)的修改版本。它学习了深厚的语音表示,同时自动学习和优化包括卷积操作和残留块组成的复杂神经结构。 ASVSPOOF 2019 LA数据集的实验结果表明,我们提出的系统达到的错误率(EER)为1.08%,这表现优于最先进的单个系统。
translated by 谷歌翻译
以前的作品表明,自动扬声器验证(ASV)严重易受恶意欺骗攻击,例如重播,合成语音和最近出现的对抗性攻击。巨大的努力致力于捍卫ANV反击重播和合成语音;但是,只有几种方法探讨了对抗对抗攻击。所有现有的解决ASV对抗性攻击方法都需要对对抗性样本产生的知识,但是防守者知道野外攻击者应用的确切攻击算法是不切实际的。这项工作是第一个在不知道特定攻击算法的情况下对ASV进行对抗性防御。灵感来自自我监督的学习模型(SSLMS),其具有减轻输入中的浅表噪声并重建中断的浅层样本的优点,这项工作至于对噪声的对抗扰动以及SSLMS对ASV的对抗性防御。具体而言,我们建议从两种角度进行对抗性防御:1)对抗扰动纯化和2)对抗扰动检测。实验结果表明,我们的检测模块通过检测对抗性样本的精度约为80%,有效地屏蔽了ASV。此外,由于对ASV的对抗防御性能没有共同的指标,因此考虑到纯化和基于净化的方法,这项工作也将评估指标正式地进行对抗防御。我们真诚地鼓励未来的作品基于拟议的评估框架基于拟议的评估框架来基准。
translated by 谷歌翻译
We propose Convolutional Block Attention Module (CBAM), a simple yet effective attention module for feed-forward convolutional neural networks. Given an intermediate feature map, our module sequentially infers attention maps along two separate dimensions, channel and spatial, then the attention maps are multiplied to the input feature map for adaptive feature refinement. Because CBAM is a lightweight and general module, it can be integrated into any CNN architectures seamlessly with negligible overheads and is end-to-end trainable along with base CNNs. We validate our CBAM through extensive experiments on ImageNet-1K, MS COCO detection, and VOC 2007 detection datasets. Our experiments show consistent improvements in classification and detection performances with various models, demonstrating the wide applicability of CBAM. The code and models will be publicly available.
translated by 谷歌翻译
自动扬声器识别算法通常使用预定义的过滤库,例如MEL频率和伽马酮滤波器,以表征语音音频。但是,已经观察到使用这些滤纸提取的功能对各种音频降解没有弹性。在这项工作中,我们提出了一种基于学习的技术,以从大量的语音音频中推断出滤纸设计。这种过滤库的目的是提取特征在非理想的音频条件下(例如退化,持续时间短和多语言语音)的功能。为此,1D卷积神经网络旨在直接从原始的语音音频中学习一个名为deepvox的时间域滤纸。其次,开发了一种自适应三重态挖掘技术,以有效地挖掘最适合训练过滤器的数据样本。第三,对DeepVox FilterBanks进行的详细消融研究揭示了提取特征中的声源和声带特征的存在。 Voxceleb2,NIST SRE 2008、2010和2018和Fisher Speech数据集的实验结果证明了DeepVox特征在各种退化,短期和多语言语音中的功效。 DeepVox的功能还显示出可提高现有说话者识别算法的性能,例如XVECTOR-PLDA和IVECTOR-PLDA。
translated by 谷歌翻译
在情感计算领域的基于生理信号的情感识别,已经支付了相当大的关注。对于可靠性和用户友好的采集,电卸电子活动(EDA)在实际应用中具有很大的优势。然而,基于EDA的情感识别与数百个科目仍然缺乏有效的解决方案。在本文中,我们的工作试图融合主题的各个EDA功能和外部诱发的音乐功能。我们提出了端到端的多模式框架,1维剩余时间和通道注意网络(RTCAN-1D)。对于EDA特征,基于新型的基于凸优化的EDA(CVXEDA)方法被应用于将EDA信号分解为PAHSIC和TONC信号,以进行动态和稳定的功能。首先涉及基于EDA的情感识别的渠道时间关注机制,以改善时间和渠道明智的表示。对于音乐功能,我们将音乐信号与开源工具包opensmile处理,以获取外部特征向量。来自EDA信号和来自音乐的外部情绪基准的个体情感特征在分类层中融合。我们对三个多模式数据集(PMEMO,DEAP,AMIGOS)进行了系统的比较,适用于2级薪酬/唤醒情感识别。我们提出的RTCAN-1D优于现有的最先进的模型,这也验证了我们的工作为大规模情感认可提供了可靠和有效的解决方案。我们的代码已在https://github.com/guanghaoyin/rtcan-1发布。
translated by 谷歌翻译
已经进行了许多有效的尝试来进行虚假的音频检测。但是,他们只能提供检测结果,但没有对抗这种伤害的对策。对于许多相关的实际应用,也需要哪种模型或算法生成假音频。因此,我们提出了一个新问题,用于检测虚假音频的Vocoder指纹。实验是在由八个最先进的歌手合成的数据集上进行的。我们已经初步探索了功能和模型体系结构。T-SNE可视化表明,不同的Vocoder会生成不同的Vocoder指纹。
translated by 谷歌翻译
开发了对策(CM)模型,以保护自动扬声器验证(ASV)系统免受欺骗攻击,并防止导致的个人信息泄漏。基于实用性和安全性考虑,CM模型通常部署在边缘设备上,这些设备的计算资源和存储空间比基于云的系统更有限。这项工作建议使用广义的端到端(GE2E)预训练和对抗性微调来提高性能,并应用知识蒸馏(KD)来减少CM模型的大小。在ASVSPOOF 2021逻辑访问任务的评估阶段,轻质重新设备达到最小T-DCF 0.2695和EER 3.54%。与教师模型相比,轻量级学生模型仅使用22.5%的参数和21.1%的倍数和累积教师模型操作数。
translated by 谷歌翻译
由于攻击材料的多样性,指纹识别系统(AFRSS)容易受到恶意攻击的影响。为AFRSS的安全性和可靠性提出有效的指纹介绍攻击检测(PAD)方法是非常重要的。然而,当前焊盘方法通常在新攻击材料或传感器设置下具有差的鲁棒性。因此,本文通过考虑处理先前作品中忽略的冗余“噪声”信息,提出了一种新的通道 - 方向特征去噪焊盘(CFD-PAD)方法。所提出的方法通过加权每个信道的重要性并找到这些鉴别性信道和“噪声”通道来学习指纹图像的重要特征。然后,在特征图中抑制了“噪声”通道的传播以减少干扰。具体地,设计了PA-Adaption损耗来限制特征分布,以使实时指纹的特征分布更具聚合和欺骗指纹更多的分散。我们在Livdet 2017上评估的实验结果表明,当假检出率等于1.0%(TDR @FDR = 1%)时,我们所提出的CFD-PAD可以达到2.53%的ace和93.83%的真实检测率,并且优于基于最佳的单一模型在ACE(2.53%与4.56%)和TDR @FDR方面的方法明显显着(93.83%,93.83%\%),这证明了该方法的有效性。虽然我们已经实现了与最先进的基于多模型的方法相比的可比结果,但是通过我们的方法仍然可以实现TDR @ FDR增加到91.19%的1%至93.83%。此外,与基于多模型的多模型的方法相比,我们的模型更简单,更轻,更高效,更高效地实现了74.76%的耗时减少。代码将公开。
translated by 谷歌翻译
人行道表面数据的获取和评估在路面条件评估中起着至关重要的作用。在本文中,提出了一个称为RHA-NET的自动路面裂纹分割的有效端到端网络,以提高路面裂纹分割精度。 RHA-NET是通过将残留块(重阻)和混合注意块集成到编码器架构结构中来构建的。这些重组用于提高RHA-NET提取高级抽象特征的能力。混合注意块旨在融合低级功能和高级功能,以帮助模型专注于正确的频道和裂纹区域,从而提高RHA-NET的功能表现能力。构建并用于训练和评估所提出的模型的图像数据集,其中包含由自设计的移动机器人收集的789个路面裂纹图像。与其他最先进的网络相比,所提出的模型在全面的消融研究中验证了添加残留块和混合注意机制的功能。此外,通过引入深度可分离卷积生成的模型的轻加权版本可以更好地实现性能和更快的处理速度,而U-NET参数数量的1/30。开发的系统可以在嵌入式设备Jetson TX2(25 fps)上实时划分路面裂纹。实时实验拍摄的视频将在https://youtu.be/3xiogk0fig4上发布。
translated by 谷歌翻译
Previous databases have been designed to further the development of fake audio detection. However, fake utterances are mostly generated by altering timbre, prosody, linguistic content or channel noise of original audios. They ignore a fake situation, in which the attacker manipulates an acoustic scene of the original audio with another forgery one. It will pose a major threat to our society if some people misuse the manipulated audio with malicious purpose. Therefore, this motivates us to fill in the gap. This paper designs such a dataset for scene fake audio detection (SceneFake). A manipulated audio in the SceneFake dataset involves only tampering the acoustic scene of an utterance by using speech enhancement technologies. We can not only detect fake utterances on a seen test set but also evaluate the generalization of fake detection models to unseen manipulation attacks. Some benchmark results are described on the SceneFake dataset. Besides, an analysis of fake attacks with different speech enhancement technologies and signal-to-noise ratios are presented on the dataset. The results show that scene manipulated utterances can not be detected reliably by the existing baseline models of ASVspoof 2019. Furthermore, the detection of unseen scene manipulation audio is still challenging.
translated by 谷歌翻译
音频深击允许创造高质量,令人信服的话语,因此由于其潜在的应用或假新闻等潜在的应用而构成威胁。检测这些操作的方法应以良好的概括和稳定性为特征,从而导致对训练中未明确包含的技术进行攻击的稳健性。在这项工作中,我们介绍了攻击不可知的数据集 - 两个音频深击和一个反欺骗数据集的组合,由于攻击的使用不连续,它们可以更好地概括检测方法。我们对当前的DeepFake检测方法进行了彻底的分析,并考虑了不同的音频特征(前端)。此外,我们提出了一个基于LCNN的模型,该模型具有LFCC和MEL-SPECTROGRAM前端,该模型不仅具有良好的概括和稳定性结果的特征,而且还显示了基于LFCC的模式的改进 - 我们降低了所有折叠和所有折叠和标准偏差EER分两个折叠高达5%。
translated by 谷歌翻译
大多数最新的说话者验证架构都采用了多尺度处理和频道注意机制。这些模型的卷积层通常具有固定的内核大小,例如3或5。在本研究中,我们进一步为这一研究采用了选择性核心注意(SKA)机制。SKA机制允许每个卷积层以数据驱动的方式自适应地选择内核大小。它基于利用频率和通道域的注意机制。我们首先将现有的SKA模块应用于我们的基线。然后,我们提出了两个SKA变体,其中第一个变体在ECAPA-TDNN模型的前面应用,另一个变体与RES2NET骨干块结合使用。通过广泛的实验,我们证明了我们提出的两个SKA变体始终提高性能,并在三个不同的评估方案上进行测试时是互补的。
translated by 谷歌翻译