演讲暂停是痴呆检测中有效的生物标志物。最近的深入学习模型具有脱言暂停,以实现高度准确的痴呆症检测,但尚未利用语音暂停的可解释性,即语音暂停的言论和长度如何影响痴呆症检测结果。在本文中,我们将使用对抗性学习方法研究痴呆症敏感暂停的位置和长度。具体地,我们首先通过向测试样本的语音暂停添加扰动来利用侵扰攻击方法,旨在降低检测模型的置信水平。然后,我们应用侵犯培训方法来评估扰动对检测模型的训练样本的影响。我们从模型准确性,暂停上下文和暂停长度的角度来检查可解释性。我们发现一些暂停对痴呆症更敏感而不是模型的角度来看的其他暂停,例如,动词附近的语音暂停。增加敏感暂停或增加敏感暂停的长度导致模型推断对阿尔茨海默病引起,同时降低敏感暂停或删除敏感暂停的长度导致非广告。
translated by 谷歌翻译
深度变压器神经网络模型在生物医学域中提高了智能文本处理系统的预测精度。他们在各种各样的生物医学和临床自然语言处理(NLP)基准上获得了最先进的性能分数。然而,到目前为止,这些模型的稳健性和可靠性较小。神经NLP模型可以很容易地被对抗动物样本所欺骗,即输入的次要变化,以保留文本的含义和可理解性,而是强制NLP系统做出错误的决策。这提出了对生物医学NLP系统的安全和信任的严重担忧,特别是当他们旨在部署在现实世界用例中时。我们调查了多种变压器神经语言模型的强大,即Biobert,Scibert,Biomed-Roberta和Bio-Clinicalbert,在各种生物医学和临床文本处理任务中。我们实施了各种对抗的攻击方法来测试不同攻击方案中的NLP系统。实验结果表明,生物医学NLP模型对对抗性样品敏感;它们的性能平均分别平均下降21%和18.9个字符级和字级对抗噪声的绝对百分比。进行广泛的对抗训练实验,我们在清洁样品和对抗性投入的混合物上进行了微调NLP模型。结果表明,对抗性训练是对抗对抗噪声的有效防御机制;模型的稳健性平均提高11.3绝对百分比。此外,清洁数据的模型性能平均增加2.4个绝对存在,表明对抗性训练可以提高生物医学NLP系统的概括能力。
translated by 谷歌翻译
Machine learning algorithms are often vulnerable to adversarial examples that have imperceptible alterations from the original counterparts but can fool the state-of-the-art models. It is helpful to evaluate or even improve the robustness of these models by exposing the maliciously crafted adversarial examples. In this paper, we present TEXTFOOLER, a simple but strong baseline to generate adversarial text. By applying it to two fundamental natural language tasks, text classification and textual entailment, we successfully attacked three target models, including the powerful pre-trained BERT, and the widely used convolutional and recurrent neural networks. We demonstrate three advantages of this framework:(1) effective-it outperforms previous attacks by success rate and perturbation rate, (2) utility-preserving-it preserves semantic content, grammaticality, and correct types classified by humans, and (3) efficient-it generates adversarial text with computational complexity linear to the text length. 1
translated by 谷歌翻译
Adversarial training is widely acknowledged as the most effective defense against adversarial attacks. However, it is also well established that achieving both robustness and generalization in adversarially trained models involves a trade-off. The goal of this work is to provide an in depth comparison of different approaches for adversarial training in language models. Specifically, we study the effect of pre-training data augmentation as well as training time input perturbations vs. embedding space perturbations on the robustness and generalization of BERT-like language models. Our findings suggest that better robustness can be achieved by pre-training data augmentation or by training with input space perturbation. However, training with embedding space perturbation significantly improves generalization. A linguistic correlation analysis of neurons of the learned models reveal that the improved generalization is due to `more specialized' neurons. To the best of our knowledge, this is the first work to carry out a deep qualitative analysis of different methods of generating adversarial examples in adversarial training of language models.
translated by 谷歌翻译
大规模的预训练语言模型在广泛的自然语言理解(NLU)任务中取得了巨大的成功,甚至超过人类性能。然而,最近的研究表明,这些模型的稳健性可能受到精心制作的文本对抗例子的挑战。虽然已经提出了几个单独的数据集来评估模型稳健性,但仍缺少原则和全面的基准。在本文中,我们呈现对抗性胶水(AdvGlue),这是一个新的多任务基准,以定量和彻底探索和评估各种对抗攻击下现代大规模语言模型的脆弱性。特别是,我们系统地应用14种文本对抗的攻击方法来构建一个粘合的援助,这是由人类进一步验证的可靠注释。我们的调查结果总结如下。 (i)大多数现有的对抗性攻击算法容易发生无效或暧昧的对手示例,其中大约90%的含量改变原始语义含义或误导性的人的注册人。因此,我们执行仔细的过滤过程来策划高质量的基准。 (ii)我们测试的所有语言模型和强大的培训方法在AdvGlue上表现不佳,差价远远落后于良性准确性。我们希望我们的工作能够激励开发新的对抗攻击,这些攻击更加隐身,更加统一,以及针对复杂的对抗性攻击的新强大语言模型。 Advglue在https://adversarialglue.github.io提供。
translated by 谷歌翻译
This study provides a new understanding of the adversarial attack problem by examining the correlation between adversarial attack and visual attention change. In particular, we observed that: (1) images with incomplete attention regions are more vulnerable to adversarial attacks; and (2) successful adversarial attacks lead to deviated and scattered attention map. Accordingly, an attention-based adversarial defense framework is designed to simultaneously rectify the attention map for prediction and preserve the attention area between adversarial and original images. The problem of adding iteratively attacked samples is also discussed in the context of visual attention change. We hope the attention-related data analysis and defense solution in this study will shed some light on the mechanism behind the adversarial attack and also facilitate future adversarial defense/attack model design.
translated by 谷歌翻译
自动语音识别系统为应用程序创建了激动人心的可能性,但是它们还为系统窃听的机会提供了机会。我们提出了一种方法来伪装一个人的声音,这些系统来自这些系统,而不会对房间里的人之间的谈话不方便。标准对策攻击在实时流动情况下无效,因为信号的特性将在执行攻击时发生变化。我们介绍了预测攻击,通过预测将来最有效的攻击预测攻击来实现实时性能。在实时约束下,我们的方法在通过字错误率通过字错误率测量的基本电咨询器中,我们的方法堵塞了37x的基线,而通过字符错误率测量。我们还展示了我们的方法在物理环境中实际上是在物理距离的现实环境中。
translated by 谷歌翻译
对抗性鲁棒性评估了机器学习模型的最坏情况性能方案,以确保其安全性和可靠性。这项研究是第一个研究视觉接地对话模型对文本攻击的鲁棒性的一项。这些攻击代表了最坏的情况,其中输入问题包含一个同义词,该代名词导致先前正确的模型返回错误的答案。使用这种情况,我们首先旨在了解多模式输入组件如何促进模型鲁棒性。我们的结果表明,编码对话框历史记录的模型更强大,并且在对历史记录发动攻击时,模型预测变得更加不确定。这与先前的工作相反,后者发现对话记录在此任务上的模型性能可以忽略不计。我们还评估了如何生成对抗性测试示例,这些测试示例成功地欺骗了模型,但仍未被用户/软件设计人员发现。我们发现文本以及视觉上下文对于生成合理的最坏情况很重要。
translated by 谷歌翻译
尽管在许多机器学习任务方面取得了巨大成功,但深度神经网络仍然易于对抗对抗样本。虽然基于梯度的对抗攻击方法在计算机视野领域探索,但由于文本的离散性质,直接应用于自然语言处理中,这是不切实际的。为了弥合这一差距,我们提出了一般框架,以适应现有的基于梯度的方法来制作文本对抗性样本。在该框架中,将基于梯度的连续扰动添加到嵌入层中,并在前向传播过程中被放大。然后用掩模语言模型头解码最终的扰动潜在表示以获得潜在的对抗性样本。在本文中,我们将我们的框架与\ textbf {t} Extual \ TextBF {P} ROJECTED \ TextBF {G} Radient \ TextBF {D} excent(\ TextBF {TPGD})进行ronject \ textbf {p}。我们通过在三个基准数据集上执行转移黑匣子攻击来评估我们的框架来评估我们的框架。实验结果表明,与强基线方法相比,我们的方法达到了更好的性能,并产生更精细和语法的对抗性样本。所有代码和数据都将公开。
translated by 谷歌翻译
在过去的几年中,保护NLP模型免受拼写错误的障碍是研究兴趣的对象。现有的补救措施通常会损害准确性,或者需要对每个新的攻击类别进行完整的模型重新训练。我们提出了一种新颖的方法,可以向基于变压器的NLP模型中的拼写错误增加弹性。可以实现这种鲁棒性,而无需重新训练原始的NLP模型,并且只有最小的语言丧失理解在没有拼写错误的输入上的性能。此外,我们提出了一种新的有效近似方法来产生对抗性拼写错误,这大大降低了评估模型对对抗性攻击的弹性所需的成本。
translated by 谷歌翻译
发现普遍的对抗性扰动的存在对对抗性学习领域具有很大的理论和实际影响。在文本域中,大多数通用研究都集中在添加到所有文本中的对抗前缀上。但是,与视觉域不同,在不同输入中添加相同的扰动会导致明显不自然的输入。因此,我们介绍了一种新的通用对手设置 - 一种通用的对抗性政策,它具有其他普遍攻击的许多优势,但也导致有效文本 - 从而使其在实践中具有重要意义。我们通过在许多文本上学习保存文本更改的一组语义集,学习单个搜索策略来实现这一目标。这种公式是普遍的,因为该政策成功地在新文本上找到了对抗性示例。我们的方法使用文本扰动,这些扰动已被广泛显示,以在非普遍设置(特定的同义词替代品)中产生自然攻击。我们建议对使用强化学习的这种表述进行强有力的基线方法。它可以概括(从几乎没有500个培训文本)表明文本域中也存在普遍的对抗模式。
translated by 谷歌翻译
深度学习技术的发展极大地促进了自动语音识别(ASR)技术的性能提高,该技术证明了在许多任务中与人类听力相当的能力。语音接口正变得越来越广泛地用作许多应用程序和智能设备的输入。但是,现有的研究表明,DNN很容易受到轻微干扰的干扰,并且会出现错误的识别,这对于由声音控制的智能语音应用非常危险。
translated by 谷歌翻译
尽管在许多领域都有成功的应用,但如今的机器学习模型遭受了臭名昭著的问题,例如脆弱性,对对抗性例子。除了陷入对抗攻击和防御之间的猫与小鼠游戏之外,本文还提供了替代观点来考虑对抗性示例,并探索我们是否可以在良性应用中利用它。我们首先将对抗性示例归因于使用非语义特征的人类模型差异。尽管在经典的机器学习机制中很大程度上被忽略了,但非语义功能具有三个有趣的特征,因为(1)模型独有,(2)对推理至关重要,以及(3)可利用的功能。受到这一点的启发,我们提出了良性的对抗性攻击的新想法,以利用三个方向的对抗性示例以善良:(1)对抗性图灵测试,(2)拒绝恶意模型应用,以及(3)对抗性数据扩增。每个方向都以动机详细说明,理由分析和原型应用来展示其潜力。
translated by 谷歌翻译
发言人识别系统(SRSS)最近被证明容易受到对抗攻击的影响,从而引发了重大的安全问题。在这项工作中,我们系统地研究了基于确保SRSS的基于对抗性训练的防御。根据SRSS的特征,我们提出了22种不同的转换,并使用扬声器识别的7种最新有前途的对抗攻击(4个白盒和3个Black-Box)对其进行了彻底评估。仔细考虑了国防评估中的最佳实践,我们分析了转换的强度以承受适应性攻击。我们还评估并理解它们与对抗训练相结合的自适应攻击的有效性。我们的研究提供了许多有用的见解和发现,其中许多与图像和语音识别域中的结论是新的或不一致的,例如,可变和恒定的比特率语音压缩具有不同的性能,并且某些不可差的转换仍然有效地抗衡。当前有希望的逃避技术通常在图像域中很好地工作。我们证明,与完整的白色盒子设置中的唯一对抗性训练相比,提出的新型功能级转换与对抗训练相比是相当有效的,例如,将准确性提高了13.62%,而攻击成本则达到了两个数量级,而其他攻击成本则增加了。转型不一定会提高整体防御能力。这项工作进一步阐明了该领域的研究方向。我们还发布了我们的评估平台SpeakerGuard,以促进进一步的研究。
translated by 谷歌翻译
对抗性实例的有趣现象引起了机器学习中的显着关注,对社区可能更令人惊讶的是存在普遍对抗扰动(UAPS),即欺骗目标DNN的单一扰动。随着对深层分类器的关注,本调查总结了最近普遍对抗攻击的进展,讨论了攻击和防御方的挑战,以及uap存在的原因。我们的目标是将此工作扩展为动态调查,该调查将定期更新其内容,以遵循关于在广泛的域中的UAP或通用攻击的新作品,例如图像,音频,视频,文本等。将讨论相关更新:https://bit.ly/2sbqlgg。我们欢迎未来的作者在该领域的作品,联系我们,包括您的新发现。
translated by 谷歌翻译
基于深度学习的系统容易受到对抗性攻击的影响,在该系统中,输入的小小的,不可察觉的变化改变了模型的预测。但是,迄今为止,大多数检测这些攻击的方法都是为图像处理系统设计的。许多流行的图像对抗检测方法能够从嵌入特征空间中识别对抗性示例,而在NLP域中,现有最先进的检测方法仅关注输入文本特征,而无需考虑模型嵌入空间。这项工作研究了将这些图像移植到自然语言处理(NLP)任务时,将产生什么差异 - 发现这些检测器的端口不能很好地端口。这是可以预期的,因为NLP系统具有非常不同的输入形式:本质上的离散和顺序,而不是图像的连续和固定尺寸输入。作为等效的以模型为重点的NLP检测方法,这项工作提出了一个简单的基于“残基”检测器的句子,以识别对抗性示例。在许多任务上,它超过表现的移植图像域检测器和最新的NLP特定探测器的状态。
translated by 谷歌翻译
随着硬件和算法的开发,ASR(自动语音识别)系统发展了很多。随着模型变得越来越简单,开发和部署的困难变得更加容易,ASR系统正越来越接近我们的生活。一方面,我们经常使用ASR的应用程序或API来生成字幕和记录会议。另一方面,智能扬声器和自动驾驶汽车依靠ASR系统来控制Aiot设备。在过去的几年中,对ASR系统的攻击攻击有很多作品。通过在波形中添加小的扰动,识别结果有很大的不同。在本文中,我们描述了ASR系统的发展,攻击的不同假设以及如何评估这些攻击。接下来,我们在两个攻击假设中介绍了有关对抗性示例攻击的当前作品:白框攻击和黑框攻击。与其他调查不同,我们更多地关注它们在ASR系统中扰动波形,这些攻击之间的关系及其实现方法之间的层。我们专注于他们作品的效果。
translated by 谷歌翻译
最近基于神经的关系提取方法虽然实现了对基准数据集的有希望的改进,但据对抗对抗攻击的脆弱性。到目前为止,努力主要集中在产生对抗性样本或捍卫对抗性攻击,但对正常和对抗样品之间的差异很少。在这项工作中,我们采取第一步利用基于显着的方法来分析那些对抗性样本。我们观察到显着标记与对抗扰动的直接相关。我们进一步发现对抗性扰动是训练集中不存在的那些代币或与关系标签相关的肤色提示。在某种程度上,我们的方法推出了对抗对抗样本的特征。我们在https://github.com/zjunlp/diagnoseadv中发布了一个开源测试用“diagnoseadv”。
translated by 谷歌翻译
现在,基于BERT的上下文排名模型已在各种段落和文档排名任务中已建立。但是,在对抗输入下基于BERT的排名模型的鲁棒性不足。在本文中,我们认为,伯特级居民对针对检索文件的对抗性攻击并不免疫。首先,我们提出了使用基于梯度的优化方法对高度相关和非相关文档的对抗扰动算法。我们的算法的目的是将少量令牌添加到高度相关或非相关的文档中,以引起大量降级或晋升。我们的实验表明,少数令牌已经可以导致文档等级发生很大变化。此外,我们发现伯特级速率在很大程度上依靠文档开始/头来进行相关性预测,从而使文档的初始部分更容易受到对抗攻击的影响。更有趣的是,我们发现一小部分反复出现的对抗性词,将这些单词添加到文档中后,这些单词分别导致任何相关/非相关/非相关文件的成功级别降级/促进。最后,我们的对抗令牌还显示了数据集内部和跨数据集内的特定主题偏好,从而暴露了BERT预训练或下游数据集中的潜在偏见。
translated by 谷歌翻译
最近的作品表明了解释性和鲁棒性是值得信赖和可靠的文本分类的两个关键成分。然而,以前的作品通常是解决了两个方面的一个:i)如何提取准确的理由,以便在有利于预测的同时解释; ii)如何使预测模型对不同类型的对抗性攻击稳健。直观地,一种产生有用的解释的模型应该对对抗性攻击更加强大,因为我们无法信任输出解释的模型,而是在小扰动下改变其预测。为此,我们提出了一个名为-BMC的联合分类和理由提取模型。它包括两个关键机制:混合的对手训练(AT)旨在在离散和嵌入空间中使用各种扰动,以改善模型的鲁棒性,边界匹配约束(BMC)有助于利用边界信息的引导来定位理由。基准数据集的性能表明,所提出的AT-BMC优于分类和基本原子的基础,由大边距提取。鲁棒性分析表明,建议的AT-BMC将攻击成功率降低了高达69%。经验结果表明,强大的模型与更好的解释之间存在连接。
translated by 谷歌翻译