通过突出显示最大影响输出的文本输入,提取理由对给定任务实例的预测解释了语言模型(LM)预测。理想情况下,理由提取应该是忠诚的(反映LM的行为),合理的(对人类来说),数据效率和快速,而不牺牲LM的任务表现。先前的基本原理提取工程由专门的方法提供解决这些desiderata的各个子集 - 但从来没有五个。狭隘地关注某些Desiderata通常会以忽略的牺牲品为代价,因此现有的理由提取器在现实世界应用中往往是不切实际的。为了解决这一挑战,我们提出了Unirex,统一和高度灵活的理由提取学习框架,允许用户容易地占所有五个因素。 UNIREX使理论提取器培训过程的端到端定制,支持任意:(1)启发式/学习的理由提取者,(2)忠诚和/或合理性目标的组合,以及(3)金理由监管的数额。在三个文本分类数据集中,我们最好的UNIrex配置实现了与强基线相比的五个desiderata的较高余额。此外,Unirex培训的理由提取器甚至可以推广到看不见的数据集和任务。
translated by 谷歌翻译
Free-text rationales (FTRs) follow how humans communicate by explaining reasoning processes via natural language. A number of recent works have studied how to improve language model (LM) generalization by using FTRs to teach LMs the correct reasoning processes behind correct task outputs. These prior works aim to learn from FTRs by appending them to the LM input or target output, but this may introduce an input distribution shift or conflict with the task objective, respectively. We propose KNIFE, which distills FTR knowledge from an FTR-augmented teacher LM (takes both task input and FTR) to a student LM (takes only task input), which is used for inference. Crucially, the teacher LM's forward computation has a bottleneck stage in which all of its FTR states are masked out, which pushes knowledge from the FTR states into the task input/output states. Then, FTR knowledge is distilled to the student LM by training its task input/output states to align with the teacher LM's. On two question answering datasets, we show that KNIFE significantly outperforms existing FTR learning methods, in both fully-supervised and low-resource settings.
translated by 谷歌翻译
使用知识图(KGS)增强预培训的语言模型在各种型号推理任务方面取得了成功。但是,对于给定的任务实例,kg或kg的某些部分可能没有用。虽然kg-cugmented模型经常使用注意力集中在特定的kg组件上,但仍然始终使用kg,并且从未明确教授应该使用关注机制。同时,显着性方法可以测量kg特征(例如,图形,节点,路径)对模型进行正确预测的影响,从而解释了哪个kg特征是有用的。本文探讨了可用于提高kg增强模型的性能的显着性解释。首先,我们建议创建粗(是kg有用的?)和精细(kg中的节点/路径是有用的?)显着解释。其次,为了激励基于显着的监督,我们分析了Oracle kg-angimented模型,即直接使用显着解释作为引导他们注意的额外输入。第三,我们提出Salkg,kg-ug-anded模型的框架,以从粗糙和/或罚款解释中学习。给定从任务的培训集创建的显着解释,Salkg共同列举模型来预测解释,然后通过参加预测的解释突出显示的kg功能来解决任务。在三个型号QA基准(CSQA,OBQA,Codah)和一系列KG增强模型中,我们表明Salkg可以产生相当大的性能增益 - 对CSQA的绝对改善高达2.76%。
translated by 谷歌翻译
自由文本的理由旨在通过自然语言更灵活,直观地解释神经语言模型(LM)行为。为了确保理由质量,重要的是要拥有衡量理由的忠诚度(反映了LM的实际行为)和合理性(对人类的说服力)很重要。所有现有的自由文本理由指标均基于模拟性(基本原理与LM预测标签之间的关联),但没有评估此类指标可靠性的协议。为了调查这一点,我们提出了框架,该框架是评估自由文本理由的模拟性指标的框架。框架基于三个公理:(1)良好的指标应为参考理由产生最高的分数,从而最大程度地逐构构建标签标签的关联; (2)良好的指标应适当地对理由的语义扰动敏感; (3)良好的指标应该对LM的任务性能的变化具有鲁棒性。在三个文本分类数据集中,我们表明现有的可模拟性指标无法满足所有三个帧公理,因为它们是通过模型预处理实现的,该模型预处理弄乱了度量标准的信号。我们介绍了一种非原始的模拟性变体,该变体将(1)和(3)的性能平均提高41.7%和42.9%,同时在(2)上进行竞争性能。
translated by 谷歌翻译
Neural language models (LMs) have achieved impressive results on various language-based reasoning tasks by utilizing latent knowledge encoded in their own pretrained parameters. To make this reasoning process more explicit, recent works retrieve a rationalizing LM's internal knowledge by training or prompting it to generate free-text rationales, which can be used to guide task predictions made by either the same LM or a separate reasoning LM. However, rationalizing LMs require expensive rationale annotation and/or computation, without any assurance that their generated rationales improve LM task performance or faithfully reflect LM decision-making. In this paper, we propose PINTO, an LM pipeline that rationalizes via prompt-based learning, and learns to faithfully reason over rationales via counterfactual regularization. First, PINTO maps out a suitable reasoning process for the task input by prompting a frozen rationalizing LM to generate a free-text rationale. Second, PINTO's reasoning LM is fine-tuned to solve the task using the generated rationale as context, while regularized to output less confident predictions when the rationale is perturbed. Across four datasets, we show that PINTO significantly improves the generalization ability of the reasoning LM, yielding higher performance on both in-distribution and out-of-distribution test sets. Also, we find that PINTO's rationales are more faithful to its task predictions than those generated by competitive baselines.
translated by 谷歌翻译
众所周知,端到端的神经NLP体系结构很难理解,这引起了近年来为解释性建模的许多努力。模型解释的基本原则是忠诚,即,解释应准确地代表模型预测背后的推理过程。这项调查首先讨论了忠诚的定义和评估及其对解释性的意义。然后,我们通过将方法分为五类来介绍忠实解释的最新进展:相似性方法,模型内部结构的分析,基于反向传播的方法,反事实干预和自我解释模型。每个类别将通过其代表性研究,优势和缺点来说明。最后,我们从它们的共同美德和局限性方面讨论了上述所有方法,并反思未来的工作方向忠实的解释性。对于有兴趣研究可解释性的研究人员,这项调查将为该领域提供可访问且全面的概述,为进一步探索提供基础。对于希望更好地了解自己的模型的用户,该调查将是一项介绍性手册,帮助选择最合适的解释方法。
translated by 谷歌翻译
最近的作品表明了解释性和鲁棒性是值得信赖和可靠的文本分类的两个关键成分。然而,以前的作品通常是解决了两个方面的一个:i)如何提取准确的理由,以便在有利于预测的同时解释; ii)如何使预测模型对不同类型的对抗性攻击稳健。直观地,一种产生有用的解释的模型应该对对抗性攻击更加强大,因为我们无法信任输出解释的模型,而是在小扰动下改变其预测。为此,我们提出了一个名为-BMC的联合分类和理由提取模型。它包括两个关键机制:混合的对手训练(AT)旨在在离散和嵌入空间中使用各种扰动,以改善模型的鲁棒性,边界匹配约束(BMC)有助于利用边界信息的引导来定位理由。基准数据集的性能表明,所提出的AT-BMC优于分类和基本原子的基础,由大边距提取。鲁棒性分析表明,建议的AT-BMC将攻击成功率降低了高达69%。经验结果表明,强大的模型与更好的解释之间存在连接。
translated by 谷歌翻译
最近在自然语言处理中的模型解释性的研究广泛使用特征评分方法来识别输入的哪些部分对模型来制作预测(即解释或理由)。然而,以前的研究表明,在各种文本分类任务中没有明确的最佳评分方法,而从业者通常必须制定关于理由的长度和类型的其他临时选择(例如短或长,连续或不连续) 。灵感来自于此,我们提出了一种简单而有效且灵活的方法,允许为每个数据实例最佳选择:(1)特征评分方法; (2)长度; (3)理由的类型。我们的方法是通过输入擦除方法的引发方法的启发,这假设预测的最忠实的理由应该是模型的输出分布在使用完整文本分别作为输入中的基本原理和文本之间的最高差异。四个标准文本分类数据集的评估表明,与使用固定的特征评分方法,理由长度和类型相比,我们的提出方法提供了更忠诚,全面,高度的解释。更重要的是,我们证明了一种从业者不需要使用我们的方法提取忠实的理由来提取任何临时选择。
translated by 谷歌翻译
我们提出了一种可解释的关系提取方法,通过共同训练这两个目标来减轻概括和解释性之间的张力。我们的方法使用多任务学习体系结构,该体系结构共同训练分类器以进行关系提取,并在解释关系分类器的决策的关系中标记单词的序列模型。我们还将模型输出转换为规则,以将全局解释带入这种方法。使用混合策略对此序列模型进行训练:有监督,当可获得预先存在的模式的监督时,另外还要半监督。在后一种情况下,我们将序列模型的标签视为潜在变量,并学习最大化关系分类器性能的最佳分配。我们评估了两个数据集中的提议方法,并表明序列模型提供了标签,可作为关系分类器决策的准确解释,并且重要的是,联合培训通常可以改善关系分类器的性能。我们还评估了生成的规则的性能,并表明新规则是手动规则的重要附加功能,并使基于规则的系统更接近神经模型。
translated by 谷歌翻译
在可解释的NLP中,我们需要忠实的理由,以反映模型的解释实例的决策过程。虽然先前的工作着重于提取理由(输入词的子集),但我们研究了他们研究较少的对应物:自由文本的自然语言理由。我们证明,对信息摘要样式任务的忠实提取合理化的现有模型的管道并没有可靠地扩展到需要自由文本理性的“推理”任务。我们转向共同预测和合理化的模型,这是一类广泛使用的高性能模型,用于自由文本合理化,尚未确定忠诚。我们将标签理性关联定义为忠诚的必要特性:产生标签和原理的模型的内部机制必须有意义地关联。我们提出了两项​​测量来测试此属性的测量:鲁棒性等效性和特征重要性一致性。我们发现,基于T5的最先进的联合模型表现出合理化常识性提问和自然语言推论的两种属性,表明它们有可能产生忠实的自由文本理性。
translated by 谷歌翻译
虽然许多方法旨在通过突出突出特征来解释预测,但是这些解释服务的目标以及如何评估它们通常不合适。在这项工作中,我们介绍了一个框架,通过在训练教师模型的学生模型上授予学生模型的准确性增益来量化解释的价值。至关重要的是,培训期间学生可以使用解释,但在测试时间不可用。与先前的建议相比,我们的方法不太易于绘制,实现原则,自动,模型 - 无话会的归属。使用我们的框架,我们比较了许多归属方法,用于文本分类和问题应答,并观察不同学生模型架构和学习策略之间的定量差异(在中度到高度)。
translated by 谷歌翻译
已经做出了许多努力,试图理解什么语法知识(例如,理解代币的语音部分的能力)是在大型预训练的语言模型(LM)中编码的。这是通过“边缘探测”(EP)测试完成的:监督分类任务,以预测SPAN的语法属性(是否具有语音的特定部分)仅使用来自LM编码器的令牌表示。但是,大多数NLP应用程序对这些LM编码器进行了微调,以用于特定任务。在这里,我们问:如果通过EP测试来衡量,LM是否进行了微调,它的语言信息的编码会改变吗?具体来说,我们专注于回答(QA)的任务,并在多个数据集上进行实验。我们发现,当微调模型表现良好或在模型被迫学习错误的相关性的对抗情况下,EP测试结果不会发生显着变化。从类似的发现来看,最近的一些论文得出结论,微调不会改变编码器中的语言知识,但它们没有提供解释。我们发现,EP模型本身容易利用EP数据集中的虚假相关性。当纠正该数据集偏差时,我们确实会看到EP测试结果的改善。
translated by 谷歌翻译
Data Augmentation (DA) is frequently used to automatically provide additional training data without extra human annotation. However, data augmentation may introduce noisy data that impairs training. To guarantee the quality of augmented data, existing methods either assume no noise exists in the augmented data and adopt consistency training or use simple heuristics such as training loss and diversity constraints to filter out ``noisy'' data. However, those filtered examples may still contain useful information, and dropping them completely causes loss of supervision signals. In this paper, based on the assumption that the original dataset is cleaner than the augmented data, we propose an on-the-fly denoising technique for data augmentation that learns from soft augmented labels provided by an organic teacher model trained on the cleaner original data. A simple self-regularization module is applied to force the model prediction to be consistent across two distinct dropouts to further prevent overfitting on noisy labels. Our method can be applied to augmentation techniques in general and can consistently improve the performance on both text classification and question-answering tasks.
translated by 谷歌翻译
大型语言模型在各种任务上显示出令人印象深刻的几次结果。但是,当知识是此类结果的关键时,就像问题回答和事实检查之类的任务一样,似乎需要存储知识的大量参数计数。众所周知,检索增强模型可以在不需要多个参数的情况下在知识密集的任务上表现出色,但是目前尚不清楚它们是否在几个弹药设置中工作。在这项工作中,我们介绍了地图集,这是一个经过精心设计和预先训练的增强语言模型,能够通过很少的培训示例学习知识密集型任务。我们对包括MMLU,苏格兰短裙和归类等各种任务进行评估,并研究文档索引内容的影响,表明它可以很容易地进行更新。值得注意的是,在自然问题上仅使用64个示例在自然问题上达到超过42 \%的准确性,尽管参数少了50倍,但比540B参数模型的表现优于540b参数模型。
translated by 谷歌翻译
The remarkable success of pretrained language models has motivated the study of what kinds of knowledge these models learn during pretraining. Reformulating tasks as fillin-the-blanks problems (e.g., cloze tests) is a natural approach for gauging such knowledge, however, its usage is limited by the manual effort and guesswork required to write suitable prompts. To address this, we develop AUTOPROMPT, an automated method to create prompts for a diverse set of tasks, based on a gradient-guided search. Using AUTO-PROMPT, we show that masked language models (MLMs) have an inherent capability to perform sentiment analysis and natural language inference without additional parameters or finetuning, sometimes achieving performance on par with recent state-of-the-art supervised models. We also show that our prompts elicit more accurate factual knowledge from MLMs than the manually created prompts on the LAMA benchmark, and that MLMs can be used as relation extractors more effectively than supervised relation extraction models. These results demonstrate that automatically generated prompts are a viable parameter-free alternative to existing probing methods, and as pretrained LMs become more sophisticated and capable, potentially a replacement for finetuning.
translated by 谷歌翻译
许多过去的作品旨在通过监督特征重要性(通过模型解释技术估算)通过人类注释(例如重要图像区域的亮点)来改善模型中的视觉推理。但是,最近的工作表明,即使在随机的监督下,对视觉问题答案(VQA)任务的特征重要性(FI)监督的绩效收益也会持续下去,这表明这些方法不会有意义地将模型FI与人类FI保持一致。在本文中,我们表明模型FI监督可以有意义地提高VQA模型的准确性,并通过优化四个关键模型目标来提高几个正确的右季节(RRR)指标的性能:(1)给出的准确预测有限。但是足够的信息(足够); (2)没有重要信息(不确定性)的最大 - 凝集预测; (3)预测不重要的特征变化(不变性)的不变性; (4)模型FI解释与人类FI解释(合理性)之间的对齐。我们的最佳性能方法,视觉功能重要性监督(Visfis),就分布和分布的精度而言,在基准VQA数据集上优于基准VQA数据集的强大基准。尽管过去的工作表明,提高准确性的机制是通过改善解释的合理性,但我们表明这种关系取决于忠诚的解释(解释是否真的代表了模型的内部推理)。当解释是合理的和忠实的,而不是当它们是合理而不是忠实的时候,预测更为准确。最后,我们表明,令人惊讶的是,在控制模型的分布精度时,RRR指标不能预测分布模型的准确性,这使这些指标的价值质疑评估模型推理的价值。所有支持代码均可在https://github.com/zfying/disfis上获得
translated by 谷歌翻译
Deep Learning and Machine Learning based models have become extremely popular in text processing and information retrieval. However, the non-linear structures present inside the networks make these models largely inscrutable. A significant body of research has focused on increasing the transparency of these models. This article provides a broad overview of research on the explainability and interpretability of natural language processing and information retrieval methods. More specifically, we survey approaches that have been applied to explain word embeddings, sequence modeling, attention modules, transformers, BERT, and document ranking. The concluding section suggests some possible directions for future research on this topic.
translated by 谷歌翻译
使用来自表格(TableQA)的信息回答自然语言问题是最近的兴趣。在许多应用程序中,表未孤立,但嵌入到非结构化文本中。通常,通过将其部分与表格单元格内容或非结构化文本跨度匹配,并从任一源中提取答案来最佳地回答问题。这导致了HybridQA数据集引入的TextableQA问题的新空间。现有的表格表示对基于变换器的阅读理解(RC)架构的适应性未通过单个系统解决两个表示的不同模式。培训此类系统因对遥远监督的需求而进一步挑战。为了降低认知负担,培训实例通常包括问题和答案,后者匹配多个表行和文本段。这导致嘈杂的多实例培训制度不仅涉及表的行,而且涵盖了链接文本的跨度。我们通过提出Mitqa来回应这些挑战,这是一个新的TextableQA系统,明确地模拟了表行选择和文本跨度选择的不同但密切相关的概率空间。与最近的基线相比,我们的实验表明了我们的方法的优越性。该方法目前在HybridQA排行榜的顶部,并进行了一个试验集,在以前公布的结果上实现了对em和f1的21%的绝对改善。
translated by 谷歌翻译
We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models (Peters et al., 2018a;Radford et al., 2018), BERT is designed to pretrain deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers. As a result, the pre-trained BERT model can be finetuned with just one additional output layer to create state-of-the-art models for a wide range of tasks, such as question answering and language inference, without substantial taskspecific architecture modifications.BERT is conceptually simple and empirically powerful. It obtains new state-of-the-art results on eleven natural language processing tasks, including pushing the GLUE score to 80.5% (7.7% point absolute improvement), MultiNLI accuracy to 86.7% (4.6% absolute improvement), SQuAD v1.1 question answering Test F1 to 93.2 (1.5 point absolute improvement) and SQuAD v2.0 Test F1 to 83.1 (5.1 point absolute improvement).
translated by 谷歌翻译
Transfer learning, where a model is first pre-trained on a data-rich task before being finetuned on a downstream task, has emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a diversity of approaches, methodology, and practice. In this paper, we explore the landscape of transfer learning techniques for NLP by introducing a unified framework that converts all text-based language problems into a text-to-text format. Our systematic study compares pre-training objectives, architectures, unlabeled data sets, transfer approaches, and other factors on dozens of language understanding tasks. By combining the insights from our exploration with scale and our new "Colossal Clean Crawled Corpus", we achieve state-of-the-art results on many benchmarks covering summarization, question answering, text classification, and more. To facilitate future work on transfer learning for NLP, we release our data set, pre-trained models, and code.
translated by 谷歌翻译