自然语言理解(NLU)研究中的核心问题是高性能是否展示了模型的强大推理能力。我们提出了一系列广泛的受控实验,其中预先接受了训练的语言模型被暴露于经历特定的损坏变换的数据。转换涉及去除特定词类的实例,并且经常导致非感性句子。我们的研究结果表明,当模型在损坏的数据上进行微调或测试时,大多数胶水任务的性能仍然很高,表明模型即使在非感性背景下也可以利用其他线索进行预测。我们所提出的数据转换可以用作评估特定数据集构成适当测试设备的诊断工具,用于评估模型的语言理解能力。
translated by 谷歌翻译