NLP研究的最新突破,例如变压器模型的出现,无疑促进了多项任务的重大进步。但是,很少有作品研究其评估策略的鲁棒性和解释性问题。在这项工作中,我们研究了高性能预训练的语言模型的行为,重点是视觉词汇的语义相似性。首先,我们满足了对可解释的评估指标的需求,这是理解检索实例的概念质量所必需的。我们提出的指标在地方和全球层面提供了宝贵的见解,展示了广泛使用方法的无能。其次,对显着查询语义的对抗性干预措施暴露了不透明指标的漏洞,并在学习的语言表示中突出了模式。
translated by 谷歌翻译