在过去的一年中,用于预训练和转学习的新模型和方法在各种语言理解任务中带来了显着的性能提升。一年前推出的GLUE基准提供了一个单数量度量标准,总结了各种此类任务的进展情况,但最近基准测试的表现接近非专家人员的水平,表明进一步研究的空间有限。本文回顾了从GLUE基准测试中汲取的经验教训,并介绍了SuperGLUE,这是一款以GLUE为基础的新标记,具有一系列更加困难的语言理解任务,改进的资源以及新的公共排行榜.SuperGLUE将很快在super.gluebenchmark.com上发布。
translated by 谷歌翻译