智能论文笔记

Balancing Cost and Quality: An Exploration of Human-in-the-loop Frameworks for Automated Short Answer Scoring

Hiroaki Funayama , Tasuku Sato , Yuichiroh Matsubayashi , Tomoya Mizumoto , Jun Suzuki , Kentaro Inui

分类：自然语言处理

2022-06-16

简短的答案评分（SAS）是对学习者编写的简短文本的任务。近年来，基于深度学习的方法显着改善了SAS模型的性能，但是如何在将此类模型应用于教育领域时，如何保证高质量的预测仍然是一个关键问题。为了确保高质量的预测，我们介绍了探索人类在循环框架中使用分级成本的第一个研究，同时通过允许SAS模型与人类分级器共享分级任务，以确保分级质量。具体而言，通过引入指示模型预测可靠性的置信度估计方法，可以通过仅利用对评分结果可靠性高的预测来保证评分质量，并对人类分级的可靠性低可靠性。在我们的实验中，我们使用多个置信度估计方法和多个SAS数据集研究了提出的框架的可行性。我们发现，我们的人类框架框架允许自动评分模型和人类分级器达到目标评分质量。

translated by 谷歌翻译

Automatic Short Math Answer Grading via In-context Meta-learning

Mengxue Zhang , Sami Baral , Neil Heffernan , Andrew Lan

分类：自然语言处理 | 机器学习

2022-05-30

自动简短答案分级是探索如何使用人工智能（AI）的工具来改善教育的重要研究方向。当前的最新方法使用神经语言模型来创建学生响应的矢量表示，然后是分类器以预测分数。但是，这些方法有几个关键的局限性，包括i）他们使用的预培训的语言模型不适合教育主题领域和/或学生生成的文本和ii）它们几乎总是每个问题训练一个模型，而忽略了该模型由于高级语言模型的大小，跨越问题的联系并导致了重要的模型存储问题。在本文中，我们研究了学生对数学问题的回答的自动简短答案分级问题，并为这项任务提出了一个新颖的框架。首先，我们使用Mathbert，这是流行语言模型BERT的一种变体，该模型适合数学内容，并将其微调为学生响应分级的下游任务。其次，我们使用一种文字学习方法，提供评分示例作为语言模型的输入，以提供其他上下文信息并促进对以前看不见的问题的概括。我们在研究学生对开放式数学问题的回答的现实数据集上评估了我们的框架，并表明我们的框架（通常非常明显）优于现有方法，尤其是对于培训期间没有看到的新问题。

translated by 谷歌翻译

Using Active Learning Methods to Strategically Select Essays for Automated Scoring

Tahereh Firoozi , Hamid Mohammadi , Mark J. Gierl

分类：自然语言处理

2023-01-02

Research on automated essay scoring has become increasing important because it serves as a method for evaluating students' written-responses at scale. Scalable methods for scoring written responses are needed as students migrate to online learning environments resulting in the need to evaluate large numbers of written-response assessments. The purpose of this study is to describe and evaluate three active learning methods than can be used to minimize the number of essays that must be scored by human raters while still providing the data needed to train a modern automated essay scoring system. The three active learning methods are the uncertainty-based, the topological-based, and the hybrid method. These three methods were used to select essays included as part of the Automated Student Assessment Prize competition that were then classified using a scoring model that was training with the bidirectional encoder representations from transformer language model. All three active learning methods produced strong results, with the topological-based method producing the most efficient classification. Growth rate accuracy was also evaluated. The active learning methods produced different levels of efficiency under different sample size allocations but, overall, all three methods were highly efficient and produced classifications that were similar to one another.

translated by 谷歌翻译

Using Sampling to Estimate and Improve Performance of Automated Scoring Systems with Guarantees

Yaman Kumar Singla , Sriram Krishna , Rajiv Ratn Shah , Changyou Chen

分类：自然语言处理

2021-11-17

自动评分（AS），在教育测试环境中评分散文和演讲的自然语言处理任务，越来越受欢迎，并在政府考试到提供语言能力服务的公司的普及和部署。然而，现有系统完全放弃人类评估者，从而损害了测试的可靠性，或者人类和机器的每一个响应都增加了成本。我们瞄准可能的解决方案的频谱，利用人和机器提供更高质量的测试，同时保持成本合理，使民主化进入。在这项工作中，我们提出了现有范式的组合，智能地用人类评分的抽样回应。我们提出奖励采样，并在准确性（平均平均增长19.80％）和二次加权kappa（QWK）（平均平均25.60％）的大幅提升，使用我们提出的抽样，具有相对较小的人类预算（30％）。使用标准随机和重要采样基线观察的精度增加分别为8.6％和12.2％。此外，我们通过在目前部署的各种模型和伪模型中测量其在各种模型以及伪模型中，展示系统模型不可知性的性质。最后，我们提出了一种算法来估计具有统计保证的准确性/ QWK（我们的代码在https://git.io/j1ioy上提供）。

translated by 谷歌翻译

Learning to Reuse Distractors to support Multiple Choice Question Generation in Education

Semere Kiros Bitew , Amir Hadifar , Lucas Sterckx , Johannes Deleu , Chris Develder , Thomas Demeester

分类：自然语言处理

2022-10-25

Multiple choice questions (MCQs) are widely used in digital learning systems, as they allow for automating the assessment process. However, due to the increased digital literacy of students and the advent of social media platforms, MCQ tests are widely shared online, and teachers are continuously challenged to create new questions, which is an expensive and time-consuming task. A particularly sensitive aspect of MCQ creation is to devise relevant distractors, i.e., wrong answers that are not easily identifiable as being wrong. This paper studies how a large existing set of manually created answers and distractors for questions over a variety of domains, subjects, and languages can be leveraged to help teachers in creating new MCQs, by the smart reuse of existing distractors. We built several data-driven models based on context-aware question and distractor representations, and compared them with static feature-based models. The proposed models are evaluated with automated metrics and in a realistic user test with teachers. Both automatic and human evaluations indicate that context-aware models consistently outperform a static feature-based approach. For our best-performing context-aware model, on average 3 distractors out of the 10 shown to teachers were rated as high-quality distractors. We create a performance benchmark, and make it public, to enable comparison between different approaches and to introduce a more standardized evaluation of the task. The benchmark contains a test of 298 educational questions covering multiple subjects & languages and a 77k multilingual pool of distractor vocabulary for future research.

translated by 谷歌翻译

Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems

Anubha Kabra , Mehar Bhatia , Yaman Kumar , Junyi Jessy Li , Rajiv Ratn Shah

分类：自然语言处理 | 人工智能

2020-07-14

在过去的三年里，自动评分发动机已被用于评分大约五百万个测试者。由于Covid-19和相关的教育和测试自动化，这个数字进一步增加。尽管使用了这么广泛，但基于AI的测试文献非常缺乏。提出新模型的大多数论文仅依赖于基于二次加权的Kappa（QWK）与人类评估者的协议，以显示模型效能。然而，这有效地忽略了论文评分的高度多重特征性质。论文评分取决于相干性，语法，相关性，充足和，词汇等特征。迄今为止，没有研究检测自动化论文评分：AES系统在全面上的所有这些功能。通过这种动机，我们为AES系统提出了一种模型不良反对派评估计划和相关指标，以测试其自然语言的理解能力和整体鲁棒性。我们使用所提出的方案评估当前的最先进的AES模型，并在最近的五个模型上报告结果。这些型号范围从基于特征为本的最新深度学习算法的方法。我们发现AES模型是高度不夸张的。即使是重型修改（高达25％）与问题无关的内容也不会降低模型产生的分数。另一方面，平均不相关的内容增加了分数，从而表明应该重新考虑模型评估策略和尺寸。我们还要求200名人类评估者在看到人类可以检测到两者之间的差异以及是否同意自动分数分配的分数的同意，以获得原始和对抗的反应。

translated by 谷歌翻译

Learning to Prevent Profitless Neural Code Completion

Zhensu Sun , Xiaoning Du , Fu Song , Shangwen Wang , Mingze Ni , Li Li

分类：人工智能

2022-09-13

当前，大型预训练模型被广泛应用于神经代码完成系统，例如GitHub Copilot，AixCoder和Tabnine。尽管大型模型的表现大大优于较小的同行，但与2,631名参与者的调查显示，开发人员未接受大约70 \％的copilot的代码完成。被审查但不接受，这些完成对生产力构成了威胁。此外，考虑到大型模型的高成本，它是计算资源和能源的巨大浪费，这严重违背了AI技术的可持续发展原则。此外，在代码完成系统中，完成请求会自动并积极地发给模型，因为开发人员类型输出，这大大加剧了工作负载。但是，据我们所知，在神经法规完成的背景下，从未实现过这种废物，更不用说有效地解决了。因此，迫切需要防止以成本友好的方式进行这种无利可图的代码完成。为了填补这一空白，我们首先研究这些完成的提示，并找到四个可观察到的及时模式，这些模式证明了根据提示本身识别此类提示的可行性。在这一发现的激励下，我们提出了一种早期的拒绝机制，以预言完成质量而不将其发送给LCM，以拒绝低返回的提示。此外，我们提出了一个基于轻量变压器的估计器，以证明该机制的可行性。实验结果表明，估算器以83.2％的有希望的准确性拒绝低退还提示。

translated by 谷歌翻译

Dimensional Modeling of Emotions in Text with Appraisal Theories: Corpus Creation, Annotation Reliability, and Prediction

Enrica Troiano , Laura Oberländer , Roman Klinger

分类：自然语言处理

2022-06-10

情绪分析中最突出的任务是为文本分配情绪，并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是，即使没有明确提及情感名称，也可以通过单独参考事件来隐式传达情绪。在心理学中，被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量，通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的，如果该人认为自己负责，是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的，例如，新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性，目的是理解注释者是否可以可靠地重建评估概念，如果可以通过文本分类器预测，以及评估概念是否有助于识别情感类别。为了实现这一目标，我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后，我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估，并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明，两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明，评估概念改善了文本中情绪的分类。

translated by 谷歌翻译

Reliable Visual Question Answering: Abstain Rather Than Answer Incorrectly

Spencer Whitehead , Suzanne Petryk , Vedaad Shakib , Joseph Gonzalez , Trevor Darrell , Anna Rohrbach , Marcus Rohrbach

分类：计算机视觉

2022-04-28

机器学习已经急剧提高，在多模式任务中缩小了人类的准确性差距，例如视觉问题答案（VQA）。但是，尽管人类在不确定的时候可以说“我不知道”（即避免回答问题），但这种能力在多模式研究中被大大忽略了，尽管此问题对VQA的使用很重要，而VQA实际上使用了VQA。设置。在这项工作中，我们为可靠的VQA提出了一个问题制定，我们更喜欢弃权，而不是提供错误的答案。我们首先为多种VQA模型提供了弃戒功能，并分析了它们的覆盖范围，回答的问题的一部分和风险，该部分的错误。为此，我们探索了几种弃权方法。我们发现，尽管最佳性能模型在VQA V2数据集上实现了超过71％的准确性，但通过直接使用模型的SoftMax得分介绍了弃权的选项，限制了它们的少于8％的问题，以达到错误的错误风险（即1％）。这促使我们利用多模式选择功能直接估计预测答案的正确性，我们显示的可以将覆盖率增加，例如，在1％风险下，2.4倍从6.8％到16.3％。尽管分析覆盖范围和风险很重要，但这些指标具有权衡，这使得比较VQA模型具有挑战性。为了解决这个问题，我们还建议对VQA的有效可靠性指标，与弃权相比，将不正确的答案的成本更大。 VQA的这种新问题制定，度量和分析为构建有效和可靠的VQA模型提供了基础，这些模型具有自我意识，并且只有当他们不知道答案时才戒除。

translated by 谷歌翻译

Deep Learning Architecture for Automatic Essay Scoring

Tsegaye Misikir Tashu , Chandresh Kumar Maurya , Tomas Horvath

分类：自然语言处理 | 人工智能

2022-06-16

由于在线学习和评估平台（例如Coursera，Udemy，Khan Academy等）的兴起，对论文（AES）和自动论文评分的自动评估（AES）已成为一个严重的问题。研究人员最近提出了许多用于自动评估的技术。但是，其中许多技术都使用手工制作的功能，因此从特征表示的角度受到限制。深度学习已成为机器学习中的新范式，可以利用大量数据并确定对论文评估有用的功能。为此，我们提出了一种基于复发网络（RNN）和卷积神经网络（CNN）的新型体系结构。在拟议的体系结构中，多通道卷积层从嵌入矢量和基本语义概念中学习并捕获单词n-gram的上下文特征，并使用max-pooling操作在论文级别形成特征向量。 RNN的变体称为双门复发单元（BGRU），用于访问以前和后续的上下文表示。该实验是对Kaggle上的八个数据集进行的，以实现AES的任务。实验结果表明，我们提出的系统比其他基于深度学习的AES系统以及其他最新AES系统的评分精度明显更高。

translated by 谷歌翻译

Automated Speech Scoring System Under The Lens: Evaluating and interpreting the linguistic cues for language proficiency

Pakhi Bamdev , Manraj Singh Grover , Yaman Kumar Singla , Payman Vafaee , Mika Hama , Rajiv Ratn Shah

分类：自然语言处理

2021-11-30

英语水平评估已成为过滤和选择学术界和工业的预期候选人的必要度量。随着这种评估需求的增加，越来越必要拥有自动化的人类可意识的结果，以防止不一致并确保对第二语言学习者有意义的反馈。基于特征的经典方法在理解得分模型学习的内容方面更具可解释。因此，在这项工作中，我们利用古典机器学习模型作为分类和回归问题的语音评分任务，其次是彻底的研究来解释和研究语言线索与扬声器的英语水平之间的关系。首先，我们提取五个类别（流利，发音，内容，语法和词汇和声学）的语言学家特征，并列车模型到级响应。相比之下，我们发现基于回归的模型相当于或更好地比分类方法更好。其次，我们进行消融研究以了解每个特征和特征类别对熟练分级性能的影响。此外，要了解个别特征贡献，我们展示了顶部特征对分级任务的最佳执行算法的重要性。第三，我们利用部分依赖性地块和福芙值来探索特征重要性，并得出结论，最好的培训模式了解用于分级本研究中使用的数据集的底层尺寸。

translated by 谷歌翻译

Classifier Calibration: How to assess and improve predicted class probabilities: a survey

Telmo Silva Filho , Hao Song , Miquel Perello-Nieto , Raul Santos-Rodriguez , Meelis Kull , Peter Flach

分类：机器学习 | (统计)机器学习

2021-12-20

本文介绍了分类器校准原理和实践的简介和详细概述。校准的分类器正确地量化了与其实例明智的预测相关的不确定性或信心水平。这对于关键应用，最佳决策，成本敏感的分类以及某些类型的上下文变化至关重要。校准研究具有丰富的历史，其中几十年来预测机器学习作为学术领域的诞生。然而，校准兴趣的最近增加导致了新的方法和从二进制到多种子体设置的扩展。需要考虑的选项和问题的空间很大，并导航它需要正确的概念和工具集。我们提供了主要概念和方法的介绍性材料和最新的技术细节，包括适当的评分规则和其他评估指标，可视化方法，全面陈述二进制和多字数分类的HOC校准方法，以及几个先进的话题。

translated by 谷歌翻译

Automatic Evaluation and Moderation of Open-domain Dialogue Systems

Zhang Chen , João Sadoc , Luis Fernando D'Haro , Rafael Banchs , Alexander Rudnicky

分类：自然语言处理

2021-11-03

近年来，对话系统引起了学术界和工业的重要兴趣。特别是开放式对话系统的纪律，又名聊天，已经获得了很大的势头。然而，困扰研究人员的长期挑战是缺乏有效的自动评估指标，这导致目前研究中的障碍。评估开放式对话模型表现的常见做法涉及对最终部署模型的广泛人类评估，这是时间和成本密集的。此外，最近建立开放式聊天聊天的趋势涉及具有大量社交媒体对话数据的预训练对话模型。但是，社交媒体对话中包含的信息可能是令人反感的和不合适的。不分青红皂白种的使用可能导致不敏感和有毒的生成模型。本文介绍了对话系统技术挑战10（DSTC10）的轨道5获得的数据，基线和结果。

translated by 谷歌翻译

Fully automatic scoring of handwritten descriptive answers in Japanese language tests

Hung Tuan Nguyen , Cuong Tuan Nguyen , Haruki Oka , Tsunenori Ishioka , Masaki Nakagawa

分类：机器学习 | 自然语言处理 | 计算机视觉

2022-01-10

本文提出了在新日本大学入学考试中自动评分手写描述性答案的实验，这是2017年和2018年的约120,000名审查。大约有400,000个答案超过2000万个字符。虽然人类审查员的所有答案都得到了评分，但手写字符没有标记。我们展示了我们试图调整基于神经网络的手写识别员，在标记的手写数据集上培训到此未标记的答案集。我们所提出的方法结合了不同的培训策略，集成了多个识别器，并使用由大型常规语料库构建的语言模型来避免过度填充到特定数据。在我们的实验中，使用约2,000个验证标记的答案记录了超过97％的字符精度，该标记答案占数据集的0.5％。然后，将认可的答案基于BERT模型进入预先训练的自动评分系统，而无需纠正误识别的字符并提供Rubric注释。自动评分系统从二次加权Kappa（QWK）的0.84到0.98达到0.84至0.98。由于QWK超过0.8，它代表了自动评分系统与人类审查员之间得分的可接受相似性。这些结果是对描述性答案的结束自动评分的进一步研究。

translated by 谷歌翻译

Few-shot Learning with Multilingual Language Models

Xi Victoria Lin , Todor Mihaylov , Mikel Artetxe , Tianlu Wang , Shuohui Chen , Daniel Simig , Myle Ott , Naman Goyal , Shruti Bhosale , Jingfei Du

分类：自然语言处理 | 人工智能

2021-12-20

GPT-3等大型自回归语言模型是几秒钟的学习者，可以在没有微调的情况下执行各种语言任务。虽然已知这些模型能够共同代表许多不同的语言，但他们的培训数据由英语主导，可能限制了它们的交叉概括。在这项工作中，我们在覆盖多种语言的平衡语料库上培训多语言自回归语言模型，并在广泛的任务中研究他们几乎没有零点的学习能力。我们最大的模型，具有75亿参数，在20多种代表语言中，在几种代表语言中，在几种代表性语言中，在几种代表性语言中，在多语言型号推理中表现出可比大小的GPT-3（在0次设置和0次拍摄设置中的绝对精度改善+ 7.4％ 4-拍摄设置中的9.4％）和自然语言推理（每次拍摄和4次设置中的每一个+ 5.4％）。在Flores-101机器翻译基准测试中，我们的模型优于GPT-3在182个翻译方向上有32个培训例子，同时超过45个方向的官方监督基线。我们介绍了模型成功和失败的位置的详细分析，特别是它尤其显示在某些任务中实现交叉语境的内容学习，而仍然存在改善表面的鲁棒性和适应没有a的任务的余地自然冻结形式。最后，我们评估我们在仇恨语音检测中以五种语言的仇恨语音检测的模型，并发现它具有与可比大小的GPT-3模型类似的限制。

translated by 谷歌翻译

Few-Shot Self-Rationalization with Natural Language Prompts

Ana Marasović , Iz Beltagy , Doug Downey , Matthew E. Peters

分类：自然语言处理

2021-11-16

预测任务标签和为其预测生成自由文本阐述的自律化模型可以实现与NLP系统更直观的交互。然而，这些模型目前正在接受大量人为的自由文本解释，每个任务都会阻碍更广泛的使用。我们建议使用少数培训例子研究更现实的自律化建立。我们出示2月 - 一个标准化的四个现有英语数据集和相关指标。我们通过2月份广泛探索自然语言提示来确定正确的提示方法。然后，通过使用此提示并缩放模型大小，我们证明了几次拍摄自合合理化的进展。我们展示了这项任务的完善房间仍然有充足的改进空间：人类注册人评估的生成解释的平均合理性最多为51％，而人类解释的合理性是76％。我们希望2月份与我们的拟议方法一起促使社区承担几次拍摄的自我合理化挑战。

translated by 谷歌翻译

Classification-Regression for Chart Comprehension

Matan Levy , Rami Ben-Ari , Dani Lischinski

分类：计算机视觉

2021-11-29

图表是一种流行且有效的数据可视化形式。图表问题应答（CQA）是用于评估图表理解的任务，从根本上与理解自然图像不同。 CQA需要分析图表的文本和视觉组件之间的关系，以便回答一般问题或推断数值。大多数现有的CQA数据集和IT模型都基于简化通常能够超越人类性能的假设。在这项工作中，我们进一步探讨了这一结果背后的原因，并提出了一个共同学习分类和回归的新模式。我们的语言视觉与共同关注变压器设置捕获问题与文本元素之间的复杂相互作用，该元素通常存在于现实世界图表中。我们通过广泛的实验和故障验证了这些结论，并在现实的PlotQA数据集中进行了故障，优于较大的边距，同时表现出竞争性能。我们的模型的边缘尤其强调了与词汇外答案的问题，其中许多需要回归。我们希望这项工作能够进一步促进解决挑战性和高实际实际任务的进一步研究图表理解。

translated by 谷歌翻译

Detecting Stance in Scientific Papers: Did we get more Negative Recently?

Dominik Beese , Begüm Altunbaş , Görkem Güzeler , Steffen Eger

分类：自然语言处理

2022-02-28

在本文中，我们将科学文章分类为自然语言处理（NLP）和机器学习（ML）的科学文章（i）是否通过引入击败现有模型或的新型技术来扩展当前的最新技术是否（ii）他们是否主要批评现有的最新技术，即，它相对于某些属性（例如，错误的评估，错误的数据集，误导性的任务规范）不足。我们将（i）下的贡献称为具有\ enquote {正姿势}和（ii）下的贡献为具有\ enquote {负姿势}（对相关工作）。我们注释来自NLP和ML的1.5k纸以超过1.5k的论文来培训基于SCIBERT的模型，以自动根据其标题和抽象来预测论文的立场。然后，我们分析了NLP和ML的最后35年$ 35年以上的41k纸上的大规模趋势，发现随着时间的流逝，论文变得更加积极，但是负面论文也变得更加负面，我们观察到更多的负面论文，我们观察到了更多的负面论文。最近几年。在收到的引用方面，负面论文也更具影响力。

translated by 谷歌翻译

Statistical and Neural Methods for Cross-lingual Entity Label Mapping in Knowledge Graphs

Gabriel Amaral , Mārcis Pinnis , Inguna Skadiņa , Odinaldo Rodrigues , Elena Simperl

分类：自然语言处理 | 机器学习

2022-06-17

知识库，例如Wikidata Amass大量命名实体信息，例如多语言标签，这些信息对于各种多语言和跨语义应用程序非常有用。但是，从信息一致性的角度来看，不能保证这样的标签可以跨语言匹配，从而极大地损害了它们对机器翻译等字段的有用性。在这项工作中，我们研究了单词和句子对准技术的应用，再加上匹配算法，以将从Wikidata提取的10种语言中提取的跨语性实体标签对齐。我们的结果表明，Wikidata的主标签之间的映射将通过任何使用的方法都大大提高（F1分数最高20美元）。我们展示了依赖句子嵌入的方法如何超过所有其他脚本，甚至在不同的脚本上。我们认为，这种技术在测量标签对的相似性上的应用，再加上富含高质量实体标签的知识库，是机器翻译的绝佳资产。

translated by 谷歌翻译

Discovering Language Model Behaviors with Model-Written Evaluations

Ethan Perez , Sam Ringer , Kamilė Lukošiūtė , Karina Nguyen , Edwin Chen , Scott Heiner , Craig Pettit , Catherine Olsson , Sandipan Kundu , Saurav Kadavath

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-19

As language models (LMs) scale, they develop many novel behaviors, good and bad, exacerbating the need to evaluate how they behave. Prior work creates evaluations with crowdwork (which is time-consuming and expensive) or existing data sources (which are not always available). Here, we automatically generate evaluations with LMs. We explore approaches with varying amounts of human effort, from instructing LMs to write yes/no questions to making complex Winogender schemas with multiple stages of LM-based generation and filtering. Crowdworkers rate the examples as highly relevant and agree with 90-100% of labels, sometimes more so than corresponding human-written datasets. We generate 154 datasets and discover new cases of inverse scaling where LMs get worse with size. Larger LMs repeat back a dialog user's preferred answer ("sycophancy") and express greater desire to pursue concerning goals like resource acquisition and goal preservation. We also find some of the first examples of inverse scaling in RL from Human Feedback (RLHF), where more RLHF makes LMs worse. For example, RLHF makes LMs express stronger political views (on gun rights and immigration) and a greater desire to avoid shut down. Overall, LM-written evaluations are high-quality and let us quickly discover many novel LM behaviors.

translated by 谷歌翻译