智能论文笔记

Open-Ended Knowledge Tracing

Naiming Liu , Zichao Wang , Richard G. Baraniuk , Andrew Lan

分类：机器学习

2022-02-21

知识追踪是指估计每个学生的知识组成部分/技能掌握水平的问题，从他们过去对教育应用中的问题的回答。一种直接的收益知识追踪方法提供的是能够在未来问题上预测每个学生的表现。但是，大多数现有知识追踪方法的一个关键限制是，他们将学生对问题的回答视为二进制评估，即是正确的还是不正确的。响应正确性分析/预测易于导航，但会丢失重要信息，尤其是对于开放式问题：确切的学生回答可能会提供有关其知识状态的更多信息，而不是仅仅是响应正确性。在本文中，我们首次介绍了对开放式知识追踪的探索，即，在知识跟踪设置中，学生对学生对问题的开放式回答的分析和预测。我们首先制定了一个通用框架，用于开放式知识跟踪，然后通过编程问题详细介绍其在计算机科学教育领域的应用。我们在该域中定义了一系列评估指标，并进行了一系列定量和定性实验，以测试现实世界中学生代码数据集中开放式知识跟踪方法的边界。

translated by 谷歌翻译

Code-DKT: A Code-based Knowledge Tracing Model for Programming Tasks

Yang Shi , Min Chi , Tiffany Barnes , Thomas Price

分类：人工智能

2022-06-07

知识追踪（KT）模型是一种流行的方法，可以通过以前的尝试来预测学生在实践问题上的未来表现。尽管在KT中进行了许多创新，但大多数模型在内，包括最先进的Deep KT（DKT）主要利用每个学生的响应是正确或不正确的，忽略了其内容。在这项工作中，我们提出了基于代码的深知识跟踪（Code-DKT），该模型使用注意机制自动提取并选择特定领域的代码功能来扩展DKT。我们比较了Code-DKT对贝叶斯和深度知识跟踪（BKT和DKT）的有效性，该数据集中有50名学生试图解决5个介绍性编程作业的学生。我们的结果表明，Code-DKT在5个任务中始终优于DKT的AUC 3.07-4.00％AUC，与DKT相对于其他最先进的域中总KT模型的改进是可比的。最后，我们通过一组案例研究来分析特定问题的性能，以证明何时以及如何改善代码DKT的预测。

translated by 谷歌翻译

Automatic Short Math Answer Grading via In-context Meta-learning

Mengxue Zhang , Sami Baral , Neil Heffernan , Andrew Lan

分类：自然语言处理 | 机器学习

2022-05-30

自动简短答案分级是探索如何使用人工智能（AI）的工具来改善教育的重要研究方向。当前的最新方法使用神经语言模型来创建学生响应的矢量表示，然后是分类器以预测分数。但是，这些方法有几个关键的局限性，包括i）他们使用的预培训的语言模型不适合教育主题领域和/或学生生成的文本和ii）它们几乎总是每个问题训练一个模型，而忽略了该模型由于高级语言模型的大小，跨越问题的联系并导致了重要的模型存储问题。在本文中，我们研究了学生对数学问题的回答的自动简短答案分级问题，并为这项任务提出了一个新颖的框架。首先，我们使用Mathbert，这是流行语言模型BERT的一种变体，该模型适合数学内容，并将其微调为学生响应分级的下游任务。其次，我们使用一种文字学习方法，提供评分示例作为语言模型的输入，以提供其他上下文信息并促进对以前看不见的问题的概括。我们在研究学生对开放式数学问题的回答的现实数据集上评估了我们的框架，并表明我们的框架（通常非常明显）优于现有方法，尤其是对于培训期间没有看到的新问题。

translated by 谷歌翻译

HiTSKT: A Hierarchical Transformer Model for Session-Aware Knowledge Tracing

Fucai Ke , Weiqing Wang , Weicong Tan , Lan Du , Yuan Jin , Yujin Huang , Hongzhi Yin

分类：人工智能

2022-12-23

Knowledge tracing (KT) aims to leverage students' learning histories to estimate their mastery levels on a set of pre-defined skills, based on which the corresponding future performance can be accurately predicted. In practice, a student's learning history comprises answers to sets of massed questions, each known as a session, rather than merely being a sequence of independent answers. Theoretically, within and across these sessions, students' learning dynamics can be very different. Therefore, how to effectively model the dynamics of students' knowledge states within and across the sessions is crucial for handling the KT problem. Most existing KT models treat student's learning records as a single continuing sequence, without capturing the sessional shift of students' knowledge state. To address the above issue, we propose a novel hierarchical transformer model, named HiTSKT, comprises an interaction(-level) encoder to capture the knowledge a student acquires within a session, and a session(-level) encoder to summarise acquired knowledge across the past sessions. To predict an interaction in the current session, a knowledge retriever integrates the summarised past-session knowledge with the previous interactions' information into proper knowledge representations. These representations are then used to compute the student's current knowledge state. Additionally, to model the student's long-term forgetting behaviour across the sessions, a power-law-decay attention mechanism is designed and deployed in the session encoder, allowing it to emphasize more on the recent sessions. Extensive experiments on three public datasets demonstrate that HiTSKT achieves new state-of-the-art performance on all the datasets compared with six state-of-the-art KT models.

translated by 谷歌翻译

pyKT: A Python Library to Benchmark Deep Learning based Knowledge Tracing Models

Zitao Liu , Qiongqiong Liu , Jiahao Chen , Shuyan Huang , Jiliang Tang , Weiqi Luo

分类：机器学习 | 人工智能

2022-06-23

知识跟踪（KT）是使用学生的历史学习互动数据来对其知识掌握的任务，以便对他们未来的互动绩效进行预测。最近，使用各种深度学习技术来解决KT问题已经取得了显着的进步。但是，基于深度学习的知识追踪（DLKT）方法的成功仍然有些神秘，适当的测量以及对这些DLKT方法的分析仍然是一个挑战。首先，现有作品中的数据预处理程序通常是私人和/或自定义，这限制了实验标准化。此外，现有的DLKT研究通常在评估方案方面有所不同，并且是现实世界中的教育环境。为了解决这些问题，我们介绍了一个综合基于Python的基准平台\ TextSc {Pykt}，以确保通过彻底评估进行跨DLKT方法的有效比较。 \ textsc {pykt}库由不同域的7个流行数据集上的一组标准化的数据预处理程序组成，而10个经常比较了用于透明实验的DLKT模型实现。我们细粒度和严格的经验KT研究的结果产生了一系列观察结果和有效DLKT的建议，例如，错误的评估设置可能会导致标签泄漏，这通常会导致性能膨胀；与Piech等人提出的第一个DLKT模型相比，许多DLKT方法的改进是最小的。 \ cite {piech2015 -Deep}。我们已经开源\ textsc {pykt}，并在\ url {https://pykt.org/}上进行了实验结果。我们欢迎其他研究小组和从业人员的贡献。

translated by 谷歌翻译

Deep Learning Models for Knowledge Tracing: Review and Empirical Evaluation

Sami Sarsa , Juho Leinonen , Arto Hellas

分类：机器学习

2021-12-30

在这项工作中，我们审查并评估了一个具有公开可用和广泛使用的数据集的深度学习知识追踪（DLKT）模型，以及学习编程的新型学生数据集。评估的DLKT模型已重新实现，用于评估先前报告的结果的可重复性和可复制性。我们测试在与模型的主要架构上独立于模型的比较模型中找到的不同输入和输出层变化，以及在某些研究中隐含地和明确地使用的不同最大尝试计数选项。几个指标用于反映评估知识追踪模型的质量。评估的知识追踪模型包括Vanilla-DKT，两个长短期内存深度知识跟踪（LSTM-DKT）变体，两个动态键值存储器网络（DKVMN）变体，以及自我细致的知识跟踪（SAKT）。我们评估Logistic回归，贝叶斯知识跟踪（BKT）和简单的非学习模型作为基准。我们的结果表明，DLKT模型一般优于非DLKT模型，DLKT模型之间的相对差异是微妙的，并且在数据集之间经常变化。我们的研究结果还表明，通常的纯模型，例如平均预测，比更复杂的知识追踪模型更好地表现出更好的性能，尤其是在准确性方面。此外，我们的公制和封路数据分析显示，用于选择最佳模型的度量标准对模型的性能有明显的影响，并且该度量选择可以影响模型排名。我们还研究了输入和输出层变化的影响，过滤出长期尝试序列，以及随机性和硬件等非模型属性。最后，我们讨论模型性能可重量和相关问题。我们的模型实现，评估代码和数据作为本工作的一部分发布。

translated by 谷歌翻译

Fooling MOSS Detection with Pretrained Language Models

Stella Biderman , Edward Raff

分类：自然语言处理 | 人工智能

2022-01-19

随着人工智能（AI）技术在社会中变得越来越强大和突出，他们的滥用就是日益关注的问题。在教育环境中，学生可以使用AI技术来欺骗作业和考试。在本文中，我们探讨了变形金刚是否可以用于求解介绍级的编程作业，同时绕过常用的AI工具来检测软件部分之间的相似性。我们发现使用GPT-J [Wang和Komatsuzaki，2021]的学生可以完成入门级的编程作业，而无需触发Moss的怀疑[Aiken，2000]，这是一种广泛使用的软件相似性和窃探测工具。尽管事实上GPT-J没有接受有关问题的培训，也没有提供任何示例可供工作。我们进一步发现，GPT-J编写的代码在结构上是多种多样的，缺乏任何特定的告诉未来的pla窃检测技术可能会用来尝试识别算法生成的代码。最后，我们讨论了大语言模型的道德和教育含义以及未来研究的方向。

translated by 谷歌翻译

Automatic Generation of Programming Exercises and Code Explanations using Large Language Models

Sami Sarsa , Paul Denny , Arto Hellas , Juho Leinonen

分类：人工智能 | 自然语言处理

2022-06-03

本文探讨了大语言模型的自然语言生成能力，并应用于编程课程中常见的两种学习资源类型。使用OpenAI Codex作为大语言模型，我们创建编程练习（包括示例解决方案和测试用例）和代码说明，从定性和定量上评估这些练习。我们的结果表明，大多数自动生成的内容既新颖又明智，在某些情况下可以按原样使用。在创建练习时，我们发现仅通过提供关键字作为模型输入来影响编程概念和它们所包含的上下文主题非常容易。我们的分析表明，大规模生成机器学习模型是指导者的工具，尽管仍然需要进行一些监督以确保生成的内容的质量在传递给学生之前。我们进一步讨论了OpenAI Codex和类似工具对入门编程教育的含义，并强调了未来的研究流，这些研究流有可能提高教师和学生的教育体验质量。

translated by 谷歌翻译

Syntactic Inductive Biases for Deep Learning Methods

Yikang Shen

分类：机器学习 | 人工智能

2022-06-08

在本文中，我们试图通过引入深度学习模型的句法归纳偏见来建立两所学校之间的联系。我们提出了两个归纳偏见的家族，一个家庭用于选区结构，另一个用于依赖性结构。选区归纳偏见鼓励深度学习模型使用不同的单位（或神经元）分别处理长期和短期信息。这种分离为深度学习模型提供了一种方法，可以从顺序输入中构建潜在的层次表示形式，即更高级别的表示由高级表示形式组成，并且可以分解为一系列低级表示。例如，在不了解地面实际结构的情况下，我们提出的模型学会通过根据其句法结构组成变量和运算符的表示来处理逻辑表达。另一方面，依赖归纳偏置鼓励模型在输入序列中找到实体之间的潜在关系。对于自然语言，潜在关系通常被建模为一个定向依赖图，其中一个单词恰好具有一个父节点和零或几个孩子的节点。将此约束应用于类似变压器的模型之后，我们发现该模型能够诱导接近人类专家注释的有向图，并且在不同任务上也优于标准变压器模型。我们认为，这些实验结果为深度学习模型的未来发展展示了一个有趣的选择。

translated by 谷歌翻译

DBE-KT22: A Knowledge Tracing Dataset Based on Online Student Evaluation

Ghodai Abdelrahman , Sherif Abdelfattah , Qing Wang , Yu Lin

分类：人工智能

2022-08-19

在过去的十年中，在线教育在为全球学生提供负担得起的高质量教育方面的重要性越来越重要。随着越来越多的学生改用在线学习，这在全球大流行期间得到了进一步放大。大多数在线教育任务，例如课程建议，锻炼建议或自动化评估，都取决于跟踪学生的知识进步。这被称为文献中的\ emph {知识跟踪}问题。解决此问题需要收集学生评估数据，以反映他们的知识演变。在本文中，我们提出了一个新的知识跟踪数据集，名为“知识跟踪数据库”练习（DBE-KT22），该练习是在澳大利亚澳大利亚国立大学教授的课程中从在线学生锻炼系统中收集的。我们讨论了DBE-KT22数据集的特征，并将其与知识追踪文献中的现有数据集进行对比。我们的数据集可通过澳大利亚数据存档平台公开访问。

translated by 谷歌翻译

MathBERT: A Pre-trained Language Model for General NLP Tasks in Mathematics Education

Jia Tracy Shen , Michiharu Yamashita , Ethan Prihar , Neil Heffernan , Xintao Wu , Ben Graff , Dongwon Lee

分类：自然语言处理 | 人工智能

2021-06-02

自从引进原始伯特（即，基础BERT）以来，研究人员通过利用转让学习的好处，开发了各种定制的伯特模型，并通过利用转移学习的好处来提高特定领域和任务的性能。由于数学文本的性质，这通常使用域特定的词汇以及方程和数学符号，我们对数学的新BERT模型的开发对于许多数学下游任务有用。在这个资源论文中，我们介绍了我们的多体制努力（即，美国的两个学习平台和三个学术机构）对此需求：Mathbert，通过在大型数学语料库上预先培训基础伯爵模型来创建的模型预先幼儿园（Pre-K），高中，大学毕业生水平数学内容。此外，我们选择了三个通常用于数学教育的一般NLP任务：知识组件预测，自动分级开放式Q＆A，以及知识追踪，以展示Mathbert对底座的优越性。我们的实验表明，Mathbert以此任务的2-8％达到了1.2-22％，碱基贝尔以前最佳方法。此外，我们建立了一个数学特定的词汇“Mathvocab”，用Mathbert训练。我们发现Mathbert预先接受过的“Mathvocab”优于Mathbert培训的底座伯特词汇（即'Origvocab'）。 Mathbert目前正在参加倾斜平台采用：Stride，Inc，商业教育资源提供商和Accortments.org，是一个免费在线教育平台。我们发布Mathbert以获取公共用途：https://github.com/tbs17/mathbert。

translated by 谷歌翻译

An Approach for Combining Multimodal Fusion and Neural Architecture Search Applied to Knowledge Tracing

Xinyi Ding , Tao Han , Yili Fang , Eric Larson

分类：机器学习

2021-11-08

知识跟踪是跟踪给定学习领域的学生不同技能的掌握程度的过程。它是建立自适应学习系统的关键组件之一，并已被调查几十年。与其他领域的深度神经网络的成功平行，我们看到研究人员在学习科学界采取类似的方法。但是，大多数现有的深度学习知识追踪模型：（1）仅使用正确/不正确的响应（忽略来自其他方式的有用信息）或（2）通过试验和错误通过域专业知识设计其网络架构。在本文中，我们提出了一种基于模型的基于模型的优化方法，该优化方法结合了一个框架内的多峰融合和神经结构。当涉及一个模态时，常用的神经结构搜索技术可以被认为是我们所提出的方法的特殊情况。我们进一步建议在曲线（加权AUC）下使用称为时间加权区域的新度量来测量序列模型如何随时间执行。我们在两个公共实时数据集中评估我们的方法，显示发现模型能够实现卓越的性能。与大多数现有的作品不同，我们对McNemar对模型预测的测试进行了测试，结果是统计学意义。

translated by 谷歌翻译

Prerequisite-driven Q-matrix Refinement for Learner Knowledge Assessment: A Case Study in Online Learning Context

Wenbin Gan , Yuan Sun

分类：人工智能 | 机器学习

2022-08-24

在线学习平台中越来越多的学习痕迹有望对学习者知识评估（LKA）的独特见解，这是一种基本的个性化训练技术，可在这些平台中启用各种进一步的自适应辅导服务。对学习者知识的精确评估需要细粒度的Q-Matrix，该Q-Matrix通常由专家设计，以将项目映射到域中的技能。由于主观趋势，某些错误的错误可能会降低LKA的性能。已经做出了一些努力来完善小规模的Q-matrix，但是，很难扩展可扩展性并将这些方法应用于大规模的在线学习环境中，并具有许多项目和庞大的技能。此外，现有的LKA模型采用了灵活的深度学习模型，可以在这项任务上表现出色，但是LKA的适当性仍然受到模型在相当稀疏的项目技能图和学习者的锻炼数据上的表示能力的挑战。为了克服这些问题，在本文中，我们建议在线环境中针对学习者知识评估（PQRLKA）的先决条件驱动的Q-Matrix改进框架。我们从学习者的响应数据中推断出先决条件，并使用它来完善专家定义的Q-Matrix，从而使其可解释性和可扩展性应用于大规模的在线学习环境。根据精致的Q-Matrix，我们提出了一种Metapath2VEC增强的卷积表示方法，以获取具有丰富信息的项目的全面表示，并将其提供给PQRLKA模型，以最终评估学习者的知识。在三个现实世界数据集上进行的实验证明了我们模型推断Q-Matrix改进的先决条件的能力，以及其对LKA任务的优势。

translated by 谷歌翻译

A General Language Assistant as a Laboratory for Alignment

Amanda Askell , Yuntao Bai , Anna Chen , Dawn Drain , Deep Ganguli , Tom Henighan , Andy Jones , Nicholas Joseph , Ben Mann , Nova DasSarma

分类：自然语言处理 | 机器学习

2021-12-01

鉴于大型语言模型的广泛能力，应该有可能朝着一般的文本的助手工作，这些助手与人类价值一致，这意味着它是有帮助，诚实的和无害的。在此方向上的初始遗传，我们研究简单的基线技术和评估，例如提示。我们发现，从模型规模增加适度的干预措施的好处，概括为各种对准评估，并不会损害大型模型的性能。接下来，我们调查与对齐，比较仿制，二进制歧视和排名偏好建模相关的几个培训目标的缩放趋势。我们发现排名优先级模型比模仿学习更好地表现得多，并且通常以模型大小更有利地缩放。相比之下，二进制歧视通常与模仿学习非常类似地执行和缩放。最后，我们研究了一种“偏好模型预训练阶段的培训阶段，其目的是在对人偏好的芬明时提高样本效率。

translated by 谷歌翻译

JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem Understanding

Wayne Xin Zhao , Kun Zhou , Zheng Gong , Beichen Zhang , Yuanhang Zhou , Jing Sha , Zhigang Chen , Shijin Wang , Cong Liu , Ji-Rong Wen

分类：自然语言处理 | 人工智能

2022-06-13

本文旨在通过介绍第一个中国数学预训练的语言模型〜（PLM）来提高机器的数学智能，以有效理解和表示数学问题。与其他标准NLP任务不同，数学文本很难理解，因为它们在问题陈述中涉及数学术语，符号和公式。通常，它需要复杂的数学逻辑和背景知识来解决数学问题。考虑到数学文本的复杂性质，我们设计了一种新的课程预培训方法，用于改善由基本和高级课程组成的数学PLM的学习。特别是，我们首先根据位置偏见的掩盖策略执行令牌级预训练，然后设计基于逻辑的预训练任务，旨在分别恢复改组的句子和公式。最后，我们介绍了一项更加困难的预训练任务，该任务强制执行PLM以检测和纠正其生成的解决方案中的错误。我们对离线评估（包括九个与数学相关的任务）和在线$ A/B $测试进行了广泛的实验。实验结果证明了与许多竞争基线相比，我们的方法的有效性。我们的代码可在：\ textColor {blue} {\ url {https://github.com/rucaibox/jiuzhang}}}中获得。

translated by 谷歌翻译

ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

Shuohuan Wang , Yu Sun , Yang Xiang , Zhihua Wu , Siyu Ding , Weibao Gong , Shikun Feng , Junyuan Shang , Yanbin Zhao , Chao Pang

分类：自然语言处理

2021-12-23

预先接受的语言模型实现了最先进的导致各种自然语言处理（NLP）任务。 GPT-3表明，缩放预先训练的语言模型可以进一步利用它们的巨大潜力。最近提出了一个名为Ernie 3.0的统一框架，以预先培训大型知识增强型号，并培训了具有10亿参数的模型。 Ernie 3.0在各种NLP任务上表现出最先进的模型。为了探讨缩放的表现，我们培养了百卢比的3.0泰坦参数型号，在PaddlePaddle平台上有高达260亿参数的泰坦。此外，我们设计了一种自我监督的对抗性损失和可控语言建模损失，以使ERNIE 3.0 TITAN产生可信和可控的文本。为了减少计算开销和碳排放，我们向Ernie 3.0泰坦提出了一个在线蒸馏框架，教师模型将同时教授学生和培训。埃塞尼3.0泰坦是迄今为止最大的中国密集预训练模型。经验结果表明，Ernie 3.0泰坦在68个NLP数据集中优于最先进的模型。

translated by 谷歌翻译

Deep Learning Driven Natural Languages Text to SQL Query Conversion: A Survey

Ayush Kumar , Parth Nagarkar , Prabhav Nalhe , Sanjeev Vijayakumar

分类：自然语言处理 | 人工智能

2022-08-08

随着未来以数据为中心的决策，对数据库的无缝访问至关重要。关于创建有效的文本到SQL（Text2SQL）模型以访问数据库的数据有广泛的研究。使用自然语言是可以通过有效访问数据库（尤其是对于非技术用户）来弥合数据和结果之间差距的最佳接口之一。它将打开门，并在精通技术技能或不太熟练的查询语言的用户中引起极大的兴趣。即使提出或研究了许多基于深度学习的算法，在现实工作场景中使用自然语言来解决数据查询问题仍然非常具有挑战性。原因是在不同的研究中使用不同的数据集，这带来了其局限性和假设。同时，我们确实缺乏对这些提议的模型及其对其训练的特定数据集的局限性的彻底理解。在本文中，我们试图介绍过去几年研究的24种神经网络模型的整体概述，包括其涉及卷积神经网络，经常性神经网络，指针网络，强化学习，生成模型等的架构。我们还概述11个数据集，这些数据集被广泛用于训练Text2SQL技术的模型。我们还讨论了无缝数据查询中文本2SQL技术的未来应用可能性。

translated by 谷歌翻译

CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

Hung Le , Yue Wang , Akhilesh Deepak Gotmare , Silvio Savarese , Steven C. H. Hoi

分类：机器学习 | 自然语言处理

2022-07-05

程序合成或代码生成旨在生成满足问题规范的程序。使用大规模预处理的语言模型（LMS）的最新方法显示出令人鼓舞的结果，但它们有一些关键的局限性。特别是，他们经常遵循标准监督的微调程序，仅从对自然语言问题描述和基础真相计划对培训代码生成模型。这种范式在很大程度上忽略了问题规范中的一些重要但潜在的信号，例如单位测试，因此在求解复杂的看不见的编码任务时通常会导致性能差。为了解决这些局限性，我们提出了“ Coderl”，这是通过验证的LMS和深入强化学习（RL）实现程序合成任务的新框架。具体而言，在培训期间，我们将代码生成的LM视为参与者网络，并引入批评网络，该网络经过培训，以预测生成的程序的功能正确性，并为演员提供密集的反馈信号。在推理期间，我们引入了一种新一代程序，具有关键的抽样策略，该过程允许模型根据示例单位测试和评论家分数的反馈自动重新生成程序。对于模型骨架，我们扩展了Codet5的编码器架构，具有增强的学习目标，更大的模型大小和更好的预处理数据。我们的方法不仅在具有挑战性的应用程序基准上实现了新的SOTA结果，而且还显示出强大的零弹性传输能力，并在简单的MBPP基准上具有新的SOTA结果。

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

GPT Takes the Bar Exam

Michael Bommarito II , Daniel Martin Katz

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-29

Nearly all jurisdictions in the United States require a professional license exam, commonly referred to as "the Bar Exam," as a precondition for law practice. To even sit for the exam, most jurisdictions require that an applicant completes at least seven years of post-secondary education, including three years at an accredited law school. In addition, most test-takers also undergo weeks to months of further, exam-specific preparation. Despite this significant investment of time and capital, approximately one in five test-takers still score under the rate required to pass the exam on their first try. In the face of a complex task that requires such depth of knowledge, what, then, should we expect of the state of the art in "AI?" In this research, we document our experimental evaluation of the performance of OpenAI's `text-davinci-003` model, often-referred to as GPT-3.5, on the multistate multiple choice (MBE) section of the exam. While we find no benefit in fine-tuning over GPT-3.5's zero-shot performance at the scale of our training data, we do find that hyperparameter optimization and prompt engineering positively impacted GPT-3.5's zero-shot performance. For best prompt and parameters, GPT-3.5 achieves a headline correct rate of 50.3% on a complete NCBE MBE practice exam, significantly in excess of the 25% baseline guessing rate, and performs at a passing rate for both Evidence and Torts. GPT-3.5's ranking of responses is also highly-correlated with correctness; its top two and top three choices are correct 71% and 88% of the time, respectively, indicating very strong non-entailment performance. While our ability to interpret these results is limited by nascent scientific understanding of LLMs and the proprietary nature of GPT, we believe that these results strongly suggest that an LLM will pass the MBE component of the Bar Exam in the near future.

translated by 谷歌翻译