Reading comprehension of legal text can be a particularly challenging task due to the length and complexity of legal clauses and a shortage of expert-annotated datasets. To address this challenge, we introduce the Merger Agreement Understanding Dataset (MAUD), an expert-annotated reading comprehension dataset based on the American Bar Association's 2021 Public Target Deal Points Study, with over 39,000 examples and over 47,000 total annotations. Our fine-tuned Transformer baselines show promising results, with models performing well above random on most questions. However, on a large subset of questions, there is still room for significant improvement. As the only expert-annotated merger agreement dataset, MAUD is valuable as a benchmark for both the legal profession and the NLP community.
translated by 谷歌翻译
预测未来的世界事件是一项具有挑战性但有价值的任务。对气候,地缘政治冲突,大流行和经济指标的预测有助于塑造政策和决策。在这些领域中,专家人类的判断有助于最佳预测。鉴于语言建模的进步,这些预测可以自动化吗?为此,我们介绍了AutoCast,这是一个包含数千个预测问题和随附的新闻语料库的数据集。问题来自预测锦标赛,确保高质量,现实世界中的重要性和多样性。新闻语料库是按日期组织的,使我们能够精确模拟人类过去的预测(避免将来泄漏)的条件。我们的动机是由于数量级的预测数字的难度(例如,2022年的Covid-19的全球案例),我们还策划了Intervalqa,这是数值问题和校准的数值问题和指标的数据集。我们在预测任务上测试语言模型,并发现绩效远低于人类专家基线。但是,随着新闻语料库中相关信息的合并,绩效提高了绩效。总而言之,AutoCast对大型语言模型提出了一个新颖的挑战,并提高了性能可能会带来很大的实际收益。
translated by 谷歌翻译
人工智能(AI)系统可以提供许多有益的功能,也可以提供不良事件的风险。一些AI系统可能会出现在社会规模上具有很高或灾难性后果的事件的风险。美国国家标准技术研究所(NIST)正在开发NIST人工智能风险管理框架(AI RMF),作为对AI开发人员和其他人的AI风险评估和管理的自愿指导。 NIST为了解决带有灾难性后果的事件的风险,表示有必要将高级原则转化为可操作的风险管理指导。在本文档中,我们提供了详细的可操作指示建议,旨在识别和管理具有很高或灾难性后果的事件的风险,旨在作为AI RMF版本1.0的NIST的风险管理实践资源(计划于2023年初发布),或适用于AI RMF用户或其他AI风险管理指南和标准。我们还为建议提供方法。我们为AI RMF 1.0提供了可行的指导建议:确定来自AI系统的潜在意外用途和滥用的风险;在风险评估和影响评估范围内包括灾难性风险因素;确定和减轻人权危害;并报告有关AI风险因素在内的信息,包括灾难性风险因素。此外,我们还为后来版本的AI RMF或补充出版物提供有关路线图的其他问题的建议。其中包括:提供AI RMF配置文件,并具有额外的多功能或通用AI的辅助指南。我们的目标是使这项工作成为具体的风险管理实践的贡献,并激发有关如何解决AI标准中灾难性风险和相关问题的建设性对话。
translated by 谷歌翻译
人工智能(AI)有可能极大地改善社会,但是与任何强大的技术一样,它的风险和责任也增加。当前的AI研究缺乏有关如何管理AI系统(包括投机性长期风险)的长尾风险的系统讨论。请记住,AI可能是提高人类的长期潜力不可或缺的一部分,人们担心建立更聪明,更强大的AI系统最终可能会导致比我们更强大的系统。有人说这就像玩火,并推测这可能会造成生存风险(X风险)。为了增加这些讨论,我们回顾了来自危害分析和系统安全的时间测试概念的集合,这些概念旨在将大型流程引导到更安全的方向上。然后,我们讨论AI研究人员如何对AI系统的安全产生长期影响。最后,我们讨论如何稳健地塑造将影响安全和一般能力之间平衡的过程。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
在真实世界的机器学习应用中,可靠和安全的系统必须考虑超出标准测试设置精度的性能测量。这些其他目标包括分销(OOD)鲁棒性,预测一致性,对敌人的抵御能力,校准的不确定性估计,以及检测异常投入的能力。然而,提高这些目标的绩效通常是一种平衡行为,即今天的方法无法在不牺牲其他安全轴上的性能的情况下实现。例如,对抗性培训改善了对抗性鲁棒性,但急剧降低了其他分类器性能度量。同样,强大的数据增强和正则化技术往往提高鲁棒性,但损害异常检测,提出了对所有现有安全措施的帕累托改进是可能的。为满足这一挑战,我们设计了利用诸如分数形的图片的自然结构复杂性设计新的数据增强策略,这优于众多基线,靠近帕累托 - 最佳,并圆形提高安全措施。
translated by 谷歌翻译
经过认证的稳健性保证衡量模型对测试时间攻击的稳健性,并且可以评估模型对现实世界中部署的准备情况。在这项工作中,我们批判性地研究了对基于随机平滑的认证方法的对抗鲁棒性如何在遇到配送外(OOD)数据的最先进的鲁棒模型时改变。我们的分析显示了这些模型的先前未知的漏洞,以低频OOD数据,例如与天气相关的损坏,使这些模型不适合在野外部署。为了缓解这个问题,我们提出了一种新的数据增强方案,Fourimix,产生增强以改善训练数据的光谱覆盖范围。此外,我们提出了一种新规范器,鼓励增强数据的噪声扰动的一致预测,以提高平滑模型的质量。我们发现Fouriermix增强有助于消除可认真强大的模型的频谱偏差,使其能够在一系列ood基准上实现明显更好的稳健性保证。我们的评估还在突出模型的光谱偏差时揭示了当前的OOD基准。为此,我们提出了一个全面的基准套件,其中包含来自光谱域中不同区域的损坏。对拟议套件上流行的增强方法培训的模型的评估突出了它们的光谱偏差,并建立了富硫克斯训练型模型在实现整个频谱上变化下的更好认证的鲁棒性担保的优势。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
机器学习(ML)系统的大小迅速增加,正在获取新功能,并且越来越多地部署在高赌注设置中。与其他强大的技术一样,ML的安全应成为主要的研究优先权。为了应对ML的新兴安全挑战,例如由最近的大型模型引入的策略,我们为ML安全提供了新的路线图,并完善了现场需要解决的技术问题。我们为研究提供了四项问题,即危害危险(“鲁棒性”),识别危险(“监测”),转向ML系统(“对齐”),减少部署危险(“外部安全性”)。在整个过程中,我们澄清了每个问题的动机并提供了具体的研究方向。
translated by 谷歌翻译
虽然编程是现代社会中最广泛适用的技能之一,但现代机器学习模型仍然无法对基本问题的解决方案。尽管重要的是,对评估代码生成令人惊讶的是,很少有效,并且难以准确地评估代码生成性能。为了满足这一挑战,我们介绍了一个用于代码生成的基准。与在更受限制的设置中的事先工作不同,我们的基准测试衡量模型采取任意自然语言规范的能力,并生成满意的Python代码。类似于公司如何评估候选软件开发人员,然后我们通过检查测试用例的生成代码来评估模型。我们的基准测试包括10,000个问题,从具有简单的单线解决方案来实现实质性算法挑战。我们在GitHub和我们的培训集上微调大型语言模型,我们发现语法错误的普遍性随着模型的提高而导致呈指数级递减。最近的模型如GPT-Neo可以通过大约20%的介绍性问题的测试用例,因此我们发现机器学习模型现在开始学习如何代码。随着自动代码生成的社会意义在未来几年增加,我们的基准可以提供跟踪进步的重要措施。
translated by 谷歌翻译