由于缺乏低资源语言的语料库,当前的对话生成作品主要集中在英语上。在本文中,我们介绍了MDIA,这是第一个大规模的多语言基准,用于跨低资源语言进行对话生成。它涵盖了19个语言家庭中46种语言的现实生活对话。我们介绍通过微调多语言,非拨号的预训练的模型MT5以及以英语为中心的,以对话为中心的预训练的预训练的聊天机器人对话,获得了基线结果。结果表明,基于MT5的模型在Sacrebleu和Bertscore上的表现更好,但在多样性方面的性能较差。即使在几乎没有射击和零拍的场景中发现了有希望的结果,但英语和其他语言的一代质量之间存在很大的差距。我们希望MDIA的发布可以鼓励更多关于多语言对话生成的作品,以促进语言多样性。
translated by 谷歌翻译
基于强大的预训练语言模型(PLM)的密集检索方法(DR)方法取得了重大进步,并已成为现代开放域问答系统的关键组成部分。但是,他们需要大量的手动注释才能进行竞争性,这是不可行的。为了解决这个问题,越来越多的研究作品最近着重于在低资源场景下改善DR绩效。这些作品在培训所需的资源和采用各种技术的资源方面有所不同。了解这种差异对于在特定的低资源场景下选择正确的技术至关重要。为了促进这种理解,我们提供了针对低资源DR的主流技术的彻底结构化概述。根据他们所需的资源,我们将技术分为三个主要类别:(1)仅需要文档; (2)需要文件和问题; (3)需要文档和提问对。对于每种技术,我们都会介绍其一般形式算法,突出显示开放的问题和利弊。概述了有希望的方向以供将来的研究。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
语言模型预训练的最新进展利用大规模数据集创建多语言模型。但是,这些数据集中大多遗漏了低资源语言。这主要是因为网络上没有很好地表示口语,因此被排除在用于创建数据集的大规模爬网中。此外,这些模型的下游用户仅限于最初选择用于预训练的语言的选择。这项工作调查了如何最佳利用现有的预培训模型来为16种非洲语言创建低资源翻译系统。我们关注两个问题:1)如何将预训练的模型用于初始预培训中未包含的语言? 2)生成的翻译模型如何有效地转移到新域?为了回答这些问题,我们创建了一个新的非洲新闻语料库,涵盖16种语言,其中8种语言不属于任何现有评估数据集的一部分。我们证明,将两种语言转移到其他语言和其他领域的最有效策略是,以少量的高质量翻译数据微调大型预训练模型。
translated by 谷歌翻译
Reasoning is central to human intelligence. However, fallacious arguments are common, and some exacerbate problems such as spreading misinformation about climate change. In this paper, we propose the task of logical fallacy detection, and provide a new dataset (Logic) of logical fallacies generally found in text, together with an additional challenge set for detecting logical fallacies in climate change claims (LogicClimate). Detecting logical fallacies is a hard problem as the model must understand the underlying logical structure of the argument. We find that existing pretrained large language models perform poorly on this task. In contrast, we show that a simple structure-aware classifier outperforms the best language model by 5.46% on Logic and 4.51% on LogicClimate. We encourage future work to explore this task as (a) it can serve as a new reasoning challenge for language models, and (b) it can have potential applications in tackling the spread of misinformation. Our dataset and code are available at https://github.com/causalNLP/logical-fallacy
translated by 谷歌翻译
鉴于案件的事实,法律判断预测(LJP)涉及一系列的子任务,例如预测违规的法律文章,费用和罚款期限。我们建议利用LJP的统一文本到文本变压器,其中子任务之间的依赖关系可以自然地建立在自动回归解码器中。与以前的作品相比,它有三个优点:(1)它适合屏蔽语言模型的预先预订模式,从而可以从每个子任务的语义提示中受益,而不是将它们视为原子标签,(2)它使用单个统一的架构,在所有子任务中都可以实现完整参数共享,并且(3)它可以包含分类和生成子任务。我们展示了这款统一的变压器,尽管普通的域文本,但优于法律领域专门针对的预磨损模型。通过广泛的实验,我们发现捕获依赖性的最佳订单与人类直觉不同,而且人类最合理的逻辑顺序可以是模型的次优。我们还包括两个更多的辅助任务:法院视图生成和文章内容预测,显示它们不仅可以提高预测准确性,而且也可以为模型输出提供可解释的解释,即使在进行错误时也是模型输出。通过最佳配置,我们的模型优于先前的SOTA和一个单一任务版本的统一变压器,通过大边距。
translated by 谷歌翻译
代码摘要旨在为源代码生成简要的自然语言描述。由于源代码高度结构化并遵循严格的编程语言语法,它的抽象语法树(AST)通常会利用以通知编码器对结构信息。但是,AST通常比源代码长得多。目前的方法忽略尺寸限制并简单地将整个线性化AST送入编码器。为了解决这个问题,我们提出了AST变压器,以有效地编码树结构的AST。实验表明,AST变压器通过大量余量优于最先进的余量,同时能够减少编码过程中的计算复杂度的90亿美元。
translated by 谷歌翻译
自动推荐向特定法律案件的相关法律文章引起了很多关注,因为它可以大大释放人工劳动力,从而在大型法律数据库中寻找。然而,目前的研究只支持粗粒度推荐,其中所有相关文章都预测为整体,而无需解释每种文章与之相关的具体事实。由于一个案例可以由许多支持事实形成,因此遍历它们来验证推荐结果的正确性可能是耗时的。我们认为,在每个单一的事实和法律文章之间学习细粒度的对应,对于准确可靠的AI系统至关重要。通过这种动机,我们执行开创性的研究并创建一个手动注释的事实 - 文章的语料库。我们将学习视为文本匹配任务,并提出一个多级匹配网络来解决它。为了帮助模型更好地消化法律文章的内容,我们以随机森林的前提结论对形式解析物品。实验表明,解析的形式产生了更好的性能,结果模型超越了其他流行的文本匹配基线。此外,我们与先前的研究相比,并发现建立细粒度的事实 - 文章对应物可以通过大幅度提高建议准确性。我们最好的系统达到了96.3%的F1得分,使其具有实际使用潜力。它还可以显着提高法律决策预测的下游任务,将F1增加到12.7%。
translated by 谷歌翻译
在本文中,我们探索了开放式剪影到照片转换,旨在将备用素描与其类标签中的徒手素描合成,即使培训数据中缺少该类的草图。由于缺乏训练监督和写法草图和照片域之间的大几何扭曲,这是挑战性的。要从照片中综合缺少的手绘草图,我们提出了一个框架,共同学习素描到照片和照片到素描生成。然而,由于合成草图和真实的域间隙,从假草图训练的发电机可能导致缺失类的草图时导致不满意的结果。为了缓解这个问题,我们进一步提出了一种简单但有效的开放式采样和优化策略,以“愚弄”将发电机视为真实的草图。我们的方法利用了域名数据的学习素描到照片和照片到草图映射,并将其概括为开放式域类。我们在涂鸦和Sketchycoco数据集上验证我们的方法。与最近的竞争方法相比,我们的方法显示令人印象深刻的成果,在综合逼真的颜色,纹理和维护各类开放式域草图的几何组合物方面。我们的代码可在https://github.com/mukosame/aoda获得
translated by 谷歌翻译
We develop a high-quality multi-turn dialog dataset, DailyDialog, which is intriguing in several aspects. The language is human-written and less noisy. The dialogues in the dataset reflect our daily communication way and cover various topics about our daily life. We also manually label the developed dataset with communication intention and emotion information. Then, we evaluate existing approaches on DailyDialog dataset and hope it benefit the research field of dialog systems 1 .
translated by 谷歌翻译