模型评估的常见设计通常侧重于单机设置,其中根据其在单个数据集上的性能进行比较不同的模型,该性能被假定代表手头任务的所有可能数据。虽然这对大数据集可能是合理的,但是这种假设难以在低资源场景中维持,其中数据收集的伪像可以产生具有异常值的数据集,可能得出关于模型性能掺入的结论。为了解决这些问题,我们调查跨越低资源场景中的模型概括性。使用形态分割作为测试用例,我们将三种具有不同参数化的广泛模型进行比较,从6个语言系列中从11种语言中获取数据。在每个实验设置中,我们在第一个数据集上评估所有模型,然后在使用相同大小的新随机采样的数据集时检查它们的性能一致性,并且在将培训的模型应用于不同尺寸的试验组测试组时,请进行培训的模型。结果表明,模型泛化的程度取决于数据集的特性,并且不一定依赖于数据集大小。在我们研究的特征中,语素重叠的比例与训练和测试集之间的每个词的平均语素数量是两个最突出的因素。我们的研究结果表明,未来的工作应该采用随机抽样来构建具有不同尺寸的数据集,以便为模型评估做出更负责任的要求。
translated by 谷歌翻译
许多自动语音识别(ASR)数据集包括一个单一的预定义测试集,该测试集由一个或多个演讲者组成,其语音从未出现在培训集中。但是,对于说话者数量很少的数据集,这种“持有说明器”的数据分配策略可能不是理想的选择。这项研究调查了具有最小ASR培训资源的五种语言的十种不同数据拆分方法。我们发现(1)模型性能取决于选择哪个扬声器进行测试; (2)所有固定扬声器的平均单词错误率(WER)不仅与多个随机拆分的平均差异相当,而且与任何给定的单个随机拆分相当; (3)当数据以启发性或对抗性分开时,通常也可以比较; (4)话语持续时间和强度是可变性的相对预测因素,而不管数据分解如何。这些结果表明,广泛使用的宣传者输出的ASR数据分配方法可以产生不反映未见数据或说话者模型性能的结果。在面对数据稀疏时,随机拆分可以产生更可靠和可推广的估计。
translated by 谷歌翻译
尚未详细探讨Treebank的选择,用于解析评估和可能由偏见的选择产生的虚假效果。本文研究了对树岸的单个子集的评估如何导致结论较弱。首先,我们采用一些对比的解析器,并将其运行在先前工作中提出的树库的子集上,其使用(或不使用)在类型学或数据稀缺等标准上是合理的(或不合理的)。其次,我们运行了该实验的大规模版本,创建大量的Treebanks随机子集,并在其上比较许多分数可用的解析器。结果表明,各个子集的差异很大,尽管建立良好的树牛银行选择准则很难,但仍有可能检测潜在的有害策略。
translated by 谷歌翻译
Grammatical Error Correction (GEC) is the task of automatically detecting and correcting errors in text. The task not only includes the correction of grammatical errors, such as missing prepositions and mismatched subject-verb agreement, but also orthographic and semantic errors, such as misspellings and word choice errors respectively. The field has seen significant progress in the last decade, motivated in part by a series of five shared tasks, which drove the development of rule-based methods, statistical classifiers, statistical machine translation, and finally neural machine translation systems which represent the current dominant state of the art. In this survey paper, we condense the field into a single article and first outline some of the linguistic challenges of the task, introduce the most popular datasets that are available to researchers (for both English and other languages), and summarise the various methods and techniques that have been developed with a particular focus on artificial error generation. We next describe the many different approaches to evaluation as well as concerns surrounding metric reliability, especially in relation to subjective human judgements, before concluding with an overview of recent progress and suggestions for future work and remaining challenges. We hope that this survey will serve as comprehensive resource for researchers who are new to the field or who want to be kept apprised of recent developments.
translated by 谷歌翻译
本文模拟了17种语言的低资源设置,以评估不同条件下的相似性,稳定性和可靠性。目的是在训练之前使用语料库相似性度量,以预测训练后嵌入的特性。本文的主要贡献是表明可以使用上游语料库相似性度量来预测下游嵌入相似性。然后,通过建模从非常有限的训练数据创建的嵌入式的可靠性,将此发现应用于低资源设置。结果表明,可以使用语料库相似性度量估算低资源嵌入的可靠性,这些度量在少量数据上保持强大。这些发现对评估真正低资源语言的评估具有重大影响,在这种语言中,由于数据限制,这种系统的下游验证方法是不可能的。
translated by 谷歌翻译
Transfer learning, where a model is first pre-trained on a data-rich task before being finetuned on a downstream task, has emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a diversity of approaches, methodology, and practice. In this paper, we explore the landscape of transfer learning techniques for NLP by introducing a unified framework that converts all text-based language problems into a text-to-text format. Our systematic study compares pre-training objectives, architectures, unlabeled data sets, transfer approaches, and other factors on dozens of language understanding tasks. By combining the insights from our exploration with scale and our new "Colossal Clean Crawled Corpus", we achieve state-of-the-art results on many benchmarks covering summarization, question answering, text classification, and more. To facilitate future work on transfer learning for NLP, we release our data set, pre-trained models, and code.
translated by 谷歌翻译
我们通过引入一个评估训练和测试数据中看到的边缘位移分布(边缘的定向距离)之间的差异来为NLP中解析性能的讨论做出贡献。我们假设该测量将与跨树库的解析性能中观察到的差异有关。我们通过建立先前的工作来激发这种激励,然后尝试通过使用多种统计方法来伪造这一假设。我们确定即使控制潜在的协变量,这种测量和解析性能之间也存在统计相关性。然后,我们使用它来建立一种抽样技术,从而为我们提供对抗性和互补的分裂。这给出了给定树库来代替新鲜采样数据的解析系统的下层和上限。从广义上讲,这里提出的方法可以作为NLP中基于相关的探索工作的参考。
translated by 谷歌翻译
我们想要模型的文本单位是什么?从字节到多字表达式,可以在许多粒度下分析和生成文本。直到最近,大多数自然语言处理(NLP)模型通过单词操作,将那些作为离散和原子令牌处理,但从字节对编码(BPE)开始,基于次字的方法在许多领域都变得占主导地位,使得仍然存在小词汇表允许快速推断。是道路字符级模型的结束或字节级处理吗?在这项调查中,我们通过展示和评估基于学习分割的词语和字符以及基于子字的方法的混合方法以及基于学习的分割的杂交方法,连接多行工作。我们得出结论,对于所有应用来说,并且可能永远不会成为所有应用的银子弹奇异解决方案,并且严重思考令牌化对许多应用仍然很重要。
translated by 谷歌翻译
确保适当的标点符号和字母外壳是朝向应用复杂的自然语言处理算法的关键预处理步骤。这对于缺少标点符号和壳体的文本源,例如自动语音识别系统的原始输出。此外,简短的短信和微博的平台提供不可靠且经常错误的标点符号和套管。本调查概述了历史和最先进的技术,用于恢复标点符号和纠正单词套管。此外,突出了当前的挑战和研究方向。
translated by 谷歌翻译
Sigmorphon 2022关于词素分割的共享任务挑战了将单词分解为一系列词素的系统,并涵盖了大多数类型的形态:化合物,衍生和弯曲。子任务1,单词级词素细分,涵盖了9种语言的500万个单词(捷克,英语,西班牙语,匈牙利语,法语,意大利语,俄语,拉丁语,蒙古语),并收到了7个团队的13个系统提交,最佳系统平均为97.29%F1在所有语言中得分,英语(93.84%)到拉丁语(99.38%)。子任务2,句子级的词素细分,涵盖了3种语言的18,735个句子(捷克,英语,蒙古人),从3个团队中收到10个系统提交,最好的系统优于所有三种最先进的子字体化方法(BPE(BPE),Ulm,Morfessor2)绝对30.71%。为了促进错误分析并支持任何类型的未来研究,我们发布了所有系统预测,评估脚本和所有黄金标准数据集。
translated by 谷歌翻译
基于变压器的语言模型最近在许多自然语言任务中取得了显着的结果。但是,通常通过利用大量培训数据来实现排行榜的性能,并且很少通过将明确的语言知识编码为神经模型。这使许多人质疑语言学对现代自然语言处理的相关性。在本文中,我介绍了几个案例研究,以说明理论语言学和神经语言模型仍然相互关联。首先,语言模型通过提供一个客观的工具来测量语义距离,这对语言学家很有用,语义距离很难使用传统方法。另一方面,语言理论通过提供框架和数据源来探究我们的语言模型,以了解语言理解的特定方面,从而有助于语言建模研究。本论文贡献了三项研究,探讨了语言模型中语法 - 听觉界面的不同方面。在论文的第一部分中,我将语言模型应用于单词类灵活性的问题。我将Mbert作为语义距离测量的来源,我提供了有利于将单词类灵活性分析为方向过程的证据。在论文的第二部分中,我提出了一种方法来测量语言模型中间层的惊奇方法。我的实验表明,包含形态句法异常的句子触发了语言模型早期的惊喜,而不是语义和常识异常。最后,在论文的第三部分中,我适应了一些心理语言学研究,以表明语言模型包含了论证结构结构的知识。总而言之,我的论文在自然语言处理,语言理论和心理语言学之间建立了新的联系,以为语言模型的解释提供新的观点。
translated by 谷歌翻译
这项研究讨论了半监督学习的影响与验证的语言模型,以生成数据到文本。当还补充大规模语言模型时,尚不清楚半监督学习是否仍然有用。这项研究的目的是通过将仅补充语言模型的数据到文本系统与两个数据到文本系统进行比较,这些系统通过数据增强或伪标记的半固定学习方法而富含数据。结果表明,半监督学习会导致多样性指标的得分更高。在输出质量方面,使用伪标记方法扩展数据到文本系统的训练集确实提高了文本质量分数,但是数据增强方法在没有训练设置扩展的情况下得出了与系统相似的分数。这些结果表明,即使也存在语言模型,半监督的学习方法也可以增强产出质量和多样性。
translated by 谷歌翻译
数据饥饿的深度神经网络已经将自己作为许多NLP任务的标准建立为包括传统序列标记的标准。尽管他们在高资源语言上表现最先进的表现,但它们仍然落后于低资源场景的统计计数器。一个方法来反击攻击此问题是文本增强,即,从现有数据生成新的合成训练数据点。虽然NLP最近目睹了一种文本增强技术的负载,但该领域仍然缺乏对多种语言和序列标记任务的系统性能分析。为了填补这一差距,我们调查了三类文本增强方法,其在语法(例如,裁剪子句子),令牌(例如,随机字插入)和字符(例如,字符交换)级别上执行更改。我们系统地将它们与语音标记,依赖解析和语义角色标记的分组进行了比较,用于使用各种模型的各种语言系列,包括依赖于诸如MBERT的普赖金的多语言语境化语言模型的架构。增强最显着改善了解析,然后是语音标记和语义角色标记的依赖性解析。我们发现实验技术通常在形态上丰富的语言,而不是越南语等分析语言。我们的研究结果表明,增强技术可以进一步改善基于MBERT的强基线。我们将字符级方法标识为最常见的表演者,而同义词替换和语法增强仪提供不一致的改进。最后,我们讨论了最大依赖于任务,语言对和模型类型的结果。
translated by 谷歌翻译
本文使用寄存器预测任务进行了39种语言的基于频率语料库相似性的实验。目的是量化(i)不同语料库与同一语言和(ii)单个语音的同质性之间的距离。这两个目标对于衡量基于语料库的语言分析如何从一个数据集推广到另一个数据集都至关重要。问题在于,以前的工作集中在印欧语上,提出了一个问题,即这些措施是否能够在各种语言上提供强大的概括。本文使用寄存器预测任务来评估跨39种语言的竞争措施:他们能够区分代表不同生产环境的语料库?每个实验都将单个语言的三个语料库与所有语言共享的三个数字寄存器进行比较:社交媒体,网页和Wikipedia。结果表明,语料库相似性的衡量标准保留了不同语言家族,写作系统和形态类型的有效性。此外,当对不域外的语料库,应用于低资源语言以及应用于不同的寄存器集时,这些措施仍然坚固。鉴于我们需要在可用于分析的迅速增加的情况下进行概括,因此这些发现很重要。
translated by 谷歌翻译
命名实体识别是一项信息提取任务,可作为其他自然语言处理任务的预处理步骤,例如机器翻译,信息检索和问题答案。命名实体识别能够识别专有名称以及开放域文本中的时间和数字表达式。对于诸如阿拉伯语,阿姆哈拉语和希伯来语之类的闪族语言,由于这些语言的结构严重变化,指定的实体识别任务更具挑战性。在本文中,我们提出了一个基于双向长期记忆的Amharic命名实体识别系统,并带有条件随机字段层。我们注释了一种新的Amharic命名实体识别数据集(8,070个句子,具有182,691个令牌),并将合成少数群体过度采样技术应用于我们的数据集,以减轻不平衡的分类问题。我们命名的实体识别系统的F_1得分为93%,这是Amharic命名实体识别的新最新结果。
translated by 谷歌翻译
仇恨言论是一种在线骚扰的形式,涉及使用滥用语言,并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教,性别,种族等的特定群体特征上,如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务,但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展,我们在短文中适当地增强和微调以检测某些形式的仇恨语言,例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络(RNN)分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器(OVR)分类器的输出组合在一起,并用于训练第二阶段分类器,最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较,然后对另一个数据集进行了概括研究。报道的结果表明,与当前的最新技术相比,在仇恨言论检测任务中,所提出的方案的分类质量出色。
translated by 谷歌翻译
Transformer language models (TLMs) are critical for most NLP tasks, but they are difficult to create for low-resource languages because of how much pretraining data they require. In this work, we investigate two techniques for training monolingual TLMs in a low-resource setting: greatly reducing TLM size, and complementing the masked language modeling objective with two linguistically rich supervised tasks (part-of-speech tagging and dependency parsing). Results from 7 diverse languages indicate that our model, MicroBERT, is able to produce marked improvements in downstream task evaluations relative to a typical monolingual TLM pretraining approach. Specifically, we find that monolingual MicroBERT models achieve gains of up to 18% for parser LAS and 11% for NER F1 compared to a multilingual baseline, mBERT, while having less than 1% of its parameter count. We conclude reducing TLM parameter count and using labeled data for pretraining low-resource TLMs can yield large quality benefits and in some cases produce models that outperform multilingual approaches.
translated by 谷歌翻译
在文本分类模型由于数据变化而随着时间的变化而下降的情况下,其持续时间持续时间的模型的开发很重要。预测模型随着时间的推移能力的能力可以帮助设计模型,这些模型可以在更长的时间内有效使用。在本文中,我们通过评估各种语言模型和分类算法随着时间的推移持续存在的能力,以及数据集特性如何帮助预测不同模型的时间稳定性,从而研究了这个问题。我们在跨越6到19年的三个数据集上执行纵向分类实验,并涉及各种任务和类型的数据。我们发现,人们可以根据(i)模型在限制时间段内的性能及其外推到更长的时间段,以及(ii)数据集的语言特征,以及(ii)数据集的语言特征,如何估算模型如何在时间上保持其性能。例如不同年份的子集之间的熟悉程度。这些实验的发现对文本分类模型的设计具有重要意义,目的是保留随着时间的推移性能。
translated by 谷歌翻译
经过审计的多语言模型已成为将NLP功能转移到低资源语言的常见工具,通常具有适应性。在这项工作中,我们研究了两种改编的性能,可扩展性和相互作用:词汇增强和脚本音译。我们对九种多样化的低资源语言中的词性标签,普遍依赖解析的评估,并命名为实体识别,以维护这些方法的可行性,同时围绕如何最佳地将多语言模型适应低资源设置的新问题。
translated by 谷歌翻译
GPT-3等大型自回归语言模型是几秒钟的学习者,可以在没有微调的情况下执行各种语言任务。虽然已知这些模型能够共同代表许多不同的语言,但他们的培训数据由英语主导,可能限制了它们的交叉概括。在这项工作中,我们在覆盖多种语言的平衡语料库上培训多语言自回归语言模型,并在广泛的任务中研究他们几乎没有零点的学习能力。我们最大的模型,具有75亿参数,在20多种代表语言中,在几种代表语言中,在几种代表性语言中,在几种代表性语言中,在多语言型号推理中表现出可比大小的GPT-3(在0次设置和0次拍摄设置中的绝对精度改善+ 7.4% 4-拍摄设置中的9.4%)和自然语言推理(每次拍摄和4次设置中的每一个+ 5.4%)。在Flores-101机器翻译基准测试中,我们的模型优于GPT-3在182个翻译方向上有32个培训例子,同时超过45个方向的官方监督基线。我们介绍了模型成功和失败的位置的详细分析,特别是它尤其显示在某些任务中实现交叉语境的内容学习,而仍然存在改善表面的鲁棒性和适应没有a的任务的余地自然冻结形式。最后,我们评估我们在仇恨语音检测中以五种语言的仇恨语音检测的模型,并发现它具有与可比大小的GPT-3模型类似的限制。
translated by 谷歌翻译