中国人在马来群岛各国的中国社区中突出特征。在这些国家,中国人经历了对当地语言和文化的调整过程,这导致每个国家发生中国变体。在本文中,我们对从五个马来群岛国家收集的中国新闻文本进行了定量分析看法。统计结果表明,这五个国家中使用的中国变体与现代中国大陆同行不同。同时,我们设法提取并分类了每个国家使用的几个中文单词。所有这些差异反映了中国人如何在海外发展,并证明了ROM当地社会和文化对中国发展的深远影响。
translated by 谷歌翻译
在过去几年中,社交媒体上传播的错误消息激增,并导致了现实世界中的多种威胁。尽管有关于特定领域的虚假新闻(例如政治或医疗保健)的研究,但比较跨领域的虚假新闻几乎没有工作。在本文中,我们调查了2009年至2019年中国最大的Twitter式社交媒体平台的微博上的九个领域的虚假新闻。新收集的数据包含44,728个帖子,由40,215个用户发布,并重新发布了。 340万次。基于多域数据集的分布和传播,我们观察到,在诸如健康和医学之类的日常生活的领域中,虚假的消息比政治等其他领域的帖子更有效,但有效地传播的帖子较少,而政治虚假新闻具有最有效的扩散能力。关于微博上广泛散布的虚假新闻帖子与某些类型的用户(按性别,年龄等。此外,这些帖子都引起了重新播放的强烈情绪,并随着False-News启动器的积极参与而进一步扩散。我们的发现有可能在可疑新闻发现,真实性预测以及显示和解释中帮助设计错误的新闻检测系统。微博上的发现与现有作品的发现表明了细微的模式,这表明需要对来自不同平台,国家或语言的数据进行更多研究,以解决全球错误新闻。代码和新的匿名数据集可在https://github.com/ictmcg/characterizing-weibo-multi-domain-false-news上找到。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
分布语义是对含义变化和通过语料库变化的定量研究,目前是计算语言学中生产力最高的研究领域之一。近年来,大数据和可再现算法的更广泛可用性促进了其对生活语言的应用。但是,我们可以使用分布语义来研究像古希腊这样有限语料库的语言吗?这种方法能否告诉我们一些关于诸如荷马诗的语言和组成的古典研究中这种烦恼问题的信息?我们的论文将比较涉及古希腊语史诗中透射动词的公式的语义灵活性与非格式液体语料库中的类似动词短语,以检测公式中的独特变化模式。为了解决这个问题,我们提出了Agvalex,这是一种从古希腊依赖树库中自动提取的古希腊的计算价词典。词典包含有关动词及其论点的定量语料库驱动的形态,句法和词汇信息,例如对象,主体和介词短语,并且在古希腊作者的语言研究中有广泛的应用。
translated by 谷歌翻译
人类语言中发现的最强大的模式之一是ZIPF的缩写定律,即更短的单词的趋势。自ZIPF开创性研究以来,该定律被视为压缩的体现,即形式的长度最小化 - 自然交流的普遍原则。尽管对语言进行优化的说法已经变得时尚,但衡量语言优化程度的尝试却相当稀缺。在这里,我们证明压缩在无例外的大量语言中表现出来,并且独立于测量单位。这两个单词长度都可以在书面语言的字符以及口语的持续时间中检测到。此外,为了衡量优化程度,我们得出了一个随机基线的简单公式,并提出了两个分数归一化的分数,即,它们相对于最小值和随机基线都进行了归一化。我们分析了这些和其他分数的理论和统计优势和缺点。利用最佳分数,我们首次量化了语言中单词长度的最佳程度。这表明当单词长度以字符测量时,语言平均被优化至62%或67%(取决于源),当单词长度及时测量时,平均而言,平均而言,平均而言,平均而言,平均而言,平均而言,平均至65%。通常,口语持续时间比字符中的书面单词长度更优化。除了这里报告的分析外,我们的工作还铺平了衡量其他物种发声或手势的最佳程度的方法,并将其与书面,口语或签名的人类语言进行比较。
translated by 谷歌翻译
本地语言识别(NLI)是培训(通过监督机器学习)的任务,该分类器猜测文本作者的母语。在过去的十年中,这项任务已经进行了广泛的研究,多年来,NLI系统的性能稳步改善。我们专注于NLI任务的另一个方面,即分析由\ emph {Aupplable}机器学习算法培训的NLI分类器的内部组件,以获取其分类决策的解释,并具有获得的最终目标,即获得最终的目标。深入了解语言现象````赋予说话者''的母语''。我们使用这种观点来解决NLI和(研究得多的)伴侣任务,即猜测是由本地人还是非本地人说的文本。使用三个不同出处的数据集(英语学习者论文的两个数据集和社交媒体帖子的数据集),我们研究哪种语言特征(词汇,形态学,句法和统计)最有效地解决了我们的两项任务,即,最大的表明说话者的L1。我们还提出了两个案例研究,一个关于西班牙语,另一个关于意大利英语学习者,其中我们分析了分类器对发现这些L1最重要的单个语言特征。总体而言,我们的研究表明,使用可解释的机器学习可能是TH的宝贵工具
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
Grammatical Error Correction (GEC) is the task of automatically detecting and correcting errors in text. The task not only includes the correction of grammatical errors, such as missing prepositions and mismatched subject-verb agreement, but also orthographic and semantic errors, such as misspellings and word choice errors respectively. The field has seen significant progress in the last decade, motivated in part by a series of five shared tasks, which drove the development of rule-based methods, statistical classifiers, statistical machine translation, and finally neural machine translation systems which represent the current dominant state of the art. In this survey paper, we condense the field into a single article and first outline some of the linguistic challenges of the task, introduce the most popular datasets that are available to researchers (for both English and other languages), and summarise the various methods and techniques that have been developed with a particular focus on artificial error generation. We next describe the many different approaches to evaluation as well as concerns surrounding metric reliability, especially in relation to subjective human judgements, before concluding with an overview of recent progress and suggestions for future work and remaining challenges. We hope that this survey will serve as comprehensive resource for researchers who are new to the field or who want to be kept apprised of recent developments.
translated by 谷歌翻译
An obstacle to research in automatic paraphrase identification and generation is the lack of large-scale, publiclyavailable labeled corpora of sentential paraphrases. This paper describes the creation of the recently-released Microsoft Research Paraphrase Corpus, which contains 5801 sentence pairs, each hand-labeled with a binary judgment as to whether the pair constitutes a paraphrase. The corpus was created using heuristic extraction techniques in conjunction with an SVM-based classifier to select likely sentence-level paraphrases from a large corpus of topicclustered news data. These pairs were then submitted to human judges, who confirmed that 67% were in fact semantically equivalent. In addition to describing the corpus itself, we explore a number of issues that arose in defining guidelines for the human raters.
translated by 谷歌翻译
本文介绍了Persian的HMBLOGS语料库,作为一种低资源语言。此语料库已根据波斯博客的空间的一段时间内基于大约15岁的近2000万博客帖子编制的,包括超过68亿令牌。可以声称,此语料库目前是最大的波斯语料库,这些语料库是为波斯语而独立制定的。该语料库以原始和预处理的形式呈现,并且基于预处理的语料库,产生了一些单词嵌入模型。通过提供的模型,将HMBlogs与波斯中可用的一些最重要的公司进行比较,结果表明了HMBLOGS语料库的优势。这些评估还提供了语料库,评估数据集,模型生产方法,不同的高参数甚至评估方法的重要性和影响。除了评估语料库及其产生的语言模型之外,该研究还提供了一个语义类比数据集。
translated by 谷歌翻译
用户生成的内容充满了拼写错误。我们假设许多拼写错误的语义不仅仅是随机噪音,而是可以利用隐藏的语义来理解语言理解任务。本文提出了泰语中拼写错误的注释语料库,以及对拼写意图及其可能的语义的分析,以更好地理解语料库中观察到的拼写模式。此外,我们介绍了两种方法,以结合拼写错误的语义:拼写的平均嵌入(MAE)和拼写的语义令牌(MST)。情感分析任务的实验证实了我们的总体假设:拼写错误的其他语义可以提高微F1得分高达0.4-2%,而盲目正常化的拼写错误是有害的和次优的。
translated by 谷歌翻译
情感是引人入胜的叙事的关键部分:文学向我们讲述了有目标,欲望,激情和意图的人。情绪分析是情感分析更广泛,更大的领域的一部分,并且在文学研究中受到越来越多的关注。过去,文学的情感维度主要在文学诠释学的背景下进行了研究。但是,随着被称为数字人文科学(DH)的研究领域的出现,在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实,这一研究方向可以相对较新。在这项调查中,我们概述了现有的情感分析研究机构,以适用于文献。所评论的研究涉及各种主题,包括跟踪情节发展的巨大变化,对文学文本的网络分析以及了解文本的情感以及其他主题。
translated by 谷歌翻译
即使在高度发达的国家,多达15-30%的人口只能理解使用基本词汇编写的文本。他们对日常文本的理解是有限的,这阻止了他们在社会中发挥积极作用,并就医疗保健,法律代表或民主选择做出明智的决定。词汇简化是一项自然语言处理任务,旨在通过更简单地替换复杂的词汇和表达方式来使每个人都可以理解文本,同时保留原始含义。在过去的20年中,它引起了极大的关注,并且已经针对各种语言提出了全自动词汇简化系统。该领域进步的主要障碍是缺乏用于构建和评估词汇简化系统的高质量数据集。我们提出了一个新的基准数据集,用于英语,西班牙语和(巴西)葡萄牙语中的词汇简化,并提供有关数据选择和注释程序的详细信息。这是第一个可直接比较三种语言的词汇简化系统的数据集。为了展示数据集的可用性,我们将两种具有不同体系结构(神经与非神经)的最先进的词汇简化系统适应所有三种语言(英语,西班牙语和巴西葡萄牙语),并评估他们的表演在我们的新数据集中。为了进行更公平的比较,我们使用多种评估措施来捕获系统功效的各个方面,并讨论其优势和缺点。我们发现,最先进的神经词汇简化系统优于所有三种语言中最先进的非神经词汇简化系统。更重要的是,我们发现最先进的神经词汇简化系统对英语的表现要比西班牙和葡萄牙语要好得多。
translated by 谷歌翻译
本文介绍了正式和非正式波斯之间的语音,形态和句法区别,表明这两个变体具有根本差异,不能仅归因于发音差异。鉴于非正式波斯展出特殊的特征,任何在正式波斯语上培训的计算模型都不太可能转移到非正式的波斯,所以需要为这种品种创建专用的树木银行。因此,我们详细介绍了开源非正式波斯普通依赖性TreeBank的开发,这是一个在通用依赖性方案中注释的新的TreeBank。然后,我们通过在现有的正式树木银行上培训两个依赖性解析器并在域名数据上进行评估,调查非正式波斯的解析,即我们非正式树木银行的开发集。我们的结果表明,当我们穿过两个域时,解析器在跨越两个域时遇到了实质性的性能下降,因为它们面临更为不知名的令牌和结构,并且无法概括。此外,性能恶化的依赖关系最多代表了非正式变体的独特属性。这项研究的最终目标表明更广泛的影响是提供踩踏石头,以揭示语言的非正式变种的重要性,这被广泛地忽略了跨语言的自然语言处理工具。
translated by 谷歌翻译
语言可以用作再现和执行有害刻板印象和偏差的手段,并被分析在许多研究中。在本文中,我们对自然语言处理中的性别偏见进行了304篇论文。我们分析了社会科学中性别及其类别的定义,并将其连接到NLP研究中性别偏见的正式定义。我们调查了在对性别偏见的研究中应用的Lexica和数据集,然后比较和对比方法来检测和减轻性别偏见。我们发现对性别偏见的研究遭受了四个核心限制。 1)大多数研究将性别视为忽视其流动性和连续性的二元变量。 2)大部分工作都在单机设置中进行英语或其他高资源语言进行。 3)尽管在NLP方法中对性别偏见进行了无数的论文,但我们发现大多数新开发的算法都没有测试他们的偏见模型,并无视他们的工作的伦理考虑。 4)最后,在这一研究线上发展的方法基本缺陷涵盖性别偏差的非常有限的定义,缺乏评估基线和管道。我们建议建议克服这些限制作为未来研究的指导。
translated by 谷歌翻译
实现通用语言情报是自然语言处理的长期目标,标准评估基准发挥基本和指导作用。我们认为,对于通用语言智能评估,基准本身需要全面和系统。为此,我们提出了Cuge,一种中文语言理解和生成评估基准,具有以下特征:(1)分层基准框架,其中数据集主要选择和组织语言能力 - 任务数据集层次结构。 (2)多级评分策略,其中基于分层框架提供了不同级别的模型性能。为了促进CUGE,我们提供了一个公共排行榜,可以自定义,以支持灵活的模型判断标准。代表性预先训练的语言模型的评估结果表明了对通用语言智能的完善的充足空间。 Cuge在Cuge.baai.ac.cn上公开提供。
translated by 谷歌翻译
随着数字化的传统文化遗产文件迅速增加,导致对保存和管理的需求增加,对实体的实际认可和阶级的典型认识已成为必不可少的。为了实现这一目标,我们提出了Kochet - 韩国文化遗产语料库,用于典型实体相关的任务,即指定的实体识别(NER),关系提取(RE)和实体键入(ET)。根据政府附属组织的数据构建指南的文化遗产专家的建议,科切特分别由NER,RE和ET任务的112,362、38,765、113,198个示例组成,涵盖了与韩国文化遗产有关的所有实体类型。此外,与现有的公共语料库不同,可以允许经过修改的重新分配。我们的实验结果使Kochet的实际可用性在文化遗产方面更有价值。我们还从统计和语言分析方面提供了Kochet的实际见解。我们的语料库可以在https://github.com/gyeeongmin47/kochet上免费获得。
translated by 谷歌翻译
接受高等教育对于少数族裔和新兴双语学生至关重要。但是,高等教育机构用来与准学生交流的语言通常太复杂了。具体而言,美国的许多机构发布录取申请指令远远高于典型高中毕业生的平均阅读水平,通常接近13年级或14年级。这导致学生之间不必要的障碍和获得高等教育。这项工作旨在通过简化文本来应对这一挑战。我们介绍PSAT(专业简化的录取文本),这是一个数据集,其中有112条从美国的高等教育机构中随机选择的录取说明。然后,这些文本将被专业地简化,并被各个机构招生办公室的专职员工专家进行了验证和接受。此外,PSAT带有1,883个原始简化句子对的手动对齐。结果是在与现有简化资源不同的高风险流派中评估和微调文本简化系统的首个语料库。
translated by 谷歌翻译
基于变压器的语言模型最近在许多自然语言任务中取得了显着的结果。但是,通常通过利用大量培训数据来实现排行榜的性能,并且很少通过将明确的语言知识编码为神经模型。这使许多人质疑语言学对现代自然语言处理的相关性。在本文中,我介绍了几个案例研究,以说明理论语言学和神经语言模型仍然相互关联。首先,语言模型通过提供一个客观的工具来测量语义距离,这对语言学家很有用,语义距离很难使用传统方法。另一方面,语言理论通过提供框架和数据源来探究我们的语言模型,以了解语言理解的特定方面,从而有助于语言建模研究。本论文贡献了三项研究,探讨了语言模型中语法 - 听觉界面的不同方面。在论文的第一部分中,我将语言模型应用于单词类灵活性的问题。我将Mbert作为语义距离测量的来源,我提供了有利于将单词类灵活性分析为方向过程的证据。在论文的第二部分中,我提出了一种方法来测量语言模型中间层的惊奇方法。我的实验表明,包含形态句法异常的句子触发了语言模型早期的惊喜,而不是语义和常识异常。最后,在论文的第三部分中,我适应了一些心理语言学研究,以表明语言模型包含了论证结构结构的知识。总而言之,我的论文在自然语言处理,语言理论和心理语言学之间建立了新的联系,以为语言模型的解释提供新的观点。
translated by 谷歌翻译
代码切换是在对话期间交换语言时的语音现象。尽管对会话语言中的代码切换的自发性,但大多数现有工程通过读取语音而不是自发的语音来收集代码切换数据。Ascend(一个自发的中国英语数据集)介绍了香港收集的自发多转对话对话中英语代码切换语料库的高质量资源。我们报告了提升的设计和收集语音数据的程序,包括在这项工作中的注释。上升包括23个双语,这些双语流利,汉英都流利,而且由9.23小时的清洁语音组成。
translated by 谷歌翻译