键形提取是NLP中文档理解的重要任务之一。虽然大多数先前的作品都致力于正式设置,例如书籍,新闻或网络博客,但探索视频成绩单等非正式文本的探索较少。为了解决这一局限性,在这项工作中,我们提出了一种新颖的语料库和方法,用于从Behance平台上流的视频的成绩单中提取钥匙短语。更具体地说,在这项工作中,提出了一种新型的数据增强,以通过从其他域中提取键形提取任务的背景知识来丰富模型。提出的数据集数据集上的广泛实验显示了引入方法的有效性。
translated by 谷歌翻译
流视频是创作者与观众分享创意作品的方法之一。在这些视频中,流媒体分享了如何通过在一个或几个用于创意项目的程序中使用各种工具来实现最终目标。为此,可以讨论实现最终目标所需的步骤。因此,这些视频可以提供大量的教育内容,这些内容可用于学习如何使用流媒体使用的工具。但是,缺点之一是,流媒体可能无法为每个步骤提供足够的详细信息。因此,对于学习者来说,可能很难赶上所有步骤。为了减轻此问题,一种解决方案是将流视频与流视频中使用的工具可用的相关教程联系起来。更具体地说,系统可以分析实时流媒体视频的内容,并推荐最相关的教程。由于现有的文档推荐模型无法处理这种情况,因此在这项工作中,我们为实时流程视频的教程建议提供了一个新颖的数据集和模型。我们对拟议的数据集和模型进行了广泛的分析,揭示了该任务的挑战性质。
translated by 谷歌翻译
学术研究是解决以前从未解决过的问题的探索活动。通过这种性质,每个学术研究工作都需要进行文献审查,以区分其Novelties尚未通过事先作品解决。在自然语言处理中,该文献综述通常在“相关工作”部分下进行。鉴于研究文件的其余部分和引用的论文列表,自动相关工作生成的任务旨在自动生成“相关工作”部分。虽然这项任务是在10年前提出的,但直到最近,它被认为是作为科学多文件摘要问题的变种。然而,即使在今天,尚未标准化了自动相关工作和引用文本生成的问题。在这项调查中,我们进行了一个元研究,从问题制定,数据集收集,方法方法,绩效评估和未来前景的角度来比较相关工作的现有文献,以便为读者洞察到国家的进步 - 最内容的研究,以及如何进行未来的研究。我们还调查了我们建议未来工作要考虑整合的相关研究领域。
translated by 谷歌翻译
本文对过去二十年来对自然语言生成(NLG)的研究提供了全面的审查,特别是与数据到文本生成和文本到文本生成深度学习方法有关,以及NLG的新应用技术。该调查旨在(a)给出关于NLG核心任务的最新综合,以及该领域采用的建筑;(b)详细介绍各种NLG任务和数据集,并提请注意NLG评估中的挑战,专注于不同的评估方法及其关系;(c)强调一些未来的强调和相对近期的研究问题,因为NLG和其他人工智能领域的协同作用而增加,例如计算机视觉,文本和计算创造力。
translated by 谷歌翻译
自Bert(Devlin等,2018)以来,学习上下文化的单词嵌入一直是NLP中的事实上的标准。然而,学习上下文化短语嵌入的进展受到缺乏人类通知的语句基准基准的阻碍。为了填补这一空白,我们提出了PIC- 〜28K名词短语的数据集伴随着它们的上下文Wikipedia页面,以及一套三个任务,这些任务增加了评估短语嵌入质量的难度。我们发现,在我们的数据集中进行的培训提高了排名模型的准确性,并明显地将问题答案(QA)模型推向了近人类的准确性,而在语义搜索上,鉴于询问短语和段落,在语义搜索上是95%的精确匹配(EM)。有趣的是,我们发现这种令人印象深刻的性能的证据是因为质量检查模型学会了更好地捕获短语的共同含义,而不管其实际背景如何。也就是说,在我们的短语中歧义歧义(PSD)任务上,SOTA模型的精度大大下降(60%EM),在两个不同情况下未能区分相同短语的两种不同感觉。在我们的3任任务基准测试中的进一步结果表明,学习上下文化的短语嵌入仍然是一个有趣的开放挑战。
translated by 谷歌翻译
NLP是与计算机或机器理解和解释人类语言的能力有关的人工智能和机器学习的一种形式。语言模型在文本分析和NLP中至关重要,因为它们允许计算机解释定性输入并将其转换为可以在其他任务中使用的定量数据。从本质上讲,在转移学习的背景下,语言模型通常在大型通用语料库上进行培训,称为预训练阶段,然后对特定的基本任务进行微调。结果,预训练的语言模型主要用作基线模型,该模型包含了对上下文的广泛掌握,并且可以进一步定制以在新的NLP任务中使用。大多数预训练的模型都经过来自Twitter,Newswire,Wikipedia和Web等通用领域的Corpora培训。在一般文本中训练的现成的NLP模型可能在专业领域效率低下且不准确。在本文中,我们提出了一个名为Securebert的网络安全语言模型,该模型能够捕获网络安全域中的文本含义,因此可以进一步用于自动化,用于许多重要的网络安全任务,否则这些任务将依靠人类的专业知识和繁琐的手动努力。 Securebert受到了我们从网络安全和一般计算域的各种来源收集和预处理的大量网络安全文本培训。使用我们提出的令牌化和模型权重调整的方法,Securebert不仅能够保留对一般英语的理解,因为大多数预训练的语言模型都可以做到,而且在应用于具有网络安全含义的文本时也有效。
translated by 谷歌翻译
Deep Learning and Machine Learning based models have become extremely popular in text processing and information retrieval. However, the non-linear structures present inside the networks make these models largely inscrutable. A significant body of research has focused on increasing the transparency of these models. This article provides a broad overview of research on the explainability and interpretability of natural language processing and information retrieval methods. More specifically, we survey approaches that have been applied to explain word embeddings, sequence modeling, attention modules, transformers, BERT, and document ranking. The concluding section suggests some possible directions for future research on this topic.
translated by 谷歌翻译
Grammatical Error Correction (GEC) is the task of automatically detecting and correcting errors in text. The task not only includes the correction of grammatical errors, such as missing prepositions and mismatched subject-verb agreement, but also orthographic and semantic errors, such as misspellings and word choice errors respectively. The field has seen significant progress in the last decade, motivated in part by a series of five shared tasks, which drove the development of rule-based methods, statistical classifiers, statistical machine translation, and finally neural machine translation systems which represent the current dominant state of the art. In this survey paper, we condense the field into a single article and first outline some of the linguistic challenges of the task, introduce the most popular datasets that are available to researchers (for both English and other languages), and summarise the various methods and techniques that have been developed with a particular focus on artificial error generation. We next describe the many different approaches to evaluation as well as concerns surrounding metric reliability, especially in relation to subjective human judgements, before concluding with an overview of recent progress and suggestions for future work and remaining challenges. We hope that this survey will serve as comprehensive resource for researchers who are new to the field or who want to be kept apprised of recent developments.
translated by 谷歌翻译
大多数无监督的NLP模型代表了语义空间中单点或单个区域的每个单词,而现有的多感觉单词嵌入物不能代表像素序或句子等更长的单词序列。我们提出了一种用于文本序列(短语或句子)的新型嵌入方法,其中每个序列由一个不同的多模码本嵌入物组表示,以捕获其含义的不同语义面。码本嵌入式可以被视为集群中心,该中心总结了在预训练的单词嵌入空间中的可能共同出现的单词的分布。我们介绍了一个端到端的训练神经模型,直接从测试时间内从输入文本序列预测集群中心集。我们的实验表明,每句话码本嵌入式显着提高无监督句子相似性和提取摘要基准的性能。在短语相似之处实验中,我们发现多面嵌入物提供可解释的语义表示,但不优于单面基线。
translated by 谷歌翻译
在线仇恨言论已成为小时的需求。但是,由于几种地缘政治和文化原因,对此类活动的禁令是不可行的。为了减少问题的严重性,在本文中,我们介绍了一项新颖的任务,仇恨言语归一化,旨在削弱在线帖子表现出的仇恨强度。仇恨言语归一化的意图不是支持仇恨,而是为用户提供对非讨厌的垫脚石,同时为在线平台提供更多时间来监视用户行为的任何改进。为此,我们手动策划了平行语料库 - 仇恨文本及其标准化的同行(标准化文本较不憎恨,更良性)。我们介绍了NACL,这是一个简单而有效的仇恨言语归一化模型,该模型在三个阶段运行 - 首先,它测量了原始样本的仇恨强度;其次,它标识了其中的仇恨跨度;最后,它通过解释仇恨跨度来降低仇恨强度。我们进行了广泛的实验,以通过三向评估(内在,外部和人类研究)来衡量NaCl的功效。我们观察到,NaCl优于六个基准-NACL的强度预测得分为0.1365 RMSE,在SPAN识别中获得0.622 F1分数,而82.27 BLEU和80.05的差异和80.05的困惑为归一化​​文本生成。我们进一步显示了NACL在其他平台上的普遍性(Reddit,Facebook,GAB)。将NaCl的交互式原型放在一起进行用户研究。此外,该工具正在WIPRO AI的真实环境中部署,这是其在线平台上处理有害内容的任务的一部分。
translated by 谷歌翻译
法律文件是非结构化的,使用法律术语,并且具有相当长的长度,使得难以通过传统文本处理技术自动处理。如果文档可以在语义上分割成连贯的信息单位,法律文件处理系统将基本上受益。本文提出了一种修辞职位(RR)系统,用于将法律文件分组成语义连贯的单位:事实,论点,法规,问题,先例,裁决和比例。在法律专家的帮助下,我们提出了一套13个细粒度的修辞标志标签,并创建了与拟议的RR批发的新的法律文件有条件。我们开发一个系统,以将文件分段为修辞职位单位。特别是,我们开发了一种基于多任务学习的深度学习模型,文档修辞角色标签作为分割法律文件的辅助任务。我们在广泛地尝试各种深度学习模型,用于预测文档中的修辞角色,并且所提出的模型对现有模型显示出卓越的性能。此外,我们应用RR以预测法律案件的判断,并表明与基于变压器的模型相比,使用RR增强了预测。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
对科学论文的海报生成问题受到了调查。海报通常呈现最重要的文件信息,并且任务可以被视为文档摘要的特殊形式。以前的研究主要关注海报布局和面板组成,同时忽略内容提取的重要性。此外,他们的数据集不公开,阻碍了进一步的研究。在本文中,我们从划痕到此任务构造基准数据集。然后,我们提出了一个三步框架来解决这项任务并专注于本研究中的内容提取步骤。为了获得海报面板的两种文本和可视元素,建议同时提取纸张部分的文本,图和表格。我们对数据集进行实验,并进行消融研究。结果证明了我们提出的模型的功效。数据集和代码将被释放。
translated by 谷歌翻译
随着诸如播客的长形话语内容的数量,许多平台希望从完整内容中提取短,有意义的和逻辑上相干段。这些段可以通过用户消耗以在潜水前进行采样内容,以及平台使用以推广和推荐内容。然而,很少发布的工作主要集中在话语内容的分割中,其中自动语音识别(ASR)服务生成的成绩单中的错误(噪声)构成了许多挑战。在这里,我们构建了400多个播客剧集的完整转录的新型数据集,其中我们标记了每个集中的介绍的位置。这些介绍包含有关剧集主题,主机和客人的信息,提供了剧集内容的有价值的摘要,因为它由作者创建。我们进一步使用Word替换增强了我们的数据集以增加可用培训数据的数量。我们根据预先训练的BERT和不同的增强策略训练三种变压器模型,与静态嵌入模型相比,实现了明显更好的性能,表明可以从嘈杂,松散组织的演讲中捕获广义的大规模结构信息数据。通过对模型的内部架构的分析进一步证明了这一点。我们的方法和数据集可用于促进未来的工作基于结构的出言内容的分割。
translated by 谷歌翻译
新闻文章修订历史为新闻文章中的叙事和事实演变提供了线索。为了促进对这一进化的分析,我们介绍了新闻修订历史记录的第一个公开可用的数据集。我们的数据集是大规模和多语言的;它包含120万篇文章,其中有460万款来自三个国家 /地区的英语和法语报纸来源,涵盖了15年的报道(2006 - 2021年)。我们定义文章级的编辑操作:加法,删除,编辑和重构,并开发高准确性提取算法以识别这些动作。为了强调许多编辑操作的事实性质,我们进行的分析表明,添加和删除的句子更可能包含更新事件,主要内容和报价,而不是不变的句子。最后,为了探索编辑操作是否可以预测,我们介绍了三个旨在预测版本更新过程中执行的动作的新任务。我们表明,这些任务对于人类专业而言是可能的,但对于大型NLP模型而言,这些任务具有挑战性。我们希望这可以刺激叙事框架的研究,并为追逐突发新闻的记者提供预测工具。
translated by 谷歌翻译
包含布尔问题的现有数据集(如Booolq和Tydi QA)为用户提供对问题的是/否响应。然而,一个单词响应不足以可说明的系统。我们通过释放一组标记现有TYDI QA和Booolq数据集的证据的新辅助来促进解释性。我们表明,与依赖现有资源的模型相比,我们的注释可用于培训提取改进证据跨度的模型。我们通过用户学习确认我们的调查结果表明我们提取的证据涵盖了增强用户体验。我们还提供进一步了解回答布尔问题的挑战,例如包含冲突的是和无答案的段落,以及预测证据的不同程度。
translated by 谷歌翻译
随着互联网技术的发展,信息超载现象变得越来越明显。用户需要花费大量时间来获取所需的信息。但是,汇总文档信息的关键词非常有助于用户快速获取和理解文档。对于学术资源,大多数现有研究通过标题和摘要提取关键纸张。我们发现引用中的标题信息还包含作者分配的密钥次。因此,本文使用参考信息并应用两种典型的无监督的提取方法(TF * IDF和Textrank),两个代表传统监督学习算法(NA \“IVE贝叶斯和条件随机场)和监督的深度学习模型(Bilstm- CRF),分析参考信息对关键症提取的具体性能。从扩大源文本的角度来提高关键术识别的质量。实验结果表明,参考信息可以提高精度,召回和F1自动关键肾上腺瓶在一定程度上提取。这表明了参考信息关于学术论文的关键症提取的有用性,并为以下关于自动关键正萃取的研究提供了新的想法。
translated by 谷歌翻译
在这项工作中,我们介绍了BBC-oxford英国手语(Bobsl)数据集,这是英国手语的大规模视频集合(BSL)。Bobsl是一个基于以前工作中引入的BSL-1K数据集的扩展和公开发布的数据集。我们描述了数据集的动机,以及统计和可用注释。我们进行实验,为标志识别,手语对齐和手语翻译的任务提供基线。最后,我们从机器学习和语言学的角度描述了数据的几个优势和局限,注意数据集中存在的偏差源,并在手语技术背景下讨论Bobsl的潜在应用。数据集可在https://www.robots.ox.ac.uk/~vgg/data/bobsl/处获得。
translated by 谷歌翻译
Nowadays, time-stamped web documents related to a general news query floods spread throughout the Internet, and timeline summarization targets concisely summarizing the evolution trajectory of events along the timeline. Unlike traditional document summarization, timeline summarization needs to model the time series information of the input events and summarize important events in chronological order. To tackle this challenge, in this paper, we propose a Unified Timeline Summarizer (UTS) that can generate abstractive and extractive timeline summaries in time order. Concretely, in the encoder part, we propose a graph-based event encoder that relates multiple events according to their content dependency and learns a global representation of each event. In the decoder part, to ensure the chronological order of the abstractive summary, we propose to extract the feature of event-level attention in its generation process with sequential information remained and use it to simulate the evolutionary attention of the ground truth summary. The event-level attention can also be used to assist in extracting summary, where the extracted summary also comes in time sequence. We augment the previous Chinese large-scale timeline summarization dataset and collect a new English timeline dataset. Extensive experiments conducted on these datasets and on the out-of-domain Timeline 17 dataset show that UTS achieves state-of-the-art performance in terms of both automatic and human evaluations.
translated by 谷歌翻译
时间轴提供了最有效的方法之一,可以看到一段时间内发生的重要历史事实,从而呈现出从文本形式阅读等效信息的见解。通过利用生成的对抗性学习进行重要的句子分类,并通过吸收基于知识的标签来改善事件核心分辨率的性能,我们从多个(历史)文本文档中引入了两个分阶段的事件时间表生成的系统。我们在两个手动注释的历史文本文档上演示了我们的结果。我们的结果对历史学家,推进历史研究以及理解一个国家的社会政治格局的研究对历史学家来说非常有帮助。
translated by 谷歌翻译