理解文章需要了解其成分事件。但是,所提到事件的上下文通常缺乏此事件的细节。然后,除了上下文之外,我们还可以在哪里获得更多关于这种特定事件的知识?这项工作定义了事件链接,在事件级别的新自然语言理解任务。事件链接尝试链接事件提及,例如在新闻文章中出现,例如,最合适的维基百科页面。该页面预计将提供有关事件所指的丰富知识。为了标准化对这一新问题的研究,我们的贡献三折。首先,这是社区中的第一个工作,它正式定义事件链接任务。其次,我们为此新任务收集一个数据集。具体而言,我们首先从维基百科自动收集培训设置,然后创建两个评估集:一个来自维基百科域的域,报告域中的性能;另一个来自真实世界新闻域,测试域外的性能。第三,我们提出Evelink,首先是事件连接方法。总体而言,事件链接是一个很大的具有挑战性的任务,需要更多来自社区的努力。数据和代码可在此处提供:https://github.com/cogcomp/event-linking。
translated by 谷歌翻译
我们提出了将事件链接到知识库的多语言链接的任务。我们会自动编译一个针对此任务的大型数据集,包括180万个涉及Wikidata超过10.9k事件的44种语言提及。我们提出了事件链接任务的两个变体:1)多语言,其中事件描述来自与提及的语言相同的语言,以及2)交叉语言,其中所有事件描述均以英语为单位。在提出的两个任务上,我们比较了包括BM25+(LV和Zhai,2011年)在内的多个事件链接系统以及Blink(Wu等,2020)的Biencoder和Crossencoder体系结构的多语言改编。在我们对两个任务变体的实验中,我们发现Biencoder和Crossencoder模型均显着优于BM25+基线。我们的结果还表明,跨语言任务通常比多语言任务更具挑战性。为了测试所提出的链接系统的室外概括,我们还创建了基于Wikinews的评估集。我们提出了定性分析,强调了拟议数据集捕获的各个方面,包括需要在上下文上进行时间推理并解决跨语言的各种事件描述。
translated by 谷歌翻译
我们介绍了精致的,这是一种有效的端到端实体链接模型,该模型使用精细的实体类型和实体描述来执行链接。该模型执行提及的检测,细粒实体键入以及单个向前传球中文档中所有提及的实体歧义,使其比现有方法快60倍以上。精制还超过了标准实体链接数据集的最先进性能,平均比3.7 F1。该模型能够将其推广到大规模的知识库,例如Wikidata(其实体是Wikipedia的15倍)和零拍的实体链接。速度,准确性和规模的结合使精制成为从网络规模数据集中提取实体的有效且具有成本效益的系统,该数据集已成功部署该模型。我们的代码和预培训模型可在https://github.com/alexa/refined上找到
translated by 谷歌翻译
我们呈现了名字,一个从英语维基百科和新闻文章中获得的暧昧名称的实体的数据集。它由4148个独特实体的58862提到和他们的名称:来自News的1000个提到,来自Wikipedia关于实体的文章28843,以及29019维基百科反向链接提到。名称应该有助于为命名实体链接的任务建立具有挑战性的基准(NEL)。
translated by 谷歌翻译
现代实体链接(EL)系统构成了流行偏见,但是没有数据集以英语以外的其他语言上关注尾巴和新兴实体。我们向Hansel展示了中国人的新基准,它填补了非英国几乎没有射击和零击EL挑战的空缺。Hansel的测试集经过人工注释和审查,并采用了一种用于收集零照片EL数据集的新方法。它涵盖了新闻,社交媒体帖子和其他网络文章中的10k多种文档,Wikidata作为目标知识库。我们证明,现有的最新EL系统在Hansel上的表现不佳(R@1中的36.6%,几乎没有射击)。然后,我们建立了一个强大的基线,该基线在我们的数据集上的零射门上为46.2%的R@1分之1。我们还表明,我们的基线在TAC-KBP2015中国实体链接任务上取得了竞争成果。
translated by 谷歌翻译
由于看不见和新兴实体的频率,新闻中的命名实体链接(NEL)是一项具有挑战性的努力,因此需要使用无监督或零摄像的方法。但是,这种方法往往会带来警告,例如不整合新兴实体的合适知识库(例如Wikidata),缺乏可扩展性和不良的可解释性。在这里,我们考虑在Quotebank中的人歧义,这是新闻中大量的说话者归类的语言,并调查了NEL在网络规模的语料库中直观,轻巧且可扩展的启发式方法的适用性。我们表现最好的启发式歧义分别在Quotebank和Aida-Conll基准上分别占94%和63%。此外,提出的启发式方法与最先进的无监督和零摄像方法,本本系和MGenRE相比,从而成为无监督和零照片实体链接的强基础。
translated by 谷歌翻译
确定多个文档的概念提及的练习是自然语言理解中的基本任务。以前关于跨文档Coreference解析(CDCR)的工作通常会考虑新闻中的事件提到,这很少涉及普遍存在的科学和技术的技术概念。这些复杂的概念采用不同的形式或含糊不清的形式,并且具有许多分层级别的粒度(例如,任务和子组织),构成了CDCR的挑战。我们呈现了分层CDCR(H-CDCR)的新任务,其目标是在它们之间联合推断COREREFER集群和层次结构。我们在科学论文中创建SciCo,一个专家注释的H-CDCR数据集,比突出的欧洲ecb +资源大3倍。我们研究了我们为H-CDCR定制的强大基线模型,并突出了未来工作的挑战。
translated by 谷歌翻译
实体消除歧义(ED)是实体链接(EL)的最后一步,当候选实体根据它们出现的上下文重新登录。所有数据集,用于培训和评估EL的模型,包括方便样本,如新闻文章和推文,将实体分布的现有概率偏置传播到更频繁发生的实体。前面表明,在这种数据集上的EL系统的性能高估,因为可以通过仅仅在学习之前获得更高的精度分数。为了提供更具足够的评估基准,我们介绍了ShadowLink数据集,其中包括16K短文本代码段,其中包含实体提出。我们评估并报告在Shadowlink基准上的流行EL系统的表现。结果表明,在评估中所有EL系统的越来越少的常见实体之间的准确性差异相当差异,证明了现有概率偏差和实体的效果。
translated by 谷歌翻译
实体歧义(ED)的最新工作通常忽略了结构性知识库(KB)事实,而是依靠有限的KB信息子集,例如实体描述或类型。这限制了实体可以消除歧义的环境范围。为了允许使用所有KB事实以及描述和类型,我们介绍了一个ED模型,该模型通过以完全可区分的方式通过符号知识基础来链接实体。我们的型号平均超过了六个良好的ED数据集的最新基线。通过允许访问所有KB信息,我们的模型较少依赖于基于流行的实体先验,并提高了具有挑战性的Shadowlink数据集(强调不频繁和模棱两可的实体)的性能12.7 F1。
translated by 谷歌翻译
实体链接(EL)是将实体提及在文本中及其相应实体中出现在知识库中的过程。通常基于Wikipedia估算实体的EL特征(例如,先前的概率,相关性评分和实体嵌入)。但是,对于刚刚在新闻中发现的新兴实体(EES)而言,它们可能仍未包含在Wikipedia中。结果,它无法获得Wikipedia和EL模型的EES所需的EL功能,将始终无法将歧义提及与这些EES正确链接,因为它没有其EL功能。为了解决这个问题,在本文中,我们专注于以一般方式为新兴实体学习EL功能的新任务。我们提出了一种名为Stamo的新颖方法,可以自动学习EES的高质量EL功能,该功能仅需要从网络中收集的每个EE的少数标记文档,因为它可以进一步利用隐藏在未标记的数据中的知识。 Stamo主要基于自我训练,这使其与任何EL功能或EL模型都灵活地集成在一起,但也使其很容易遭受由错误标签的数据引起的错误加强问题。我们认为自我训练是相对于EES的EL特征,而不是一些试图将错误标签的数据抛弃的常见自我训练策略,而是提出了内部插槽和斜率优化的多重优化过程,以减轻误差加强问题隐含。我们构建了涉及选定的EE的两个EL数据集,以评估EES获得的EL特征的质量,实验结果表明,我们的方法显着优于其他学习EL特征的基线方法。
translated by 谷歌翻译
Event Detection (ED) is the task of identifying and classifying trigger words of event mentions in text. Despite considerable research efforts in recent years for English text, the task of ED in other languages has been significantly less explored. Switching to non-English languages, important research questions for ED include how well existing ED models perform on different languages, how challenging ED is in other languages, and how well ED knowledge and annotation can be transferred across languages. To answer those questions, it is crucial to obtain multilingual ED datasets that provide consistent event annotation for multiple languages. There exist some multilingual ED datasets; however, they tend to cover a handful of languages and mainly focus on popular ones. Many languages are not covered in existing multilingual ED datasets. In addition, the current datasets are often small and not accessible to the public. To overcome those shortcomings, we introduce a new large-scale multilingual dataset for ED (called MINION) that consistently annotates events for 8 different languages; 5 of them have not been supported by existing multilingual datasets. We also perform extensive experiments and analysis to demonstrate the challenges and transferability of ED across languages in MINION that in all call for more research effort in this area.
translated by 谷歌翻译
尽管传记在语义网络中广泛传播,但自动提取传记事件的资源和方法受到限制。这种限制减少了结构化的,可读的传记信息的数量,尤其是关于属于代表性不足的人的人的数量。我们的工作通过为生活事件的语义注释提供一组准则来挑战这一限制。该准则旨在与现有的ISO语义注释标准可互操作:ISO-TIMEML(ISO-24617-1)和SEMAF(ISO-24617-4)。通过代表不足的作家的维基百科传记的注释任务,即非西方国家,移民或属于少数民族的作者,对准则进行了测试。 4个注释者注释了1,000个句子,平均通知者协议为0.825。由此产生的语料库被映射在Ontonotes上。这样的映射允许扩展我们的语料库,表明已经存在现有资源可以用于传记事件提取任务。
translated by 谷歌翻译
The widely studied task of Natural Language Inference (NLI) requires a system to recognize whether one piece of text is textually entailed by another, i.e. whether the entirety of its meaning can be inferred from the other. In current NLI datasets and models, textual entailment relations are typically defined on the sentence- or paragraph-level. However, even a simple sentence often contains multiple propositions, i.e. distinct units of meaning conveyed by the sentence. As these propositions can carry different truth values in the context of a given premise, we argue for the need to recognize the textual entailment relation of each proposition in a sentence individually. We propose PropSegmEnt, a corpus of over 35K propositions annotated by expert human raters. Our dataset structure resembles the tasks of (1) segmenting sentences within a document to the set of propositions, and (2) classifying the entailment relation of each proposition with respect to a different yet topically-aligned document, i.e. documents describing the same event or entity. We establish strong baselines for the segmentation and entailment tasks. Through case studies on summary hallucination detection and document-level NLI, we demonstrate that our conceptual framework is potentially useful for understanding and explaining the compositionality of NLI labels.
translated by 谷歌翻译
链接的语音实体旨在识别和消除语言中的命名实体。常规方法严重遭受了不受限制的语音样式和ASR系统产生的嘈杂笔录。在本文中,我们提出了一种名为“知识增强命名实体识别”(KENER)的新颖方法,该方法致力于通过在实体识别阶段无痛地纳入适当的知识来改善鲁棒性,从而改善实体联系的整体性能。肯纳(Kener)首先检索未提及的句子的候选实体,然后利用实体描述作为额外的信息来帮助识别提及。当输入短或嘈杂时,由密集检索模块检索的候选实体特别有用。此外,我们研究了各种数据采样策略和设计有效的损失功能,以提高识别和歧义阶段中检索实体的质量。最后,将与过滤模块的链接作为最终保障措施应用,从而可以过滤出错误认可的提及。我们的系统在NLPCC-2022共享任务2的轨道1中获得第一名,并在轨道1中获得第一名。
translated by 谷歌翻译
Visual Entity Linking (VEL) is a task to link regions of images with their corresponding entities in Knowledge Bases (KBs), which is beneficial for many computer vision tasks such as image retrieval, image caption, and visual question answering. While existing tasks in VEL either rely on textual data to complement a multi-modal linking or only link objects with general entities, which fails to perform named entity linking on large amounts of image data. In this paper, we consider a purely Visual-based Named Entity Linking (VNEL) task, where the input only consists of an image. The task is to identify objects of interest (i.e., visual entity mentions) in images and link them to corresponding named entities in KBs. Since each entity often contains rich visual and textual information in KBs, we thus propose three different sub-tasks, i.e., visual to visual entity linking (V2VEL), visual to textual entity linking (V2TEL), and visual to visual-textual entity linking (V2VTEL). In addition, we present a high-quality human-annotated visual person linking dataset, named WIKIPerson. Based on WIKIPerson, we establish a series of baseline algorithms for the solution of each sub-task, and conduct experiments to verify the quality of proposed datasets and the effectiveness of baseline methods. We envision this work to be helpful for soliciting more works regarding VNEL in the future. The codes and datasets are publicly available at https://github.com/ict-bigdatalab/VNEL.
translated by 谷歌翻译
Extraction of financial and economic events from text has previously been done mostly using rule-based methods, with more recent works employing machine learning techniques. This work is in line with this latter approach, leveraging relevant Wikipedia sections to extract weak labels for sentences describing economic events. Whereas previous weakly supervised approaches required a knowledge-base of such events, or corresponding financial figures, our approach requires no such additional data, and can be employed to extract economic events related to companies which are not even mentioned in the training data.
translated by 谷歌翻译
Event Extraction (EE) is one of the fundamental tasks in Information Extraction (IE) that aims to recognize event mentions and their arguments (i.e., participants) from text. Due to its importance, extensive methods and resources have been developed for Event Extraction. However, one limitation of current research for EE involves the under-exploration for non-English languages in which the lack of high-quality multilingual EE datasets for model training and evaluation has been the main hindrance. To address this limitation, we propose a novel Multilingual Event Extraction dataset (MEE) that provides annotation for more than 50K event mentions in 8 typologically different languages. MEE comprehensively annotates data for entity mentions, event triggers and event arguments. We conduct extensive experiments on the proposed dataset to reveal challenges and opportunities for multilingual EE.
translated by 谷歌翻译
The coverage of different stakeholders mentioned in the news articles significantly impacts the slant or polarity detection of the concerned news publishers. For instance, the pro-government media outlets would give more coverage to the government stakeholders to increase their accessibility to the news audiences. In contrast, the anti-government news agencies would focus more on the views of the opponent stakeholders to inform the readers about the shortcomings of government policies. In this paper, we address the problem of stakeholder extraction from news articles and thereby determine the inherent bias present in news reporting. Identifying potential stakeholders in multi-topic news scenarios is challenging because each news topic has different stakeholders. The research presented in this paper utilizes both contextual information and external knowledge to identify the topic-specific stakeholders from news articles. We also apply a sequential incremental clustering algorithm to group the entities with similar stakeholder types. We carried out all our experiments on news articles on four Indian government policies published by numerous national and international news agencies. We also further generalize our system, and the experimental results show that the proposed model can be extended to other news topics.
translated by 谷歌翻译
我们提出了多语言数据集的Multiconer,用于命名实体识别,涵盖11种语言的3个域(Wiki句子,问题和搜索查询),以及多语言和代码混合子集。该数据集旨在代表NER中的当代挑战,包括低文字方案(简短和未添加的文本),句法复杂的实体(例如电影标题)和长尾实体分布。使用基于启发式的句子采样,模板提取和插槽以及机器翻译等技术,从公共资源中汇编了26M令牌数据集。我们在数据集上应用了两个NER模型:一个基线XLM-Roberta模型和一个最先进的Gemnet模型,该模型利用了Gazetteers。基线实现了中等的性能(Macro-F1 = 54%),突出了我们数据的难度。 Gemnet使用Gazetteers,显着改善(Macro-F1 =+30%的平均改善)。甚至对于大型预训练的语言模型,多功能人也会构成挑战,我们认为它可以帮助进一步研究建立强大的NER系统。 Multiconer可在https://registry.opendata.aws/multiconer/上公开获取,我们希望该资源将有助于推进NER各个方面的研究。
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译