实体联系面临着重大的挑战,例如多产的变化和普遍的歧义,特别是在具有无数实体的高价值领域。标准分类方法遭受注释瓶颈,无法有效处理看不见的实体。零拍实体链接已成为概括的方向,以概括新实体,但它仍然需要在所有实体的培训和规范描述期间提到示例,这两者都很少在维基百科外面可用。在本文中,我们通过利用易于提供的域知识来探索实体链接的知识丰富的自我监督($ \ tt kriss $)。在培训中,它会使用域本体进行未标记的文本生成自我监控的提到示例,并使用对比学习列举一个上下文编码器。出于推理,它将自我监督的提到作为每个实体的原型,并通过将测试提及映射到最相似的原型来进行链接。我们的方法归入零拍摄和少量拍摄方法,并且可以轻松地包含实体说明和黄金如果可用的标签。使用Biomedicine作为案例研究,我们对跨越生物医学文献和临床票据的七个标准数据集进行了广泛的实验。不使用任何标记信息,我们的方法为400万UMLS实体提供$ \ TT Krissbert $,这是一个Uncer Intity Linker,它可以获得新的艺术状态,优先于先前的自我监督方法,高度为20多个绝对点。
translated by 谷歌翻译
实体链接旨在将模棱两可的提及与知识库中的相应实体联系起来,这对于各种下游应用程序是重要的,例如知识库完成,问题答案和信息提取。尽管已经致力于这项任务,但这些研究中的大多数遵循以下假设,即可以使用大规模标记的数据。但是,当由于劳动密集型注释工作而导致的标记数据不足以针对特定领域时,现有算法的性能将遭受无法忍受的下降。在本文中,我们努力解决了几个弹药实体链接的问题,这只需要最少的标记数据,并且在实际情况下更为实用。具体而言,我们首先提出了一种新颖的弱监督策略,以基于提及的重写生成非平凡的合成实体对。由于合成数据的质量对有效的模型训练有关键的影响,因此我们进一步设计了一种元学习机制,以自动为每个合成实体对分配不同的权重。通过这种方式,我们可以深刻利用丰富而宝贵的语义信息,从而在几个射击设置下得出训练有素的实体链接模型。现实世界数据集上的实验表明,所提出的方法可以广泛改善最新的几杆实体链接模型,并在只有少量标记的数据可用时实现令人印象深刻的性能。此外,我们还展示了模型可传递性的出色能力。
translated by 谷歌翻译
我们介绍了精致的,这是一种有效的端到端实体链接模型,该模型使用精细的实体类型和实体描述来执行链接。该模型执行提及的检测,细粒实体键入以及单个向前传球中文档中所有提及的实体歧义,使其比现有方法快60倍以上。精制还超过了标准实体链接数据集的最先进性能,平均比3.7 F1。该模型能够将其推广到大规模的知识库,例如Wikidata(其实体是Wikipedia的15倍)和零拍的实体链接。速度,准确性和规模的结合使精制成为从网络规模数据集中提取实体的有效且具有成本效益的系统,该数据集已成功部署该模型。我们的代码和预培训模型可在https://github.com/alexa/refined上找到
translated by 谷歌翻译
实体链接(EL)是将实体提及在文本中及其相应实体中出现在知识库中的过程。通常基于Wikipedia估算实体的EL特征(例如,先前的概率,相关性评分和实体嵌入)。但是,对于刚刚在新闻中发现的新兴实体(EES)而言,它们可能仍未包含在Wikipedia中。结果,它无法获得Wikipedia和EL模型的EES所需的EL功能,将始终无法将歧义提及与这些EES正确链接,因为它没有其EL功能。为了解决这个问题,在本文中,我们专注于以一般方式为新兴实体学习EL功能的新任务。我们提出了一种名为Stamo的新颖方法,可以自动学习EES的高质量EL功能,该功能仅需要从网络中收集的每个EE的少数标记文档,因为它可以进一步利用隐藏在未标记的数据中的知识。 Stamo主要基于自我训练,这使其与任何EL功能或EL模型都灵活地集成在一起,但也使其很容易遭受由错误标签的数据引起的错误加强问题。我们认为自我训练是相对于EES的EL特征,而不是一些试图将错误标签的数据抛弃的常见自我训练策略,而是提出了内部插槽和斜率优化的多重优化过程,以减轻误差加强问题隐含。我们构建了涉及选定的EE的两个EL数据集,以评估EES获得的EL特征的质量,实验结果表明,我们的方法显着优于其他学习EL特征的基线方法。
translated by 谷歌翻译
我们为指定实体识别(NER)提出了一个有效的双重编码框架,该框架将对比度学习用于映射候选文本跨度,并将实体类型映射到同一矢量表示空间中。先前的工作主要将NER作为序列标记或跨度分类。相反,我们将NER视为一个度量学习问题,它最大程度地提高了实体提及的向量表示之间的相似性及其类型。这使得易于处理嵌套和平坦的ner,并且可以更好地利用嘈杂的自我诉讼信号。 NER对本双重编码器制定的主要挑战在于将非实体跨度与实体提及分开。我们没有明确标记所有非实体跨度为外部(O)与大多数先前方法相同的类别(O),而是引入了一种新型的动态阈值损失,这与标准的对比度损失一起学习。实验表明,我们的方法在受到监督和远处有监督的设置中的表现良好(例如,Genia,NCBI,BC5CDR,JNLPBA)。
translated by 谷歌翻译
Word embeddings play a significant role in today's Natural Language Processing tasks and applications. While pre-trained models may be directly employed and integrated into existing pipelines, they are often fine-tuned to better fit with specific languages or domains. In this paper, we attempt to improve available embeddings in the uncovered niche of the Italian medical domain through the combination of Contrastive Learning (CL) and Knowledge Graph Embedding (KGE). The main objective is to improve the accuracy of semantic similarity between medical terms, which is also used as an evaluation task. Since the Italian language lacks medical texts and controlled vocabularies, we have developed a specific solution by combining preexisting CL methods (multi-similarity loss, contextualization, dynamic sampling) and the integration of KGEs, creating a new variant of the loss. Although without having outperformed the state-of-the-art, represented by multilingual models, the obtained results are encouraging, providing a significant leap in performance compared to the starting model, while using a significantly lower amount of data.
translated by 谷歌翻译
现代实体链接(EL)系统构成了流行偏见,但是没有数据集以英语以外的其他语言上关注尾巴和新兴实体。我们向Hansel展示了中国人的新基准,它填补了非英国几乎没有射击和零击EL挑战的空缺。Hansel的测试集经过人工注释和审查,并采用了一种用于收集零照片EL数据集的新方法。它涵盖了新闻,社交媒体帖子和其他网络文章中的10k多种文档,Wikidata作为目标知识库。我们证明,现有的最新EL系统在Hansel上的表现不佳(R@1中的36.6%,几乎没有射击)。然后,我们建立了一个强大的基线,该基线在我们的数据集上的零射门上为46.2%的R@1分之1。我们还表明,我们的基线在TAC-KBP2015中国实体链接任务上取得了竞争成果。
translated by 谷歌翻译
从学术文章中自动提取资金信息为行业和研究社区增添了重要价值,例如基于收到的资金进行资助组织,研究人员和大学的研究成果,并支持开放访问政策。识别和链接资金实体的两个主要挑战是:(i)知识库(KB)的稀疏图结构,这使得基于图的常用实体链接方法的资金域链接方法,(ii)KB中的缺失实体,这(与最近的零拍方法不同)需要标记实体提及没有KB条目为零。我们提出了一个可以执行零预测并克服数据稀缺问题的实体链接模型。我们的模型建立在基于变压器的提及检测和双重编码模型的基础上,以执行实体链接。我们表明,我们的模型表现优于现有基线。
translated by 谷歌翻译
我们提出了将事件链接到知识库的多语言链接的任务。我们会自动编译一个针对此任务的大型数据集,包括180万个涉及Wikidata超过10.9k事件的44种语言提及。我们提出了事件链接任务的两个变体:1)多语言,其中事件描述来自与提及的语言相同的语言,以及2)交叉语言,其中所有事件描述均以英语为单位。在提出的两个任务上,我们比较了包括BM25+(LV和Zhai,2011年)在内的多个事件链接系统以及Blink(Wu等,2020)的Biencoder和Crossencoder体系结构的多语言改编。在我们对两个任务变体的实验中,我们发现Biencoder和Crossencoder模型均显着优于BM25+基线。我们的结果还表明,跨语言任务通常比多语言任务更具挑战性。为了测试所提出的链接系统的室外概括,我们还创建了基于Wikinews的评估集。我们提出了定性分析,强调了拟议数据集捕获的各个方面,包括需要在上下文上进行时间推理并解决跨语言的各种事件描述。
translated by 谷歌翻译
机器学习方法尤其是深度神经网络取得了巨大的成功,但其中许多往往依赖于一些标记的样品进行训练。在真实世界的应用中,我们经常需要通过例如具有新兴预测目标和昂贵的样本注释的动态上下文来解决样本短缺。因此,低资源学习,旨在学习具有足够资源(特别是培训样本)的强大预测模型,现在正在被广泛调查。在所有低资源学习研究中,许多人更喜欢以知识图(kg)的形式利用一些辅助信息,这对于知识表示变得越来越受欢迎,以减少对标记样本的依赖。在这项调查中,我们非常全面地审查了90美元的报纸关于两个主要的低资源学习设置 - 零射击学习(ZSL)的预测,从未出现过训练,而且很少拍摄的学习(FSL)预测的新类仅具有可用的少量标记样本。我们首先介绍了ZSL和FSL研究中使用的KGS以及现有的和潜在的KG施工解决方案,然后系统地分类和总结了KG感知ZSL和FSL方法,将它们划分为不同的范例,例如基于映射的映射,数据增强,基于传播和基于优化的。我们接下来呈现了不同的应用程序,包括计算机视觉和自然语言处理中的kg增强预测任务,还包括kg完成的任务,以及每个任务的一些典型评估资源。我们最终讨论了一些关于新学习和推理范式的方面的一些挑战和未来方向,以及高质量的KGs的建设。
translated by 谷歌翻译
命名实体识别(ner)是从文本中提取特定类型的命名实体的任务。当前的NER模型往往依赖于人类注释的数据集,要求在目标领域和实体上广泛参与专业知识。这项工作介绍了一个询问生成的方法,它通过询问反映实体类型的需求的简单自然语言问题来自动生成NER数据集(例如,哪种疾病?)到开放式域问题应答系统。不使用任何域中资源(即,培训句子,标签或域名词典),我们的模型在我们生成的数据集上仅培训了,这在很大程度上超过了四个不同域的六个基准测试的弱势监督模型。令人惊讶的是,在NCBI疾病中,我们的模型达到75.5 F1得分,甚至优于以前的最佳弱监督模型4.1 F1得分,它利用域专家提供的丰富的域名词典。制定具有自然语言的NER的需求,也允许我们为诸如奖项等细粒度实体类型构建NER模型,其中我们的模型甚至优于完全监督模型。在三个少量的NER基准测试中,我们的模型实现了新的最先进的性能。
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译
我们提出了一种基于实例的最近的邻居方法与实体链接。与大多数先前的实体检索系统相反,它代表每个实体都用单个向量代表每个实体,我们构建了一个上下文化的提及编码器,该系统学会学会在向量空间中更接近同一实体的相似提及,而不是对不同实体的提及。这种方法使一个实体的所有提及都可以用作“类原型”,因为推理涉及从训练集中的完整标记实体提及并应用最近提及的邻居的实体标签中检索。我们的模型经过了来自Wikipedia超链接的大型多语种对,并在7亿个提及的指数上执行最近的邻居推断。训练,提供更容易解释的预测,并在两个多语言实体上链接基准测试的所有其他系统都更简单。
translated by 谷歌翻译
Event extraction (EE) is the task of identifying interested event mentions from text. Conventional efforts mainly focus on the supervised setting. However, these supervised models cannot generalize to event types out of the pre-defined ontology. To fill this gap, many efforts have been devoted to the zero-shot EE problem. This paper follows the trend of modeling event-type semantics but moves one step further. We argue that using the static embedding of the event type name might not be enough because a single word could be ambiguous, and we need a sentence to define the type semantics accurately. To model the definition semantics, we use two separate transformer models to project the contextualized event mentions and corresponding definitions into the same embedding space and then minimize their embedding distance via contrastive learning. On top of that, we also propose a warming phase to help the model learn the minor difference between similar definitions. We name our approach Zero-shot Event extraction with Definition (ZED). Experiments on the MAVEN dataset show that our model significantly outperforms all previous zero-shot EE methods with fast inference speed due to the disjoint design. Further experiments also show that ZED can be easily applied to the few-shot setting when the annotation is available and consistently outperforms baseline supervised methods.
translated by 谷歌翻译
临床试验对于药物开发至关重要,但非常昂贵且耗时。在设计临床试验时,研究类似的历史试验是有益的。但是,冗长的试用文件和缺乏标记的数据使试验相似性搜索变得困难。我们提出了一种零拍的临床试验检索方法试验2VEC,该方法通过自学知识学习而无需注释类似的临床试验。具体而言,试验文件的元结构(例如,标题,资格标准,目标疾病)以及临床知识(例如,UMLS知识库https://www.nlm.nih.gov/research/umls/inmls/index.html)被杠杆化以自动生成对比样品。此外,Trial2VEC编码考虑元结构的试验文件,从而产生紧凑的嵌入,从而从整个文档中汇总了多相关信息。我们表明,我们的方法通过可视化产生了可解释的医学解释的嵌入,并且在试验检索的精确/召回率上的最佳基线比最佳基线得到15%的改善,这是在我们标记的1600个试验对中评估的。此外,我们证明预先训练的嵌入在240K试验中受益于下游试验结果预测任务。
translated by 谷歌翻译
计算文本表型是从临床注释中鉴定出患有某些疾病和特征的患者的实践。由于很少有用于机器学习的案例和域专家的数据注释需求,因此难以识别的罕见疾病要确定。我们提出了一种使用本体论和弱监督的方法,并具有来自双向变压器(例如BERT)的最新预训练的上下文表示。基于本体的框架包括两个步骤:(i)文本到umls,通过上下文将提及与统一医学语言系统(UMLS)中的概念链接到命名的实体识别和链接(NER+L)工具,SemeHR中提取表型。 ,以及具有自定义规则和上下文提及表示的弱监督; (ii)UMLS-to-to-ordo,将UMLS概念与孤子罕见疾病本体论(ORDO)中的罕见疾病相匹配。提出了弱监督的方法来学习一个表型确认模型,以改善链接的文本对umls,而没有域专家的注释数据。我们评估了来自美国和英国两个机构的三个出院摘要和放射学报告的临床数据集的方法。我们最好的弱监督方法获得了81.4%的精度和91.4%的召回,从模仿III出院摘要中提取罕见疾病UMLS表型。总体管道处理临床笔记可以表面罕见疾病病例,其中大部分在结构化数据(手动分配的ICD代码)中没有受到平衡。关于模仿III和NHS Tayside的放射学报告的结果与放电摘要一致。我们讨论了弱监督方法的有用性,并提出了未来研究的方向。
translated by 谷歌翻译
由于看不见和新兴实体的频率,新闻中的命名实体链接(NEL)是一项具有挑战性的努力,因此需要使用无监督或零摄像的方法。但是,这种方法往往会带来警告,例如不整合新兴实体的合适知识库(例如Wikidata),缺乏可扩展性和不良的可解释性。在这里,我们考虑在Quotebank中的人歧义,这是新闻中大量的说话者归类的语言,并调查了NEL在网络规模的语料库中直观,轻巧且可扩展的启发式方法的适用性。我们表现最好的启发式歧义分别在Quotebank和Aida-Conll基准上分别占94%和63%。此外,提出的启发式方法与最先进的无监督和零摄像方法,本本系和MGenRE相比,从而成为无监督和零照片实体链接的强基础。
translated by 谷歌翻译
Relation extraction (RE), which has relied on structurally annotated corpora for model training, has been particularly challenging in low-resource scenarios and domains. Recent literature has tackled low-resource RE by self-supervised learning, where the solution involves pretraining the relation embedding by RE-based objective and finetuning on labeled data by classification-based objective. However, a critical challenge to this approach is the gap in objectives, which prevents the RE model from fully utilizing the knowledge in pretrained representations. In this paper, we aim at bridging the gap and propose to pretrain and finetune the RE model using consistent objectives of contrastive learning. Since in this kind of representation learning paradigm, one relation may easily form multiple clusters in the representation space, we further propose a multi-center contrastive loss that allows one relation to form multiple clusters to better align with pretraining. Experiments on two document-level RE datasets, BioRED and Re-DocRED, demonstrate the effectiveness of our method. Particularly, when using 1% end-task training data, our method outperforms PLM-based RE classifier by 10.5% and 5.8% on the two datasets, respectively.
translated by 谷歌翻译
由于缺乏标记的数据和高注释成本,需要域专家,生物医学领域中的关系提取具有挑战性。远处的监督通常用于通过将知识图与原始文本配对,以解决带注释数据的稀缺性。这样的管道容易出现噪声,并且为涵盖大量生物医学概念的规模增加了挑战。我们研究了现有的远覆盖范围远处监督的生物医学关系提取基准,发现培训和测试关系之间的重叠范围从26%到86%。此外,我们注意到这些基准的数据构建过程中的几个不一致,并且在没有火车测试泄漏的情况下,重点是较窄的实体类型之间的相互作用。这项工作提出了更准确的基准MEDDISTANT19,用于远距离覆盖的远距离监督的生物医学关系提取,以解决这些缺点,并通过将MEDLINE摘要与广泛使用的Snomed Snomed临床术语进行对齐。缺乏针对领域特异性语言模型的彻底评估,我们还进行了实验,以验证一般领域关系提取结果与生物医学关系提取。
translated by 谷歌翻译
Visual Entity Linking (VEL) is a task to link regions of images with their corresponding entities in Knowledge Bases (KBs), which is beneficial for many computer vision tasks such as image retrieval, image caption, and visual question answering. While existing tasks in VEL either rely on textual data to complement a multi-modal linking or only link objects with general entities, which fails to perform named entity linking on large amounts of image data. In this paper, we consider a purely Visual-based Named Entity Linking (VNEL) task, where the input only consists of an image. The task is to identify objects of interest (i.e., visual entity mentions) in images and link them to corresponding named entities in KBs. Since each entity often contains rich visual and textual information in KBs, we thus propose three different sub-tasks, i.e., visual to visual entity linking (V2VEL), visual to textual entity linking (V2TEL), and visual to visual-textual entity linking (V2VTEL). In addition, we present a high-quality human-annotated visual person linking dataset, named WIKIPerson. Based on WIKIPerson, we establish a series of baseline algorithms for the solution of each sub-task, and conduct experiments to verify the quality of proposed datasets and the effectiveness of baseline methods. We envision this work to be helpful for soliciting more works regarding VNEL in the future. The codes and datasets are publicly available at https://github.com/ict-bigdatalab/VNEL.
translated by 谷歌翻译