知识图完成(又称〜链接预测),即〜从知识图推断缺失信息的任务是许多应用程序中广泛使用的任务,例如产品建议和问题答案。知识图嵌入和/或规则挖掘和推理的最新方法是数据驱动的,因此仅基于输入知识图所包含的信息。这导致了不令人满意的预测结果,这使得这种解决方案不适用于关键领域,例如医疗保健。为了进一步提高知识图完成的准确性,我们建议将知识图嵌入的数据驱动的能力与专家或累积制度(例如OWL2)引起的域特定于域的推理。通过这种方式,我们不仅使用可能不包含在输入知识图中的域知识增强了预测准确性,而且还允许用户插入自己的知识图嵌入和推理方法。我们的最初结果表明,我们通过最多3倍和优于混合解决方案来增强香草知识图嵌入的MRR准确性,这些溶液将知识图嵌入与规则挖掘和推理高达3.5倍MRR相结合。
translated by 谷歌翻译
知识图(KGS)代表作为三元组的事实已被广泛采用在许多应用中。 LIGHT预测和规则感应等推理任务对于KG的开发很重要。已经提出了知识图形嵌入式(KGES)将kg的实体和kg与持续向量空间的关系进行了建议,以获得这些推理任务,并被证明是有效和强大的。但在实际应用中申请和部署KGE的合理性和可行性尚未探索。在本文中,我们讨论并报告我们在真实域应用程序中部署KGE的经验:电子商务。我们首先为电子商务KG系统提供三个重要的探索者:1)注意推理,推理几个目标关系更为关注而不是全部; 2)解释,提供预测的解释,帮助用户和业务运营商理解为什么预测; 3)可转让规则,生成可重用的规则,以加速将千克部署到新系统。虽然非现有KGE可以满足所有这些DesiderATA,但我们提出了一种新颖的一种,可说明的知识图表注意网络,通过建模三元组之间的相关性而不是纯粹依赖于其头实体,关系和尾部实体嵌入来预测。它可以自动选择预测的注意力三倍,并同时记录它们的贡献,从该解释可以很容易地提供,可以有效地生产可转移规则。我们经验表明,我们的方法能够在我们的电子商务应用程序中满足所有三个DesiderATA,并从实际域应用程序中倾斜于数据集的典型基线。
translated by 谷歌翻译
学术知识图(KGS)提供了代表科学出版物编码的知识的丰富的结构化信息来源。随着出版的科学文学的庞大,包括描述科学概念的过多的非均匀实体和关系,这些公斤本质上是不完整的。我们呈现Exbert,一种利用预先训练的变压器语言模型来执行学术知识图形完成的方法。我们将知识图形的三元组模型为文本并执行三重分类(即,属于KG或不属于KG)。评估表明,在三重分类,链路预测和关系预测的任务中,Exbert在三个学术kg完成数据集中表现出其他基线。此外,我们将两个学术数据集作为研究界的资源,从公共公共公报和在线资源中收集。
translated by 谷歌翻译
本文介绍了$ \ mu \ text {kg} $,一个开源python库,用于在知识图上进行表示。 $ \ mu \ text {kg} $支持通过多源知识图(以及单个知识图),多个深度学习库(Pytorch和Tensorflow2),多个嵌入任务(链接预​​测,实体对准,实体键入,实体键入),支持联合表示。 ,以及多源链接预测)以及多个并行计算模式(多进程和多GPU计算)。它目前实现26个流行知识图嵌入模型,并支持16个基准数据集。 $ \ mu \ text {kg} $提供了具有不同任务的简化管道的嵌入技术的高级实现。它还带有高质量的文档,以易于使用。 $ \ mu \ text {kg} $比现有的知识图嵌入库更全面。它对于对各种嵌入模型和任务进行彻底比较和分析非常有用。我们表明,共同学习的嵌入可以极大地帮助知识驱动的下游任务,例如多跳知识图形答案。我们将与相关字段中的最新发展保持一致,并将其纳入$ \ mu \ text {kg} $中。
translated by 谷歌翻译
实体类型预测是知识图中的一个重要问题(kg)研究。在这项工作中提出了一种新的KG实体类型预测方法,名为Core(复杂的空间回归和嵌入)。所提出的核心方法利用两个复杂空间嵌入模型的表现力;即,旋转和复杂的模型。它使用旋转或复杂地将实体和类型嵌入两个不同的复杂空间中。然后,我们推导了一个复杂的回归模型来链接这两个空格。最后,介绍了一种优化嵌入和回归参数的机制。实验表明,核心优于代表性KG实体型推理数据集的基准测试方法。分析了各种实体型预测方法的强度和弱点。
translated by 谷歌翻译
知识图表(KGS)是真实世界事实的结构化表示,是融合人类知识的智能数据库,可以帮助机器模仿人类问题的方法。然而,由于快速迭代的性质以及数据的不完整,KGs通常是巨大的,并且在公斤上有不可避免的事实。对于知识图链接的预测是针对基于现有的知识推理来完成缺少事实的任务。广泛研究了两个主要的研究流:一个学习可以捕获潜在模式的实体和关系的低维嵌入,以及通过采矿逻辑规则的良好解释性。不幸的是,以前的研究很少关注异质的KG。在本文中,我们提出了一种将基于嵌入的学习和逻辑规则挖掘结合的模型,以推断在KG上。具体地,我们研究了从节点程度的角度涉及各种类型的实体和关系的异构kg中的缺失链接的问题。在实验中,我们证明了我们的DegreEmbed模型优于对现实世界的数据集的国家的最先进的方法。同时,我们模型开采的规则具有高质量和可解释性。
translated by 谷歌翻译
安全分析师在调查攻击,新兴的网络威胁或最近发现的漏洞后准备威胁分析。关于恶意软件攻击和广告系列的威胁情报在博客文章,报告,分析和推文上分享,并具有不同的技术细节。其他安全分析师使用这种情报来告知他们新兴威胁,妥协指标,攻击方法和预防措施。它统称为威胁智能,通常是一种非结构化格式,因此,无缝集成到现有的IDPS系统中,具有挑战性。在本文中,我们提出了一个汇总并结合CTI的框架 - 公开可用的网络威胁智能信息。使用知识图以结构化的格式提取并存储该信息,以便可以与其他安全分析师进行大规模保留威胁智能的语义。我们建议第一个半监督的开源知识图(KG)框架Tinker捕获网络威胁信息及其上下文。在修补匠之后,我们生成一个网络智能知识图(CTI-KG)。我们使用不同的用例及其应用于安全分析师的应用来证明CTI-KG的功效。
translated by 谷歌翻译
全球DataSphere快速增加,预计将达到20251年的175个Zettabytes。但是,大多数内容都是非结构化的,并且无法通过机器可以理解。将此数据构建到知识图中,使得智能应用程序具有诸如深度问题的智能应用,推荐系统,语义搜索等。知识图是一种新兴技术,允许使用内容与上下文一起逻辑推理和揭示新的洞察。因此,它提供了必要的语法和推理语义,使得能够解决复杂的医疗保健,安全,金融机构,经济学和业务问题。作为一项结果,企业正在努力建设和维护知识图表,以支持各种下游应用。手动方法太贵了。自动化方案可以降低建设知识图的成本,高达15-250次。本文批评了最先进的自动化技术,以自主地生成近乎人类的近乎人类的质量。此外,它突出了需要解决的不同研究问题,以提供高质量的知识图表
translated by 谷歌翻译
In knowledge graph completion (KGC), predicting triples involving emerging entities and/or relations, which are unseen when the KG embeddings are learned, has become a critical challenge. Subgraph reasoning with message passing is a promising and popular solution. Some recent methods have achieved good performance, but they (i) usually can only predict triples involving unseen entities alone, failing to address more realistic fully inductive situations with both unseen entities and unseen relations, and (ii) often conduct message passing over the entities with the relation patterns not fully utilized. In this study, we propose a new method named RMPI which uses a novel Relational Message Passing network for fully Inductive KGC. It passes messages directly between relations to make full use of the relation patterns for subgraph reasoning with new techniques on graph transformation, graph pruning, relation-aware neighborhood attention, addressing empty subgraphs, etc., and can utilize the relation semantics defined in the ontological schema of KG. Extensive evaluation on multiple benchmarks has shown the effectiveness of techniques involved in RMPI and its better performance compared with the existing methods that support fully inductive KGC. RMPI is also comparable to the state-of-the-art partially inductive KGC methods with very promising results achieved. Our codes and data are available at https://github.com/zjukg/RMPI.
translated by 谷歌翻译
Knowledge graph (KG) embedding is to embed components of a KG including entities and relations into continuous vector spaces, so as to simplify the manipulation while preserving the inherent structure of the KG. It can benefit a variety of downstream tasks such as KG completion and relation extraction, and hence has quickly gained massive attention. In this article, we provide a systematic review of existing techniques, including not only the state-of-the-arts but also those with latest trends. Particularly, we make the review based on the type of information used in the embedding task. Techniques that conduct embedding using only facts observed in the KG are first introduced. We describe the overall framework, specific model design, typical training procedures, as well as pros and cons of such techniques. After that, we discuss techniques that further incorporate additional information besides facts. We focus specifically on the use of entity types, relation paths, textual descriptions, and logical rules. Finally, we briefly introduce how KG embedding can be applied to and benefit a wide variety of downstream tasks such as KG completion, relation extraction, question answering, and so forth.
translated by 谷歌翻译
我们研究知识图嵌入(KGE)对知识图(KG)完成的有效性,并通过规则挖掘完成。更具体地说,我们在KGE完成之前和之后从KGS中挖掘规则,以比较提取的规则的可能差异。我们将此方法应用于经典的方法,尤其是Transe,Distmult and Complext。我们的实验表明,根据KGE完成的KGE方法,提取的规则之间可能存在巨大差异。特别是,在完成转盘后,提取了几条虚假规则。
translated by 谷歌翻译
事实证明,信息提取方法可有效从结构化或非结构化数据中提取三重。以(头部实体,关系,尾部实体)形式组织这样的三元组的组织称为知识图(kgs)。当前的大多数知识图都是不完整的。为了在下游任务中使用kgs,希望预测kgs中缺少链接。最近,通过将实体和关系嵌入到低维的矢量空间中,旨在根据先前访问的三元组来预测三元组,从而对KGS表示不同的方法。根据如何独立或依赖对三元组进行处理,我们将知识图完成的任务分为传统和图形神经网络表示学习,并更详细地讨论它们。在传统的方法中,每个三重三倍将独立处理,并在基于GNN的方法中进行处理,三倍也考虑了他们的当地社区。查看全文
translated by 谷歌翻译
知识图(kg)推论是解决KGs自然不完整性的重要技术。现有的kg推断方法可以分为基于规则的基于和基于kg嵌入的模型。然而,这些方法同时不能平衡准确性,泛化,解释性和效率。此外,这些模型总是依赖于纯粹的三元族并忽略额外信息。因此,KG嵌入(KGE)和规则学习kg推理因稀疏实体和有限的语义而接近面临的面临挑战。我们提出了一种新颖且有效的闭环kg推理框架,与基于这些观察结果类似地运行作为发动机。 EngineKgi将KGE和RULE学习在闭环模式中互相补充,同时利用路径和概念中的语义。 KGE模块利用路径来增强实体之间的语义关联,并介绍解释性规则。通过利用路径作为初始候选规则,在规则学习模块中提出了一种新颖的规则修剪机制,并使用KG Embeddings以及提取更高质量规则的概念。四个真实数据集的实验结果表明,我们的模型在链路预测任务上占外的其他基线,展示了我们模型在KG推理中以闭环机制的关节逻辑和数据驱动方式的效力和优越性。
translated by 谷歌翻译
外部知识(A.K.A.侧面信息)在零拍摄学习(ZSL)中起着关键作用,该角色旨在预测从未出现在训练数据中的看不见的类。已被广泛调查了几种外部知识,例如文本和属性,但他们独自受到不完整的语义。因此,一些最近的研究提出了由于其高度富有效力和代表知识的兼容性而使用知识图表(千克)。但是,ZSL社区仍然缺乏用于学习和比较不同外部知识设置和基于不同的KG的ZSL方法的标准基准。在本文中,我们提出了六个资源,涵盖了三个任务,即零拍摄图像分类(ZS-IMGC),零拍摄关系提取(ZS-RE)和零拍KG完成(ZS-KGC)。每个资源都有一个正常的zsl基准标记和包含从文本到属性的kg的kg,从关系知识到逻辑表达式。我们已清楚地介绍了这些资源,包括其建设,统计数据格式和使用情况W.r.t.不同的ZSL方法。更重要的是,我们进行了一项全面的基准研究,具有两个通用和最先进的方法,两种特定方法和一种可解释方法。我们讨论并比较了不同的ZSL范式W.R.T.不同的外部知识设置,并发现我们的资源具有开发更高级ZSL方法的巨大潜力,并为应用KGS进行增强机学习的更多解决方案。所有资源都可以在https://github.com/china-uk-zsl/resources_for_kzsl上获得。
translated by 谷歌翻译
Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.
translated by 谷歌翻译
最近公布的知识图形嵌入模型的实施,培训和评估的异质性已经公平和彻底的比较困难。为了评估先前公布的结果的再现性,我们在Pykeen软件包中重新实施和评估了21个交互模型。在这里,我们概述了哪些结果可以通过其报告的超参数再现,这只能以备用的超参数再现,并且无法再现,并且可以提供洞察力,以及为什么会有这种情况。然后,我们在四个数据集上进行了大规模的基准测试,其中数千个实验和24,804 GPU的计算时间。我们展示了最佳实践,每个模型的最佳配置以及可以通过先前发布的最佳配置进行改进的洞察。我们的结果强调了模型架构,训练方法,丢失功能和逆关系显式建模的组合对于模型的性能来说至关重要,而不仅由模型架构决定。我们提供了证据表明,在仔细配置时,若干架构可以获得对最先进的结果。我们制定了所有代码,实验配置,结果和分析,导致我们在https://github.com/pykeen/pykeen和https://github.com/pykeen/benchmarking中获得的解释
translated by 谷歌翻译
越来越多的语义资源提供了人类知识的宝贵储存;但是,错误条目的概率随着尺寸的增加而增加。因此,识别给定知识库的潜在虚假部分的方法正在成为越来越重要的感兴趣领域。在这项工作中,我们展示了对仅结构的链接分析方法的系统评估是否可以提供可扩展手段,以检测可能的异常,以及潜在的有趣的新颖关系候选者。在八种不同的语义资源中评估十三方法,包括基因本体,食品本体,海洋本体论和类似,我们证明了仅限结构的链接分析可以为数据集的子集提供可扩展的异常检测。此外,我们证明,通过考虑符号节点嵌入,可以获得预测(链接)的说明,使得该方法的该分支可能比黑盒更有价值。据我们所知,这是目前,来自不同域的语义资源的不同类型链路分析方法的适用性最广泛的系统研究之一。
translated by 谷歌翻译
对于人工智能在生物学和药物中产生更大的影响,这是一个至关重要的是,建议都是准确和透明的。在其他域中,已经显示了关于知识图表的多跳推理的神经统计学方法,以产生透明的解释。然而,缺乏研究将其应用于复杂的生物医学数据集和问题。在本文中,探讨了药物发现的方法,以利用其适用性的稳定结论。我们首次系统地将其应用于多种生物医学数据集和具有公平基准比较的推荐任务。发现该方法以平均水平的21.7%优于21.7%,同时产生新颖,生物学相关的解释。
translated by 谷歌翻译
In this paper we show the surprising effectiveness of a simple observed features model in comparison to latent feature models on two benchmark knowledge base completion datasets, FB15K and WN18. We also compare latent and observed feature models on a more challenging dataset derived from FB15K, and additionally coupled with textual mentions from a web-scale corpus. We show that the observed features model is most effective at capturing the information present for entity pairs with textual relations, and a combination of the two combines the strengths of both model types.
translated by 谷歌翻译
Covid-19上的知识图(KGS)已建立在加速Covid-19的研究过程中。然而,KGs总是不完整,特别是新建造的Covid-19公斤。链路预测任务旨在预测(e,r,t)或(h,r,e)的丢失实体,其中H和t是某些实体,E是需要预测的实体,R是关系。这项任务还有可能解决Covid-19相关的KGS的不完全问题。虽然已经提出了各种知识图形嵌入(KGE)方法的链路预测任务,但这些现有方法遭受了使用单个评分函数的限制,这不能捕获Covid-19 Kgs的丰富特征。在这项工作中,我们提出了利用多个评分函数来提取来自现有三元组的更多特征的MDistmult模型。我们在CCKS2020 Covid-19抗病毒药物知识图(CADKG)上采用实验。实验结果表明,我们的MDistmult在CADKG数据集上的链路预测任务中实现了最先进的性能
translated by 谷歌翻译