我们研究知识图嵌入(KGE)对知识图(KG)完成的有效性,并通过规则挖掘完成。更具体地说,我们在KGE完成之前和之后从KGS中挖掘规则,以比较提取的规则的可能差异。我们将此方法应用于经典的方法,尤其是Transe,Distmult and Complext。我们的实验表明,根据KGE完成的KGE方法,提取的规则之间可能存在巨大差异。特别是,在完成转盘后,提取了几条虚假规则。
translated by 谷歌翻译
最近公布的知识图形嵌入模型的实施,培训和评估的异质性已经公平和彻底的比较困难。为了评估先前公布的结果的再现性,我们在Pykeen软件包中重新实施和评估了21个交互模型。在这里,我们概述了哪些结果可以通过其报告的超参数再现,这只能以备用的超参数再现,并且无法再现,并且可以提供洞察力,以及为什么会有这种情况。然后,我们在四个数据集上进行了大规模的基准测试,其中数千个实验和24,804 GPU的计算时间。我们展示了最佳实践,每个模型的最佳配置以及可以通过先前发布的最佳配置进行改进的洞察。我们的结果强调了模型架构,训练方法,丢失功能和逆关系显式建模的组合对于模型的性能来说至关重要,而不仅由模型架构决定。我们提供了证据表明,在仔细配置时,若干架构可以获得对最先进的结果。我们制定了所有代码,实验配置,结果和分析,导致我们在https://github.com/pykeen/pykeen和https://github.com/pykeen/benchmarking中获得的解释
translated by 谷歌翻译
对于知识图形完成,存在两种主要类型的预测模型:基于图形嵌入的一个,以及基于关系路径规则诱导。它们具有不同的优缺点。为了利用这两种类型,最近提出了混合模型。其中一个混合模型,uniker,交替通过关系路径规则增强培训数据并列进嵌入模型。尽管其预测准确性很高,但它不充分利用关系路径规则,因为它忽略了低置信度规则,以保持增强数据的质量。为了缓解此限制,我们通过关系路径规则和基于置信性的增强数据提出转换数据增强。结果和分析表明,我们所提出的方法通过增强包括与它们类似的真实答案或实体的数据来有效提高嵌入模型的性能。
translated by 谷歌翻译
知识图完成(又称〜链接预测),即〜从知识图推断缺失信息的任务是许多应用程序中广泛使用的任务,例如产品建议和问题答案。知识图嵌入和/或规则挖掘和推理的最新方法是数据驱动的,因此仅基于输入知识图所包含的信息。这导致了不令人满意的预测结果,这使得这种解决方案不适用于关键领域,例如医疗保健。为了进一步提高知识图完成的准确性,我们建议将知识图嵌入的数据驱动的能力与专家或累积制度(例如OWL2)引起的域特定于域的推理。通过这种方式,我们不仅使用可能不包含在输入知识图中的域知识增强了预测准确性,而且还允许用户插入自己的知识图嵌入和推理方法。我们的最初结果表明,我们通过最多3倍和优于混合解决方案来增强香草知识图嵌入的MRR准确性,这些溶液将知识图嵌入与规则挖掘和推理高达3.5倍MRR相结合。
translated by 谷歌翻译
学术知识图(KGS)提供了代表科学出版物编码的知识的丰富的结构化信息来源。随着出版的科学文学的庞大,包括描述科学概念的过多的非均匀实体和关系,这些公斤本质上是不完整的。我们呈现Exbert,一种利用预先训练的变压器语言模型来执行学术知识图形完成的方法。我们将知识图形的三元组模型为文本并执行三重分类(即,属于KG或不属于KG)。评估表明,在三重分类,链路预测和关系预测的任务中,Exbert在三个学术kg完成数据集中表现出其他基线。此外,我们将两个学术数据集作为研究界的资源,从公共公共公报和在线资源中收集。
translated by 谷歌翻译
知识图(kg)推论是解决KGs自然不完整性的重要技术。现有的kg推断方法可以分为基于规则的基于和基于kg嵌入的模型。然而,这些方法同时不能平衡准确性,泛化,解释性和效率。此外,这些模型总是依赖于纯粹的三元族并忽略额外信息。因此,KG嵌入(KGE)和规则学习kg推理因稀疏实体和有限的语义而接近面临的面临挑战。我们提出了一种新颖且有效的闭环kg推理框架,与基于这些观察结果类似地运行作为发动机。 EngineKgi将KGE和RULE学习在闭环模式中互相补充,同时利用路径和概念中的语义。 KGE模块利用路径来增强实体之间的语义关联,并介绍解释性规则。通过利用路径作为初始候选规则,在规则学习模块中提出了一种新颖的规则修剪机制,并使用KG Embeddings以及提取更高质量规则的概念。四个真实数据集的实验结果表明,我们的模型在链路预测任务上占外的其他基线,展示了我们模型在KG推理中以闭环机制的关节逻辑和数据驱动方式的效力和优越性。
translated by 谷歌翻译
知识图(KGS)代表作为三元组的事实已被广泛采用在许多应用中。 LIGHT预测和规则感应等推理任务对于KG的开发很重要。已经提出了知识图形嵌入式(KGES)将kg的实体和kg与持续向量空间的关系进行了建议,以获得这些推理任务,并被证明是有效和强大的。但在实际应用中申请和部署KGE的合理性和可行性尚未探索。在本文中,我们讨论并报告我们在真实域应用程序中部署KGE的经验:电子商务。我们首先为电子商务KG系统提供三个重要的探索者:1)注意推理,推理几个目标关系更为关注而不是全部; 2)解释,提供预测的解释,帮助用户和业务运营商理解为什么预测; 3)可转让规则,生成可重用的规则,以加速将千克部署到新系统。虽然非现有KGE可以满足所有这些DesiderATA,但我们提出了一种新颖的一种,可说明的知识图表注意网络,通过建模三元组之间的相关性而不是纯粹依赖于其头实体,关系和尾部实体嵌入来预测。它可以自动选择预测的注意力三倍,并同时记录它们的贡献,从该解释可以很容易地提供,可以有效地生产可转移规则。我们经验表明,我们的方法能够在我们的电子商务应用程序中满足所有三个DesiderATA,并从实际域应用程序中倾斜于数据集的典型基线。
translated by 谷歌翻译
外部知识(A.K.A.侧面信息)在零拍摄学习(ZSL)中起着关键作用,该角色旨在预测从未出现在训练数据中的看不见的类。已被广泛调查了几种外部知识,例如文本和属性,但他们独自受到不完整的语义。因此,一些最近的研究提出了由于其高度富有效力和代表知识的兼容性而使用知识图表(千克)。但是,ZSL社区仍然缺乏用于学习和比较不同外部知识设置和基于不同的KG的ZSL方法的标准基准。在本文中,我们提出了六个资源,涵盖了三个任务,即零拍摄图像分类(ZS-IMGC),零拍摄关系提取(ZS-RE)和零拍KG完成(ZS-KGC)。每个资源都有一个正常的zsl基准标记和包含从文本到属性的kg的kg,从关系知识到逻辑表达式。我们已清楚地介绍了这些资源,包括其建设,统计数据格式和使用情况W.r.t.不同的ZSL方法。更重要的是,我们进行了一项全面的基准研究,具有两个通用和最先进的方法,两种特定方法和一种可解释方法。我们讨论并比较了不同的ZSL范式W.R.T.不同的外部知识设置,并发现我们的资源具有开发更高级ZSL方法的巨大潜力,并为应用KGS进行增强机学习的更多解决方案。所有资源都可以在https://github.com/china-uk-zsl/resources_for_kzsl上获得。
translated by 谷歌翻译
知识图表(KGS)是真实世界事实的结构化表示,是融合人类知识的智能数据库,可以帮助机器模仿人类问题的方法。然而,由于快速迭代的性质以及数据的不完整,KGs通常是巨大的,并且在公斤上有不可避免的事实。对于知识图链接的预测是针对基于现有的知识推理来完成缺少事实的任务。广泛研究了两个主要的研究流:一个学习可以捕获潜在模式的实体和关系的低维嵌入,以及通过采矿逻辑规则的良好解释性。不幸的是,以前的研究很少关注异质的KG。在本文中,我们提出了一种将基于嵌入的学习和逻辑规则挖掘结合的模型,以推断在KG上。具体地,我们研究了从节点程度的角度涉及各种类型的实体和关系的异构kg中的缺失链接的问题。在实验中,我们证明了我们的DegreEmbed模型优于对现实世界的数据集的国家的最先进的方法。同时,我们模型开采的规则具有高质量和可解释性。
translated by 谷歌翻译
改善疾病的护理标准是关于更好的治疗方法,反过来依赖于寻找和开发新药。然而,药物发现是一个复杂且昂贵的过程。通过机器学习的方法采用了利用域固有的互连性质的药物发现知识图的创建。基于图形的数据建模,结合知识图形嵌入式提供了更直观的域表示,适用于推理任务,例如预测缺失链路。一个这样的例子将产生对给定疾病的可能相关基因的排名列表,通常被称为目标发现。因此,这是关键的,即这些预测不仅是相关的,而且是生物学上的有意义的。然而,知识图形可以直接偏向,由于集成的底层数据源,或者由于图形构造中的建模选择,其中的一个结果是某些实体可以在拓扑上超越。我们展示了知识图形嵌入模型可能受到这种结构不平衡的影响,导致无论上下文都要高度排名的密集连接实体。我们在不同的数据集,模型和预测任务中提供对此观察的支持。此外,我们展示了如何通过随机,生物学上无意义的信息扰乱图形拓扑结构以人为地改变基因的等级。这表明这种模型可能会受到实体频率而不是在关系中编码的生物学信息的影响,当实体频率不是基础数据的真实反射时,创建问题。我们的结果突出了数据建模选择的重要性,并强调了从业者在解释模型输出和知识图形组合期间时要注意这些问题。
translated by 谷歌翻译
Relational machine learning studies methods for the statistical analysis of relational, or graph-structured, data. In this paper, we provide a review of how such statistical models can be "trained" on large knowledge graphs, and then used to predict new facts about the world (which is equivalent to predicting new edges in the graph). In particular, we discuss two fundamentally different kinds of statistical relational models, both of which can scale to massive datasets. The first is based on latent feature models such as tensor factorization and multiway neural networks. The second is based on mining observable patterns in the graph. We also show how to combine these latent and observable models to get improved modeling power at decreased computational cost. Finally, we discuss how such statistical models of graphs can be combined with text-based information extraction methods for automatically constructing knowledge graphs from the Web. To this end, we also discuss Google's Knowledge Vault project as an example of such combination.
translated by 谷歌翻译
实体类型预测是知识图中的一个重要问题(kg)研究。在这项工作中提出了一种新的KG实体类型预测方法,名为Core(复杂的空间回归和嵌入)。所提出的核心方法利用两个复杂空间嵌入模型的表现力;即,旋转和复杂的模型。它使用旋转或复杂地将实体和类型嵌入两个不同的复杂空间中。然后,我们推导了一个复杂的回归模型来链接这两个空格。最后,介绍了一种优化嵌入和回归参数的机制。实验表明,核心优于代表性KG实体型推理数据集的基准测试方法。分析了各种实体型预测方法的强度和弱点。
translated by 谷歌翻译
我们研究了对知识图中链路预测任务的知识图形嵌入(KGE)模型产生数据中毒攻击的问题。为了毒害KGE模型,我们建议利用他们通过知识图中的对称性,反演和构图等关系模式捕获的归纳能力。具体而言,为了降低模型对目标事实的预测信心,建议改善模型对一系列诱饵事实的预测信心。因此,我们通过不同的推理模式来制作对逆势的添加能够改善模型对诱饵事实上的预测信心。我们的实验表明,拟议的中毒攻击在四个KGE模型上倾斜的最先进的基座,用于两个公共数据集。我们还发现基于对称模式的攻击遍历了所有模型 - 数据集合,指示KGE模型对此模式的灵敏度。
translated by 谷歌翻译
知识图(kgs)以(头,谓词,尾部) - 轨道的形式存储信息。为了增强具有新知识的公斤,研究人员提出了kg完成(kgc)任务的模型,例如链接预测;即,回答(H; P;?)或(?; P; t)查询。这种模型通常在固定测试集上使用平均指标进行评估。尽管对于跟踪进度有用,但平均的单分数指标无法透露模型到底学到的或未能学习的内容。为了解决这个问题,我们提出了KGXBoard:一个交互式框架,用于对有意义的数据子集进行精细颗粒评估,每个框架都测试了KGC模型的个人和可解释功能。在我们的实验中,我们强调了使用KGXBoard发现的发现,这是无法通过标准平均单分数指标来检测到的。
translated by 谷歌翻译
We address the challenge of building domain-specific knowledge models for industrial use cases, where labelled data and taxonomic information is initially scarce. Our focus is on inductive link prediction models as a basis for practical tools that support knowledge engineers with exploring text collections and discovering and linking new (so-called open-world) entities to the knowledge graph. We argue that - though neural approaches to text mining have yielded impressive results in the past years - current benchmarks do not reflect the typical challenges encountered in the industrial wild properly. Therefore, our first contribution is an open benchmark coined IRT2 (inductive reasoning with text) that (1) covers knowledge graphs of varying sizes (including very small ones), (2) comes with incidental, low-quality text mentions, and (3) includes not only triple completion but also ranking, which is relevant for supporting experts with discovery tasks. We investigate two neural models for inductive link prediction, one based on end-to-end learning and one that learns from the knowledge graph and text data in separate steps. These models compete with a strong bag-of-words baseline. The results show a significant advance in performance for the neural approaches as soon as the available graph data decreases for linking. For ranking, the results are promising, and the neural approaches outperform the sparse retriever by a wide margin.
translated by 谷歌翻译
知识图(kg)嵌入技术使用实体之间的结构化关系来学习实体和关系的低维表示。传统的KG嵌入技术(例如Transe和Distmult)通过在观察到的KG三胞胎上开发的简单模型来估算这些嵌入。这些方法的三胞胎得分损失函数有所不同。由于这些模型仅使用观察到的三胞胎来估计嵌入,因此它们很容易受到通常发生在现实世界知识图中的数据稀疏性,即每个实体缺乏足够的三胞胎。为了解决这个问题,我们提出了一种有效的方法来增加三胞胎的数量,以解决数据稀疏问题。我们使用随机步行来创建其他三胞胎,以便这些引入三胞胎的关系需要随机步行引起的Metapath。我们还提供了准确有效地从随机步行所引起的可能的元数据集中从可能的Metapath中滤除信息性元素的方法。所提出的方法是模型不合时宜的,可以将增强培训数据集与开箱即用的任何KG嵌入方法一起使用。在基准数据集上获得的实验结果显示了所提出方法的优势。
translated by 谷歌翻译
Knowledge graph (KG) embedding is to embed components of a KG including entities and relations into continuous vector spaces, so as to simplify the manipulation while preserving the inherent structure of the KG. It can benefit a variety of downstream tasks such as KG completion and relation extraction, and hence has quickly gained massive attention. In this article, we provide a systematic review of existing techniques, including not only the state-of-the-arts but also those with latest trends. Particularly, we make the review based on the type of information used in the embedding task. Techniques that conduct embedding using only facts observed in the KG are first introduced. We describe the overall framework, specific model design, typical training procedures, as well as pros and cons of such techniques. After that, we discuss techniques that further incorporate additional information besides facts. We focus specifically on the use of entity types, relation paths, textual descriptions, and logical rules. Finally, we briefly introduce how KG embedding can be applied to and benefit a wide variety of downstream tasks such as KG completion, relation extraction, question answering, and so forth.
translated by 谷歌翻译
我们根据生态毒理学风险评估中使用的主要数据来源创建了知识图表。我们已经将这种知识图表应用于风险评估中的重要任务,即化学效果预测。我们已经评估了在该预测任务的各种几何,分解和卷积模型中嵌入模型的九个知识图形嵌入模型。我们表明,使用知识图形嵌入可以提高与神经网络的效果预测的准确性。此外,我们已经实现了一种微调架构,它将知识图形嵌入到效果预测任务中,并导致更好的性能。最后,我们评估知识图形嵌入模型的某些特征,以阐明各个模型性能。
translated by 谷歌翻译
多跳跃逻辑推理是在知识图(KGS)上学习领域的一个已建立问题。它涵盖了单跳连接预测以及其他更复杂的逻辑查询类型。现有的算法仅在经典的三重基图上运行,而现代KG经常采用超相关的建模范式。在此范式中,键入的边缘可能具有几对键值对,称为限定符,可为事实提供细粒度的环境。在查询中,此上下文修改了关系的含义,通常会减少答案集。经常在现实世界中的应用程序中观察到超相关的查询,并且现有的近似查询答案方法无法使用预选赛对。在这项工作中,我们弥合了这一差距,并将多跳的推理问题扩展到了超级关系的KG,允许解决这一新类型的复杂查询。在图形神经网络和查询嵌入技术的最新进展之下,我们研究了如何嵌入和回答超相关的连词查询。除此之外,我们还提出了一种回答此类查询并在我们的实验中证明的方法,即预选赛可以改善对各种查询模式的查询回答。
translated by 谷歌翻译
知识图嵌入(KGE)方法已从广泛的AI社区(包括自然语言处理(NLP))中引起了极大的关注,用于文本生成,分类和上下文诱导。用少数维度嵌入大量的相互关系,需要在认知和计算方面进行适当的建模。最近,开发了有关自然语言的认知和计算方面的许多目标功能。其中包括最新的线性方法,双线性,具有歧管的内核,投影 - 空间和类似推断。但是,这种模型的主要挑战在于它们的损失函数,将关系嵌入的维度与相应的实体维度相关联。当错误估计对应物时,这导致对实体之间相应关系的预测不准确。 Bordes等人发表的Proje Kge由于计算复杂性低和模型改进的高潜力,在所有翻译和双线性相互作用的同时,在捕获实体非线性的同时,都改善了这项工作。基准知识图(KGS)(例如FB15K和WN18)的实验结果表明,所提出的方法使用线性和双线性方法以及其他最新功能的方法在实体预测任务中的最新模型优于最先进的模型。另外,为该模型提出了平行处理结构,以提高大型kg的可伸缩性。还解释了不同自适应聚类和新提出的抽样方法的影响,这被证明可以有效提高知识图完成的准确性。
translated by 谷歌翻译