实体对齐是将知识图(KGS)与多个源集成的重要步骤。以前的实体对齐尝试已经探索了不同的kg结构,例如基于邻域和基于路径的上下文,以学习实体嵌入物,但它们受到捕获多上下文特征的限制。此外,大多数方法直接利用嵌入相似性以确定实体对齐,而不考虑实体和关系之间的全局互动。在这项工作中,我们提出了一个明智的多上下文实体对齐(IMEA)模型来解决这些问题。特别是,我们引入变压器以灵活地捕获关系,路径和邻域背景,并根据嵌入相似度和关系/实体功能设计整体推理以估计对齐概率。从整体推理获得的对准证据通过所提出的软标签编辑进一步注入变压器,以通知嵌入学习。与现有的最先进的实体对准方法相比,若干基准数据集上的实验结果证明了IMEA模型的优越性。
translated by 谷歌翻译
实体对齐(EA)在学术界和工业中都引起了广泛的关注,该行业旨在寻求具有不同知识图(KGS)相同含义的实体。 KGS中的实体之间存在实质性的多步关系路径,表明实体的语义关系。但是,现有方法很少考虑路径信息,因为并非所有自然路径都促进EA判断。在本文中,我们提出了一个更有效的实体对齐框架RPR-RHGT,该框架集成了关系和路径结构信息以及KGS中的异质信息。令人印象深刻的是,开发了一种初始可靠的路径推理算法来生成有利于EA任务的路径,从KGS的关系结构中,这是文献中第一个成功使用无限制路径信息的算法。此外,为了有效地捕获实体社区中的异质特征,设计的异质图变压器旨在建模KGS的关系和路径结构。在三个著名数据集上进行的广泛实验表明,RPR-RHGT的表现明显优于11种最佳方法,超过了命中率@1的最佳性能基线最高8.62%。我们还表现出比基线在训练集的不同比率和更难数据集的基线上更好的性能。
translated by 谷歌翻译
实体对齐是知识图融合中的至关重要任务。但是,大多数实体对准方法都有可伸缩性问题。最近的方法通过将大型公斤分成小块来解决这个问题,以嵌入和对齐学习。但是,这种分区和学习过程导致结构和对齐过度损失过多。因此,在这项工作中,我们提出了一种可扩展的基于GNN的实体对准方法,以从三个角度降低结构和对齐损失。首先,我们提出一种基于中心性的子图生成算法,以回顾一些具有不同子图之间桥梁的地标实体。其次,我们介绍了自我监督的实体重建,以从不完整的邻里子图中恢复实体表示形式,并设计了跨纸笔负面抽样,以在对齐学习中纳入其他子图中的实体。第三,在推理过程中,我们合并子图的嵌入,以制作一个单个空间进行对齐搜索。基准开放数据集和提议的大型DBPEDIA1M数据集的实验结果验证了我们方法的有效性。
translated by 谷歌翻译
实体对齐是知识图(kg)集成中的基本且至关重要的技术。多年来,对实体一致性的研究一直存在于KG是静态的假设,该假设忽略了现实世界KG的生长本质。随着KG的成长,先前的一致性结果面临需要重新审视的,而新实体对齐等待被发现。在本文中,我们建议并深入研究现实但未开发的设置,称为持续实体对齐。为了避免在新实体和三元组来时对整个KGS进行整个模型,我们为此任务提供了一种持续的对齐方法。它基于实体邻接,重建实体的表示,使其能够使用其现有邻居快速而有归纳的新实体生成嵌入。它选择并重播部分预先对准的实体对,仅训练一部分KG,同时提取可信赖的知识对准知识增强。由于不可避免地要包含与以前的作品不同的不可匹配的实体,因此所提出的方法采用双向最近的邻居匹配来找到新的实体对齐并更新旧的对齐。此外,我们还通过模拟多语言dbpedia的增长来构建新数据集。广泛的实验表明,我们的持续比对方法比基于再培训或归纳学习的基准更有效。
translated by 谷歌翻译
Entity alignment is to find identical entities in different knowledge graphs (KGs) that refer to the same real-world object. Embedding-based entity alignment techniques have been drawing a lot of attention recently because they can help solve the issue of symbolic heterogeneity in different KGs. However, in this paper, we show that the progress made in the past was due to biased and unchallenging evaluation. We highlight two major flaws in existing datasets that favor embedding-based entity alignment techniques, i.e., the isomorphic graph structures in relation triples and the weak heterogeneity in attribute triples. Towards a critical evaluation of embedding-based entity alignment methods, we construct a new dataset with heterogeneous relations and attributes based on event-centric KGs. We conduct extensive experiments to evaluate existing popular methods, and find that they fail to achieve promising performance. As a new approach to this difficult problem, we propose a time-aware literal encoder for entity alignment. The dataset and source code are publicly available to foster future research. Our work calls for more effective and practical embedding-based solutions to entity alignment.
translated by 谷歌翻译
知识图(KG)嵌入旨在学习连续矢量空间中kg的实体和关系的潜在表示。一个经验观察是,与相同关系相关的头部(尾巴)实体通常具有相似的语义属性 - 特别是它们通常属于同一类别 - 无论他们在kg中彼此之间有多远。也就是说,他们具有全球语义相似性。但是,许多现有方法基于本地信息得出了kg嵌入,这些信息无法有效地捕获实体之间的这种全球语义相似性。为了应对这一挑战,我们提出了一种新颖的方法,该方法引入了一组称为\ textit {\ textbf {关系原型实体}}的虚拟节点,以表示由相同关系连接的头和尾部实体的原型。通过强制实体的嵌入靠近其相关的原型的嵌入,我们的方法可以有效地鼓励实体的全球语义相似性(可以在kg中很远 - 通过相同的关系相连。实体一致性和KG完成任务的实验表明,我们的方法显着优于最近的最新方法。
translated by 谷歌翻译
近年来,人们对少量知识图(FKGC)的兴趣日益增加,该图表旨在推断出关于该关系的一些参考三元组,从而推断出不见了的查询三倍。现有FKGC方法的主要重点在于学习关系表示,可以反映查询和参考三元组共享的共同信息。为此,这些方法从头部和尾部实体的直接邻居中学习实体对表示,然后汇总参考实体对的表示。但是,只有从直接邻居那里学到的实体对代表可能具有较低的表现力,当参与实体稀疏直接邻居或与其他实体共享一个共同的当地社区。此外,仅仅对头部和尾部实体的语义信息进行建模不足以准确推断其关系信息,尤其是当它们具有多个关系时。为了解决这些问题,我们提出了一个特定于关系的上下文学习(RSCL)框架,该框架利用了三元组的图形上下文,以学习全球和本地关系特定的表示形式,以使其几乎没有相关关系。具体而言,我们首先提取每个三倍的图形上下文,这可以提供长期实体关系依赖性。为了编码提取的图形上下文,我们提出了一个分层注意网络,以捕获三元组的上下文信息并突出显示实体的有价值的本地邻里信息。最后,我们设计了一个混合注意聚合器,以评估全球和本地级别的查询三元组的可能性。两个公共数据集的实验结果表明,RSCL的表现优于最先进的FKGC方法。
translated by 谷歌翻译
知识图(kg)对齐 - 指识别不同kgs中同一件事的实体的任务 - 被认为是KG构造领域中最重要的操作之一。然而,现有的对齐技术通常假设输入kgs是完整的并且同性的,这是由于域,大小和稀疏性的现实世界异质性而不是真实。在这项工作中,我们解决了与代表学习对齐不完整的KG对齐的问题。我们的KG嵌入式框架利用了两个特征频道:基于传输型和基于接近的。前者通过翻译路径捕获实体之间的一致性约束,而后者通过注意引导关系感知图形神经网络捕获KG的邻域结构。两个特征频道共同学习以在输入kgs之间交换重要特征,同时强制在同一嵌入空间中强制输入kg的输出表示。此外,我们开发了缺失的链接检测器,该探测器发现并恢复培训过程中输入kgs中的缺失链接,这有助于减轻不完整性问题,从而提高学习象征的兼容性。然后将嵌入的熔合融合以生成对准结果,并且高置信匹配节点对被更新为预先调整的监控数据以逐渐改善嵌入。经验结果表明,我们的型号比SOTA更准确,而且对不同级别的不完整性较高,高达15.2 \%。我们还证明了KGS之间交换的知识有助于揭示知识图表(A.K.A.知识完成)的看不见的事实,结果比SOTA知识图形完成技术高3.5 \%。
translated by 谷歌翻译
本文介绍了$ \ mu \ text {kg} $,一个开源python库,用于在知识图上进行表示。 $ \ mu \ text {kg} $支持通过多源知识图(以及单个知识图),多个深度学习库(Pytorch和Tensorflow2),多个嵌入任务(链接预​​测,实体对准,实体键入,实体键入),支持联合表示。 ,以及多源链接预测)以及多个并行计算模式(多进程和多GPU计算)。它目前实现26个流行知识图嵌入模型,并支持16个基准数据集。 $ \ mu \ text {kg} $提供了具有不同任务的简化管道的嵌入技术的高级实现。它还带有高质量的文档,以易于使用。 $ \ mu \ text {kg} $比现有的知识图嵌入库更全面。它对于对各种嵌入模型和任务进行彻底比较和分析非常有用。我们表明,共同学习的嵌入可以极大地帮助知识驱动的下游任务,例如多跳知识图形答案。我们将与相关字段中的最新发展保持一致,并将其纳入$ \ mu \ text {kg} $中。
translated by 谷歌翻译
Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.
translated by 谷歌翻译
知识图(kgs)在许多应用程序中越来越重要的基础架构,同时患有不完整问题。 KG完成任务(KGC)自动根据不完整的KG预测缺失的事实。但是,现有方法在现实情况下表现不佳。一方面,他们的性能将巨大的降解,而kg的稀疏性越来越大。另一方面,预测的推理过程是一个不可信的黑匣子。本文提出了一个稀疏kgc的新型可解释模型,将高阶推理组合到图形卷积网络中,即HOGRN。它不仅可以提高减轻信息不足问题的概括能力,而且还可以在保持模型的有效性和效率的同时提供可解释性。有两个主要组件无缝集成以进行关节优化。首先,高阶推理成分通过捕获关系之间的内源性相关性来学习高质量的关系表示。这可以反映逻辑规则,以证明更广泛的事实是合理的。其次,更新组件的实体利用无重量的图形卷积网络(GCN)有效地模拟具有可解释性的KG结构。与常规方法不同,我们在没有其他参数的情况下在关系空间中进行实体聚合和基于设计组成的注意。轻巧的设计使HOGRN更适合稀疏设置。为了进行评估,我们进行了广泛的实验 - HOGRN对几个稀疏KG的结果表现出了令人印象深刻的改善(平均为9%的MRR增益)。进一步的消融和案例研究证明了主要成分的有效性。我们的代码将在接受后发布。
translated by 谷歌翻译
实体对齐(EA)的目的是在不同的知识图(kgs)中找到指代现实世界中同一对象的实体。最近的研究结合了时间信息,以增强KGS的表示。暂时KGS(TKG)之间的EA的现有方法利用时间感知的注意机制将关系和时间信息纳入实体嵌入中。该方法通过使用时间信息优于先前的方法。但是,我们认为,由于大多数TKG具有统一的时间表示,因此不必学习kgs中的时间信息的嵌入。因此,我们提出了一个简单的图形神经网络(GNN)模型,并结合了时间信息匹配机制,该模型以更少的时间和更少的参数实现了更好的性能。此外,由于对齐种子很难在现实世界应用中标记,因此我们还提出了一种通过TKG的时间信息生成无监督比对种子的方法。公共数据集的广泛实验表明,我们的监督方法显着优于先前的方法,而无监督的方法具有竞争性能。
translated by 谷歌翻译
In knowledge graph completion (KGC), predicting triples involving emerging entities and/or relations, which are unseen when the KG embeddings are learned, has become a critical challenge. Subgraph reasoning with message passing is a promising and popular solution. Some recent methods have achieved good performance, but they (i) usually can only predict triples involving unseen entities alone, failing to address more realistic fully inductive situations with both unseen entities and unseen relations, and (ii) often conduct message passing over the entities with the relation patterns not fully utilized. In this study, we propose a new method named RMPI which uses a novel Relational Message Passing network for fully Inductive KGC. It passes messages directly between relations to make full use of the relation patterns for subgraph reasoning with new techniques on graph transformation, graph pruning, relation-aware neighborhood attention, addressing empty subgraphs, etc., and can utilize the relation semantics defined in the ontological schema of KG. Extensive evaluation on multiple benchmarks has shown the effectiveness of techniques involved in RMPI and its better performance compared with the existing methods that support fully inductive KGC. RMPI is also comparable to the state-of-the-art partially inductive KGC methods with very promising results achieved. Our codes and data are available at https://github.com/zjukg/RMPI.
translated by 谷歌翻译
实体对齐旨在发现在不同知识图(kg)之间具有相同含义的独特等效实体对。对于知识整合或融合,这是一项令人信服但具有挑战性的任务。现有模型主要集中于将KGS投射到潜在的嵌入空间中,以捕获实体对齐实体之间的固有语义。但是,一致性冲突的不利影响在训练过程中被大大忽略了,从而限制了实体对准绩效。为了解决这个问题,我们提出了一种新颖的冲突感知伪标签,该标签通过最佳运输模型(CPL-OT)进行实体对齐。 CPL-OT的关键思想是迭代的伪标签对齐对,并通过冲突意识到的最佳运输建模授权,以提高实体对齐的精度。 CPL-OT由两个关键组成部分 - 实体嵌入学习,其中包括全球本地聚集和迭代冲突感知的伪标签 - 相互互相加强。为了减轻伪标签期间的一致性冲突,我们建议使用最佳运输(OT)作为有效手段,以保证两公斤之间的一对一实体对齐,而总体运输成本最少。运输成本被计算为通过图形卷积获得的实体嵌入之间的整流距离,并用全球级别的语义增强。基准数据集的广泛实验表明,在有或没有先前对齐种子的两个设置下,CPL-OT可以显着超过最先进的基准。
translated by 谷歌翻译
多模式实体对齐旨在确定两个不同的多模式知识图之间的等效实体,这些实体由与实体相关的结构三元组和图像组成。大多数先前的作品都集中在如何利用和编码不同模式中的信息,而由于模态异质性,因此在实体对齐中利用多模式知识并不是微不足道的。在本文中,我们提出了基于多模式对比度学习的实体比对模型McLea,以获得多模式实体对准的有效联合表示。与以前的工作不同,麦克莱尔(McLea)考虑了面向任务的模式,并为每个实体表示形式建模模式间关系。特别是,麦克莱(McLea)首先从多种模式中学习多个单独的表示,然后进行对比学习以共同对模式内和模式间相互作用进行建模。广泛的实验结果表明,在受监督和无监督的设置下,MCLEA在公共数据集上优于公共数据集的最先进的基线。
translated by 谷歌翻译
多年来,旨在从已知事实中推断出新结论的知识图(KGS)的推理主要集中在静态KG上。现实生活中知识的不断增长提出了使能够扩大KGS的归纳推理能力的必要性。现有的归纳工作假设新实体都在批处理中一次出现,这过度简化了新实体不断出现的实际情况。这项研究探讨了一个更现实,更具挑战性的环境,新实体分为多批次。我们提出了一个基于步行的归纳推理模型来解决新环境。具体而言,具有自适应关系聚合的图形卷积网络旨在使用其邻近关系编码和更新实体。为了捕捉不同的邻居的重要性,我们在聚合过程中采用了一种查询反馈注意机制。此外,为了减轻新实体的稀疏链接问题,我们提出了一种链接增强策略,以将可信赖的事实添加到KGS中。我们构建了三个新数据集,用于模拟此多批次出现方案。实验结果表明,我们所提出的模型优于基于最先进的基于嵌入的,基于步行的基于步行和基于规则的模型。
translated by 谷歌翻译
知识库及其以知识图(kg)形式的表示自然是不完整的。由于科学和工业应用已广泛采用,因此对完成信息的解决方案的需求很高。最近的一些作品通过学习实体和关系的嵌入来应对这一挑战,然后雇用它们来预测实体之间的新关系。尽管它们加重了,但大多数方法仅着眼于学习嵌入的当地邻居。结果,他们可能无法通过忽视长期依赖性和实体语义的传播来捕获KGS的上下文信息。在此手稿中,我们提出{\ ae} MP(来自多种模式的注意力嵌入),这是一种通过以下方式学习上下文化表示的新颖模型:实体的本地语义,同时着眼于邻里的各个方面; (ii)通过利用道路及其之间的关系来捕获语义上下文。我们的经验发现吸引了人们对注意力机制如何改善实体的上下文表示以及结合实体和语义路径环境如何改善实体的一般表示和关系预测的见解。几个大知识图基准的实验结果表明,{\ ae} MP的表现要优于最先进的关系预测方法。
translated by 谷歌翻译
事实证明,信息提取方法可有效从结构化或非结构化数据中提取三重。以(头部实体,关系,尾部实体)形式组织这样的三元组的组织称为知识图(kgs)。当前的大多数知识图都是不完整的。为了在下游任务中使用kgs,希望预测kgs中缺少链接。最近,通过将实体和关系嵌入到低维的矢量空间中,旨在根据先前访问的三元组来预测三元组,从而对KGS表示不同的方法。根据如何独立或依赖对三元组进行处理,我们将知识图完成的任务分为传统和图形神经网络表示学习,并更详细地讨论它们。在传统的方法中,每个三重三倍将独立处理,并在基于GNN的方法中进行处理,三倍也考虑了他们的当地社区。查看全文
translated by 谷歌翻译
知识图的归纳链路预测旨在预测未见实体之间的缺失联系,而那些未在训练阶段显示的实体。大多数以前的作品都学习实体的特定实体嵌入,这些实体无法处理看不见的实体。最近的几种方法利用封闭子图来获得归纳能力。但是,所有这些作品仅在没有完整的邻近关系的情况下考虑子图的封闭部分,这导致了忽略部分邻近关系的问题,并且很难处理稀疏的子图。为了解决这个问题,我们提出了SNRI子图邻近关系Infomax,它足够从两个方面利用完整的相邻关系:节点特征的相邻关系特征和稀疏子图的相邻关系路径。为了进一步以全球方式建模邻近关系,我们对知识图进行创新的相互信息(MI)最大化。实验表明,SNRI在归纳链路预测任务上的大幅度优于现有的最新方法,并验证以全局方式探索完整的邻近关系的有效性,以表征节点特征和在稀疏子分类上的理由。
translated by 谷歌翻译
网络安全漏洞信息通常由多个渠道记录,包括政府漏洞存储库,个人维护的漏洞收集平台或漏洞披露的电子邮件列表和论坛。从不同渠道整合脆弱性信息可以使全面的威胁评估和快速部署到各种安全机制。但是,当今实体一致性技术的局限性阻碍了自动收集此类信息的努力。在我们的研究中,我们注释了第一个网络安全域实体对齐数据集并揭示安全实体的独特特征。基于这些观察结果,我们提出了第一个网络安全实体对准模型CEAM,该模型CAM,该模型为基于GNN的实体比对配备了两种机制:不对称的掩盖聚集和分区的注意力。网络安全域实体比对数据集的实验结果表明,CEAM明显优于最先进的实体比对方法。
translated by 谷歌翻译