实体对齐是知识图(kg)集成中的基本且至关重要的技术。多年来,对实体一致性的研究一直存在于KG是静态的假设,该假设忽略了现实世界KG的生长本质。随着KG的成长,先前的一致性结果面临需要重新审视的,而新实体对齐等待被发现。在本文中,我们建议并深入研究现实但未开发的设置,称为持续实体对齐。为了避免在新实体和三元组来时对整个KGS进行整个模型,我们为此任务提供了一种持续的对齐方法。它基于实体邻接,重建实体的表示,使其能够使用其现有邻居快速而有归纳的新实体生成嵌入。它选择并重播部分预先对准的实体对,仅训练一部分KG,同时提取可信赖的知识对准知识增强。由于不可避免地要包含与以前的作品不同的不可匹配的实体,因此所提出的方法采用双向最近的邻居匹配来找到新的实体对齐并更新旧的对齐。此外,我们还通过模拟多语言dbpedia的增长来构建新数据集。广泛的实验表明,我们的持续比对方法比基于再培训或归纳学习的基准更有效。
translated by 谷歌翻译
实体对齐是知识图融合中的至关重要任务。但是,大多数实体对准方法都有可伸缩性问题。最近的方法通过将大型公斤分成小块来解决这个问题,以嵌入和对齐学习。但是,这种分区和学习过程导致结构和对齐过度损失过多。因此,在这项工作中,我们提出了一种可扩展的基于GNN的实体对准方法,以从三个角度降低结构和对齐损失。首先,我们提出一种基于中心性的子图生成算法,以回顾一些具有不同子图之间桥梁的地标实体。其次,我们介绍了自我监督的实体重建,以从不完整的邻里子图中恢复实体表示形式,并设计了跨纸笔负面抽样,以在对齐学习中纳入其他子图中的实体。第三,在推理过程中,我们合并子图的嵌入,以制作一个单个空间进行对齐搜索。基准开放数据集和提议的大型DBPEDIA1M数据集的实验结果验证了我们方法的有效性。
translated by 谷歌翻译
实体对齐是将知识图(KGS)与多个源集成的重要步骤。以前的实体对齐尝试已经探索了不同的kg结构,例如基于邻域和基于路径的上下文,以学习实体嵌入物,但它们受到捕获多上下文特征的限制。此外,大多数方法直接利用嵌入相似性以确定实体对齐,而不考虑实体和关系之间的全局互动。在这项工作中,我们提出了一个明智的多上下文实体对齐(IMEA)模型来解决这些问题。特别是,我们引入变压器以灵活地捕获关系,路径和邻域背景,并根据嵌入相似度和关系/实体功能设计整体推理以估计对齐概率。从整体推理获得的对准证据通过所提出的软标签编辑进一步注入变压器,以通知嵌入学习。与现有的最先进的实体对准方法相比,若干基准数据集上的实验结果证明了IMEA模型的优越性。
translated by 谷歌翻译
Entity alignment is to find identical entities in different knowledge graphs (KGs) that refer to the same real-world object. Embedding-based entity alignment techniques have been drawing a lot of attention recently because they can help solve the issue of symbolic heterogeneity in different KGs. However, in this paper, we show that the progress made in the past was due to biased and unchallenging evaluation. We highlight two major flaws in existing datasets that favor embedding-based entity alignment techniques, i.e., the isomorphic graph structures in relation triples and the weak heterogeneity in attribute triples. Towards a critical evaluation of embedding-based entity alignment methods, we construct a new dataset with heterogeneous relations and attributes based on event-centric KGs. We conduct extensive experiments to evaluate existing popular methods, and find that they fail to achieve promising performance. As a new approach to this difficult problem, we propose a time-aware literal encoder for entity alignment. The dataset and source code are publicly available to foster future research. Our work calls for more effective and practical embedding-based solutions to entity alignment.
translated by 谷歌翻译
知识图(kg)对齐 - 指识别不同kgs中同一件事的实体的任务 - 被认为是KG构造领域中最重要的操作之一。然而,现有的对齐技术通常假设输入kgs是完整的并且同性的,这是由于域,大小和稀疏性的现实世界异质性而不是真实。在这项工作中,我们解决了与代表学习对齐不完整的KG对齐的问题。我们的KG嵌入式框架利用了两个特征频道:基于传输型和基于接近的。前者通过翻译路径捕获实体之间的一致性约束,而后者通过注意引导关系感知图形神经网络捕获KG的邻域结构。两个特征频道共同学习以在输入kgs之间交换重要特征,同时强制在同一嵌入空间中强制输入kg的输出表示。此外,我们开发了缺失的链接检测器,该探测器发现并恢复培训过程中输入kgs中的缺失链接,这有助于减轻不完整性问题,从而提高学习象征的兼容性。然后将嵌入的熔合融合以生成对准结果,并且高置信匹配节点对被更新为预先调整的监控数据以逐渐改善嵌入。经验结果表明,我们的型号比SOTA更准确,而且对不同级别的不完整性较高,高达15.2 \%。我们还证明了KGS之间交换的知识有助于揭示知识图表(A.K.A.知识完成)的看不见的事实,结果比SOTA知识图形完成技术高3.5 \%。
translated by 谷歌翻译
知识图(KG)嵌入旨在学习连续矢量空间中kg的实体和关系的潜在表示。一个经验观察是,与相同关系相关的头部(尾巴)实体通常具有相似的语义属性 - 特别是它们通常属于同一类别 - 无论他们在kg中彼此之间有多远。也就是说,他们具有全球语义相似性。但是,许多现有方法基于本地信息得出了kg嵌入,这些信息无法有效地捕获实体之间的这种全球语义相似性。为了应对这一挑战,我们提出了一种新颖的方法,该方法引入了一组称为\ textit {\ textbf {关系原型实体}}的虚拟节点,以表示由相同关系连接的头和尾部实体的原型。通过强制实体的嵌入靠近其相关的原型的嵌入,我们的方法可以有效地鼓励实体的全球语义相似性(可以在kg中很远 - 通过相同的关系相连。实体一致性和KG完成任务的实验表明,我们的方法显着优于最近的最新方法。
translated by 谷歌翻译
本文介绍了$ \ mu \ text {kg} $,一个开源python库,用于在知识图上进行表示。 $ \ mu \ text {kg} $支持通过多源知识图(以及单个知识图),多个深度学习库(Pytorch和Tensorflow2),多个嵌入任务(链接预​​测,实体对准,实体键入,实体键入),支持联合表示。 ,以及多源链接预测)以及多个并行计算模式(多进程和多GPU计算)。它目前实现26个流行知识图嵌入模型,并支持16个基准数据集。 $ \ mu \ text {kg} $提供了具有不同任务的简化管道的嵌入技术的高级实现。它还带有高质量的文档,以易于使用。 $ \ mu \ text {kg} $比现有的知识图嵌入库更全面。它对于对各种嵌入模型和任务进行彻底比较和分析非常有用。我们表明,共同学习的嵌入可以极大地帮助知识驱动的下游任务,例如多跳知识图形答案。我们将与相关字段中的最新发展保持一致,并将其纳入$ \ mu \ text {kg} $中。
translated by 谷歌翻译
Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.
translated by 谷歌翻译
实体对齐(EA)的目的是匹配引用相同现实世界对象的等效实体,并且是知识图(kg)融合的关键步骤。大多数神经EA模型由于其过度消耗GPU记忆和时间而无法应用于大型现实生活中。一种有希望的解决方案是将大型EA任务分为几个子任务,以便每个子任务只需要匹配原始kg的两个小子图。但是,在不失去效力的情况下分配EA任务是一个挑战。现有方法显示了潜在映射的覆盖范围较低,上下文图中的证据不足以及子任务的大小不同。在这项工作中,我们设计了具有高质量任务部门的大规模EA的分区框架。为了在EA子任务中包括最初存在于大型EA任务中的潜在映射的很大比例,我们设计了一种对应的发现方法,该方法利用了EA任务的局部原理和训练有素的EA模型的力量。我们的对手发现方法独有的是潜在映射的机会的明确建模。我们还介绍了传递机制的证据,以量化上下文实体的信息性,并找到对子任务大小的灵活控制的最有用的上下文图。广泛的实验表明,与替代性的最先进的解决方案相比,分区的EA性能更高。
translated by 谷歌翻译
Existing knowledge graph (KG) embedding models have primarily focused on static KGs. However, real-world KGs do not remain static, but rather evolve and grow in tandem with the development of KG applications. Consequently, new facts and previously unseen entities and relations continually emerge, necessitating an embedding model that can quickly learn and transfer new knowledge through growth. Motivated by this, we delve into an expanding field of KG embedding in this paper, i.e., lifelong KG embedding. We consider knowledge transfer and retention of the learning on growing snapshots of a KG without having to learn embeddings from scratch. The proposed model includes a masked KG autoencoder for embedding learning and update, with an embedding transfer strategy to inject the learned knowledge into the new entity and relation embeddings, and an embedding regularization method to avoid catastrophic forgetting. To investigate the impacts of different aspects of KG growth, we construct four datasets to evaluate the performance of lifelong KG embedding. Experimental results show that the proposed model outperforms the state-of-the-art inductive and lifelong embedding baselines.
translated by 谷歌翻译
近年来,人们对少量知识图(FKGC)的兴趣日益增加,该图表旨在推断出关于该关系的一些参考三元组,从而推断出不见了的查询三倍。现有FKGC方法的主要重点在于学习关系表示,可以反映查询和参考三元组共享的共同信息。为此,这些方法从头部和尾部实体的直接邻居中学习实体对表示,然后汇总参考实体对的表示。但是,只有从直接邻居那里学到的实体对代表可能具有较低的表现力,当参与实体稀疏直接邻居或与其他实体共享一个共同的当地社区。此外,仅仅对头部和尾部实体的语义信息进行建模不足以准确推断其关系信息,尤其是当它们具有多个关系时。为了解决这些问题,我们提出了一个特定于关系的上下文学习(RSCL)框架,该框架利用了三元组的图形上下文,以学习全球和本地关系特定的表示形式,以使其几乎没有相关关系。具体而言,我们首先提取每个三倍的图形上下文,这可以提供长期实体关系依赖性。为了编码提取的图形上下文,我们提出了一个分层注意网络,以捕获三元组的上下文信息并突出显示实体的有价值的本地邻里信息。最后,我们设计了一个混合注意聚合器,以评估全球和本地级别的查询三元组的可能性。两个公共数据集的实验结果表明,RSCL的表现优于最先进的FKGC方法。
translated by 谷歌翻译
多年来,旨在从已知事实中推断出新结论的知识图(KGS)的推理主要集中在静态KG上。现实生活中知识的不断增长提出了使能够扩大KGS的归纳推理能力的必要性。现有的归纳工作假设新实体都在批处理中一次出现,这过度简化了新实体不断出现的实际情况。这项研究探讨了一个更现实,更具挑战性的环境,新实体分为多批次。我们提出了一个基于步行的归纳推理模型来解决新环境。具体而言,具有自适应关系聚合的图形卷积网络旨在使用其邻近关系编码和更新实体。为了捕捉不同的邻居的重要性,我们在聚合过程中采用了一种查询反馈注意机制。此外,为了减轻新实体的稀疏链接问题,我们提出了一种链接增强策略,以将可信赖的事实添加到KGS中。我们构建了三个新数据集,用于模拟此多批次出现方案。实验结果表明,我们所提出的模型优于基于最先进的基于嵌入的,基于步行的基于步行和基于规则的模型。
translated by 谷歌翻译
In knowledge graph completion (KGC), predicting triples involving emerging entities and/or relations, which are unseen when the KG embeddings are learned, has become a critical challenge. Subgraph reasoning with message passing is a promising and popular solution. Some recent methods have achieved good performance, but they (i) usually can only predict triples involving unseen entities alone, failing to address more realistic fully inductive situations with both unseen entities and unseen relations, and (ii) often conduct message passing over the entities with the relation patterns not fully utilized. In this study, we propose a new method named RMPI which uses a novel Relational Message Passing network for fully Inductive KGC. It passes messages directly between relations to make full use of the relation patterns for subgraph reasoning with new techniques on graph transformation, graph pruning, relation-aware neighborhood attention, addressing empty subgraphs, etc., and can utilize the relation semantics defined in the ontological schema of KG. Extensive evaluation on multiple benchmarks has shown the effectiveness of techniques involved in RMPI and its better performance compared with the existing methods that support fully inductive KGC. RMPI is also comparable to the state-of-the-art partially inductive KGC methods with very promising results achieved. Our codes and data are available at https://github.com/zjukg/RMPI.
translated by 谷歌翻译
实体对齐旨在发现在不同知识图(kg)之间具有相同含义的独特等效实体对。对于知识整合或融合,这是一项令人信服但具有挑战性的任务。现有模型主要集中于将KGS投射到潜在的嵌入空间中,以捕获实体对齐实体之间的固有语义。但是,一致性冲突的不利影响在训练过程中被大大忽略了,从而限制了实体对准绩效。为了解决这个问题,我们提出了一种新颖的冲突感知伪标签,该标签通过最佳运输模型(CPL-OT)进行实体对齐。 CPL-OT的关键思想是迭代的伪标签对齐对,并通过冲突意识到的最佳运输建模授权,以提高实体对齐的精度。 CPL-OT由两个关键组成部分 - 实体嵌入学习,其中包括全球本地聚集和迭代冲突感知的伪标签 - 相互互相加强。为了减轻伪标签期间的一致性冲突,我们建议使用最佳运输(OT)作为有效手段,以保证两公斤之间的一对一实体对齐,而总体运输成本最少。运输成本被计算为通过图形卷积获得的实体嵌入之间的整流距离,并用全球级别的语义增强。基准数据集的广泛实验表明,在有或没有先前对齐种子的两个设置下,CPL-OT可以显着超过最先进的基准。
translated by 谷歌翻译
实体对齐(EA)的目的是在不同的知识图(kgs)中找到指代现实世界中同一对象的实体。最近的研究结合了时间信息,以增强KGS的表示。暂时KGS(TKG)之间的EA的现有方法利用时间感知的注意机制将关系和时间信息纳入实体嵌入中。该方法通过使用时间信息优于先前的方法。但是,我们认为,由于大多数TKG具有统一的时间表示,因此不必学习kgs中的时间信息的嵌入。因此,我们提出了一个简单的图形神经网络(GNN)模型,并结合了时间信息匹配机制,该模型以更少的时间和更少的参数实现了更好的性能。此外,由于对齐种子很难在现实世界应用中标记,因此我们还提出了一种通过TKG的时间信息生成无监督比对种子的方法。公共数据集的广泛实验表明,我们的监督方法显着优于先前的方法,而无监督的方法具有竞争性能。
translated by 谷歌翻译
实体对齐(EA)在学术界和工业中都引起了广泛的关注,该行业旨在寻求具有不同知识图(KGS)相同含义的实体。 KGS中的实体之间存在实质性的多步关系路径,表明实体的语义关系。但是,现有方法很少考虑路径信息,因为并非所有自然路径都促进EA判断。在本文中,我们提出了一个更有效的实体对齐框架RPR-RHGT,该框架集成了关系和路径结构信息以及KGS中的异质信息。令人印象深刻的是,开发了一种初始可靠的路径推理算法来生成有利于EA任务的路径,从KGS的关系结构中,这是文献中第一个成功使用无限制路径信息的算法。此外,为了有效地捕获实体社区中的异质特征,设计的异质图变压器旨在建模KGS的关系和路径结构。在三个著名数据集上进行的广泛实验表明,RPR-RHGT的表现明显优于11种最佳方法,超过了命中率@1的最佳性能基线最高8.62%。我们还表现出比基线在训练集的不同比率和更难数据集的基线上更好的性能。
translated by 谷歌翻译
事实证明,信息提取方法可有效从结构化或非结构化数据中提取三重。以(头部实体,关系,尾部实体)形式组织这样的三元组的组织称为知识图(kgs)。当前的大多数知识图都是不完整的。为了在下游任务中使用kgs,希望预测kgs中缺少链接。最近,通过将实体和关系嵌入到低维的矢量空间中,旨在根据先前访问的三元组来预测三元组,从而对KGS表示不同的方法。根据如何独立或依赖对三元组进行处理,我们将知识图完成的任务分为传统和图形神经网络表示学习,并更详细地讨论它们。在传统的方法中,每个三重三倍将独立处理,并在基于GNN的方法中进行处理,三倍也考虑了他们的当地社区。查看全文
translated by 谷歌翻译
实体对齐(EA)通过识别不同图中的等效实体来合并知识图(kgs),这些实体可以有效地丰富KGS的知识表示。但是,在实践中,不同的公斤通常包括悬挂的实体,在另一个图中找不到对应物的悬挂实体,这限制了EA方法的性能。为了通过悬挂实体改善EA,我们提出了一种无监督的方法,称为“半约束最佳运输实体对齐”(Sotead)。我们的主要思想是将两个公斤之间的实体对准建模为从一个公斤实体到其他实体的最佳运输问题。首先,我们基于验证的单词嵌入在kgs之间设置伪实体对。然后,我们进行对比度度量学习以获得每个实体对之间的运输成本。最后,我们为每个公斤介绍一个虚拟实体,以“对齐”其他kg的悬挂实体,从而放松优化约束,并导致半约束最佳运输。在实验部分中,我们首先显示了Sotead在常用实体对齐数据集上的优越性。此外,为了分析与其他基线的悬挂实体检测能力,我们构建了一个医学跨语言知识图数据集Meded,我们的Sotead也达到了最先进的性能。
translated by 谷歌翻译
外部知识(A.K.A.侧面信息)在零拍摄学习(ZSL)中起着关键作用,该角色旨在预测从未出现在训练数据中的看不见的类。已被广泛调查了几种外部知识,例如文本和属性,但他们独自受到不完整的语义。因此,一些最近的研究提出了由于其高度富有效力和代表知识的兼容性而使用知识图表(千克)。但是,ZSL社区仍然缺乏用于学习和比较不同外部知识设置和基于不同的KG的ZSL方法的标准基准。在本文中,我们提出了六个资源,涵盖了三个任务,即零拍摄图像分类(ZS-IMGC),零拍摄关系提取(ZS-RE)和零拍KG完成(ZS-KGC)。每个资源都有一个正常的zsl基准标记和包含从文本到属性的kg的kg,从关系知识到逻辑表达式。我们已清楚地介绍了这些资源,包括其建设,统计数据格式和使用情况W.r.t.不同的ZSL方法。更重要的是,我们进行了一项全面的基准研究,具有两个通用和最先进的方法,两种特定方法和一种可解释方法。我们讨论并比较了不同的ZSL范式W.R.T.不同的外部知识设置,并发现我们的资源具有开发更高级ZSL方法的巨大潜力,并为应用KGS进行增强机学习的更多解决方案。所有资源都可以在https://github.com/china-uk-zsl/resources_for_kzsl上获得。
translated by 谷歌翻译
网络安全漏洞信息通常由多个渠道记录,包括政府漏洞存储库,个人维护的漏洞收集平台或漏洞披露的电子邮件列表和论坛。从不同渠道整合脆弱性信息可以使全面的威胁评估和快速部署到各种安全机制。但是,当今实体一致性技术的局限性阻碍了自动收集此类信息的努力。在我们的研究中,我们注释了第一个网络安全域实体对齐数据集并揭示安全实体的独特特征。基于这些观察结果,我们提出了第一个网络安全实体对准模型CEAM,该模型CAM,该模型为基于GNN的实体比对配备了两种机制:不对称的掩盖聚集和分区的注意力。网络安全域实体比对数据集的实验结果表明,CEAM明显优于最先进的实体比对方法。
translated by 谷歌翻译