将知识图嵌入到低维空间中是将方法(例如链接预测或节点分类)应用于这些数据库的流行方法。就计算时间和空间而言,这种嵌入过程非常昂贵。其部分原因是对超参数的优化,涉及从大型超参数空间中反复,引导或蛮力选择反复采样,并测试所得嵌入的质量。但是,并非该搜索空间中的所有超参数都同样重要。实际上,在先验了解超参数的相对重要性的情况下,可以完全从搜索中消除一些,而不会显着影响输出嵌入的整体质量。为此,我们进行了SOBOL灵敏度分析,以评估调整不同超参数对嵌入质量方差的影响。这是通过进行数千个嵌入试验来实现的,每次测量不同的超参数构型产生的嵌入质量。我们使用此模型为每个高参数生成SOBOL灵敏度指数,对这些超参数配置的嵌入质量进行了回归。通过评估SOBOL指数之间的相关性,我们发现具有不同数据集特征的知识图之间的超参数敏感性的显着差异是这些不一致的可能原因。作为这项工作的另一个贡献,我们确定了UMLS知识图中的几个关系,这些关系可能会通过逆关系导致数据泄漏,并得出并存在该图的泄漏射击变体的UMLS-43。
translated by 谷歌翻译
最近公布的知识图形嵌入模型的实施,培训和评估的异质性已经公平和彻底的比较困难。为了评估先前公布的结果的再现性,我们在Pykeen软件包中重新实施和评估了21个交互模型。在这里,我们概述了哪些结果可以通过其报告的超参数再现,这只能以备用的超参数再现,并且无法再现,并且可以提供洞察力,以及为什么会有这种情况。然后,我们在四个数据集上进行了大规模的基准测试,其中数千个实验和24,804 GPU的计算时间。我们展示了最佳实践,每个模型的最佳配置以及可以通过先前发布的最佳配置进行改进的洞察。我们的结果强调了模型架构,训练方法,丢失功能和逆关系显式建模的组合对于模型的性能来说至关重要,而不仅由模型架构决定。我们提供了证据表明,在仔细配置时,若干架构可以获得对最先进的结果。我们制定了所有代码,实验配置,结果和分析,导致我们在https://github.com/pykeen/pykeen和https://github.com/pykeen/benchmarking中获得的解释
translated by 谷歌翻译
知识图嵌入(KGE)模型是一种有效且流行的方法,可以通过多关系数据来表示和理由。先前的研究表明,KGE模型对高参数设置敏感,并且合适的选择依赖于数据集。在本文中,我们探索了高参数优化(HPO),以获取非常大的知识图,其中评估单个超参数配置的成本过高。先前的研究经常通过使用各种启发式方法来避免这种成本。例如,通过在子图上进行训练或使用更少的时期。我们系统地讨论并评估了这种启发式方法和其他低成本近似技术的质量和成本节省。根据我们的发现,我们引入了Grash,这是一种有效的大规模KGE的多保真HPO算法,结合了图形和时代还原技术并以多个富裕性的储蓄率组合。我们进行了一项实验研究,发现Grash以低成本(总共三个完整的训练运行)在大图上获得最先进的结果。
translated by 谷歌翻译
改善疾病的护理标准是关于更好的治疗方法,反过来依赖于寻找和开发新药。然而,药物发现是一个复杂且昂贵的过程。通过机器学习的方法采用了利用域固有的互连性质的药物发现知识图的创建。基于图形的数据建模,结合知识图形嵌入式提供了更直观的域表示,适用于推理任务,例如预测缺失链路。一个这样的例子将产生对给定疾病的可能相关基因的排名列表,通常被称为目标发现。因此,这是关键的,即这些预测不仅是相关的,而且是生物学上的有意义的。然而,知识图形可以直接偏向,由于集成的底层数据源,或者由于图形构造中的建模选择,其中的一个结果是某些实体可以在拓扑上超越。我们展示了知识图形嵌入模型可能受到这种结构不平衡的影响,导致无论上下文都要高度排名的密集连接实体。我们在不同的数据集,模型和预测任务中提供对此观察的支持。此外,我们展示了如何通过随机,生物学上无意义的信息扰乱图形拓扑结构以人为地改变基因的等级。这表明这种模型可能会受到实体频率而不是在关系中编码的生物学信息的影响,当实体频率不是基础数据的真实反射时,创建问题。我们的结果突出了数据建模选择的重要性,并强调了从业者在解释模型输出和知识图形组合期间时要注意这些问题。
translated by 谷歌翻译
我们研究知识图嵌入(KGE)对知识图(KG)完成的有效性,并通过规则挖掘完成。更具体地说,我们在KGE完成之前和之后从KGS中挖掘规则,以比较提取的规则的可能差异。我们将此方法应用于经典的方法,尤其是Transe,Distmult and Complext。我们的实验表明,根据KGE完成的KGE方法,提取的规则之间可能存在巨大差异。特别是,在完成转盘后,提取了几条虚假规则。
translated by 谷歌翻译
Link prediction for knowledge graphs is the task of predicting missing relationships between entities. Previous work on link prediction has focused on shallow, fast models which can scale to large knowledge graphs. However, these models learn less expressive features than deep, multi-layer modelswhich potentially limits performance. In this work we introduce ConvE, a multi-layer convolutional network model for link prediction, and report state-of-the-art results for several established datasets. We also show that the model is highly parameter efficient, yielding the same performance as DistMult and R-GCN with 8x and 17x fewer parameters. Analysis of our model suggests that it is particularly effective at modelling nodes with high indegree -which are common in highlyconnected, complex knowledge graphs such as Freebase and YAGO3. In addition, it has been noted that the WN18 and FB15k datasets suffer from test set leakage, due to inverse relations from the training set being present in the test sethowever, the extent of this issue has so far not been quantified. We find this problem to be severe: a simple rule-based model can achieve state-of-the-art results on both WN18 and FB15k. To ensure that models are evaluated on datasets where simply exploiting inverse relations cannot yield competitive results, we investigate and validate several commonly used datasets -deriving robust variants where necessary. We then perform experiments on these robust datasets for our own and several previously proposed models, and find that ConvE achieves state-of-the-art Mean Reciprocal Rank across most datasets.
translated by 谷歌翻译
多跳跃逻辑推理是在知识图(KGS)上学习领域的一个已建立问题。它涵盖了单跳连接预测以及其他更复杂的逻辑查询类型。现有的算法仅在经典的三重基图上运行,而现代KG经常采用超相关的建模范式。在此范式中,键入的边缘可能具有几对键值对,称为限定符,可为事实提供细粒度的环境。在查询中,此上下文修改了关系的含义,通常会减少答案集。经常在现实世界中的应用程序中观察到超相关的查询,并且现有的近似查询答案方法无法使用预选赛对。在这项工作中,我们弥合了这一差距,并将多跳的推理问题扩展到了超级关系的KG,允许解决这一新类型的复杂查询。在图形神经网络和查询嵌入技术的最新进展之下,我们研究了如何嵌入和回答超相关的连词查询。除此之外,我们还提出了一种回答此类查询并在我们的实验中证明的方法,即预选赛可以改善对各种查询模式的查询回答。
translated by 谷歌翻译
我们根据生态毒理学风险评估中使用的主要数据来源创建了知识图表。我们已经将这种知识图表应用于风险评估中的重要任务,即化学效果预测。我们已经评估了在该预测任务的各种几何,分解和卷积模型中嵌入模型的九个知识图形嵌入模型。我们表明,使用知识图形嵌入可以提高与神经网络的效果预测的准确性。此外,我们已经实现了一种微调架构,它将知识图形嵌入到效果预测任务中,并导致更好的性能。最后,我们评估知识图形嵌入模型的某些特征,以阐明各个模型性能。
translated by 谷歌翻译
知识图(kg)完成是一项重要任务,它极大地使许多领域的知识发现受益(例如生物医学研究)。近年来,学习kg嵌入以执行此任务的嵌入引起了很大的关注。尽管KG嵌入方法成功,但它们主要使用负抽样,从而增加了计算复杂性以及由于封闭的世界假设而引起的偏见预测。为了克服这些局限性,我们提出了\ textbf {kg-nsf},这是一个基于嵌入向量的互相关矩阵学习kg嵌入的无负抽样框架。结果表明,所提出的方法在收敛速度更快的同时,将可比较的链接预测性能与基于阴性采样的方法达到了可比性的预测性能。
translated by 谷歌翻译
学术知识图(KGS)提供了代表科学出版物编码的知识的丰富的结构化信息来源。随着出版的科学文学的庞大,包括描述科学概念的过多的非均匀实体和关系,这些公斤本质上是不完整的。我们呈现Exbert,一种利用预先训练的变压器语言模型来执行学术知识图形完成的方法。我们将知识图形的三元组模型为文本并执行三重分类(即,属于KG或不属于KG)。评估表明,在三重分类,链路预测和关系预测的任务中,Exbert在三个学术kg完成数据集中表现出其他基线。此外,我们将两个学术数据集作为研究界的资源,从公共公共公报和在线资源中收集。
translated by 谷歌翻译
本文介绍了$ \ mu \ text {kg} $,一个开源python库,用于在知识图上进行表示。 $ \ mu \ text {kg} $支持通过多源知识图(以及单个知识图),多个深度学习库(Pytorch和Tensorflow2),多个嵌入任务(链接预​​测,实体对准,实体键入,实体键入),支持联合表示。 ,以及多源链接预测)以及多个并行计算模式(多进程和多GPU计算)。它目前实现26个流行知识图嵌入模型,并支持16个基准数据集。 $ \ mu \ text {kg} $提供了具有不同任务的简化管道的嵌入技术的高级实现。它还带有高质量的文档,以易于使用。 $ \ mu \ text {kg} $比现有的知识图嵌入库更全面。它对于对各种嵌入模型和任务进行彻底比较和分析非常有用。我们表明,共同学习的嵌入可以极大地帮助知识驱动的下游任务,例如多跳知识图形答案。我们将与相关字段中的最新发展保持一致,并将其纳入$ \ mu \ text {kg} $中。
translated by 谷歌翻译
知识图表(KGS)是真实世界事实的结构化表示,是融合人类知识的智能数据库,可以帮助机器模仿人类问题的方法。然而,由于快速迭代的性质以及数据的不完整,KGs通常是巨大的,并且在公斤上有不可避免的事实。对于知识图链接的预测是针对基于现有的知识推理来完成缺少事实的任务。广泛研究了两个主要的研究流:一个学习可以捕获潜在模式的实体和关系的低维嵌入,以及通过采矿逻辑规则的良好解释性。不幸的是,以前的研究很少关注异质的KG。在本文中,我们提出了一种将基于嵌入的学习和逻辑规则挖掘结合的模型,以推断在KG上。具体地,我们研究了从节点程度的角度涉及各种类型的实体和关系的异构kg中的缺失链接的问题。在实验中,我们证明了我们的DegreEmbed模型优于对现实世界的数据集的国家的最先进的方法。同时,我们模型开采的规则具有高质量和可解释性。
translated by 谷歌翻译
近年来,人们对少量知识图(FKGC)的兴趣日益增加,该图表旨在推断出关于该关系的一些参考三元组,从而推断出不见了的查询三倍。现有FKGC方法的主要重点在于学习关系表示,可以反映查询和参考三元组共享的共同信息。为此,这些方法从头部和尾部实体的直接邻居中学习实体对表示,然后汇总参考实体对的表示。但是,只有从直接邻居那里学到的实体对代表可能具有较低的表现力,当参与实体稀疏直接邻居或与其他实体共享一个共同的当地社区。此外,仅仅对头部和尾部实体的语义信息进行建模不足以准确推断其关系信息,尤其是当它们具有多个关系时。为了解决这些问题,我们提出了一个特定于关系的上下文学习(RSCL)框架,该框架利用了三元组的图形上下文,以学习全球和本地关系特定的表示形式,以使其几乎没有相关关系。具体而言,我们首先提取每个三倍的图形上下文,这可以提供长期实体关系依赖性。为了编码提取的图形上下文,我们提出了一个分层注意网络,以捕获三元组的上下文信息并突出显示实体的有价值的本地邻里信息。最后,我们设计了一个混合注意聚合器,以评估全球和本地级别的查询三元组的可能性。两个公共数据集的实验结果表明,RSCL的表现优于最先进的FKGC方法。
translated by 谷歌翻译
神经网络的最新进步已经解决了常见的图表问题,例如链路预测,节点分类,节点聚类,通过将实体和关系的嵌入和关系开发到向量空间中来看。绘图嵌入式对图中存在的结构信息进行编码。然后,编码嵌入式可用于预测图中的缺失链接。然而,获得图表的最佳嵌入可以是嵌入式系统中的计算具有挑战性的任务。我们在这项工作中专注的两种技术是1)节点嵌入来自随机步行的方法和2)知识图形嵌入。随机播放的嵌入物是计算地廉价的,但是是次优的,而知识图形嵌入物表现更好,但是计算得昂贵。在这项工作中,我们研究了转换从基于随机步行方法获得的节点嵌入的转换模型,以直接从知识图方法获得的嵌入,而不会增加计算成本。广泛的实验表明,所提出的变换模型可用于实时解决链路预测。
translated by 谷歌翻译
We present the OPEN GRAPH BENCHMARK (OGB), a diverse set of challenging and realistic benchmark datasets to facilitate scalable, robust, and reproducible graph machine learning (ML) research. OGB datasets are large-scale, encompass multiple important graph ML tasks, and cover a diverse range of domains, ranging from social and information networks to biological networks, molecular graphs, source code ASTs, and knowledge graphs. For each dataset, we provide a unified evaluation protocol using meaningful application-specific data splits and evaluation metrics. In addition to building the datasets, we also perform extensive benchmark experiments for each dataset. Our experiments suggest that OGB datasets present significant challenges of scalability to large-scale graphs and out-of-distribution generalization under realistic data splits, indicating fruitful opportunities for future research. Finally, OGB provides an automated end-to-end graph ML pipeline that simplifies and standardizes the process of graph data loading, experimental setup, and model evaluation. OGB will be regularly updated and welcomes inputs from the community. OGB datasets as well as data loaders, evaluation scripts, baseline code, and leaderboards are publicly available at https://ogb.stanford.edu.
translated by 谷歌翻译
知识图嵌入(KGE)方法已从广泛的AI社区(包括自然语言处理(NLP))中引起了极大的关注,用于文本生成,分类和上下文诱导。用少数维度嵌入大量的相互关系,需要在认知和计算方面进行适当的建模。最近,开发了有关自然语言的认知和计算方面的许多目标功能。其中包括最新的线性方法,双线性,具有歧管的内核,投影 - 空间和类似推断。但是,这种模型的主要挑战在于它们的损失函数,将关系嵌入的维度与相应的实体维度相关联。当错误估计对应物时,这导致对实体之间相应关系的预测不准确。 Bordes等人发表的Proje Kge由于计算复杂性低和模型改进的高潜力,在所有翻译和双线性相互作用的同时,在捕获实体非线性的同时,都改善了这项工作。基准知识图(KGS)(例如FB15K和WN18)的实验结果表明,所提出的方法使用线性和双线性方法以及其他最新功能的方法在实体预测任务中的最新模型优于最先进的模型。另外,为该模型提出了平行处理结构,以提高大型kg的可伸缩性。还解释了不同自适应聚类和新提出的抽样方法的影响,这被证明可以有效提高知识图完成的准确性。
translated by 谷歌翻译
图表学习方法为解决图形所代表的复杂的现实世界问题打开了新的可能性。但是,这些应用程序中使用的许多图包括数百万节点和数十亿个边缘,并且超出了当前方法和软件实现的功能。我们提供葡萄,这是一种用于图形处理和表示学习的软件资源,能够通过使用专业和智能数据结构,算法和快速并行实现来通过大图扩展。与最先进的软件资源相比,葡萄显示出经验空间和时间复杂性的数量级的改善,以及边缘预测和节点标签预测性能的实质和统计学上的显着改善。此外,葡萄提供了来自文献和其他来源的80,000多种图,标准化界面允许直接整合第三方库,61个节点嵌入方法,25个推理模型和3个模块化管道,以允许公平且可重复的方法比较以及用于图形处理和嵌入的库。
translated by 谷歌翻译
Knowledge graphs enable a wide variety of applications, including question answering and information retrieval. Despite the great effort invested in their creation and maintenance, even the largest (e.g., Yago, DBPedia or Wikidata) remain incomplete. We introduce Relational Graph Convolutional Networks (R-GCNs) and apply them to two standard knowledge base completion tasks: Link prediction (recovery of missing facts, i.e. subject-predicate-object triples) and entity classification (recovery of missing entity attributes). R-GCNs are related to a recent class of neural networks operating on graphs, and are developed specifically to deal with the highly multi-relational data characteristic of realistic knowledge bases. We demonstrate the effectiveness of R-GCNs as a stand-alone model for entity classification. We further show that factorization models for link prediction such as DistMult can be significantly improved by enriching them with an encoder model to accumulate evidence over multiple inference steps in the relational graph, demonstrating a large improvement of 29.8% on FB15k-237 over a decoder-only baseline. * Equal contribution.
translated by 谷歌翻译
知识图嵌入模型已成为机器学习的重要领域。这些模型在知识图中提供了实体和关系的潜在表示,然后可以在下游机器学习任务(例如链接预测)中使用。这些模型的学习过程可以通过对比正面和负三元组来执行。虽然所有千克的三元组都被认为是正的,但负三元三联通常不容易获得。因此,获得的采样方法的选择在知识图嵌入模型的性能和有效性中起着至关重要的作用。当前的大多数方法从基础知识图中实体的随机分布中获取负面样本,这些样本通常还包括毫无意义的三元组。其他已知方法使用对抗技术或生成神经网络,从而降低了过程的效率。在本文中,我们提出了一种方法,以产生有关实体的可用互补知识的信息负面样本。特别是,预训练的语言模型用于通过利用实体之间的距离来形成邻里群集,以通过其文本信息获得符号实体的表示。我们的全面评估证明了拟议方法在基准知识图上具有链接预测任务的文本信息的有效性。
translated by 谷歌翻译
Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.
translated by 谷歌翻译