We study the problem of explaining link predictions in the Knowledge Graph Embedding (KGE) models. We propose an example-based approach that exploits the latent space representation of nodes and edges in a knowledge graph to explain predictions. We evaluated the importance of identified triples by observing progressing degradation of model performance upon influential triples removal. Our experiments demonstrate that this approach to generate explanations outperforms baselines on KGE models for two publicly available datasets.
translated by 谷歌翻译
多跳跃逻辑推理是在知识图(KGS)上学习领域的一个已建立问题。它涵盖了单跳连接预测以及其他更复杂的逻辑查询类型。现有的算法仅在经典的三重基图上运行,而现代KG经常采用超相关的建模范式。在此范式中,键入的边缘可能具有几对键值对,称为限定符,可为事实提供细粒度的环境。在查询中,此上下文修改了关系的含义,通常会减少答案集。经常在现实世界中的应用程序中观察到超相关的查询,并且现有的近似查询答案方法无法使用预选赛对。在这项工作中,我们弥合了这一差距,并将多跳的推理问题扩展到了超级关系的KG,允许解决这一新类型的复杂查询。在图形神经网络和查询嵌入技术的最新进展之下,我们研究了如何嵌入和回答超相关的连词查询。除此之外,我们还提出了一种回答此类查询并在我们的实验中证明的方法,即预选赛可以改善对各种查询模式的查询回答。
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译
尽管使用知识图形嵌入式(KGE),但对于可能会扰乱其预期行为的安全漏洞很少。我们研究了对KGE模型进行链路预测的数据中毒攻击。这些攻击在训练时间进行工艺对抗性添加或删除,以在测试时间造型失败。要选择对抗性删除,我们建议使用来自可解释的机器学习的模型 - 无人实例归因方法,该模型 - 无可争议的机器学习,该模型算法识别对神经模型对测试实例的预测最大的培训实例。我们使用这些有影响力的三元组作为对抗性缺失。我们进一步提出了一种启发式方法,以取代各种有影响力的三倍的两个实体中的一个以产生对抗性添加。我们的实验表明,该拟议的策略优于KGE模型的最先进的数据中毒攻击,并通过基线的攻击达到62%,提高MRR降级。
translated by 谷歌翻译
我们研究了对知识图中链路预测任务的知识图形嵌入(KGE)模型产生数据中毒攻击的问题。为了毒害KGE模型,我们建议利用他们通过知识图中的对称性,反演和构图等关系模式捕获的归纳能力。具体而言,为了降低模型对目标事实的预测信心,建议改善模型对一系列诱饵事实的预测信心。因此,我们通过不同的推理模式来制作对逆势的添加能够改善模型对诱饵事实上的预测信心。我们的实验表明,拟议的中毒攻击在四个KGE模型上倾斜的最先进的基座,用于两个公共数据集。我们还发现基于对称模式的攻击遍历了所有模型 - 数据集合,指示KGE模型对此模式的灵敏度。
translated by 谷歌翻译
知识图(KGS)代表作为三元组的事实已被广泛采用在许多应用中。 LIGHT预测和规则感应等推理任务对于KG的开发很重要。已经提出了知识图形嵌入式(KGES)将kg的实体和kg与持续向量空间的关系进行了建议,以获得这些推理任务,并被证明是有效和强大的。但在实际应用中申请和部署KGE的合理性和可行性尚未探索。在本文中,我们讨论并报告我们在真实域应用程序中部署KGE的经验:电子商务。我们首先为电子商务KG系统提供三个重要的探索者:1)注意推理,推理几个目标关系更为关注而不是全部; 2)解释,提供预测的解释,帮助用户和业务运营商理解为什么预测; 3)可转让规则,生成可重用的规则,以加速将千克部署到新系统。虽然非现有KGE可以满足所有这些DesiderATA,但我们提出了一种新颖的一种,可说明的知识图表注意网络,通过建模三元组之间的相关性而不是纯粹依赖于其头实体,关系和尾部实体嵌入来预测。它可以自动选择预测的注意力三倍,并同时记录它们的贡献,从该解释可以很容易地提供,可以有效地生产可转移规则。我们经验表明,我们的方法能够在我们的电子商务应用程序中满足所有三个DesiderATA,并从实际域应用程序中倾斜于数据集的典型基线。
translated by 谷歌翻译
大多数知识图嵌入技术将实体和谓词视为单独的嵌入矩阵,使用聚合函数来构建输入三重的表示。但是,这些聚集是有损的,即它们没有捕获原始三元组的语义,例如谓词中包含的信息。为了消除这些缺点,当前方法从头开始学习三重嵌入,而无需利用预训练模型的实体和谓词嵌入。在本文中,我们通过从预训练的知识图嵌入中创建弱监督信号来设计一种新型的微调方法来学习三重嵌入。我们开发了一种从知识图中自动采样三联的方法,并从预训练的嵌入模型中估算了它们的成对相似性。然后将这些成对的相似性得分馈送到类似暹罗的神经结构中,以微调三重表示。我们在两个广泛研究的知识图上评估了所提出的方法,并在三重分类和三重聚类任务上显示出对其他最先进的三重嵌入方法的一致改进。
translated by 谷歌翻译
作为当今最受欢迎的机器学习模型之一,Graph神经网络(GNN)最近引起了激烈的兴趣,其解释性也引起了人们的兴趣。用户对更好地了解GNN模型及其结果越来越感兴趣。不幸的是,当今的GNN评估框架通常依赖于合成数据集,从而得出有限范围的结论,因为问题实例缺乏复杂性。由于GNN模型被部署到更关键的任务应用程序中,因此我们迫切需要使用GNN解释性方法的共同评估协议。在本文中,据我们最大的知识,我们提出了针对GNN解释性的第一个系统评估框架,考虑了三种不同的“用户需求”的解释性:解释焦点,掩盖性质和掩蔽转换。我们提出了一个独特的指标,该指标将忠诚度措施结合在一起,并根据其足够或必要的质量对解释进行分类。我们将自己范围用于节点分类任务,并比较GNN的输入级解释性领域中最具代表性的技术。对于广泛使用的合成基准测试,令人惊讶的是,诸如个性化Pagerank之类的浅水技术在最小计算时间内具有最佳性能。但是,当图形结构更加复杂并且节点具有有意义的特征时,根据我们的评估标准,基于梯度的方法,尤其是显着性。但是,没有人在所有评估维度上占主导地位,而且总会有一个权衡。我们在eBay图上的案例研究中进一步应用了我们的评估协议,以反映生产环境。
translated by 谷歌翻译
Graph Neural Networks (GNNs) are a powerful tool for machine learning on graphs. GNNs combine node feature information with the graph structure by recursively passing neural messages along edges of the input graph. However, incorporating both graph structure and feature information leads to complex models and explaining predictions made by GNNs remains unsolved. Here we propose GNNEXPLAINER, the first general, model-agnostic approach for providing interpretable explanations for predictions of any GNN-based model on any graph-based machine learning task. Given an instance, GNNEXPLAINER identifies a compact subgraph structure and a small subset of node features that have a crucial role in GNN's prediction. Further, GNNEXPLAINER can generate consistent and concise explanations for an entire class of instances. We formulate GNNEXPLAINER as an optimization task that maximizes the mutual information between a GNN's prediction and distribution of possible subgraph structures. Experiments on synthetic and real-world graphs show that our approach can identify important graph structures as well as node features, and outperforms alternative baseline approaches by up to 43.0% in explanation accuracy. GNNEXPLAINER provides a variety of benefits, from the ability to visualize semantically relevant structures to interpretability, to giving insights into errors of faulty GNNs.
translated by 谷歌翻译
图形神经网络(GNN)已证明图形数据的预测性能显着提高。同时,这些模型的预测通常很难解释。在这方面,已经做出了许多努力来从gnnexplainer,XGNN和PGEXPlainer等角度解释这些模型的预测机制。尽管这样的作品呈现出系统的框架来解释GNN,但对于可解释的GNN的整体评论是不可用的。在这项调查中,我们介绍了针对GNN开发的解释性技术的全面综述。我们专注于可解释的图形神经网络,并根据可解释方法的使用对它们进行分类。我们进一步为GNNS解释提供了共同的性能指标,并指出了几个未来的研究指标。
translated by 谷歌翻译
对于人工智能在生物学和药物中产生更大的影响,这是一个至关重要的是,建议都是准确和透明的。在其他域中,已经显示了关于知识图表的多跳推理的神经统计学方法,以产生透明的解释。然而,缺乏研究将其应用于复杂的生物医学数据集和问题。在本文中,探讨了药物发现的方法,以利用其适用性的稳定结论。我们首次系统地将其应用于多种生物医学数据集和具有公平基准比较的推荐任务。发现该方法以平均水平的21.7%优于21.7%,同时产生新颖,生物学相关的解释。
translated by 谷歌翻译
Knowledge graph embedding (KGE), which maps entities and relations in a knowledge graph into continuous vector spaces, has achieved great success in predicting missing links in knowledge graphs. However, knowledge graphs often contain incomplete triples that are difficult to inductively infer by KGEs. To address this challenge, we resort to analogical inference and propose a novel and general self-supervised framework AnKGE to enhance KGE models with analogical inference capability. We propose an analogical object retriever that retrieves appropriate analogical objects from entity-level, relation-level, and triple-level. And in AnKGE, we train an analogy function for each level of analogical inference with the original element embedding from a well-trained KGE model as input, which outputs the analogical object embedding. In order to combine inductive inference capability from the original KGE model and analogical inference capability enhanced by AnKGE, we interpolate the analogy score with the base model score and introduce the adaptive weights in the score function for prediction. Through extensive experiments on FB15k-237 and WN18RR datasets, we show that AnKGE achieves competitive results on link prediction task and well performs analogical inference.
translated by 谷歌翻译
最近公布的知识图形嵌入模型的实施,培训和评估的异质性已经公平和彻底的比较困难。为了评估先前公布的结果的再现性,我们在Pykeen软件包中重新实施和评估了21个交互模型。在这里,我们概述了哪些结果可以通过其报告的超参数再现,这只能以备用的超参数再现,并且无法再现,并且可以提供洞察力,以及为什么会有这种情况。然后,我们在四个数据集上进行了大规模的基准测试,其中数千个实验和24,804 GPU的计算时间。我们展示了最佳实践,每个模型的最佳配置以及可以通过先前发布的最佳配置进行改进的洞察。我们的结果强调了模型架构,训练方法,丢失功能和逆关系显式建模的组合对于模型的性能来说至关重要,而不仅由模型架构决定。我们提供了证据表明,在仔细配置时,若干架构可以获得对最先进的结果。我们制定了所有代码,实验配置,结果和分析,导致我们在https://github.com/pykeen/pykeen和https://github.com/pykeen/benchmarking中获得的解释
translated by 谷歌翻译
In this paper we show the surprising effectiveness of a simple observed features model in comparison to latent feature models on two benchmark knowledge base completion datasets, FB15K and WN18. We also compare latent and observed feature models on a more challenging dataset derived from FB15K, and additionally coupled with textual mentions from a web-scale corpus. We show that the observed features model is most effective at capturing the information present for entity pairs with textual relations, and a combination of the two combines the strengths of both model types.
translated by 谷歌翻译
许多政府举措(例如欧盟的GDPR)正在得出结论,即现代软件系统的越来越复杂程度必须与对这些工具的影响评估的一些权利和指标形成鲜明对比,使人们能够理解和监督产出自动化决策系统。可解释的ai诞生于允许人类探索和理解复杂系统的内部工作的途径。但是,建立什么是解释和客观地评估可解释性,不是琐碎的任务。通过本文,我们提出了一种新的模型 - 不可知性的指标,以测量以客观方式测量(正确)信息的解释程度,利用普通语言哲学的特定理论模型,称为ACHINSTEIN的解释理论,通过依赖于算法实现知识图提取和信息检索的深语模型。为了了解这种度量是否实际表现为可解释性,我们已经设计了一些实验和用户研究,涉及超过160名参与者评估了使用包括人工神经网络的着名AI技术的医疗保健和金融的基于医疗保健和金融的基于医疗保健系统和treeshap。我们获得的结果非常令人鼓舞,这表明我们拟议的测量可解释程度的指标对若干情景是强大的,并且最终可以利用自动决策系统的合法影响评估。
translated by 谷歌翻译
知识图表(KGS)是真实世界事实的结构化表示,是融合人类知识的智能数据库,可以帮助机器模仿人类问题的方法。然而,由于快速迭代的性质以及数据的不完整,KGs通常是巨大的,并且在公斤上有不可避免的事实。对于知识图链接的预测是针对基于现有的知识推理来完成缺少事实的任务。广泛研究了两个主要的研究流:一个学习可以捕获潜在模式的实体和关系的低维嵌入,以及通过采矿逻辑规则的良好解释性。不幸的是,以前的研究很少关注异质的KG。在本文中,我们提出了一种将基于嵌入的学习和逻辑规则挖掘结合的模型,以推断在KG上。具体地,我们研究了从节点程度的角度涉及各种类型的实体和关系的异构kg中的缺失链接的问题。在实验中,我们证明了我们的DegreEmbed模型优于对现实世界的数据集的国家的最先进的方法。同时,我们模型开采的规则具有高质量和可解释性。
translated by 谷歌翻译
本文介绍了$ \ mu \ text {kg} $,一个开源python库,用于在知识图上进行表示。 $ \ mu \ text {kg} $支持通过多源知识图(以及单个知识图),多个深度学习库(Pytorch和Tensorflow2),多个嵌入任务(链接预​​测,实体对准,实体键入,实体键入),支持联合表示。 ,以及多源链接预测)以及多个并行计算模式(多进程和多GPU计算)。它目前实现26个流行知识图嵌入模型,并支持16个基准数据集。 $ \ mu \ text {kg} $提供了具有不同任务的简化管道的嵌入技术的高级实现。它还带有高质量的文档,以易于使用。 $ \ mu \ text {kg} $比现有的知识图嵌入库更全面。它对于对各种嵌入模型和任务进行彻底比较和分析非常有用。我们表明,共同学习的嵌入可以极大地帮助知识驱动的下游任务,例如多跳知识图形答案。我们将与相关字段中的最新发展保持一致,并将其纳入$ \ mu \ text {kg} $中。
translated by 谷歌翻译
尽管深度神经网络(DNNS)具有很大的概括和预测能力,但它们的功能不允许对其行为进行详细的解释。不透明的深度学习模型越来越多地用于在关键环境中做出重要的预测,而危险在于,它们做出和使用不能合理或合法化的预测。已经出现了几种可解释的人工智能(XAI)方法,这些方法与机器学习模型分开了,但对模型的实际功能和鲁棒性具有忠诚的缺点。结果,就具有解释能力的深度学习模型的重要性达成了广泛的协议,因此他们自己可以为为什么做出特定的预测提供答案。首先,我们通过形式化解释是什么是缺乏XAI的普遍标准的问题。我们还引入了一组公理和定义,以从数学角度阐明XAI。最后,我们提出了Greybox XAI,该框架由于使用了符号知识库(KB)而构成DNN和透明模型。我们从数据集中提取KB,并使用它来训练透明模型(即逻辑回归)。在RGB图像上训练了编码器 - 编码器架构,以产生类似于透明模型使用的KB的输出。一旦两个模型被独立训练,它们就会在组合上使用以形成可解释的预测模型。我们展示了这种新体系结构在几个数据集中如何准确且可解释的。
translated by 谷歌翻译
改善疾病的护理标准是关于更好的治疗方法,反过来依赖于寻找和开发新药。然而,药物发现是一个复杂且昂贵的过程。通过机器学习的方法采用了利用域固有的互连性质的药物发现知识图的创建。基于图形的数据建模,结合知识图形嵌入式提供了更直观的域表示,适用于推理任务,例如预测缺失链路。一个这样的例子将产生对给定疾病的可能相关基因的排名列表,通常被称为目标发现。因此,这是关键的,即这些预测不仅是相关的,而且是生物学上的有意义的。然而,知识图形可以直接偏向,由于集成的底层数据源,或者由于图形构造中的建模选择,其中的一个结果是某些实体可以在拓扑上超越。我们展示了知识图形嵌入模型可能受到这种结构不平衡的影响,导致无论上下文都要高度排名的密集连接实体。我们在不同的数据集,模型和预测任务中提供对此观察的支持。此外,我们展示了如何通过随机,生物学上无意义的信息扰乱图形拓扑结构以人为地改变基因的等级。这表明这种模型可能会受到实体频率而不是在关系中编码的生物学信息的影响,当实体频率不是基础数据的真实反射时,创建问题。我们的结果突出了数据建模选择的重要性,并强调了从业者在解释模型输出和知识图形组合期间时要注意这些问题。
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译