我们研究了对知识图中链路预测任务的知识图形嵌入(KGE)模型产生数据中毒攻击的问题。为了毒害KGE模型,我们建议利用他们通过知识图中的对称性,反演和构图等关系模式捕获的归纳能力。具体而言,为了降低模型对目标事实的预测信心,建议改善模型对一系列诱饵事实的预测信心。因此,我们通过不同的推理模式来制作对逆势的添加能够改善模型对诱饵事实上的预测信心。我们的实验表明,拟议的中毒攻击在四个KGE模型上倾斜的最先进的基座,用于两个公共数据集。我们还发现基于对称模式的攻击遍历了所有模型 - 数据集合,指示KGE模型对此模式的灵敏度。
translated by 谷歌翻译
尽管使用知识图形嵌入式(KGE),但对于可能会扰乱其预期行为的安全漏洞很少。我们研究了对KGE模型进行链路预测的数据中毒攻击。这些攻击在训练时间进行工艺对抗性添加或删除,以在测试时间造型失败。要选择对抗性删除,我们建议使用来自可解释的机器学习的模型 - 无人实例归因方法,该模型 - 无可争议的机器学习,该模型算法识别对神经模型对测试实例的预测最大的培训实例。我们使用这些有影响力的三元组作为对抗性缺失。我们进一步提出了一种启发式方法,以取代各种有影响力的三倍的两个实体中的一个以产生对抗性添加。我们的实验表明,该拟议的策略优于KGE模型的最先进的数据中毒攻击,并通过基线的攻击达到62%,提高MRR降级。
translated by 谷歌翻译
最近公布的知识图形嵌入模型的实施,培训和评估的异质性已经公平和彻底的比较困难。为了评估先前公布的结果的再现性,我们在Pykeen软件包中重新实施和评估了21个交互模型。在这里,我们概述了哪些结果可以通过其报告的超参数再现,这只能以备用的超参数再现,并且无法再现,并且可以提供洞察力,以及为什么会有这种情况。然后,我们在四个数据集上进行了大规模的基准测试,其中数千个实验和24,804 GPU的计算时间。我们展示了最佳实践,每个模型的最佳配置以及可以通过先前发布的最佳配置进行改进的洞察。我们的结果强调了模型架构,训练方法,丢失功能和逆关系显式建模的组合对于模型的性能来说至关重要,而不仅由模型架构决定。我们提供了证据表明,在仔细配置时,若干架构可以获得对最先进的结果。我们制定了所有代码,实验配置,结果和分析,导致我们在https://github.com/pykeen/pykeen和https://github.com/pykeen/benchmarking中获得的解释
translated by 谷歌翻译
We study the problem of learning representations of entities and relations in knowledge graphs for predicting missing links. The success of such a task heavily relies on the ability of modeling and inferring the patterns of (or between) the relations. In this paper, we present a new approach for knowledge graph embedding called RotatE, which is able to model and infer various relation patterns including: symmetry/antisymmetry, inversion, and composition. Specifically, the RotatE model defines each relation as a rotation from the source entity to the target entity in the complex vector space. In addition, we propose a novel self-adversarial negative sampling technique for efficiently and effectively training the RotatE model. Experimental results on multiple benchmark knowledge graphs show that the proposed RotatE model is not only scalable, but also able to infer and model various relation patterns and significantly outperform existing state-of-the-art models for link prediction.
translated by 谷歌翻译
Link prediction for knowledge graphs is the task of predicting missing relationships between entities. Previous work on link prediction has focused on shallow, fast models which can scale to large knowledge graphs. However, these models learn less expressive features than deep, multi-layer modelswhich potentially limits performance. In this work we introduce ConvE, a multi-layer convolutional network model for link prediction, and report state-of-the-art results for several established datasets. We also show that the model is highly parameter efficient, yielding the same performance as DistMult and R-GCN with 8x and 17x fewer parameters. Analysis of our model suggests that it is particularly effective at modelling nodes with high indegree -which are common in highlyconnected, complex knowledge graphs such as Freebase and YAGO3. In addition, it has been noted that the WN18 and FB15k datasets suffer from test set leakage, due to inverse relations from the training set being present in the test sethowever, the extent of this issue has so far not been quantified. We find this problem to be severe: a simple rule-based model can achieve state-of-the-art results on both WN18 and FB15k. To ensure that models are evaluated on datasets where simply exploiting inverse relations cannot yield competitive results, we investigate and validate several commonly used datasets -deriving robust variants where necessary. We then perform experiments on these robust datasets for our own and several previously proposed models, and find that ConvE achieves state-of-the-art Mean Reciprocal Rank across most datasets.
translated by 谷歌翻译
In statistical relational learning, the link prediction problem is key to automatically understand the structure of large knowledge bases. As in previous studies, we propose to solve this problem through latent factorization. However, here we make use of complex valued embeddings. The composition of complex embeddings can handle a large variety of binary relations, among them symmetric and antisymmetric relations. Compared to state-of-the-art models such as Neural Tensor Network and Holographic Embeddings, our approach based on complex embeddings is arguably simpler, as it only uses the Hermitian dot product, the complex counterpart of the standard dot product between real vectors. Our approach is scalable to large datasets as it remains linear in both space and time, while consistently outperforming alternative approaches on standard link prediction benchmarks. 1
translated by 谷歌翻译
Knowledge graph embedding (KGE), which maps entities and relations in a knowledge graph into continuous vector spaces, has achieved great success in predicting missing links in knowledge graphs. However, knowledge graphs often contain incomplete triples that are difficult to inductively infer by KGEs. To address this challenge, we resort to analogical inference and propose a novel and general self-supervised framework AnKGE to enhance KGE models with analogical inference capability. We propose an analogical object retriever that retrieves appropriate analogical objects from entity-level, relation-level, and triple-level. And in AnKGE, we train an analogy function for each level of analogical inference with the original element embedding from a well-trained KGE model as input, which outputs the analogical object embedding. In order to combine inductive inference capability from the original KGE model and analogical inference capability enhanced by AnKGE, we interpolate the analogy score with the base model score and introduce the adaptive weights in the score function for prediction. Through extensive experiments on FB15k-237 and WN18RR datasets, we show that AnKGE achieves competitive results on link prediction task and well performs analogical inference.
translated by 谷歌翻译
最近,链接预测问题,也称为知识图完成,已经吸引了大量的研究。即使最近的型号很少试图通过在低维度中嵌入知识图表来实现相对良好的性能,即目前最先进的模型的最佳结果是以大大提高嵌入的维度的成本赚取的。然而,这导致在巨大知识库的情况下导致过度舒服和更重要的可扩展性问题。灵感灵感来自变压器模型的变体提供的深度学习的进步,因为它的自我关注机制,在本文中,我们提出了一种基于IT的模型来解决上述限制。在我们的模型中,自我关注是将查询依赖预测应用于实体和关系的关键,并捕获它们之间的相互信息,以获得来自低维嵌入的高度富有表现力的表现。两种标准链路预测数据集,FB15K-237和WN18RR的经验结果表明,我们的模型比我们三个最近最近期的最新竞争对手实现了相当的性能或更好的性能,其维度的重大减少了76.3%平均嵌入。
translated by 谷歌翻译
In this paper we show the surprising effectiveness of a simple observed features model in comparison to latent feature models on two benchmark knowledge base completion datasets, FB15K and WN18. We also compare latent and observed feature models on a more challenging dataset derived from FB15K, and additionally coupled with textual mentions from a web-scale corpus. We show that the observed features model is most effective at capturing the information present for entity pairs with textual relations, and a combination of the two combines the strengths of both model types.
translated by 谷歌翻译
知识图表(KGS)是真实世界事实的结构化表示,是融合人类知识的智能数据库,可以帮助机器模仿人类问题的方法。然而,由于快速迭代的性质以及数据的不完整,KGs通常是巨大的,并且在公斤上有不可避免的事实。对于知识图链接的预测是针对基于现有的知识推理来完成缺少事实的任务。广泛研究了两个主要的研究流:一个学习可以捕获潜在模式的实体和关系的低维嵌入,以及通过采矿逻辑规则的良好解释性。不幸的是,以前的研究很少关注异质的KG。在本文中,我们提出了一种将基于嵌入的学习和逻辑规则挖掘结合的模型,以推断在KG上。具体地,我们研究了从节点程度的角度涉及各种类型的实体和关系的异构kg中的缺失链接的问题。在实验中,我们证明了我们的DegreEmbed模型优于对现实世界的数据集的国家的最先进的方法。同时,我们模型开采的规则具有高质量和可解释性。
translated by 谷歌翻译
多跳跃逻辑推理是在知识图(KGS)上学习领域的一个已建立问题。它涵盖了单跳连接预测以及其他更复杂的逻辑查询类型。现有的算法仅在经典的三重基图上运行,而现代KG经常采用超相关的建模范式。在此范式中,键入的边缘可能具有几对键值对,称为限定符,可为事实提供细粒度的环境。在查询中,此上下文修改了关系的含义,通常会减少答案集。经常在现实世界中的应用程序中观察到超相关的查询,并且现有的近似查询答案方法无法使用预选赛对。在这项工作中,我们弥合了这一差距,并将多跳的推理问题扩展到了超级关系的KG,允许解决这一新类型的复杂查询。在图形神经网络和查询嵌入技术的最新进展之下,我们研究了如何嵌入和回答超相关的连词查询。除此之外,我们还提出了一种回答此类查询并在我们的实验中证明的方法,即预选赛可以改善对各种查询模式的查询回答。
translated by 谷歌翻译
安全分析师在调查攻击,新兴的网络威胁或最近发现的漏洞后准备威胁分析。关于恶意软件攻击和广告系列的威胁情报在博客文章,报告,分析和推文上分享,并具有不同的技术细节。其他安全分析师使用这种情报来告知他们新兴威胁,妥协指标,攻击方法和预防措施。它统称为威胁智能,通常是一种非结构化格式,因此,无缝集成到现有的IDPS系统中,具有挑战性。在本文中,我们提出了一个汇总并结合CTI的框架 - 公开可用的网络威胁智能信息。使用知识图以结构化的格式提取并存储该信息,以便可以与其他安全分析师进行大规模保留威胁智能的语义。我们建议第一个半监督的开源知识图(KG)框架Tinker捕获网络威胁信息及其上下文。在修补匠之后,我们生成一个网络智能知识图(CTI-KG)。我们使用不同的用例及其应用于安全分析师的应用来证明CTI-KG的功效。
translated by 谷歌翻译
如今,知识图(KGS)一直在AI相关的应用中发挥关键作用。尽管尺寸大,但现有的公斤远非完全和全面。为了不断丰富KG,通常使用自动知识结构和更新机制,这不可避免地带来充足的噪音。然而,大多数现有知识图形嵌入(KGE)方法假设KGS中的所有三重事实都是正确的,并且在不考虑噪声和知识冲突的情况下将实体和关系投入到低维空间。这将导致kgs的低质量和不可靠的表示。为此,本文提出了一般的多任务加固学习框架,这可以大大缓解嘈杂的数据问题。在我们的框架中,我们利用强化学习来选择高质量的知识三分石,同时过滤出嘈杂的。此外,为了充分利用语义类似的关系之间的相关性,在具有多任务学习的集体方式中训练了类似关系的三重选择过程。此外,我们扩展了流行的KGE Models Transe,Distmult,与所提出的框架耦合和旋转。最后,实验验证表明,我们的方法能够增强现有的KGE模型,可以在嘈杂的情景中提供更强大的KGS表示。
translated by 谷歌翻译
知识库完成在这项工作中被制定为二进制分类问题,其中使用知识图中的相关链接(KGS)培训XGBoost二进制分类器。新方法名为KGBoost,采用模块化设计,并尝试找到硬阴性样本,以便培训强大的分类器以进行缺失链路预测。我们在多个基准数据集中进行实验,并证明KGBoost在大多数数据集中优于最先进的方法。此外,与端到端优化训练的模型相比,kgboost在低维设置下运行良好,以便允许更小的型号尺寸。
translated by 谷歌翻译
知识图形嵌入研究主要集中在两个最小的规范部门代数,$ \ mathbb {r} $和$ \ mathbb {c} $。最近的结果表明,四元增值嵌入的三线性产品可以是解决链路预测的更有效手段。此外,基于真实嵌入的卷曲的模型通常会产生最先进的链路预测结果。在本文中,我们调查了一种卷积操作的组成,具有超量用乘法。我们提出了四个方法qmult,amult,convic和convo来解决链路预测问题。 Qmult和Omult可以被视为先前最先进方法的四元数和octonion扩展,包括Distmult和复杂。 Convic和Convo在Qmult和Omlult上建立在剩余学习框架的方式中包括卷积操作。我们在七个链路预测数据集中评估了我们的方法,包括WN18RR,FB15K-237和YAGO3-10。实验结果表明,随着知识图的规模和复杂性的增长,学习超复分价值的矢量表示的益处变得更加明显。 Convo优于MRR的FB15K-237上的最先进的方法,命中@ 1并点击@ 3,而Qmult,Omlult,Convic和Convo在所有度量标准中的Yago3-10上的最终倾斜的方式。结果还表明,通过预测平均可以进一步改善链路预测性能。为了培养可重复的研究,我们提供了开源的方法,包括培训和评估脚本以及佩戴型模型。
translated by 谷歌翻译
知识图嵌入(KGE)旨在将实体和关系映射到低维空间,并成为知识图完成的\ textit {de-facto}标准。大多数现有的KGE方法都受到稀疏挑战的困扰,在这种挑战中,很难预测在知识图中频繁的实体。在这项工作中,我们提出了一个新颖的框架KRACL,以减轻具有图表和对比度学习的KG中广泛的稀疏性。首先,我们建议知识关系网络(KRAT)通过同时将相邻的三元组投射到不同的潜在空间,并通过注意机制共同汇总信息来利用图形上下文。 KRAT能够捕获不同上下文三联的微妙的语义信息和重要性,并利用知识图中的多跳信息。其次,我们通过将对比度损失与跨熵损失相结合,提出知识对比损失,这引入了更多的负样本,从而丰富了对稀疏实体的反馈。我们的实验表明,KRACL在各种标准知识基准中取得了卓越的结果,尤其是在WN18RR和NELL-995上,具有大量低级内实体。广泛的实验还具有KRACL在处理稀疏知识图和鲁棒性三元组的鲁棒性方面的有效性。
translated by 谷歌翻译
知识图(KG)通常不完整,我们经常希望推断出现有的新事实。这可以被认为是二进制分类问题;我们的目标是预测新事实是真或假的。不幸的是,我们通常只有积极的例子(已知事实),但我们也需要负面的例子来训练分类器。要解决此问题,通常使用负面采样策略生成否定示例。但是,这可以产生可能降低性能的假否定,是计算昂贵的,并且不会产生校准的分类概率。在本文中,我们提出了一种培训程序,通过向损失函数添加新的正则化术语来消除对负面采样的需要。我们的两个关系嵌入模型(DISTMULT和简单)的结果显示了我们的提案的优点。
translated by 谷歌翻译
捕获关系的构图模式是知识图表完成中的重要任务。它还是迈向多跳推理的基本步骤,以了解学到的知识。以前,已经开发了几种基于旋转的翻译方法来使用一系列复值对角线矩阵的产品来模拟复合关系。然而,这些方法倾向于对复合关系进行几种超薄假设,例如,强迫他们独立于实体和缺乏语义等级的交换。为了系统地解决这些问题,我们开发了一种新颖的知识图形嵌入方法,命名为密集,为复杂的关系模式提供改进的建模方案。特别地,我们的方法将每个关系分解成SO(3)基于基于组的旋转操作员和三维(3-D)欧几里德空间中的缩放操作员。这种设计原理导致我们的方法的几个优点:(1)对于复合关系,相应的对角线关系矩阵可以是非换向的,反映了现实世界应用中的主要情景; (2)我们的模型保留了关系运营和实体嵌入之间的自然互动; (3)缩放操作为实体的内在语义层次结构提供建模电力; (4)在参数大小和培训时间方面,以高计算效率实现致密的增强效果; (5)欧几里德空间中的建模实体而不是四元数空间,保持关系模式的直接几何解释。多个基准知识图上的实验结果表明,密集优于当前最先进的模型,以缺少链路预测,尤其是对复合关系。
translated by 谷歌翻译
传统的静态知识图形在关系数据中的模型实体作为节点,由特定关系类型的边缘连接。然而,信息和知识不断发展,并且时间动态出现,预计会影响未来的情况。在时间知识图中,通过用时间戳或时间范围配备每个边缘,将时间信息集成到图表中。已经引入了基于嵌入的方法,以便在时间知识图上引入链接预测,但它们主要缺乏可解释性和可理解的推理链。特别是,它们通常不设计用于处理涉及未来时间戳的链路预测 - 事件预测。我们解决了对时间知识图表链接预测的任务,并介绍了一种基于通过时间随机散步提取的时间逻辑规则的可解释的框架。我们在三个基准数据集中比较Tlogic与最先进的基线,并显示出更好的整体性能,而我们的方法还提供了保留时间一致性的解释。此外,与基于最先进的嵌入的方法相比,TLOGIC在具有普通词汇表的相关数据集转移到相关的数据集中,TLOGIC在归纳规则中运行良好。
translated by 谷歌翻译
事实证明,信息提取方法可有效从结构化或非结构化数据中提取三重。以(头部实体,关系,尾部实体)形式组织这样的三元组的组织称为知识图(kgs)。当前的大多数知识图都是不完整的。为了在下游任务中使用kgs,希望预测kgs中缺少链接。最近,通过将实体和关系嵌入到低维的矢量空间中,旨在根据先前访问的三元组来预测三元组,从而对KGS表示不同的方法。根据如何独立或依赖对三元组进行处理,我们将知识图完成的任务分为传统和图形神经网络表示学习,并更详细地讨论它们。在传统的方法中,每个三重三倍将独立处理,并在基于GNN的方法中进行处理,三倍也考虑了他们的当地社区。查看全文
translated by 谷歌翻译