开放的领域知识库非常重要。它通常是从百科全书网站中提取的,并广泛用于知识检索系统,问答系统或推荐系统。实际上,关键的挑战是保持最新的知识库。与从百科全书转储中获取所有数据的笨拙获取所有数据不同,可以在避免无效提取的同时扩大知识库的新鲜度,而当前的知识库更新方法通常确定是否需要通过构建预测模型来更新实体。但是,这些方法只能在某些特定字段中定义,由于数据源和数据结构的问题,结果证明是显而易见的偏差。对于开放域知识,用户的查询意图通常是多种多样的,因此我们构建了一个主题感知的图形网络,用于根据用户查询日志进行知识更新。我们的方法可以总结如下:1。通过用户的日志提取实体,然后选择它们作为种子2.刮擦百科全书网站中种子实体的属性,并为每个实体的自我监督构造实体属性图。 3.使用实体属性图来训练GNN实体更新模型,以确定是否需要同步该实体。 4.根据最小编辑时间算法,使用百科全书知识与知识库中的实体匹配和更新过滤的实体。
translated by 谷歌翻译
图形神经网络(GNN)在解决图形结构数据(即网络)方面的各种分析任务方面已广受欢迎。典型的gnns及其变体遵循一种消息的方式,该方式通过网络拓扑沿网络拓扑的特征传播过程获得网络表示,然而,它们忽略了许多现实世界网络中存在的丰富文本语义(例如,局部单词序列)。现有的文本丰富网络方法通过主要利用内部信息(例如主题或短语/单词)来整合文本语义,这些信息通常无法全面地挖掘文本语义,从而限制了网络结构和文本语义之间的相互指导。为了解决这些问题,我们提出了一个具有外部知识(TEKO)的新型文本富裕的图形神经网络,以充分利用文本丰富的网络中的结构和文本信息。具体而言,我们首先提出一个灵活的异质语义网络,该网络结合了文档和实体之间的高质量实体和互动。然后,我们介绍两种类型的外部知识,即结构化的三胞胎和非结构化实体描述,以更深入地了解文本语义。我们进一步为构建的异质语义网络设计了互惠卷积机制,使网络结构和文本语义能够相互协作并学习高级网络表示。在四个公共文本丰富的网络以及一个大规模的电子商务搜索数据集上进行了广泛的实验结果,这说明了Teko优于最先进的基线。
translated by 谷歌翻译
识别新闻媒体的政治观点已成为政治评论的快速增长和日益极化的政治意识形态的重要任务。以前的方法专注于文本内容,留出富裕的社会和政治背景,这在论证挖掘过程中至关重要。为了解决这一限制,我们提出了一种政治透视检测方法,包括外部域知识。具体而言,我们构建一个政治知识图形,以作为特定于域的外部知识。然后我们利用异质信息网络来代表新闻文件,共同模仿新闻文本和外部知识。最后,我们采用关系图神经网络,并作为图形级分类进行政治视角检测。广泛的实验表明,我们的方法始终如一地实现了两个现实世界的透视检测基准的最佳性能。消融研究进一步承担了外部知识的必要性以及我们基于图形的方法的有效性。
translated by 谷歌翻译
假新闻,虚假或误导性信息作为新闻,对社会的许多方面产生了重大影响,例如在政治或医疗域名。由于假新闻的欺骗性,仅将自然语言处理(NLP)技术应用于新闻内容不足。多级社会上下文信息(新闻出版商和社交媒体的参与者)和用户参与的时间信息是假新闻检测中的重要信息。然而,正确使用此信息,介绍了三个慢性困难:1)多级社会上下文信息很难在没有信息丢失的情况下使用,2)难以使用时间信息以及多级社会上下文信息,3 )具有多级社会背景和时间信息的新闻表示难以以端到端的方式学习。为了克服所有三个困难,我们提出了一种新颖的假新闻检测框架,杂扫描。我们使用元路径在不损失的情况下提取有意义的多级社会上下文信息。 COMA-PATO,建议连接两个节点类型的复合关系,以捕获异构图中的语义。然后,我们提出了元路径实例编码和聚合方法,以捕获用户参与的时间信息,并生成新闻代表端到端。根据我们的实验,杂扫不断的性能改善了最先进的假新闻检测方法。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
Graph is an important data representation which appears in a wide diversity of real-world scenarios. Effective graph analytics provides users a deeper understanding of what is behind the data, and thus can benefit a lot of useful applications such as node classification, node recommendation, link prediction, etc. However, most graph analytics methods suffer the high computation and space cost. Graph embedding is an effective yet efficient way to solve the graph analytics problem. It converts the graph data into a low dimensional space in which the graph structural information and graph properties are maximumly preserved. In this survey, we conduct a comprehensive review of the literature in graph embedding. We first introduce the formal definition of graph embedding as well as the related concepts. After that, we propose two taxonomies of graph embedding which correspond to what challenges exist in different graph embedding problem settings and how the existing work address these challenges in their solutions. Finally, we summarize the applications that graph embedding enables and suggest four promising future research directions in terms of computation efficiency, problem settings, techniques and application scenarios.
translated by 谷歌翻译
事实证明,信息提取方法可有效从结构化或非结构化数据中提取三重。以(头部实体,关系,尾部实体)形式组织这样的三元组的组织称为知识图(kgs)。当前的大多数知识图都是不完整的。为了在下游任务中使用kgs,希望预测kgs中缺少链接。最近,通过将实体和关系嵌入到低维的矢量空间中,旨在根据先前访问的三元组来预测三元组,从而对KGS表示不同的方法。根据如何独立或依赖对三元组进行处理,我们将知识图完成的任务分为传统和图形神经网络表示学习,并更详细地讨论它们。在传统的方法中,每个三重三倍将独立处理,并在基于GNN的方法中进行处理,三倍也考虑了他们的当地社区。查看全文
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译
Recent years have witnessed the resurgence of knowledge engineering which is featured by the fast growth of knowledge graphs. However, most of existing knowledge graphs are represented with pure symbols, which hurts the machine's capability to understand the real world. The multi-modalization of knowledge graphs is an inevitable key step towards the realization of human-level machine intelligence. The results of this endeavor are Multi-modal Knowledge Graphs (MMKGs). In this survey on MMKGs constructed by texts and images, we first give definitions of MMKGs, followed with the preliminaries on multi-modal tasks and techniques. We then systematically review the challenges, progresses and opportunities on the construction and application of MMKGs respectively, with detailed analyses of the strength and weakness of different solutions. We finalize this survey with open research problems relevant to MMKGs.
translated by 谷歌翻译
本文介绍了SocialVEC,这是一种从社交网络引出社会世界知识的一般框架,并将此框架应用于Twitter。 SocialVEC了解流行账户的低维嵌入,这代表了一般兴趣的实体,基于其账户内的共同发生模式,然后是个别用户,从而在社会人口统计术语中建模实体相似性。类似于Word Embeddings,这促进了涉及文本处理的任务,我们预计社会实体嵌入将使社会味道的任务受益。我们从推特网络的样本中学习了大约200,000个受欢迎的帐户的社交嵌入,其中包括超过130万用户和他们遵循的帐户,并在两个不同的任务中评估结果嵌入。第一个任务涉及从社交媒体简介中自动推动用户的个人特征。在另一个研究中,我们利用SocialVEC嵌入来衡量Twitter中新闻来源的政治偏见。在这两种情况下,与现有实体嵌入方案相比,我们证明SocialVEC嵌入是有利的。我们将公开为社会顾客实体嵌入而挪用,以支持在Twitter中反映的社会世界知识进一步探索。
translated by 谷歌翻译
尽管概念化已经在语义和知识表示中进行了广泛研究,但找到最准确的概念短语来表征在快速增长的社交媒体上表征文本片段的主要思想仍然具有挑战性。这部分归因于以下事实:大多数知识库都包含世界的一般术语,例如树木和汽车,它们没有定义的力量或对社交媒体应用程序用户不够有趣。另一个原因是,自然语言的复杂性允许使用时态,否定和语法改变语言的逻辑或重点,从而传达了完全不同的含义。在本文中,我们提出了标签,这是一个高质量的概念匹配的数据集,该数据集由10,000个标记的精细概念和网络风格的自然语言句子组成,并从开放域社交媒体中挖出。我们考虑的概念代表了在线用户的趋势兴趣。与标签相关的是这些细粒度概念和实体的概念图,以提供结构上下文信息。我们在标签上评估了广泛的流行神经文本匹配模型以及预先训练的语言模型,并指出他们以最合适的概念标记社交媒体内容的不足。我们进一步提出了一种新颖的图形匹配方法,该方法通过更好地利用概念图中的结构上下文和句子中语义单元之间的逻辑相互作用在句子中通过句法依赖性解析来展示出色的抽象和概括性能。我们开源标签数据集和提出进一步研究的建议方法。
translated by 谷歌翻译
Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.
translated by 谷歌翻译
机器学习方法尤其是深度神经网络取得了巨大的成功,但其中许多往往依赖于一些标记的样品进行训练。在真实世界的应用中,我们经常需要通过例如具有新兴预测目标和昂贵的样本注释的动态上下文来解决样本短缺。因此,低资源学习,旨在学习具有足够资源(特别是培训样本)的强大预测模型,现在正在被广泛调查。在所有低资源学习研究中,许多人更喜欢以知识图(kg)的形式利用一些辅助信息,这对于知识表示变得越来越受欢迎,以减少对标记样本的依赖。在这项调查中,我们非常全面地审查了90美元的报纸关于两个主要的低资源学习设置 - 零射击学习(ZSL)的预测,从未出现过训练,而且很少拍摄的学习(FSL)预测的新类仅具有可用的少量标记样本。我们首先介绍了ZSL和FSL研究中使用的KGS以及现有的和潜在的KG施工解决方案,然后系统地分类和总结了KG感知ZSL和FSL方法,将它们划分为不同的范例,例如基于映射的映射,数据增强,基于传播和基于优化的。我们接下来呈现了不同的应用程序,包括计算机视觉和自然语言处理中的kg增强预测任务,还包括kg完成的任务,以及每个任务的一些典型评估资源。我们最终讨论了一些关于新学习和推理范式的方面的一些挑战和未来方向,以及高质量的KGs的建设。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
叙事制图是一项学科,研究了故事和地图的交织性质。然而,叙述的传统地理化技术经常遇到几个突出的挑战,包括数据采集和一体化挑战和语义挑战。为了解决这些挑战,在本文中,我们提出了具有知识图表(KGS)的叙事制图的想法。首先,要解决数据采集和集成挑战,我们开发了一组基于KG的地理学工具箱,以允许用户从GISYstem内搜索和检索来自集成跨域知识图中的相关数据以获得来自GISYSTEM的叙述映射。在此工具的帮助下,来自KG的检索数据以GIS格式直接实现,该格式已准备好用于空间分析和映射。两种用例 - 麦哲伦的远征和第二次世界大战 - 被提出展示了这种方法的有效性。与此同时,从这种方法中确定了几个限制,例如数据不完整,语义不相容,以及地理化的语义挑战。对于后面的两个限制,我们为叙事制图提出了一个模块化本体,它将地图内容(地图内容模块)和地理化过程(制图模块)正式化。我们证明,通过代表KGS(本体)中的地图内容和地理化过程,我们可以实现数据可重用性和叙事制图的地图再现性。
translated by 谷歌翻译
知识图(kgs)已被证明是构建数据的可靠方法。他们可以提供有关文化遗产收藏的丰富情境信息。但是,文化遗产库库远非完整。他们通常会缺少重要的属性,例如地理位置,尤其是对于雕塑,移动或室内实体,例如绘画。在本文中,我们首先提出了一个框架,用于从各种数据源及其连接的多跳知识中汲取有关有形文化遗产实体的知识。其次,我们提出了一个多视图学习模型,用于估计给定的文化遗产实体之间的相对距离,该模型基于实体的地理和知识联系。
translated by 谷歌翻译
保持个人特征和复杂的关系,广泛利用和研究了图表数据。通过更新和聚合节点的表示,能够捕获结构信息,图形神经网络(GNN)模型正在获得普及。在财务背景下,该图是基于实际数据构建的,这导致复杂的图形结构,因此需要复杂的方法。在这项工作中,我们在最近的财务环境中对GNN模型进行了全面的审查。我们首先将普通使用的财务图分类并总结每个节点的功能处理步骤。然后,我们总结了每个地图类型的GNN方法,每个区域的应用,并提出一些潜在的研究领域。
translated by 谷歌翻译
Practices in the built environment have become more digitalized with the rapid development of modern design and construction technologies. However, the requirement of practitioners or scholars to gather complicated professional knowledge in the built environment has not been satisfied yet. In this paper, more than 80,000 paper abstracts in the built environment field were obtained to build a knowledge graph, a knowledge base storing entities and their connective relations in a graph-structured data model. To ensure the retrieval accuracy of the entities and relations in the knowledge graph, two well-annotated datasets have been created, containing 2,000 instances and 1,450 instances each in 29 relations for the named entity recognition task and relation extraction task respectively. These two tasks were solved by two BERT-based models trained on the proposed dataset. Both models attained an accuracy above 85% on these two tasks. More than 200,000 high-quality relations and entities were obtained using these models to extract all abstract data. Finally, this knowledge graph is presented as a self-developed visualization system to reveal relations between various entities in the domain. Both the source code and the annotated dataset can be found here: https://github.com/HKUST-KnowComp/BEKG.
translated by 谷歌翻译
Clustering is a fundamental problem in network analysis that finds closely connected groups of nodes and separates them from other nodes in the graph, while link prediction is to predict whether two nodes in a network are likely to have a link. The definition of both naturally determines that clustering must play a positive role in obtaining accurate link prediction tasks. Yet researchers have long ignored or used inappropriate ways to undermine this positive relationship. In this article, We construct a simple but efficient clustering-driven link prediction framework(ClusterLP), with the goal of directly exploiting the cluster structures to obtain connections between nodes as accurately as possible in both undirected graphs and directed graphs. Specifically, we propose that it is easier to establish links between nodes with similar representation vectors and cluster tendencies in undirected graphs, while nodes in a directed graphs can more easily point to nodes similar to their representation vectors and have greater influence in their own cluster. We customized the implementation of ClusterLP for undirected and directed graphs, respectively, and the experimental results using multiple real-world networks on the link prediction task showed that our models is highly competitive with existing baseline models. The code implementation of ClusterLP and baselines we use are available at https://github.com/ZINUX1998/ClusterLP.
translated by 谷歌翻译
我们介绍了一个名为Nuge的新型嵌入式模型,旨在将实体和关系之间的共同发生整合到图形神经网络中,以改善知识图形完成(即,链接预测)。鉴于知识图形,Nuge将单个图形构建,考虑实体和关系作为单个节点。然后,Nuge基于实体和关系的共同发生来计算节点之间的边缘的权重。接下来,Nuge提出双季型图形神经网络(DualQGNN),并利用DualQGNN更新实体和关系节点的向量表示。然后采用分数函数来产生三重分数。综合实验结果表明,NOGE在三个新的和困难的基准数据集Codex上获得最先进的结果,用于知识图形完成。
translated by 谷歌翻译