A critical step in sharing semantic content online is to map the structural data source to a public domain ontology. This problem is denoted as the Relational-To-Ontology Mapping Problem (Rel2Onto). A huge effort and expertise are required for manually modeling the semantics of data. Therefore, an automatic approach for learning the semantics of a data source is desirable. Most of the existing work studies the semantic annotation of source attributes. However, although critical, the research for automatically inferring the relationships between attributes is very limited. In this paper, we propose a novel method for semantically annotating structured data sources using machine learning, graph matching and modified frequent subgraph mining to amend the candidate model. In our work, Knowledge graph is used as prior knowledge. Our evaluation shows that our approach outperforms two state-of-the-art solutions in tricky cases where only a few semantic models are known.
translated by 谷歌翻译
大型公共知识图,例如Wikidata,包含数千万实体的数十亿个陈述,从而激发了各种用例以利用此类知识图。但是,实践表明,Wikidata中仍然缺少适合用户需求的许多相关信息,而当前的链接开放数据(LOD)工具不适合丰富像Wikidata这样的大图。在本文中,我们研究了从LOD云中用结构化数据源丰富Wikidata的潜力。我们提出了一个新颖的工作流程,其中包括差距检测,源选择,模式对齐和语义验证。我们用两个互补的LOD来源评估了我们的富集方法:一个嘈杂的源,具有广泛的覆盖范围,DBPEDIA和一个手动策划的来源,对艺术领域,Getty的关注狭窄。我们的实验表明,我们的工作流程可以通过高质量的外部LOD来源来丰富Wikidata。财产一致性和数据质量是关键挑战,而实体对齐和源选择是由现有的Wikidata机制良好支持的。我们提供代码和数据以支持未来的工作。
translated by 谷歌翻译
全球DataSphere快速增加,预计将达到20251年的175个Zettabytes。但是,大多数内容都是非结构化的,并且无法通过机器可以理解。将此数据构建到知识图中,使得智能应用程序具有诸如深度问题的智能应用,推荐系统,语义搜索等。知识图是一种新兴技术,允许使用内容与上下文一起逻辑推理和揭示新的洞察。因此,它提供了必要的语法和推理语义,使得能够解决复杂的医疗保健,安全,金融机构,经济学和业务问题。作为一项结果,企业正在努力建设和维护知识图表,以支持各种下游应用。手动方法太贵了。自动化方案可以降低建设知识图的成本,高达15-250次。本文批评了最先进的自动化技术,以自主地生成近乎人类的近乎人类的质量。此外,它突出了需要解决的不同研究问题,以提供高质量的知识图表
translated by 谷歌翻译
外部知识(A.K.A.侧面信息)在零拍摄学习(ZSL)中起着关键作用,该角色旨在预测从未出现在训练数据中的看不见的类。已被广泛调查了几种外部知识,例如文本和属性,但他们独自受到不完整的语义。因此,一些最近的研究提出了由于其高度富有效力和代表知识的兼容性而使用知识图表(千克)。但是,ZSL社区仍然缺乏用于学习和比较不同外部知识设置和基于不同的KG的ZSL方法的标准基准。在本文中,我们提出了六个资源,涵盖了三个任务,即零拍摄图像分类(ZS-IMGC),零拍摄关系提取(ZS-RE)和零拍KG完成(ZS-KGC)。每个资源都有一个正常的zsl基准标记和包含从文本到属性的kg的kg,从关系知识到逻辑表达式。我们已清楚地介绍了这些资源,包括其建设,统计数据格式和使用情况W.r.t.不同的ZSL方法。更重要的是,我们进行了一项全面的基准研究,具有两个通用和最先进的方法,两种特定方法和一种可解释方法。我们讨论并比较了不同的ZSL范式W.R.T.不同的外部知识设置,并发现我们的资源具有开发更高级ZSL方法的巨大潜力,并为应用KGS进行增强机学习的更多解决方案。所有资源都可以在https://github.com/china-uk-zsl/resources_for_kzsl上获得。
translated by 谷歌翻译
尽管编码了大量丰富和有价值的数据,但现有的数据来源主要是独立创建的,这是他们整合的重大挑战。映射语言,例如RML和R2RML,促进了将Meta-Data和将数据集成到知识图中的过程的声明性规范。除了在数据源和统一模式中表达对应关系之外,映射规则还可以包括知识提取功能。组合映射规则和函数表示强大的形式主义,以指定流水管以透明地将数据集成到知识图中。令人惊讶的是,这些形式主义没有完全调整,并且通过将ad-hoc程序执行到预处理和集成数据来创建许多知识图表。在本文中,我们提出了Eablock,一种方法将实体对齐(EA)集成为RML映射规则的一部分。 eAblock包括执行从文本属性的实体识别的功能块,并将识别的实体链接到Wikidata,DBPedia和域特定词库中的相应资源,例如UML。 EABLOCK提供可靠性和有效的技术来评估功能并转移映射以促进其在任何符合RML标准的发动机中的应用。我们有经验评估的eAblock性能,结果表明eAblock加快了需要实体识别和链接在符合最先进的RML标准的发动机的知识图形创建管道。 Eablock还通过Github存储库(https:/github.com/sdm-tib/eablock)和doi(https://doi.org/10.5281/zenodo.5779777)作为工具被公开可用作工具。
translated by 谷歌翻译
叙事制图是一项学科,研究了故事和地图的交织性质。然而,叙述的传统地理化技术经常遇到几个突出的挑战,包括数据采集和一体化挑战和语义挑战。为了解决这些挑战,在本文中,我们提出了具有知识图表(KGS)的叙事制图的想法。首先,要解决数据采集和集成挑战,我们开发了一组基于KG的地理学工具箱,以允许用户从GISYstem内搜索和检索来自集成跨域知识图中的相关数据以获得来自GISYSTEM的叙述映射。在此工具的帮助下,来自KG的检索数据以GIS格式直接实现,该格式已准备好用于空间分析和映射。两种用例 - 麦哲伦的远征和第二次世界大战 - 被提出展示了这种方法的有效性。与此同时,从这种方法中确定了几个限制,例如数据不完整,语义不相容,以及地理化的语义挑战。对于后面的两个限制,我们为叙事制图提出了一个模块化本体,它将地图内容(地图内容模块)和地理化过程(制图模块)正式化。我们证明,通过代表KGS(本体)中的地图内容和地理化过程,我们可以实现数据可重用性和叙事制图的地图再现性。
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译
Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.
translated by 谷歌翻译
机器学习方法尤其是深度神经网络取得了巨大的成功,但其中许多往往依赖于一些标记的样品进行训练。在真实世界的应用中,我们经常需要通过例如具有新兴预测目标和昂贵的样本注释的动态上下文来解决样本短缺。因此,低资源学习,旨在学习具有足够资源(特别是培训样本)的强大预测模型,现在正在被广泛调查。在所有低资源学习研究中,许多人更喜欢以知识图(kg)的形式利用一些辅助信息,这对于知识表示变得越来越受欢迎,以减少对标记样本的依赖。在这项调查中,我们非常全面地审查了90美元的报纸关于两个主要的低资源学习设置 - 零射击学习(ZSL)的预测,从未出现过训练,而且很少拍摄的学习(FSL)预测的新类仅具有可用的少量标记样本。我们首先介绍了ZSL和FSL研究中使用的KGS以及现有的和潜在的KG施工解决方案,然后系统地分类和总结了KG感知ZSL和FSL方法,将它们划分为不同的范例,例如基于映射的映射,数据增强,基于传播和基于优化的。我们接下来呈现了不同的应用程序,包括计算机视觉和自然语言处理中的kg增强预测任务,还包括kg完成的任务,以及每个任务的一些典型评估资源。我们最终讨论了一些关于新学习和推理范式的方面的一些挑战和未来方向,以及高质量的KGs的建设。
translated by 谷歌翻译
庞大的科学出版物呈现出越来越大的挑战,找到与给定的研究问题相关的那些,并在其基础上做出明智的决定。如果不使用自动化工具,这变得非常困难。在这里,一个可能的改进区域是根据其主题自动分类出版物摘要。这项工作介绍了一种新颖的知识基础的出色出版物分类器。该方法侧重于实现可扩展性和对其他域的容易适应性。在非常苛刻的食品安全领域,分类速度和准确度被证明是令人满意的。需要进一步发展和评估该方法,因为所提出的方法显示出很大的潜力。
translated by 谷歌翻译
我们根据生态毒理学风险评估中使用的主要数据来源创建了知识图表。我们已经将这种知识图表应用于风险评估中的重要任务,即化学效果预测。我们已经评估了在该预测任务的各种几何,分解和卷积模型中嵌入模型的九个知识图形嵌入模型。我们表明,使用知识图形嵌入可以提高与神经网络的效果预测的准确性。此外,我们已经实现了一种微调架构,它将知识图形嵌入到效果预测任务中,并导致更好的性能。最后,我们评估知识图形嵌入模型的某些特征,以阐明各个模型性能。
translated by 谷歌翻译
本体匹配(OM)在许多领域(例如生物信息学和语义网络)中起着重要作用,其研究变得越来越流行,尤其是在机器学习(ML)技术的应用中。尽管本体论对准评估计划(OAEI)代表了对OM系统进行系统评估的令人印象深刻的努力,但它仍然受到了几个限制,包括对集合映射的评估,次优参考映射以及对基于ML的系统评估的支持有限。为了应对这些限制,我们介绍了五项新的生物医学OM任务,这些任务涉及从Mondo和UMLS提取的本体。每个任务既包括等价和归因匹配;通过人类的策展,本体论修剪等确保参考映射的质量。并提出了一个全面的评估框架,以从基于ML的基于ML和非ML的OM系统从各个角度衡量OM性能。我们报告了不同类型的OM系统的评估结果,以证明这些资源的使用情况,所有这些资源都是在OAEI 2022年新的BioML轨道的一部分中公开使用的。
translated by 谷歌翻译
通过自动和手动方法生成的知识图(kgs)的数量正在不断增长。对于集成的视图和用法,在架构和实例级别上必须对这些KGS进行一致性。尽管有一些方法试图解决这个多源知识匹配问题,但缺少大黄金标准来评估其有效性和可扩展性。我们通过呈现Gollum来缩小这一差距 - 大规模多源知识图匹配的黄金标准,在4,149个不同的公里之间,超过275,000个对应关系。它们源自通过将DBPEDIA提取框架应用于大型Wiki农场而得出的知识图。可以提供三种黄金标准的变体:(1)一个具有评估无监督匹配方法的所有信件的版本,以及两个用于评估监督匹配的版本:(2)一个在火车和测试集中均包含每个kg,一个kg,一个kg, (3)一个专门包含在火车或测试集中的每个公斤。
translated by 谷歌翻译
各种网络的部署(例如,事物互联网(IOT)和移动网络),数据库(例如,营养表和食品组成数据库)和社交媒体(例如,Instagram和Twitter)产生大量的多型食品数据,这在食品科学和工业中起着关键作用。然而,由于众所周知的数据协调问题,这些多源食品数据显示为信息孤岛,导致难以充分利用这些食物数据。食物知识图表提供了统一和标准化的概念术语及其结构形式的关系,因此可以将食物信息孤单转换为更可重复使用的全球数量数字连接的食物互联网以使各种应用有益。据我们所知,这是食品科学与工业中食品知识图表的第一个全面审查。我们首先提供知识图表的简要介绍,然后主要从食物分类,食品本体到食品知识图表的进展。粮食知识图表的代表性应用将在新的配方开发,食品可追溯性,食物数据可视化,个性化饮食推荐,食品搜索和质询回答,视觉食品对象识别,食品机械智能制造方面来概述。我们还讨论了该领域的未来方向,例如食品供应链系统和人类健康的食品知识图,这应该得到进一步的研究。他们的巨大潜力将吸引更多的研究努力,将食物知识图形应用于食品科学和工业领域。
translated by 谷歌翻译
Relational machine learning studies methods for the statistical analysis of relational, or graph-structured, data. In this paper, we provide a review of how such statistical models can be "trained" on large knowledge graphs, and then used to predict new facts about the world (which is equivalent to predicting new edges in the graph). In particular, we discuss two fundamentally different kinds of statistical relational models, both of which can scale to massive datasets. The first is based on latent feature models such as tensor factorization and multiway neural networks. The second is based on mining observable patterns in the graph. We also show how to combine these latent and observable models to get improved modeling power at decreased computational cost. Finally, we discuss how such statistical models of graphs can be combined with text-based information extraction methods for automatically constructing knowledge graphs from the Web. To this end, we also discuss Google's Knowledge Vault project as an example of such combination.
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译
药物发现和发展是一个复杂和昂贵的过程。正在研究机器学习方法,以帮助提高药物发现管道多个阶段的有效性和速度。其中,使用知识图表(kg)的那些在许多任务中具有承诺,包括药物修复,药物毒性预测和靶基因疾病优先级。在药物发现kg中,包括基因,疾病和药物在内的关键因素被认为是实体,而它们之间的关系表示相互作用。但是,为了构建高质量的KG,需要合适的数据。在这篇综述中,我们详细介绍了适用于构建聚焦KGS的药物发现的公开使用来源。我们的目标是帮助引导机器学习和kg从业者对吸毒者发现领域应用新技术,但是谁可能不熟悉相关的数据来源。通过严格的标准选择数据集,根据包含内部包含的主要信息类型,并基于可以提取的信息来进行分类以构建kg。然后,我们对现有的公共药物发现KGS进行了比较分析,并评估了文献中所选择的激励案例研究。此外,我们还提出了众多和与域及其数据集相关的众多挑战和问题,同时突出了关键的未来研究方向。我们希望本综述将激励KGS在药物发现领域的关键和新兴问题中使用。
translated by 谷歌翻译
Recent years have witnessed the resurgence of knowledge engineering which is featured by the fast growth of knowledge graphs. However, most of existing knowledge graphs are represented with pure symbols, which hurts the machine's capability to understand the real world. The multi-modalization of knowledge graphs is an inevitable key step towards the realization of human-level machine intelligence. The results of this endeavor are Multi-modal Knowledge Graphs (MMKGs). In this survey on MMKGs constructed by texts and images, we first give definitions of MMKGs, followed with the preliminaries on multi-modal tasks and techniques. We then systematically review the challenges, progresses and opportunities on the construction and application of MMKGs respectively, with detailed analyses of the strength and weakness of different solutions. We finalize this survey with open research problems relevant to MMKGs.
translated by 谷歌翻译
越来越多的语义资源提供了人类知识的宝贵储存;但是,错误条目的概率随着尺寸的增加而增加。因此,识别给定知识库的潜在虚假部分的方法正在成为越来越重要的感兴趣领域。在这项工作中,我们展示了对仅结构的链接分析方法的系统评估是否可以提供可扩展手段,以检测可能的异常,以及潜在的有趣的新颖关系候选者。在八种不同的语义资源中评估十三方法,包括基因本体,食品本体,海洋本体论和类似,我们证明了仅限结构的链接分析可以为数据集的子集提供可扩展的异常检测。此外,我们证明,通过考虑符号节点嵌入,可以获得预测(链接)的说明,使得该方法的该分支可能比黑盒更有价值。据我们所知,这是目前,来自不同域的语义资源的不同类型链路分析方法的适用性最广泛的系统研究之一。
translated by 谷歌翻译
Practices in the built environment have become more digitalized with the rapid development of modern design and construction technologies. However, the requirement of practitioners or scholars to gather complicated professional knowledge in the built environment has not been satisfied yet. In this paper, more than 80,000 paper abstracts in the built environment field were obtained to build a knowledge graph, a knowledge base storing entities and their connective relations in a graph-structured data model. To ensure the retrieval accuracy of the entities and relations in the knowledge graph, two well-annotated datasets have been created, containing 2,000 instances and 1,450 instances each in 29 relations for the named entity recognition task and relation extraction task respectively. These two tasks were solved by two BERT-based models trained on the proposed dataset. Both models attained an accuracy above 85% on these two tasks. More than 200,000 high-quality relations and entities were obtained using these models to extract all abstract data. Finally, this knowledge graph is presented as a self-developed visualization system to reveal relations between various entities in the domain. Both the source code and the annotated dataset can be found here: https://github.com/HKUST-KnowComp/BEKG.
translated by 谷歌翻译