从自然语言中提取正式知识(本体论)是一个挑战,可以从语义层面上从(半)正式语言表征中受益。我们建议通过在RDF之上实施通用网络语言(UNL)规范来实现这样的代表。因此,任何语言中的陈述的含义都会被声称为RDF-UNL图形,构成自然语言与正式知识之间的中间地面。特别是,我们表明RDF-UNL图表可以使用通用Shacl规则支持内容提取,并且提取的事实上的推理允许检测原始文本中的不一致。这种方法是在UNSELER项目中试验,该项目旨在从系统要求/规格中提取本体论,以检查它们是一致的,完整和明确的。我们的RDF-UNL实施和本文的工作示例的所有代码在HTTPS://gitlab.tetras-libre.fr/unl/rdf-unl上公开可用于Cecill-B许可证下
translated by 谷歌翻译
我们介绍了对形状约束语言(Shacl)的介绍和审查,用于验证RDF数据的W3C推荐语言。SHACL文档描述了RDF节点上的一组约束,如果其节点满足这些约束,则图表对于文档是有效的。我们重新审视语言的基本概念,其构建和组件及其互动。我们审查了用于研究这种语言和不同语义的不同正式框架。我们检查许多相关问题,从遏制和满足性与Shacl与推理规则的相互作用,并展示语言的不同发动机对不同的问题有用。我们还涵盖了Shacl的实际方面,讨论其实现和通过的情况,为从业者和理论者提供了一个很有用的全面审查。
translated by 谷歌翻译
外部知识(A.K.A.侧面信息)在零拍摄学习(ZSL)中起着关键作用,该角色旨在预测从未出现在训练数据中的看不见的类。已被广泛调查了几种外部知识,例如文本和属性,但他们独自受到不完整的语义。因此,一些最近的研究提出了由于其高度富有效力和代表知识的兼容性而使用知识图表(千克)。但是,ZSL社区仍然缺乏用于学习和比较不同外部知识设置和基于不同的KG的ZSL方法的标准基准。在本文中,我们提出了六个资源,涵盖了三个任务,即零拍摄图像分类(ZS-IMGC),零拍摄关系提取(ZS-RE)和零拍KG完成(ZS-KGC)。每个资源都有一个正常的zsl基准标记和包含从文本到属性的kg的kg,从关系知识到逻辑表达式。我们已清楚地介绍了这些资源,包括其建设,统计数据格式和使用情况W.r.t.不同的ZSL方法。更重要的是,我们进行了一项全面的基准研究,具有两个通用和最先进的方法,两种特定方法和一种可解释方法。我们讨论并比较了不同的ZSL范式W.R.T.不同的外部知识设置,并发现我们的资源具有开发更高级ZSL方法的巨大潜力,并为应用KGS进行增强机学习的更多解决方案。所有资源都可以在https://github.com/china-uk-zsl/resources_for_kzsl上获得。
translated by 谷歌翻译
近年来,数据科学已经显着发展。数据分析和采矿过程成为可用数据集的所有行业的常规。已收集,策划,存储和用于提取知识的大量数据存储库。这变得司空见惯。随后,我们直接从数据或通过给定域中的专家提取大量知识。现在的挑战是如何利用以前因高效决策过程而闻名的所有这些知识。直到最近,通过多年的研究获得的许多知识都存储在静态知识库或本体中,而从数据挖掘研究中获得的更多样化和动态知识并没有集中和始终如一地管理。在这项研究中,我们提出了一个称为基于本体的知识图的新型模型,以代表和存储农作物耕作中数据挖掘的结果(知识),以建立,维护和丰富知识发现过程。提出的模型包括六个主要集合:概念,属性,关系,转换,实例和状态。该模型是动态的,可以随时促进知识的访问,更新和开发。本文还提出了用于处理这种基于知识模型的体系结构。系统体系结构包括知识建模,提取,评估,发布和开发。该系统已被实施并用于农业管理和监测。事实证明,它非常有效,并且有望扩展到其他领域。
translated by 谷歌翻译
在这项工作中,我们在文化象征主义的背景下填补了语义网络中的差距。建立早期的工作,我们介绍了模拟本体,这是一种模拟象征意义的背景知识,通过组合从Simulacra的权威理论和Jean Baudrillard的象征性和符号中所采取的符号结构和内容的象征性理论和象征性的象征性和内容来制定象征意义的背景知识。史蒂文古老的旧版典型的字典。我们通过将其转换为在我们的本体模式中来重新设计已经存在于异质资源中以产生溢流的象征性,这是完全致力于文化象征主义的第一个知识图。提出了在知识图上运行的第一个实验,以显示对象征主义定量研究的潜力。
translated by 谷歌翻译
叙事制图是一项学科,研究了故事和地图的交织性质。然而,叙述的传统地理化技术经常遇到几个突出的挑战,包括数据采集和一体化挑战和语义挑战。为了解决这些挑战,在本文中,我们提出了具有知识图表(KGS)的叙事制图的想法。首先,要解决数据采集和集成挑战,我们开发了一组基于KG的地理学工具箱,以允许用户从GISYstem内搜索和检索来自集成跨域知识图中的相关数据以获得来自GISYSTEM的叙述映射。在此工具的帮助下,来自KG的检索数据以GIS格式直接实现,该格式已准备好用于空间分析和映射。两种用例 - 麦哲伦的远征和第二次世界大战 - 被提出展示了这种方法的有效性。与此同时,从这种方法中确定了几个限制,例如数据不完整,语义不相容,以及地理化的语义挑战。对于后面的两个限制,我们为叙事制图提出了一个模块化本体,它将地图内容(地图内容模块)和地理化过程(制图模块)正式化。我们证明,通过代表KGS(本体)中的地图内容和地理化过程,我们可以实现数据可重用性和叙事制图的地图再现性。
translated by 谷歌翻译
各种网络的部署(例如,事物互联网(IOT)和移动网络),数据库(例如,营养表和食品组成数据库)和社交媒体(例如,Instagram和Twitter)产生大量的多型食品数据,这在食品科学和工业中起着关键作用。然而,由于众所周知的数据协调问题,这些多源食品数据显示为信息孤岛,导致难以充分利用这些食物数据。食物知识图表提供了统一和标准化的概念术语及其结构形式的关系,因此可以将食物信息孤单转换为更可重复使用的全球数量数字连接的食物互联网以使各种应用有益。据我们所知,这是食品科学与工业中食品知识图表的第一个全面审查。我们首先提供知识图表的简要介绍,然后主要从食物分类,食品本体到食品知识图表的进展。粮食知识图表的代表性应用将在新的配方开发,食品可追溯性,食物数据可视化,个性化饮食推荐,食品搜索和质询回答,视觉食品对象识别,食品机械智能制造方面来概述。我们还讨论了该领域的未来方向,例如食品供应链系统和人类健康的食品知识图,这应该得到进一步的研究。他们的巨大潜力将吸引更多的研究努力,将食物知识图形应用于食品科学和工业领域。
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译
本文介绍了有关开发的原型的研究,以服务公共政策设计的定量研究。政治学的这种子学科着重于确定参与者,之间的关系以及在健康,环境,经济和其他政策方面可以使用的工具。我们的系统旨在自动化收集法律文件,用机构语法注释它们的过程,并使用超图来分析关键实体之间的相互关系。我们的系统经过了《联合国教科文组织公约》的保护,以保护2003年的无形文化遗产,这是一份法律文件,该文件规定了确保文化遗产的国际关系的基本方面。
translated by 谷歌翻译
识别跨语言抄袭是挑战性的,特别是对于遥远的语言对和感知翻译。我们介绍了这项任务的新型多语言检索模型跨语言本体论(CL \ nobreakdash-osa)。 CL-OSA表示从开放知识图Wikidata获得的实体向量的文档。反对其他方法,Cl \ nobreakdash-osa不需要计算昂贵的机器翻译,也不需要使用可比较或平行语料库进行预培训。它可靠地歧义同音异义和缩放,以允许其应用于Web级文档集合。我们展示了CL-OSA优于从五个大局部多样化的测试语料中检索候选文档的最先进的方法,包括日语英语等遥控语言对。为了识别在角色级别的跨语言抄袭,CL-OSA主要改善了感觉识别翻译的检测。对于这些挑战性案例,CL-OSA在良好的Plagdet得分方面的表现超过了最佳竞争对手的比例超过两种。我们研究的代码和数据公开可用。
translated by 谷歌翻译
公众人物的行情可以标记历史上的转折点。一句话可以解释其发起人的行为,预示政治或个人决定并揭示性格特征。有影响力的行情跨语言障碍并影响了总体对特定立场的反应,总是面临被误入或脱离上下文的风险。提供的引号的跨语性知识图可以建立引号及其背景的真实性,这对于允许探索重要人物的生活以及主题的探索非常重要。在本文中,我们介绍了引号的第一个多语言知识图。我们提出了Quotekg创建管道,该管道从Wikiquote中提取引号,这是一种免费且合作创建的语言集合,并与同一报价的不同提及相符。 Quotekg包括$ 55 $语言的近一百万报价,在广泛的主题中,有超过69,000美元的公共利益人士说。 quotekg已公开可用,可以通过SPARQL端点访问。
translated by 谷歌翻译
全球DataSphere快速增加,预计将达到20251年的175个Zettabytes。但是,大多数内容都是非结构化的,并且无法通过机器可以理解。将此数据构建到知识图中,使得智能应用程序具有诸如深度问题的智能应用,推荐系统,语义搜索等。知识图是一种新兴技术,允许使用内容与上下文一起逻辑推理和揭示新的洞察。因此,它提供了必要的语法和推理语义,使得能够解决复杂的医疗保健,安全,金融机构,经济学和业务问题。作为一项结果,企业正在努力建设和维护知识图表,以支持各种下游应用。手动方法太贵了。自动化方案可以降低建设知识图的成本,高达15-250次。本文批评了最先进的自动化技术,以自主地生成近乎人类的近乎人类的质量。此外,它突出了需要解决的不同研究问题,以提供高质量的知识图表
translated by 谷歌翻译
了解大型本体仍然是一个问题,并且对许多本体工程任务产生了影响。我们描述了一种用于从域本体识别和提取概念组件的新方法,用于理解和比较它们。该方法分别应用于文化遗产和会议域中的两组本体论。通过手动检测和与本体对齐评估计划的数据集和工具性能相关评估结果。
translated by 谷歌翻译
DBpedia is a community effort to extract structured information from Wikipedia and to make this information available on the Web. DBpedia allows you to ask sophisticated queries against datasets derived from Wikipedia and to link other datasets on the Web to Wikipedia data. We describe the extraction of the DBpedia datasets, and how the resulting information is published on the Web for human-and machine-consumption. We describe some emerging applications from the DBpedia community and show how website authors can facilitate DBpedia content within their sites. Finally, we present the current status of interlinking DBpedia with other open datasets on the Web and outline how DBpedia could serve as a nucleus for an emerging Web of open data.
translated by 谷歌翻译
科学家在寻找最佳的输入资源来解决目标预测任务的最佳输入资源方面的困难是在知识图图图上训练算法的主要障碍之一。除此之外,一个关键的挑战是确定如何操纵(和嵌入)这些数据,这些数据通常以特定的三元组(即主题,谓词,对象)的形式来启用学习过程。在本文中,我们描述了Liveschema倡议,即一个门户,该网关提供了一个服务家庭,可以轻松访问,分析,转换和利用知识图模式,其主要目标是促进这些资源在机器学习用例中的重复使用。作为该计划的早期实施,我们还推进了一个在线目录,该目录依赖于800多个资源,并提供了第一组示例服务。
translated by 谷歌翻译
机器学习方法尤其是深度神经网络取得了巨大的成功,但其中许多往往依赖于一些标记的样品进行训练。在真实世界的应用中,我们经常需要通过例如具有新兴预测目标和昂贵的样本注释的动态上下文来解决样本短缺。因此,低资源学习,旨在学习具有足够资源(特别是培训样本)的强大预测模型,现在正在被广泛调查。在所有低资源学习研究中,许多人更喜欢以知识图(kg)的形式利用一些辅助信息,这对于知识表示变得越来越受欢迎,以减少对标记样本的依赖。在这项调查中,我们非常全面地审查了90美元的报纸关于两个主要的低资源学习设置 - 零射击学习(ZSL)的预测,从未出现过训练,而且很少拍摄的学习(FSL)预测的新类仅具有可用的少量标记样本。我们首先介绍了ZSL和FSL研究中使用的KGS以及现有的和潜在的KG施工解决方案,然后系统地分类和总结了KG感知ZSL和FSL方法,将它们划分为不同的范例,例如基于映射的映射,数据增强,基于传播和基于优化的。我们接下来呈现了不同的应用程序,包括计算机视觉和自然语言处理中的kg增强预测任务,还包括kg完成的任务,以及每个任务的一些典型评估资源。我们最终讨论了一些关于新学习和推理范式的方面的一些挑战和未来方向,以及高质量的KGs的建设。
translated by 谷歌翻译
基于本体的自然语言理解方法(NLU)处理允许改进对话系统中质量的问题。我们描述了我们的NLU发动机架构并评估其实施。该发动机将用户输入转换为SPARQL选择,询问或将查询插入由基于本体的数据虚拟化平台提供的知识图表。转型基于根据OntoLEX本体构建的知识图表的词汇水平。所描述的方法可以应用于图形数据群体任务和问题应答系统实现,包括聊天机器人。我们描述了聊天机器人的对话引擎,可以保持对话背景并提出澄清问题,模拟人类逻辑思维的一些方面。我们的方法使用基于图形的算法来避免在基于神经网络的方法中所需的数据集,并提供更好的可解释模型。使用问题应答引擎与公司数据源相结合的数据虚拟化层允许从结构化数据中提取事实以在会话中使用。
translated by 谷歌翻译
自然语言处理(NLP)是一个人工智能领域,它应用信息技术来处理人类语言,在一定程度上理解并在各种应用中使用它。在过去的几年中,该领域已经迅速发展,现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样,NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用,从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别,以调查现代NLP方法论,常见的任务,相关的文本数据,知识库和有用的编程库。我们将这五个类别分为适当的子类别,描述其主要属性和想法,并以表格形式进行总结。最终的调查介绍了该领域的全面概述,对从业者和感兴趣的观察者有用。
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译
Quechua语言和Quechua知识在世界各地,尤其是在南美几个国家 /地区收集了数百万人。不幸的是,Quechua社区只有少数资源,它们主要以PDF格式存储。在本文中,Quechua知识图被设想并生成,以使Quechua更接近Quechua社区,研究人员和技术开发人员。目前,Quechua知识图中存储了553636个三元组,该图在网络上可访问,可以通过计算机检索并由用户策划。为了展示Quechua知识图的部署,描述了用例和未来工作。
translated by 谷歌翻译