随着大规模分析的越来越重视,我们面临着整合来自多个来源的数据的需求。问题在于这些数据不可能重复使用。最终结果是高成本,进一步的缺点是,所得的集成数据将再次被重复使用。Itelos是一种通用方法,旨在最大程度地减少此过程的影响。直觉是,数据将根据其受欢迎程度而受到不同的处理:重复使用的一组数据越多,将其重复使用越多,并且在重复使用中更改的数据越少,从而降低了整体数据预处理成本,而这些成本却降低了。增加向后兼容性和未来共享
translated by 谷歌翻译
在构建新的应用程序时,我们越来越多地面对从多个来源重用和集成预先存在的知识,例如本体,模式,任何类型的数据。然而,事实上,这一事先知识几乎不可能重复使用。这种困难是高成本的原因,通过进一步的缺点,结果应用程序将再次难以重复使用。它是一个负环,这一直始终加强本身。 itelos是一种通用方法,旨在尽可能最大限度地减少这种环路的效果。 itelos基于应用程序的数据级别和架构级别的直观应独立开发,从而允许在先前知识的重用中进行最大的灵活性,但是在需要满足的整体指导下,正式化为能力查询。通过对所有要求(包括重用的要求)来实现这种直觉,作为一种先验定义目的的一部分,然后用于驱动中间开发过程,其中应用程序模式和数据连续对齐。
translated by 谷歌翻译
科学家在寻找最佳的输入资源来解决目标预测任务的最佳输入资源方面的困难是在知识图图图上训练算法的主要障碍之一。除此之外,一个关键的挑战是确定如何操纵(和嵌入)这些数据,这些数据通常以特定的三元组(即主题,谓词,对象)的形式来启用学习过程。在本文中,我们描述了Liveschema倡议,即一个门户,该网关提供了一个服务家庭,可以轻松访问,分析,转换和利用知识图模式,其主要目标是促进这些资源在机器学习用例中的重复使用。作为该计划的早期实施,我们还推进了一个在线目录,该目录依赖于800多个资源,并提供了第一组示例服务。
translated by 谷歌翻译
叙事制图是一项学科,研究了故事和地图的交织性质。然而,叙述的传统地理化技术经常遇到几个突出的挑战,包括数据采集和一体化挑战和语义挑战。为了解决这些挑战,在本文中,我们提出了具有知识图表(KGS)的叙事制图的想法。首先,要解决数据采集和集成挑战,我们开发了一组基于KG的地理学工具箱,以允许用户从GISYstem内搜索和检索来自集成跨域知识图中的相关数据以获得来自GISYSTEM的叙述映射。在此工具的帮助下,来自KG的检索数据以GIS格式直接实现,该格式已准备好用于空间分析和映射。两种用例 - 麦哲伦的远征和第二次世界大战 - 被提出展示了这种方法的有效性。与此同时,从这种方法中确定了几个限制,例如数据不完整,语义不相容,以及地理化的语义挑战。对于后面的两个限制,我们为叙事制图提出了一个模块化本体,它将地图内容(地图内容模块)和地理化过程(制图模块)正式化。我们证明,通过代表KGS(本体)中的地图内容和地理化过程,我们可以实现数据可重用性和叙事制图的地图再现性。
translated by 谷歌翻译
如今有大量在线文档数据源。缺乏结构和格式之间的差异是自动​​从中提取信息的主要困难,这也对其使用和重复使用产生负面影响。在生物医学领域中,出现了DISNET平台,以通过大规模的异质来源为研究人员提供资源,以获取人类疾病网络范围的信息。具体来说,在该领域中,不仅提供从不同来源提取的信息,而且提供支持它的证据至关重要。本文提出了Eboca,该本体论描述了(i)生物医学领域概念及其之间的关联,以及(ii)支持这些关联的证据;目的是提供一个模式来改善该领域中的证据和生物医学关联的出版和描述。已成功评估了本体论,以确保没有错误,建模陷阱,并符合先前定义的功能要求。来自文本的一部分和自动关联提取子集的测试数据已根据所提出的本体论进行了转换,以创建可用于实际场景中的知识图,并且还用于评估所述本体论。
translated by 谷歌翻译
由于对高效有效的大数据分析解决方案的需求,医疗保健行业中数据分析的合并已取得了重大进展。知识图(KGS)已在该领域证明了效用,并且植根于许多医疗保健应用程序,以提供更好的数据表示和知识推断。但是,由于缺乏代表性的kg施工分类法,该指定领域中的几种现有方法不足和劣等。本文是第一个提供综合分类法和鸟类对医疗kg建筑的眼光的看法。此外,还对与各种医疗保健背景相关的学术工作中最新的技术进行了彻底的检查。这些技术是根据用于知识提取的方法,知识库和来源的类型以及合并评估协议的方法进行了严格评估的。最后,报道和讨论了文献中的一些研究发现和现有问题,为这个充满活力的地区开放了未来研究的视野。
translated by 谷歌翻译
各种网络的部署(例如,事物互联网(IOT)和移动网络),数据库(例如,营养表和食品组成数据库)和社交媒体(例如,Instagram和Twitter)产生大量的多型食品数据,这在食品科学和工业中起着关键作用。然而,由于众所周知的数据协调问题,这些多源食品数据显示为信息孤岛,导致难以充分利用这些食物数据。食物知识图表提供了统一和标准化的概念术语及其结构形式的关系,因此可以将食物信息孤单转换为更可重复使用的全球数量数字连接的食物互联网以使各种应用有益。据我们所知,这是食品科学与工业中食品知识图表的第一个全面审查。我们首先提供知识图表的简要介绍,然后主要从食物分类,食品本体到食品知识图表的进展。粮食知识图表的代表性应用将在新的配方开发,食品可追溯性,食物数据可视化,个性化饮食推荐,食品搜索和质询回答,视觉食品对象识别,食品机械智能制造方面来概述。我们还讨论了该领域的未来方向,例如食品供应链系统和人类健康的食品知识图,这应该得到进一步的研究。他们的巨大潜力将吸引更多的研究努力,将食物知识图形应用于食品科学和工业领域。
translated by 谷歌翻译
尽管编码了大量丰富和有价值的数据,但现有的数据来源主要是独立创建的,这是他们整合的重大挑战。映射语言,例如RML和R2RML,促进了将Meta-Data和将数据集成到知识图中的过程的声明性规范。除了在数据源和统一模式中表达对应关系之外,映射规则还可以包括知识提取功能。组合映射规则和函数表示强大的形式主义,以指定流水管以透明地将数据集成到知识图中。令人惊讶的是,这些形式主义没有完全调整,并且通过将ad-hoc程序执行到预处理和集成数据来创建许多知识图表。在本文中,我们提出了Eablock,一种方法将实体对齐(EA)集成为RML映射规则的一部分。 eAblock包括执行从文本属性的实体识别的功能块,并将识别的实体链接到Wikidata,DBPedia和域特定词库中的相应资源,例如UML。 EABLOCK提供可靠性和有效的技术来评估功能并转移映射以促进其在任何符合RML标准的发动机中的应用。我们有经验评估的eAblock性能,结果表明eAblock加快了需要实体识别和链接在符合最先进的RML标准的发动机的知识图形创建管道。 Eablock还通过Github存储库(https:/github.com/sdm-tib/eablock)和doi(https://doi.org/10.5281/zenodo.5779777)作为工具被公开可用作工具。
translated by 谷歌翻译
知识图的完整性是重要的质量维度,也是对使用IT的应用程序表现良好的因素。通过执行知识丰富,可以改善完整性。重复检测旨在在知识图的实例之间找到身份联系,并且是知识丰富的基本子任务。当前解决问题的解决方案需要对工具的专家知识及其应用的知识图。用户可能没有这种专家知识。我们介绍了基于服务的重复检测任务的方法,该方法提供了一种易于使用的无代码解决方案,该解决方案仍然与最先进的解决方案竞争,并且最近在工业背景下被采用。评估将基于几种常用的测试方案。
translated by 谷歌翻译
药物发现和发展是一个复杂和昂贵的过程。正在研究机器学习方法,以帮助提高药物发现管道多个阶段的有效性和速度。其中,使用知识图表(kg)的那些在许多任务中具有承诺,包括药物修复,药物毒性预测和靶基因疾病优先级。在药物发现kg中,包括基因,疾病和药物在内的关键因素被认为是实体,而它们之间的关系表示相互作用。但是,为了构建高质量的KG,需要合适的数据。在这篇综述中,我们详细介绍了适用于构建聚焦KGS的药物发现的公开使用来源。我们的目标是帮助引导机器学习和kg从业者对吸毒者发现领域应用新技术,但是谁可能不熟悉相关的数据来源。通过严格的标准选择数据集,根据包含内部包含的主要信息类型,并基于可以提取的信息来进行分类以构建kg。然后,我们对现有的公共药物发现KGS进行了比较分析,并评估了文献中所选择的激励案例研究。此外,我们还提出了众多和与域及其数据集相关的众多挑战和问题,同时突出了关键的未来研究方向。我们希望本综述将激励KGS在药物发现领域的关键和新兴问题中使用。
translated by 谷歌翻译
领域本体论模型的发展虽然是一个以良好的方法为支持的成熟研究领域,但仍然存在两个关键的缺点。首先,有关本体论概念的语义持久性的问题及其在域中采用现有方法的灵活再利用。其次,由于难以理解和重复现有基础本体论中的顶级概念,因此关于域表示语义性质的混淆。本文为代表性多样性的上述缺点奠定了基础,并提出了一个三倍的解决方案 - (i)渲染概念的管道,(ii)对简约的基础知识模型的首次表征,名为基础目的论,将基础区别在语义上说明基础区别实施域表示的静态和动态性质,以及(iii)一种灵活的,重复使用的方法论,用于多样性感知的域开发利用解决方案(i)和(ii)。初步工作报告了溶液成分的潜力。
translated by 谷歌翻译
Practices in the built environment have become more digitalized with the rapid development of modern design and construction technologies. However, the requirement of practitioners or scholars to gather complicated professional knowledge in the built environment has not been satisfied yet. In this paper, more than 80,000 paper abstracts in the built environment field were obtained to build a knowledge graph, a knowledge base storing entities and their connective relations in a graph-structured data model. To ensure the retrieval accuracy of the entities and relations in the knowledge graph, two well-annotated datasets have been created, containing 2,000 instances and 1,450 instances each in 29 relations for the named entity recognition task and relation extraction task respectively. These two tasks were solved by two BERT-based models trained on the proposed dataset. Both models attained an accuracy above 85% on these two tasks. More than 200,000 high-quality relations and entities were obtained using these models to extract all abstract data. Finally, this knowledge graph is presented as a self-developed visualization system to reveal relations between various entities in the domain. Both the source code and the annotated dataset can be found here: https://github.com/HKUST-KnowComp/BEKG.
translated by 谷歌翻译
研究部门在组织中推动创新的重要作用。随着速度和量的信息增长,绘制见解,跟随趋势,保持新的研究以及制定策略的配制策略越来越越来越具有挑战性。在本文中,我们介绍了一个用例,即公司研究界如何利用语义网络技术来诱导从结构化和文本数据中诱导统一的知识图,通过整合与研究项目相关的社区使用的各种应用程序,学术论文,学术论文,数据集,成就和认可。为了使应用程序开发人员更容易访问知识图,我们确定了一组通用模式,用于利用诱导的知识并将其视为API。这些模式是从用户研究中诞生的,这些模式确定了最有价值的用例或用户疼痛点要缓解。我们概述了两个不同的方案:用于业务使用的建议和分析。我们将详细讨论这些方案,并针对实体建议提供经验评估。所使用的方法和从这项工作中学到的教训可以应用于面临类似挑战的其他组织。
translated by 谷歌翻译
数字来源比以往更普遍但有效地使用它们可能是挑战性的。一个核心挑战是数字化来源通常是分布式的,因此强迫研究人员花费时间收集,解释和对齐不同的来源。知识图可以通过提供人类和机器可以查询的单一连接的真理来加速研究。在两个设计 - 测试周期中,我们将四个数据集转换为历史海域域中的四个数据集成知识图。在这些周期期间的重点是创造可持续和可用的方法,可以在其他联系数据转换工作中采用。此外,我们的知识图表可用于海事历史学家和其他感兴趣的用户,以通过统一的门户调查荷兰东印度公司的日常业务。
translated by 谷歌翻译
在由家用电器,电动汽车和太阳能电池板等各种设备组成的分散家庭能源系统中,最终用户可以更深入地研究该系统的细节,并进一步实现能源可持续性,如果向它们提供了有关电能消耗的数据和设备粒度的生产。但是,该领域中的许多数据库都是从其他域中孤立的,包括仅与能源有关的信息。这可能会导致每个设备能源使用的信息损失(\ textit {例如{例如}天气)。同时,许多这些数据集已在计算建模技术(例如机器学习模型)中广泛使用。尽管这种计算方法仅通过仅专注于数据集的局部视图来实现极高的准确性和性能,但不能保证模型可靠性,因为当考虑到信息遗漏时,此类模型非常容易受到数据输入波动的影响。本文通过在家庭能源系统的基础上检查语义Web方法来解决智能能源系统领域的数据隔离问题。我们提供了一种基于本体的方法,用于在系统中的设备级分辨率下管理分散数据。结果,与每个设备相关的数据的范围可以在整个网络中以可互操作的方式轻松扩展,并且只要根据W3C标准组织数据,就可以从网络中获得其他信息,例如天气。 。
translated by 谷歌翻译
Digital media have enabled the access to unprecedented literary knowledge. Authors, readers, and scholars are now able to discover and share an increasing amount of information about books and their authors. Notwithstanding, digital archives are still unbalanced: writers from non-Western countries are less represented, and such a condition leads to the perpetration of old forms of discrimination. In this paper, we present the Under-Represented Writers Knowledge Graph (URW-KG), a resource designed to explore and possibly amend this lack of representation by gathering and mapping information about works and authors from Wikidata and three other sources: Open Library, Goodreads, and Google Books. The experiments based on KG embeddings showed that the integrated information encoded in the graph allows scholars and users to be more easily exposed to non-Western literary works and authors with respect to Wikidata alone. This opens to the development of fairer and effective tools for author discovery and exploration.
translated by 谷歌翻译
全球DataSphere快速增加,预计将达到20251年的175个Zettabytes。但是,大多数内容都是非结构化的,并且无法通过机器可以理解。将此数据构建到知识图中,使得智能应用程序具有诸如深度问题的智能应用,推荐系统,语义搜索等。知识图是一种新兴技术,允许使用内容与上下文一起逻辑推理和揭示新的洞察。因此,它提供了必要的语法和推理语义,使得能够解决复杂的医疗保健,安全,金融机构,经济学和业务问题。作为一项结果,企业正在努力建设和维护知识图表,以支持各种下游应用。手动方法太贵了。自动化方案可以降低建设知识图的成本,高达15-250次。本文批评了最先进的自动化技术,以自主地生成近乎人类的近乎人类的质量。此外,它突出了需要解决的不同研究问题,以提供高质量的知识图表
translated by 谷歌翻译
背景:获得医疗服务在很大程度上取决于资源分配,例如医疗设施的地理分布。然而,这些数据通常仅限于国家官方文件,不可公开提供。尽管某些医疗设施的数据可以作为网络上的语义资源访问,但它的建模并不一致,并且尚未集成到完整,开放和专业的存储库中。这项工作着重于生成全球医疗设施的全面语义数据集,其中包含有关此类设施地理位置的广泛信息。结果:为此,我们收集,对齐并链接了可能存在医疗设施信息的各种开源数据库。这项工作使我们能够沿着各个方面评估每个数据源,例如完整性,正确性和与其他来源相互联系,当前知识表示技术的所有关键方面。结论:我们的贡献直接受益于生物医学和健康领域(患者,医疗保健专业人员,公司,监管机构和研究人员)的利益相关者,他们现在将更好地概述获得医疗设施的访问和分配。
translated by 谷歌翻译
通过自动和手动方法生成的知识图(kgs)的数量正在不断增长。对于集成的视图和用法,在架构和实例级别上必须对这些KGS进行一致性。尽管有一些方法试图解决这个多源知识匹配问题,但缺少大黄金标准来评估其有效性和可扩展性。我们通过呈现Gollum来缩小这一差距 - 大规模多源知识图匹配的黄金标准,在4,149个不同的公里之间,超过275,000个对应关系。它们源自通过将DBPEDIA提取框架应用于大型Wiki农场而得出的知识图。可以提供三种黄金标准的变体:(1)一个具有评估无监督匹配方法的所有信件的版本,以及两个用于评估监督匹配的版本:(2)一个在火车和测试集中均包含每个kg,一个kg,一个kg, (3)一个专门包含在火车或测试集中的每个公斤。
translated by 谷歌翻译
社交媒体有可能提供有关紧急情况和突然事件的及时信息。但是,在每天发布的数百万帖子中找到相关信息可能很困难,并且开发数据分析项目通常需要时间和技术技能。这项研究提出了一种为分析社交媒体的灵活支持的方法,尤其是在紧急情况下。引入了可以采用社交媒体分析的不同用例,并讨论了从大量帖子中检索信息的挑战。重点是分析社交媒体帖子中包含的图像和文本,以及一组自动数据处理工具,用于过滤,分类和使用人类的方法来支持数据分析师的内容。这种支持包括配置自动化工具的反馈和建议,以及众包收集公民的投入。通过讨论Crowd4SDG H2020欧洲项目中开发的三个案例研究来验证结果。
translated by 谷歌翻译