知识图的完整性是重要的质量维度,也是对使用IT的应用程序表现良好的因素。通过执行知识丰富,可以改善完整性。重复检测旨在在知识图的实例之间找到身份联系,并且是知识丰富的基本子任务。当前解决问题的解决方案需要对工具的专家知识及其应用的知识图。用户可能没有这种专家知识。我们介绍了基于服务的重复检测任务的方法,该方法提供了一种易于使用的无代码解决方案,该解决方案仍然与最先进的解决方案竞争,并且最近在工业背景下被采用。评估将基于几种常用的测试方案。
translated by 谷歌翻译
科学家在寻找最佳的输入资源来解决目标预测任务的最佳输入资源方面的困难是在知识图图图上训练算法的主要障碍之一。除此之外,一个关键的挑战是确定如何操纵(和嵌入)这些数据,这些数据通常以特定的三元组(即主题,谓词,对象)的形式来启用学习过程。在本文中,我们描述了Liveschema倡议,即一个门户,该网关提供了一个服务家庭,可以轻松访问,分析,转换和利用知识图模式,其主要目标是促进这些资源在机器学习用例中的重复使用。作为该计划的早期实施,我们还推进了一个在线目录,该目录依赖于800多个资源,并提供了第一组示例服务。
translated by 谷歌翻译
大型公共知识图,例如Wikidata,包含数千万实体的数十亿个陈述,从而激发了各种用例以利用此类知识图。但是,实践表明,Wikidata中仍然缺少适合用户需求的许多相关信息,而当前的链接开放数据(LOD)工具不适合丰富像Wikidata这样的大图。在本文中,我们研究了从LOD云中用结构化数据源丰富Wikidata的潜力。我们提出了一个新颖的工作流程,其中包括差距检测,源选择,模式对齐和语义验证。我们用两个互补的LOD来源评估了我们的富集方法:一个嘈杂的源,具有广泛的覆盖范围,DBPEDIA和一个手动策划的来源,对艺术领域,Getty的关注狭窄。我们的实验表明,我们的工作流程可以通过高质量的外部LOD来源来丰富Wikidata。财产一致性和数据质量是关键挑战,而实体对齐和源选择是由现有的Wikidata机制良好支持的。我们提供代码和数据以支持未来的工作。
translated by 谷歌翻译
通过自动和手动方法生成的知识图(kgs)的数量正在不断增长。对于集成的视图和用法,在架构和实例级别上必须对这些KGS进行一致性。尽管有一些方法试图解决这个多源知识匹配问题,但缺少大黄金标准来评估其有效性和可扩展性。我们通过呈现Gollum来缩小这一差距 - 大规模多源知识图匹配的黄金标准,在4,149个不同的公里之间,超过275,000个对应关系。它们源自通过将DBPEDIA提取框架应用于大型Wiki农场而得出的知识图。可以提供三种黄金标准的变体:(1)一个具有评估无监督匹配方法的所有信件的版本,以及两个用于评估监督匹配的版本:(2)一个在火车和测试集中均包含每个kg,一个kg,一个kg, (3)一个专门包含在火车或测试集中的每个公斤。
translated by 谷歌翻译
知识图(kgs)已证明对于个人助理,提问系统和搜索引擎等应用非常重要。因此,确保其高质量至关重要。但是,公斤不可避免地包含错误,重复和缺失的价值,这可能会阻碍其在业务应用中的收养和实用性,因为它们没有策划,例如,低质量的kgs产生了在其顶部建立的低质量应用程序。在本视觉论文中,我们提出了一个实用的知识图策划框架,以提高KG的质量。首先,我们定义了一组用于评估KGS状态的质量指标,其次,我们将KGS的验证和验证描述为清洁任务,第三,我们提出了重复的检测和知识融合策略,以丰富KGS。此外,我们为策划KGS的更好的建筑提供了见解和方向。
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译
我们根据生态毒理学风险评估中使用的主要数据来源创建了知识图表。我们已经将这种知识图表应用于风险评估中的重要任务,即化学效果预测。我们已经评估了在该预测任务的各种几何,分解和卷积模型中嵌入模型的九个知识图形嵌入模型。我们表明,使用知识图形嵌入可以提高与神经网络的效果预测的准确性。此外,我们已经实现了一种微调架构,它将知识图形嵌入到效果预测任务中,并导致更好的性能。最后,我们评估知识图形嵌入模型的某些特征,以阐明各个模型性能。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
在构建新的应用程序时,我们越来越多地面对从多个来源重用和集成预先存在的知识,例如本体,模式,任何类型的数据。然而,事实上,这一事先知识几乎不可能重复使用。这种困难是高成本的原因,通过进一步的缺点,结果应用程序将再次难以重复使用。它是一个负环,这一直始终加强本身。 itelos是一种通用方法,旨在尽可能最大限度地减少这种环路的效果。 itelos基于应用程序的数据级别和架构级别的直观应独立开发,从而允许在先前知识的重用中进行最大的灵活性,但是在需要满足的整体指导下,正式化为能力查询。通过对所有要求(包括重用的要求)来实现这种直觉,作为一种先验定义目的的一部分,然后用于驱动中间开发过程,其中应用程序模式和数据连续对齐。
translated by 谷歌翻译
尽管编码了大量丰富和有价值的数据,但现有的数据来源主要是独立创建的,这是他们整合的重大挑战。映射语言,例如RML和R2RML,促进了将Meta-Data和将数据集成到知识图中的过程的声明性规范。除了在数据源和统一模式中表达对应关系之外,映射规则还可以包括知识提取功能。组合映射规则和函数表示强大的形式主义,以指定流水管以透明地将数据集成到知识图中。令人惊讶的是,这些形式主义没有完全调整,并且通过将ad-hoc程序执行到预处理和集成数据来创建许多知识图表。在本文中,我们提出了Eablock,一种方法将实体对齐(EA)集成为RML映射规则的一部分。 eAblock包括执行从文本属性的实体识别的功能块,并将识别的实体链接到Wikidata,DBPedia和域特定词库中的相应资源,例如UML。 EABLOCK提供可靠性和有效的技术来评估功能并转移映射以促进其在任何符合RML标准的发动机中的应用。我们有经验评估的eAblock性能,结果表明eAblock加快了需要实体识别和链接在符合最先进的RML标准的发动机的知识图形创建管道。 Eablock还通过Github存储库(https:/github.com/sdm-tib/eablock)和doi(https://doi.org/10.5281/zenodo.5779777)作为工具被公开可用作工具。
translated by 谷歌翻译
基准和性能分析在理解迭代优化启发式(IOHS)的行为中发挥着重要作用,例如本地搜索算法,遗传和进化算法,贝叶斯优化算法等。然而,这项任务涉及手动设置,执行和分析实验单独的基础,这是艰苦的,可以通过通用和设计精心设计的平台来缓解。为此,我们提出了Iohanalyzer,一种用于分析,比较和可视化IOH的性能数据的新用户友好的工具。在R和C ++中实现,Iohanalyzer是完全开源的。它可以在Cran和GitHub上获得。 Iohanalyzer提供有关固定目标运行时间的详细统计信息以及具有实际值的Codomain,单目标优化任务的基准算法的固定预算性能。例如,在多个基准问题上的性能聚合是可能的,例如以经验累积分布函数的形式。 Iohanalyzer在其他性能分析包上的主要优点是其高度交互式设计,允许用户指定对其实验最有用的性能测量,范围和粒度,以及不仅分析性能迹线,还可以分析演变动态状态参数。 Iohanalyzer可以直接从主基准平台处理性能数据,包括Coco平台,JOVERRAD,SOS平台和iohExperenter。提供R编程接口,供用户更倾向于对实现的功能进行更精细的控制。
translated by 谷歌翻译
全球DataSphere快速增加,预计将达到20251年的175个Zettabytes。但是,大多数内容都是非结构化的,并且无法通过机器可以理解。将此数据构建到知识图中,使得智能应用程序具有诸如深度问题的智能应用,推荐系统,语义搜索等。知识图是一种新兴技术,允许使用内容与上下文一起逻辑推理和揭示新的洞察。因此,它提供了必要的语法和推理语义,使得能够解决复杂的医疗保健,安全,金融机构,经济学和业务问题。作为一项结果,企业正在努力建设和维护知识图表,以支持各种下游应用。手动方法太贵了。自动化方案可以降低建设知识图的成本,高达15-250次。本文批评了最先进的自动化技术,以自主地生成近乎人类的近乎人类的质量。此外,它突出了需要解决的不同研究问题,以提供高质量的知识图表
translated by 谷歌翻译
叙事制图是一项学科,研究了故事和地图的交织性质。然而,叙述的传统地理化技术经常遇到几个突出的挑战,包括数据采集和一体化挑战和语义挑战。为了解决这些挑战,在本文中,我们提出了具有知识图表(KGS)的叙事制图的想法。首先,要解决数据采集和集成挑战,我们开发了一组基于KG的地理学工具箱,以允许用户从GISYstem内搜索和检索来自集成跨域知识图中的相关数据以获得来自GISYSTEM的叙述映射。在此工具的帮助下,来自KG的检索数据以GIS格式直接实现,该格式已准备好用于空间分析和映射。两种用例 - 麦哲伦的远征和第二次世界大战 - 被提出展示了这种方法的有效性。与此同时,从这种方法中确定了几个限制,例如数据不完整,语义不相容,以及地理化的语义挑战。对于后面的两个限制,我们为叙事制图提出了一个模块化本体,它将地图内容(地图内容模块)和地理化过程(制图模块)正式化。我们证明,通过代表KGS(本体)中的地图内容和地理化过程,我们可以实现数据可重用性和叙事制图的地图再现性。
translated by 谷歌翻译
The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.
translated by 谷歌翻译
药物发现和发展是一个复杂和昂贵的过程。正在研究机器学习方法,以帮助提高药物发现管道多个阶段的有效性和速度。其中,使用知识图表(kg)的那些在许多任务中具有承诺,包括药物修复,药物毒性预测和靶基因疾病优先级。在药物发现kg中,包括基因,疾病和药物在内的关键因素被认为是实体,而它们之间的关系表示相互作用。但是,为了构建高质量的KG,需要合适的数据。在这篇综述中,我们详细介绍了适用于构建聚焦KGS的药物发现的公开使用来源。我们的目标是帮助引导机器学习和kg从业者对吸毒者发现领域应用新技术,但是谁可能不熟悉相关的数据来源。通过严格的标准选择数据集,根据包含内部包含的主要信息类型,并基于可以提取的信息来进行分类以构建kg。然后,我们对现有的公共药物发现KGS进行了比较分析,并评估了文献中所选择的激励案例研究。此外,我们还提出了众多和与域及其数据集相关的众多挑战和问题,同时突出了关键的未来研究方向。我们希望本综述将激励KGS在药物发现领域的关键和新兴问题中使用。
translated by 谷歌翻译
分层多代理系统提供了分析,模型和模拟复杂系统的方便和相关的方式,这些方法由不同的抽象级别交互的大量实体组成。在本文中,我们引入了哈姆雷特(基于等级代理的机器学习平台),一个基于分层多种代理系统的混合机学习平台,促进了地理上和/或本地分布式机器学习实体的研究和民主化。所提出的系统模拟了一种机器学习解决方案,作为超图,并根据其先天的能力和学习技能自主地建立异质代理的多级结构。哈姆雷特辅助机器学习系统的设计和管理,并为研究社区提供分析功能,以通过灵活和可定制的查询评估现有和/或新算法/数据集。所提出的混合机器学习平台不承担对学习算法/数据集的类型的限制,并且理论上被证明是声音,并且具有多项式计算要求。此外,它是在120次训练和四个在24台机器学习算法和9个标准数据集上执行的四个广义批量测试任务的经验检查。提供的实验结果不仅在平台的一致性和正确性方面建立了信心,而且还证明了其测试和分析能力。
translated by 谷歌翻译
随着大规模分析的越来越重视,我们面临着整合来自多个来源的数据的需求。问题在于这些数据不可能重复使用。最终结果是高成本,进一步的缺点是,所得的集成数据将再次被重复使用。Itelos是一种通用方法,旨在最大程度地减少此过程的影响。直觉是,数据将根据其受欢迎程度而受到不同的处理:重复使用的一组数据越多,将其重复使用越多,并且在重复使用中更改的数据越少,从而降低了整体数据预处理成本,而这些成本却降低了。增加向后兼容性和未来共享
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译
我们介绍了对形状约束语言(Shacl)的介绍和审查,用于验证RDF数据的W3C推荐语言。SHACL文档描述了RDF节点上的一组约束,如果其节点满足这些约束,则图表对于文档是有效的。我们重新审视语言的基本概念,其构建和组件及其互动。我们审查了用于研究这种语言和不同语义的不同正式框架。我们检查许多相关问题,从遏制和满足性与Shacl与推理规则的相互作用,并展示语言的不同发动机对不同的问题有用。我们还涵盖了Shacl的实际方面,讨论其实现和通过的情况,为从业者和理论者提供了一个很有用的全面审查。
translated by 谷歌翻译
从原始数据输入中学习,因此限制了功能工程的需求,是机器学习方法在各个域中的许多成功应用的组成部分。尽管许多问题自然地转化为直接在标准分类器中使用的矢量表示形式,但许多数据源具有结构化数据互换格式的自然形式(例如,以JSON/XML格式使用的安全日志)。现有方法,例如在层次多实例学习(HMIL)中,允许以原始形式从此类数据中学习。但是,对原始结构化数据培训的分类器的解释仍然在很大程度上尚未探索。通过将这些模型视为子集选择问题,我们证明了如何使用计算有效算法来生成具有优惠属性的可解释解释。我们与图形神经网络采用的解释技术进行比较,该技术显示了速度加速和更高质量的解释的顺序。
translated by 谷歌翻译