在使用描述逻辑本体论时,理解描述逻辑推理器得出的需要并不总是直接。到目前为止,标准的本体编辑器prot \'eg \'e提供了两种服务来帮助:(黑盒)owl 2 dl本科学的理由,以及(玻璃盒)对轻质猫头鹰的证明,后者在其中利用后者利用了。推理麋鹿的证明设施。由于理由通常不足以解释推论,因此仅几乎没有工具支持来解释更具表现力的DLS中的推论。在本文中,我们介绍了Evee-libs,这是一个用于计算DLS到炼金术的Java库和Evee-Protege,这是一个prot \'eg'eg'e插件的集合,用于在prot \'eg'eg'e中显示这些证明。我们还简要介绍了最新版本的evonne,这是一个更高级的独立应用程序,用于显示和与用evee-libs计算的证据进行交互。
translated by 谷歌翻译
现实世界的语义或基于知识的系统,例如在生物医学领域,可能会变得大而复杂。因此,对此类系统知识库中故障的本地化和修复的工具支持对于它们的实际成功至关重要。相应地,近年来提出了许多知识库调试方法,尤其是基于本体的系统。基于查询的调试是一种相似的交互式方法,它通过向知识工程师提出一系列问题来定位观察到的问题的真正原因。存在这种方法的具体实现,例如本体论编辑器的OntodeBug插件prof \'eg \'e。为了验证新提出的方法比现有方法有利,研究人员通常依靠基于模拟的比较。但是,这种评估方法有一定的局限性,并且通常无法完全告知我们方法的真实性。因此,我们进行了不同的用户研究,以评估基于查询的本体调试的实际价值。研究的一个主要见解是,所考虑的交互方法确实比基于测试案例的替代算法调试更有效。我们还观察到,用户经常在此过程中犯错误,这突出了对用户需要回答的查询的仔细设计的重要性。
translated by 谷歌翻译
使用计算笔记本(例如,Jupyter Notebook),数据科学家根据他们的先前经验和外部知识(如在线示例)合理化他们的探索性数据分析(EDA)。对于缺乏关于数据集或问题的具体了解的新手或数据科学家,有效地获得和理解外部信息对于执行EDA至关重要。本文介绍了eDassistant,一个jupyterlab扩展,支持EDA的原位搜索示例笔记本电脑和有用的API的推荐,由搜索结果的新颖交互式可视化供电。代码搜索和推荐是由最先进的机器学习模型启用的,培训在线收集的EDA笔记本电脑的大型语料库。进行用户学习,以调查埃迪卡斯特和数据科学家的当前实践(即,使用外部搜索引擎)。结果证明了埃迪斯坦特的有效性和有用性,与会者赞赏其对EDA的顺利和环境支持。我们还报告了有关代码推荐工具的几种设计意义。
translated by 谷歌翻译
当本体学达到一定的规模和复杂性时,几乎无法避免诸如不一致,不满意的课程或错误的课程等故障。找到导致这些故障的不正确的公理是一项艰巨且耗时的任务。在解决这个问题时,已经提出了几种针对本体学中半自动断层定位的技术。通常,这些方法涉及一个人类专家,该专家为有关预期(正确)本体的系统生成的问题提供答案,以减少可能的故障位置。为了提出尽可能多的信息性问题,现有的方法借鉴了各种算法优化以及启发式方法。但是,这些计算通常基于有关交互用户的某些假设。在这项工作中,我们表征和讨论不同的用户类型,并表明现有方法并不能为所有用户实现最佳效率。作为一种补救措施,我们建议一种新型的专家问题,旨在适合所有分析专家的答案行为。此外,我们提出了一种算法,以优化与现场使用的(尝试和测试的)启发式方法完全兼容的新查询类型。关于现实世界中错误的实验表明,新的查询方法的潜力是将专家咨询时间最小化,而与专家类型无关。此外,获得的见解可以为互动调试工具的设计提供信息,以更好地满足用户的需求。
translated by 谷歌翻译
在概念学习,数据库查询的反向工程,生成参考表达式以及知识图中的实体比较之类的应用中,找到以标记数据项形式分开的逻辑公式,该公式分开以标记数据项形式给出的正面和负面示例。在本文中,我们研究了存在本体论的数据的分离公式的存在。对于本体语言和分离语言,我们都专注于一阶逻辑及其以下重要片段:描述逻辑$ \ Mathcal {alci} $,受保护的片段,两变量的片段和受保护的否定片段。为了分离,我们还考虑(工会)连接性查询。我们考虑了几种可分离性,这些可分离性在负面示例的治疗中有所不同,以及他们是否承认使用其他辅助符号来实现分离。我们的主要结果是(所有变体)可分离性,不同语言的分离能力的比较以及确定可分离性的计算复杂性的研究。
translated by 谷歌翻译
我们在HOL4互动定理证明书的顶部实施了自动战术证据Tacticeoe。Tactice从人类证据中学习,数学技术适用于每个证明情况。然后在蒙特卡罗树搜索算法中使用这种知识来探索有前途的策略级证明路径。在一个CPU上,时间限制为60秒,Tactictoe在Hol4的标准图书馆中证明了7164定理的66.4%,而自动调度的电子箴言解决了34.5%。通过结合Tactice和电子证明者的结果,成功率上升至69.0%。
translated by 谷歌翻译
机器学习(ML)生命周期涉及一系列迭代步骤,从有效的收集和准备数据,包括复杂的特征工程流程,对结果的演示和改进,各种步骤中的各种算法选择。特征工程尤其可以对ML非常有益,导致许多改进,例如提高预测结果,降低计算时间,减少过度噪音,并提高培训期间所采取的决策背后的透明度。尽管如此,虽然存在多个视觉分析工具来监控和控制ML生命周期的不同阶段(特别是与数据和算法相关的阶段),但功能工程支持仍然不足。在本文中,我们提出了FightEnvi,一种专门设计用于协助特征工程过程的视觉分析系统。我们建议的系统可帮助用户选择最重要的功能,将原始功能转换为强大的替代方案,并进行不同的特征生成组合。此外,数据空间切片允许用户探索本地和全局尺度上的功能的影响。 Feationenvi利用多种自动特征选择技术;此外,它目视指导用户有统计证据的关于每个特征的影响(或功能的子集)。最终结果是通过多种验证度量评估的重新设计的重新设计特征。用两种用例和案例研究证明了FeatureenVI的有用性和适用性。我们还向评估我们系统的有效性以及评估我们系统的有效性的观众报告反馈。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
叙事制图是一项学科,研究了故事和地图的交织性质。然而,叙述的传统地理化技术经常遇到几个突出的挑战,包括数据采集和一体化挑战和语义挑战。为了解决这些挑战,在本文中,我们提出了具有知识图表(KGS)的叙事制图的想法。首先,要解决数据采集和集成挑战,我们开发了一组基于KG的地理学工具箱,以允许用户从GISYstem内搜索和检索来自集成跨域知识图中的相关数据以获得来自GISYSTEM的叙述映射。在此工具的帮助下,来自KG的检索数据以GIS格式直接实现,该格式已准备好用于空间分析和映射。两种用例 - 麦哲伦的远征和第二次世界大战 - 被提出展示了这种方法的有效性。与此同时,从这种方法中确定了几个限制,例如数据不完整,语义不相容,以及地理化的语义挑战。对于后面的两个限制,我们为叙事制图提出了一个模块化本体,它将地图内容(地图内容模块)和地理化过程(制图模块)正式化。我们证明,通过代表KGS(本体)中的地图内容和地理化过程,我们可以实现数据可重用性和叙事制图的地图再现性。
translated by 谷歌翻译
绑架性遗忘正在从逻辑公式中删除变量,同时保持其绑架性解释。它是通过两种方式定义的,具体取决于其预期的应用。两者都与通常的遗忘不同,后者保持后果而不是解释。与此不同的是,从命题公式中绑架的遗忘可能不会由任何命题公式表达。必要且充分的条件告诉它何时。检查此条件是\ p {3} -complete,如果需要最小的说明,则在\ p {4}中。保证绑架性遗忘的表达性的一种方法是从命题转换为默认逻辑。另一个是引入新变量。
translated by 谷歌翻译
Semantic Web Rule Language (SWRL) combines OWL (Web Ontology Language) ontologies with Horn Logic rules of the Rule Markup Language (RuleML) family. Being supported by ontology editors, rule engines and ontology reasoners, it has become a very popular choice for developing rule-based applications on top of ontologies. However, SWRL is probably not go-ing to become a WWW Consortium standard, prohibiting industrial acceptance. On the other hand, SPIN (SPARQL Inferencing Notation) has become a de-facto industry standard to rep-resent SPARQL rules and constraints on Semantic Web models, building on the widespread acceptance of SPARQL (SPARQL Protocol and RDF Query Language). In this paper, we ar-gue that the life of existing SWRL rule-based ontology applications can be prolonged by con-verting them to SPIN. To this end, we have developed the SWRL2SPIN tool in Prolog that transforms SWRL rules into SPIN rules, considering the object-orientation of SPIN, i.e. linking rules to the appropriate ontology classes and optimizing them, as derived by analysing the rule conditions.
translated by 谷歌翻译
随着研究人员和从业人员将机器学习应用于越来越多的软件工程问题,他们使用的方法变得更加复杂。许多现代方法都以抽象语法树(AST)或其扩展形式使用内部代码结构:基于路径的表示,复杂的图将AST与其他边缘结合在一起。即使可以使用不同的解析器来从代码中提取AST的过程,但选择解析器对最终模型质量的影响仍然没有研究。此外,研究人员经常省略提取特定代码表示的确切细节。在这项工作中,我们在方法名称预测任务中评估了两个模型,即Code2Seq和Treelstm,由八个不同的解析器用于Java语言。为了将数据制备的过程与不同的解析器统一,我们开发了SuperParser,这是基于Pathminer的多语言解析器 - 不合Snostic库。 SuperParser促进了适用于培训和评估ML模型的数据集的端到端创建,这些模型与源代码中的结构信息合作。我们的结果表明,不同解析器建造的树木的结构和内容各不相同。然后,我们分析这种多样性如何影响模型的质量,并表明两种模型最不合适的解析器之间的质量差距非常重要。最后,我们讨论了解析器的其他功能,研究人员和从业人员在选择解析器时应考虑这些特征,以及对模型质量的影响。 SuperParser代码可在https://doi.org/10.5281/zenodo.6366591上公开获得。我们还发布了Java-Norm,即我们用于评估模型的数据集:https://doi.org/10.5281/zenodo.6366599。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译
结构分解方法,例如普遍的高树木分解,已成功用于解决约束满意度问题(CSP)。由于可以重复使用分解以求解具有相同约束范围的CSP,因此即使计算本身很难,将资源投资于计算良好的分解是有益的。不幸的是,即使示波器仅略有变化,当前方法也需要计算全新的分解。在本文中,我们迈出了解决CSP $ P $分解的问题的第一步,以使其成为由$ P $修改产生的新CSP $ P'$的有效分解。即使从理论上讲问题很难,我们还是提出并实施了一个有效更新GHD的框架。我们算法的实验评估强烈提出了实际适用性。
translated by 谷歌翻译
我们介绍了概率世界,这是一个新的全象征性的贝叶斯型号的语义解析和推理模型,作为对更具领域和任务通用NLU和AI的研究计划的第一步。人类创造了他们观察的内部心理模型,这极大地帮助理解和理解大量问题。在PWM中,句子的含义,获得世界的事实,以及推理的中间步骤都以人类可读的形式表达,具有可解释性的设计目标。 PWM是贝叶斯,专为能够概括新域和新任务而设计。我们派生并实现了一种推导算法,通过解析和释放捕获这些句子的语义的潜在世界模型来读取句子,并在两个域名问题答案数据集中评估它:(1)校对器和(2 )我们呼叫虚构的新数据集,旨在更具实际语言的代表,但仍然足够简单,以重新评估推理能力,同时对启发式鲁棒。我们的方法均优于两者的基线,从而将其值证明其作为概念验证。
translated by 谷歌翻译
Machine Learning for Source Code (ML4Code) is an active research field in which extensive experimentation is needed to discover how to best use source code's richly structured information. With this in mind, we introduce JEMMA, an Extensible Java Dataset for ML4Code Applications, which is a large-scale, diverse, and high-quality dataset targeted at ML4Code. Our goal with JEMMA is to lower the barrier to entry in ML4Code by providing the building blocks to experiment with source code models and tasks. JEMMA comes with a considerable amount of pre-processed information such as metadata, representations (e.g., code tokens, ASTs, graphs), and several properties (e.g., metrics, static analysis results) for 50,000 Java projects from the 50KC dataset, with over 1.2 million classes and over 8 million methods. JEMMA is also extensible allowing users to add new properties and representations to the dataset, and evaluate tasks on them. Thus, JEMMA becomes a workbench that researchers can use to experiment with novel representations and tasks operating on source code. To demonstrate the utility of the dataset, we also report results from two empirical studies on our data, ultimately showing that significant work lies ahead in the design of context-aware source code models that can reason over a broader network of source code entities in a software project, the very task that JEMMA is designed to help with.
translated by 谷歌翻译
知识表示和推理有悠久的历史,即研究如何通过机器对知识进行形式化,解释和语义分析。在自动化车辆领域,最近的进步表明,能够将相关知识形式化和利用相关知识作为处理交通界固有且复杂的环境的关键推动者。本文证明了本体论是a)对自动车辆环境中与关键相关的因素进行建模和形式化的强大工具。为此,我们利用著名的6层模型来创建环境环境的形式表示。在此表示形式中,本体论将域知识模型为逻辑公理,从而促进交通场景和场景中的关键因素的存在。为了执行自动分析,将联合描述逻辑和规则推理器与A-Priori谓词增强结合使用。我们详细介绍了模块化方法,提出了公开可用的实施,并通过大规模的无人机数据集评估了该方法的城市交通情况。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
回答集编程(ASP)已成为一种流行的和相当复杂的声明问题解决方法。这是由于其具有吸引力的地址解决方案的工作流程,这是可以轻松解决问题解决的方法,即使对于计算机科学外的守护者而言。与此不同,底层技术的高度复杂性使得ASP专家越来越难以将想法付诸实践。有关解决此问题,本教程旨在使用户能够构建自己的基于ASP的系统。更确切地说,我们展示了ASP系统Clingo如何用于扩展ASP和实现定制的专用系统。为此,我们提出了两个替代方案。我们从传统的AI技术开始,并展示元编程如何用于扩展ASP。这是一种相当轻的方法,依赖于Clingo的reation特征来使用ASP本身表达新功能。与此不同,本教程的主要部分使用传统的编程(在Python中)来通过其应用程序编程接口操纵Clingo。这种方法允许改变和控制ASP的整个模型 - 地面解决工作流程。 COMENT of Clingo的新应用程序课程使我们能够通过自定义类似于Clingo中的进程来绘制Clingo的基础架构。例如,我们可能会互动到程序的抽象语法树,控制各种形式的多射击求解,并为外国推论设置理论传播者。另一种横截面结构,跨越元以及应用程序编程是Clingo的中间格式,即指定底层接地器和求解器之间的界面。我们通过示例和几个非琐碎的案例研究说明了本教程的前述概念和技术。
translated by 谷歌翻译
推荐系统是帮助用户以个性化方式找到信息过载的兴趣项目,使用关于各用户的需求和偏好的知识。在会话推荐方法中,这些需求和偏好由系统中的交互式多匝对话框中的。文献中的一种常见方法来驱动这些对话框是逐步向用户逐步询问他们关于期望和不期望的项目特征或关于单个项目的偏好。在这种情况下,在该上下文中的核心研究目标是效率,在找到令人满意的项目之前对所需交互的数量进行评估。这通常是通过对向用户询问的最佳下一个问题的推断来实现。如今,对对话效率的研究几乎完全是经验的,旨在说明,例如,选择问题的一个策略优于给定的应用程序中的另一个策略。通过这项工作,我们将实证研究补充了理论,域名的对话建议的独立模型。该模型旨在涵盖一系列应用方案,使我们能够以正式的方式调查会话方法的效率,特别是关于设计最佳相互作用策略的计算复杂性。通过如此理论分析,我们表明,找到高效的会话策略是NP - 硬,并且在PSPace中,但对于特定类型的目录,上限降低到Polylogspace。从实际的角度来看,该结果意味着目录特征可以强烈影响个人对话策略的效率,因此在设计新策略时应考虑。从真实世界派生的数据集的初步实证分析与我们的研究结果对齐。
translated by 谷歌翻译