我们挑战现有的基于查询的本体故障本地化方法WRT。他们做出的假设,优化的标准以及相互作用意味着它们使用。我们发现它们的效率在很大程度上取决于相互作用的专家的行为,进行计算的计算效率低下或不精确,并且使用的优化标准通常不完全现实。作为一种补救措施,我们建议一种新颖(和简单)的互动方法,它克服了所有确定的问题,并且在有关错误现实世界本体论的全面实验中,可以成功地定位错误,同时需要在66%的情况下进行更少的专家互动,并且始终需要更少与现有方法相比,专家等待时间至少减少了80%。
translated by 谷歌翻译
当本体学达到一定的规模和复杂性时,几乎无法避免诸如不一致,不满意的课程或错误的课程等故障。找到导致这些故障的不正确的公理是一项艰巨且耗时的任务。在解决这个问题时,已经提出了几种针对本体学中半自动断层定位的技术。通常,这些方法涉及一个人类专家,该专家为有关预期(正确)本体的系统生成的问题提供答案,以减少可能的故障位置。为了提出尽可能多的信息性问题,现有的方法借鉴了各种算法优化以及启发式方法。但是,这些计算通常基于有关交互用户的某些假设。在这项工作中,我们表征和讨论不同的用户类型,并表明现有方法并不能为所有用户实现最佳效率。作为一种补救措施,我们建议一种新型的专家问题,旨在适合所有分析专家的答案行为。此外,我们提出了一种算法,以优化与现场使用的(尝试和测试的)启发式方法完全兼容的新查询类型。关于现实世界中错误的实验表明,新的查询方法的潜力是将专家咨询时间最小化,而与专家类型无关。此外,获得的见解可以为互动调试工具的设计提供信息,以更好地满足用户的需求。
translated by 谷歌翻译
现实世界的语义或基于知识的系统,例如在生物医学领域,可能会变得大而复杂。因此,对此类系统知识库中故障的本地化和修复的工具支持对于它们的实际成功至关重要。相应地,近年来提出了许多知识库调试方法,尤其是基于本体的系统。基于查询的调试是一种相似的交互式方法,它通过向知识工程师提出一系列问题来定位观察到的问题的真正原因。存在这种方法的具体实现,例如本体论编辑器的OntodeBug插件prof \'eg \'e。为了验证新提出的方法比现有方法有利,研究人员通常依靠基于模拟的比较。但是,这种评估方法有一定的局限性,并且通常无法完全告知我们方法的真实性。因此,我们进行了不同的用户研究,以评估基于查询的本体调试的实际价值。研究的一个主要见解是,所考虑的交互方法确实比基于测试案例的替代算法调试更有效。我们还观察到,用户经常在此过程中犯错误,这突出了对用户需要回答的查询的仔细设计的重要性。
translated by 谷歌翻译
给定故障系统,顺序诊断旨在确定在异常行为的系统组件方面识别失败的根本原因。由于最初的系统观察通常不足以确定性地固定系统的不当行为,因此其他系统测量可以帮助区分可能的解释。目的是限制解释的空间,直到只剩下一个(高度可能)的解释。为了通过一组最小成本的测量值来实现这一目标,已经提出了各种选择最佳下一个测量值的(主动学习)启发式方法。我们报告了广泛的正在进行的实验的初步结果,并在现实世界诊断病例上进行了一系列选择启发式方法。特别是,我们试图回答诸如“某些启发式词总是比其他所有人都优越?”之类的问题,“特定启发式方法的(相对)性能取决于哪些因素?”或“在哪些情况下我应该使用启发式方法?”
translated by 谷歌翻译
为了代表,统计样本必须以随机和公正的方式从人群中获取。然而,在基于模型的诊断领域的常见做法是从(偏见)最佳先前样本进行估计。一个例子是计算有缺陷系统的一些最可能的故障解释,并使用这些解释来评估系统的哪个方面(如果测量)将带来最高的信息增益。在这项工作中,我们仔细检查了这些在统计学上没有得到充分的惯例,即诊断研究人员和从业人员已经遵守了数十年的认可,这确实是合理的。为此,我们通过经验分析了产生故障解释的各种抽样方法。我们研究了产生的样品的代表性,这些样本的估计以及它们指导诊断决策的指导程度以及我们研究样本量的影响,采样效率和有效性之间的最佳权衡以及如何比较采样技术的影响确切的。
translated by 谷歌翻译
这项工作提出了用于诊断计算方法的分类法,该方法允许其标准化的评估,分类和比较。目的是(i)使研究人员和从业者对可用诊断技术的各种景观的印象,(ii)允许他们轻松地检索主要功能以及方法的优点和缺点,(iii)启用了轻松且易于根据其特征WRT的技术进行明确比较。重要且定义明确的属性的列表,以及(iv)促进为特定问题案例(例如,在实际诊断设置中,用于比较实验评估)或重用,修改,修改,修改,修改,扩展或研究过程中的改进。
translated by 谷歌翻译
知识表示中的一个突出问题是如何应对域名知识的本体的隐性后果来回回答查询。虽然这个问题在描述逻辑本体的领域中已被广泛研究,但在模糊或不精确的知识的背景下,令人惊讶地忽略了忽视,特别是从数学模糊逻辑的角度来看。在本文中,我们研究了应答联合查询和阈值查询的问题。模糊DL-Lite中的本体。具体而言,我们通过重写方法展示阈值查询应答W.r.t.一致的本体中仍保持在数据复杂性的$ AC_0 $中,但该联合查询应答高度依赖于所选三角标准,这对底层语义产生了影响。对于IDEMPodent G \“Odel T-Norm,我们提供了一种基于古典案例的减少的有效方法。本文在理论和实践中正在考虑和逻辑编程(TPLP)的实践。
translated by 谷歌翻译
本体学的正确性和完整性质量对于开发基于本体的应用程序至关重要。传统的调试技术通过删除不必要的公理来修复本体,但可能因此消除了本体域中正确的后果。在本文中,我们提出了一种交互式方法,以通过公理削弱和完成来减轻$ \ Mathcal {el} $本体。我们提出了用于削弱和完成的算法,并提出了修复的第一种方法,该方法考虑了去除,削弱和完成的方法。我们展示了不同的组合策略,讨论对最终本体论的影响并显示实验结果。我们表明,以前的工作仅考虑了特殊案例,并且在正确性和完整性方面,针对领域专家的验证工作数量与本体质量之间存在权衡。
translated by 谷歌翻译
问答系统被认为是流行且经常有效的信息在网络上寻求信息的手段。在这样的系统中,寻求信息者可以通过自然语言提出问题来获得对他们的查询的简短回应。交互式问题回答是一种最近提出且日益流行的解决方案,它位于问答和对话系统的交集。一方面,用户可以以普通语言提出问题,并找到对她的询问的实际回答;另一方面,如果在初始请求中有多个可能的答复,很少或歧义,则系统可以将问题交通会话延长到对话中。通过允许用户提出更多问题,交互式问题回答使用户能够与系统动态互动并获得更精确的结果。这项调查提供了有关当前文献中普遍存在的交互式提问方法的详细概述。它首先要解释提问系统的基本原理,从而定义新的符号和分类法,以将所有已确定的作品结合在统一框架内。然后,根据提出的方法,评估方法和数据集/应用程序域来介绍和检查有关交互式问题解答系统的审查已发表的工作。我们还描述了围绕社区提出的特定任务和问题的趋势,从而阐明了学者的未来利益。 GitHub页面的综合综合了本文献研究中涵盖的所有主要主题,我们的工作得到了进一步的支持。 https://sisinflab.github.io/interactive-question-answering-systems-survey/
translated by 谷歌翻译
公司的一个普遍问题是,产品订单的量有时可能超过生产能力。我们正式介绍了两个新的问题,该问题处理了一个问题,该问题要丢弃或推迟以实现某些(及时性)目标,并尝试通过基于模型的诊断来接触它们。在彻底的分析中,我们确定了诊断问题引入的问题的许多相似之处,但也揭示了关键的特质和概述处理或利用它们的方法。最后,对工业规模的问题实例的概念验证评估来自众所周知的调度基准套件,这表明,基于开箱即用的模型诊断工具可以很好地攻击两个形式化问题之一。
translated by 谷歌翻译
包括设备诊断和异常检测在内的工业分析很大程度上依赖于异质生产数据的整合。知识图(kgs)作为数据格式和本体作为统一数据模式是一个突出的解决方案,它提供了高质量的数据集成以及一种方便且标准化的方式来交换数据并将分析应用程序分层。然而,它们之间高度不匹配的本体和工业数据的本体学自然而然导致低质量的KG,这阻碍了工业分析的采用和可扩展性。实际上,这样的kg大大增加了为用户编写查询的培训时间,消耗大量存储以获取冗余信息,并且很难维护和更新。为了解决这个问题,我们提出了一种本体论重塑方法,将本体论转换为KG模式,以更好地反映基本数据,从而有助于构建更好的KGS。在这张海报中,我们对正在进行的研究进行了初步讨论,并通过Bosch上有关现实世界行业数据的大量SPARQL查询来评估我们的方法,并讨论我们的发现。
translated by 谷歌翻译
近年来,数据科学已经显着发展。数据分析和采矿过程成为可用数据集的所有行业的常规。已收集,策划,存储和用于提取知识的大量数据存储库。这变得司空见惯。随后,我们直接从数据或通过给定域中的专家提取大量知识。现在的挑战是如何利用以前因高效决策过程而闻名的所有这些知识。直到最近,通过多年的研究获得的许多知识都存储在静态知识库或本体中,而从数据挖掘研究中获得的更多样化和动态知识并没有集中和始终如一地管理。在这项研究中,我们提出了一个称为基于本体的知识图的新型模型,以代表和存储农作物耕作中数据挖掘的结果(知识),以建立,维护和丰富知识发现过程。提出的模型包括六个主要集合:概念,属性,关系,转换,实例和状态。该模型是动态的,可以随时促进知识的访问,更新和开发。本文还提出了用于处理这种基于知识模型的体系结构。系统体系结构包括知识建模,提取,评估,发布和开发。该系统已被实施并用于农业管理和监测。事实证明,它非常有效,并且有望扩展到其他领域。
translated by 谷歌翻译
各种基于模型的诊断方案需要计算最优选的故障解释。但是,现有的声音算法(即仅输出实际故障说明)并完成(即可以返回所有说明),但是,需要指数空间才能完成此任务。作为一种补救措施,为了在内存限制的设备上成功诊断和记忆密集型问题案例,我们提出了RBF-HS,这是一种基于KORF众所周知的RBFS算法的诊断搜索方法。 RBF-HS可以在线性空间范围内以最佳优先级的方式列举任意固定数量的故障解释,而无需牺牲理想的声音或完整性属性。使用现实世界诊断病例的评估表明,RBF-HS在计算最小心电图解释时,在大多数情况下,可以节省大量空间(最多98%),而仅需要比Reiter的HS-Tree(相比)更多或更少的时间,通常使用的,通常是适用的声音,完整,最好的诊断搜索。
translated by 谷歌翻译
This paper reviews existing work in software engineering that applies statistical causal inference methods. These methods aim at estimating causal effects from observational data. The review covers 32 papers published between 2010 and 2022. Our results show that the application of statistical causal inference methods is relatively recent and that the corresponding research community remains relatively fragmented.
translated by 谷歌翻译
最近在语义Web本体论的背景下研究了受控查询评估(CQE)。 CQE的目标是隐藏一些查询答案,以防止外部用户推断机密信息。通常,存在多种隐藏答案的多种无与伦比的方法,并且先前的CQE方法提前选择了哪些答案是可见的,哪些是不可见的。相反,在本文中,我们研究了一种动态CQE方法,即,我们建议根据对先前的评估更改当前查询的答案。我们的目标是最大程度地合作,除了能够保护机密数据之外,该系统除了能够保护机密数据,这意味着它可以肯定地回答了尽可能多的查询;它通过尽可能延迟答案修改来实现这一目标。我们还表明,我们无法通过静态方法(独立于查询历史记录)在直觉上模拟这种行为。有趣的是,对于通过拒绝表达的OWL 2 QL本体和策略,我们的语义下的查询评估是一阶重写,因此在数据复杂性中是AC0。这为开发实用算法铺平了道路,我们在本文中也初步讨论了这一算法。
translated by 谷歌翻译
推荐系统是帮助用户以个性化方式找到信息过载的兴趣项目,使用关于各用户的需求和偏好的知识。在会话推荐方法中,这些需求和偏好由系统中的交互式多匝对话框中的。文献中的一种常见方法来驱动这些对话框是逐步向用户逐步询问他们关于期望和不期望的项目特征或关于单个项目的偏好。在这种情况下,在该上下文中的核心研究目标是效率,在找到令人满意的项目之前对所需交互的数量进行评估。这通常是通过对向用户询问的最佳下一个问题的推断来实现。如今,对对话效率的研究几乎完全是经验的,旨在说明,例如,选择问题的一个策略优于给定的应用程序中的另一个策略。通过这项工作,我们将实证研究补充了理论,域名的对话建议的独立模型。该模型旨在涵盖一系列应用方案,使我们能够以正式的方式调查会话方法的效率,特别是关于设计最佳相互作用策略的计算复杂性。通过如此理论分析,我们表明,找到高效的会话策略是NP - 硬,并且在PSPace中,但对于特定类型的目录,上限降低到Polylogspace。从实际的角度来看,该结果意味着目录特征可以强烈影响个人对话策略的效率,因此在设计新策略时应考虑。从真实世界派生的数据集的初步实证分析与我们的研究结果对齐。
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译
Large language models (LLMs) have demonstrated impressive capabilities in natural language understanding and generation, but the quality bar for medical and clinical applications is high. Today, attempts to assess models' clinical knowledge typically rely on automated evaluations on limited benchmarks. There is no standard to evaluate model predictions and reasoning across a breadth of tasks. To address this, we present MultiMedQA, a benchmark combining six existing open question answering datasets spanning professional medical exams, research, and consumer queries; and HealthSearchQA, a new free-response dataset of medical questions searched online. We propose a framework for human evaluation of model answers along multiple axes including factuality, precision, possible harm, and bias. In addition, we evaluate PaLM (a 540-billion parameter LLM) and its instruction-tuned variant, Flan-PaLM, on MultiMedQA. Using a combination of prompting strategies, Flan-PaLM achieves state-of-the-art accuracy on every MultiMedQA multiple-choice dataset (MedQA, MedMCQA, PubMedQA, MMLU clinical topics), including 67.6% accuracy on MedQA (US Medical License Exam questions), surpassing prior state-of-the-art by over 17%. However, human evaluation reveals key gaps in Flan-PaLM responses. To resolve this we introduce instruction prompt tuning, a parameter-efficient approach for aligning LLMs to new domains using a few exemplars. The resulting model, Med-PaLM, performs encouragingly, but remains inferior to clinicians. We show that comprehension, recall of knowledge, and medical reasoning improve with model scale and instruction prompt tuning, suggesting the potential utility of LLMs in medicine. Our human evaluations reveal important limitations of today's models, reinforcing the importance of both evaluation frameworks and method development in creating safe, helpful LLM models for clinical applications.
translated by 谷歌翻译
为了提高模型透明度并允许用户形成训练有素的ML模型的心理模型,解释对AI和机器学习(ML)社区的兴趣越来越高。但是,解释可以超越这种方式通信作为引起用户控制的机制,因为一旦用户理解,他们就可以提供反馈。本文的目的是介绍研究概述,其中解释与交互式功能相结合,是从头开始学习新模型并编辑和调试现有模型的手段。为此,我们绘制了最先进的概念图,根据其预期目的以及它们如何构建相互作用,突出它们之间的相似性和差异来分组相关方法。我们还讨论开放研究问题并概述可能的方向,希望促使人们对这个开花研究主题进行进一步的研究。
translated by 谷歌翻译
过去十年已经看到人工智能(AI)的显着进展,这导致了用于解决各种问题的算法。然而,通过增加模型复杂性并采用缺乏透明度的黑匣子AI模型来满足这种成功。为了响应这种需求,已经提出了说明的AI(Xai)以使AI更透明,从而提高关键结构域中的AI。虽然有几个关于Xai主题的Xai主题的评论,但在Xai中发现了挑战和潜在的研究方向,这些挑战和研究方向被分散。因此,本研究为Xai组织的挑战和未来的研究方向提出了系统的挑战和未来研究方向:(1)基于机器学习生命周期的Xai挑战和研究方向,基于机器的挑战和研究方向阶段:设计,开发和部署。我们认为,我们的META调查通过为XAI地区的未来探索指导提供了XAI文学。
translated by 谷歌翻译