The most widely studied explainable AI (XAI) approaches are unsound. This is the case with well-known model-agnostic explanation approaches, and it is also the case with approaches based on saliency maps. One solution is to consider intrinsic interpretability, which does not exhibit the drawback of unsoundness. Unfortunately, intrinsic interpretability can display unwieldy explanation redundancy. Formal explainability represents the alternative to these non-rigorous approaches, with one example being PI-explanations. Unfortunately, PI-explanations also exhibit important drawbacks, the most visible of which is arguably their size. Recently, it has been observed that the (absolute) rigor of PI-explanations can be traded off for a smaller explanation size, by computing the so-called relevant sets. Given some positive {\delta}, a set S of features is {\delta}-relevant if, when the features in S are fixed, the probability of getting the target class exceeds {\delta}. However, even for very simple classifiers, the complexity of computing relevant sets of features is prohibitive, with the decision problem being NPPP-complete for circuit-based classifiers. In contrast with earlier negative results, this paper investigates practical approaches for computing relevant sets for a number of widely used classifiers that include Decision Trees (DTs), Naive Bayes Classifiers (NBCs), and several families of classifiers obtained from propositional languages. Moreover, the paper shows that, in practice, and for these families of classifiers, relevant sets are easy to compute. Furthermore, the experiments confirm that succinct sets of relevant features can be obtained for the families of classifiers considered.
translated by 谷歌翻译
尽管使用模型不合时宜的AI(XAI)观察到了进展,但模型 - 敏锐的XAI的情况可能会产生错误的解释。一种替代方法是所谓的XAI正式方法,其中包括PI解释。不幸的是,PI解释也表现出重要的缺点,其中最明显的是它们的大小。相关功能的计算可以用解释中的功能数量进行概率精度。但是,即使对于非常简单的分类器,相关特征的计算集的复杂性也是令人难以置信的。本文研究了幼稚贝叶斯分类器(NBC)相关集的计算,并表明这些集合在实践中很容易计算。此外,实验证实可以使用NBC获得简洁的相关特征集。
translated by 谷歌翻译
最近已经提出了几个查询和分数来解释对ML模型的个人预测。鉴于ML型号的灵活,可靠和易于应用的可解释性方法,我们预见了需要开发声明语言以自然地指定不同的解释性查询。我们以原则的方式通过源于逻辑,称为箔,允许表达许多简单但重要的解释性查询,并且可以作为更具表现力解释性语言的核心来实现这一语言。我们研究箔片查询的两类ML模型的计算复杂性经常被视为容易解释:决策树和OBDD。由于ML模型的可能输入的数量是尺寸的指数,因此箔评估问题的易易性是精细的,但是可以通过限制模型的结构或正在评估的箔片段来实现。我们还以高级声明语言包装的箔片的原型实施,并执行实验,表明可以在实践中使用这种语言。
translated by 谷歌翻译
在本文中,标题为基于模型的SAT方法,用于符合符号解释列举,我们提出了一种通用的不可知论方法,允许生成不同和互补的符号解释。更确切地说,我们通过分析特征与输出之间的关系来生成解释以在本地解释单个预测。我们的方法使用预测模型的命题编码和基于SAT的设置来生成两种类型的符号解释,这些解释是足够的原因和反事实。图像分类任务的实验结果表明,拟议方法的可行性及其在提供充分的原因和反事实解释方面的有效性。
translated by 谷歌翻译
大多数-AT是确定联合正常形式(CNF)中输入$ N $的最低价公式的问题至少为2 ^ {n-1} $令人满意的作业。在对概率规划和推论复杂性的各种AI社区中,广泛研究了多数饱和问题。虽然大多数饱满为期40多年来,但自然变体的复杂性保持开放:大多数 - $ k $ SAT,其中输入CNF公式仅限于最多$ k $的子句宽度。我们证明,每辆$ k $,大多数 - $ k $ sat是在p的。事实上,对于任何正整数$ k $和ratic $ \ rho \ in(0,1)$ in(0,1)$与有界分比者,我们给出了算法这可以确定给定的$ k $ -cnf是否至少有$ \ rho \ cdot 2 ^ n $令人满意的分配,在确定性线性时间(而先前的最着名的算法在指数时间中运行)。我们的算法对计算复杂性和推理的复杂性具有有趣的积极影响,显着降低了相关问题的已知复杂性,例如E-Maj-$ K $ Sat和Maj-Maj- $ K $ Sat。在我们的方法中,通过提取在$ k $ -cnf的相应设置系统中发现的向日葵,可以通过提取向日葵来解决阈值计数问题的有效方法。我们还表明,大多数 - $ k $ sat的易腐烂性有些脆弱。对于密切相关的gtmajority-sat问题(我们询问给定公式是否超过2 ^ {n-1} $满足分配),这已知是pp-cleanting的,我们表明gtmajority-$ k $ sat在p for $ k \ le 3 $,但为$ k \ geq 4 $完成np-cleante。这些结果是违反直觉的,因为这些问题的“自然”分类将是PP完整性,因为GTMAJority的复杂性存在显着差异 - $ k $ SAT和MOSTION- $ K $ SAT为所有$ k \ ge 4 $。
translated by 谷歌翻译
在决策支持系统中,系统诊断或分类的动机和理由对于人类用户接受系统至关重要。在贝叶斯网络中,鉴于证据变量的观察到值(通常称为地图问题),通常将诊断或分类形式化为对假设变量最可能的联合价值分配的计算。虽然解决地图问题给出了证据的最可能的解释,但就人用户而言,计算是黑匣子,并且没有提供其他见解,使用户可以欣赏并接受该决定。例如,用户可能想知道一个未观察到的变量是否可能(在观察时)影响解释,或者在这方面是否无关紧要。在本文中,我们介绍了一个新的概念,即Map-Independence,该概念试图捕获这种相关性的概念,并探索其作用,以对最佳解释的推论进行理由。我们基于此概念对几个计算问题进行正式化,并评估其计算复杂性。
translated by 谷歌翻译
机器学习技术的不断增长的复杂性在实践中越来越多地使用,因此需要解释这些模型的预测和决策,通常用作黑盒。可解释的AI方法要么是基于数值的特征,旨在量化每个功能在预测或符号中提供某些形式的符号解释(例如反事实)的贡献。本文提出了一种名为asteryx的通用不可知论方法,允许同时生成符号解释和基于分数的解释。我们的方法是声明性的,它基于在等效符号表示中进行解释的模型的编码,后者用于生成特定两种类型的符号解释,这些解释是足够的原因和反事实。然后,我们将反映解释和特征W.R.T功能的相关性与某些属性相关联。我们的实验结果表明,拟议方法的可行性及其在提供符号和基于得分的解释方面的有效性。
translated by 谷歌翻译
我们提出了答案设置的程序,该程序指定和计算在分类模型上输入的实体的反事实干预。关于模型的结果,生成的反事实作为定义和计算分类所在实体的特征值的基于因果的解释分数的基础,即“责任分数”。方法和程序可以应用于黑盒式模型,也可以使用可以指定为逻辑程序的模型,例如基于规则的分类器。这项工作的主要重点是“最佳”反事实体的规范和计算,即导致最大责任分数的人。从它们中可以从原始实体中读取解释作为最大责任特征值。我们还扩展程序以引入图片语义或域知识。我们展示如何通过概率方法扩展方法,以及如何通过使用约束来修改潜在的概率分布。示出了在DLV ASP-Solver的语法中写入的若干程序,并与其运行。
translated by 谷歌翻译
决策树学习是机器学习中广泛使用的方法,在需要简洁明了的模型的应用中受到青睐。传统上,启发式方法用于快速生产具有相当高准确性的模型。然而,一个普遍的批评是,从精度和大小方面,所产生的树可能不一定是数据的最佳表示。近年来,这激发了最佳分类树算法的发展,这些算法与执行一系列本地最佳决策的启发式方法相比,在全球范围内优化决策树。我们遵循这一工作线,并提供了一种基于动态编程和搜索的最佳分类树的新颖算法。我们的算法支持对树的深度和节点数量的约束。我们方法的成功归因于一系列专门技术,这些技术利用了分类树独有的属性。传统上,最佳分类树的算法受到了高运行时的困扰和有限的可伸缩性,但我们在一项详细的实验研究中表明,我们的方法仅使用最先进的时间所需的时间,并且可以处理数十个数据集的数据集在数千个实例中,提供了几个数量级的改进,并特别有助于实现最佳决策树的实现。
translated by 谷歌翻译
在本文的标题为反事实解释的符号方法中,我们提出了一种新颖的符号方法,以提供分类器预测的反事实解释。与大多数解释方法相反,目标是了解数据的哪些部分以及在多大程度上有助于提出预测,反事实说明表明必须在数据中更改哪些功能才能更改此分类器预测。我们的方法是象征性的,因为它基于在等效的CNF公式中编码分类器的决策功能。在这种方法中,反事实解释被视为最小校正子集(MCS),这是知识基础赔偿中众所周知的概念。因此,这种方法利用了已经存在的MCS生成的已经存在和经过验证的解决方案的优势。我们对贝叶斯分类器的初步实验研究表明,这种方法在几个数据集上的潜力。
translated by 谷歌翻译
我们考虑解释任意黑箱型号的预测的问题$ f $:给定查询访问$ f $和实例$ x $,输出一小组$ x $的功能,其中有基本上确定$ f( x)$。我们设计了一种高效的算法,可提供证明的简洁和返回的解释的精度。现有算法是有效的,但缺乏这种保证,或实现了这种保证,但效率低下。我们通过连接{\ SL隐式}学习决策树的问题获得算法。这种学习任务的隐式性质即使在$ F $的复杂程度需要一个艰难的大代理决策树时也允许有效的算法。我们通过从学习理论,局部计算算法和复杂性理论中汇集技术来解决隐式学习问题。我们的“通过隐式学习解释”的方法,共享两个先前分散的分歧方法的元素,用于后期的解释,全局和本地解释,我们使它享有两者的优势。
translated by 谷歌翻译
我们从逻辑和公式大小方面概念化了解释性,在非常一般的环境中给出了许多相关的解释性定义。我们的主要兴趣是所谓的特殊解释问题,旨在解释输入模型中输入公式的真实价值。解释是一个最小尺寸的公式,(1)与输入模型上的输入公式一致,(2)将所涉及的真实价值传输到全球输入公式,即每个模型上。作为一个重要的例子,我们在这种情况下研究了命题逻辑,并表明在多项式层次结构的第二级中,特殊的解释性问题是完整的。我们还将在答案集编程中提供了此问题的实施,并研究了其与解释N-Queens和主导集合问题的答案有关的能力。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
我们详细阐述了布尔分类器$ \ sigma $的纠正概念。给定$ \ sigma $和某些背景知识$ t $,表征$ \ sigma $的方式必须更改为符合$ t $的新分类器$ \ sigma \ star t $。我们在这里重点关注单标签布尔分类器的特定情况,即有一个单个目标概念,任何实例都被分类为正(概念的元素)或负面(互补概念的元素)。在这种特定情况下,我们的主要贡献是双重的:(1)我们证明有一个独特的整流操作员$ \ star $满足假设,并且(2)当$ \ sigma $和$ t $是布尔电路时,我们会显示如何在$ \ sigma $和$ t $的大小上计算出相当于$ \ sigma \ star t $的分类电路;当$ \ sigma $和$ t $是决策树时,可以按$ \ sigma $和$ t $的大小计算出相当于$ \ sigma \ star t $的决策树。
translated by 谷歌翻译
随着优化软件的显着改进,几十年前似乎棘手的大规模问题的解决方案现在已成为日常任务。这将更多的现实应用程序纳入了优化器的范围。同时,解决优化问题通常是将解决方案付诸实践时较小的困难之一。一个主要的障碍是,可以将优化软件视为黑匣子,它可能会产生高质量的解决方案,但是当情况发生变化时,可以创建完全不同的解决方案,从而导致对优化解决方案的接受率低。这种可解释性和解释性的问题在其他领域(例如机器学习)引起了极大的关注,但在优化方面却不那么关注。在本文中,我们提出了一个优化框架,以得出本质上具有易于理解的解释性规则的解决方案,在哪些情况下应选择解决方案。我们专注于代表解释性规则的决策树,我们提出了整数编程公式以及一种启发式方法,以确保我们的方法即使在大规模问题上也适用。使用随机和现实世界数据的计算实验表明,固有的可解释性成本可能很小。
translated by 谷歌翻译
数据最初是由Peter Hammer引入的,对数据的逻辑分析是一种方法,旨在计算逻辑上的理由,以将一组数据划分为两组观测值,通常称为正和负基。将此分区视为对部分定义的布尔函数的描述;然后处理数据以识别属性的子集,其值可用于表征正组对负基组的观测值。 LAD构成了经典统计学习技术的一种有趣的基于规则的学习替代方案,并具有许多实际应用。然而,根据数据实例的属性,组表征的计算可能是昂贵的。我们工作的一个主要目的是通过计算一些给定属性确实表征正组和负面组来提供一些\ emph {先验}的概率来提供有效的工具来加速计算。为此,我们根据我们对其上的信息提出了几种代表观测数据集的模型。这些模型及其允许我们计算的概率也有助于快速评估当前实际数据的某些属性;此外,它们可以帮助我们更好地分析和理解解决方法所遇到的计算困难。一旦建立了模型,计算概率的数学工具就会来自分析组合。它们使我们能够将所需的概率表示为生成函数系数的比率,然后提供其数值的快速计算。本文的另一个远程目标是表明,分析组合学的方法可以帮助分析LAD和相关领域中各种算法的性能。
translated by 谷歌翻译
突出非克劳兰(NC)公式的富有表现性比基于氏子型公式的指数更丰富。然而,氏菌效率优于非克劳尿的效率。实际上,后者的一个主要弱点是,虽然喇叭子宫公式以及喇叭算法,对于高效率至关重要,但是已经提出了非符号形式的喇叭状公式。为了克服这种弱点,我们通过将喇叭图案充分提升到NC形式,定义HOLE非字母(HORN-NC)公式的混合类$ \ MATHBB {H_ {NC}}。争论$ \ MATHBB {H_ {NC}} $以及未来的Horn-NC算法,应随着喇叭类的股份效率增加,增加非信用效率。其次,我们:(i)给出$ \ mathbb的紧凑,归纳定义{h_ {nc}} $; (ii)证明了句法$ \ mathbb {h_ {nc}} $ suppups over class,但语义上两个类都是等效的,并且(iii)表征属于$ \ mathbb {h_ {nc}} $的非锁友公式。第三,我们定义了非字词单元分辨率计算,$ ur_ {nc} $,并证明它检查多项式时间$ \ mathbb {h_ {nc}} $的可靠性。这一事实是我们的知识,使$ \ mathbb {h_ {nc}} $中的nc推理中的第一个特征多项式类。最后,我们证明了$ \ mathbb {h_ {nc}} $线性识别,也是严格的是法官和比喇叭类呈指数富裕。我们在NC自动推理中讨论了这一点,例如,可靠性解决,定理证明,逻辑编程等可以直接受益于$ \ mathbb {h_ {nc} $和$ ur_ {nc} $,它作为其被证明属性的副产物,$ \ mathbb { H_ {NC}} $ as作为分析喇叭函数和含义系统的新替代方案。
translated by 谷歌翻译
Posibilistic Logic是处理不确定和部分不一致信息的最扩展方法。关于正常形式,可能性推理的进步大多专注于字幕形式。然而,现实世界问题的编码通常导致非人(NC)公式和NC-To-Clausal翻译,产生严重的缺点,严重限制了字符串推理的实际表现。因此,通过计算其原始NC形式的公式,我们提出了几种贡献,表明可能在可能的非字词推理中也是可能的显着进展。 {\ em首先,我们定义了{\ em possibilistic over非词素知识库,}或$ \ mathcal {\ overline {h}} _ \ sigma $的类别,其中包括类:可能主义的喇叭和命题角 - NC。 $ \ mathcal {\ overline {h}} _ \ sigma $被显示为标准喇叭类的一种NC类似的。 {\ em hightly},我们定义{\ em possibilistic非字词单元分辨率,}或$ \ mathcal {u} _ \ sigma $,并证明$ \ mathcal {u} _ \ sigma $正确计算不一致程度$ \ mathcal {\ overline {h}} _ \ sigma $成员。 $ \ Mathcal {Ur} _ \ \ Sigma $之前未提出,并以人为人的方式制定,这会让其理解,正式证明和未来延伸到非人类决议。 {\ em第三},我们证明计算$ \ mathcal {\ overline {h}} _ \ sigma $成员的不一致程度是多项式时间。虽然可能存在于可能存在的逻辑中的贸易课程,但所有这些都是字符串,因此,$ \ mathcal {\ overline {h}} _ \ sigma $ of to是可能的主要推理中的第一个特征的多项式非锁友类。
translated by 谷歌翻译
组合优化是运营研究和计算机科学领域的一个公认领域。直到最近,它的方法一直集中在孤立地解决问题实例,而忽略了它们通常源于实践中的相关数据分布。但是,近年来,人们对使用机器学习,尤其是图形神经网络(GNN)的兴趣激增,作为组合任务的关键构件,直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入,因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾,旨在优化和机器学习研究人员。
translated by 谷歌翻译
形状约束语言(SHACL)是通过验证图表上的某些形状来验证RDF数据的最新W3C推荐语言。先前的工作主要集中在验证问题上,并且仅针对SHACL的简化版本研究了对设计和优化目的至关重要的可满足性和遏制的标准决策问题。此外,SHACL规范不能定义递归定义的约束的语义,这导致文献中提出了几种替代性递归语义。尚未研究这些不同语义与重要决策问题之间的相互作用。在本文中,我们通过向新的一阶语言(称为SCL)的翻译提供了对SHACL的不同特征的全面研究,该语言精确地捕获了SHACL的语义。我们还提出了MSCL,这是SCL的二阶扩展,它使我们能够在单个形式的逻辑框架中定义SHACL的主要递归语义。在这种语言中,我们还提供了对过滤器约束的有效处理,这些滤镜经常在相关文献中被忽略。使用此逻辑,我们为不同的SHACL片段的可满足性和遏制决策问题提供了(联合)可决定性和复杂性结果的详细图。值得注意的是,我们证明这两个问题对于完整的语言都是不可避免的,但是即使面对递归,我们也提供了有趣的功能的可决定性组合。
translated by 谷歌翻译