ML模型通常使用高质量的大型数据集进行培训。但是,训练数据集通常包含不一致或不完整的数据。为了解决这个问题,一个解决方案是开发可以检查模型的预测是否是可证明的算法的算法。给定生成分类器的学习算法并在测试时间时给出示例,如果通过在不确定(不一致)数据集的所有可能的世界(维修)训练的每个模型中预测,则对分类结果是可证明的稳健。这种坚固性的概念自然地在某些答案的框架下落下。在本文中,我们研究了一个简单但广泛部署的分类算法的认证稳健性的复杂性,$ k $-nearest邻居($ k $ -nn)。当完整性约束是功能依赖性(FDS)时,我们的主要焦点在于不一致的数据集。对于这种环境,我们在认证稳健性W.R.T的复杂性方面建立了二分法。该组FDS:问题要么承认多项式时间算法,或者它是坚固的。此外,我们对问题的计数版本表现出类似的二分法,其中目标是计算预测某个标签的可能世界的数量。作为我们研究的副产品,我们还建立了与寻找可能是独立兴趣的最佳子集修复相关的问题的复杂性。
translated by 谷歌翻译
最近已经提出了几个查询和分数来解释对ML模型的个人预测。鉴于ML型号的灵活,可靠和易于应用的可解释性方法,我们预见了需要开发声明语言以自然地指定不同的解释性查询。我们以原则的方式通过源于逻辑,称为箔,允许表达许多简单但重要的解释性查询,并且可以作为更具表现力解释性语言的核心来实现这一语言。我们研究箔片查询的两类ML模型的计算复杂性经常被视为容易解释:决策树和OBDD。由于ML模型的可能输入的数量是尺寸的指数,因此箔评估问题的易易性是精细的,但是可以通过限制模型的结构或正在评估的箔片段来实现。我们还以高级声明语言包装的箔片的原型实施,并执行实验,表明可以在实践中使用这种语言。
translated by 谷歌翻译
大多数-AT是确定联合正常形式(CNF)中输入$ N $的最低价公式的问题至少为2 ^ {n-1} $令人满意的作业。在对概率规划和推论复杂性的各种AI社区中,广泛研究了多数饱和问题。虽然大多数饱满为期40多年来,但自然变体的复杂性保持开放:大多数 - $ k $ SAT,其中输入CNF公式仅限于最多$ k $的子句宽度。我们证明,每辆$ k $,大多数 - $ k $ sat是在p的。事实上,对于任何正整数$ k $和ratic $ \ rho \ in(0,1)$ in(0,1)$与有界分比者,我们给出了算法这可以确定给定的$ k $ -cnf是否至少有$ \ rho \ cdot 2 ^ n $令人满意的分配,在确定性线性时间(而先前的最着名的算法在指数时间中运行)。我们的算法对计算复杂性和推理的复杂性具有有趣的积极影响,显着降低了相关问题的已知复杂性,例如E-Maj-$ K $ Sat和Maj-Maj- $ K $ Sat。在我们的方法中,通过提取在$ k $ -cnf的相应设置系统中发现的向日葵,可以通过提取向日葵来解决阈值计数问题的有效方法。我们还表明,大多数 - $ k $ sat的易腐烂性有些脆弱。对于密切相关的gtmajority-sat问题(我们询问给定公式是否超过2 ^ {n-1} $满足分配),这已知是pp-cleanting的,我们表明gtmajority-$ k $ sat在p for $ k \ le 3 $,但为$ k \ geq 4 $完成np-cleante。这些结果是违反直觉的,因为这些问题的“自然”分类将是PP完整性,因为GTMAJority的复杂性存在显着差异 - $ k $ SAT和MOSTION- $ K $ SAT为所有$ k \ ge 4 $。
translated by 谷歌翻译
我们考虑测定点过程(DPP)的产物,该点过程,其概率质量与多矩阵的主要成本的产物成比例,作为DPP的天然有希望的推广。我们研究计算其归一化常量的计算复杂性,这是最重要的概率推理任务。我们的复杂性 - 理论结果(差不多)排除了该任务的有效算法的存在,除非输入矩阵被迫具有有利的结构。特别是,我们证明了以下内容:(1)计算$ \ sum_s \ det({\ bf a} _ {s,s,s})^ p $完全针对每个(固定)阳性甚至整数$ p $ up-hard和Mod $ _3 $ p-hard,它给Kulesza和Taskar提出的打开问题给出了否定答案。 (2)$ \ sum_s \ det({\ bf a} _ {s,s})\ det({\ bf b} _ {s,s})\ det({\ bf c} _ {s,s} )$ IS难以在2 ^ {o(| i | i | ^ {1- \ epsilon})} $或$ 2 ^ {o(n ^ {1 / epsilon})} $的任何一个$ \ epsilon> 0 $,其中$ | i | $是输入大小,$ n $是输入矩阵的顺序。这种结果比Gillenwater导出的两个矩阵的#P硬度强。 (3)有$ k ^ {o(k)} n ^ {o(1)} $ - 计算$ \ sum_s \ det的时间算法({\ bf a} _ {s,s})\ det( {\ bf b} _ {s,s})$,其中$ k $是$ \ bf a $和$ \ bf b $的最大等级,或者由$ \ bf a $的非零表项形成的图表的树宽和$ \ bf b $。据说这种参数化算法是固定参数的易解。这些结果可以扩展到固定尺寸的情况。此外,我们介绍了两个固定参数批量算法的应用程序给定矩阵$ \ bf a $ treewidth $ w $:(4)我们可以计算$ 2 ^ {\ frac {n} {2p-1} $ - 近似值到$ \ sum_s \ det({\ bf a} _ {s,s})^ p $ for任何分数$ p> 1 $以$ w ^ {o(wp)} n ^ {o(1)} $时间。 (5)我们可以在$ w ^ {o(w \ sqrt n)} n ^ {
translated by 谷歌翻译
我们回答以下问题,哪些结合性查询以多种方式上的许多正和负面示例以及如何有效地构建此类示例的特征。结果,我们为一类连接的查询获得了一种新的有效的精确学习算法。我们的贡献的核心是两种新的多项式时间算法,用于在有限结构的同态晶格中构建前沿。我们还讨论了模式映射和描述逻辑概念的独特特征性和可学习性的影响。
translated by 谷歌翻译
在我们生活在深厚的互连世界中,我们周围的各个信息链接域。由于图形数据库包含了数据之间有效的关系,并允许处理和查询这些连接,因此它们正迅速成为支持广泛域和应用程序的流行平台。与关系情况一样,可以预期数据保留了一组完整性约束,这些限制定义了它代表的世界的语义结构。当数据库不满足其完整性约束时,一种可能的方法是搜索确实满足约束(也称为维修)的“类似”数据库。在这项工作中,我们使用基于一组Reg-GXPath表达式作为完整性约束的一致性概念来研究图形数据库的计算子集和超集修复的问题。我们表明,对于Reg-GxPath的积极片段,这些问题承认了多项式时间算法,而语言的全部表达力使它们棘手。
translated by 谷歌翻译
该注释有三个目的:(i)我们提供了一个独立的说明,表明在可能的(PAC)模型中,连接性查询无法有效地学习,从而明确注意这一概念阶级缺乏这一概念的事实,多项式大小的拟合属性,在许多计算学习理论文献中被默认假设的属性;(ii)我们建立了强大的负PAC可学习性结果,该结果适用于许多限制类别的连接性查询(CQ),包括针对广泛的“无循环”概念的无孔CQ;(iii)我们证明CQ可以通过会员查询有效地学习PAC。
translated by 谷歌翻译
本文研究了人工神经网络(NNS)与整流线性单元的表现力。为了将它们作为实际计算的模型,我们介绍了最大仿射算术计划的概念,并显示了它们与NNS之间的等效性有关自然复杂度措施。然后我们使用此结果表明,使用多项式NNS可以解决两个基本组合优化问题,这相当于非常特殊的强多项式时间算法。首先,我们显示,对于带有N $节点的任何无向图形,有一个NN大小$ \ Mathcal {O}(n ^ 3)$,它将边缘权重用为输入,计算最小生成树的值图表。其次,我们显示,对于任何带有$ N $节点和$ M $弧的任何定向图,都有一个尺寸$ \ mathcal {o}(m ^ 2n ^ 2)$,它将电弧容量作为输入和计算最大流量。这些结果尤其尤其暗示,相应的参数优化问题的解决方案可以在多项式空间中编码所有边缘权重或电弧容量的方法,并在多项式时间中进行评估,并且由NN提供这种编码。
translated by 谷歌翻译
由于机器学习,统计和科学的应用,多边缘最佳运输(MOT)引起了极大的兴趣。但是,在大多数应用中,MOT的成功受到缺乏有效算法的严重限制。实际上,MOT一般需要在边际K及其支撑大小n的数量中指数时间n。本文开发了一个关于“结构”在poly(n,k)时间中可溶解的一般理论。我们开发了一个统一的算法框架,用于通过表征不同算法所需的“结构”来解决poly(n,k)时间中的MOT,这是根据双重可行性甲骨文的简单变体所需的。该框架有几个好处。首先,它使我们能够证明当前是最流行的MOT算法的Sinkhorn算法比其他算法要在poly(n,k)时间中求解MOT所需的结构更严格。其次,我们的框架使得为给定的MOT问题开发poly(n,k)时间算法变得更加简单。特别是(大约)解决双重可行性Oracle是必要和足够的 - 这更适合标准算法技术。我们通过为三个通用类成本结构类别的poly(n,k)时间算法开发poly(n,k)时间算法来说明这种易用性:(1)图形结构; (2)设定优化结构; (3)低阶和稀疏结构。对于结构(1),我们恢复了Sindhorn具有poly(n,k)运行时的已知结果;此外,我们为计算精确且稀疏的解决方案提供了第一个poly(n,k)时间算法。对于结构(2) - (3),我们给出了第一个poly(n,k)时间算法,甚至用于近似计算。这三个结构一起涵盖了许多MOT的当前应用。
translated by 谷歌翻译
图形神经网络(GNNS)是关于图形机器学习问题的深度学习架构。最近已经表明,GNN的富有效力可以精确地由组合Weisfeiler-Leman算法和有限可变计数逻辑来表征。该对应关系甚至导致了对应于更高维度的WL算法的新的高阶GNN。本文的目的是解释GNN的这些描述性特征。
translated by 谷歌翻译
在概念学习,数据库查询的反向工程,生成参考表达式以及知识图中的实体比较之类的应用中,找到以标记数据项形式分开的逻辑公式,该公式分开以标记数据项形式给出的正面和负面示例。在本文中,我们研究了存在本体论的数据的分离公式的存在。对于本体语言和分离语言,我们都专注于一阶逻辑及其以下重要片段:描述逻辑$ \ Mathcal {alci} $,受保护的片段,两变量的片段和受保护的否定片段。为了分离,我们还考虑(工会)连接性查询。我们考虑了几种可分离性,这些可分离性在负面示例的治疗中有所不同,以及他们是否承认使用其他辅助符号来实现分离。我们的主要结果是(所有变体)可分离性,不同语言的分离能力的比较以及确定可分离性的计算复杂性的研究。
translated by 谷歌翻译
我们根据描述逻辑ALC和ALCI介绍并研究了本体论介导的查询的几个近似概念。我们的近似值有两种:我们可以(1)用一种以易访问的本体语言为例,例如ELI或某些TGD,以及(2)用可拖动类的一个替换数据库,例如其treewidth的数据库,由常数界定。我们确定所得近似值的计算复杂性和相对完整性。(几乎)所有这些都将数据复杂性从Conp-Complete降低到Ptime,在某些情况下甚至是固定参数可拖动和线性时间。虽然种类(1)的近似也降低了综合复杂性,但这种近似(2)往往并非如此。在某些情况下,联合复杂性甚至会增加。
translated by 谷歌翻译
我们考虑多级分类的问题,其中普遍选择的查询流到达,并且必须在线分配标签。与寻求最小化错误分类率的传统界定不同,我们将每个查询的总距离最小化到与其正确标签相对应的区域。当通过最近的邻分区确定真正的标签时 - 即点的标签由它最接近欧几里德距离所提供的点,我们表明人们可以实现独立的损失查询总数。我们通过显示学习常规凸集每查询需要几乎线性损耗来补充此结果。我们的结果为语境搜索的几何问题而被遗憾地构建了遗憾的保证。此外,我们制定了一种从多字符分类到二进制分类的新型还原技术,这可能具有独立兴趣。
translated by 谷歌翻译
结构分解方法,例如普遍的高树木分解,已成功用于解决约束满意度问题(CSP)。由于可以重复使用分解以求解具有相同约束范围的CSP,因此即使计算本身很难,将资源投资于计算良好的分解是有益的。不幸的是,即使示波器仅略有变化,当前方法也需要计算全新的分解。在本文中,我们迈出了解决CSP $ P $分解的问题的第一步,以使其成为由$ P $修改产生的新CSP $ P'$的有效分解。即使从理论上讲问题很难,我们还是提出并实施了一个有效更新GHD的框架。我们算法的实验评估强烈提出了实际适用性。
translated by 谷歌翻译
最接近的基于邻居的方法通常用于分类任务和其他数据分析方法的子例程。具有将自己的数据点插入训练集的攻击者可以操纵推断的最近的邻居结构。我们将此目标提取到对$ k $ neart的邻居分类($ k $ nn)执行训练集数据插入攻击的任务。我们证明,即使$ k = 1 $,计算对$ k $ nn分类的最佳训练时间(又称中毒)攻击也是NP-HARD,并且攻击者只能插入一个数据点。我们提供任何时间算法来执行此类攻击,以及一般$ K $和攻击者预算的贪婪算法。我们提供理论界限,并从经验上证明我们方法对合成和现实数据集的有效性和实用性。从经验上讲,我们发现$ k $ nn在实践中很容易受到伤害,而降低维度是有效的防御。最后,我们讨论了我们的分析阐明的开放问题。
translated by 谷歌翻译
计算Wassersein BaryCenters(A.K.A.最佳运输重构)是由于数据科学的许多应用,最近引起了相当大的关注的几何问题。虽然存在任何固定维度的多项式时间算法,但所有已知的运行时间都在维度中呈指数级。这是一个开放的问题,无论是这种指数依赖性是否可改进到多项式依赖性。本文证明,除非P = NP,答案是否定的。这揭示了Wassersein的BaryCenter计算的“维度诅咒”,其不会发生最佳运输计算。此外,我们对计算Wassersein的硬度结果延伸到近似计算,看似简单的问题案例,以及在其他最佳运输指标中平均概率分布。
translated by 谷歌翻译
我们开发了一种高效的随机块模型中的弱恢复算法。该算法与随机块模型的Vanilla版本的最佳已知算法的统计保证匹配。从这个意义上讲,我们的结果表明,随机块模型没有稳健性。我们的工作受到最近的银行,Mohanty和Raghavendra(SODA 2021)的工作,为相应的区别问题提供了高效的算法。我们的算法及其分析显着脱离了以前的恢复。关键挑战是我们算法的特殊优化景观:种植的分区可能远非最佳意义,即完全不相关的解决方案可以实现相同的客观值。这种现象与PCA的BBP相转变的推出效应有关。据我们所知,我们的算法是第一个在非渐近设置中存在这种推出效果的鲁棒恢复。我们的算法是基于凸优化的框架的实例化(与平方和不同的不同),这对于其他鲁棒矩阵估计问题可能是有用的。我们的分析的副产物是一种通用技术,其提高了任意强大的弱恢复算法的成功(输入的随机性)从恒定(或缓慢消失)概率以指数高概率。
translated by 谷歌翻译
The most widely studied explainable AI (XAI) approaches are unsound. This is the case with well-known model-agnostic explanation approaches, and it is also the case with approaches based on saliency maps. One solution is to consider intrinsic interpretability, which does not exhibit the drawback of unsoundness. Unfortunately, intrinsic interpretability can display unwieldy explanation redundancy. Formal explainability represents the alternative to these non-rigorous approaches, with one example being PI-explanations. Unfortunately, PI-explanations also exhibit important drawbacks, the most visible of which is arguably their size. Recently, it has been observed that the (absolute) rigor of PI-explanations can be traded off for a smaller explanation size, by computing the so-called relevant sets. Given some positive {\delta}, a set S of features is {\delta}-relevant if, when the features in S are fixed, the probability of getting the target class exceeds {\delta}. However, even for very simple classifiers, the complexity of computing relevant sets of features is prohibitive, with the decision problem being NPPP-complete for circuit-based classifiers. In contrast with earlier negative results, this paper investigates practical approaches for computing relevant sets for a number of widely used classifiers that include Decision Trees (DTs), Naive Bayes Classifiers (NBCs), and several families of classifiers obtained from propositional languages. Moreover, the paper shows that, in practice, and for these families of classifiers, relevant sets are easy to compute. Furthermore, the experiments confirm that succinct sets of relevant features can be obtained for the families of classifiers considered.
translated by 谷歌翻译
$ k $ -means和$ k $ -median集群是强大的无监督机器学习技术。但是,由于对所有功能的复杂依赖性,解释生成的群集分配是挑战性的。 Moshkovitz,Dasgupta,Rashtchian和Frost [ICML 2020]提出了一个优雅的可解释$ K $ -means和$ K $ -Median聚类型号。在此模型中,具有$ k $叶子的决策树提供了集群中的数据的直接表征。我们研究了关于可解释的聚类的两个自然算法问题。 (1)对于给定的群集,如何通过使用$ k $叶的决策树找到“最佳解释”? (2)对于一套给定的点,如何找到一个以美元的决策树,最小化$ k $ -means / median目标的可解释的聚类?要解决第一个问题,我们介绍了一个新的可解释群集模型。我们的型号受到强大统计数据的异常值概念的启发,是以下情况。我们正在寻求少数积分(异常值),其删除使现有的聚类良好可解释。为了解决第二个问题,我们开始研究Moshkovitz等人的模型。从多元复杂性的角度来看。我们严格的算法分析揭示了参数的影响,如数据的输入大小,尺寸,异常值的数量,簇数,近似比,呈现可解释的聚类的计算复杂度。
translated by 谷歌翻译
我们提出了改进的算法,并为身份测试$ n $维分布的问题提供了统计和计算下限。在身份测试问题中,我们将作为输入作为显式分发$ \ mu $,$ \ varepsilon> 0 $,并访问对隐藏分布$ \ pi $的采样甲骨文。目标是区分两个分布$ \ mu $和$ \ pi $是相同的还是至少$ \ varepsilon $ -far分开。当仅从隐藏分布$ \ pi $中访问完整样本时,众所周知,可能需要许多样本,因此以前的作品已经研究了身份测试,并额外访问了各种有条件采样牙齿。我们在这里考虑一个明显弱的条件采样甲骨文,称为坐标Oracle,并在此新模型中提供了身份测试问题的相当完整的计算和统计表征。我们证明,如果一个称为熵的分析属性为可见分布$ \ mu $保留,那么对于任何使用$ \ tilde {o}(n/\ tilde {o}),有一个有效的身份测试算法Varepsilon)$查询坐标Oracle。熵的近似张力是一种经典的工具,用于证明马尔可夫链的最佳混合时间边界用于高维分布,并且最近通过光谱独立性为许多分布族建立了最佳的混合时间。我们将算法结果与匹配的$ \ omega(n/\ varepsilon)$统计下键进行匹配的算法结果补充,以供坐标Oracle下的查询数量。我们还证明了一个计算相变:对于$ \ {+1,-1,-1 \}^n $以上的稀疏抗抗铁磁性模型,在熵失败的近似张力失败的状态下,除非RP = np,否则没有有效的身份测试算法。
translated by 谷歌翻译