几个概念学习问题可以被视为在有限的地面集合中抽象封闭系统中半空间分离的特殊情况。对于典型的情况,即通过闭合操作员隐式给出了闭合系统,我们表明半空间分离问题​​是NP完整的。作为克服这一负面结果的第一种方法,我们放宽了最大封闭设置分离的问题,通过线性闭合操作员的调用给出了一种通用的贪婪算法来解决此问题,并证明该界限很清晰。对于第二个方向,我们考虑了kakutani闭合系统,并证明它们是通过贪婪算法来表征的。作为一般问题设置的第一个特殊情况,我们考虑了kakutani封闭系统,并在禁止的图形未成年人方面为这种封闭系统提供了足够的条件。对于第二种特殊情况,我们将重点放在有限晶格上的封闭系统上,对通用贪婪算法进行改进的适应性,并介绍有关集合晶格的应用程序。
translated by 谷歌翻译
我们介绍并研究了分布的邻居晶格分解,这是有条件独立性的紧凑,非图形表示,在没有忠实的图形表示的情况下是有效的。这个想法是将变量的一组社区视为子集晶格,并将此晶格分配到凸sublattices中,每个晶格都直接编码有条件的独立关系集合。我们表明,这种分解存在于任何组成型绘画中,并且可以在高维度中有效且一致地计算出来。 {特别是,这给了一种方法来编码满足组合公理的分布所隐含的所有独立关系,该分布严格比图形方法通常假定的忠实假设弱弱。}我们还讨论了各种特殊案例,例如图形模型和投影晶格,每个晶格都有直观的解释。一路上,我们看到了这个问题与邻域回归密切相关的,该回归已在图形模型和结构方程式的背景下进行了广泛的研究。
translated by 谷歌翻译
我们回答以下问题,哪些结合性查询以多种方式上的许多正和负面示例以及如何有效地构建此类示例的特征。结果,我们为一类连接的查询获得了一种新的有效的精确学习算法。我们的贡献的核心是两种新的多项式时间算法,用于在有限结构的同态晶格中构建前沿。我们还讨论了模式映射和描述逻辑概念的独特特征性和可学习性的影响。
translated by 谷歌翻译
在概念学习,数据库查询的反向工程,生成参考表达式以及知识图中的实体比较之类的应用中,找到以标记数据项形式分开的逻辑公式,该公式分开以标记数据项形式给出的正面和负面示例。在本文中,我们研究了存在本体论的数据的分离公式的存在。对于本体语言和分离语言,我们都专注于一阶逻辑及其以下重要片段:描述逻辑$ \ Mathcal {alci} $,受保护的片段,两变量的片段和受保护的否定片段。为了分离,我们还考虑(工会)连接性查询。我们考虑了几种可分离性,这些可分离性在负面示例的治疗中有所不同,以及他们是否承认使用其他辅助符号来实现分离。我们的主要结果是(所有变体)可分离性,不同语言的分离能力的比较以及确定可分离性的计算复杂性的研究。
translated by 谷歌翻译
Pearl's Do Colculus是一种完整的公理方法,可以从观察数据中学习可识别的因果效应。如果无法识别这种效果,则有必要在系统中执行经常昂贵的干预措施以学习因果效应。在这项工作中,我们考虑了设计干预措施以最低成本来确定所需效果的问题。首先,我们证明了这个问题是NP-HARD,随后提出了一种可以找到最佳解或对数因子近似值的算法。这是通过在我们的问题和最小击球设置问题之间建立联系来完成的。此外,我们提出了几种多项式启发式算法来解决问题的计算复杂性。尽管这些算法可能会偶然发现亚最佳解决方案,但我们的模拟表明它们在随机图上产生了小的遗憾。
translated by 谷歌翻译
We study the problem of finding elements in the intersection of an arbitrary conic variety in $\mathbb{F}^n$ with a given linear subspace (where $\mathbb{F}$ can be the real or complex field). This problem captures a rich family of algorithmic problems under different choices of the variety. The special case of the variety consisting of rank-1 matrices already has strong connections to central problems in different areas like quantum information theory and tensor decompositions. This problem is known to be NP-hard in the worst-case, even for the variety of rank-1 matrices. Surprisingly, despite these hardness results we give efficient algorithms that solve this problem for "typical" subspaces. Here, the subspace $U \subseteq \mathbb{F}^n$ is chosen generically of a certain dimension, potentially with some generic elements of the variety contained in it. Our main algorithmic result is a polynomial time algorithm that recovers all the elements of $U$ that lie in the variety, under some mild non-degeneracy assumptions on the variety. As corollaries, we obtain the following results: $\bullet$ Uniqueness results and polynomial time algorithms for generic instances of a broad class of low-rank decomposition problems that go beyond tensor decompositions. Here, we recover a decomposition of the form $\sum_{i=1}^R v_i \otimes w_i$, where the $v_i$ are elements of the given variety $X$. This implies new algorithmic results even in the special case of tensor decompositions. $\bullet$ Polynomial time algorithms for several entangled subspaces problems in quantum entanglement, including determining $r$-entanglement, complete entanglement, and genuine entanglement of a subspace. While all of these problems are NP-hard in the worst case, our algorithm solves them in polynomial time for generic subspaces of dimension up to a constant multiple of the maximum possible.
translated by 谷歌翻译
在基于图形的应用程序中,一个常见的任务是查明(指示或无向)图中最重要或最重要的“中央”顶点,或根据图形的重要性对图表进行排名。为此,文献中已经提出了许多所谓的中心度度量,以评估图中哪些顶点是最重要的。里弗罗斯(Riveros)和萨拉斯(Salas)在ICDT 2020论文中提出了基于以下直觉原理的中心度度量:图中顶点的重要性是相对于``相关''连接的子读数的数量,称为子图基序,称为子图基序,周围。我们将上述原理得出的措施称为子图基措施。人们令人信服地认为,亚图主题措施非常适合图形数据库应用程序。尽管ICDT论文研究了子图案措施所享有的几种有利的特性,但它们的绝对表现力仍然很大程度上没有探索。这项工作的目的是精确表征子图主题措施家族的绝对表现力。
translated by 谷歌翻译
计算Wassersein BaryCenters(A.K.A.最佳运输重构)是由于数据科学的许多应用,最近引起了相当大的关注的几何问题。虽然存在任何固定维度的多项式时间算法,但所有已知的运行时间都在维度中呈指数级。这是一个开放的问题,无论是这种指数依赖性是否可改进到多项式依赖性。本文证明,除非P = NP,答案是否定的。这揭示了Wassersein的BaryCenter计算的“维度诅咒”,其不会发生最佳运输计算。此外,我们对计算Wassersein的硬度结果延伸到近似计算,看似简单的问题案例,以及在其他最佳运输指标中平均概率分布。
translated by 谷歌翻译
我们检查机器学习中出现的组合概念与立方/单纯几何形状中的拓扑概念之间的连接。这些连接使得从几何形状导出到机器学习的结果。我们的第一个主要结果是基于Tracy Hall(2004)的几何结构,其局部炮击的交叉多容院不能延伸。我们使用它来得出最大类别的VC尺寸3,没有角落。从过去11年来,这反驳了在机器学习中的几个工作。特别地,它意味着最佳类别的最佳未标记的样本压缩方案的所有先前结构都是错误的。在积极的一面,我们为最大类提供了一个未标记的样品压缩方案的新建。我们打开我们的未标记的样品压缩方案是否延伸到充足(A.K.A.不平衡或极值)课程,这代表了最大类的自然和深远的概括。在解决这个问题方面,我们就关联立方体复合物的1骷髅的独特宿前方向提供了几何特征。
translated by 谷歌翻译
由于机器学习,统计和科学的应用,多边缘最佳运输(MOT)引起了极大的兴趣。但是,在大多数应用中,MOT的成功受到缺乏有效算法的严重限制。实际上,MOT一般需要在边际K及其支撑大小n的数量中指数时间n。本文开发了一个关于“结构”在poly(n,k)时间中可溶解的一般理论。我们开发了一个统一的算法框架,用于通过表征不同算法所需的“结构”来解决poly(n,k)时间中的MOT,这是根据双重可行性甲骨文的简单变体所需的。该框架有几个好处。首先,它使我们能够证明当前是最流行的MOT算法的Sinkhorn算法比其他算法要在poly(n,k)时间中求解MOT所需的结构更严格。其次,我们的框架使得为给定的MOT问题开发poly(n,k)时间算法变得更加简单。特别是(大约)解决双重可行性Oracle是必要和足够的 - 这更适合标准算法技术。我们通过为三个通用类成本结构类别的poly(n,k)时间算法开发poly(n,k)时间算法来说明这种易用性:(1)图形结构; (2)设定优化结构; (3)低阶和稀疏结构。对于结构(1),我们恢复了Sindhorn具有poly(n,k)运行时的已知结果;此外,我们为计算精确且稀疏的解决方案提供了第一个poly(n,k)时间算法。对于结构(2) - (3),我们给出了第一个poly(n,k)时间算法,甚至用于近似计算。这三个结构一起涵盖了许多MOT的当前应用。
translated by 谷歌翻译
K-MEDIAN和K-MEACE是聚类算法的两个最受欢迎的目标。尽管有密集的努力,但对这些目标的近似性很好地了解,特别是在$ \ ell_p $ -metrics中,仍然是一个重大的开放问题。在本文中,我们在$ \ ell_p $ -metrics中显着提高了文献中已知的近似因素的硬度。我们介绍了一个名为Johnson覆盖假说(JCH)的新假设,这大致断言设定系统上的良好的Max K-Coverage问题难以近似于1-1 / e,即使是成员图形设置系统是Johnson图的子图。然后,我们展示了Cohen-Addad和Karthik引入的嵌入技术的概括(Focs'19),JCH意味着K-MEDIAN和K-MERION在$ \ ell_p $ -metrics中的近似结果的近似值的硬度为近距离对于一般指标获得的人。特别地,假设JCH我们表明很难近似K-Meator目标:$ \ Bullet $离散情况:$ \ ell_1 $ 3.94 - $ \ ell_2中的1.73因素为1.73倍$$ - 这分别在UGC下获得了1.56和1.17的先前因子。 $ \ bullet $持续案例:$ \ ell_1 $ 2210 - $ \ ell_2 $的$ \ ell_1 $ 210。$ \ ell_2 $-metric;这在UGC下获得的$ \ ell_2 $的$ \ ell_2 $的先前因子提高了1.07。对于K-Median目标,我们还获得了类似的改进。此外,我们使用Dinure等人的工作证明了JCH的弱版本。 (Sicomp'05)在超图顶点封面上,恢复Cohen-Addad和Karthik(Focs'19 Focs'19)上面的所有结果(近)相同的不可识别因素,但现在在标准的NP $ \ NEQ $ P假设下(代替UGC)。
translated by 谷歌翻译
我们提出了改进的算法,并为身份测试$ n $维分布的问题提供了统计和计算下限。在身份测试问题中,我们将作为输入作为显式分发$ \ mu $,$ \ varepsilon> 0 $,并访问对隐藏分布$ \ pi $的采样甲骨文。目标是区分两个分布$ \ mu $和$ \ pi $是相同的还是至少$ \ varepsilon $ -far分开。当仅从隐藏分布$ \ pi $中访问完整样本时,众所周知,可能需要许多样本,因此以前的作品已经研究了身份测试,并额外访问了各种有条件采样牙齿。我们在这里考虑一个明显弱的条件采样甲骨文,称为坐标Oracle,并在此新模型中提供了身份测试问题的相当完整的计算和统计表征。我们证明,如果一个称为熵的分析属性为可见分布$ \ mu $保留,那么对于任何使用$ \ tilde {o}(n/\ tilde {o}),有一个有效的身份测试算法Varepsilon)$查询坐标Oracle。熵的近似张力是一种经典的工具,用于证明马尔可夫链的最佳混合时间边界用于高维分布,并且最近通过光谱独立性为许多分布族建立了最佳的混合时间。我们将算法结果与匹配的$ \ omega(n/\ varepsilon)$统计下键进行匹配的算法结果补充,以供坐标Oracle下的查询数量。我们还证明了一个计算相变:对于$ \ {+1,-1,-1 \}^n $以上的稀疏抗抗铁磁性模型,在熵失败的近似张力失败的状态下,除非RP = np,否则没有有效的身份测试算法。
translated by 谷歌翻译
我们在用原子的集合设置线性方程的轨道限制系统。我们的主要贡献是此类系统解决性的决策程序。该过程适用于温和有效性假设下的每个字段(甚至是交换环),并将给定的轨道限制系统降低到许多有限的系统:总体上许多有限的系统,但是当输入系统的原子尺寸固定时,多一项是多项式的。为了获得该过程,我们进一步推动了轨道限制集合产生的向量空间理论,并表明每个这样的向量空间都允许轨道限制。这种基本财产是我们开发的关键工具,但也应该引起更广泛的兴趣。
translated by 谷歌翻译
Approximation fixpoint theory (AFT) is an abstract and general algebraic framework for studying the semantics of nonmonotonic logics. It provides a unifying study of the semantics of different formalisms for nonmonotonic reasoning, such as logic programming, default logic and autoepistemic logic. In this paper, we extend AFT to dealing with non-deterministic constructs that allow to handle indefinite information, represented e.g. by disjunctive formulas. This is done by generalizing the main constructions and corresponding results of AFT to non-deterministic operators, whose ranges are sets of elements rather than single elements. The applicability and usefulness of this generalization is illustrated in the context of disjunctive logic programming.
translated by 谷歌翻译
我们派生并分析了一种用于估计有限簇树中的所有分裂的通用,递归算法以及相应的群集。我们进一步研究了从内核密度估计器接收级别设置估计时该通用聚类算法的统计特性。特别是,我们推出了有限的样本保证,一致性,收敛率以及用于选择内核带宽的自适应数据驱动策略。对于这些结果,我们不需要与H \“{o}连续性等密度的连续性假设,而是仅需要非参数性质的直观几何假设。
translated by 谷歌翻译
我们根据计算一个扎根于每个顶点的某个加权树的家族而构成的相似性得分提出了一种有效的图形匹配算法。对于两个erd \ h {o} s-r \'enyi图$ \ mathcal {g}(n,q)$,其边缘通过潜在顶点通信相关联,我们表明该算法正确地匹配了所有范围的范围,除了所有的vertices分数外,有了很高的概率,前提是$ nq \ to \ infty $,而边缘相关系数$ \ rho $满足$ \ rho^2> \ alpha \ ailpha \大约0.338 $,其中$ \ alpha $是Otter的树木计数常数。此外,在理论上是必需的额外条件下,可以精确地匹配。这是第一个以显式常数相关性成功的多项式图匹配算法,并适用于稀疏和密集图。相比之下,以前的方法要么需要$ \ rho = 1-o(1)$,要么仅限于稀疏图。该算法的症结是一个经过精心策划的植根树的家族,称为吊灯,它可以有效地从同一树的计数中提取图形相关性,同时抑制不同树木之间的不良相关性。
translated by 谷歌翻译
我们研究了与给定的无向图$ g $相对应的图形模型的最大似然估计的问题。我们表明,最大似然估计(MLE)是几个帐篷函数的指数的乘积,每个最大集团的$ g $。虽然图形模型中的一组对数符号密度是无限维度的,但我们的结果表明,可以通过求解有限维凸优化问题来找到MLE。我们提供实施和一些示例。此外,我们证明MLE存在并且具有概率为1,只要样品数量大于$ g $ chordal时最大的$ g $集团的大小。我们证明,当图$ g $是集团的不交联时,MLE是一致的。最后,我们讨论了$ g $的图形模型中的对数 - 串联密度在$ g $中具有对数符号分解的条件。
translated by 谷歌翻译
Lipschitz Learning是一种基于图的半监督学习方法,其中一个人通过在加权图上求解Infinity Laplace方程来扩展标签到未标记的数据集的标签。在这项工作中,随着顶点的数量生长到无穷大,我们证明了图形无穷大行道方程的解决方案的统一收敛速率。它们的连续内容是绝对最小化LipsChitz扩展,即关于从图形顶点采样图形顶点的域的测地度量。我们在图表权重的非常一般的假设下工作,标记顶点的集合和连续域。我们的主要贡献是,即使对于非常稀疏的图形,我们也获得了定量的收敛速率,因为它们通常出现在半监督学习等应用中。特别是,我们的框架允许绘制到连接半径的图形带宽。为了证明,我们首先显示图表距离函数的定量收敛性声明,在连续体中的测量距离功能。使用“与距离函数的比较”原理,我们可以将这些收敛语句传递给无限谐波函数,绝对最小化Lipschitz扩展。
translated by 谷歌翻译
加权CSP(WCSP)的重新定义(WCSP)的重新定位概念(也称为WCSPS的等价 - 保存的变换)是众所周知的并且在许多算法中找到其使用以近似或绑定最佳WCSP值。相比之下,已经提出了超级reparamureIzations的概念(这是保留或增加每个任务的WCSP目标的权重的变化),但从未详细研究过。为了填补这一差距,我们展示了一些超级reparamizations的理论属性,并将它们与重新定位化的差异进行比较。此外,我们提出了一种用于使用超级Reparamizations计算(最大化版本)WCSP的最佳值的上限的框架。我们表明原则上可以采用任意(在某些技术条件下)约束传播规则来改善绑定。特别是对于电弧一致性,该方法减少到已知的虚拟AC(VAC)算法。新的,我们实施了Singleton ARC一致性(SAC)的方法,并将其与WCSPS在公共基准上的其他强大局部常量进行比较。结果表明,从SAC获得的界限对于许多实例组优越。
translated by 谷歌翻译
我们在可实现的PAC设置中从带有边距的可实现的PAC设置中介绍了一种改进的{\ em准正确}学习凸多面体。我们的学习算法将一致的多面体构造为大约$ t \ log t $ halfpace,在$ t $的时间多项式中的恒定尺寸边距(其中$ t $是形成最佳多面体的半个空间的数量)。我们还确定了从覆盖物到多层的覆盖率概念的明显概括,并调查它们如何与几何上的关系;此结果可能具有超出学习设置的后果。
translated by 谷歌翻译