机器学习中的一个开放问题之一是,是否有VC-Dimension $ d $的任何设置家庭均承认尺寸〜$ O(d)$的样本压缩方案。在本文中,我们研究了图中的球。对于任意半径$ r $的球,我们设计了适当的样品压缩方案$ 2 $ $ 2 $的树木的尺寸$ 3 $ $ 3 $,尺寸为$ 4 $的间隔图,尺寸$ 6 $ 6 $的循环树木和22美元$用于无立方的中位图。对于给定半径的球,我们设计了适当的标记的样品压缩方案,树木的尺寸为$ 2 $,间隔图的尺寸为$ 4 $。我们还设计了$ \ delta $ - 液压图的球的大小2的近似样品压缩方案。
translated by 谷歌翻译
我们检查机器学习中出现的组合概念与立方/单纯几何形状中的拓扑概念之间的连接。这些连接使得从几何形状导出到机器学习的结果。我们的第一个主要结果是基于Tracy Hall(2004)的几何结构,其局部炮击的交叉多容院不能延伸。我们使用它来得出最大类别的VC尺寸3,没有角落。从过去11年来,这反驳了在机器学习中的几个工作。特别地,它意味着最佳类别的最佳未标记的样本压缩方案的所有先前结构都是错误的。在积极的一面,我们为最大类提供了一个未标记的样品压缩方案的新建。我们打开我们的未标记的样品压缩方案是否延伸到充足(A.K.A.不平衡或极值)课程,这代表了最大类的自然和深远的概括。在解决这个问题方面,我们就关联立方体复合物的1骷髅的独特宿前方向提供了几何特征。
translated by 谷歌翻译
我们根据计算一个扎根于每个顶点的某个加权树的家族而构成的相似性得分提出了一种有效的图形匹配算法。对于两个erd \ h {o} s-r \'enyi图$ \ mathcal {g}(n,q)$,其边缘通过潜在顶点通信相关联,我们表明该算法正确地匹配了所有范围的范围,除了所有的vertices分数外,有了很高的概率,前提是$ nq \ to \ infty $,而边缘相关系数$ \ rho $满足$ \ rho^2> \ alpha \ ailpha \大约0.338 $,其中$ \ alpha $是Otter的树木计数常数。此外,在理论上是必需的额外条件下,可以精确地匹配。这是第一个以显式常数相关性成功的多项式图匹配算法,并适用于稀疏和密集图。相比之下,以前的方法要么需要$ \ rho = 1-o(1)$,要么仅限于稀疏图。该算法的症结是一个经过精心策划的植根树的家族,称为吊灯,它可以有效地从同一树的计数中提取图形相关性,同时抑制不同树木之间的不良相关性。
translated by 谷歌翻译
我们研究了与给定的无向图$ g $相对应的图形模型的最大似然估计的问题。我们表明,最大似然估计(MLE)是几个帐篷函数的指数的乘积,每个最大集团的$ g $。虽然图形模型中的一组对数符号密度是无限维度的,但我们的结果表明,可以通过求解有限维凸优化问题来找到MLE。我们提供实施和一些示例。此外,我们证明MLE存在并且具有概率为1,只要样品数量大于$ g $ chordal时最大的$ g $集团的大小。我们证明,当图$ g $是集团的不交联时,MLE是一致的。最后,我们讨论了$ g $的图形模型中的对数 - 串联密度在$ g $中具有对数符号分解的条件。
translated by 谷歌翻译
K-MEDIAN和K-MEACE是聚类算法的两个最受欢迎的目标。尽管有密集的努力,但对这些目标的近似性很好地了解,特别是在$ \ ell_p $ -metrics中,仍然是一个重大的开放问题。在本文中,我们在$ \ ell_p $ -metrics中显着提高了文献中已知的近似因素的硬度。我们介绍了一个名为Johnson覆盖假说(JCH)的新假设,这大致断言设定系统上的良好的Max K-Coverage问题难以近似于1-1 / e,即使是成员图形设置系统是Johnson图的子图。然后,我们展示了Cohen-Addad和Karthik引入的嵌入技术的概括(Focs'19),JCH意味着K-MEDIAN和K-MERION在$ \ ell_p $ -metrics中的近似结果的近似值的硬度为近距离对于一般指标获得的人。特别地,假设JCH我们表明很难近似K-Meator目标:$ \ Bullet $离散情况:$ \ ell_1 $ 3.94 - $ \ ell_2中的1.73因素为1.73倍$$ - 这分别在UGC下获得了1.56和1.17的先前因子。 $ \ bullet $持续案例:$ \ ell_1 $ 2210 - $ \ ell_2 $的$ \ ell_1 $ 210。$ \ ell_2 $-metric;这在UGC下获得的$ \ ell_2 $的$ \ ell_2 $的先前因子提高了1.07。对于K-Median目标,我们还获得了类似的改进。此外,我们使用Dinure等人的工作证明了JCH的弱版本。 (Sicomp'05)在超图顶点封面上,恢复Cohen-Addad和Karthik(Focs'19 Focs'19)上面的所有结果(近)相同的不可识别因素,但现在在标准的NP $ \ NEQ $ P假设下(代替UGC)。
translated by 谷歌翻译
We consider the problem of learning the structure underlying a Gaussian graphical model when the variables (or subsets thereof) are corrupted by independent noise. A recent line of work establishes that even for tree-structured graphical models, only partial structure recovery is possible and goes on to devise algorithms to identify the structure up to an (unavoidable) equivalence class of trees. We extend these results beyond trees and consider the model selection problem under noise for non tree-structured graphs, as tree graphs cannot model several real-world scenarios. Although unidentifiable, we show that, like the tree-structured graphs, the ambiguity is limited to an equivalence class. This limited ambiguity can help provide meaningful clustering information (even with noise), which is helpful in computer and social networks, protein-protein interaction networks, and power networks. Furthermore, we devise an algorithm based on a novel ancestral testing method for recovering the equivalence class. We complement these results with finite sample guarantees for the algorithm in the high-dimensional regime.
translated by 谷歌翻译
几何图是一个组合图,并具有从其嵌入欧几里得空间中继承的几何形状。在两个几何图形的组合和几何结构中,在组合和几何结构中的(差异)相似性的有意义衡量是一个具有挑战性的问题。我们研究了几何图的距离度量的两个概念,称为几何编辑距离(GED)和几何图距离(GGD)。尽管前者是基于编辑一个图以将其转换为另一个图的想法,但后者的灵感来自图形的不精确匹配。几十年来,这两个概念一直在归因于归因图之间相似性的衡量标准。但是,如果没有任何修改,它们将无法为几何图提供有意义的距离度量 - 甚至不再是度量标准。我们已经为几何图的上下文策划了它们相关的成本功能。除了研究GED和GGD的度量特性外,我们研究了这两个概念的比较。我们通过证明距离为$ \ Mathcal {np} $ - 很难计算,即使图形是平面,并且允许任意成本系数,我们也很难计算GGD的计算方面。
translated by 谷歌翻译
重新配置图中的两个最短路径意味着通过一次改变一个顶点来修改一个最短的路径,使得所有中间路径也是最短路径。这个问题有几个自然应用,即:(a)改造道路网络,(b)在同步多处理设置中重新排出数据包,(c)运输集装箱存货问题,以及(d)列车编组问题。在作为图形问题的建模时,(a)是最常规的情况而(b),(c)和(d)是对不同图形类的限制。我们表明(a)是棘手的,即使对于问题的轻松变体也是如此。对于(b),(c)和(d),我们提出了有效的算法来解决各自的问题。我们还将问题概括为当最多$ k $(对于固定整数$ k \ geq k \ ge $ k \ geq 2 $)一次连续的顶点一次可以一次更改。
translated by 谷歌翻译
本文讨论了ERD \ H {O} S-R \'enyi图的图形匹配或网络对齐问题,可以将其视为图同构问题的嘈杂平均案例版本。令$ g $和$ g'$ be $ g(n,p)$ erd \ h {o} s--r \'enyi略微图形,并用其邻接矩阵识别。假设$ g $和$ g'$是相关的,因此$ \ mathbb {e} [g_ {ij} g'_ {ij}] = p(1- \ alpha)$。对于置换$ \ pi $,代表$ g $和$ g'$之间的潜在匹配,用$ g^\ pi $表示从$ \ pi $的$ g $的顶点获得的图表。观察$ g^\ pi $和$ g'$,我们的目标是恢复匹配的$ \ pi $。在这项工作中,我们证明,在(0,1] $中,每$ \ varepsilon \ in(0,1] $,都有$ n_0> 0 $,具体取决于$ \ varepsilon $和绝对常数$ \ alpha_0,r> 0 $,带有以下属性。令$ n \ ge n_0 $,$(1+ \ varepsilon)\ log n \ le np \ le n^{\ frac {1} {r \ log \ log \ log n}} $ (\ alpha_0,\ varepsilon/4)$。有一个多项式时算法$ f $,因此$ \ m athbb {p} \ {f(g^\ pi,g')= \ pi \} = 1-o (1)$。这是第一种多项式时算法,它恢复了相关的ERD \ H {O} S-r \'enyi图与具有恒定相关性的相关性图与高概率相关性的确切匹配。该算法是基于比较的比较与图形顶点关联的分区树。
translated by 谷歌翻译
假设$ g $是根据所谓的HyperGraph随机块模型(HSBM)产生的,我们考虑了稀疏$ Q $均匀的HyperGraph $ G $中的社区检测问题。我们证明,基于非折线操作员的光谱方法具有很高的概率,可以降低到Angelini等人猜想的广义kesten-Stigum检测阈值。我们表征了稀疏HSBM的非背带操作员的频谱,并使用Ihara-Bass公式为超图提供有效的尺寸降低程序。结果,可以将稀疏HSBM的社区检测减少为$ 2N \ times 2n $非正态矩阵的特征向量问题,该矩阵从邻接矩阵和超级格雷普的学位矩阵中构建。据我们所知,这是第一种可证明,有效的光谱算法,它可以根据一般对称概率张量生成$ K $块的HSBMS阈值。
translated by 谷歌翻译
我们开发了一种高效的随机块模型中的弱恢复算法。该算法与随机块模型的Vanilla版本的最佳已知算法的统计保证匹配。从这个意义上讲,我们的结果表明,随机块模型没有稳健性。我们的工作受到最近的银行,Mohanty和Raghavendra(SODA 2021)的工作,为相应的区别问题提供了高效的算法。我们的算法及其分析显着脱离了以前的恢复。关键挑战是我们算法的特殊优化景观:种植的分区可能远非最佳意义,即完全不相关的解决方案可以实现相同的客观值。这种现象与PCA的BBP相转变的推出效应有关。据我们所知,我们的算法是第一个在非渐近设置中存在这种推出效果的鲁棒恢复。我们的算法是基于凸优化的框架的实例化(与平方和不同的不同),这对于其他鲁棒矩阵估计问题可能是有用的。我们的分析的副产物是一种通用技术,其提高了任意强大的弱恢复算法的成功(输入的随机性)从恒定(或缓慢消失)概率以指数高概率。
translated by 谷歌翻译
我们介绍了一个新的真实值不变,称为3范围内的双曲结的自然斜率,这在其CUSP几何形状中定义。我们展示了两倍的结签名,自然斜率在大多数恒定时间上不同的双曲线除以喷射率半径的立方体。使用机器学习发现这种不等式来检测各种结不变之间的关系。它有应用于Dehn手术和4球属的应用。我们还显示了一个精致版本的不等式,其中上限是体积的线性函数,并且斜率通过对应于链接结的短测地测量的术语来校正,该术语将结奇数次数。
translated by 谷歌翻译
在此备忘录中,我们开发了一般框架,它允许同时研究$ \ MathBB R ^ D $和惠特尼在$ \ Mathbb r的离散和非离散子集附近的insoctry扩展问题附近的标签和未标记的近对准数据问题。^ d $与某些几何形状。此外,我们调查了与集群,维度减少,流形学习,视觉以及最小的能量分区,差异和最小最大优化的相关工作。给出了谐波分析,计算机视觉,歧管学习和与我们工作的信号处理中的众多开放问题。本发明内容中的一部分工作基于纸张中查尔斯Fefferman的联合研究[48],[49],[50],[51]。
translated by 谷歌翻译
$ N $ -Quens配置是$ N \ Times N $ Chessboard的$ N $相互非攻击座位的位置。Nauck在1850年介绍的$ N $ -Queens完井问题是决定是否可以将给定的部分配置完成为$ N $ -Queens配置。在本文中,我们研究了这个问题的极端方面,即:部分配置必须小心,以便完成完成?我们表明,可以完成任何最多$ N / 60 $相互非攻击Queens的展示。我们还提供了大约N / 4 $ Queens的部分配置,不能完成,并制定一些有趣的问题。我们的证据将Queens问题与二角形图中的彩虹匹配连接,并使用概率参数以及线性编程二元性。
translated by 谷歌翻译
为了捕获许多社区检测问题的固有几何特征,我们建议使用一个新的社区随机图模型,我们称之为\ emph {几何块模型}。几何模型建立在\ emph {随机几何图}(Gilbert,1961)上,这是空间网络的随机图的基本模型之一,就像在ERD \ H上建立的良好的随机块模型一样{o} s-r \'{en} yi随机图。它也是受到社区发现中最新的理论和实际进步启发的随机社区模型的自然扩展。为了分析几何模型,我们首先为\ emph {Random Annulus图}提供新的连接结果,这是随机几何图的概括。自引入以来,已经研究了几何图的连通性特性,并且由于相关的边缘形成而很难分析它们。然后,我们使用随机环形图的连接结果来提供必要的条件,以有效地为几何块模型恢复社区。我们表明,一种简单的三角计数算法来检测几何模型中的社区几乎是最佳的。为此,我们考虑了两个图密度方案。在图表的平均程度随着顶点的对数增长的状态中,我们表明我们的算法在理论上和实际上都表现出色。相比之下,三角计数算法对于对数学度方案中随机块模型远非最佳。我们还查看了图表的平均度与顶点$ n $的数量线性增长的状态,因此要存储一个需要$ \ theta(n^2)$内存的图表。我们表明,我们的算法需要在此制度中仅存储$ o(n \ log n)$边缘以恢复潜在社区。
translated by 谷歌翻译
我们考虑从数据学习树结构ising模型的问题,使得使用模型计算的后续预测是准确的。具体而言,我们的目标是学习一个模型,使得小组变量$ S $的后海报$ p(x_i | x_s)$。自推出超过50年以来,有效计算最大似然树的Chow-Liu算法一直是学习树结构图形模型的基准算法。 [BK19]示出了关于以预测的局部总变化损耗的CHOW-LIU算法的样本复杂性的界限。虽然这些结果表明,即使在恢复真正的基础图中也可以学习有用的模型是不可能的,它们的绑定取决于相互作用的最大强度,因此不会达到信息理论的最佳选择。在本文中,我们介绍了一种新的算法,仔细结合了Chow-Liu算法的元素,以便在预测的损失下有效地和最佳地学习树ising模型。我们的算法对模型拼写和对抗损坏具有鲁棒性。相比之下,我们表明庆祝的Chow-Liu算法可以任意次优。
translated by 谷歌翻译
在观察性研究中,经常遇到有关存在或缺乏因果边缘和路径的因果背景知识。由于背景知识而导致的马尔可夫等效dag的子类共享的指向边缘和链接可以由因果关系最大部分定向的无循环图(MPDAG)表示。在本文中,我们首先提供了因果MPDAG的声音和完整的图形表征,并提供了因果MPDAG的最小表示。然后,我们介绍了一种名为Direct Causal子句(DCC)的新颖表示,以统一形式表示所有类型的因果背景知识。使用DCC,我们研究因果背景知识的一致性和等效性,并表明任何因果背景知识集都可以等效地分解为因果MPDAG,以及最小的残留DCC。还提供了多项式时间算法,以检查一致性,等效性并找到分解的MPDAG和残留DCC。最后,有了因果背景知识,我们证明了一个足够且必要的条件来识别因果关系,并且出人意料地发现因果效应的可识别性仅取决于分解的MPDAG。我们还开发了局部IDA型算法,以估计无法识别效应的可能值。模拟表明因果背景知识可以显着提高因果影响的识别性。
translated by 谷歌翻译
我们提供了在Relu神经网络层的动作下不变的概率分布系列的完整表征。在贝叶斯网络培训期间出现对这些家庭的需求或对训练有素的神经网络的分析,例如,在不确定量化(UQ)或解释的人工智能(XAI)的范围内。我们证明,除非以下三个限制中的至少一个限制,否则不可能存在不变的参数化分布族:首先,网络层具有一个宽度,这对于实际神经网络是不合理的。其次,家庭的概率措施具有有限的支持,基本上适用于采样分布。第三,家庭的参数化不是局部Lipschitz连续,这排除了所有计算可行的家庭。最后,我们表明这些限制是单独必要的。对于三种情况中的每一个,我们可以构建一个不变的家庭,究竟是一个限制之一,但不是另一个。
translated by 谷歌翻译
我们在可实现的PAC设置中从带有边距的可实现的PAC设置中介绍了一种改进的{\ em准正确}学习凸多面体。我们的学习算法将一致的多面体构造为大约$ t \ log t $ halfpace,在$ t $的时间多项式中的恒定尺寸边距(其中$ t $是形成最佳多面体的半个空间的数量)。我们还确定了从覆盖物到多层的覆盖率概念的明显概括,并调查它们如何与几何上的关系;此结果可能具有超出学习设置的后果。
translated by 谷歌翻译
我们研究在大型增长网络中找到根顶点的问题。我们证明,可以构建大小的置信集,而不是网络中包含root顶点的顶点的数量,在各种随机网络的各种模型中都具有很高的概率。这些模型包括均匀的随机递归dag和统一的库珀 - 弗里兹随机图。
translated by 谷歌翻译