大多数-AT是确定联合正常形式(CNF)中输入$ N $的最低价公式的问题至少为2 ^ {n-1} $令人满意的作业。在对概率规划和推论复杂性的各种AI社区中,广泛研究了多数饱和问题。虽然大多数饱满为期40多年来,但自然变体的复杂性保持开放:大多数 - $ k $ SAT,其中输入CNF公式仅限于最多$ k $的子句宽度。我们证明,每辆$ k $,大多数 - $ k $ sat是在p的。事实上,对于任何正整数$ k $和ratic $ \ rho \ in(0,1)$ in(0,1)$与有界分比者,我们给出了算法这可以确定给定的$ k $ -cnf是否至少有$ \ rho \ cdot 2 ^ n $令人满意的分配,在确定性线性时间(而先前的最着名的算法在指数时间中运行)。我们的算法对计算复杂性和推理的复杂性具有有趣的积极影响,显着降低了相关问题的已知复杂性,例如E-Maj-$ K $ Sat和Maj-Maj- $ K $ Sat。在我们的方法中,通过提取在$ k $ -cnf的相应设置系统中发现的向日葵,可以通过提取向日葵来解决阈值计数问题的有效方法。我们还表明,大多数 - $ k $ sat的易腐烂性有些脆弱。对于密切相关的gtmajority-sat问题(我们询问给定公式是否超过2 ^ {n-1} $满足分配),这已知是pp-cleanting的,我们表明gtmajority-$ k $ sat在p for $ k \ le 3 $,但为$ k \ geq 4 $完成np-cleante。这些结果是违反直觉的,因为这些问题的“自然”分类将是PP完整性,因为GTMAJority的复杂性存在显着差异 - $ k $ SAT和MOSTION- $ K $ SAT为所有$ k \ ge 4 $。
translated by 谷歌翻译
我们建立了量子算法设计与电路下限之间的第一一般连接。具体来说,让$ \ mathfrak {c} $是一类多项式大小概念,假设$ \ mathfrak {c} $可以在统一分布下的成员查询,错误$ 1/2 - \ gamma $通过时间$ t $量子算法。我们证明如果$ \ gamma ^ 2 \ cdot t \ ll 2 ^ n / n $,则$ \ mathsf {bqe} \ nsubseteq \ mathfrak {c} $,其中$ \ mathsf {bqe} = \ mathsf {bque} [2 ^ {o(n)}] $是$ \ mathsf {bqp} $的指数时间模拟。在$ \ gamma $和$ t $中,此结果是最佳的,因为它不难学习(经典)时间$ t = 2 ^ n $(没有错误) ,或在Quantum Time $ t = \ mathsf {poly}(n)$以傅立叶采样为单位为1/2美元(2 ^ { - n / 2})$。换句话说,即使对这些通用学习算法的边际改善也会导致复杂性理论的主要后果。我们的证明在学习理论,伪随机性和计算复杂性的几个作品上构建,并且至关重要地,在非凡的经典学习算法与由Oliveira和Santhanam建立的电路下限之间的联系(CCC 2017)。扩展他们对量子学习算法的方法,结果产生了重大挑战。为此,我们展示了伪随机发电机如何以通用方式意味着学习到较低的连接,构建针对均匀量子计算的第一个条件伪随机发生器,并扩展了Impagliazzo,JaiSwal的本地列表解码算法。 ,Kabanets和Wigderson(Sicomp 2010)通过微妙的分析到量子电路。我们认为,这些贡献是独立的兴趣,可能会发现其他申请。
translated by 谷歌翻译
连续约束满意度问题(CCSP)是一个约束满意度问题(CSP),其间隔域$ u \ subset \ mathbb {r} $。我们进行了一项系统的研究,以对CCSP进行分类,这些CCSP已完成现实的存在理论,即ER完整。为了定义该类别,我们首先考虑ETR问题,该问题也代表了真实的存在理论。在此问题的情况下,我们给出了$ \ compant x_1,\ ldots,x_n \ in \ mathbb {r}的某个句子:\ phi(x_1,\ ldots,x_n)$,其中$ \ phi $ is由符号$ \ {0、1, +,\ cdot,\ geq,>,\ wedge,\ vee,\ neg \} $组成的符号符号的公式正确。 。现在,ER是所有问题的家族,这些家族允许多项式时间降低到ETR。众所周知,np $ \ subseteq $ er $ \ subseteq $ pspace。我们将注意力限制在CCSP上,并具有附加限制($ x + y = z $)和其他一些轻度的技术状况。以前,已经显示出乘法约束($ x \ cdot y = z $),平方约束($ x^2 = y $)或反转约束($ x \ cdot y = 1 $)足以建立ER-完整性。如下所示,我们以最大的平等约束来扩展这一点。我们表明,CCSP(具有附加限制和其他轻度技术状况)具有任何一个表现良好的弯曲平等约束($ f(x,y)= 0 $)的CCSP是ER的曲线限制($ F(x,y)= 0 $)。我们将结果进一步扩展到不平等约束。我们表明,任何行为良好的凸出弯曲且行为良好的凹陷弯曲的不平等约束($ f(x,y)\ geq 0 $ and $ g(x,x,y)\ geq 0 $)暗示着班级的ER完整性这种CCSP。
translated by 谷歌翻译
我们连接学习算法和算法自动化证明搜索在命题证明系统中:每一种充分强大,表现良好的命题证明系统$ P $,我们证明以下陈述相当,1.可提供学习:$ P $证明p -size电路通过统一分布的子尺寸尺寸电路与成员资格查询进行了学习。 2.可提供自动性:$ P $证明$ P $可通过非均匀电路在表达P尺寸电路下限的命题公式上自动。在这里,如果I.-III,则$ P $足够强大和表现良好。持有:I. $ P $ P-SIMULATES JE \ v {R} \'ABEK的系统$ WF $(通过调节弱鸽子原则加强扩展弗雷格系统$ EF $); II。 $ P $满足标准证明系统的一些基本属性,P-SIMUTED $ WF $; III。 $ P $可有效地证明一些布尔函数$ H $ H $ H $难以平均为子增长尺寸电路。例如,如果III。保持$ p = wf $,然后项目1和2等同于$ p = wf $。如果在Ne \ Cop Cone $的函数$ H \ IN,这是平均尺寸为2 ^ {n / 4} $的电路,对于每个足够大的$ n $,那么有一个明确的命题证明系统$ p $满意的属性I.-III。,即物品1和2的等价,以$ p $持有。
translated by 谷歌翻译
最近已经提出了几个查询和分数来解释对ML模型的个人预测。鉴于ML型号的灵活,可靠和易于应用的可解释性方法,我们预见了需要开发声明语言以自然地指定不同的解释性查询。我们以原则的方式通过源于逻辑,称为箔,允许表达许多简单但重要的解释性查询,并且可以作为更具表现力解释性语言的核心来实现这一语言。我们研究箔片查询的两类ML模型的计算复杂性经常被视为容易解释:决策树和OBDD。由于ML模型的可能输入的数量是尺寸的指数,因此箔评估问题的易易性是精细的,但是可以通过限制模型的结构或正在评估的箔片段来实现。我们还以高级声明语言包装的箔片的原型实施,并执行实验,表明可以在实践中使用这种语言。
translated by 谷歌翻译
我们提出了改进的算法,并为身份测试$ n $维分布的问题提供了统计和计算下限。在身份测试问题中,我们将作为输入作为显式分发$ \ mu $,$ \ varepsilon> 0 $,并访问对隐藏分布$ \ pi $的采样甲骨文。目标是区分两个分布$ \ mu $和$ \ pi $是相同的还是至少$ \ varepsilon $ -far分开。当仅从隐藏分布$ \ pi $中访问完整样本时,众所周知,可能需要许多样本,因此以前的作品已经研究了身份测试,并额外访问了各种有条件采样牙齿。我们在这里考虑一个明显弱的条件采样甲骨文,称为坐标Oracle,并在此新模型中提供了身份测试问题的相当完整的计算和统计表征。我们证明,如果一个称为熵的分析属性为可见分布$ \ mu $保留,那么对于任何使用$ \ tilde {o}(n/\ tilde {o}),有一个有效的身份测试算法Varepsilon)$查询坐标Oracle。熵的近似张力是一种经典的工具,用于证明马尔可夫链的最佳混合时间边界用于高维分布,并且最近通过光谱独立性为许多分布族建立了最佳的混合时间。我们将算法结果与匹配的$ \ omega(n/\ varepsilon)$统计下键进行匹配的算法结果补充,以供坐标Oracle下的查询数量。我们还证明了一个计算相变:对于$ \ {+1,-1,-1 \}^n $以上的稀疏抗抗铁磁性模型,在熵失败的近似张力失败的状态下,除非RP = np,否则没有有效的身份测试算法。
translated by 谷歌翻译
我们研究了小组测试问题,其目标是根据合并测试的结果,确定一组k感染的人,这些k含有稀有疾病,这些人在经过测试中至少有一个受感染的个体时返回阳性的结果。团体。我们考虑将个人分配给测试的两个不同的简单随机过程:恒定柱设计和伯努利设计。我们的第一组结果涉及基本统计限制。对于恒定柱设计,我们给出了一个新的信息理论下限,这意味着正确识别的感染者的比例在测试数量越过特定阈值时会经历急剧的“全或全或无所不包”的相变。对于Bernoulli设计,我们确定解决相关检测问题所需的确切测试数量(目的是区分小组测试实例和纯噪声),改善Truong,Aldridge和Scarlett的上限和下限(2020)。对于两个小组测试模型,我们还研究了计算有效(多项式时间)推理程序的能力。我们确定了解决检测问题的低度多项式算法所需的精确测试数量。这为在少量稀疏度的检测和恢复问题中都存在固有的计算统计差距提供了证据。值得注意的是,我们的证据与Iliopoulos和Zadik(2021)相反,后者预测了Bernoulli设计中没有计算统计差距。
translated by 谷歌翻译
伊瓦玛(Iwama)引入的命中公式是一类不寻常的命题CNF公式。它们的可满足性不仅可以在多项式时间内确定,而且甚至可以以封闭形式计算其模型。这与其他多项式定义类别形成鲜明对比,这些类别通常具有基于回溯和分辨率的算法,并且模型计数仍然很难,例如2-SAT和HORN-SAT。但是,那些基于分辨率的算法通常很容易地暗示着在分辨率复杂性上的上限,这对于达到公式而缺少。击中公式难以解决吗?在本文中,我们采取了第一步,回答这个问题。我们表明,击中公式的分辨率复杂性由Kullmann和Zhao首先研究的所谓不可约合的击球公式主导,这些配方不能由较小的击球公式组成。但是,根据定义,很难构建大型不可理解的击中公式。甚至还不知道是否存在无限的许多。基于我们的理论结果,我们在Nauty软件包之上实施了有效的算法,以列举所有不可约14个条款的不可约束的击中公式。我们还通过将已知的SAT编码用于我们的目的来确定生成的击中公式的确切分辨率复杂性。我们的实验结果表明,击中公式确实很难解决。
translated by 谷歌翻译
我们根据描述逻辑ALC和ALCI介绍并研究了本体论介导的查询的几个近似概念。我们的近似值有两种:我们可以(1)用一种以易访问的本体语言为例,例如ELI或某些TGD,以及(2)用可拖动类的一个替换数据库,例如其treewidth的数据库,由常数界定。我们确定所得近似值的计算复杂性和相对完整性。(几乎)所有这些都将数据复杂性从Conp-Complete降低到Ptime,在某些情况下甚至是固定参数可拖动和线性时间。虽然种类(1)的近似也降低了综合复杂性,但这种近似(2)往往并非如此。在某些情况下,联合复杂性甚至会增加。
translated by 谷歌翻译
我们考虑测定点过程(DPP)的产物,该点过程,其概率质量与多矩阵的主要成本的产物成比例,作为DPP的天然有希望的推广。我们研究计算其归一化常量的计算复杂性,这是最重要的概率推理任务。我们的复杂性 - 理论结果(差不多)排除了该任务的有效算法的存在,除非输入矩阵被迫具有有利的结构。特别是,我们证明了以下内容:(1)计算$ \ sum_s \ det({\ bf a} _ {s,s,s})^ p $完全针对每个(固定)阳性甚至整数$ p $ up-hard和Mod $ _3 $ p-hard,它给Kulesza和Taskar提出的打开问题给出了否定答案。 (2)$ \ sum_s \ det({\ bf a} _ {s,s})\ det({\ bf b} _ {s,s})\ det({\ bf c} _ {s,s} )$ IS难以在2 ^ {o(| i | i | ^ {1- \ epsilon})} $或$ 2 ^ {o(n ^ {1 / epsilon})} $的任何一个$ \ epsilon> 0 $,其中$ | i | $是输入大小,$ n $是输入矩阵的顺序。这种结果比Gillenwater导出的两个矩阵的#P硬度强。 (3)有$ k ^ {o(k)} n ^ {o(1)} $ - 计算$ \ sum_s \ det的时间算法({\ bf a} _ {s,s})\ det( {\ bf b} _ {s,s})$,其中$ k $是$ \ bf a $和$ \ bf b $的最大等级,或者由$ \ bf a $的非零表项形成的图表的树宽和$ \ bf b $。据说这种参数化算法是固定参数的易解。这些结果可以扩展到固定尺寸的情况。此外,我们介绍了两个固定参数批量算法的应用程序给定矩阵$ \ bf a $ treewidth $ w $:(4)我们可以计算$ 2 ^ {\ frac {n} {2p-1} $ - 近似值到$ \ sum_s \ det({\ bf a} _ {s,s})^ p $ for任何分数$ p> 1 $以$ w ^ {o(wp)} n ^ {o(1)} $时间。 (5)我们可以在$ w ^ {o(w \ sqrt n)} n ^ {
translated by 谷歌翻译
我们开发了一种高效的随机块模型中的弱恢复算法。该算法与随机块模型的Vanilla版本的最佳已知算法的统计保证匹配。从这个意义上讲,我们的结果表明,随机块模型没有稳健性。我们的工作受到最近的银行,Mohanty和Raghavendra(SODA 2021)的工作,为相应的区别问题提供了高效的算法。我们的算法及其分析显着脱离了以前的恢复。关键挑战是我们算法的特殊优化景观:种植的分区可能远非最佳意义,即完全不相关的解决方案可以实现相同的客观值。这种现象与PCA的BBP相转变的推出效应有关。据我们所知,我们的算法是第一个在非渐近设置中存在这种推出效果的鲁棒恢复。我们的算法是基于凸优化的框架的实例化(与平方和不同的不同),这对于其他鲁棒矩阵估计问题可能是有用的。我们的分析的副产物是一种通用技术,其提高了任意强大的弱恢复算法的成功(输入的随机性)从恒定(或缓慢消失)概率以指数高概率。
translated by 谷歌翻译
部分可观察到的马尔可夫决策过程(POMDPS)是加强学习的自然和一般模型,以考虑到代理人对其当前国家的不确定性。在POMDPS的文献中,习惯性地假设在已知参数时计算最佳策略的规划Oracle,即使已知问题是计算的。几乎所有现有的规划算法都在指数时间内运行,缺乏可证明的性能保证,或者需要在每个可能的政策下对转换动态进行强烈的假设。在这项工作中,我们重新审视了规划问题并问:是否有自然和积极的假设,使计划变得容易?我们的主要结果是用于规划(一步)可观察POMDPS的QuasioInomial-time算法。具体而言,我们假设各国的分离良好的分布导致分开的观察分布,因此观察结果在每一步中至少有一些信息。至关重要的是,这个假设没有对POMDP的过渡动态的限制;尽管如此,它意味着近乎最佳的政策承认准简洁的描述,这通常不是真实的(在标准的硬度假设下)。我们的分析基于滤波器稳定性的新定量界限 - 即潜在状态的最佳滤波器的速率忘记其初始化。此外,在指数时间假设下,我们证明了在可观察POMDPS中规划的匹配硬度。
translated by 谷歌翻译
我们研究了学习哈密顿$ h $ to precision $ \ varepsilon $的问题,假设我们将获得其gibbs state $ \ rho = \ exp( - \ beta h)/\ operatoratorname {tr}(\ exp(\ exp)( - \ beta h))$在已知的反温度$ \ beta $处。 Anshu,Arunachalam,Kuwahara和Soleimanifar(Nature Physics,2021,Arxiv:2004.07266)最近研究了此问题的样品复杂性(需要$ \ rho $的副本数量)。在高温(低$ \ beta $)制度中,他们的算法具有样品复杂性poly poly $(n,1/\ beta,1/\ varepsilon)$,并且可以用多项式但次优的时间复杂性实现。在本文中,我们研究了更一般的哈密顿人的同样问题。我们展示了如何学习哈密顿量的系数到错误$ \ varepsilon $带有样本复杂性$ s = o(\ log n/(\ beta \ varepsilon)^{2})$和样本大小的时间复杂性,$ o(s n)$。此外,我们证明了匹配的下限,表明我们算法的样品复杂性是最佳的,因此我们的时间复杂性也是最佳的。在附录中,我们证明,几乎可以使用相同的算法来从实时进化的统一$ e^{ - it H} $中学习$ h $,其中具有相似的示例和时间复杂性的小$ t $制度。
translated by 谷歌翻译
K-MEDIAN和K-MEACE是聚类算法的两个最受欢迎的目标。尽管有密集的努力,但对这些目标的近似性很好地了解,特别是在$ \ ell_p $ -metrics中,仍然是一个重大的开放问题。在本文中,我们在$ \ ell_p $ -metrics中显着提高了文献中已知的近似因素的硬度。我们介绍了一个名为Johnson覆盖假说(JCH)的新假设,这大致断言设定系统上的良好的Max K-Coverage问题难以近似于1-1 / e,即使是成员图形设置系统是Johnson图的子图。然后,我们展示了Cohen-Addad和Karthik引入的嵌入技术的概括(Focs'19),JCH意味着K-MEDIAN和K-MERION在$ \ ell_p $ -metrics中的近似结果的近似值的硬度为近距离对于一般指标获得的人。特别地,假设JCH我们表明很难近似K-Meator目标:$ \ Bullet $离散情况:$ \ ell_1 $ 3.94 - $ \ ell_2中的1.73因素为1.73倍$$ - 这分别在UGC下获得了1.56和1.17的先前因子。 $ \ bullet $持续案例:$ \ ell_1 $ 2210 - $ \ ell_2 $的$ \ ell_1 $ 210。$ \ ell_2 $-metric;这在UGC下获得的$ \ ell_2 $的$ \ ell_2 $的先前因子提高了1.07。对于K-Median目标,我们还获得了类似的改进。此外,我们使用Dinure等人的工作证明了JCH的弱版本。 (Sicomp'05)在超图顶点封面上,恢复Cohen-Addad和Karthik(Focs'19 Focs'19)上面的所有结果(近)相同的不可识别因素,但现在在标准的NP $ \ NEQ $ P假设下(代替UGC)。
translated by 谷歌翻译
我们给出了\ emph {list-codobable协方差估计}的第一个多项式时间算法。对于任何$ \ alpha> 0 $,我们的算法获取输入样本$ y \ subseteq \ subseteq \ mathbb {r}^d $ size $ n \ geq d^{\ mathsf {poly}(1/\ alpha)} $获得通过对抗损坏I.I.D的$(1- \ alpha)n $点。从高斯分布中的样本$ x $ size $ n $,其未知平均值$ \ mu _*$和协方差$ \ sigma _*$。在$ n^{\ mathsf {poly}(1/\ alpha)} $ time中,它输出$ k = k(\ alpha)=(1/\ alpha)^{\ mathsf {poly}的常数大小列表(1/\ alpha)} $候选参数,具有高概率,包含$(\ hat {\ mu},\ hat {\ sigma})$,使得总变化距离$ tv(\ Mathcal {n}(n})(n}(n})( \ mu _*,\ sigma _*),\ Mathcal {n}(\ hat {\ mu},\ hat {\ sigma}))<1-o _ {\ alpha}(1)$。这是距离的统计上最强的概念,意味着具有独立尺寸误差的参数的乘法光谱和相对Frobenius距离近似。我们的算法更普遍地适用于$(1- \ alpha)$ - 任何具有低度平方总和证书的分布$ d $的损坏,这是两个自然分析属性的:1)一维边际和抗浓度2)2度多项式的超收缩率。在我们工作之前,估计可定性设置的协方差的唯一已知结果是针对Karmarkar,Klivans和Kothari(2019),Raghavendra和Yau(2019和2019和2019和2019和2019年)的特殊情况。 2020年)和巴克西(Bakshi)和科塔里(Kothari)(2020年)。这些结果需要超级物理时间,以在基础维度中获得任何子构误差。我们的结果意味着第一个多项式\ emph {extcect}算法,用于列表可解码的线性回归和子空间恢复,尤其允许获得$ 2^{ - \ Mathsf { - \ Mathsf {poly}(d)} $多项式时间错误。我们的结果还意味着改进了用于聚类非球体混合物的算法。
translated by 谷歌翻译
我们研究了测试有序域上的离散概率分布是否是指定数量的垃圾箱的直方图。$ k $的简洁近似值的最常见工具之一是$ k $ [n] $,是概率分布,在一组$ k $间隔上是分段常数的。直方图测试问题如下:从$ [n] $上的未知分布中给定样品$ \ mathbf {p} $,我们想区分$ \ mathbf {p} $的情况从任何$ k $ - 组织图中,总变化距离的$ \ varepsilon $ -far。我们的主要结果是针对此测试问题的样本接近最佳和计算有效的算法,以及几乎匹配的(在对数因素内)样品复杂性下限。具体而言,我们表明直方图测试问题具有样品复杂性$ \ widetilde \ theta(\ sqrt {nk} / \ varepsilon + k / \ varepsilon^2 + \ sqrt {n} / \ varepsilon^2)$。
translated by 谷歌翻译
在我们生活在深厚的互连世界中,我们周围的各个信息链接域。由于图形数据库包含了数据之间有效的关系,并允许处理和查询这些连接,因此它们正迅速成为支持广泛域和应用程序的流行平台。与关系情况一样,可以预期数据保留了一组完整性约束,这些限制定义了它代表的世界的语义结构。当数据库不满足其完整性约束时,一种可能的方法是搜索确实满足约束(也称为维修)的“类似”数据库。在这项工作中,我们使用基于一组Reg-GXPath表达式作为完整性约束的一致性概念来研究图形数据库的计算子集和超集修复的问题。我们表明,对于Reg-GxPath的积极片段,这些问题承认了多项式时间算法,而语言的全部表达力使它们棘手。
translated by 谷歌翻译
我们提出了一个算法框架,用于近距离矩阵上的量子启发的经典算法,概括了Tang的突破性量子启发算法开始的一系列结果,用于推荐系统[STOC'19]。由量子线性代数算法和gily \'en,su,low和wiebe [stoc'19]的量子奇异值转换(SVT)框架[SVT)的动机[STOC'19],我们开发了SVT的经典算法合适的量子启发的采样假设。我们的结果提供了令人信服的证据,表明在相应的QRAM数据结构输入模型中,量子SVT不会产生指数量子加速。由于量子SVT框架基本上概括了量子线性代数的所有已知技术,因此我们的结果与先前工作的采样引理相结合,足以概括所有有关取消量子机器学习算法的最新结果。特别是,我们的经典SVT框架恢复并经常改善推荐系统,主成分分析,监督聚类,支持向量机器,低秩回归和半决赛程序解决方案的取消结果。我们还为汉密尔顿低级模拟和判别分析提供了其他取消化结果。我们的改进来自识别量子启发的输入模型的关键功能,该模型是所有先前量子启发的结果的核心:$ \ ell^2 $ -Norm采样可以及时近似于其尺寸近似矩阵产品。我们将所有主要结果减少到这一事实,使我们的简洁,独立和直观。
translated by 谷歌翻译
我们回答以下问题,哪些结合性查询以多种方式上的许多正和负面示例以及如何有效地构建此类示例的特征。结果,我们为一类连接的查询获得了一种新的有效的精确学习算法。我们的贡献的核心是两种新的多项式时间算法,用于在有限结构的同态晶格中构建前沿。我们还讨论了模式映射和描述逻辑概念的独特特征性和可学习性的影响。
translated by 谷歌翻译
我们研究了清单可解放的平均估计问题,而对手可能会破坏大多数数据集。具体来说,我们在$ \ mathbb {r} ^ $和参数$ 0 <\ alpha <\ frac 1 2 $中给出了一个$ $ n $ points的$ t $ points。$ \ alpha $ -flaction的点$ t $是iid来自乖巧的分发$ \ Mathcal {D} $的样本,剩余的$(1- \ alpha)$ - 分数是任意的。目标是输出小型的vectors列表,其中至少一个接近$ \ mathcal {d} $的均值。我们开发新的算法,用于列出可解码的平均值估计,实现几乎最佳的统计保证,运行时间$ O(n ^ {1 + \ epsilon_0} d)$,适用于任何固定$ \ epsilon_0> 0 $。所有先前的此问题算法都有额外的多项式因素在$ \ frac 1 \ alpha $。我们与额外技术一起利用此结果,以获得用于聚类混合物的第一个近几个线性时间算法,用于分开的良好表现良好的分布,几乎匹配谱方法的统计保证。先前的聚类算法本身依赖于$ k $ -pca的应用程序,从而产生$ \ omega(n d k)$的运行时。这标志着近二十年来这个基本统计问题的第一次运行时间改进。我们的方法的起点是基于单次矩阵乘法权重激发电位减少的$ \ Alpha \至1 $制度中的新颖和更简单的近线性时间较强的估计算法。在Diakonikolas等人的迭代多滤波技术的背景下,我们迫切地利用了这种新的算法框架。 '18,'20,提供一种使用一维投影的同时群集和下群点的方法 - 因此,绕过先前算法所需的$ k $ -pca子程序。
translated by 谷歌翻译