智能论文笔记

The $n$-queens completion problem

Stefan Glock , David Munhá Correia , Benny Sudakov

分类：人工智能

2021-11-22

$ N $ -Quens配置是$ N \ Times N $ Chessboard的$ N $相互非攻击座位的位置。Nauck在1850年介绍的$ N $ -Queens完井问题是决定是否可以将给定的部分配置完成为$ N $ -Queens配置。在本文中，我们研究了这个问题的极端方面，即：部分配置必须小心，以便完成完成？我们表明，可以完成任何最多$ N / 60 $相互非攻击Queens的展示。我们还提供了大约N / 4 $ Queens的部分配置，不能完成，并制定一些有趣的问题。我们的证据将Queens问题与二角形图中的彩虹匹配连接，并使用概率参数以及线性编程二元性。

translated by 谷歌翻译

Exact Matching of Random Graphs with Constant Correlation

Cheng Mao , Mark Rudelson , Konstantin Tikhomirov

分类： (统计)机器学习

2021-10-11

本文讨论了ERD \ H {O} S-R \'enyi图的图形匹配或网络对齐问题，可以将其视为图同构问题的嘈杂平均案例版本。令$ g $和$ g'$ be $ g（n，p）$ erd \ h {o} s--r \'enyi略微图形，并用其邻接矩阵识别。假设$ g $和$ g'$是相关的，因此$ \ mathbb {e} [g_ {ij} g'_ {ij}] = p（1- \ alpha）$。对于置换$ \ pi $，代表$ g $和$ g'$之间的潜在匹配，用$ g^\ pi $表示从$ \ pi $的$ g $的顶点获得的图表。观察$ g^\ pi $和$ g'$，我们的目标是恢复匹配的$ \ pi $。在这项工作中，我们证明，在（0,1] $中，每$ \ varepsilon \ in（0,1] $，都有$ n_0> 0 $，具体取决于$ \ varepsilon $和绝对常数$ \ alpha_0，r> 0 $，带有以下属性。令$ n \ ge n_0 $，$（1+ \ varepsilon）\ log n \ le np \ le n^{\ frac {1} {r \ log \ log \ log n}} $ （\ alpha_0，\ varepsilon/4）$。有一个多项式时算法$ f $，因此$ \ m athbb {p} \ {f（g^\ pi，g'）= \ pi \} = 1-o （1）$。这是第一种多项式时算法，它恢复了相关的ERD \ H {O} S-r \'enyi图与具有恒定相关性的相关性图与高概率相关性的确切匹配。该算法是基于比较的比较与图形顶点关联的分区树。

translated by 谷歌翻译

Robust recovery for stochastic block models

Jingqiu Ding , Tommaso d'Orsi , Rajai Nasser , David Steurer

分类：机器学习 | (统计)机器学习

2021-11-16

我们开发了一种高效的随机块模型中的弱恢复算法。该算法与随机块模型的Vanilla版本的最佳已知算法的统计保证匹配。从这个意义上讲，我们的结果表明，随机块模型没有稳健性。我们的工作受到最近的银行，Mohanty和Raghavendra（SODA 2021）的工作，为相应的区别问题提供了高效的算法。我们的算法及其分析显着脱离了以前的恢复。关键挑战是我们算法的特殊优化景观：种植的分区可能远非最佳意义，即完全不相关的解决方案可以实现相同的客观值。这种现象与PCA的BBP相转变的推出效应有关。据我们所知，我们的算法是第一个在非渐近设置中存在这种推出效果的鲁棒恢复。我们的算法是基于凸优化的框架的实例化（与平方和不同的不同），这对于其他鲁棒矩阵估计问题可能是有用的。我们的分析的副产物是一种通用技术，其提高了任意强大的弱恢复算法的成功（输入的随机性）从恒定（或缓慢消失）概率以指数高概率。

translated by 谷歌翻译

Random graph matching at Otter's threshold via counting chandeliers

Cheng Mao , Yihong Wu , Jiaming Xu , Sophie H. Yu

分类： (统计)机器学习

2022-09-25

我们根据计算一个扎根于每个顶点的某个加权树的家族而构成的相似性得分提出了一种有效的图形匹配算法。对于两个erd \ h {o} s-r \'enyi图$ \ mathcal {g}（n，q）$，其边缘通过潜在顶点通信相关联，我们表明该算法正确地匹配了所有范围的范围，除了所有的vertices分数外，有了很高的概率，前提是$ nq \ to \ infty $，而边缘相关系数$ \ rho $满足$ \ rho^2> \ alpha \ ailpha \大约0.338 $，其中$ \ alpha $是Otter的树木计数常数。此外，在理论上是必需的额外条件下，可以精确地匹配。这是第一个以显式常数相关性成功的多项式图匹配算法，并适用于稀疏和密集图。相比之下，以前的方法要么需要$ \ rho = 1-o（1）$，要么仅限于稀疏图。该算法的症结是一个经过精心策划的植根树的家族，称为吊灯，它可以有效地从同一树的计数中提取图形相关性，同时抑制不同树木之间的不良相关性。

translated by 谷歌翻译

Near-optimal fitting of ellipsoids to random points

Prayaag Venkat , Paxton Turner , Alexander S. Wein

分类： (统计)机器学习

2022-08-19

给定尺寸$ d $中的独立标准高斯点$ v_1，\ ldots，v_n $，对于$（n，d）$的值（n，d）$的值很高，概率很高，同时通过所有要点？将椭圆形拟合到随机点的基本问题与低级别矩阵分解，独立的组件分析和主成分分析有连接。基于有力的数值证据，桑德森，帕里洛和威尔斯基[Proc。关于决策和控制会议，第6031-6036页，2013年]猜想，椭圆形拟合问题的问题从可行的到不可行的$ n $增加，并在$ n \ sim d^2/4处急剧阈值$。我们通过为某些$ n = \ omega（\，d^2/\ log^5（d）\，）$构建合适的椭圆形来解决这个猜想，从而改善了Ghosh等人的先前工作。 [Proc。关于计算机科学基础的研讨会，第954-965、2020页]，需要$ n = o（d^{3/2}）$。我们的证明证明了Saunderson等人的最小二乘结构的可行性。使用对特定非标准随机矩阵的特征向量和特征值进行仔细的分析。

translated by 谷歌翻译

Identity Testing for High-Dimensional Distributions via Entropy Tensorization

Antonio Blanca , Zongchen Chen , Daniel Štefankovič , Eric Vigoda

分类：机器学习

2022-07-19

我们提出了改进的算法，并为身份测试$ n $维分布的问题提供了统计和计算下限。在身份测试问题中，我们将作为输入作为显式分发$ \ mu $，$ \ varepsilon> 0 $，并访问对隐藏分布$ \ pi $的采样甲骨文。目标是区分两个分布$ \ mu $和$ \ pi $是相同的还是至少$ \ varepsilon $ -far分开。当仅从隐藏分布$ \ pi $中访问完整样本时，众所周知，可能需要许多样本，因此以前的作品已经研究了身份测试，并额外访问了各种有条件采样牙齿。我们在这里考虑一个明显弱的条件采样甲骨文，称为坐标Oracle，并在此新模型中提供了身份测试问题的相当完整的计算和统计表征。我们证明，如果一个称为熵的分析属性为可见分布$ \ mu $保留，那么对于任何使用$ \ tilde {o}（n/\ tilde {o}），有一个有效的身份测试算法Varepsilon）$查询坐标Oracle。熵的近似张力是一种经典的工具，用于证明马尔可夫链的最佳混合时间边界用于高维分布，并且最近通过光谱独立性为许多分布族建立了最佳的混合时间。我们将算法结果与匹配的$ \ omega（n/\ varepsilon）$统计下键进行匹配的算法结果补充，以供坐标Oracle下的查询数量。我们还证明了一个计算相变：对于$ \ {+1，-1，-1 \}^n $以上的稀疏抗抗铁磁性模型，在熵失败的近似张力失败的状态下，除非RP = np，否则没有有效的身份测试算法。

translated by 谷歌翻译

Computational Barriers to Estimation from Low-Degree Polynomials

Tselil Schramm , Alexander S. Wein

分类： (统计)机器学习

2020-08-05

高维统计数据的一个基本目标是检测或恢复嘈杂数据中隐藏的种植结构（例如低级别矩阵）。越来越多的工作研究低级多项式作为此类问题的计算模型的限制模型：在各种情况下，数据的低级多项式可以与最知名的多项式时间算法的统计性能相匹配。先前的工作已经研究了低度多项式的力量，以检测隐藏结构的存在。在这项工作中，我们将这些方法扩展到解决估计和恢复问题（而不是检测）。对于大量的“信号加噪声”问题，我们给出了一个用户友好的下限，以获得最佳的均衡误差。据我们所知，这些是建立相关检测问题的恢复问题低度硬度的第一个结果。作为应用，我们对种植的子静脉和种植的密集子图问题的低度最小平方误差进行了严格的特征，在两种情况下都解决了有关恢复的计算复杂性的开放问题（在低度框架中）。

translated by 谷歌翻译

Johnson Coverage Hypothesis: Inapproximability of k-means and k-median in L_p metrics

Vincent Cohen-Addad , Karthik C. S , Euiwoong Lee

分类：机器学习

2021-11-21

K-MEDIAN和K-MEACE是聚类算法的两个最受欢迎的目标。尽管有密集的努力，但对这些目标的近似性很好地了解，特别是在$ \ ell_p $ -metrics中，仍然是一个重大的开放问题。在本文中，我们在$ \ ell_p $ -metrics中显着提高了文献中已知的近似因素的硬度。我们介绍了一个名为Johnson覆盖假说（JCH）的新假设，这大致断言设定系统上的良好的Max K-Coverage问题难以近似于1-1 / e，即使是成员图形设置系统是Johnson图的子图。然后，我们展示了Cohen-Addad和Karthik引入的嵌入技术的概括（Focs'19），JCH意味着K-MEDIAN和K-MERION在$ \ ell_p $ -metrics中的近似结果的近似值的硬度为近距离对于一般指标获得的人。特别地，假设JCH我们表明很难近似K-Meator目标：$ \ Bullet $离散情况：$ \ ell_1 $ 3.94 - $ \ ell_2中的1.73因素为1.73倍$$ - 这分别在UGC下获得了1.56和1.17的先前因子。 $ \ bullet $持续案例：$ \ ell_1 $ 2210 - $ \ ell_2 $的$ \ ell_1 $ 210。$ \ ell_2 $-metric;这在UGC下获得的$ \ ell_2 $的$ \ ell_2 $的先前因子提高了1.07。对于K-Median目标，我们还获得了类似的改进。此外，我们使用Dinure等人的工作证明了JCH的弱版本。（Sicomp'05）在超图顶点封面上，恢复Cohen-Addad和Karthik（Focs'19 Focs'19）上面的所有结果（近）相同的不可识别因素，但现在在标准的NP $ \ NEQ $ P假设下（代替UGC）。

translated by 谷歌翻译

Sublinear Algorithms for Hierarchical Clustering

Arpit Agarwal , Sanjeev Khanna , Huan Li , Prathamesh Patil

分类：机器学习

2022-06-15

图形上的分层聚类是数据挖掘和机器学习中的一项基本任务，并在系统发育学，社交网络分析和信息检索等领域中进行了应用。具体而言，我们考虑了由于Dasgupta引起的层次聚类的最近普及的目标函数。以前（大约）最小化此目标函数的算法需要线性时间/空间复杂性。在许多应用程序中，底层图的大小可能很大，即使使用线性时间/空间算法，也可以在计算上具有挑战性。结果，人们对设计只能使用sublinear资源执行全局计算的算法有浓厚的兴趣。这项工作的重点是在三个经过良好的sublinear计算模型下研究大量图的层次聚类，分别侧重于时空，时间和通信，作为要优化的主要资源：（1）（动态）流模型。边缘作为流，（2）查询模型表示，其中使用邻居和度查询查询图形，（3）MPC模型，其中图边缘通过通信通道连接的几台机器进行了分区。我们在上面的所有三个模型中设计用于层次聚类的sublinear算法。我们算法结果的核心是图表中的剪切方面的视图，这使我们能够使用宽松的剪刀示意图进行分层聚类，同时仅引入目标函数中的较小失真。然后，我们的主要算法贡献是如何在查询模型和MPC模型中有效地构建所需形式的切割稀疏器。我们通过建立几乎匹配的下限来补充我们的算法结果，该界限排除了在每个模型中设计更好的算法的可能性。

translated by 谷歌翻译

Archaeology of random recursive dags and Cooper-Frieze random networks

Simon Briend , Francisco Calvillo , Gábor Lugosi

分类：机器学习 | (统计)机器学习

2022-07-29

我们研究在大型增长网络中找到根顶点的问题。我们证明，可以构建大小的置信集，而不是网络中包含root顶点的顶点的数量，在各种随机网络的各种模型中都具有很高的概率。这些模型包括均匀的随机递归dag和统一的库珀 - 弗里兹随机图。

translated by 谷歌翻译

Average-Case Complexity of Tensor Decomposition for Low-Degree Polynomials

Alexander S. Wein

分类：机器学习 | (统计)机器学习

2022-11-10

Suppose we are given an $n$-dimensional order-3 symmetric tensor $T \in (\mathbb{R}^n)^{\otimes 3}$ that is the sum of $r$ random rank-1 terms. The problem of recovering the rank-1 components is possible in principle when $r \lesssim n^2$ but polynomial-time algorithms are only known in the regime $r \ll n^{3/2}$. Similar "statistical-computational gaps" occur in many high-dimensional inference tasks, and in recent years there has been a flurry of work on explaining the apparent computational hardness in these problems by proving lower bounds against restricted (yet powerful) models of computation such as statistical queries (SQ), sum-of-squares (SoS), and low-degree polynomials (LDP). However, no such prior work exists for tensor decomposition, largely because its hardness does not appear to be explained by a "planted versus null" testing problem. We consider a model for random order-3 tensor decomposition where one component is slightly larger in norm than the rest (to break symmetry), and the components are drawn uniformly from the hypercube. We resolve the computational complexity in the LDP model: $O(\log n)$-degree polynomial functions of the tensor entries can accurately estimate the largest component when $r \ll n^{3/2}$ but fail to do so when $r \gg n^{3/2}$. This provides rigorous evidence suggesting that the best known algorithms for tensor decomposition cannot be improved, at least by known approaches. A natural extension of the result holds for tensors of any fixed order $k \ge 3$, in which case the LDP threshold is $r \sim n^{k/2}$.

translated by 谷歌翻译

Proof of the Contiguity Conjecture and Lognormal Limit for the Symmetric Perceptron

Emmanuel Abbe , Shuangping Li , Allan Sly

分类： (统计)机器学习

2021-02-25

我们考虑对称二进制Perceptron模型，这是一个简单的神经网络模型，在统计物理学，信息理论和概率理论社区中具有重大关注，最近的连接对Baldassi等人的学习算法进行了性能。 '15。我们确定该模型的分区功能，由其预期值归一化，会聚到Lognormal分布。因此，这允许我们为此模型建立几个猜想：（i）证明Aubin等人的默默是普及猜想。 '19在满足政权中的种植和漂白模型之间; （ii）它建立了尖锐的阈值猜想; （iii）证明了对称案例中的冷冻1-RSB猜想，首先在非对称情况下首先召集了Krauth-M \'Ezard'89。在最近的Perkins-XU '21的工作中，还通过证明分区功能集中在实际值函数上的分析假设下，还建立了最后两个猜想。左侧打开默认的猜想和逻辑正常限制表征，这些表征在此无条件地建立，具有验证的分析假设。特别是，我们的证明技术依赖于小型曲调调节方法的密集对抗部分，该方法是为罗宾逊和Wormald庆典工作中的稀疏模型而开发的。

translated by 谷歌翻译

Community Detection and Stochastic Block Models

Emmanuel Abbe

分类： (统计)机器学习

2017-03-29

随机块模型（SBM）是一个随机图模型，其连接不同的顶点组不同。它被广泛用作研究聚类和社区检测的规范模型，并提供了肥沃的基础来研究组合统计和更普遍的数据科学中出现的信息理论和计算权衡。该专着调查了最近在SBM中建立社区检测的基本限制的最新发展，无论是在信息理论和计算方案方面，以及各种恢复要求，例如精确，部分和弱恢复。讨论的主要结果是在Chernoff-Hellinger阈值中进行精确恢复的相转换，Kesten-Stigum阈值弱恢复的相变，最佳的SNR - 单位信息折衷的部分恢复以及信息理论和信息理论之间的差距计算阈值。该专着给出了在寻求限制时开发的主要算法的原则推导，特别是通过绘制绘制，半定义编程，（线性化）信念传播，经典/非背带频谱和图形供电。还讨论了其他块模型的扩展，例如几何模型和一些开放问题。

translated by 谷歌翻译

Partial recovery and weak consistency in the non-uniform hypergraph Stochastic Block Model

Ioana Dumitriu , Haixiao Wang , Yizhe Zhu

分类： (统计)机器学习

2021-12-22

我们在非均匀超图随机块模型（HSBM）下的稀疏随机超图中的社区检测问题，是社区结构的随机网络的一般模型和高阶交互。当随机超图具有界定的预期度时，我们提供了一种频谱算法，该频谱算法输出分区，其中至少有$ \ gamma $分数正确分类，其中$ \ gamma \ in（0.5,1）$取决于信号 - 模型的噪声比（SNR）。当SNR随着顶点的数量转到无限的时，SNR慢慢地增长，我们的算法达到了弱的一致性，这改善了Ghoshdastidar和Dukkipati（2017）的上一个结果，用于非均匀的HSBMS。我们的谱算法由三个主要步骤组成：（1）HIFFEGE选择：选择某些尺寸的超高率，为诱导的子图像提供最大信噪比; （2）光谱分区：构造正则化邻接矩阵，并基于奇异向量获得近似分区; （3）纠正和合并：将超代表信息从邻接张于升级升级错误率保证。我们的算法的理论分析依赖于稀疏非均匀随机超图的邻接矩阵的浓度和正则化，这可以是独立的兴趣。

translated by 谷歌翻译

Concentration of polynomial random matrices via Efron-Stein inequalities

Goutham Rajendran , Madhur Tulsiani

分类：机器学习

2022-09-06

分析大型随机矩阵的浓度是多种领域的常见任务。给定独立的随机变量，许多工具可用于分析随机矩阵，其条目在变量中是线性的，例如基质 - 伯恩斯坦不平等。但是，在许多应用中，我们需要分析其条目是变量中多项式的随机矩阵。这些自然出现在光谱算法的分析中，例如霍普金斯等人。 [Stoc 2016]，Moitra-Wein [Stoc 2019]；并根据正方形层次结构的总和（例如Barak等。 [FOCS 2016]，Jones等。 [焦点2021]。在这项工作中，我们基于Paulin-Mackey-Tropp（概率Annals of Poylibity of Poyliby of 2016]，我们提出了一个通用框架来获得此类界限。 Efron-Stein不等式通过另一个简单（但仍然是随机）矩阵的范围来界定随机矩阵的规范，我们将其视为通过“区分”起始矩阵而引起的。通过递归区分，我们的框架减少了分析更简单的矩阵的主要任务。对于Rademacher变量，这些简单的矩阵实际上是确定性的，因此，分析它们要容易得多。对于一般的非拉多巴纳变量，任务减少到标量浓度，这要容易得多。此外，在多项式矩阵的设置中，我们的结果推广了Paulin-Mackey-Tropp的工作。使用我们的基本框架，我们在文献中恢复了简单的“张量网络”和“密集图矩阵”的已知界限。使用我们的一般框架，我们得出了“稀疏图矩阵”的边界，琼斯等人最近才获得。 [焦点2021]使用痕量功率方法的非平地应用，并且是其工作中的核心组成部分。我们希望我们的框架对涉及非线性随机矩阵浓度现象的其他应用有帮助。

translated by 谷歌翻译

Learning Low Degree Hypergraphs

Eric Balkanski , Oussama Hanguir , Shatian Wang

分类：机器学习

2022-02-21

我们研究了通过边缘检测查询学习超图的问题。在此问题中，学习者查询隐藏超图的顶点的子集，并观察这些子集是否包含边缘。通常，学习具有最大尺寸$ d $的$ m $边缘的超图需要$ \ omega（（2m/d）^{d/2}）$ queries。在本文中，我们旨在确定可以学习的超图族的家庭，而不会遭受查询复杂性，该查询复杂性在边缘的大小上呈指数增长。我们表明，使用Poly $（n）$ Queries可以学习高度匹配和低度近均匀的超图。对于学习超匹配（最大程度的超图$ 1 $），我们给出$ O（\ log^3 n）$ - 圆形算法，使用$ o（n \ log^5 n）$查询。我们通过表明没有算法的poly $（n）$查询来补充这种上限，这些算法在$ o（\ log \ log n）$自适应回合中学习超匹配。对于具有最大度$ \ delta $和边缘大小比率$ \ rho $的超级图形，我们给出了一种非自适应算法，并使用$ o（（2n）^{\ rho \ delta+1} \ log^2 n）$ queries。据我们所知，这些是使用Poly $（n，m）$查询复杂性的第一批算法，用于学习具有超恒定尺寸的超稳定数量边缘的非平凡家族。

translated by 谷歌翻译

Statistical and Computational Phase Transitions in Group Testing

Amin Coja-Oghlan , Oliver Gebhard , Max Hahn-Klimroth , Alexander S. Wein , Ilias Zadik

分类： (统计)机器学习 | 机器学习

2022-06-15

我们研究了小组测试问题，其目标是根据合并测试的结果，确定一组k感染的人，这些k含有稀有疾病，这些人在经过测试中至少有一个受感染的个体时返回阳性的结果。团体。我们考虑将个人分配给测试的两个不同的简单随机过程：恒定柱设计和伯努利设计。我们的第一组结果涉及基本统计限制。对于恒定柱设计，我们给出了一个新的信息理论下限，这意味着正确识别的感染者的比例在测试数量越过特定阈值时会经历急剧的“全或全或无所不包”的相变。对于Bernoulli设计，我们确定解决相关检测问题所需的确切测试数量（目的是区分小组测试实例和纯噪声），改善Truong，Aldridge和Scarlett的上限和下限（2020）。对于两个小组测试模型，我们还研究了计算有效（多项式时间）推理程序的能力。我们确定了解决检测问题的低度多项式算法所需的精确测试数量。这为在少量稀疏度的检测和恢复问题中都存在固有的计算统计差距提供了证据。值得注意的是，我们的证据与Iliopoulos和Zadik（2021）相反，后者预测了Bernoulli设计中没有计算统计差距。

translated by 谷歌翻译

Chow-Liu++: Optimal Prediction-Centric Learning of Tree Ising Models

Enric Boix-Adsera , Guy Bresler , Frederic Koehler

分类：机器学习

2021-06-07

我们考虑从数据学习树结构ising模型的问题，使得使用模型计算的后续预测是准确的。具体而言，我们的目标是学习一个模型，使得小组变量$ S $的后海报$ p（x_i | x_s）$。自推出超过50年以来，有效计算最大似然树的Chow-Liu算法一直是学习树结构图形模型的基准算法。 [BK19]示出了关于以预测的局部总变化损耗的CHOW-LIU算法的样本复杂性的界限。虽然这些结果表明，即使在恢复真正的基础图中也可以学习有用的模型是不可能的，它们的绑定取决于相互作用的最大强度，因此不会达到信息理论的最佳选择。在本文中，我们介绍了一种新的算法，仔细结合了Chow-Liu算法的元素，以便在预测的损失下有效地和最佳地学习树ising模型。我们的算法对模型拼写和对抗损坏具有鲁棒性。相比之下，我们表明庆祝的Chow-Liu算法可以任意次优。

translated by 谷歌翻译

Correlation detection in trees for planted graph alignment

Luca Ganassali , Laurent Massoulié , Marc Lelarge

分类：机器学习 | (统计)机器学习

2021-07-15

Motivated by alignment of correlated sparse random graphs, we introduce a hypothesis testing problem of deciding whether or not two random trees are correlated. We obtain sufficient conditions under which this testing is impossible or feasible. We propose MPAlign, a message-passing algorithm for graph alignment inspired by the tree correlation detection problem. We prove MPAlign to succeed in polynomial time at partial alignment whenever tree detection is feasible. As a result our analysis of tree detection reveals new ranges of parameters for which partial alignment of sparse random graphs is feasible in polynomial time. We then conjecture that graph alignment is not feasible in polynomial time when the associated tree detection problem is impossible. If true, this conjecture together with our sufficient conditions on tree detection impossibility would imply the existence of a hard phase for graph alignment, i.e. a parameter range where alignment cannot be done in polynomial time even though it is known to be feasible in non-polynomial time.

translated by 谷歌翻译

Constant Approximation for Normalized Modularity and Associations Clustering

Jakub Łącki , Vahab Mirrokni , Christian Sohler

分类：机器学习

2022-12-29

We study the problem of graph clustering under a broad class of objectives in which the quality of a cluster is defined based on the ratio between the number of edges in the cluster, and the total weight of vertices in the cluster. We show that our definition is closely related to popular clustering measures, namely normalized associations, which is a dual of the normalized cut objective, and normalized modularity. We give a linear time constant-approximate algorithm for our objective, which implies the first constant-factor approximation algorithms for normalized modularity and normalized associations.

translated by 谷歌翻译