相关聚类是无监督的机器学习中无处不在的范式,在这种学习中解决不公平是一个主要的挑战。在此激励的情况下,我们研究了数据点可能属于不同保护组的公平相关聚类,目标是确保跨簇的所有组公平代表。我们的论文显着概括并改善了Ahmadi等人先前工作的质量保证。和Ahmadian等。如下。 - 我们允许用户指定群集中每个组表示的任意上限。 - 我们的算法允许个人具有多个受保护的功能,并确保所有这些特征同时公平。 - 我们证明,在这种一般环境中,可以保证质量和公平性。此外,这改善了先前工作中研究的特殊情况的结果。我们对现实世界数据的实验表明,与最佳解决方案相比,我们的聚类质量要比理论结果所建议的要好得多。
translated by 谷歌翻译
在相关聚类问题中,我们为我们提供了一组具有成对相似性信息的对象。我们的目的是将这些对象划分为尽可能紧密匹配此信息的群集。更具体地说,成对信息是作为加权图$ g $给​​出的,其边缘标记为``类似的''或``不同''二进制分类器。目的是产生一个聚类,以最大程度地减少``分歧''的权重:跨簇中类似边缘和群集中不同边缘的权重的总和。在此博览会中,我们重点介绍$ g $完整且未加权的情况。我们探索了此假设下相关聚类问题的四种近似算法。特别是,我们描述了以下算法:(i)$ 17429- $ $近似算法,Bansal,Blum和Chawla,(II)$ 4- $ $近似算法由$ 4- $ $近似算法。 Charikar,Guruswami和Wirth(III)Ailon,Charikar和Newman和Newman(IV)的$ 3- $近似算法是Chawla,Makarychev,Schramm和Yaroslavtsev的$ 2.06- $近似算法。
translated by 谷歌翻译
在聚类问题中,中央决策者通过顶点给出完整的公制图,并且必须提供最小化某些目标函数的顶点的聚类。在公平的聚类问题中,顶点以颜色(例如,组中的成员身份)赋予,并且有效群集的功能也可能包括该群集中的颜色的表示。在公平集群中的事先工作假设完全了解集团成员资格。在本文中,我们通过假设通过概率分配不完美了解集团成员资格的知识。我们在此具有近似率保证的更常规设置中呈现聚类算法。我们还解决了“公制成员资格”的问题,其中不同的群体的概念和距离。使用我们所提出的算法以及基线进行实验,以验证我们的方法,并且当组成员资格不确定时,验证我们的方法以及表面细微的问题。
translated by 谷歌翻译
我们重新审视了Chierichetti等人首先引入的公平聚类问题,该问题要求每个受保护的属性在每个集群中具有近似平等的表示。即,余额财产。现有的公平聚类解决方案要么是不可扩展的,要么无法在聚类目标和公平之间实现最佳权衡。在本文中,我们提出了一种新的公平概念,我们称之为$ tau $ $ $ - fair公平,严格概括了余额财产,并实现了良好的效率与公平折衷。此外,我们表明,简单的基于贪婪的圆形算法有效地实现了这一权衡。在更一般的多价受保护属性的设置下,我们严格地分析了算法的理论特性。我们的实验结果表明,所提出的解决方案的表现优于所有最新算法,即使对于大量簇,也可以很好地工作。
translated by 谷歌翻译
In the Priority $k$-Center problem, the input consists of a metric space $(X,d)$, an integer $k$, and for each point $v \in X$ a priority radius $r(v)$. The goal is to choose $k$-centers $S \subseteq X$ to minimize $\max_{v \in X} \frac{1}{r(v)} d(v,S)$. If all $r(v)$'s are uniform, one obtains the $k$-Center problem. Plesn\'ik [Plesn\'ik, Disc. Appl. Math. 1987] introduced the Priority $k$-Center problem and gave a $2$-approximation algorithm matching the best possible algorithm for $k$-Center. We show how the problem is related to two different notions of fair clustering [Harris et al., NeurIPS 2018; Jung et al., FORC 2020]. Motivated by these developments we revisit the problem and, in our main technical contribution, develop a framework that yields constant factor approximation algorithms for Priority $k$-Center with outliers. Our framework extends to generalizations of Priority $k$-Center to matroid and knapsack constraints, and as a corollary, also yields algorithms with fairness guarantees in the lottery model of Harris et al [Harris et al, JMLR 2019].
translated by 谷歌翻译
相关聚类是基于成对相似性和不同分数的数据集的框架,并且已用于生物信息学,社交网络分析和计算机视觉中的不同应用。尽管已经为该问题设计了许多近似算法,但是最好的理论结果依赖于通过昂贵的线性编程松弛获得下限。在本文中,我们证明了与强三合会封闭原理相关的相关聚类问题与边缘标签问题的新关系。我们使用这些连接来开发新的近似算法,用于具有确定性恒因子近似保证并避免规范线性编程放松的相关聚类。我们的方法还扩展到称为集群删除的相关聚类的变体,严格禁止将负边缘放入簇中。我们的结果包括基于简化的线性程序的集群删除和相关聚类的4个近似算法,其限制的限制性远远超过规范放松。更重要的是,我们基于在某些辅助图和超图中的计算最大匹配基于计算最大匹配来发展纯组合的更快技术。这导致组合6 - 近似用于完整的未加权关联聚类,这是任何不依赖线性编程的方法的最佳确定性结果。我们还介绍了集群删除的第一个组合常数因子近似。
translated by 谷歌翻译
在本文中,我们提出了一个自然的单个偏好(IP)稳定性的概念,该概念要求每个数据点平均更接近其自身集群中的点,而不是其他群集中的点。我们的概念可以从几个角度的动机,包括游戏理论和算法公平。我们研究了与我们提出的概念有关的几个问题。我们首先表明,确定给定数据集通常允许进行IP稳定的聚类通常是NP-HARD。结果,我们探索了在某些受限度量空间中查找IP稳定聚类的有效算法的设计。我们提出了一种poly Time算法,以在实际线路上找到满足精确IP稳定性的聚类,并有效地算法来找到针对树度量的IP稳定2聚类。我们还考虑放松稳定性约束,即,与其他任何集群相比,每个数据点都不应太远。在这种情况下,我们提供具有不同保证的多时间算法。我们在实际数据集上评估了一些算法和几种标准聚类方法。
translated by 谷歌翻译
We study the problem of graph clustering under a broad class of objectives in which the quality of a cluster is defined based on the ratio between the number of edges in the cluster, and the total weight of vertices in the cluster. We show that our definition is closely related to popular clustering measures, namely normalized associations, which is a dual of the normalized cut objective, and normalized modularity. We give a linear time constant-approximate algorithm for our objective, which implies the first constant-factor approximation algorithms for normalized modularity and normalized associations.
translated by 谷歌翻译
随着机器学习变得普遍,减轻培训数据中存在的任何不公平性变得至关重要。在公平的各种概念中,本文的重点是众所周知的个人公平,该公平规定应该对类似的人进行类似的对待。虽然在训练模型(对处理)时可以提高个人公平性,但我们认为在模型培训(预处理)之前修复数据是一个更基本的解决方案。特别是,我们表明标签翻转是改善个人公平性的有效预处理技术。我们的系统IFLIPPER解决了限制了个人公平性违规行为的最小翻转标签的优化问题,当培训数据中的两个类似示例具有不同的标签时,发生违规情况。我们首先证明问题是NP-HARD。然后,我们提出了一种近似的线性编程算法,并提供理论保证其结果与标签翻转数量有关的结果与最佳解决方案有多近。我们还提出了使线性编程解决方案更加最佳的技术,而不会超过违规限制。实际数据集上的实验表明,在看不见的测试集的个人公平和准确性方面,IFLIPPER显着优于其他预处理基线。此外,IFLIPPER可以与处理中的技术结合使用,以获得更好的结果。
translated by 谷歌翻译
我们介绍了$(p,q)$ - 公平集群问题。在这个问题中,我们给出了一组点数$ p $和不同重量函数的集合$ w $。我们想找到一个群集,最小化$ \ ell_q $ -norm的$ \ ell_p $-norm的$ \ ell_p $ -norms的$ p $从中心。这概括了各种聚类问题,包括社会博览会$ k $ -Median和$ k $ - emeans,并且与其他问题紧密相连,如Densest $ K $ -subgraph和Min $ K $ -Union。我们利用凸编程技术来估计$(p,q)$ - 为$ p $和$ q $的不同价值观达到公平的聚类问题。当$ p \ geq q $时,我们得到$ o(k ^ {(pq)/(2pq)})$,它几乎匹配$ k ^ {\ omega((pq)/(pq))} $低于基于Min $ K $ -Union和其他问题的猜想硬度的束缚。当$ q \ geq p $时,我们得到一个近似,它与界限$ p,q $的输入的大小无关,也与最近的$ o相匹配((\ log n /(\ log \ log n)) ^ {1 / p})$ - $(p,\ infty)$ - makarychev和vakilian(colt 2021)的公平聚类。
translated by 谷歌翻译
已经研究了分层群集,并广泛使用作为数据分析的方法。最近,Dasgupta [2016]定义了精确的目标函数。给定一套$ n $数据点,每两个项目$ w_ {i,j} $ w_ {i,j} $ i和$ j $表示他们的相似性/ dive相似性,目标是建立递归(树)将数据点(项目)分区成连续较小的簇。他定义了一棵树$ t $的成本函数为$ compt(t)= \ sum_ {i,j \在[n]} \ big(w_ {i,j} \ times | t_ {i,j} | \大)$ where $ t_ {i,j} $是subtree植根于$ i $和$ j $最不常见的祖先,并呈现了这种聚类的第一个近似算法。然后Moseley和Wang [2017]考虑了Dasgupta的双重目标函数,以适应性的重量,并显示出随机分区和平均连锁有近似比1/3 $的近似值为1/3美元,这一系列工程为0.585 $ [Alon等al。 2020]。后来Cohen-Addad等。 [2019]认为与Dasgupta的客观函数相同,但对于基于不同的基于指标,称为$ Rev(T)$。结果表明,随机分区和平均连锁有2/3美元的比例仅为0.667078 $ 0.667078 $ [Charikar等人。 SODA2020]。我们的第一个主要结果是考虑$ Rev(T)$,并提出更精致的算法和仔细分析,实现近似值0.71604 $。我们还为基于异化的聚类介绍了一个新的目标函数。对于任何树$ t $,让$ h_ {i,j} $是$ i $和$ j $的常见祖先的数量。直观地,预计相似的项目将在尽可能深处留在同一群体内。因此,对于基于不同的指标,我们建议每棵树$ t $的成本,我们想要最小化,是$ cost_h(t)= \ sum_ {i,j \在[n]} \ big(w_ {我,j} \ times h_ {i,j} \ big)$。我们为此目标提供1.3977美元的价值。
translated by 谷歌翻译
分层聚类研究将数据集的递归分区设置为连续较小尺寸的簇,并且是数据分析中的基本问题。在这项工作中,我们研究了Dasgupta引入的分层聚类的成本函数,并呈现了两个多项式时间近似算法:我们的第一个结果是高度电导率图的$ O(1)$ - 近似算法。我们简单的建筑绕过了在文献中已知的稀疏切割的复杂递归常规。我们的第二个和主要结果是一个US(1)$ - 用于展示群集明确结构的宽族图形的近似算法。该结果推出了以前的最先进的,该现有技术仅适用于从随机模型产生的图表。通过对合成和现实世界数据集的实证分析,我们所呈现的算法的实证分析表明了我们的工作的重要性,以其具有明确定义的集群结构的先前所提出的图表算法。
translated by 谷歌翻译
Graph clustering is a fundamental problem in unsupervised learning, with numerous applications in computer science and in analysing real-world data. In many real-world applications, we find that the clusters have a significant high-level structure. This is often overlooked in the design and analysis of graph clustering algorithms which make strong simplifying assumptions about the structure of the graph. This thesis addresses the natural question of whether the structure of clusters can be learned efficiently and describes four new algorithmic results for learning such structure in graphs and hypergraphs. All of the presented theoretical results are extensively evaluated on both synthetic and real-word datasets of different domains, including image classification and segmentation, migration networks, co-authorship networks, and natural language processing. These experimental results demonstrate that the newly developed algorithms are practical, effective, and immediately applicable for learning the structure of clusters in real-world data.
translated by 谷歌翻译
我们研究社会上公平$(\ ell_p,k)$的近似算法 - $ m $组的聚类问题,其特殊案例包括社会公平的$ k $ -Median($ p = 1 $)和社会公平的$ k $ - 均值($ p = 2 $)问题。我们提出(1)一个多项式时间$(5+2 \ sqrt {6})^p $ - approximation,最多$ k+m $中心(2)a $(5+2 \ sqrt {6}+\ \ \ \ \ \ \ \ \ \ \ \ \ \\ epsilon)^p $ - approximation with $ k $中心$ n^{2^{o(p)} \ cdot m^2} $,和(3)a $(15+6 \ sqrt {6}) ^p $ k $中心的时间$ k^{m} \ cdot \ text {poly}(n)$。第一个结果是通过使用一系列线性程序的迭代圆形方法的细化来获得的。后两个结果是通过将最多$ K+M $中心的解决方案转换为使用(2)的稀疏方法的$ K $中心的解决方案,并通过详尽的搜索(3)。我们还将算法的性能与现有的双色算法以及基准数据集中的$ K $中心近似算法的恰好比较,并发现我们的算法在实践中也优于现有方法。
translated by 谷歌翻译
K-MEDIAN和K-MEACE是聚类算法的两个最受欢迎的目标。尽管有密集的努力,但对这些目标的近似性很好地了解,特别是在$ \ ell_p $ -metrics中,仍然是一个重大的开放问题。在本文中,我们在$ \ ell_p $ -metrics中显着提高了文献中已知的近似因素的硬度。我们介绍了一个名为Johnson覆盖假说(JCH)的新假设,这大致断言设定系统上的良好的Max K-Coverage问题难以近似于1-1 / e,即使是成员图形设置系统是Johnson图的子图。然后,我们展示了Cohen-Addad和Karthik引入的嵌入技术的概括(Focs'19),JCH意味着K-MEDIAN和K-MERION在$ \ ell_p $ -metrics中的近似结果的近似值的硬度为近距离对于一般指标获得的人。特别地,假设JCH我们表明很难近似K-Meator目标:$ \ Bullet $离散情况:$ \ ell_1 $ 3.94 - $ \ ell_2中的1.73因素为1.73倍$$ - 这分别在UGC下获得了1.56和1.17的先前因子。 $ \ bullet $持续案例:$ \ ell_1 $ 2210 - $ \ ell_2 $的$ \ ell_1 $ 210。$ \ ell_2 $-metric;这在UGC下获得的$ \ ell_2 $的$ \ ell_2 $的先前因子提高了1.07。对于K-Median目标,我们还获得了类似的改进。此外,我们使用Dinure等人的工作证明了JCH的弱版本。 (Sicomp'05)在超图顶点封面上,恢复Cohen-Addad和Karthik(Focs'19 Focs'19)上面的所有结果(近)相同的不可识别因素,但现在在标准的NP $ \ NEQ $ P假设下(代替UGC)。
translated by 谷歌翻译
Mazumdar和Saha \ Cite {MS17A}的开创性论文引入了有关聚类的广泛工作,并带有嘈杂的查询。然而,尽管在问题上取得了重大进展,但所提出的方法至关重要地取决于了解基础全随随随之而来的甲骨文错误的确切概率。在这项工作中,我们开发了可靠的学习方法,这些方法可以忍受一般的半随机噪声,从而在定性上获得与全随机模型中最佳方法相同的保证。更具体地说,给定一组$ n $点带有未知的基础分区,我们可以查询点$ u,v $检查它们是否在同一群集中,但是有了概率$ p $,答案可能可以受到对抗的选择。我们在理论上显示信息$ o \ left(\ frac {nk \ log n} {(1-2p)^2} \ right)$查询足以学习任何足够大尺寸的群集。我们的主要结果是一种计算高效算法,可以用$ o \ left(\ frac {nk \ log n} {(1-2p)^2} \ right) + \ text {poly} \ left(\ log(\ log) n,k,\ frac {1} {1-2p} \ right)$查询,与完全随机模型中最知名算法的保证相匹配。作为我们方法的推论,我们为全随机模型开发了第一个无参数算法,并通过\ cite {ms17a}回答一个空的问题。
translated by 谷歌翻译
光谱聚类在从业者和理论家中都很受欢迎。尽管对光谱聚类的性能保证有充分的了解,但最近的研究集中于在群集中执行``公平'',要求它们在分类敏感的节点属性方面必须``平衡''人口中的种族分布)。在本文中,我们考虑了一个设置,其中敏感属性间接表现在辅助\ textit {表示图}中,而不是直接观察到。该图指定了可以相对于敏感属性互相表示的节点对,除了通常的\ textit {相似性图}外,还可以观察到。我们的目标是在相似性图中找到簇,同时尊重由表示图编码的新个人公平性约束。我们为此任务开发了不均衡和归一化光谱聚类的变体,并在代表图诱导的种植分区模型下分析其性能。该模型同时使用节点的群集成员身份和表示图的结构来生成随机相似性图。据我们所知,这些是在个人级别的公平限制下受约束光谱聚类的第一个一致性结果。数值结果证实了我们的理论发现。
translated by 谷歌翻译
本文展示了如何适应$ k $ -MEANS问题的几种简单和经典的基于采样的算法,以使用离群值设置。最近,Bhaskara等人。 (Neurips 2019)展示了如何将古典$ K $ -MEANS ++算法适应与异常值的设置。但是,他们的算法需要输出$ o(\ log(k)\ cdot z)$ outiers,其中$ z $是true Outliers的数量,以匹配$ o(\ log k)$ - 近似值的$ k的近似保证$ -Means ++。在本文中,我们以他们的想法为基础,并展示了如何适应几个顺序和分布式的$ k $ - 均值算法,但使用离群值来设置,但具有更强的理论保证:我们的算法输出$(1+ \ VAREPSILON)z $ OUTLIERS Z $ OUTLIERS在实现$ o(1 / \ varepsilon)$ - 近似目标函数的同时。在顺序世界中,我们通过改编Lattanzi和Sohler的最新算法来实现这一目标(ICML 2019)。在分布式设置中,我们适应了Guha等人的简单算法。 (IEEE Trans。知道和数据工程2003)以及Bahmani等人的流行$ K $ -Means $ \ | $。 (PVLDB 2012)。我们技术的理论应用是一种具有运行时间$ \ tilde {o}(nk^2/z)$的算法,假设$ k \ ll z \ ll n $。这与Omacle模型中此问题的$ \ Omega(NK^2/z)$的匹配下限相互补。
translated by 谷歌翻译
在将项目分配给平台的情况下,我们在匹配中解决了组和个人公平限制。每个项目都属于某些组,并且对平台有偏好顺序。每个平台通过指定可以与每个组匹配的项目数量的上限和下限来实施组公平性。可能有多种最佳解决方案可以满足群体的公平约束。为了实现个人公平,我们介绍了“概率个人公平”,其目标是计算“集体公平”匹配的分布,以便每个项目都有合理的可能性,可以在其最佳选择中与平台匹配。如果每个项目恰好属于一个组,我们提供了一种多项式时间算法,该算法可以计算概率单独的公平分布,而在组公平匹配中。当项目可以属于多个组,并且将组公平约束指定为仅上限时,我们将相同的算法重新算法以实现三种不同的多项式时间近似算法。
translated by 谷歌翻译
这项工作研究了经典的光谱群集算法,该算法嵌入了某些图$ g =(v_g,e_g)$的顶点,使用$ g $的某些矩阵的$ k $ eigenVectors纳入$ \ m athbb {r}^k $k $ - 分区$ v_g $ to $ k $簇。我们的第一个结果是对光谱聚类的性能进行更严格的分析,并解释了为什么它在某些条件下的作用比文献中研究的弱点要弱得多。对于第二个结果,我们表明,通过应用少于$ k $的特征向量来构建嵌入,光谱群集能够在许多实际情况下产生更好的输出;该结果是光谱聚类中的第一个结果。除了其概念性和理论意义外,我们工作的实际影响还通过对合成和现实世界数据集的经验分析证明,其中光谱聚类会产生可比或更好的结果,而较少$ k $ k $ eigenVectors。
translated by 谷歌翻译