我们重新审视了Chierichetti等人首先引入的公平聚类问题,该问题要求每个受保护的属性在每个集群中具有近似平等的表示。即,余额财产。现有的公平聚类解决方案要么是不可扩展的,要么无法在聚类目标和公平之间实现最佳权衡。在本文中,我们提出了一种新的公平概念,我们称之为$ tau $ $ $ - fair公平,严格概括了余额财产,并实现了良好的效率与公平折衷。此外,我们表明,简单的基于贪婪的圆形算法有效地实现了这一权衡。在更一般的多价受保护属性的设置下,我们严格地分析了算法的理论特性。我们的实验结果表明,所提出的解决方案的表现优于所有最新算法,即使对于大量簇,也可以很好地工作。
translated by 谷歌翻译
在聚类问题中,中央决策者通过顶点给出完整的公制图,并且必须提供最小化某些目标函数的顶点的聚类。在公平的聚类问题中,顶点以颜色(例如,组中的成员身份)赋予,并且有效群集的功能也可能包括该群集中的颜色的表示。在公平集群中的事先工作假设完全了解集团成员资格。在本文中,我们通过假设通过概率分配不完美了解集团成员资格的知识。我们在此具有近似率保证的更常规设置中呈现聚类算法。我们还解决了“公制成员资格”的问题,其中不同的群体的概念和距离。使用我们所提出的算法以及基线进行实验,以验证我们的方法,并且当组成员资格不确定时,验证我们的方法以及表面细微的问题。
translated by 谷歌翻译
在本文中,我们提出了一个自然的单个偏好(IP)稳定性的概念,该概念要求每个数据点平均更接近其自身集群中的点,而不是其他群集中的点。我们的概念可以从几个角度的动机,包括游戏理论和算法公平。我们研究了与我们提出的概念有关的几个问题。我们首先表明,确定给定数据集通常允许进行IP稳定的聚类通常是NP-HARD。结果,我们探索了在某些受限度量空间中查找IP稳定聚类的有效算法的设计。我们提出了一种poly Time算法,以在实际线路上找到满足精确IP稳定性的聚类,并有效地算法来找到针对树度量的IP稳定2聚类。我们还考虑放松稳定性约束,即,与其他任何集群相比,每个数据点都不应太远。在这种情况下,我们提供具有不同保证的多时间算法。我们在实际数据集上评估了一些算法和几种标准聚类方法。
translated by 谷歌翻译
随着机器学习变得普遍,减轻培训数据中存在的任何不公平性变得至关重要。在公平的各种概念中,本文的重点是众所周知的个人公平,该公平规定应该对类似的人进行类似的对待。虽然在训练模型(对处理)时可以提高个人公平性,但我们认为在模型培训(预处理)之前修复数据是一个更基本的解决方案。特别是,我们表明标签翻转是改善个人公平性的有效预处理技术。我们的系统IFLIPPER解决了限制了个人公平性违规行为的最小翻转标签的优化问题,当培训数据中的两个类似示例具有不同的标签时,发生违规情况。我们首先证明问题是NP-HARD。然后,我们提出了一种近似的线性编程算法,并提供理论保证其结果与标签翻转数量有关的结果与最佳解决方案有多近。我们还提出了使线性编程解决方案更加最佳的技术,而不会超过违规限制。实际数据集上的实验表明,在看不见的测试集的个人公平和准确性方面,IFLIPPER显着优于其他预处理基线。此外,IFLIPPER可以与处理中的技术结合使用,以获得更好的结果。
translated by 谷歌翻译
我们研究社会上公平$(\ ell_p,k)$的近似算法 - $ m $组的聚类问题,其特殊案例包括社会公平的$ k $ -Median($ p = 1 $)和社会公平的$ k $ - 均值($ p = 2 $)问题。我们提出(1)一个多项式时间$(5+2 \ sqrt {6})^p $ - approximation,最多$ k+m $中心(2)a $(5+2 \ sqrt {6}+\ \ \ \ \ \ \ \ \ \ \ \ \ \\ epsilon)^p $ - approximation with $ k $中心$ n^{2^{o(p)} \ cdot m^2} $,和(3)a $(15+6 \ sqrt {6}) ^p $ k $中心的时间$ k^{m} \ cdot \ text {poly}(n)$。第一个结果是通过使用一系列线性程序的迭代圆形方法的细化来获得的。后两个结果是通过将最多$ K+M $中心的解决方案转换为使用(2)的稀疏方法的$ K $中心的解决方案,并通过详尽的搜索(3)。我们还将算法的性能与现有的双色算法以及基准数据集中的$ K $中心近似算法的恰好比较,并发现我们的算法在实践中也优于现有方法。
translated by 谷歌翻译
最近的经验工作表明,即使所有广告商以非歧视性方式出价,在线广告也可以在用户交付广告时展示偏见。我们研究了广告拍卖的设计,鉴于公平的出价,保证有关展览会产生公平的结果。遵循DWORK和ILVENTO(2019)和CHAWLA等人的作品。 (2020年),我们的目标是设计一种真实的拍卖,这些拍卖会满足其结果的“个人公平”:非正式地说,相似彼此的用户应该获得类似的广告分配。在本框架内,我们量化了社会福利最大化和公平性之间的权衡。这项工作提出了两个概念贡献。首先,我们将公平约束表达为一种稳定条件:所有广告商的任何两个用户都分配了乘法相似的值,必须为每个广告商接受类似的相似分配。该值稳定性约束表示为函数,该函数将值向量之间的乘法距离映射到相应分配之间的最大允许$ \ {\ infty} $距离。标准拍卖不满足这种价值稳定性。其次,我们介绍了一个新的一类分配算法,称为反比例分配,实现公平和社会福利之间的近似最佳权衡,以实现广泛和表现力的价值稳定条件。这些分配算法是真实的,并且先前的,并且实现了最佳(无约会)社会福利的恒定因素近似。特别地,近似比与系统中的广告商的数量无关。在这方面,这些分配算法极大地超越了以前的工作中实现的保证。我们还将结果扩展到更广泛的公平概念,以至于我们称之为公平性。
translated by 谷歌翻译
基于中心的聚类(例如,$ k $ -means,$ k $ -Medians)和使用线性子空间的聚类是两种最受欢迎的技术,可以将真实数据分配到较小的群集中。但是,当数据由敏感人群组组成时,不同敏感组的每点的聚集成本显着不同,可能会导致与公平相关的危害(例如,服务质量不同)。社会公平聚类的目的是最大程度地降低所有组中每点聚类的最大成本。在这项工作中,我们提出了一个统一的框架,以解决社会公平的基于中心的聚类和线性子空间聚类,并为这些问题提供实用,高效的近似算法。我们进行了广泛的实验,以表明在多个基准数据集上,我们的算法要么紧密匹配或超越最先进的基线。
translated by 谷歌翻译
多样性最大化是数据汇总,Web搜索和推荐系统中广泛应用的基本问题。给定$ n $元素的$ x $元素,它要求选择一个$ k \ ll n $元素的子集$ s $,具有最大\ emph {多样性},这是由$ s $中元素之间的差异量化的。在本文中,我们关注流媒体环境中公平限制的多样性最大化问题。具体而言,我们考虑了最大值的多样性目标,该目标选择了一个子集$ s $,该子集$ s $最大化了其中任何一对不同元素之间的最小距离(不同)。假设集合$ x $通过某些敏感属性(例如性别或种族)将$ m $ discoint组分为$ m $ discoint组,确保\ emph {fairness}要求所选的子集$ s $包含每个组$ i的$ k_i $ e元素\在[1,m] $中。流算法应在一个通过中顺序处理$ x $,并返回具有最大\ emph {多样性}的子集,同时保证公平约束。尽管对多样性的最大化进行了广泛的研究,但唯一可以与最大值多样性目标和公平性约束的唯一已知算法对数据流非常低效。由于多样性最大化通常是NP-HARD,因此我们提出了两个在数据流中最大化的公平多样性的近似算法,其中第一个是$ \ frac {1- \ varepsilon} {4} {4} $ - 近似于$ m = 2 $,其中$ \ varepsilon \ in(0,1)$,第二个实现了$ \ frac {1- \ varepsilon} {3m+2} $ - 任意$ m $的近似值。现实世界和合成数据集的实验结果表明,两种算法都提供了与最新算法相当的质量解决方案,同时在流式设置中运行多个数量级。
translated by 谷歌翻译
相关聚类是无监督的机器学习中无处不在的范式,在这种学习中解决不公平是一个主要的挑战。在此激励的情况下,我们研究了数据点可能属于不同保护组的公平相关聚类,目标是确保跨簇的所有组公平代表。我们的论文显着概括并改善了Ahmadi等人先前工作的质量保证。和Ahmadian等。如下。 - 我们允许用户指定群集中每个组表示的任意上限。 - 我们的算法允许个人具有多个受保护的功能,并确保所有这些特征同时公平。 - 我们证明,在这种一般环境中,可以保证质量和公平性。此外,这改善了先前工作中研究的特殊情况的结果。我们对现实世界数据的实验表明,与最佳解决方案相比,我们的聚类质量要比理论结果所建议的要好得多。
translated by 谷歌翻译
本文展示了如何适应$ k $ -MEANS问题的几种简单和经典的基于采样的算法,以使用离群值设置。最近,Bhaskara等人。 (Neurips 2019)展示了如何将古典$ K $ -MEANS ++算法适应与异常值的设置。但是,他们的算法需要输出$ o(\ log(k)\ cdot z)$ outiers,其中$ z $是true Outliers的数量,以匹配$ o(\ log k)$ - 近似值的$ k的近似保证$ -Means ++。在本文中,我们以他们的想法为基础,并展示了如何适应几个顺序和分布式的$ k $ - 均值算法,但使用离群值来设置,但具有更强的理论保证:我们的算法输出$(1+ \ VAREPSILON)z $ OUTLIERS Z $ OUTLIERS在实现$ o(1 / \ varepsilon)$ - 近似目标函数的同时。在顺序世界中,我们通过改编Lattanzi和Sohler的最新算法来实现这一目标(ICML 2019)。在分布式设置中,我们适应了Guha等人的简单算法。 (IEEE Trans。知道和数据工程2003)以及Bahmani等人的流行$ K $ -Means $ \ | $。 (PVLDB 2012)。我们技术的理论应用是一种具有运行时间$ \ tilde {o}(nk^2/z)$的算法,假设$ k \ ll z \ ll n $。这与Omacle模型中此问题的$ \ Omega(NK^2/z)$的匹配下限相互补。
translated by 谷歌翻译
本文考虑了在分解正常形式(DNF,ANDS的DNF,ANDS,相当于判定规则集)或联合正常形式(CNF,ORS)作为分类模型的联合正常形式的学习。为规则简化,将整数程序配制成最佳贸易分类准确性。我们还考虑公平设定,并扩大制定,以包括对两种不同分类措施的明确限制:机会平等和均等的赔率。列生成(CG)用于有效地搜索候选条款(连词或剖钉)的指数数量,而不需要启发式规则挖掘。此方法还会绑定所选规则集之间的间隙和培训数据上的最佳规则集。要处理大型数据集,我们建议使用随机化的近似CG算法。与三个最近提出的替代方案相比,CG算法主导了16个数据集中的8个中的精度简单折衷。当最大限度地提高精度时,CG与为此目的设计的规则学习者具有竞争力,有时发现明显更简单的解决方案,这些解决方案不太准确。与其他公平和可解释的分类器相比,我们的方法能够找到符合较严格的公平概念的规则集,以适度的折衷准确性。
translated by 谷歌翻译
我们介绍了$(p,q)$ - 公平集群问题。在这个问题中,我们给出了一组点数$ p $和不同重量函数的集合$ w $。我们想找到一个群集,最小化$ \ ell_q $ -norm的$ \ ell_p $-norm的$ \ ell_p $ -norms的$ p $从中心。这概括了各种聚类问题,包括社会博览会$ k $ -Median和$ k $ - emeans,并且与其他问题紧密相连,如Densest $ K $ -subgraph和Min $ K $ -Union。我们利用凸编程技术来估计$(p,q)$ - 为$ p $和$ q $的不同价值观达到公平的聚类问题。当$ p \ geq q $时,我们得到$ o(k ^ {(pq)/(2pq)})$,它几乎匹配$ k ^ {\ omega((pq)/(pq))} $低于基于Min $ K $ -Union和其他问题的猜想硬度的束缚。当$ q \ geq p $时,我们得到一个近似,它与界限$ p,q $的输入的大小无关,也与最近的$ o相匹配((\ log n /(\ log \ log n)) ^ {1 / p})$ - $(p,\ infty)$ - makarychev和vakilian(colt 2021)的公平聚类。
translated by 谷歌翻译
The research area of algorithms with predictions has seen recent success showing how to incorporate machine learning into algorithm design to improve performance when the predictions are correct, while retaining worst-case guarantees when they are not. Most previous work has assumed that the algorithm has access to a single predictor. However, in practice, there are many machine learning methods available, often with incomparable generalization guarantees, making it hard to pick a best method a priori. In this work we consider scenarios where multiple predictors are available to the algorithm and the question is how to best utilize them. Ideally, we would like the algorithm's performance to depend on the quality of the best predictor. However, utilizing more predictions comes with a cost, since we now have to identify which prediction is the best. We study the use of multiple predictors for a number of fundamental problems, including matching, load balancing, and non-clairvoyant scheduling, which have been well-studied in the single predictor setting. For each of these problems we introduce new algorithms that take advantage of multiple predictors, and prove bounds on the resulting performance.
translated by 谷歌翻译
光谱聚类在从业者和理论家中都很受欢迎。尽管对光谱聚类的性能保证有充分的了解,但最近的研究集中于在群集中执行``公平'',要求它们在分类敏感的节点属性方面必须``平衡''人口中的种族分布)。在本文中,我们考虑了一个设置,其中敏感属性间接表现在辅助\ textit {表示图}中,而不是直接观察到。该图指定了可以相对于敏感属性互相表示的节点对,除了通常的\ textit {相似性图}外,还可以观察到。我们的目标是在相似性图中找到簇,同时尊重由表示图编码的新个人公平性约束。我们为此任务开发了不均衡和归一化光谱聚类的变体,并在代表图诱导的种植分区模型下分析其性能。该模型同时使用节点的群集成员身份和表示图的结构来生成随机相似性图。据我们所知,这些是在个人级别的公平限制下受约束光谱聚类的第一个一致性结果。数值结果证实了我们的理论发现。
translated by 谷歌翻译
最近已扩展了最小方形聚类(MSSC)或K-均值类型聚类的最小总和,以利用每个群集的基数的先验知识。这种知识用于提高性能以及解决方案质量。在本文中,我们提出了一种基于分支和切割技术的精确方法,以解决基数受限的MSSC。对于下边界的例程,我们使用Rujeerapaiboon等人最近提出的半决赛编程(SDP)放松。 [Siam J. Optim。 29(2),1211-1239,(2019)]。但是,这种放松只能用于小型实例中的分支和切割方法。因此,我们得出了一种新的SDP松弛,该松弛随着实例大小和簇的数量更好。在这两种情况下,我们都通过添加多面体切割来增强结合。从量身定制的分支策略中受益,该策略会实施成对的约束,我们减少了儿童节点中出现的问题的复杂性。相反,对于上限,我们提出了一个本地搜索过程,该过程利用在每个节点上求解的SDP松弛的解。计算结果表明,所提出的算法在全球范围内首次求解了大小的现实实例,比通过最新精确方法求解的算法大10倍。
translated by 谷歌翻译
The most prevalent notions of fairness in machine learning are statistical definitions: they fix a small collection of high-level, pre-defined groups (such as race or gender), and then ask for approximate parity of some statistic of the classifier (like positive classification rate or false positive rate) across these groups. Constraints of this form are susceptible to (intentional or inadvertent) fairness gerrymandering, in which a classifier appears to be fair on each individual group, but badly violates the fairness constraint on one or more structured subgroups defined over the protected attributes (such as certain combinations of protected attribute values). We propose instead to demand statistical notions of fairness across exponentially (or infinitely) many subgroups, defined by a structured class of functions over the protected attributes. This interpolates between statistical definitions of fairness, and recently proposed individual notions of fairness, but it raises several computational challenges. It is no longer clear how to even check or audit a fixed classifier to see if it satisfies such a strong definition of fairness. We prove that the computational problem of auditing subgroup fairness for both equality of false positive rates and statistical parity is equivalent to the problem of weak agnostic learning -which means it is computationally hard in the worst case, even for simple structured subclasses. However, it also suggests that common heuristics for learning can be applied to successfully solve the auditing problem in practice.We then derive two algorithms that provably converge to the best fair distribution over classifiers in a given class, given access to oracles which can optimally solve the agnostic learning problem. The algorithms are based on a formulation of subgroup fairness as a two-player zero-sum game between a Learner (the primal player) and an Auditor (the dual player). Both algorithms compute an equilibrium of this game. We obtain our first algorithm by simulating play of the game by having Learner play an instance of the no-regret Follow the Perturbed Leader algorithm, and having Auditor play best response. This algorithm provably converges to an approximate Nash equilibrium (and thus to an approximately optimal subgroup-fair distribution over classifiers) in a polynomial number of steps. We obtain our second algorithm by simulating play of the game by having both players play Fictitious Play, which enjoys only provably asymptotic convergence, but has the merit of simplicity and faster per-step computation. We implement the Fictitious Play version using linear regression as a heuristic oracle, and show that we can effectively both audit and learn fair classifiers on real datasets.
translated by 谷歌翻译
腔是总结数据的最受欢迎的范例之一。特别是,存在许多用于聚类问题的高性能核心,例如理论和实践中的$ k $ - 均值。奇怪的是,没有进行比较可用$ k $ - 均值核心的质量的工作。在本文中,我们进行了这样的评估。目前尚无算法来测量候选核心的失真。我们提供了一些证据,表明为什么这可能在计算上很难。为了补充这一点,我们提出了一个基准,我们认为计算核心具有挑战性,这也使我们对核心的评估很容易(启发式)评估。使用此基准和现实世界数据集,我们对理论和实践中最常用的核心算法进行了详尽的评估。
translated by 谷歌翻译
Originally, tangles were invented as an abstract tool in mathematical graph theory to prove the famous graph minor theorem. In this paper, we showcase the practical potential of tangles in machine learning applications. Given a collection of cuts of any dataset, tangles aggregate these cuts to point in the direction of a dense structure. As a result, a cluster is softly characterized by a set of consistent pointers. This highly flexible approach can solve clustering problems in various setups, ranging from questionnaires over community detection in graphs to clustering points in metric spaces. The output of our proposed framework is hierarchical and induces the notion of a soft dendrogram, which can help explore the cluster structure of a dataset. The computational complexity of aggregating the cuts is linear in the number of data points. Thus the bottleneck of the tangle approach is to generate the cuts, for which simple and fast algorithms form a sufficient basis. In our paper we construct the algorithmic framework for clustering with tangles, prove theoretical guarantees in various settings, and provide extensive simulations and use cases. Python code is available on github.
translated by 谷歌翻译
我们在$ d $ dimensional Euclidean Space中研究私人$ k $ -Median和$ k $ -means聚集问题。通过利用树的嵌入,我们提供了一种有效且易于实现的算法,该算法在非私人方法的经验上具有竞争力。我们证明我们的方法计算一个最多$ o(d^{3/2} \ log n)\ cdot opt + o(k d^2 \ log^2 n / \ epsilon^2)$的解决方案,其中$ \ Epsilon $是隐私担保。 (使用标准尺寸缩小技术可以用$ o(\ log k)$替换尺寸项,$ d $。)尽管最坏的案例保证比最先进的私人聚类方法的状态更糟糕,但算法是我们建议是实用的,以接近线性的方式运行,$ \ tilde {o}(nkd)$,时间和比例为数千万分。我们还表明,我们的方法适合在大规模分布式计算环境中并行化。特别是我们表明,我们的私人算法可以在sublinear内存制度中的对数MPC弹奏数中实现。最后,我们通过经验评估来补充理论分析,证明了该算法与其他隐私聚类基线相比的效率和准确性。
translated by 谷歌翻译
Graph clustering is a fundamental problem in unsupervised learning, with numerous applications in computer science and in analysing real-world data. In many real-world applications, we find that the clusters have a significant high-level structure. This is often overlooked in the design and analysis of graph clustering algorithms which make strong simplifying assumptions about the structure of the graph. This thesis addresses the natural question of whether the structure of clusters can be learned efficiently and describes four new algorithmic results for learning such structure in graphs and hypergraphs. All of the presented theoretical results are extensively evaluated on both synthetic and real-word datasets of different domains, including image classification and segmentation, migration networks, co-authorship networks, and natural language processing. These experimental results demonstrate that the newly developed algorithms are practical, effective, and immediately applicable for learning the structure of clusters in real-world data.
translated by 谷歌翻译