The fair-ranking problem, which asks to rank a given set of items to maximize utility subject to group fairness constraints, has received attention in the fairness, information retrieval, and machine learning literature. Recent works, however, observe that errors in socially-salient (including protected) attributes of items can significantly undermine fairness guarantees of existing fair-ranking algorithms and raise the problem of mitigating the effect of such errors. We study the fair-ranking problem under a model where socially-salient attributes of items are randomly and independently perturbed. We present a fair-ranking framework that incorporates group fairness requirements along with probabilistic information about perturbations in socially-salient attributes. We provide provable guarantees on the fairness and utility attainable by our framework and show that it is information-theoretically impossible to significantly beat these guarantees. Our framework works for multiple non-disjoint attributes and a general class of fairness constraints that includes proportional and equal representation. Empirically, we observe that, compared to baselines, our algorithm outputs rankings with higher fairness, and has a similar or better fairness-utility trade-off compared to baselines.
translated by 谷歌翻译
我们在禁用的对手存在下研究公平分类,允许获得$ \ eta $,选择培训样本的任意$ \ eta $ -flaction,并任意扰乱受保护的属性。由于战略误报,恶意演员或归责的错误,受保护属性可能不正确的设定。和现有的方法,使随机或独立假设对错误可能不满足其在这种对抗环境中的保证。我们的主要贡献是在这种对抗的环境中学习公平分类器的优化框架,这些普遍存在的准确性和公平性提供了可证明的保证。我们的框架适用于多个和非二进制保护属性,专为大类线性分数公平度量设计,并且还可以处理除了受保护的属性之外的扰动。我们证明了我们框架的近密性,对自然假设类别的保证:没有算法可以具有明显更好的准确性,并且任何具有更好公平性的算法必须具有较低的准确性。凭经验,我们评估了我们对统计率的统计税务统计税率为一个对手的统计税率产生的分类机。
translated by 谷歌翻译
在招聘,晋升和大学录取等选择过程中,众所周知,候选人的种族,性别或性取向等社会质量属性的隐性偏见会造成持久的不平等,并减少决策者的总效用。已经提出了诸如鲁尼规则及其概括之类的干预措施,这些干预措施要求决策者至少选择每个受影响组的指定数量的个体,以减轻隐性偏见在选择中的不利影响。最近的工作已经确定,在每个人最多属于一个受影响的群体的情况下,这种较低的约束对于改善总效用可能非常有效。但是,在某些情况下,个人可能属于多个受影响的群体,因此,由于这种交叉性,面临更大的隐含偏见。我们考虑独立绘制的实用程序,并表明在相交的情况下,上述非交流约束只能在没有隐性偏见的情况下恢复可实现的总效用的一部分。另一方面,我们表明,如果一个人在交叉点上包含适当的下限约束,那么在没有隐式偏见的情况下,几乎所有实用程序都可以恢复。因此,相交的约束可以比减少尺寸的非相互作用方法可提供显着优势,以减少不平等。
translated by 谷歌翻译
在本文中,我们采用一种公理方法来定义满足一组一致性和公平公理的随机组排名。我们表明,这导致了通过合并来自不同敏感人群组的给定排名列表的排名,同时满足了最高等级中每个组的表示下限和上限,从而导致了唯一的分布$ \ MATHCAL {D} $。与确定性排名相比,随机或随机排名在最近的文献中引起了人们的关注。即使存在隐式偏见,不完整的相关信息,或者只有序数排名而不是相关性分数或实用程序值,我们的问题公式即使有效。我们提出了三种算法,以从上面提到的分布$ \ mathcal {d} $中采样一个随机的集体排名。我们的第一个算法样本排名从分配$ \ epsilon $ -close到$ \ nathcal {d} $的总变化距离,并且在所有输入参数中都在运行时间多项式,而$ 1/\ epsilon $,有足够的差距在所有组的上限和下限表示约束之间。我们的第二个算法示例从$ \ Mathcal {d} $恰好在组数量的时间指数中排名。我们的第三个算法从$ \ mathcal {d} $恰好从$ \ mathcal {d} $示例随机组公平排名,并且当每个组的上限和下限之间的差距很小时,比第一个算法更快。我们在实验中验证了上述算法的上述保证,该算法在最高排名中的群体公平性和现实世界数据集的每个等级中的代表性。
translated by 谷歌翻译
我们研究了在存在$ \ epsilon $ - 对抗异常值的高维稀疏平均值估计的问题。先前的工作为此任务获得了该任务的样本和计算有效算法,用于辅助性Subgaussian分布。在这项工作中,我们开发了第一个有效的算法,用于强大的稀疏平均值估计,而没有对协方差的先验知识。对于$ \ Mathbb r^d $上的分布,带有“认证有限”的$ t $ tum-矩和足够轻的尾巴,我们的算法达到了$ o(\ epsilon^{1-1/t})$带有样品复杂性$的错误(\ epsilon^{1-1/t}) m =(k \ log(d))^{o(t)}/\ epsilon^{2-2/t} $。对于高斯分布的特殊情况,我们的算法达到了$ \ tilde o(\ epsilon)$的接近最佳错误,带有样品复杂性$ m = o(k^4 \ mathrm {polylog}(d)(d))/\ epsilon^^ 2 $。我们的算法遵循基于方形的总和,对算法方法的证明。我们通过统计查询和低度多项式测试的下限来补充上限,提供了证据,表明我们算法实现的样本时间 - 错误权衡在质量上是最好的。
translated by 谷歌翻译
机器学习中的歧视通常沿多个维度(又称保护属性)出现;因此,希望确保\ emph {交叉公平} - 即,没有任何子组受到歧视。众所周知,确保\ emph {边际公平}对于每个维度而言,独立不够。但是,由于亚组的指数数量,直接测量数据交叉公平性是不可能的。在本文中,我们的主要目标是通过统计分析详细了解边际和交叉公平之间的关系。我们首先确定一组足够的条件,在这些条件下可以获得确切的关系。然后,在一般情况下,我们证明了相交公平性的高概率的界限(通过边际公平和其他有意义的统计量很容易计算)。除了它们的描述价值之外,我们还可以利用这些理论界限来得出一种启发式,从而通过以相关的方式选择了我们描述相交子组的保护属性来改善交叉公平的近似和边界。最后,我们测试了实际和合成数据集的近似值和界限的性能。
translated by 谷歌翻译
The most prevalent notions of fairness in machine learning are statistical definitions: they fix a small collection of high-level, pre-defined groups (such as race or gender), and then ask for approximate parity of some statistic of the classifier (like positive classification rate or false positive rate) across these groups. Constraints of this form are susceptible to (intentional or inadvertent) fairness gerrymandering, in which a classifier appears to be fair on each individual group, but badly violates the fairness constraint on one or more structured subgroups defined over the protected attributes (such as certain combinations of protected attribute values). We propose instead to demand statistical notions of fairness across exponentially (or infinitely) many subgroups, defined by a structured class of functions over the protected attributes. This interpolates between statistical definitions of fairness, and recently proposed individual notions of fairness, but it raises several computational challenges. It is no longer clear how to even check or audit a fixed classifier to see if it satisfies such a strong definition of fairness. We prove that the computational problem of auditing subgroup fairness for both equality of false positive rates and statistical parity is equivalent to the problem of weak agnostic learning -which means it is computationally hard in the worst case, even for simple structured subclasses. However, it also suggests that common heuristics for learning can be applied to successfully solve the auditing problem in practice.We then derive two algorithms that provably converge to the best fair distribution over classifiers in a given class, given access to oracles which can optimally solve the agnostic learning problem. The algorithms are based on a formulation of subgroup fairness as a two-player zero-sum game between a Learner (the primal player) and an Auditor (the dual player). Both algorithms compute an equilibrium of this game. We obtain our first algorithm by simulating play of the game by having Learner play an instance of the no-regret Follow the Perturbed Leader algorithm, and having Auditor play best response. This algorithm provably converges to an approximate Nash equilibrium (and thus to an approximately optimal subgroup-fair distribution over classifiers) in a polynomial number of steps. We obtain our second algorithm by simulating play of the game by having both players play Fictitious Play, which enjoys only provably asymptotic convergence, but has the merit of simplicity and faster per-step computation. We implement the Fictitious Play version using linear regression as a heuristic oracle, and show that we can effectively both audit and learn fair classifiers on real datasets.
translated by 谷歌翻译
Omnipredictors(Gopalan,Kalai,Reingold,Sharan和Wieder ITCS 2021)的概念提出了一种新的损失最小化范式。与损失损失$ c $相比,无需基于已知的损失功能学习预测指标,而是可以轻松地进行后处理以最大程度地减少任何丰富的损失功能家族。已经表明,这种杂手已经存在,并暗示(对于所有凸和Lipschitz损失函数),通过算法公平文献的多核概念的概念。然而,通常情况下,所选的动作必须遵守一些其他约束(例如能力或奇偶校验约束)。总体而言,全能器的原始概念并不适用于这种良好动机和大量研究的损失最小化的背景。在本文中,我们介绍了综合器,以进行约束优化并研究其复杂性和含义。我们介绍的概念使学习者不知道后来将分配的损失函数以及后来将施加的约束,只要已知用于定义这些约束的亚群的范围。该论文显示了如何依靠适当的多核变体获得限制优化问题的全能器。对于一些有趣的约束和一般损失函数以及一般约束和一些有趣的损失函数,我们显示了如何通过多核的变体隐含的,该变体的复杂性与标准的多核电相似。我们证明,在一般情况下,标准的数学启动不足,表明全能器是通过相对于包含$ c $中所有级别假设集的类的多核算来暗示的。我们还研究了约束是群体公平概念时的含义。
translated by 谷歌翻译
In this work, we give efficient algorithms for privately estimating a Gaussian distribution in both pure and approximate differential privacy (DP) models with optimal dependence on the dimension in the sample complexity. In the pure DP setting, we give an efficient algorithm that estimates an unknown $d$-dimensional Gaussian distribution up to an arbitrary tiny total variation error using $\widetilde{O}(d^2 \log \kappa)$ samples while tolerating a constant fraction of adversarial outliers. Here, $\kappa$ is the condition number of the target covariance matrix. The sample bound matches best non-private estimators in the dependence on the dimension (up to a polylogarithmic factor). We prove a new lower bound on differentially private covariance estimation to show that the dependence on the condition number $\kappa$ in the above sample bound is also tight. Prior to our work, only identifiability results (yielding inefficient super-polynomial time algorithms) were known for the problem. In the approximate DP setting, we give an efficient algorithm to estimate an unknown Gaussian distribution up to an arbitrarily tiny total variation error using $\widetilde{O}(d^2)$ samples while tolerating a constant fraction of adversarial outliers. Prior to our work, all efficient approximate DP algorithms incurred a super-quadratic sample cost or were not outlier-robust. For the special case of mean estimation, our algorithm achieves the optimal sample complexity of $\widetilde O(d)$, improving on a $\widetilde O(d^{1.5})$ bound from prior work. Our pure DP algorithm relies on a recursive private preconditioning subroutine that utilizes the recent work on private mean estimation [Hopkins et al., 2022]. Our approximate DP algorithms are based on a substantial upgrade of the method of stabilizing convex relaxations introduced in [Kothari et al., 2022].
translated by 谷歌翻译
我们给出了第一个多项式算法来估计$ d $ -variate概率分布的平均值,从$ \ tilde {o}(d)$独立的样本受到纯粹的差异隐私的界限。此问题的现有算法无论是呈指数运行时间,需要$ \ OMEGA(D ^ {1.5})$样本,或仅满足较弱的集中或近似差分隐私条件。特别地,所有先前的多项式算法都需要$ d ^ {1+ \ omega(1)} $ samples,以保证“加密”高概率,1-2 ^ { - d ^ {\ omega(1) $,虽然我们的算法保留$ \ tilde {o}(d)$ SAMPS复杂性即使在此严格设置中也是如此。我们的主要技术是使用强大的方块方法(SOS)来设计差异私有算法的新方法。算法的证据是在高维算法统计数据中的许多近期作品中的一个关键主题 - 显然需要指数运行时间,但可以通过低度方块证明可以捕获其分析可以自动变成多项式 - 时间算法具有相同的可证明担保。我们展示了私有算法的类似证据现象:工作型指数机制的实例显然需要指数时间,但可以用低度SOS样张分析的指数时间,可以自动转换为多项式差异私有算法。我们证明了捕获这种现象的元定理,我们希望在私人算法设计中广泛使用。我们的技术还在高维度之间绘制了差异私有和强大统计数据之间的新连接。特别是通过我们的校验算法镜头来看,几次研究的SOS证明在近期作品中的算法稳健统计中直接产生了我们差异私有平均估计算法的关键组成部分。
translated by 谷歌翻译
We study the relationship between adversarial robustness and differential privacy in high-dimensional algorithmic statistics. We give the first black-box reduction from privacy to robustness which can produce private estimators with optimal tradeoffs among sample complexity, accuracy, and privacy for a wide range of fundamental high-dimensional parameter estimation problems, including mean and covariance estimation. We show that this reduction can be implemented in polynomial time in some important special cases. In particular, using nearly-optimal polynomial-time robust estimators for the mean and covariance of high-dimensional Gaussians which are based on the Sum-of-Squares method, we design the first polynomial-time private estimators for these problems with nearly-optimal samples-accuracy-privacy tradeoffs. Our algorithms are also robust to a constant fraction of adversarially-corrupted samples.
translated by 谷歌翻译
公平性是在算法决策中的重要考虑因素。当具有较高优异的代理人获得比具有较低优点的试剂更差的代理人时,发生不公平。我们的中心点是,不公平的主要原因是不确定性。制定决策的主体或算法永远无法访问代理的真实优点,而是使用仅限于不完全预测优点的代理功能(例如,GPA,星形评级,推荐信)。这些都没有完全捕捉代理人的优点;然而,现有的方法主要基于观察到的特征和结果直接定义公平概念。我们的主要观点是明确地承认和模拟不确定性更为原则。观察到的特征的作用是产生代理商的优点的后部分布。我们使用这个观点来定义排名中近似公平的概念。我们称之为algorithm $ \ phi $ -fair(对于$ \ phi \ in [0,1] $)如果它具有以下所有代理商$ x $和所有$ k $:如果代理商$ x $最高$ k $代理以概率至少为$ \ rho $(根据后部优点分配),那么该算法将代理商在其排名中以概率排名,至少$ \ phi \ rho $。我们展示了如何计算最佳地互惠对校长进行近似公平性的排名。除了理论表征外,我们还提出了对模拟研究中的方法的潜在影响的实证分析。对于真实世界的验证,我们在纸质建议系统的背景下应用了这种方法,我们在KDD 2020会议上建立和界定。
translated by 谷歌翻译
公司跨行业对机器学习(ML)的快速传播采用了重大的监管挑战。一个这样的挑战就是可伸缩性:监管机构如何有效地审核这些ML模型,以确保它们是公平的?在本文中,我们启动基于查询的审计算法的研究,这些算法可以以查询有效的方式估算ML模型的人口统计学率。我们提出了一种最佳的确定性算法,以及具有可比保证的实用随机,甲骨文效率的算法。此外,我们进一步了解了随机活动公平估计算法的最佳查询复杂性。我们对主动公平估计的首次探索旨在将AI治理置于更坚定的理论基础上。
translated by 谷歌翻译
针对社会福利计划中个人的干预措施的主要问题之一是歧视:个性化治疗可能导致跨年龄,性别或种族等敏感属性的差异。本文解决了公平有效的治疗分配规则的设计问题。我们采用了第一次的非遗憾视角,没有危害:我们选择了帕累托边境中最公平的分配。我们将优化投入到混合构成线性程序公式中,可以使用现成的算法来解决。我们对估计的政策功能的不公平性和在帕累托前沿的不公平保证在一般公平概念下的不公平性范围内得出了遗憾。最后,我们使用教育经济学的应用来说明我们的方法。
translated by 谷歌翻译
学习 - 排名问题旨在排名,以最大限度地曝光与用户查询相关的那些。这种排名系统的理想特性是保证指定项目组之间的一些公平概念。虽然最近在学习排名系统的背景下审议了公平性,但目前的方法无法提供拟议的排名政策的公平性的担保。本文解决了这一差距,并介绍了智能预测,并优化了公平排名(SPOFR),综合优化和学习框架,以便进行公平受限学习。端到端的SPOFR框架包括受约束的优化子模型,并产生保证的排名策略,以满足公平限制,同时允许对公平实用权概况进行精细控制。SPOFR显示出在既定的性能指标方面显着提高当前最先进的公平学习系统。
translated by 谷歌翻译
在聚类问题中,中央决策者通过顶点给出完整的公制图,并且必须提供最小化某些目标函数的顶点的聚类。在公平的聚类问题中,顶点以颜色(例如,组中的成员身份)赋予,并且有效群集的功能也可能包括该群集中的颜色的表示。在公平集群中的事先工作假设完全了解集团成员资格。在本文中,我们通过假设通过概率分配不完美了解集团成员资格的知识。我们在此具有近似率保证的更常规设置中呈现聚类算法。我们还解决了“公制成员资格”的问题,其中不同的群体的概念和距离。使用我们所提出的算法以及基线进行实验,以验证我们的方法,并且当组成员资格不确定时,验证我们的方法以及表面细微的问题。
translated by 谷歌翻译
在线学习通常需要探索以最大程度地提高长期奖励,但这是以短期“遗憾”为代价的。我们研究如何在多个小组之间分担这种探索成本。例如,在临床试验环境中,分配了亚最佳治疗的患者有效地产生了勘探成本。当患者根据种族或年龄与自然群体相关联时,自然要问任何单一群体所承担的探索成本是否“公平”。如此有动力,我们介绍了“分组”的强盗模型。我们利用公理讨价还价的理论,尤其是纳什议价解决方案,以形式化可能构成跨群体勘探成本的公平分裂的方式。一方面,我们表明,任何遗憾的政策都引起了最不公平的结果:此类政策将在可能的情况下传递最“处于弱势”的群体。更具建设性的方式,我们得出了最佳公平且同时享受“公平价格”的政策。我们通过对华法林剂量的上下文匪徒进行案例研究来说明我们的算法框架的相对优点,我们关注多个种族和年龄段的探索成本。
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
我们在分类的背景下研究公平,其中在接收器的曲线下的区域(AUC)下的区域测量的性能。当I型(误报)和II型(假阴性)错误都很重要时,通常使用AUC。然而,相同的分类器可以针对不同的保护组具有显着变化的AUC,并且在现实世界中,通常希望减少这种交叉组差异。我们解决如何选择其他功能,以便最大地改善弱势群体的AUC。我们的结果表明,功能的无条件方差不会通知我们关于AUC公平,而是类条件方差。使用此连接,我们基于功能增强(添加功能)来开发一种新颖的方法Fairauc,以减轻可识别组之间的偏差。我们评估综合性和现实世界(Compas)数据集的Fairauc,并发现它对于相对于基准,最大限度地提高了总体AUC并最大限度地减少了组之间的偏见的基准,它显着改善了弱势群体的AUC。
translated by 谷歌翻译
我们展示了如何采用回归函数$ \ hat {f} $,该{f} $适当地``多校准''并有效地将其后处理成近似错误的分类器,使分类器满足各种公平限制。后处理不需要标记的数据,只有一定数量的未标记数据和计算。计算$ \ hat f $的计算和样本复杂性要求与解决单个公平学习任务的要求相媲美,但实际上可以用来有效地解决许多不同的下游公平约束的学习问题。我们的后处理方法可以轻松处理相交组,从而将先前的工作推广到后处理回归功能上,以满足仅应用于分离组的公平约束。我们的工作扩展了最近的工作,表明多校准的回归函数是``omnipredictors''(即可以在后处理以最佳解决无约束的ERM问题)以进行约束优化。
translated by 谷歌翻译