Given an algorithmic predictor that is "fair" on some source distribution, will it still be fair on an unknown target distribution that differs from the source within some bound? In this paper, we study the transferability of statistical group fairness for machine learning predictors (i.e., classifiers or regressors) subject to bounded distribution shifts. Such shifts may be introduced by initial training data uncertainties, user adaptation to a deployed predictor, dynamic environments, or the use of pre-trained models in new settings. Herein, we develop a bound that characterizes such transferability, flagging potentially inappropriate deployments of machine learning for socially consequential tasks. We first develop a framework for bounding violations of statistical fairness subject to distribution shift, formulating a generic upper bound for transferred fairness violations as our primary result. We then develop bounds for specific worked examples, focusing on two commonly used fairness definitions (i.e., demographic parity and equalized odds) and two classes of distribution shift (i.e., covariate shift and label shift). Finally, we compare our theoretical bounds to deterministic models of distribution shift and against real-world data, finding that we are able to estimate fairness violation bounds in practice, even when simplifying assumptions are only approximately satisfied.
translated by 谷歌翻译
实际和公平地建模机器学习中型群体差距的动态仍然是一个公开问题。特别是,我们渴望不假设人工群体之间固有的差异的模型 - 而是通过上诉对绝大群体的不平等初始条件的吸引力来实现差异。在本文中,每个代理商都有一个真实值的特征$ x $(例如,信用评分),通过“真实”二进制标签$ Y $代表资格(例如,贷款)。每个代理商交替(1)从贝贝斯 - 最佳机器学习分类器中接收二进制分类标签$ \ hat {y} $(例如,贷款批准)观察$ x $和(2)可以通过模仿成功更新他们的资格资格$ y $在孤立的群体中,策略(例如,寻求提升)他们所属的代理商。我们考虑在不同群体之间的资格率$ \ pr(y = 1)$之间的差异以及这种差异变化如何受到一系列贝叶斯 - 最佳分类器,在全球人口上反复培训。我们使用复制器方程来模拟每个亚父舒膏(组)的演变资格率,它来自一类模仿过程。我们表明,由于均匀的分类器部署,亚步骤之间的资格率之间的差异可能持续到一组非琐碎的均衡状态,即使在除初始资格密度除外的各个方面,群体在所有方面相同。我们接下来模拟常见的公平干预措施对该动态系统的效果以及能够永久消除群级资格差距的新反馈控制机制。我们通过讨论模型和调查结果的局限性以及概述潜在的未来工作来结束。
translated by 谷歌翻译
本文研究了当人类决策受试者对部署的机器学习模型做出反应时的转让性。在我们的设置中,代理或用户对应于从分发$ \ Mathcal {d} $中绘制的示例$(x,y)$,并将面对型号$ h $,其分类结果$ h(x)$。代理商可以修改$ x $以适应$ h $,这将导致$(x,y)$的分销变化。因此,当培训$ H $时,学习者将需要考虑部署输出模型时随后的``诱发''分布。我们的表述是由部署的机器学习模型与人类代理相互作用的应用程序的动机,并最终将面临响应式和交互式数据分布。我们通过研究如何在可用源分布(数据)上训练的模型将模型的可传递性进行正式讨论,将转化为诱导域的性能。由于诱导的域移位,我们为性能差距提供了上限,以及分类器必须在源训练分布或诱导的目标分布上遭受的权衡方面的下限。我们为两个流行的域适应设置提供了进一步的实例化分析,并具有协变量转移和目标转移。
translated by 谷歌翻译
在高赌注域中的机器学习工具的实际应用通常被调节为公平,因此预测目标应该满足相对于受保护属性的奇偶校验的一些定量概念。然而,公平性和准确性之间的确切权衡并不完全清楚,即使是对分类问题的基本范式也是如此。在本文中,我们通过在任何公平分类器的群体误差之和中提供较低的界限,在分类设置中表征统计奇偶校验和准确性之间的固有权衡。我们不可能的定理可以被解释为公平的某种不确定性原则:如果基本率不同,那么符合统计奇偶校验的任何公平分类器都必须在至少一个组中产生很大的错误。我们进一步扩展了这一结果,以便在学习公平陈述的角度下给出任何(大约)公平分类者的联合误差的下限。为了表明我们的下限是紧张的,假设Oracle访问贝叶斯(潜在不公平)分类器,我们还构造了一种返回一个随机分类器的算法,这是最佳和公平的。有趣的是,当受保护的属性可以采用超过两个值时,这个下限的扩展不承认分析解决方案。然而,在这种情况下,我们表明,通过解决线性程序,我们可以通过解决我们作为电视 - 重心问题的术语,电视距离的重心问题来有效地计算下限。在上面,我们证明,如果集团明智的贝叶斯最佳分类器是关闭的,那么学习公平的表示导致公平的替代概念,称为准确性奇偶校验,这使得错误率在组之间关闭。最后,我们还在现实世界数据集上进行实验,以确认我们的理论发现。
translated by 谷歌翻译
文献中已经提出了各种公平限制,以减轻小组级统计偏见。它们的影响已在很大程度上评估了与一组敏感属性(例如种族或性别)相对应的不同人群。尽管如此,社区尚未观察到足够的探索,以实例限制公平的限制。基于影响功能的概念,该措施表征了训练示例对目标模型及其预测性能的影响,这项工作研究了施加公平性约束时训练示例的影响。我们发现,在某些假设下,关于公平限制的影响功能可以分解为训练示例的内核组合。提出的公平影响功能的一种有希望的应用是确定可疑的训练示例,这些训练示例可能通过对其影响得分进行排名来导致模型歧视。我们通过广泛的实验证明,对一部分重量数据示例进行培训会导致违反公平性的侵犯,而准确性的权衡。
translated by 谷歌翻译
在影响金融,社会和政治福祉的域名中使用算法决策制定的系统已经为这些决策制定制度的需求产生了“公平”,在一些公平的公平概念下。这种需求反过来又激发了一个大型工作,专注于开发公平学习算法,然后用于代替其传统的对应物。对这些公平算法的大多数分析从假设受到算法决策影响的人数被表示为不可变特征向量。然而,战略代理人可能具有操纵该观察到的特征向量的能力和激励,以获得更有利的结果。我们探讨了战略代理行为可能在公平分类器和派生条件下的影响,因为这种行为导致公平分类者比其相同的公平衡量标准的传统同行变得不那么公平。这些条件与公平分类器对原始非管理数据不公平的方式有关:公平分类机构通过比传统对应物变得更加选择的选择性来解决不公平的分类机,这是当代理人是战略性时变得不如同行的那些。我们进一步证明了公平分类器的选择性增加,并因此丧失了公平性,在进行优势集团在决策边界(以及)决策边界附近的区域传统分类器。最后,我们在实验中观察,使用多个数据集和学习方法,这种公平逆转是常见的,并且我们对公平逆转条件的理论表征确实存在于大多数情况下。
translated by 谷歌翻译
We propose a criterion for discrimination against a specified sensitive attribute in supervised learning, where the goal is to predict some target based on available features. Assuming data about the predictor, target, and membership in the protected group are available, we show how to optimally adjust any learned predictor so as to remove discrimination according to our definition. Our framework also improves incentives by shifting the cost of poor classification from disadvantaged groups to the decision maker, who can respond by improving the classification accuracy.In line with other studies, our notion is oblivious: it depends only on the joint statistics of the predictor, the target and the protected attribute, but not on interpretation of individual features. We study the inherent limits of defining and identifying biases based on such oblivious measures, outlining what can and cannot be inferred from different oblivious tests.We illustrate our notion using a case study of FICO credit scores.
translated by 谷歌翻译
最近的工作突出了因果关系在设计公平决策算法中的作用。但是,尚不清楚现有的公平因果概念如何相互关系,或者将这些定义作为设计原则的后果是什么。在这里,我们首先将算法公平性的流行因果定义组装成两个广泛的家庭:(1)那些限制决策对反事实差异的影响的家庭; (2)那些限制了法律保护特征(如种族和性别)对决策的影响。然后,我们在分析和经验上表明,两个定义的家庭\ emph {几乎总是总是} - 从一种理论意义上讲 - 导致帕累托占主导地位的决策政策,这意味着每个利益相关者都有一个偏爱的替代性,不受限制的政策从大型自然级别中绘制。例如,在大学录取决定的情况下,每位利益相关者都不支持任何对学术准备和多样性的中立或积极偏好的利益相关者,将不利于因果公平定义的政策。的确,在因果公平的明显定义下,我们证明了由此产生的政策要求承认所有具有相同概率的学生,无论学术资格或小组成员身份如何。我们的结果突出了正式的局限性和因果公平的常见数学观念的潜在不利后果。
translated by 谷歌翻译
The most prevalent notions of fairness in machine learning are statistical definitions: they fix a small collection of high-level, pre-defined groups (such as race or gender), and then ask for approximate parity of some statistic of the classifier (like positive classification rate or false positive rate) across these groups. Constraints of this form are susceptible to (intentional or inadvertent) fairness gerrymandering, in which a classifier appears to be fair on each individual group, but badly violates the fairness constraint on one or more structured subgroups defined over the protected attributes (such as certain combinations of protected attribute values). We propose instead to demand statistical notions of fairness across exponentially (or infinitely) many subgroups, defined by a structured class of functions over the protected attributes. This interpolates between statistical definitions of fairness, and recently proposed individual notions of fairness, but it raises several computational challenges. It is no longer clear how to even check or audit a fixed classifier to see if it satisfies such a strong definition of fairness. We prove that the computational problem of auditing subgroup fairness for both equality of false positive rates and statistical parity is equivalent to the problem of weak agnostic learning -which means it is computationally hard in the worst case, even for simple structured subclasses. However, it also suggests that common heuristics for learning can be applied to successfully solve the auditing problem in practice.We then derive two algorithms that provably converge to the best fair distribution over classifiers in a given class, given access to oracles which can optimally solve the agnostic learning problem. The algorithms are based on a formulation of subgroup fairness as a two-player zero-sum game between a Learner (the primal player) and an Auditor (the dual player). Both algorithms compute an equilibrium of this game. We obtain our first algorithm by simulating play of the game by having Learner play an instance of the no-regret Follow the Perturbed Leader algorithm, and having Auditor play best response. This algorithm provably converges to an approximate Nash equilibrium (and thus to an approximately optimal subgroup-fair distribution over classifiers) in a polynomial number of steps. We obtain our second algorithm by simulating play of the game by having both players play Fictitious Play, which enjoys only provably asymptotic convergence, but has the merit of simplicity and faster per-step computation. We implement the Fictitious Play version using linear regression as a heuristic oracle, and show that we can effectively both audit and learn fair classifiers on real datasets.
translated by 谷歌翻译
招聘或大学入学等选择问题的歧视通常是由决策者对弱势人口群体的隐性偏见来解释的。在本文中,我们考虑了决策者收到每个候选品质的噪声估计的模型,其方差取决于候选人的组 - 我们认为这种差异方差是许多选择问题的关键特征。我们分析了两个值得注意的设置:首先,噪声差异对于决策者而言是未知的,他只能独立于他们的群体选择最高的估计质量;在第二个中,差异是已知的,决策者挑选了给出嘈杂估计的最高预期质量的候选者。我们表明,两者的基线决策者都会产生歧视,尽管在相反的方向:第一个导致低方差集团的代表性不足,而第二个导致高方差群体的代表性不足。我们研究了对施加公平机制的选择效用的影响,我们将获得$ \ Gamma $ -rule术语(它是古典四分之五规则的延伸,它还包括人口统计奇偶校验)。在第一个设置(具有未知的差异)中,我们证明,在温和的条件下,施加$ \ Gamma $ -rule增加了选择效用 - 在这里,公平与公用事业之间没有权衡。在第二个设置(具有已知的差异)中,施加$ \ Gamma $ -rule降低了该实用程序,但我们由于公平机制而证明了该公用事业损失的束缚。
translated by 谷歌翻译
最近的研究表明,看似公平的机器学习模型在为对人们的生活或福祉产生影响的决策提供信息(例如,涉及教育,就业和贷款的申请)可能会在长期内无意中增加社会不平等。这是因为先前的公平意识算法仅考虑静态公平限制,例如机会均等或人口统计奇偶。但是,强制执行这种类型的限制可能会导致模型对处境不利的个人和社区产生负面影响。我们介绍ELF(执行长期公平性),这是第一个分类算法,可提供高信任公平保证,以长期或延迟影响。我们证明,ELF返回不公平解决方案的概率小于用户指定的公差,并且(在轻度假设下),如果有足够的培训数据,ELF能够找到并返回公平的解决方案,如果存在一个公平的解决方案。我们通过实验表明,我们的算法可以成功缓解长期不公平。
translated by 谷歌翻译
We present a systematic approach for achieving fairness in a binary classification setting. While we focus on two well-known quantitative definitions of fairness, our approach encompasses many other previously studied definitions as special cases. The key idea is to reduce fair classification to a sequence of cost-sensitive classification problems, whose solutions yield a randomized classifier with the lowest (empirical) error subject to the desired constraints. We introduce two reductions that work for any representation of the cost-sensitive classifier and compare favorably to prior baselines on a variety of data sets, while overcoming several of their disadvantages.
translated by 谷歌翻译
我们研究公平的机器学习(ML)设置,其中“上游”模型开发人员的任务是生产公平的ML模型,该模型将被几个类似但独特的“下游”用户使用。这种设置引入了新的挑战,这些挑战因许多现有的公平干预措施而尚未解决,这与现有的批评相呼应,即当前方法并非在现实世界公平的ML用例的多元化需求中广泛适用。为此,我们通过采用基于分配的公平分类视图来解决向上/下流设置。具体而言,我们引入了一种新的公平定义,分布奇偶校验,该定义衡量了跨受保护组的结果分布的差异,并提出了一种后处理方法,以使用最佳运输技术来最大程度地减少此措施。我们证明我们的方法能够为所有下游用户,跨各种公平定义创造更公平的成果,并在推理时间内在未标记的数据上工作。我们通过与几种类似方法和四个基准任务进行比较,通过比较实验验证了这一主张。最终,我们认为可以通过开发特定的干预措施来产生更公平的分类结果。
translated by 谷歌翻译
尽管大规模的经验风险最小化(ERM)在各种机器学习任务中取得了高精度,但公平的ERM受到公平限制与随机优化的不兼容的阻碍。我们考虑具有离散敏感属性以及可能需要随机求解器的可能性大型模型和数据集的公平分类问题。现有的内部处理公平算法在大规模设置中要么是不切实际的,因为它们需要在每次迭代时进行大量数据,要么不保证它们会收敛。在本文中,我们开发了第一个具有保证收敛性的随机内处理公平算法。对于人口统计学,均衡的赔率和公平的机会均等的概念,我们提供了算法的略有变化,称为Fermi,并证明这些变化中的每一个都以任何批次大小收敛于随机优化。从经验上讲,我们表明Fermi适合具有多个(非二进制)敏感属性和非二进制目标的随机求解器,即使Minibatch大小也很小,也可以很好地表现。广泛的实验表明,与最先进的基准相比,FERMI实现了所有经过测试的设置之间的公平违规和测试准确性之间最有利的权衡,该基准是人口统计学奇偶校验,均衡的赔率,均等机会,均等机会。这些好处在小批量的大小和非二元分类具有大量敏感属性的情况下尤其重要,这使得费米成为大规模问题的实用公平算法。
translated by 谷歌翻译
算法公平吸引了机器学习社区越来越多的关注。文献中提出了各种定义,但是它们之间的差异和联系并未清楚地解决。在本文中,我们回顾并反思了机器学习文献中先前提出的各种公平概念,并试图与道德和政治哲学,尤其是正义理论的论点建立联系。我们还从动态的角度考虑了公平的询问,并进一步考虑了当前预测和决策引起的长期影响。鉴于特征公平性的差异,我们提出了一个流程图,该流程图包括对数据生成过程,预测结果和诱导的影响的不同类型的公平询问的隐式假设和预期结果。本文展示了与任务相匹配的重要性(人们希望执行哪种公平性)和实现预期目的的手段(公平分析的范围是什么,什么是适当的分析计划)。
translated by 谷歌翻译
我们展示了如何采用回归函数$ \ hat {f} $,该{f} $适当地``多校准''并有效地将其后处理成近似错误的分类器,使分类器满足各种公平限制。后处理不需要标记的数据,只有一定数量的未标记数据和计算。计算$ \ hat f $的计算和样本复杂性要求与解决单个公平学习任务的要求相媲美,但实际上可以用来有效地解决许多不同的下游公平约束的学习问题。我们的后处理方法可以轻松处理相交组,从而将先前的工作推广到后处理回归功能上,以满足仅应用于分离组的公平约束。我们的工作扩展了最近的工作,表明多校准的回归函数是``omnipredictors''(即可以在后处理以最佳解决无约束的ERM问题)以进行约束优化。
translated by 谷歌翻译
随着算法治理的快速发展,公平性已成为机器学习模型的强制性属性,以抑制无意的歧视。在本文中,我们着重于实现公平性的预处理方面,并提出了一种数据重新拨打的方法,该方法仅在培训阶段调整样本的重量。与通常为每个(子)组分配均匀权重的大多数以前的重新校正方法不同,我们对每个训练样本在与公平相关的数量和预测效用方面的影响进行颗粒片,并根据在从影响下的影响下对单个权重进行计算。公平和效用。实验结果表明,以前的方法以不可忽略的实用性成本达到公平性,而为了取得重大优势,我们的方法可以从经验上释放权衡并获得无需成本的公平就可以平等机会。与多个现实世界表格数据集中的基线方法相比,我们通过香草分类器和标准培训过程证明了通过香草分类器和标准培训过程的公平性。可在https://github.com/brandeis-machine-learning/influence-fairness上获得代码。
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
联合学习允许许多设备在机器学习模型的培训中进行协作。与传统的机器学习一样,越来越关注的是,接受联合学习的模型可能会对不同的人群组表现出不同的表现。现有的解决方案来衡量和确保跨小组的平等模型绩效需要访问有关小组成员的信息,但是此访问并不总是可用或可取的,尤其是在联邦学习的隐私愿望下。我们研究了衡量此类性能差异的可行性,同时保护用户组成员资格的隐私以及联合模型在用户数据上的性能。保护两者对于隐私至关重要,因为它们可能是相关的,因此学习一个可能会揭示另一个。另一方面,从公用事业的角度来看,保留隐私的数据应保持相关性,以确保能够对性能差异进行准确的测量。我们通过开发当地差异化的私人机制来实现这两个目标,从而保留小组成员和模型绩效之间的相关性。为了分析机制的有效性,我们在对给定隐私预算进行优化时估算差异时的错误,并在合成数据上验证这些界限。我们的结果表明,对于参与的客户数量的实际数量,错误迅速减少,这表明,与先前的工作相反,保护受保护属性的隐私不一定与确定联合模型性能的差异相抵触。
translated by 谷歌翻译
这项研究研究了在美国国税局(IRS)为税收审计选择的系统中,算法公平性问题。尽管算法公平的领域主要围绕着像个人一样对待的概念发展,但我们却探索了垂直平等的概念 - 适当地考虑到个人之间的相关差异 - 这在许多公共政策环境中都是公平性的核心组成部分。应用于美国个人所得税体系的设计,垂直权益与不同收入水平的纳税人之间的税收和执法负担的公平分配有关。通过与财政部和国税局的独特合作,我们使用匿名个人纳税人微型数据,风险选择的审计以及2010 - 14年度的随机审计来研究税务管理的垂直平等。特别是,我们评估了现代机器学习方法选择审核的使用如何影响垂直权益。首先,我们展示了更灵活的机器学习(分类)方法(而不是简单的模型)如何将审计负担从高收入纳税人转移到中等收入纳税人。其次,我们表明,尽管现有的算法公平技术可以减轻跨收入的某些差异,但它们可能会造成巨大的绩效成本。第三,我们表明,是否将低报告的风险视为分类或回归问题的选择是高度的。从分类转变为回归模型,以预测不足的审计转变会大大向高收入个人转移,同时增加收入。最后,我们探讨了差异审计成本在塑造审计分配中的作用。我们表明,对回报的狭窄关注会破坏垂直权益。我们的结果对整个公共部门的算法工具的设计具有影响。
translated by 谷歌翻译