最近的研究表明,看似公平的机器学习模型在为对人们的生活或福祉产生影响的决策提供信息(例如,涉及教育,就业和贷款的申请)可能会在长期内无意中增加社会不平等。这是因为先前的公平意识算法仅考虑静态公平限制,例如机会均等或人口统计奇偶。但是,强制执行这种类型的限制可能会导致模型对处境不利的个人和社区产生负面影响。我们介绍ELF(执行长期公平性),这是第一个分类算法,可提供高信任公平保证,以长期或延迟影响。我们证明,ELF返回不公平解决方案的概率小于用户指定的公差,并且(在轻度假设下),如果有足够的培训数据,ELF能够找到并返回公平的解决方案,如果存在一个公平的解决方案。我们通过实验表明,我们的算法可以成功缓解长期不公平。
translated by 谷歌翻译
In this paper we present a new way of predicting the performance of a reinforcement learning policy given historical data that may have been generated by a different policy. The ability to evaluate a policy from historical data is important for applications where the deployment of a bad policy can be dangerous or costly. We show empirically that our algorithm produces estimates that often have orders of magnitude lower mean squared error than existing methods-it makes more efficient use of the available data. Our new estimator is based on two advances: an extension of the doubly robust estimator (Jiang & Li, 2015), and a new way to mix between model based estimates and importance sampling based estimates.
translated by 谷歌翻译
面对顺序决策问题时,能够预测如果使用新策略进行决策会发生什么会发生什么。这些预测通常必须基于在一些先前使用的决策规则下收集的数据。许多以前的方法使得这种违规(或反事实)估计的性能测量值的预期值称为返回。在本文中,我们采取了迈向普遍违规估算机(UNO)的第一步 - 为返回分配的任何参数提供截止政策估计和高信任界限。我们使用UNO来估计和同时限制均值,方差,量级/中位数,分位式范围,CVAR和返回的整个累积分布。最后,我们还在各种环境中讨论了UNO的适用性,包括完全可观察,部分可观察的(即,与未观察到的混乱),马尔可夫,非马尔可瓦尔,静止,平稳的非稳定性和离散分布转移。
translated by 谷歌翻译
最近的工作突出了因果关系在设计公平决策算法中的作用。但是,尚不清楚现有的公平因果概念如何相互关系,或者将这些定义作为设计原则的后果是什么。在这里,我们首先将算法公平性的流行因果定义组装成两个广泛的家庭:(1)那些限制决策对反事实差异的影响的家庭; (2)那些限制了法律保护特征(如种族和性别)对决策的影响。然后,我们在分析和经验上表明,两个定义的家庭\ emph {几乎总是总是} - 从一种理论意义上讲 - 导致帕累托占主导地位的决策政策,这意味着每个利益相关者都有一个偏爱的替代性,不受限制的政策从大型自然级别中绘制。例如,在大学录取决定的情况下,每位利益相关者都不支持任何对学术准备和多样性的中立或积极偏好的利益相关者,将不利于因果公平定义的政策。的确,在因果公平的明显定义下,我们证明了由此产生的政策要求承认所有具有相同概率的学生,无论学术资格或小组成员身份如何。我们的结果突出了正式的局限性和因果公平的常见数学观念的潜在不利后果。
translated by 谷歌翻译
A recent explosion of research focuses on developing methods and tools for building fair predictive models. However, most of this work relies on the assumption that the training and testing data are representative of the target population on which the model will be deployed. However, real-world training data often suffer from selection bias and are not representative of the target population for many reasons, including the cost and feasibility of collecting and labeling data, historical discrimination, and individual biases. In this paper, we introduce a new framework for certifying and ensuring the fairness of predictive models trained on biased data. We take inspiration from query answering over incomplete and inconsistent databases to present and formalize the problem of consistent range approximation (CRA) of answers to queries about aggregate information for the target population. We aim to leverage background knowledge about the data collection process, biased data, and limited or no auxiliary data sources to compute a range of answers for aggregate queries over the target population that are consistent with available information. We then develop methods that use CRA of such aggregate queries to build predictive models that are certifiably fair on the target population even when no external information about that population is available during training. We evaluate our methods on real data and demonstrate improvements over state of the art. Significantly, we show that enforcing fairness using our methods can lead to predictive models that are not only fair, but more accurate on the target population.
translated by 谷歌翻译
尽管大规模的经验风险最小化(ERM)在各种机器学习任务中取得了高精度,但公平的ERM受到公平限制与随机优化的不兼容的阻碍。我们考虑具有离散敏感属性以及可能需要随机求解器的可能性大型模型和数据集的公平分类问题。现有的内部处理公平算法在大规模设置中要么是不切实际的,因为它们需要在每次迭代时进行大量数据,要么不保证它们会收敛。在本文中,我们开发了第一个具有保证收敛性的随机内处理公平算法。对于人口统计学,均衡的赔率和公平的机会均等的概念,我们提供了算法的略有变化,称为Fermi,并证明这些变化中的每一个都以任何批次大小收敛于随机优化。从经验上讲,我们表明Fermi适合具有多个(非二进制)敏感属性和非二进制目标的随机求解器,即使Minibatch大小也很小,也可以很好地表现。广泛的实验表明,与最先进的基准相比,FERMI实现了所有经过测试的设置之间的公平违规和测试准确性之间最有利的权衡,该基准是人口统计学奇偶校验,均衡的赔率,均等机会,均等机会。这些好处在小批量的大小和非二元分类具有大量敏感属性的情况下尤其重要,这使得费米成为大规模问题的实用公平算法。
translated by 谷歌翻译
我们在禁用的对手存在下研究公平分类,允许获得$ \ eta $,选择培训样本的任意$ \ eta $ -flaction,并任意扰乱受保护的属性。由于战略误报,恶意演员或归责的错误,受保护属性可能不正确的设定。和现有的方法,使随机或独立假设对错误可能不满足其在这种对抗环境中的保证。我们的主要贡献是在这种对抗的环境中学习公平分类器的优化框架,这些普遍存在的准确性和公平性提供了可证明的保证。我们的框架适用于多个和非二进制保护属性,专为大类线性分数公平度量设计,并且还可以处理除了受保护的属性之外的扰动。我们证明了我们框架的近密性,对自然假设类别的保证:没有算法可以具有明显更好的准确性,并且任何具有更好公平性的算法必须具有较低的准确性。凭经验,我们评估了我们对统计率的统计税务统计税率为一个对手的统计税率产生的分类机。
translated by 谷歌翻译
许多选择过程,例如寻找有资格参加医学试验的患者或在搜索引擎中检索管道的供应,其中包括多个阶段,初始筛查阶段将资源集中在候选名单上最有前途的候选人。在本文中,我们研究了保证筛选分类器可以提供的内容,而不是手动构造还是训练。我们发现当前的解决方案不享受无分配的理论保证 - 我们表明,通常,即使对于完美校准的分类器,也总是存在特定的候选人库,其候选名单是次优的。然后,我们开发了一种无分布的筛选算法(称为校准子集选择(CSS)),给定任何分类器和一定数量的校准数据,发现近乎最佳的候选者候选人,这些候选者包含预期的预期数量的合格候选者。此外,我们表明,在特定组中多次校准给定分类器的CSS变体可以创建具有可证明多样性保证的候选名单。关于美国人口普查调查数据的实验验证了我们的理论结果,并表明我们算法提供的候选名单优于几个竞争基线提供的列表。
translated by 谷歌翻译
分类,一种重大研究的数据驱动机器学习任务,驱动越来越多的预测系统,涉及批准的人类决策,如贷款批准和犯罪风险评估。然而,分类器经常展示歧视性行为,特别是当呈现有偏置数据时。因此,分类公平已经成为一个高优先级的研究区。数据管理研究显示与数据和算法公平有关的主题的增加和兴趣,包括公平分类的主题。公平分类的跨学科努力,具有最大存在的机器学习研究,导致大量的公平概念和尚未系统地评估和比较的广泛方法。在本文中,我们对13个公平分类方法和额外变种的广泛分析,超越,公平,公平,效率,可扩展性,对数据误差的鲁棒性,对潜在的ML模型,数据效率和使用各种指标的稳定性的敏感性和稳定性现实世界数据集。我们的分析突出了对不同指标的影响的新颖见解和高级方法特征对不同方面的性能方面。我们还讨论了选择适合不同实际设置的方法的一般原则,并确定以数据管理为中心的解决方案可能产生最大影响的区域。
translated by 谷歌翻译
机器学习中的歧视通常沿多个维度(又称保护属性)出现;因此,希望确保\ emph {交叉公平} - 即,没有任何子组受到歧视。众所周知,确保\ emph {边际公平}对于每个维度而言,独立不够。但是,由于亚组的指数数量,直接测量数据交叉公平性是不可能的。在本文中,我们的主要目标是通过统计分析详细了解边际和交叉公平之间的关系。我们首先确定一组足够的条件,在这些条件下可以获得确切的关系。然后,在一般情况下,我们证明了相交公平性的高概率的界限(通过边际公平和其他有意义的统计量很容易计算)。除了它们的描述价值之外,我们还可以利用这些理论界限来得出一种启发式,从而通过以相关的方式选择了我们描述相交子组的保护属性来改善交叉公平的近似和边界。最后,我们测试了实际和合成数据集的近似值和界限的性能。
translated by 谷歌翻译
在高赌注域中的机器学习工具的实际应用通常被调节为公平,因此预测目标应该满足相对于受保护属性的奇偶校验的一些定量概念。然而,公平性和准确性之间的确切权衡并不完全清楚,即使是对分类问题的基本范式也是如此。在本文中,我们通过在任何公平分类器的群体误差之和中提供较低的界限,在分类设置中表征统计奇偶校验和准确性之间的固有权衡。我们不可能的定理可以被解释为公平的某种不确定性原则:如果基本率不同,那么符合统计奇偶校验的任何公平分类器都必须在至少一个组中产生很大的错误。我们进一步扩展了这一结果,以便在学习公平陈述的角度下给出任何(大约)公平分类者的联合误差的下限。为了表明我们的下限是紧张的,假设Oracle访问贝叶斯(潜在不公平)分类器,我们还构造了一种返回一个随机分类器的算法,这是最佳和公平的。有趣的是,当受保护的属性可以采用超过两个值时,这个下限的扩展不承认分析解决方案。然而,在这种情况下,我们表明,通过解决线性程序,我们可以通过解决我们作为电视 - 重心问题的术语,电视距离的重心问题来有效地计算下限。在上面,我们证明,如果集团明智的贝叶斯最佳分类器是关闭的,那么学习公平的表示导致公平的替代概念,称为准确性奇偶校验,这使得错误率在组之间关闭。最后,我们还在现实世界数据集上进行实验,以确认我们的理论发现。
translated by 谷歌翻译
解决机器学习模型的公平关注是朝着实际采用现实世界自动化系统中的至关重要的一步。尽管已经开发了许多方法来从数据培训公平模型,但对这些方法对数据损坏的鲁棒性知之甚少。在这项工作中,我们考虑在最坏情况下的数据操作下进行公平意识学习。我们表明,在某些情况下,对手可能会迫使任何学习者返回过度偏见的分类器,无论样本量如何,有或没有降解的准确性,并且多余的偏见的强度会增加数据中数据不足的受保护组的学习问题,而数据中有代表性不足的组。我们还证明,我们的硬度结果紧密到不断的因素。为此,我们研究了两种自然学习算法,以优化准确性和公平性,并表明这些算法在损坏比和较大数据限制中受保护的群体频率方面享有订单最佳的保证。
translated by 谷歌翻译
The most prevalent notions of fairness in machine learning are statistical definitions: they fix a small collection of high-level, pre-defined groups (such as race or gender), and then ask for approximate parity of some statistic of the classifier (like positive classification rate or false positive rate) across these groups. Constraints of this form are susceptible to (intentional or inadvertent) fairness gerrymandering, in which a classifier appears to be fair on each individual group, but badly violates the fairness constraint on one or more structured subgroups defined over the protected attributes (such as certain combinations of protected attribute values). We propose instead to demand statistical notions of fairness across exponentially (or infinitely) many subgroups, defined by a structured class of functions over the protected attributes. This interpolates between statistical definitions of fairness, and recently proposed individual notions of fairness, but it raises several computational challenges. It is no longer clear how to even check or audit a fixed classifier to see if it satisfies such a strong definition of fairness. We prove that the computational problem of auditing subgroup fairness for both equality of false positive rates and statistical parity is equivalent to the problem of weak agnostic learning -which means it is computationally hard in the worst case, even for simple structured subclasses. However, it also suggests that common heuristics for learning can be applied to successfully solve the auditing problem in practice.We then derive two algorithms that provably converge to the best fair distribution over classifiers in a given class, given access to oracles which can optimally solve the agnostic learning problem. The algorithms are based on a formulation of subgroup fairness as a two-player zero-sum game between a Learner (the primal player) and an Auditor (the dual player). Both algorithms compute an equilibrium of this game. We obtain our first algorithm by simulating play of the game by having Learner play an instance of the no-regret Follow the Perturbed Leader algorithm, and having Auditor play best response. This algorithm provably converges to an approximate Nash equilibrium (and thus to an approximately optimal subgroup-fair distribution over classifiers) in a polynomial number of steps. We obtain our second algorithm by simulating play of the game by having both players play Fictitious Play, which enjoys only provably asymptotic convergence, but has the merit of simplicity and faster per-step computation. We implement the Fictitious Play version using linear regression as a heuristic oracle, and show that we can effectively both audit and learn fair classifiers on real datasets.
translated by 谷歌翻译
算法在政策和业务中产生越来越多的决策和建议。这种算法决策是自然实验(可条件准随机分配的仪器),因为该算法仅基于可观察输入变量的决定。我们使用该观察来为一类随机和确定性决策算法开发治疗效果估算器。我们的估算器被证明对于明确的因果效应,它们是一致的和渐近正常的。我们估算器的一个关键特例是多维回归不连续性设计。我们应用估算员以评估冠状病毒援助,救济和经济安全(关心)法案的效果,其中数十亿美元的资金通过算法规则分配给医院。我们的估计表明,救济资金对Covid-19相关的医院活动水平影响不大。天真的OLS和IV估计表现出实质性的选择偏差。
translated by 谷歌翻译
公民的大会需要根据普通人口的比例代表贫民区。这些大型委员会通常通过联系人员以在线方式构建,要求志愿者的人口特征,并决定包括它们。这在联系的人数(以及产生的成本)和委员会的代表性之间提出了权衡。我们在理论上和实验上研究了三种方法:一种贪婪的算法,包括志愿者,只要违反比例;假设志愿者池中的关节特征分布是众所周知的,一种非自适应方法,包括根据其特征的特征而具有概率。当这种分布不知道先验时,基于加强学习的方法,但在线学习。
translated by 谷歌翻译
本文考虑了在分解正常形式(DNF,ANDS的DNF,ANDS,相当于判定规则集)或联合正常形式(CNF,ORS)作为分类模型的联合正常形式的学习。为规则简化,将整数程序配制成最佳贸易分类准确性。我们还考虑公平设定,并扩大制定,以包括对两种不同分类措施的明确限制:机会平等和均等的赔率。列生成(CG)用于有效地搜索候选条款(连词或剖钉)的指数数量,而不需要启发式规则挖掘。此方法还会绑定所选规则集之间的间隙和培训数据上的最佳规则集。要处理大型数据集,我们建议使用随机化的近似CG算法。与三个最近提出的替代方案相比,CG算法主导了16个数据集中的8个中的精度简单折衷。当最大限度地提高精度时,CG与为此目的设计的规则学习者具有竞争力,有时发现明显更简单的解决方案,这些解决方案不太准确。与其他公平和可解释的分类器相比,我们的方法能够找到符合较严格的公平概念的规则集,以适度的折衷准确性。
translated by 谷歌翻译
The fair-ranking problem, which asks to rank a given set of items to maximize utility subject to group fairness constraints, has received attention in the fairness, information retrieval, and machine learning literature. Recent works, however, observe that errors in socially-salient (including protected) attributes of items can significantly undermine fairness guarantees of existing fair-ranking algorithms and raise the problem of mitigating the effect of such errors. We study the fair-ranking problem under a model where socially-salient attributes of items are randomly and independently perturbed. We present a fair-ranking framework that incorporates group fairness requirements along with probabilistic information about perturbations in socially-salient attributes. We provide provable guarantees on the fairness and utility attainable by our framework and show that it is information-theoretically impossible to significantly beat these guarantees. Our framework works for multiple non-disjoint attributes and a general class of fairness constraints that includes proportional and equal representation. Empirically, we observe that, compared to baselines, our algorithm outputs rankings with higher fairness, and has a similar or better fairness-utility trade-off compared to baselines.
translated by 谷歌翻译
Statistical risk assessments inform consequential decisions such as pretrial release in criminal justice, and loan approvals in consumer finance. Such risk assessments make counterfactual predictions, predicting the likelihood of an outcome under a proposed decision (e.g., what would happen if we approved this loan?). A central challenge, however, is that there may have been unmeasured confounders that jointly affected past decisions and outcomes in the historical data. This paper proposes a tractable mean outcome sensitivity model that bounds the extent to which unmeasured confounders could affect outcomes on average. The mean outcome sensitivity model partially identifies the conditional likelihood of the outcome under the proposed decision, popular predictive performance metrics (e.g., accuracy, calibration, TPR, FPR), and commonly-used predictive disparities. We derive their sharp identified sets, and we then solve three tasks that are essential to deploying statistical risk assessments in high-stakes settings. First, we propose a doubly-robust learning procedure for the bounds on the conditional likelihood of the outcome under the proposed decision. Second, we translate our estimated bounds on the conditional likelihood of the outcome under the proposed decision into a robust, plug-in decision-making policy. Third, we develop doubly-robust estimators of the bounds on the predictive performance of an existing risk assessment.
translated by 谷歌翻译
越来越多地部署算法和模型来为人们提供决定,不可避免地会影响他们的生活。结果,负责开发这些模型的人必须仔细评估他们对不同人群的影响并偏爱群体公平,也就是说,确保由敏感人口属性(例如种族或性别)确定的群体不会受到不公正的对待。为了实现这一目标,这些人口统计学属性的可用性(意识)是评估这些模型影响的人的基本基础。不幸的是,收集和存储这些属性通常与行业实践以及有关数据最小化和隐私的立法冲突。因此,即使是从开发它们的公司内部,也很难衡量训练有素的模型的群体公平性。在这项工作中,我们通过使用量化技术来解决在敏感属性不认识的情况下衡量群体公平性的问题,这是一项与直接提供群体级别的患病率估算(而不是个人级别的类标签)有关的监督学习任务。我们表明,量化方法特别适合解决未通行问题的公平性,因为它们是可行的不可避免的分配变化,同时将(理想的)目标取消了(不可避免的)允许(不良)的副作用的(理想的)目标个人敏感属性的推断。更详细地说,我们表明,在不认识下的公平性可以作为量化问题,并通过量化文献中的可靠方法解决。我们表明,这些方法在五个实验方案中测量人口统计学的先前方法都优于以前的方法,这对应于使分类器公平性估计不认识的重要挑战。
translated by 谷歌翻译
这项研究研究了在美国国税局(IRS)为税收审计选择的系统中,算法公平性问题。尽管算法公平的领域主要围绕着像个人一样对待的概念发展,但我们却探索了垂直平等的概念 - 适当地考虑到个人之间的相关差异 - 这在许多公共政策环境中都是公平性的核心组成部分。应用于美国个人所得税体系的设计,垂直权益与不同收入水平的纳税人之间的税收和执法负担的公平分配有关。通过与财政部和国税局的独特合作,我们使用匿名个人纳税人微型数据,风险选择的审计以及2010 - 14年度的随机审计来研究税务管理的垂直平等。特别是,我们评估了现代机器学习方法选择审核的使用如何影响垂直权益。首先,我们展示了更灵活的机器学习(分类)方法(而不是简单的模型)如何将审计负担从高收入纳税人转移到中等收入纳税人。其次,我们表明,尽管现有的算法公平技术可以减轻跨收入的某些差异,但它们可能会造成巨大的绩效成本。第三,我们表明,是否将低报告的风险视为分类或回归问题的选择是高度的。从分类转变为回归模型,以预测不足的审计转变会大大向高收入个人转移,同时增加收入。最后,我们探讨了差异审计成本在塑造审计分配中的作用。我们表明,对回报的狭窄关注会破坏垂直权益。我们的结果对整个公共部门的算法工具的设计具有影响。
translated by 谷歌翻译