It is of critical importance to be aware of the historical discrimination embedded in the data and to consider a fairness measure to reduce bias throughout the predictive modeling pipeline. Given various notions of fairness defined in the literature, investigating the correlation and interaction among metrics is vital for addressing unfairness. Practitioners and data scientists should be able to comprehend each metric and examine their impact on one another given the context, use case, and regulations. Exploring the combinatorial space of different metrics for such examination is burdensome. To alleviate the burden of selecting fairness notions for consideration, we propose a framework that estimates the correlation among fairness notions. Our framework consequently identifies a set of diverse and semantically distinct metrics as representative for a given context. We propose a Monte-Carlo sampling technique for computing the correlations between fairness metrics by indirect and efficient perturbation in the model space. Using the estimated correlations, we then find a subset of representative metrics. The paper proposes a generic method that can be generalized to any arbitrary set of fairness metrics. We showcase the validity of the proposal using comprehensive experiments on real-world benchmark datasets.
translated by 谷歌翻译
Colleges and universities use predictive analytics in a variety of ways to increase student success rates. Despite the potential for predictive analytics, two major barriers exist to their adoption in higher education: (a) the lack of democratization in deployment, and (b) the potential to exacerbate inequalities. Education researchers and policymakers encounter numerous challenges in deploying predictive modeling in practice. These challenges present in different steps of modeling including data preparation, model development, and evaluation. Nevertheless, each of these steps can introduce additional bias to the system if not appropriately performed. Most large-scale and nationally representative education data sets suffer from a significant number of incomplete responses from the research participants. While many education-related studies addressed the challenges of missing data, little is known about the impact of handling missing values on the fairness of predictive outcomes in practice. In this paper, we set out to first assess the disparities in predictive modeling outcomes for college-student success, then investigate the impact of imputation techniques on the model performance and fairness using a commonly used set of metrics. We conduct a prospective evaluation to provide a less biased estimation of future performance and fairness than an evaluation of historical data. Our comprehensive analysis of a real large-scale education dataset reveals key insights on modeling disparities and how imputation techniques impact the fairness of the student-success predictive outcome under different testing scenarios. Our results indicate that imputation introduces bias if the testing set follows the historical distribution. However, if the injustice in society is addressed and consequently the upcoming batch of observations is equalized, the model would be less biased.
translated by 谷歌翻译
分类,一种重大研究的数据驱动机器学习任务,驱动越来越多的预测系统,涉及批准的人类决策,如贷款批准和犯罪风险评估。然而,分类器经常展示歧视性行为,特别是当呈现有偏置数据时。因此,分类公平已经成为一个高优先级的研究区。数据管理研究显示与数据和算法公平有关的主题的增加和兴趣,包括公平分类的主题。公平分类的跨学科努力,具有最大存在的机器学习研究,导致大量的公平概念和尚未系统地评估和比较的广泛方法。在本文中,我们对13个公平分类方法和额外变种的广泛分析,超越,公平,公平,效率,可扩展性,对数据误差的鲁棒性,对潜在的ML模型,数据效率和使用各种指标的稳定性的敏感性和稳定性现实世界数据集。我们的分析突出了对不同指标的影响的新颖见解和高级方法特征对不同方面的性能方面。我们还讨论了选择适合不同实际设置的方法的一般原则,并确定以数据管理为中心的解决方案可能产生最大影响的区域。
translated by 谷歌翻译
公平性是确保机器学习(ML)预测系统不会歧视特定个人或整个子人群(尤其是少数族裔)的重要要求。鉴于观察公平概念的固有主观性,文献中已经引入了几种公平概念。本文是一项调查,说明了通过大量示例和场景之间的公平概念之间的微妙之处。此外,与文献中的其他调查不同,它解决了以下问题:哪种公平概念最适合给定的现实世界情景,为什么?我们试图回答这个问题的尝试包括(1)确定手头现实世界情景的一组与公平相关的特征,(2)分析每个公平概念的行为,然后(3)适合这两个元素以推荐每个特定设置中最合适的公平概念。结果总结在决策图中可以由从业者和政策制定者使用,以导航相对较大的ML目录。
translated by 谷歌翻译
自几十年前以来,已经证明了机器学习评估贷款申请人信誉的实用性。但是,自动决策可能会导致对群体或个人的不同治疗方法,可能导致歧视。本文基准了12种最大的偏见缓解方法,讨论其绩效,该绩效基于5个不同的公平指标,获得的准确性以及为金融机构提供的潜在利润。我们的发现表明,在确保准确性和利润的同时,实现公平性方面的困难。此外,它突出了一些表现最好和最差的人,并有助于弥合实验机学习及其工业应用之间的差距。
translated by 谷歌翻译
鉴于神经网络有区别,公平性改善的问题是系统地减少歧视,而不会显着削弱其性能(即准确性)。已经提出了针对神经网络的多种公平改进方法,包括预处理,处理和后处理。然而,我们的实证研究表明,这些方法并不总是有效的(例如,它们可以通过支付巨大准确性下降的价格来提高公平性),甚至没有帮助(例如,它们甚至可能使公平性和准确性都恶化)。在这项工作中,我们提出了一种基于因果分析的公平性改进方法的方法。也就是说,我们根据如何在输入属性和隐藏的神经元之间分布的神经元和属性如何选择方法。我们的实验评估表明,我们的方法是有效的(即,始终确定最佳的公平改善方法)和有效的效率(即,平均时间开销为5分钟)。
translated by 谷歌翻译
近年来数据的快速增长导致了经常用于在现实世界中做出决定的复杂学习算法的发展。虽然算法的积极影响是巨大的,但需要减轻由训练样本或关于数据样本的隐含假设产生的任何偏差。当算法用于自动决策系统时,这种需求变得至关重要。已经提出了许多方法来通过检测和减轻优化阶段的偏差来进行学习算法。然而,由于缺乏通用的公平定义,这些算法优化了对公平性的特定解释,这使得它们有限地用于现实世界。此外,对所有算法共同的潜在假设是实现公平性和去除偏差的表观等价。换句话说,没有用户定义的标准,可以结合到用于产生公平算法的优化过程中。通过现有方法的这些缺点,我们提出了通过将用户约束纳入优化过程来产生公平算法的菲尔格氏术。此外,我们通过估计来自数据的最预测性功能来解释该过程。我们展示了我们使用不同公平标准对几个真实世界数据集的方法的功效。
translated by 谷歌翻译
在文献中提出了各种各样的公平度量和可解释的人工智能(XAI)方法,以确定在关键现实环境中使用的机器学习模型中的偏差。但是,仅报告模型的偏差,或使用现有XAI技术生成解释不足以定位并最终减轻偏差源。在这项工作中,我们通过识别对这种行为的根本原因的训练数据的连贯子集来引入Gopher,该系统产生紧凑,可解释和意外模型行为的偏差或意外模型行为。具体而言,我们介绍了因果责任的概念,这些责任通过删除或更新其数据集来解决培训数据的程度可以解决偏差。建立在这一概念上,我们开发了一种有效的方法,用于生成解释模型偏差的顶级模式,该模型偏置利用来自ML社区的技术来实现因果责任,并使用修剪规则来管理模式的大搜索空间。我们的实验评估表明了Gopher在为识别和调试偏置来源产生可解释解释时的有效性。
translated by 谷歌翻译
作为一种预测模型的评分系统具有可解释性和透明度的显着优势,并有助于快速决策。因此,评分系统已广泛用于各种行业,如医疗保健和刑事司法。然而,这些模型中的公平问题长期以来一直受到批评,并且使用大数据和机器学习算法在评分系统的构建中提高了这个问题。在本文中,我们提出了一般框架来创建公平知识,数据驱动评分系统。首先,我们开发一个社会福利功能,融入了效率和群体公平。然后,我们将社会福利最大化问题转换为机器学习中的风险最小化任务,并在混合整数编程的帮助下导出了公平感知评分系统。最后,导出了几种理论界限用于提供参数选择建议。我们拟议的框架提供了适当的解决方案,以解决进程中的分组公平问题。它使政策制定者能够设置和定制其所需的公平要求以及其他特定于应用程序的约束。我们用几个经验数据集测试所提出的算法。实验证据支持拟议的评分制度在实现利益攸关方的最佳福利以及平衡可解释性,公平性和效率的需求方面的有效性。
translated by 谷歌翻译
尽管机器学习模式的发展迅速和巨大成功,但广泛的研究暴露了继承潜在歧视和培训数据的社会偏见的缺点。这种现象阻碍了他们在高利益应用上采用。因此,已经采取了许多努力开发公平机器学习模型。其中大多数要求在培训期间提供敏感属性以学习公平的模型。然而,在许多现实世界应用中,由于隐私或法律问题,获得敏感的属性通常是不可行的,这挑战了现有的公平策略。虽然每个数据样本的敏感属性未知,但我们观察到训练数据中通常存在一些与敏感属性高度相关的非敏感功能,这可以用于缓解偏差。因此,在本文中,我们研究了一种探索与学习公平和准确分类器的敏感属性高度相关的特征的新问题。理论上我们通过最小化这些相关特征与模型预测之间的相关性,我们可以学习一个公平的分类器。基于这种动机,我们提出了一种新颖的框架,该框架同时使用这些相关的特征来准确预测和执行公平性。此外,该模型可以动态调整每个相关功能的正则化权重,以平衡其对模型分类和公平性的贡献。现实世界数据集的实验结果证明了拟议模型用于学习公平模型的效力,具有高分类准确性。
translated by 谷歌翻译
随着机器学习变得普遍,减轻培训数据中存在的任何不公平性变得至关重要。在公平的各种概念中,本文的重点是众所周知的个人公平,该公平规定应该对类似的人进行类似的对待。虽然在训练模型(对处理)时可以提高个人公平性,但我们认为在模型培训(预处理)之前修复数据是一个更基本的解决方案。特别是,我们表明标签翻转是改善个人公平性的有效预处理技术。我们的系统IFLIPPER解决了限制了个人公平性违规行为的最小翻转标签的优化问题,当培训数据中的两个类似示例具有不同的标签时,发生违规情况。我们首先证明问题是NP-HARD。然后,我们提出了一种近似的线性编程算法,并提供理论保证其结果与标签翻转数量有关的结果与最佳解决方案有多近。我们还提出了使线性编程解决方案更加最佳的技术,而不会超过违规限制。实际数据集上的实验表明,在看不见的测试集的个人公平和准确性方面,IFLIPPER显着优于其他预处理基线。此外,IFLIPPER可以与处理中的技术结合使用,以获得更好的结果。
translated by 谷歌翻译
本文考虑了在分解正常形式(DNF,ANDS的DNF,ANDS,相当于判定规则集)或联合正常形式(CNF,ORS)作为分类模型的联合正常形式的学习。为规则简化,将整数程序配制成最佳贸易分类准确性。我们还考虑公平设定,并扩大制定,以包括对两种不同分类措施的明确限制:机会平等和均等的赔率。列生成(CG)用于有效地搜索候选条款(连词或剖钉)的指数数量,而不需要启发式规则挖掘。此方法还会绑定所选规则集之间的间隙和培训数据上的最佳规则集。要处理大型数据集,我们建议使用随机化的近似CG算法。与三个最近提出的替代方案相比,CG算法主导了16个数据集中的8个中的精度简单折衷。当最大限度地提高精度时,CG与为此目的设计的规则学习者具有竞争力,有时发现明显更简单的解决方案,这些解决方案不太准确。与其他公平和可解释的分类器相比,我们的方法能够找到符合较严格的公平概念的规则集,以适度的折衷准确性。
translated by 谷歌翻译
A recent explosion of research focuses on developing methods and tools for building fair predictive models. However, most of this work relies on the assumption that the training and testing data are representative of the target population on which the model will be deployed. However, real-world training data often suffer from selection bias and are not representative of the target population for many reasons, including the cost and feasibility of collecting and labeling data, historical discrimination, and individual biases. In this paper, we introduce a new framework for certifying and ensuring the fairness of predictive models trained on biased data. We take inspiration from query answering over incomplete and inconsistent databases to present and formalize the problem of consistent range approximation (CRA) of answers to queries about aggregate information for the target population. We aim to leverage background knowledge about the data collection process, biased data, and limited or no auxiliary data sources to compute a range of answers for aggregate queries over the target population that are consistent with available information. We then develop methods that use CRA of such aggregate queries to build predictive models that are certifiably fair on the target population even when no external information about that population is available during training. We evaluate our methods on real data and demonstrate improvements over state of the art. Significantly, we show that enforcing fairness using our methods can lead to predictive models that are not only fair, but more accurate on the target population.
translated by 谷歌翻译
由于决策越来越依赖机器学习和(大)数据,数据驱动AI系统的公平问题正在接受研究和行业的增加。已经提出了各种公平知识的机器学习解决方案,该解决方案提出了数据,学习算法和/或模型输出中的公平相关的干预措施。然而,提出新方法的重要组成部分正在经验上对其进行验证在代表现实和不同的设置的基准数据集上。因此,在本文中,我们概述了用于公平知识机器学习的真实数据集。我们专注于表格数据作为公平感知机器学习的最常见的数据表示。我们通过识别不同属性之间的关系,特别是w.r.t.来开始分析。受保护的属性和类属性,使用贝叶斯网络。为了更深入地了解数据集中的偏见和公平性,我们调查使用探索性分析的有趣关系。
translated by 谷歌翻译
近年来,解决机器学习公平性(ML)和自动决策的问题引起了处理人工智能的科学社区的大量关注。已经提出了ML中的公平定义的一种不同的定义,认为不同概念是影响人口中个人的“公平决定”的不同概念。这些概念之间的精确差异,含义和“正交性”尚未在文献中完全分析。在这项工作中,我们试图在这个解释中汲取一些订单。
translated by 谷歌翻译
软件偏见是软件工程师越来越重要的操作问题。我们提出了17种代表性缓解方法的大规模,全面的经验评估,该方法通过1​​2个机器学习(ML)绩效指标,4项公平度量指标和24种类型的公平性 - 性能权衡评估,应用于8种广泛采用的公平性折衷评估基准软件决策/预测任务。与以前在此重要的操作软件特征上的工作相比,经验覆盖范围是全面的,涵盖了最多的偏见缓解方法,评估指标和公平性的绩效权衡措施。我们发现(1)偏置缓解方法大大降低了所有ML性能指标(包括先前工作中未考虑的指标)所报告的值,在很大一部分的情况下(根据不同的ML性能指标为42%〜75%) ; (2)在所有情况和指标中,偏置缓解方法仅在约50%的情况下获得公平性改善(根据用于评估偏见/公平性的指标,介于29%〜59%之间); (3)缓解偏见的方法的表现不佳,甚至导致37%的情况下的公平性和ML性能下降; (4)缓解偏差方法的有效性取决于任务,模型,公平性和ML性能指标,并且没有证明对所有研究的情况有效的“银弹”缓解方法。在仅29%的方案中,我们发现优于其他方法的最佳缓解方法。我们已公开提供本研究中使用的脚本和数据,以便将来复制和扩展我们的工作。
translated by 谷歌翻译
机器学习(ML)在渲染影响社会各个群体的决策中起着越来越重要的作用。 ML模型为刑事司法的决定,银行业中的信贷延长以及公司的招聘做法提供了信息。这提出了模型公平性的要求,这表明自动化的决策对于受保护特征(例如,性别,种族或年龄)通常是公平的,这些特征通常在数据中代表性不足。我们假设这个代表性不足的问题是数据学习不平衡问题的必然性。此类不平衡通常反映在两个类别和受保护的功能中。例如,一个班级(那些获得信用的班级)对于另一个班级(未获得信用的人)可能会过分代表,而特定组(女性)(女性)的代表性可能与另一组(男性)有关。相对于受保护组的算法公平性的关键要素是同时减少了基础培训数据中的类和受保护的群体失衡,这促进了模型准确性和公平性的提高。我们通过展示这些领域中的关键概念如何重叠和相互补充,讨论弥合失衡学习和群体公平的重要性;并提出了一种新颖的过采样算法,即公平的过采样,该算法既解决偏斜的类别分布和受保护的特征。我们的方法:(i)可以用作标准ML算法的有效预处理算法,以共同解决不平衡和群体权益; (ii)可以与公平感知的学习算法结合使用,以提高其对不同水平不平衡水平的稳健性。此外,我们迈出了一步,将公平和不平衡学习之间的差距与新的公平实用程序之间的差距弥合,从而将平衡的准确性与公平性结合在一起。
translated by 谷歌翻译
We introduce a new rule-based optimization method for classification with constraints. The proposed method takes advantage of linear programming and column generation, and hence, is scalable to large datasets. Moreover, the method returns a set of rules along with their optimal weights indicating the importance of each rule for learning. Through assigning cost coefficients to the rules and introducing additional constraints, we show that one can also consider interpretability and fairness of the results. We test the performance of the proposed method on a collection of datasets and present two case studies to elaborate its different aspects. Our results show that a good compromise between interpretability and fairness on the one side, and accuracy on the other side, can be obtained by the proposed rule-based learning method.
translated by 谷歌翻译
随着在高风险决策中引入机器学习,确保算法公平已成为越来越重要的问题。为此,已经提出了许多关于公平性的数学定义,并且已经开发了多种优化技术,所有这些都旨在最大化明确的公平概念。但是,公平解决方案取决于训练数据的质量,并且对噪声高度敏感。最近的研究表明,鲁棒性(模型在看不见的数据上表现良好的能力)在解决新问题时应使用的策略类型起着重要作用,因此,测量这些策略的鲁棒性已成为一种基本问题。因此,在这项工作中,我们提出了一个新标准,以衡量各种公平优化策略的鲁棒性 - \ textit {稳健性比率}。我们使用三种最受欢迎​​的公平策略在五个最受欢迎的公平定义方面,在五个基准标记公平数据集上进行了多次广泛的实验。我们的实验从经验上表明,依赖阈值优化的公平方法对所有评估的数据集中的噪声非常敏感,尽管大多数表现优于其他方法。这与其他两种方法相反,这对于低噪声方案而言不太公平,但对于高噪声方案而言更公平。据我们所知,我们是第一个定量评估公平优化策略的鲁棒性的人。这可以作为选择各种数据集的最合适的公平策略的指南。
translated by 谷歌翻译
我们在分类的背景下研究公平,其中在接收器的曲线下的区域(AUC)下的区域测量的性能。当I型(误报)和II型(假阴性)错误都很重要时,通常使用AUC。然而,相同的分类器可以针对不同的保护组具有显着变化的AUC,并且在现实世界中,通常希望减少这种交叉组差异。我们解决如何选择其他功能,以便最大地改善弱势群体的AUC。我们的结果表明,功能的无条件方差不会通知我们关于AUC公平,而是类条件方差。使用此连接,我们基于功能增强(添加功能)来开发一种新颖的方法Fairauc,以减轻可识别组之间的偏差。我们评估综合性和现实世界(Compas)数据集的Fairauc,并发现它对于相对于基准,最大限度地提高了总体AUC并最大限度地减少了组之间的偏见的基准,它显着改善了弱势群体的AUC。
translated by 谷歌翻译