近年来,机器学习算法在多种高风险决策应用程序中变得无处不在。机器学习算法从数据中学习模式的无与伦比的能力也使它们能够融合嵌入的偏差。然后,一个有偏见的模型可以做出不成比例地损害社会中某些群体的决策 - 例如,他们获得金融服务的机会。对这个问题的认识引起了公平ML领域,该领域的重点是研究,衡量和缓解算法预测的不公平性,相对于一组受保护的群体(例如种族或性别)。但是,算法不公平的根本原因仍然难以捉摸,研究人员在指责ML算法或训练的数据之间进行了划分。在这项工作中,我们坚持认为,算法不公平源于数据中模型与偏见之间的相互作用,而不是源于其中任何一个的孤立贡献。为此,我们提出了一种分类法来表征数据偏差,并研究了一系列关于公平盲目的ML算法在不同数据偏见设置下表现出的公平性准确性权衡的假设。在我们的现实帐户开放欺诈用例中,我们发现每个设置都需要特定的权衡,从而影响了预期价值和差异的公平性 - 后者通常没有注意到。此外,我们展示了算法在准确性和公平性方面如何根据影响数据的偏差进行比较。最后,我们注意到,在特定的数据偏见条件下,简单的预处理干预措施可以成功平衡小组错误率,而在更复杂的设置中相同的技术失败。
translated by 谷歌翻译
机器学习算法从数据中学习模式的无与伦比的能力也使它们能够融合嵌入的偏差。然后,一个有偏见的模型可以做出不成比例地损害社会中某些群体的决定。在静态ML环境中,大多数现实世界中大多数用例运行的动态预测案例都没有用于衡量静态ML环境中的不公平性。在后者中,预测模型本身在塑造数据的分布中起着关键作用。但是,很少注意将不公平与这些互动联系起来。因此,为了进一步理解这些环境中的不公平性,我们提出了一种分类法来表征数据中的偏见,并研究其由模型行为塑造的案例。以现实世界的开头欺诈检测案例研究为例,我们研究了表演性预测中两个典型偏见的性能和公平性的危险:分配变化以及选择性标签的问题。
translated by 谷歌翻译
Evaluating new techniques on realistic datasets plays a crucial role in the development of ML research and its broader adoption by practitioners. In recent years, there has been a significant increase of publicly available unstructured data resources for computer vision and NLP tasks. However, tabular data -- which is prevalent in many high-stakes domains -- has been lagging behind. To bridge this gap, we present Bank Account Fraud (BAF), the first publicly available privacy-preserving, large-scale, realistic suite of tabular datasets. The suite was generated by applying state-of-the-art tabular data generation techniques on an anonymized,real-world bank account opening fraud detection dataset. This setting carries a set of challenges that are commonplace in real-world applications, including temporal dynamics and significant class imbalance. Additionally, to allow practitioners to stress test both performance and fairness of ML methods, each dataset variant of BAF contains specific types of data bias. With this resource, we aim to provide the research community with a more realistic, complete, and robust test bed to evaluate novel and existing methods.
translated by 谷歌翻译
自几十年前以来,已经证明了机器学习评估贷款申请人信誉的实用性。但是,自动决策可能会导致对群体或个人的不同治疗方法,可能导致歧视。本文基准了12种最大的偏见缓解方法,讨论其绩效,该绩效基于5个不同的公平指标,获得的准确性以及为金融机构提供的潜在利润。我们的发现表明,在确保准确性和利润的同时,实现公平性方面的困难。此外,它突出了一些表现最好和最差的人,并有助于弥合实验机学习及其工业应用之间的差距。
translated by 谷歌翻译
Motivated by the growing importance of reducing unfairness in ML predictions, Fair-ML researchers have presented an extensive suite of algorithmic 'fairness-enhancing' remedies. Most existing algorithms, however, are agnostic to the sources of the observed unfairness. As a result, the literature currently lacks guiding frameworks to specify conditions under which each algorithmic intervention can potentially alleviate the underpinning cause of unfairness. To close this gap, we scrutinize the underlying biases (e.g., in the training data or design choices) that cause observational unfairness. We present the conceptual idea and a first implementation of a bias-injection sandbox tool to investigate fairness consequences of various biases and assess the effectiveness of algorithmic remedies in the presence of specific types of bias. We call this process the bias(stress)-testing of algorithmic interventions. Unlike existing toolkits, ours provides a controlled environment to counterfactually inject biases in the ML pipeline. This stylized setup offers the distinct capability of testing fairness interventions beyond observational data and against an unbiased benchmark. In particular, we can test whether a given remedy can alleviate the injected bias by comparing the predictions resulting after the intervention in the biased setting with true labels in the unbiased regime-that is, before any bias injection. We illustrate the utility of our toolkit via a proof-of-concept case study on synthetic data. Our empirical analysis showcases the type of insights that can be obtained through our simulations.
translated by 谷歌翻译
机器学习(ML)在渲染影响社会各个群体的决策中起着越来越重要的作用。 ML模型为刑事司法的决定,银行业中的信贷延长以及公司的招聘做法提供了信息。这提出了模型公平性的要求,这表明自动化的决策对于受保护特征(例如,性别,种族或年龄)通常是公平的,这些特征通常在数据中代表性不足。我们假设这个代表性不足的问题是数据学习不平衡问题的必然性。此类不平衡通常反映在两个类别和受保护的功能中。例如,一个班级(那些获得信用的班级)对于另一个班级(未获得信用的人)可能会过分代表,而特定组(女性)(女性)的代表性可能与另一组(男性)有关。相对于受保护组的算法公平性的关键要素是同时减少了基础培训数据中的类和受保护的群体失衡,这促进了模型准确性和公平性的提高。我们通过展示这些领域中的关键概念如何重叠和相互补充,讨论弥合失衡学习和群体公平的重要性;并提出了一种新颖的过采样算法,即公平的过采样,该算法既解决偏斜的类别分布和受保护的特征。我们的方法:(i)可以用作标准ML算法的有效预处理算法,以共同解决不平衡和群体权益; (ii)可以与公平感知的学习算法结合使用,以提高其对不同水平不平衡水平的稳健性。此外,我们迈出了一步,将公平和不平衡学习之间的差距与新的公平实用程序之间的差距弥合,从而将平衡的准确性与公平性结合在一起。
translated by 谷歌翻译
近年来,解决机器学习公平性(ML)和自动决策的问题引起了处理人工智能的科学社区的大量关注。已经提出了ML中的公平定义的一种不同的定义,认为不同概念是影响人口中个人的“公平决定”的不同概念。这些概念之间的精确差异,含义和“正交性”尚未在文献中完全分析。在这项工作中,我们试图在这个解释中汲取一些订单。
translated by 谷歌翻译
基于梯度提升决策树(GBDT)的机器学习(ML)算法在从医疗保健到金融的各种任务关键应用程序中的许多表格数据任务上仍然受到青睐。但是,GBDT算法并不能免于偏见和歧视性决策的风险。尽管GBDT的受欢迎程度和公平ML研究的迅速发展,但现有的经过处理的公平ML方法要么不适用GBDT,因此在大量的火车时间内开销,或者由于高级失衡的问题而不足。我们提出FairgBM,这是一个在公平限制下培训GBDT的学习框架,与无约束的LightGBM相比,对预测性能几乎没有影响。由于常见的公平指标是不可差异的,因此我们使用平滑的凸错误率代理采用``代理 - 拉格朗日''公式来实现基于梯度的优化。此外,与相关工作相比,我们的开源实施在训练时间中显示了一个数量级的加速顺序,这是一个关键方面,旨在促进现实世界实践者对FairgBM的广泛采用。
translated by 谷歌翻译
公平性是确保机器学习(ML)预测系统不会歧视特定个人或整个子人群(尤其是少数族裔)的重要要求。鉴于观察公平概念的固有主观性,文献中已经引入了几种公平概念。本文是一项调查,说明了通过大量示例和场景之间的公平概念之间的微妙之处。此外,与文献中的其他调查不同,它解决了以下问题:哪种公平概念最适合给定的现实世界情景,为什么?我们试图回答这个问题的尝试包括(1)确定手头现实世界情景的一组与公平相关的特征,(2)分析每个公平概念的行为,然后(3)适合这两个元素以推荐每个特定设置中最合适的公平概念。结果总结在决策图中可以由从业者和政策制定者使用,以导航相对较大的ML目录。
translated by 谷歌翻译
越来越多地部署算法和模型来为人们提供决定,不可避免地会影响他们的生活。结果,负责开发这些模型的人必须仔细评估他们对不同人群的影响并偏爱群体公平,也就是说,确保由敏感人口属性(例如种族或性别)确定的群体不会受到不公正的对待。为了实现这一目标,这些人口统计学属性的可用性(意识)是评估这些模型影响的人的基本基础。不幸的是,收集和存储这些属性通常与行业实践以及有关数据最小化和隐私的立法冲突。因此,即使是从开发它们的公司内部,也很难衡量训练有素的模型的群体公平性。在这项工作中,我们通过使用量化技术来解决在敏感属性不认识的情况下衡量群体公平性的问题,这是一项与直接提供群体级别的患病率估算(而不是个人级别的类标签)有关的监督学习任务。我们表明,量化方法特别适合解决未通行问题的公平性,因为它们是可行的不可避免的分配变化,同时将(理想的)目标取消了(不可避免的)允许(不良)的副作用的(理想的)目标个人敏感属性的推断。更详细地说,我们表明,在不认识下的公平性可以作为量化问题,并通过量化文献中的可靠方法解决。我们表明,这些方法在五个实验方案中测量人口统计学的先前方法都优于以前的方法,这对应于使分类器公平性估计不认识的重要挑战。
translated by 谷歌翻译
业务分析(BA)的广泛采用带来了财务收益和提高效率。但是,当BA以公正的影响为决定时,这些进步同时引起了人们对法律和道德挑战的不断增加。作为对这些关注的回应,对算法公平性的新兴研究涉及算法输出,这些算法可能会导致不同的结果或其他形式的对人群亚组的不公正现象,尤其是那些在历史上被边缘化的人。公平性是根据法律合规,社会责任和效用是相关的;如果不充分和系统地解决,不公平的BA系统可能会导致社会危害,也可能威胁到组织自己的生存,其竞争力和整体绩效。本文提供了有关算法公平的前瞻性,注重BA的评论。我们首先回顾有关偏见来源和措施的最新研究以及偏见缓解算法。然后,我们对公用事业关系的详细讨论进行了详细的讨论,强调经常假设这两种构造之间经常是错误的或短视的。最后,我们通过确定企业学者解决有效和负责任的BA的关键的有影响力的公开挑战的机会来绘制前进的道路。
translated by 谷歌翻译
分类,一种重大研究的数据驱动机器学习任务,驱动越来越多的预测系统,涉及批准的人类决策,如贷款批准和犯罪风险评估。然而,分类器经常展示歧视性行为,特别是当呈现有偏置数据时。因此,分类公平已经成为一个高优先级的研究区。数据管理研究显示与数据和算法公平有关的主题的增加和兴趣,包括公平分类的主题。公平分类的跨学科努力,具有最大存在的机器学习研究,导致大量的公平概念和尚未系统地评估和比较的广泛方法。在本文中,我们对13个公平分类方法和额外变种的广泛分析,超越,公平,公平,效率,可扩展性,对数据误差的鲁棒性,对潜在的ML模型,数据效率和使用各种指标的稳定性的敏感性和稳定性现实世界数据集。我们的分析突出了对不同指标的影响的新颖见解和高级方法特征对不同方面的性能方面。我们还讨论了选择适合不同实际设置的方法的一般原则,并确定以数据管理为中心的解决方案可能产生最大影响的区域。
translated by 谷歌翻译
机器学习显着增强了机器人的能力,使他们能够在人类环境中执行广泛的任务并适应我们不确定的现实世界。机器学习各个领域的最新作品强调了公平性的重要性,以确保这些算法不会再现人类的偏见并导致歧视性结果。随着机器人学习系统在我们的日常生活中越来越多地执行越来越多的任务,了解这种偏见的影响至关重要,以防止对某些人群的意外行为。在这项工作中,我们从跨学科的角度进行了关于机器人学习公平性的首次调查,该研究跨越了技术,道德和法律挑战。我们提出了偏见来源的分类法和由此产生的歧视类型。使用来自不同机器人学习域的示例,我们研究了不公平结果和减轻策略的场景。我们通过涵盖不同的公平定义,道德和法律考虑以及公平机器人学习的方法来介绍该领域的早期进步。通过这项工作,我们旨在为公平机器人学习中的开创性发展铺平道路。
translated by 谷歌翻译
本文旨在改善多敏感属性的机器学习公平。自机学习软件越来越多地用于高赌注和高风险决策,机器学习公平吸引了越来越多的关注。大多数现有的机器学习公平解决方案一次只针对一个敏感的属性(例如性别),或者具有魔法参数来调整,或者具有昂贵的计算开销。为了克服这些挑战,我们在培训机器学习模型之前,我们建议平衡每种敏感属性的培训数据分布。我们的研究结果表明,在低计算开销的情况下,在低计算开销的情况下,Fairbalancy可以在每一个已知的敏感属性上显着减少公平度量(AOD,EOD和SPD),如果对预测性能有任何损坏,则可以在没有多大的情况下进行任何已知的敏感属性。此外,FairbalanceClass是非游价的变种,可以平衡培训数据中的班级分布。通过FairbalanceClass,预测将不再支持多数阶级,从而在少数阶级获得更高的F $ _1 $得分。 Fairbalance和FairbalanceClass还以预测性能和公平度量而言,在其他最先进的偏置缓解算法中也优于其他最先进的偏置缓解算法。本研究将通过提供一种简单但有效的方法来利用社会来改善具有多个敏感属性数据的机器学习软件的公平性。我们的结果还验证了在具有无偏见的地面真理标签上的数据集上的假设,学习模型中的道德偏置在很大程度上属于每个组内具有(2)类分布中的组大小和(2)差异的训练数据。
translated by 谷歌翻译
It is of critical importance to be aware of the historical discrimination embedded in the data and to consider a fairness measure to reduce bias throughout the predictive modeling pipeline. Given various notions of fairness defined in the literature, investigating the correlation and interaction among metrics is vital for addressing unfairness. Practitioners and data scientists should be able to comprehend each metric and examine their impact on one another given the context, use case, and regulations. Exploring the combinatorial space of different metrics for such examination is burdensome. To alleviate the burden of selecting fairness notions for consideration, we propose a framework that estimates the correlation among fairness notions. Our framework consequently identifies a set of diverse and semantically distinct metrics as representative for a given context. We propose a Monte-Carlo sampling technique for computing the correlations between fairness metrics by indirect and efficient perturbation in the model space. Using the estimated correlations, we then find a subset of representative metrics. The paper proposes a generic method that can be generalized to any arbitrary set of fairness metrics. We showcase the validity of the proposal using comprehensive experiments on real-world benchmark datasets.
translated by 谷歌翻译
Despite being responsible for state-of-the-art results in several computer vision and natural language processing tasks, neural networks have faced harsh criticism due to some of their current shortcomings. One of them is that neural networks are correlation machines prone to model biases within the data instead of focusing on actual useful causal relationships. This problem is particularly serious in application domains affected by aspects such as race, gender, and age. To prevent models from incurring on unfair decision-making, the AI community has concentrated efforts in correcting algorithmic biases, giving rise to the research area now widely known as fairness in AI. In this survey paper, we provide an in-depth overview of the main debiasing methods for fairness-aware neural networks in the context of vision and language research. We propose a novel taxonomy to better organize the literature on debiasing methods for fairness, and we discuss the current challenges, trends, and important future work directions for the interested researcher and practitioner.
translated by 谷歌翻译
Algorithm fairness has started to attract the attention of researchers in AI, Software Engineering and Law communities, with more than twenty different notions of fairness proposed in the last few years. Yet, there is no clear agreement on which definition to apply in each situation. Moreover, the detailed differences between multiple definitions are difficult to grasp. To address this issue, this paper collects the most prominent definitions of fairness for the algorithmic classification problem, explains the rationale behind these definitions, and demonstrates each of them on a single unifying case-study. Our analysis intuitively explains why the same case can be considered fair according to some definitions and unfair according to others.
translated by 谷歌翻译
我们研究公平的机器学习(ML)设置,其中“上游”模型开发人员的任务是生产公平的ML模型,该模型将被几个类似但独特的“下游”用户使用。这种设置引入了新的挑战,这些挑战因许多现有的公平干预措施而尚未解决,这与现有的批评相呼应,即当前方法并非在现实世界公平的ML用例的多元化需求中广泛适用。为此,我们通过采用基于分配的公平分类视图来解决向上/下流设置。具体而言,我们引入了一种新的公平定义,分布奇偶校验,该定义衡量了跨受保护组的结果分布的差异,并提出了一种后处理方法,以使用最佳运输技术来最大程度地减少此措施。我们证明我们的方法能够为所有下游用户,跨各种公平定义创造更公平的成果,并在推理时间内在未标记的数据上工作。我们通过与几种类似方法和四个基准任务进行比较,通过比较实验验证了这一主张。最终,我们认为可以通过开发特定的干预措施来产生更公平的分类结果。
translated by 谷歌翻译
算法决策的兴起催生了许多关于公平机器学习(ML)的研究。金融机构使用ML来建立支持一系列与信贷有关的决定的风险记分卡。然而,关于信用评分的公平ML的文献很少。该论文做出了三项贡献。首先,我们重新审视统计公平标准,并检查其对信用评分的适当性。其次,我们对将公平目标纳入ML模型开发管道中的算法选项进行了分类。最后,我们从经验上比较了使用现实世界数据以利润为导向的信用评分上下文中的不同公平处理器。经验结果证实了对公平措施的评估,确定了实施公平信用评分的合适选择,并阐明了贷款决策中的利润权衡。我们发现,可以立即达到多个公平标准,并建议分离作为衡量记分卡的公平性的适当标准。我们还发现公平的过程中,可以在利润和公平之间实现良好的平衡,并表明算法歧视可以以相对较低的成本降低到合理的水平。与该论文相对应的代码可在GitHub上获得。
translated by 谷歌翻译
近年来数据的快速增长导致了经常用于在现实世界中做出决定的复杂学习算法的发展。虽然算法的积极影响是巨大的,但需要减轻由训练样本或关于数据样本的隐含假设产生的任何偏差。当算法用于自动决策系统时,这种需求变得至关重要。已经提出了许多方法来通过检测和减轻优化阶段的偏差来进行学习算法。然而,由于缺乏通用的公平定义,这些算法优化了对公平性的特定解释,这使得它们有限地用于现实世界。此外,对所有算法共同的潜在假设是实现公平性和去除偏差的表观等价。换句话说,没有用户定义的标准,可以结合到用于产生公平算法的优化过程中。通过现有方法的这些缺点,我们提出了通过将用户约束纳入优化过程来产生公平算法的菲尔格氏术。此外,我们通过估计来自数据的最预测性功能来解释该过程。我们展示了我们使用不同公平标准对几个真实世界数据集的方法的功效。
translated by 谷歌翻译