在文献中提出了各种各样的公平度量和可解释的人工智能(XAI)方法,以确定在关键现实环境中使用的机器学习模型中的偏差。但是,仅报告模型的偏差,或使用现有XAI技术生成解释不足以定位并最终减轻偏差源。在这项工作中,我们通过识别对这种行为的根本原因的训练数据的连贯子集来引入Gopher,该系统产生紧凑,可解释和意外模型行为的偏差或意外模型行为。具体而言,我们介绍了因果责任的概念,这些责任通过删除或更新其数据集来解决培训数据的程度可以解决偏差。建立在这一概念上,我们开发了一种有效的方法,用于生成解释模型偏差的顶级模式,该模型偏置利用来自ML社区的技术来实现因果责任,并使用修剪规则来管理模式的大搜索空间。我们的实验评估表明了Gopher在为识别和调试偏置来源产生可解释解释时的有效性。
translated by 谷歌翻译
分类,一种重大研究的数据驱动机器学习任务,驱动越来越多的预测系统,涉及批准的人类决策,如贷款批准和犯罪风险评估。然而,分类器经常展示歧视性行为,特别是当呈现有偏置数据时。因此,分类公平已经成为一个高优先级的研究区。数据管理研究显示与数据和算法公平有关的主题的增加和兴趣,包括公平分类的主题。公平分类的跨学科努力,具有最大存在的机器学习研究,导致大量的公平概念和尚未系统地评估和比较的广泛方法。在本文中,我们对13个公平分类方法和额外变种的广泛分析,超越,公平,公平,效率,可扩展性,对数据误差的鲁棒性,对潜在的ML模型,数据效率和使用各种指标的稳定性的敏感性和稳定性现实世界数据集。我们的分析突出了对不同指标的影响的新颖见解和高级方法特征对不同方面的性能方面。我们还讨论了选择适合不同实际设置的方法的一般原则,并确定以数据管理为中心的解决方案可能产生最大影响的区域。
translated by 谷歌翻译
鉴于神经网络有区别,公平性改善的问题是系统地减少歧视,而不会显着削弱其性能(即准确性)。已经提出了针对神经网络的多种公平改进方法,包括预处理,处理和后处理。然而,我们的实证研究表明,这些方法并不总是有效的(例如,它们可以通过支付巨大准确性下降的价格来提高公平性),甚至没有帮助(例如,它们甚至可能使公平性和准确性都恶化)。在这项工作中,我们提出了一种基于因果分析的公平性改进方法的方法。也就是说,我们根据如何在输入属性和隐藏的神经元之间分布的神经元和属性如何选择方法。我们的实验评估表明,我们的方法是有效的(即,始终确定最佳的公平改善方法)和有效的效率(即,平均时间开销为5分钟)。
translated by 谷歌翻译
A recent explosion of research focuses on developing methods and tools for building fair predictive models. However, most of this work relies on the assumption that the training and testing data are representative of the target population on which the model will be deployed. However, real-world training data often suffer from selection bias and are not representative of the target population for many reasons, including the cost and feasibility of collecting and labeling data, historical discrimination, and individual biases. In this paper, we introduce a new framework for certifying and ensuring the fairness of predictive models trained on biased data. We take inspiration from query answering over incomplete and inconsistent databases to present and formalize the problem of consistent range approximation (CRA) of answers to queries about aggregate information for the target population. We aim to leverage background knowledge about the data collection process, biased data, and limited or no auxiliary data sources to compute a range of answers for aggregate queries over the target population that are consistent with available information. We then develop methods that use CRA of such aggregate queries to build predictive models that are certifiably fair on the target population even when no external information about that population is available during training. We evaluate our methods on real data and demonstrate improvements over state of the art. Significantly, we show that enforcing fairness using our methods can lead to predictive models that are not only fair, but more accurate on the target population.
translated by 谷歌翻译
在许多机器学习应用中已经显示了歧视,该应用程序要求在与道德相关的领域(例如面部识别,医学诊断和刑事判决)中部署之前进行足够的公平测试。现有的公平测试方法主要设计用于识别个人歧视,即对个人的歧视。然而,作为另一种广泛的歧视类型,对群体歧视(大多数隐藏)的测试却少得多。为了解决差距,在这项工作中,我们提出了测试,一种可解释的测试方法,它系统地识别和措施隐藏了一个神经网络的隐藏(我们称为“微妙”群体歧视},该神经网络的特征是敏感特征的条件。一个神经网络,TestsgDFirst自动生成可解释的规则集,该规则集将输入空间分为两组,以暴露模型的组歧视。鉴于,Testsgdalso提供了基于对输入空间进行采样的估计组公平得分,以衡量确定的SIXTEL组歧视程度,这可以确保准确地达到错误的限制。我们评估了在包括结构化数据和文本数据在内的流行数据集中训练的测试多个神经网络模型。实验结果表明,测试有效地有效地识别和测量了如此微妙的群体歧视,以至于该测试效率以前从未透露过。矿石,我们表明,测试的测试结果指南生成新样品的测试结果,以通过可忽略不计的准确性下降来减轻这种歧视。
translated by 谷歌翻译
由于算法预测对人类的影响增加,模型解释性已成为机器学习(ML)的重要问题。解释不仅可以帮助用户了解为什么ML模型做出某些预测,还可以帮助用户了解这些预测如何更改。在本论文中,我们研究了从三个有利位置的ML模型的解释性:算法,用户和教学法,并为解释性问题贡献了一些新颖的解决方案。
translated by 谷歌翻译
Post-hoc explanations of machine learning models are crucial for people to understand and act on algorithmic predictions. An intriguing class of explanations is through counterfactuals, hypothetical examples that show people how to obtain a different prediction. We posit that effective counterfactual explanations should satisfy two properties: feasibility of the counterfactual actions given user context and constraints, and diversity among the counterfactuals presented. To this end, we propose a framework for generating and evaluating a diverse set of counterfactual explanations based on determinantal point processes. To evaluate the actionability of counterfactuals, we provide metrics that enable comparison of counterfactual-based methods to other local explanation methods. We further address necessary tradeoffs and point to causal implications in optimizing for counterfactuals. Our experiments on four real-world datasets show that our framework can generate a set of counterfactuals that are diverse and well approximate local decision boundaries, outperforming prior approaches to generating diverse counterfactuals. We provide an implementation of the framework at https://github.com/microsoft/DiCE. CCS CONCEPTS• Applied computing → Law, social and behavioral sciences.
translated by 谷歌翻译
Good models require good training data. For overparameterized deep models, the causal relationship between training data and model predictions is increasingly opaque and poorly understood. Influence analysis partially demystifies training's underlying interactions by quantifying the amount each training instance alters the final model. Measuring the training data's influence exactly can be provably hard in the worst case; this has led to the development and use of influence estimators, which only approximate the true influence. This paper provides the first comprehensive survey of training data influence analysis and estimation. We begin by formalizing the various, and in places orthogonal, definitions of training data influence. We then organize state-of-the-art influence analysis methods into a taxonomy; we describe each of these methods in detail and compare their underlying assumptions, asymptotic complexities, and overall strengths and weaknesses. Finally, we propose future research directions to make influence analysis more useful in practice as well as more theoretically and empirically sound. A curated, up-to-date list of resources related to influence analysis is available at https://github.com/ZaydH/influence_analysis_papers.
translated by 谷歌翻译
It is of critical importance to be aware of the historical discrimination embedded in the data and to consider a fairness measure to reduce bias throughout the predictive modeling pipeline. Given various notions of fairness defined in the literature, investigating the correlation and interaction among metrics is vital for addressing unfairness. Practitioners and data scientists should be able to comprehend each metric and examine their impact on one another given the context, use case, and regulations. Exploring the combinatorial space of different metrics for such examination is burdensome. To alleviate the burden of selecting fairness notions for consideration, we propose a framework that estimates the correlation among fairness notions. Our framework consequently identifies a set of diverse and semantically distinct metrics as representative for a given context. We propose a Monte-Carlo sampling technique for computing the correlations between fairness metrics by indirect and efficient perturbation in the model space. Using the estimated correlations, we then find a subset of representative metrics. The paper proposes a generic method that can be generalized to any arbitrary set of fairness metrics. We showcase the validity of the proposal using comprehensive experiments on real-world benchmark datasets.
translated by 谷歌翻译
反事实解释是作为一种有吸引力的选择,以便向算法决策提供不利影响的个人的诉讼选择。由于它们在关键应用中部署(例如,执法,财务贷款),确保我们清楚地了解这些方法的漏洞并找到解决这些方法的漏洞是重要的。但是,对反事实解释的脆弱性和缺点几乎没有了解。在这项工作中,我们介绍了第一个框架,它描述了反事解释的漏洞,并显示了如何操纵它们。更具体地,我们显示反事实解释可能会聚到众所周知的不同反应性,指示它们不稳健。利用这种洞察力,我们介绍了一部小说目标来培训看似公平的模特,反事实解释在轻微的扰动下发现了更低的成本追索。我们描述了这些模型如何在对审计师出现公平的情况下为数据中的特定子组提供低成本追索。我们对贷款和暴力犯罪预测数据集进行实验,其中某些子组在扰动下达到高达20倍的成本追索性。这些结果提高了关于当前反事实解释技术的可靠性的担忧,我们希望在强大的反事实解释中激发调查。
translated by 谷歌翻译
可解释的人工智能(XAI)中方法的动机通常包括检测,量化和缓解偏见,并为使机器学习模型更加公平而做出贡献。但是,确切的XAI方法可以如何帮助打击偏见。在本文中,我们简要回顾了NLP研究中的解释性和公平性的趋势,确定了当前的实践,其中采用了解释性方法来检测和减轻偏见,并调查了阻止XAI方法在解决公平问题中更广泛使用的障碍。
translated by 谷歌翻译
机器学习(ML)在渲染影响社会各个群体的决策中起着越来越重要的作用。 ML模型为刑事司法的决定,银行业中的信贷延长以及公司的招聘做法提供了信息。这提出了模型公平性的要求,这表明自动化的决策对于受保护特征(例如,性别,种族或年龄)通常是公平的,这些特征通常在数据中代表性不足。我们假设这个代表性不足的问题是数据学习不平衡问题的必然性。此类不平衡通常反映在两个类别和受保护的功能中。例如,一个班级(那些获得信用的班级)对于另一个班级(未获得信用的人)可能会过分代表,而特定组(女性)(女性)的代表性可能与另一组(男性)有关。相对于受保护组的算法公平性的关键要素是同时减少了基础培训数据中的类和受保护的群体失衡,这促进了模型准确性和公平性的提高。我们通过展示这些领域中的关键概念如何重叠和相互补充,讨论弥合失衡学习和群体公平的重要性;并提出了一种新颖的过采样算法,即公平的过采样,该算法既解决偏斜的类别分布和受保护的特征。我们的方法:(i)可以用作标准ML算法的有效预处理算法,以共同解决不平衡和群体权益; (ii)可以与公平感知的学习算法结合使用,以提高其对不同水平不平衡水平的稳健性。此外,我们迈出了一步,将公平和不平衡学习之间的差距与新的公平实用程序之间的差距弥合,从而将平衡的准确性与公平性结合在一起。
translated by 谷歌翻译
Interpretability provides a means for humans to verify aspects of machine learning (ML) models and empower human+ML teaming in situations where the task cannot be fully automated. Different contexts require explanations with different properties. For example, the kind of explanation required to determine if an early cardiac arrest warning system is ready to be integrated into a care setting is very different from the type of explanation required for a loan applicant to help determine the actions they might need to take to make their application successful. Unfortunately, there is a lack of standardization when it comes to properties of explanations: different papers may use the same term to mean different quantities, and different terms to mean the same quantity. This lack of a standardized terminology and categorization of the properties of ML explanations prevents us from both rigorously comparing interpretable machine learning methods and identifying what properties are needed in what contexts. In this work, we survey properties defined in interpretable machine learning papers, synthesize them based on what they actually measure, and describe the trade-offs between different formulations of these properties. In doing so, we enable more informed selection of task-appropriate formulations of explanation properties as well as standardization for future work in interpretable machine learning.
translated by 谷歌翻译
软件2.0是软件工程的根本班次,机器学习成为新软件,由大数据和计算基础设施供电。因此,需要重新考虑软件工程,其中数据成为与代码相提并论的一流公民。一个引人注目的观察是,80-90%的机器学习过程都花在数据准备上。没有良好的数据,即使是最好的机器学习算法也不能表现良好。结果,以数据为中心的AI实践现在成为主流。不幸的是,现实世界中的许多数据集是小,肮脏,偏见,甚至中毒。在本调查中,我们研究了数据收集和数据质量的研究景观,主要用于深度学习应用。数据收集很重要,因为对于最近的深度学习方法,功能工程较小,而且需要大量数据。对于数据质量,我们研究数据验证和数据清洁技术。即使数据无法完全清洁,我们仍然可以应对模型培训期间的不完美数据,其中使用鲁棒模型培训技术。此外,虽然在传统数据管理研究中较少研究偏见和公平性,但这些问题成为现代机器学习应用中的重要主题。因此,我们研究了可以在模型培训之前,期间或之后应用的公平措施和不公平的缓解技术。我们相信数据管理界很好地解决了这些方向上的问题。
translated by 谷歌翻译
Despite being responsible for state-of-the-art results in several computer vision and natural language processing tasks, neural networks have faced harsh criticism due to some of their current shortcomings. One of them is that neural networks are correlation machines prone to model biases within the data instead of focusing on actual useful causal relationships. This problem is particularly serious in application domains affected by aspects such as race, gender, and age. To prevent models from incurring on unfair decision-making, the AI community has concentrated efforts in correcting algorithmic biases, giving rise to the research area now widely known as fairness in AI. In this survey paper, we provide an in-depth overview of the main debiasing methods for fairness-aware neural networks in the context of vision and language research. We propose a novel taxonomy to better organize the literature on debiasing methods for fairness, and we discuss the current challenges, trends, and important future work directions for the interested researcher and practitioner.
translated by 谷歌翻译
机器学习的普及增加了不公平模型的风险,该模型被部署在高级应用程序中,例如司法系统,药物/疫苗接种设计和医学诊断。尽管有有效的方法可以从头开始训练公平模型,但如何自动揭示和解释受过训练的模型的不公平仍然是一项艰巨的任务。以可解释的方式揭示机器学习模型的不公平是朝着公平和值得信赖的AI迈出的关键一步。在本文中,我们系统地解决了通过挖掘可解释的证据(Rumie)来揭示不公平模型的新任务。关键思想是以一组模型区分的数据实例的形式找到可靠的证据。为了使证据可以解释,我们还找到了一组人为理解的关键属性和决策规则,这些属性和决策规则表征了歧视的数据实例,并将其与其他非歧视数据区分开来。正如在许多现实世界数据集上进行的广泛实验所证明的那样,我们的方法找到了高度可解释和可靠的证据,可以有效揭示受过训练的模型的不公平性。此外,它比所有基线方法更可扩展。
translated by 谷歌翻译
公平性是确保机器学习(ML)预测系统不会歧视特定个人或整个子人群(尤其是少数族裔)的重要要求。鉴于观察公平概念的固有主观性,文献中已经引入了几种公平概念。本文是一项调查,说明了通过大量示例和场景之间的公平概念之间的微妙之处。此外,与文献中的其他调查不同,它解决了以下问题:哪种公平概念最适合给定的现实世界情景,为什么?我们试图回答这个问题的尝试包括(1)确定手头现实世界情景的一组与公平相关的特征,(2)分析每个公平概念的行为,然后(3)适合这两个元素以推荐每个特定设置中最合适的公平概念。结果总结在决策图中可以由从业者和政策制定者使用,以导航相对较大的ML目录。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
公平测试旨在减轻数据驱动的AI系统决策过程中的意外歧视。当AI模型为仅根据受保护属性(例如年龄和种族)区分的两个不同的个体做出不同的决定时,可能会发生个人歧视。这样的实例揭示了偏见的AI行为,被称为个人歧视实例(IDI)。在本文中,我们提出了一种选择初始种子以生成IDI进行公平测试的方法。先前的研究主要使用随机的初始种子来实现这一目标。但是,这个阶段至关重要,因为这些种子是后续IDIS生成的基础。我们称我们提出的种子选择方法I&D。它产生了大量的初始IDI,表现出极大的多样性,旨在提高公平测试的整体性能。我们的实证研究表明,I&D能够就四种最先进的种子生成方法产生更多的IDI,平均产生1.68倍的IDI。此外,我们比较I&D在训练机器学习模型中的使用,并发现与最先进的ART相比,使用I&D将剩余IDI的数量减少了29%,因此表明I&D有效地改善了模型公平性
translated by 谷歌翻译
解决公平问题对于安全使用机器学习算法来支持对人们的生活产生关键影响的决策,例如雇用工作,儿童虐待,疾病诊断,贷款授予等。过去十年,例如统计奇偶校验和均衡的赔率。然而,最新的公平概念是基于因果关系的,反映了现在广泛接受的想法,即使用因果关系对于适当解决公平问题是必要的。本文研究了基于因果关系的公平概念的详尽清单,并研究了其在现实情况下的适用性。由于大多数基于因果关系的公平概念都是根据不可观察的数量(例如干预措施和反事实)来定义的,因此它们在实践中的部署需要使用观察数据来计算或估计这些数量。本文提供了有关从观察数据(包括可识别性(Pearl的SCM框架))和估计(潜在结果框架)中推断出因果量的不同方法的全面报告。该调查论文的主要贡献是(1)指南,旨在在特定的现实情况下帮助选择合适的公平概念,以及(2)根据Pearl的因果关系阶梯的公平概念的排名,表明它很难部署。实践中的每个概念。
translated by 谷歌翻译