Counterfactual explanations are a popular type of explanation for making the outcomes of a decision making system transparent to the user. Counterfactual explanations tell the user what to do in order to change the outcome of the system in a desirable way. However, it was recently discovered that the recommendations of what to do can differ significantly in their complexity between protected groups of individuals. Providing more difficult recommendations of actions to one group leads to a disadvantage of this group compared to other groups. In this work we propose a model-agnostic method for computing counterfactual explanations that do not differ significantly in their complexity between protected groups.
translated by 谷歌翻译
反事实解释是作为一种有吸引力的选择,以便向算法决策提供不利影响的个人的诉讼选择。由于它们在关键应用中部署(例如,执法,财务贷款),确保我们清楚地了解这些方法的漏洞并找到解决这些方法的漏洞是重要的。但是,对反事实解释的脆弱性和缺点几乎没有了解。在这项工作中,我们介绍了第一个框架,它描述了反事解释的漏洞,并显示了如何操纵它们。更具体地,我们显示反事实解释可能会聚到众所周知的不同反应性,指示它们不稳健。利用这种洞察力,我们介绍了一部小说目标来培训看似公平的模特,反事实解释在轻微的扰动下发现了更低的成本追索。我们描述了这些模型如何在对审计师出现公平的情况下为数据中的特定子组提供低成本追索。我们对贷款和暴力犯罪预测数据集进行实验,其中某些子组在扰动下达到高达20倍的成本追索性。这些结果提高了关于当前反事实解释技术的可靠性的担忧,我们希望在强大的反事实解释中激发调查。
translated by 谷歌翻译
降低降低是一种流行的预处理,也是数据挖掘中广泛使用的工具。透明度通常是通过解释来实现的,如今已成为基于机器学习的系统(例如分类器和推荐系统)的广泛接受和关键要求。但是,降低维度和其他数据挖掘工具的透明度尚未得到太多考虑,但要了解其行为至关重要 - 特别是从业者可能想了解为什么特定样本被映射到特定位置。为了(本地)理解给定维度降低方法的行为,我们介绍了降低维度的对比解释的抽象概念,并将实现此概念的实现应用于解释两个维数据可视化的特定应用。
translated by 谷歌翻译
基于机器学习的决策系统应用于安全关键领域需要可靠的高确定性预测。为此,可以通过拒绝选项来扩展系统,该选项允许系统拒绝输入,而只有一个具有不可接受的低确定性的预测。虽然能够拒绝不确定的样本很重要,但能够解释为什么拒绝特定样本也很重要。随着可解释的AI(XAI)的持续兴起,已经开发了许多基于机器学习系统的解释方法 - 但是,解释拒绝选项仍然是一个新的领域,在这种情况下,很少有先前的工作。在这项工作中,我们建议通过半就意义解释解释拒绝,这是基于示例的解释方法的实例,在XAI社区中尚未广泛考虑它们。我们提出了对任意拒绝选项的半同性恋解释的概念建模,并在基于共形预测的拒绝选项上对特定的实现进行了经验评估。
translated by 谷歌翻译
尽管机器学习和基于排名的系统在广泛用于敏感决策过程(例如,确定职位候选者,分配信用评分)时,他们对成果的意外偏见充满了疑虑,这使算法公平(例如,人口统计学公平)平等,机会平等)的目标。 “算法追索”提供了可行的恢复动作,通过修改属性来改变不良结果。我们介绍了排名级别的追索权公平的概念,并开发了一个“追索意识的排名”解决方案,该解决方案满足了排名的追索公平约束,同时最大程度地减少了建议的修改成本。我们的解决方案建议干预措施可以重新排序数据库记录的排名列表并减轻组级别的不公平性;具体而言,子组的不成比例表示和追索权成本不平衡。此重新排列可确定对数据点的最小修改,这些属性修改根据其易于解决方案进行了加权。然后,我们提出了一个有效的基于块的扩展,该扩展可以在任何粒度上重新排序(例如,银行贷款利率的多个括号,搜索引擎结果的多页)。对真实数据集的评估表明,尽管现有方法甚至可能加剧诉求不公平,但我们的解决方案 - raguel-可以显着改善追索性的公平性。 Raguel通过反事实生成和重新排列的结合过程优于改善追索性公平的替代方案,同时对大型数据集保持了有效的效率。
translated by 谷歌翻译
可解释的人工智能(XAI)是一系列技术,可以理解人工智能(AI)系统的技术和非技术方面。 Xai至关重要,帮助满足\ emph {可信赖}人工智能的日益重要的需求,其特点是人类自主,防止危害,透明,问责制等的基本特征,反事实解释旨在提供最终用户需要更改的一组特征(及其对应的值)以实现所需的结果。目前的方法很少考虑到实现建议解释所需的行动的可行性,特别是他们缺乏考虑这些行为的因果影响。在本文中,我们将反事实解释作为潜在空间(CEILS)的干预措施,一种方法来生成由数据从数据设计潜在的因果关系捕获的反事实解释,并且同时提供可行的建议,以便到达所提出的配置文件。此外,我们的方法具有以下优点,即它可以设置在现有的反事实发生器算法之上,从而最小化施加额外的因果约束的复杂性。我们展示了我们使用合成和实际数据集的一组不同实验的方法的有效性(包括金融领域的专有数据集)。
translated by 谷歌翻译
Post-hoc explanations of machine learning models are crucial for people to understand and act on algorithmic predictions. An intriguing class of explanations is through counterfactuals, hypothetical examples that show people how to obtain a different prediction. We posit that effective counterfactual explanations should satisfy two properties: feasibility of the counterfactual actions given user context and constraints, and diversity among the counterfactuals presented. To this end, we propose a framework for generating and evaluating a diverse set of counterfactual explanations based on determinantal point processes. To evaluate the actionability of counterfactuals, we provide metrics that enable comparison of counterfactual-based methods to other local explanation methods. We further address necessary tradeoffs and point to causal implications in optimizing for counterfactuals. Our experiments on four real-world datasets show that our framework can generate a set of counterfactuals that are diverse and well approximate local decision boundaries, outperforming prior approaches to generating diverse counterfactuals. We provide an implementation of the framework at https://github.com/microsoft/DiCE. CCS CONCEPTS• Applied computing → Law, social and behavioral sciences.
translated by 谷歌翻译
反事实解释(CES)是了解如何更改算法的决策的强大手段。研究人员提出了许多CES应该满足的Desiderata实际上有用,例如需要最少的努力来制定或遵守因果模型。我们考虑了提高CES的可用性的另一个方面:对不良扰动的鲁棒性,这可能是由于不幸的情况而自然发生的。由于CES通常会规定干预的稀疏形式(即,仅应更改特征的子集),因此我们研究了针对建议更改的特征和不进行的特征分别解决鲁棒性的效果。我们的定义是可行的,因为它们可以将其作为罚款术语纳入用于发现CES的损失功能。为了实验鲁棒性,我们创建和发布代码,其中五个数据集(通常在公平和可解释的机器学习领域使用)已丰富了特定于功能的注释,这些注释可用于采样有意义的扰动。我们的实验表明,CES通常不健壮,如果发生不良扰动(即使不是最坏的情况),他们规定的干预措施可能需要比预期的要大得多,甚至变得不可能。但是,考虑搜索过程中的鲁棒性,可以很容易地完成,可以系统地发现健壮的CES。强大的CES进行额外的干预,以对比扰动的扰动比非稳定的CES降低得多。我们还发现,鲁棒性更容易实现功能更改,这为选择哪种反事实解释最适合用户提出了重要的考虑点。我们的代码可在以下网址获得:https://github.com/marcovirgolin/robust-counterfactuals。
translated by 谷歌翻译
The advances in Artificial Intelligence are creating new opportunities to improve lives of people around the world, from business to healthcare, from lifestyle to education. For example, some systems profile the users using their demographic and behavioral characteristics to make certain domain-specific predictions. Often, such predictions impact the life of the user directly or indirectly (e.g., loan disbursement, determining insurance coverage, shortlisting applications, etc.). As a result, the concerns over such AI-enabled systems are also increasing. To address these concerns, such systems are mandated to be responsible i.e., transparent, fair, and explainable to developers and end-users. In this paper, we present ComplAI, a unique framework to enable, observe, analyze and quantify explainability, robustness, performance, fairness, and model behavior in drift scenarios, and to provide a single Trust Factor that evaluates different supervised Machine Learning models not just from their ability to make correct predictions but from overall responsibility perspective. The framework helps users to (a) connect their models and enable explanations, (b) assess and visualize different aspects of the model, such as robustness, drift susceptibility, and fairness, and (c) compare different models (from different model families or obtained through different hyperparameter settings) from an overall perspective thereby facilitating actionable recourse for improvement of the models. It is model agnostic and works with different supervised machine learning scenarios (i.e., Binary Classification, Multi-class Classification, and Regression) and frameworks. It can be seamlessly integrated with any ML life-cycle framework. Thus, this already deployed framework aims to unify critical aspects of Responsible AI systems for regulating the development process of such real systems.
translated by 谷歌翻译
由于算法预测对人类的影响增加,模型解释性已成为机器学习(ML)的重要问题。解释不仅可以帮助用户了解为什么ML模型做出某些预测,还可以帮助用户了解这些预测如何更改。在本论文中,我们研究了从三个有利位置的ML模型的解释性:算法,用户和教学法,并为解释性问题贡献了一些新颖的解决方案。
translated by 谷歌翻译
We tackle the problem of computing counterfactual explanations -- minimal changes to the features that flip an undesirable model prediction. We propose a solution to this question for linear Support Vector Machine (SVMs) models. Moreover, we introduce a way to account for weighted actions that allow for more changes in certain features than others. In particular, we show how to find counterfactual explanations with the purpose of increasing model interpretability. These explanations are valid, change only actionable features, are close to the data distribution, sparse, and take into account correlations between features. We cast this as a mixed integer programming optimization problem. Additionally, we introduce two novel scale-invariant cost functions for assessing the quality of counterfactual explanations and use them to evaluate the quality of our approach with a real medical dataset. Finally, we build a support vector machine model to predict whether law students will pass the Bar exam using protected features, and used our algorithms to uncover the inherent biases of the SVM.
translated by 谷歌翻译
这项研究通过对三种不同类型的模型进行基准评估来调查机器学习模型对产生反事实解释的影响:决策树(完全透明,可解释的,白色盒子模型),随机森林(一种半解释,灰色盒模型)和神经网络(完全不透明的黑盒模型)。我们在五个不同数据集(Compas,成人,德国,德语,糖尿病和乳腺癌)中使用四种算法(DICE,WatchERCF,原型和GrowingSpheresCF)测试了反事实生成过程。我们的发现表明:(1)不同的机器学习模型对反事实解释的产生没有影响; (2)基于接近性损失函数的唯一算法是不可行的,不会提供有意义的解释; (3)在不保证反事实生成过程中的合理性的情况下,人们无法获得有意义的评估结果。如果对当前的最新指标进行评估,则不考虑其内部机制中不合理的算法将导致偏见和不可靠的结论; (4)强烈建议对定性分析(以及定量分析),以确保对反事实解释和偏见的潜在识别进行强有力的分析。
translated by 谷歌翻译
在文献中提出了各种各样的公平度量和可解释的人工智能(XAI)方法,以确定在关键现实环境中使用的机器学习模型中的偏差。但是,仅报告模型的偏差,或使用现有XAI技术生成解释不足以定位并最终减轻偏差源。在这项工作中,我们通过识别对这种行为的根本原因的训练数据的连贯子集来引入Gopher,该系统产生紧凑,可解释和意外模型行为的偏差或意外模型行为。具体而言,我们介绍了因果责任的概念,这些责任通过删除或更新其数据集来解决培训数据的程度可以解决偏差。建立在这一概念上,我们开发了一种有效的方法,用于生成解释模型偏差的顶级模式,该模型偏置利用来自ML社区的技术来实现因果责任,并使用修剪规则来管理模式的大搜索空间。我们的实验评估表明了Gopher在为识别和调试偏置来源产生可解释解释时的有效性。
translated by 谷歌翻译
做出公正的决定对于在社交环境中实施机器学习算法至关重要。在这项工作中,我们考虑了反事实公平的著名定义[Kusner等,Neurips,2017]。首先,我们表明一种满足反事实公平的算法也满足人口统计学的偏见,这是一个更简单的公平限制。同样,我们表明所有满足人口统计学奇偶校验的算法都可以进行微不足道的修改以满足反事实公平。总之,我们的结果表明,反事实公平基本上等同于人口统计学,这对不断增长的反事实公平工作具有重要意义。然后,我们从经验上验证了我们的理论发现,分析了三种现有的算法,以针对三个简单的基准分析反事实公平。我们发现,在几个数据集上,两种简单的基准算法在公平,准确性和效率方面都优于所有三种现有算法。我们的分析使我们实现了一个具体的公平目标:保留受保护群体中个人的顺序。我们认为,围绕个人在受保护群体中的秩序的透明度使公平的算法更加值得信赖。根据设计,两个简单的基准算法满足了这个目标,而现有的反事实公平算法则不能。
translated by 谷歌翻译
在许多机器学习应用中已经显示了歧视,该应用程序要求在与道德相关的领域(例如面部识别,医学诊断和刑事判决)中部署之前进行足够的公平测试。现有的公平测试方法主要设计用于识别个人歧视,即对个人的歧视。然而,作为另一种广泛的歧视类型,对群体歧视(大多数隐藏)的测试却少得多。为了解决差距,在这项工作中,我们提出了测试,一种可解释的测试方法,它系统地识别和措施隐藏了一个神经网络的隐藏(我们称为“微妙”群体歧视},该神经网络的特征是敏感特征的条件。一个神经网络,TestsgDFirst自动生成可解释的规则集,该规则集将输入空间分为两组,以暴露模型的组歧视。鉴于,Testsgdalso提供了基于对输入空间进行采样的估计组公平得分,以衡量确定的SIXTEL组歧视程度,这可以确保准确地达到错误的限制。我们评估了在包括结构化数据和文本数据在内的流行数据集中训练的测试多个神经网络模型。实验结果表明,测试有效地有效地识别和测量了如此微妙的群体歧视,以至于该测试效率以前从未透露过。矿石,我们表明,测试的测试结果指南生成新样品的测试结果,以通过可忽略不计的准确性下降来减轻这种歧视。
translated by 谷歌翻译
Machine learning can impact people with legal or ethical consequences when it is used to automate decisions in areas such as insurance, lending, hiring, and predictive policing. In many of these scenarios, previous decisions have been made that are unfairly biased against certain subpopulations, for example those of a particular race, gender, or sexual orientation. Since this past data may be biased, machine learning predictors must account for this to avoid perpetuating or creating discriminatory practices. In this paper, we develop a framework for modeling fairness using tools from causal inference. Our definition of counterfactual fairness captures the intuition that a decision is fair towards an individual if it is the same in (a) the actual world and (b) a counterfactual world where the individual belonged to a different demographic group. We demonstrate our framework on a real-world problem of fair prediction of success in law school. * Equal contribution. This work was done while JL was a Research Fellow at the Alan Turing Institute. 2 https://obamawhitehouse.archives.gov/blog/2016/05/04/big-risks-big-opportunities-intersection-big-dataand-civil-rights 31st Conference on Neural Information Processing Systems (NIPS 2017),
translated by 谷歌翻译
公平性是确保机器学习(ML)预测系统不会歧视特定个人或整个子人群(尤其是少数族裔)的重要要求。鉴于观察公平概念的固有主观性,文献中已经引入了几种公平概念。本文是一项调查,说明了通过大量示例和场景之间的公平概念之间的微妙之处。此外,与文献中的其他调查不同,它解决了以下问题:哪种公平概念最适合给定的现实世界情景,为什么?我们试图回答这个问题的尝试包括(1)确定手头现实世界情景的一组与公平相关的特征,(2)分析每个公平概念的行为,然后(3)适合这两个元素以推荐每个特定设置中最合适的公平概念。结果总结在决策图中可以由从业者和政策制定者使用,以导航相对较大的ML目录。
translated by 谷歌翻译
自几十年前以来,已经证明了机器学习评估贷款申请人信誉的实用性。但是,自动决策可能会导致对群体或个人的不同治疗方法,可能导致歧视。本文基准了12种最大的偏见缓解方法,讨论其绩效,该绩效基于5个不同的公平指标,获得的准确性以及为金融机构提供的潜在利润。我们的发现表明,在确保准确性和利润的同时,实现公平性方面的困难。此外,它突出了一些表现最好和最差的人,并有助于弥合实验机学习及其工业应用之间的差距。
translated by 谷歌翻译
如果预测模型确定了脆弱的个人或群体,则该模型的使用可能成为道德问题。但是我们能知道这就是模型的作用吗?机器学习公平作为一个领域的重点是通过机器学习方法对信息处理的个人和群体的公正处理。尽管已经非常关注缓解受保护群体的歧视,但脆弱的群体并未受到相同的关注。与受保护的群体不同,这些群体可以被视为总是脆弱的,一个脆弱的群体在一种情况下可能是脆弱的,而在另一种情况下却不是脆弱的。这引发了有关如何以及何时保护机器学习中脆弱的个人和团体的新挑战。相比之下,来自可解释的人工智能(XAI)的方法确实考虑了更多的上下文问题,并关注回答“为什么做出这一决定?”的问题。现有的公平性和现有的解释性方法都不允许我们确定预测模型是否确定漏洞。我们讨论了这个问题,并提出了在这方面分析预测模型的方法。
translated by 谷歌翻译
可解释的人工智能(XAI)中方法的动机通常包括检测,量化和缓解偏见,并为使机器学习模型更加公平而做出贡献。但是,确切的XAI方法可以如何帮助打击偏见。在本文中,我们简要回顾了NLP研究中的解释性和公平性的趋势,确定了当前的实践,其中采用了解释性方法来检测和减轻偏见,并调查了阻止XAI方法在解决公平问题中更广泛使用的障碍。
translated by 谷歌翻译