Machine Learning (ML) software has been widely adopted in modern society, with reported fairness implications for minority groups based on race, sex, age, etc. Many recent works have proposed methods to measure and mitigate algorithmic bias in ML models. The existing approaches focus on single classifier-based ML models. However, real-world ML models are often composed of multiple independent or dependent learners in an ensemble (e.g., Random Forest), where the fairness composes in a non-trivial way. How does fairness compose in ensembles? What are the fairness impacts of the learners on the ultimate fairness of the ensemble? Can fair learners result in an unfair ensemble? Furthermore, studies have shown that hyperparameters influence the fairness of ML models. Ensemble hyperparameters are more complex since they affect how learners are combined in different categories of ensembles. Understanding the impact of ensemble hyperparameters on fairness will help programmers design fair ensembles. Today, we do not understand these fully for different ensemble algorithms. In this paper, we comprehensively study popular real-world ensembles: bagging, boosting, stacking and voting. We have developed a benchmark of 168 ensemble models collected from Kaggle on four popular fairness datasets. We use existing fairness metrics to understand the composition of fairness. Our results show that ensembles can be designed to be fairer without using mitigation techniques. We also identify the interplay between fairness composition and data characteristics to guide fair ensemble design. Finally, our benchmark can be leveraged for further research on fair ensembles. To the best of our knowledge, this is one of the first and largest studies on fairness composition in ensembles yet presented in the literature.
translated by 谷歌翻译
As machine learning (ML) systems get adopted in more critical areas, it has become increasingly crucial to address the bias that could occur in these systems. Several fairness pre-processing algorithms are available to alleviate implicit biases during model training. These algorithms employ different concepts of fairness, often leading to conflicting strategies with consequential trade-offs between fairness and accuracy. In this work, we evaluate three popular fairness pre-processing algorithms and investigate the potential for combining all algorithms into a more robust pre-processing ensemble. We report on lessons learned that can help practitioners better select fairness algorithms for their models.
translated by 谷歌翻译
软件偏见是软件工程师越来越重要的操作问题。我们提出了17种代表性缓解方法的大规模,全面的经验评估,该方法通过1​​2个机器学习(ML)绩效指标,4项公平度量指标和24种类型的公平性 - 性能权衡评估,应用于8种广泛采用的公平性折衷评估基准软件决策/预测任务。与以前在此重要的操作软件特征上的工作相比,经验覆盖范围是全面的,涵盖了最多的偏见缓解方法,评估指标和公平性的绩效权衡措施。我们发现(1)偏置缓解方法大大降低了所有ML性能指标(包括先前工作中未考虑的指标)所报告的值,在很大一部分的情况下(根据不同的ML性能指标为42%〜75%) ; (2)在所有情况和指标中,偏置缓解方法仅在约50%的情况下获得公平性改善(根据用于评估偏见/公平性的指标,介于29%〜59%之间); (3)缓解偏见的方法的表现不佳,甚至导致37%的情况下的公平性和ML性能下降; (4)缓解偏差方法的有效性取决于任务,模型,公平性和ML性能指标,并且没有证明对所有研究的情况有效的“银弹”缓解方法。在仅29%的方案中,我们发现优于其他方法的最佳缓解方法。我们已公开提供本研究中使用的脚本和数据,以便将来复制和扩展我们的工作。
translated by 谷歌翻译
We introduce a new rule-based optimization method for classification with constraints. The proposed method takes advantage of linear programming and column generation, and hence, is scalable to large datasets. Moreover, the method returns a set of rules along with their optimal weights indicating the importance of each rule for learning. Through assigning cost coefficients to the rules and introducing additional constraints, we show that one can also consider interpretability and fairness of the results. We test the performance of the proposed method on a collection of datasets and present two case studies to elaborate its different aspects. Our results show that a good compromise between interpretability and fairness on the one side, and accuracy on the other side, can be obtained by the proposed rule-based learning method.
translated by 谷歌翻译
数据驱动的AI系统可以根据性别或种族等保护属性导致歧视。这种行为的一个原因是训练数据中的编码的社会偏见(例如,女性是不平衡的,这在不平衡的阶级分布情况下加剧(例如,“授予”是少数阶级)。最先进的公平知识机器学习方法专注于保持\ emph {总体}分类准确性,同时提高公平性。在类别的不平衡存在下,这种方法可以进一步加剧歧视问题,通过否认已经不足的群体(例如,\ Texit {女性})的基本社会特权(例如,平等信用机会)的基本权利。为此,我们提出了Adafair,一个公平知识的提升集合,可以在每轮的数据分布中改变数据分布,同时考虑到阶级错误,还考虑到基于部分集合累积累积的模型的公平相关性能。除了培训集团的培训促进,除了每轮歧视,Adafair通过优化用于平衡错误性能(BER)的集成学习者的数量,直接在训练后阶段解决不平衡。 Adafair可以促进基于不同的基于奇偶阶级的公平概念并有效减轻歧视性结果。我们的实验表明,我们的方法可以在统计阶段,平等机会方面实现平价,同时保持所有课程的良好预测性能。
translated by 谷歌翻译
在机器学习模型道德偏见已经成为软件工程界关注的一个问题。大多数现有软件工程的作品集中在模型寻找道德偏见,而不是修复它。发现偏差后,下一步就是缓解。在此之前研究人员主要是试图利用监督的方法来实现公平。与值得信赖的地面实况然而,在现实世界中,获得的数据是具有挑战性的,也基本事实可以包含人为偏差。半监督学习是一种机器学习技术,其中,递增地,标记的数据被用于生成伪标签中的数据的剩余部分(然后全部数据被用于模型训练)。在这项工作中,我们采用四种常用的半监督技术作为伪贴标创造公平分类模型。我们的框架,公平SSL,需要标记的数据的一个非常小的量(10%)作为输入,并为未标记的数据生成伪标签。然后,我们综合生成新的数据点,以平衡基础类,并提议Chakraborty等人的保护属性的训练数据。在2021年FSE最后,分类模型被训练在平衡伪标记的数据和测试数据进行了验证。实验十项数据集和三个学生后,我们发现,公平SSL实现了性能先进设备,最先进的三个偏置抑制算法类似。这就是说,公平SSL的明显优势在于,它仅需要10%的标记的训练数据。据我们所知,这是在半监督技术被用来针对SE型号ML道德偏见争第一SE工作。
translated by 谷歌翻译
Dataset scaling, also known as normalization, is an essential preprocessing step in a machine learning pipeline. It is aimed at adjusting attributes scales in a way that they all vary within the same range. This transformation is known to improve the performance of classification models, but there are several scaling techniques to choose from, and this choice is not generally done carefully. In this paper, we execute a broad experiment comparing the impact of 5 scaling techniques on the performances of 20 classification algorithms among monolithic and ensemble models, applying them to 82 publicly available datasets with varying imbalance ratios. Results show that the choice of scaling technique matters for classification performance, and the performance difference between the best and the worst scaling technique is relevant and statistically significant in most cases. They also indicate that choosing an inadequate technique can be more detrimental to classification performance than not scaling the data at all. We also show how the performance variation of an ensemble model, considering different scaling techniques, tends to be dictated by that of its base model. Finally, we discuss the relationship between a model's sensitivity to the choice of scaling technique and its performance and provide insights into its applicability on different model deployment scenarios. Full results and source code for the experiments in this paper are available in a GitHub repository.\footnote{https://github.com/amorimlb/scaling\_matters}
translated by 谷歌翻译
如今机器学习(ML)技术在许多社交敏感的系统中广泛采用,因此需要仔细研究这些系统所采取的决策的公平性。已经提出了许多方法来解决,并确保没有针对个人或特定群体的偏见,这可能来自偏置训练数据集或算法设计。在这方面,我们提出了一种称为eifffel的公平强化方法:通过翻转叶片来强制森林中的公平,该叶片剥夺了基于树木的或基于叶片的后处理策略来重新制作给定森林的选定决策树的叶子。实验结果表明,我们的方法实现了用户定义的群体公平程度,而不会失去大量的准确性。
translated by 谷歌翻译
自几十年前以来,已经证明了机器学习评估贷款申请人信誉的实用性。但是,自动决策可能会导致对群体或个人的不同治疗方法,可能导致歧视。本文基准了12种最大的偏见缓解方法,讨论其绩效,该绩效基于5个不同的公平指标,获得的准确性以及为金融机构提供的潜在利润。我们的发现表明,在确保准确性和利润的同时,实现公平性方面的困难。此外,它突出了一些表现最好和最差的人,并有助于弥合实验机学习及其工业应用之间的差距。
translated by 谷歌翻译
Labeling a module defective or non-defective is an expensive task. Hence, there are often limits on how much-labeled data is available for training. Semi-supervised classifiers use far fewer labels for training models, but there are numerous semi-supervised methods, including self-labeling, co-training, maximal-margin, and graph-based methods, to name a few. Only a handful of these methods have been tested in SE for (e.g.) predicting defects and even that, those tests have been on just a handful of projects. This paper takes a wide range of 55 semi-supervised learners and applies these to over 714 projects. We find that semi-supervised "co-training methods" work significantly better than other approaches. However, co-training needs to be used with caution since the specific choice of co-training methods needs to be carefully selected based on a user's specific goals. Also, we warn that a commonly-used co-training method ("multi-view"-- where different learners get different sets of columns) does not improve predictions (while adding too much to the run time costs 11 hours vs. 1.8 hours). Those cautions stated, we find using these "co-trainers," we can label just 2.5% of data, then make predictions that are competitive to those using 100% of the data. It is an open question worthy of future work to test if these reductions can be seen in other areas of software analytics. All the codes used and datasets analyzed during the current study are available in the https://GitHub.com/Suvodeep90/Semi_Supervised_Methods.
translated by 谷歌翻译
鉴于神经网络有区别,公平性改善的问题是系统地减少歧视,而不会显着削弱其性能(即准确性)。已经提出了针对神经网络的多种公平改进方法,包括预处理,处理和后处理。然而,我们的实证研究表明,这些方法并不总是有效的(例如,它们可以通过支付巨大准确性下降的价格来提高公平性),甚至没有帮助(例如,它们甚至可能使公平性和准确性都恶化)。在这项工作中,我们提出了一种基于因果分析的公平性改进方法的方法。也就是说,我们根据如何在输入属性和隐藏的神经元之间分布的神经元和属性如何选择方法。我们的实验评估表明,我们的方法是有效的(即,始终确定最佳的公平改善方法)和有效的效率(即,平均时间开销为5分钟)。
translated by 谷歌翻译
机器学习(ML)在渲染影响社会各个群体的决策中起着越来越重要的作用。 ML模型为刑事司法的决定,银行业中的信贷延长以及公司的招聘做法提供了信息。这提出了模型公平性的要求,这表明自动化的决策对于受保护特征(例如,性别,种族或年龄)通常是公平的,这些特征通常在数据中代表性不足。我们假设这个代表性不足的问题是数据学习不平衡问题的必然性。此类不平衡通常反映在两个类别和受保护的功能中。例如,一个班级(那些获得信用的班级)对于另一个班级(未获得信用的人)可能会过分代表,而特定组(女性)(女性)的代表性可能与另一组(男性)有关。相对于受保护组的算法公平性的关键要素是同时减少了基础培训数据中的类和受保护的群体失衡,这促进了模型准确性和公平性的提高。我们通过展示这些领域中的关键概念如何重叠和相互补充,讨论弥合失衡学习和群体公平的重要性;并提出了一种新颖的过采样算法,即公平的过采样,该算法既解决偏斜的类别分布和受保护的特征。我们的方法:(i)可以用作标准ML算法的有效预处理算法,以共同解决不平衡和群体权益; (ii)可以与公平感知的学习算法结合使用,以提高其对不同水平不平衡水平的稳健性。此外,我们迈出了一步,将公平和不平衡学习之间的差距与新的公平实用程序之间的差距弥合,从而将平衡的准确性与公平性结合在一起。
translated by 谷歌翻译
比较不同的汽车框架是具有挑战性的,并且经常做错了。我们引入了一个开放且可扩展的基准测试,该基准遵循最佳实践,并在比较自动框架时避免常见错误。我们对71个分类和33项回归任务进行了9个著名的自动框架进行了详尽的比较。通过多面分析,评估模型的准确性,与推理时间的权衡以及框架失败,探索了自动框架之间的差异。我们还使用Bradley-terry树来发现相对自动框架排名不同的任务子集。基准配备了一个开源工具,该工具与许多自动框架集成并自动化经验评估过程端到端:从框架安装和资源分配到深入评估。基准测试使用公共数据集,可以轻松地使用其他Automl框架和任务扩展,并且具有最新结果的网站。
translated by 谷歌翻译
分类器的合奏结合了几个单个分类器,以提供最终的预测或分类决策。一个越来越令人发指的问题是,此类系统是否可以胜过单个最佳分类器。如果是这样,哪种形式的分类器合奏(也称为多个分类器学习系统或多个分类器)在合奏本身的规模或多样性中产生最重要的好处?鉴于用于检测自闭症特征的测试是耗时且昂贵的,因此开发了一种将提供最佳结果和测量自闭症谱系障碍(ASD)的系统。在本文中,评估了几个单一和后来的多个分类器学习系统,以预测和确定影响或有助于ASD的因素出于早期筛查目的的能力。行为数据和机器人增强疗法的3,000次课程和300小时的数据集,该疗法被记录为61名儿童。仿真结果表明,与单个分类器相比,多个分类器学习系统(尤其是每个集合具有三个分类器的人)的优越预测性能,可以通过装袋和增强获得出色的结果。看来,社会交流手势仍然是儿童ASD问题的关键因素。
translated by 谷歌翻译
由于欺诈模式随着时间的流逝而变化,并且欺诈示例的可用性有限,以学习这种复杂的模式,因此欺诈检测是一项具有挑战性的任务。因此,借助智能版本的机器学习(ML)工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务;但是,相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外,在不平衡类中的分类非常具有挑战性,因为它在少数群体中导致绩效差,大多数ML分类技术都忽略了。因此,我们研究了四种最先进的ML技术,即逻辑回归,决策树,随机森林和极端梯度提升,它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先,这些分类器经过两个原始基准测试不平衡检测数据集的培训,即网站网站URL和欺诈性信用卡交易。然后,通过实现采样框架,即RandomundSampler,Smote和Smoteenn,为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性,即接收器操作特性(AUC ROC)和精度和召回曲线下的面积(AUC PR)(AUC PR)。对于网络钓鱼网站URL和信用卡欺诈事务数据集,结果表明,对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能,并以AUC ROC和AUC PR来超越其他三种方法。
translated by 谷歌翻译
了解机器学习(ML)管道不同阶段的多重公平性增强干预措施的累积效应是公平文献的关键且毫无疑问的方面。这些知识对于数据科学家/ML从业人员设计公平的ML管道可能很有价值。本文通过进行了一项广泛的经验研究迈出了探索该领域的第一步,其中包括60种干预措施,9个公平指标,2个公用事业指标(准确性和F1得分),跨4个基准数据集。我们定量分析实验数据,以衡量多种干预措施对公平,公用事业和人口群体的影响。我们发现,采用多种干预措施会导致更好的公平性和更低的效用,而不是个人干预措施。但是,添加更多的干预措施并不总是会导致更好的公平或更差的公用事业。达到高性能(F1得分)以及高公平的可能性随大的干预措施增加。不利的一面是,我们发现提高公平的干预措施会对不同的人群群体,尤其是特权群体产生负面影响。这项研究强调了对新的公平指标的必要性,这些指标是对不同人口群体的影响,除了群体之间的差异。最后,我们提供了一系列干预措施的列表,这些措施为不同的公平和公用事业指标做得最好,以帮助设计公平的ML管道。
translated by 谷歌翻译
装袋和升压是在机器学习(ml)中的两个流行的集合方法,产生许多单独的决策树。由于这些方法的固有组合特性,它们通常以预测性能更优于单决定树或其他ML模型。然而,为每个决策树生成许多决定路径,增加了模型的整体复杂性,并阻碍了其在需要值得信赖和可解释的决策的域中的域,例如金融,社会护理和保健。因此,随着决策的数量升高,袋装和升降算法(例如随机森林和自适应升压)的解释性降低。在本文中,我们提出了一种视觉分析工具,该工具旨在帮助用户通过彻底的视觉检查工作流程从这种ML模型中提取决策,包括选择一套鲁棒和不同的模型(源自不同的集合学习算法),选择重要的功能根据他们的全球贡献,决定哪些决定对于全球解释(或本地,具体案件)是必不可少的。结果是基于多个模型的协议和用户出口的探索手动决策的最终决定。最后,我们通过用例,使用场景和用户学习评估患者的适用性和有效性。
translated by 谷歌翻译
It is of critical importance to be aware of the historical discrimination embedded in the data and to consider a fairness measure to reduce bias throughout the predictive modeling pipeline. Given various notions of fairness defined in the literature, investigating the correlation and interaction among metrics is vital for addressing unfairness. Practitioners and data scientists should be able to comprehend each metric and examine their impact on one another given the context, use case, and regulations. Exploring the combinatorial space of different metrics for such examination is burdensome. To alleviate the burden of selecting fairness notions for consideration, we propose a framework that estimates the correlation among fairness notions. Our framework consequently identifies a set of diverse and semantically distinct metrics as representative for a given context. We propose a Monte-Carlo sampling technique for computing the correlations between fairness metrics by indirect and efficient perturbation in the model space. Using the estimated correlations, we then find a subset of representative metrics. The paper proposes a generic method that can be generalized to any arbitrary set of fairness metrics. We showcase the validity of the proposal using comprehensive experiments on real-world benchmark datasets.
translated by 谷歌翻译
解决现实数据科学问题的一个关键元素正在选择要使用的模型类型。通常建议使用表格数据的分类和回归问题的树集合模型(如XGBoost)。然而,最近已经提出了几种用于表格数据的深层学习模型,声称对某些用例倾斜XGBoost。本文探讨了这些深度模型是否应该是通过严格将新的深层模型与各种数据集上的XGBoost进行比较来推荐的表格数据。除了系统地比较他们的性能外,我们还考虑他们所需要的调谐和计算。我们的研究表明,XGBoost在数据集中优于这些深度模型,包括提出深层模型的论文中使用的数据集。我们还证明XGBoost需要更少的调整。在积极的一面,我们表明,深层模型和XGBoost的集合在这些数据集上仅仅比XGBoost更好。
translated by 谷歌翻译
算法决策的兴起催生了许多关于公平机器学习(ML)的研究。金融机构使用ML来建立支持一系列与信贷有关的决定的风险记分卡。然而,关于信用评分的公平ML的文献很少。该论文做出了三项贡献。首先,我们重新审视统计公平标准,并检查其对信用评分的适当性。其次,我们对将公平目标纳入ML模型开发管道中的算法选项进行了分类。最后,我们从经验上比较了使用现实世界数据以利润为导向的信用评分上下文中的不同公平处理器。经验结果证实了对公平措施的评估,确定了实施公平信用评分的合适选择,并阐明了贷款决策中的利润权衡。我们发现,可以立即达到多个公平标准,并建议分离作为衡量记分卡的公平性的适当标准。我们还发现公平的过程中,可以在利润和公平之间实现良好的平衡,并表明算法歧视可以以相对较低的成本降低到合理的水平。与该论文相对应的代码可在GitHub上获得。
translated by 谷歌翻译