在机器学习模型道德偏见已经成为软件工程界关注的一个问题。大多数现有软件工程的作品集中在模型寻找道德偏见,而不是修复它。发现偏差后,下一步就是缓解。在此之前研究人员主要是试图利用监督的方法来实现公平。与值得信赖的地面实况然而,在现实世界中,获得的数据是具有挑战性的,也基本事实可以包含人为偏差。半监督学习是一种机器学习技术,其中,递增地,标记的数据被用于生成伪标签中的数据的剩余部分(然后全部数据被用于模型训练)。在这项工作中,我们采用四种常用的半监督技术作为伪贴标创造公平分类模型。我们的框架,公平SSL,需要标记的数据的一个非常小的量(10%)作为输入,并为未标记的数据生成伪标签。然后,我们综合生成新的数据点,以平衡基础类,并提议Chakraborty等人的保护属性的训练数据。在2021年FSE最后,分类模型被训练在平衡伪标记的数据和测试数据进行了验证。实验十项数据集和三个学生后,我们发现,公平SSL实现了性能先进设备,最先进的三个偏置抑制算法类似。这就是说,公平SSL的明显优势在于,它仅需要10%的标记的训练数据。据我们所知,这是在半监督技术被用来针对SE型号ML道德偏见争第一SE工作。
translated by 谷歌翻译
Labeling a module defective or non-defective is an expensive task. Hence, there are often limits on how much-labeled data is available for training. Semi-supervised classifiers use far fewer labels for training models, but there are numerous semi-supervised methods, including self-labeling, co-training, maximal-margin, and graph-based methods, to name a few. Only a handful of these methods have been tested in SE for (e.g.) predicting defects and even that, those tests have been on just a handful of projects. This paper takes a wide range of 55 semi-supervised learners and applies these to over 714 projects. We find that semi-supervised "co-training methods" work significantly better than other approaches. However, co-training needs to be used with caution since the specific choice of co-training methods needs to be carefully selected based on a user's specific goals. Also, we warn that a commonly-used co-training method ("multi-view"-- where different learners get different sets of columns) does not improve predictions (while adding too much to the run time costs 11 hours vs. 1.8 hours). Those cautions stated, we find using these "co-trainers," we can label just 2.5% of data, then make predictions that are competitive to those using 100% of the data. It is an open question worthy of future work to test if these reductions can be seen in other areas of software analytics. All the codes used and datasets analyzed during the current study are available in the https://GitHub.com/Suvodeep90/Semi_Supervised_Methods.
translated by 谷歌翻译
本文旨在改善多敏感属性的机器学习公平。自机学习软件越来越多地用于高赌注和高风险决策,机器学习公平吸引了越来越多的关注。大多数现有的机器学习公平解决方案一次只针对一个敏感的属性(例如性别),或者具有魔法参数来调整,或者具有昂贵的计算开销。为了克服这些挑战,我们在培训机器学习模型之前,我们建议平衡每种敏感属性的培训数据分布。我们的研究结果表明,在低计算开销的情况下,在低计算开销的情况下,Fairbalancy可以在每一个已知的敏感属性上显着减少公平度量(AOD,EOD和SPD),如果对预测性能有任何损坏,则可以在没有多大的情况下进行任何已知的敏感属性。此外,FairbalanceClass是非游价的变种,可以平衡培训数据中的班级分布。通过FairbalanceClass,预测将不再支持多数阶级,从而在少数阶级获得更高的F $ _1 $得分。 Fairbalance和FairbalanceClass还以预测性能和公平度量而言,在其他最先进的偏置缓解算法中也优于其他最先进的偏置缓解算法。本研究将通过提供一种简单但有效的方法来利用社会来改善具有多个敏感属性数据的机器学习软件的公平性。我们的结果还验证了在具有无偏见的地面真理标签上的数据集上的假设,学习模型中的道德偏置在很大程度上属于每个组内具有(2)类分布中的组大小和(2)差异的训练数据。
translated by 谷歌翻译
机器学习(ML)型号越来越多地用于高股份应用,可以极大地影响人们的生活。尽管他们使用了,但这些模型有可能在种族,性别或种族的基础上向某些社会群体偏见。许多先前的作品已经尝试通过更新训练数据(预处理),改变模型学习过程(处理)或操纵模型输出(后处理)来减轻这种“模型歧视”。但是,这些作品尚未扩展到多敏感参数和敏感选项(MSPSO)的领域,其中敏感参数是可以歧视(例如竞争)和敏感选项的属性(例如,敏感参数(例如黑色或黑色)白色),从而给他们有限的真实可用性。在公平的前后工作也遭受了精度公平的权衡,这可以防止高度的准确性和公平性。此外,以前的文献未能提供与MSPSO的整体公平度量。在本文中,我们通过(a)通过(a)创建一个名为dualfair的新型偏差减轻技术,并开发可以处理MSPSO的新公平度量(即AWI)的新型偏压减轻技术。最后,我们使用全面的U.S抵押贷款数据集测试我们的新型缓解方法,并显示我们的分类器或公平贷款预测仪,比当前最先进的模型获得更好的公平性和准确性指标。
translated by 谷歌翻译
软件偏见是软件工程师越来越重要的操作问题。我们提出了17种代表性缓解方法的大规模,全面的经验评估,该方法通过1​​2个机器学习(ML)绩效指标,4项公平度量指标和24种类型的公平性 - 性能权衡评估,应用于8种广泛采用的公平性折衷评估基准软件决策/预测任务。与以前在此重要的操作软件特征上的工作相比,经验覆盖范围是全面的,涵盖了最多的偏见缓解方法,评估指标和公平性的绩效权衡措施。我们发现(1)偏置缓解方法大大降低了所有ML性能指标(包括先前工作中未考虑的指标)所报告的值,在很大一部分的情况下(根据不同的ML性能指标为42%〜75%) ; (2)在所有情况和指标中,偏置缓解方法仅在约50%的情况下获得公平性改善(根据用于评估偏见/公平性的指标,介于29%〜59%之间); (3)缓解偏见的方法的表现不佳,甚至导致37%的情况下的公平性和ML性能下降; (4)缓解偏差方法的有效性取决于任务,模型,公平性和ML性能指标,并且没有证明对所有研究的情况有效的“银弹”缓解方法。在仅29%的方案中,我们发现优于其他方法的最佳缓解方法。我们已公开提供本研究中使用的脚本和数据,以便将来复制和扩展我们的工作。
translated by 谷歌翻译
住院患者的高血糖治疗对发病率和死亡率都有重大影响。这项研究使用了大型临床数据库来预测需要住院的糖尿病患者的需求,这可能会改善患者的安全性。但是,这些预测可能容易受到社会决定因素(例如种族,年龄和性别)造成的健康差异的影响。这些偏见必须在数据收集过程的早期,在进入系统之前就可以消除,并通过模型预测加强,从而导致模型决策的偏见。在本文中,我们提出了一条能够做出预测以及检测和减轻偏见的机器学习管道。该管道分析了临床数据,确定是否存在偏见,将其删除,然后做出预测。我们使用实验证明了模型预测中的分类准确性和公平性。结果表明,当我们在模型早期减轻偏见时,我们会得到更公平的预测。我们还发现,随着我们获得更好的公平性,我们牺牲了一定程度的准确性,这在先前的研究中也得到了验证。我们邀请研究界为确定可以通过本管道解决的其他因素做出贡献。
translated by 谷歌翻译
机器学习(ML)在渲染影响社会各个群体的决策中起着越来越重要的作用。 ML模型为刑事司法的决定,银行业中的信贷延长以及公司的招聘做法提供了信息。这提出了模型公平性的要求,这表明自动化的决策对于受保护特征(例如,性别,种族或年龄)通常是公平的,这些特征通常在数据中代表性不足。我们假设这个代表性不足的问题是数据学习不平衡问题的必然性。此类不平衡通常反映在两个类别和受保护的功能中。例如,一个班级(那些获得信用的班级)对于另一个班级(未获得信用的人)可能会过分代表,而特定组(女性)(女性)的代表性可能与另一组(男性)有关。相对于受保护组的算法公平性的关键要素是同时减少了基础培训数据中的类和受保护的群体失衡,这促进了模型准确性和公平性的提高。我们通过展示这些领域中的关键概念如何重叠和相互补充,讨论弥合失衡学习和群体公平的重要性;并提出了一种新颖的过采样算法,即公平的过采样,该算法既解决偏斜的类别分布和受保护的特征。我们的方法:(i)可以用作标准ML算法的有效预处理算法,以共同解决不平衡和群体权益; (ii)可以与公平感知的学习算法结合使用,以提高其对不同水平不平衡水平的稳健性。此外,我们迈出了一步,将公平和不平衡学习之间的差距与新的公平实用程序之间的差距弥合,从而将平衡的准确性与公平性结合在一起。
translated by 谷歌翻译
Machine Learning (ML) software has been widely adopted in modern society, with reported fairness implications for minority groups based on race, sex, age, etc. Many recent works have proposed methods to measure and mitigate algorithmic bias in ML models. The existing approaches focus on single classifier-based ML models. However, real-world ML models are often composed of multiple independent or dependent learners in an ensemble (e.g., Random Forest), where the fairness composes in a non-trivial way. How does fairness compose in ensembles? What are the fairness impacts of the learners on the ultimate fairness of the ensemble? Can fair learners result in an unfair ensemble? Furthermore, studies have shown that hyperparameters influence the fairness of ML models. Ensemble hyperparameters are more complex since they affect how learners are combined in different categories of ensembles. Understanding the impact of ensemble hyperparameters on fairness will help programmers design fair ensembles. Today, we do not understand these fully for different ensemble algorithms. In this paper, we comprehensively study popular real-world ensembles: bagging, boosting, stacking and voting. We have developed a benchmark of 168 ensemble models collected from Kaggle on four popular fairness datasets. We use existing fairness metrics to understand the composition of fairness. Our results show that ensembles can be designed to be fairer without using mitigation techniques. We also identify the interplay between fairness composition and data characteristics to guide fair ensemble design. Finally, our benchmark can be leveraged for further research on fair ensembles. To the best of our knowledge, this is one of the first and largest studies on fairness composition in ensembles yet presented in the literature.
translated by 谷歌翻译
As machine learning (ML) systems get adopted in more critical areas, it has become increasingly crucial to address the bias that could occur in these systems. Several fairness pre-processing algorithms are available to alleviate implicit biases during model training. These algorithms employ different concepts of fairness, often leading to conflicting strategies with consequential trade-offs between fairness and accuracy. In this work, we evaluate three popular fairness pre-processing algorithms and investigate the potential for combining all algorithms into a more robust pre-processing ensemble. We report on lessons learned that can help practitioners better select fairness algorithms for their models.
translated by 谷歌翻译
决策的公平在我们社会中是一个长期存在的问题。尽管在机器学习模式中对不公平缓解的研究活动越来越多,但几乎没有研究侧重于减轻人类决策的不公平。人类决策的公平性是重要的,如果没有机器学习模型的公平,因为人类使人类做出最终决定和机器学习模型可以继承自培训的人类决策的过程。因此,这项工作旨在检测人类决策的不公平,这是解决不公平的人为决策问题的第一步。本文建议利用现有的机器学习公平检测机制来检测人类决策的不公平。这背后的理由是,虽然难以直接测试人类是否会使人类不公平决策,但目前对机器学习公平的研究,现在易于测试,以低成本的大规模,是否是机器学习模型不公平。通过在四个一般机器学习公平数据集和一个图像处理数据集中综合不公平标签,本文表明,该方法能够检测(1)培训数据中是否存在不公平标签和(2)的程度和方向不公平。我们认为,这项工作展示了利用机器学习公平来检测人类决策公平性的潜力。在这项工作之后,可以在(1)上进行研究(1)预防未来的不公平决定,(2)修复先前不公平的决定,以及(3)培训更公平的机器学习模型。
translated by 谷歌翻译
分类,一种重大研究的数据驱动机器学习任务,驱动越来越多的预测系统,涉及批准的人类决策,如贷款批准和犯罪风险评估。然而,分类器经常展示歧视性行为,特别是当呈现有偏置数据时。因此,分类公平已经成为一个高优先级的研究区。数据管理研究显示与数据和算法公平有关的主题的增加和兴趣,包括公平分类的主题。公平分类的跨学科努力,具有最大存在的机器学习研究,导致大量的公平概念和尚未系统地评估和比较的广泛方法。在本文中,我们对13个公平分类方法和额外变种的广泛分析,超越,公平,公平,效率,可扩展性,对数据误差的鲁棒性,对潜在的ML模型,数据效率和使用各种指标的稳定性的敏感性和稳定性现实世界数据集。我们的分析突出了对不同指标的影响的新颖见解和高级方法特征对不同方面的性能方面。我们还讨论了选择适合不同实际设置的方法的一般原则,并确定以数据管理为中心的解决方案可能产生最大影响的区域。
translated by 谷歌翻译
软件2.0是软件工程的根本班次,机器学习成为新软件,由大数据和计算基础设施供电。因此,需要重新考虑软件工程,其中数据成为与代码相提并论的一流公民。一个引人注目的观察是,80-90%的机器学习过程都花在数据准备上。没有良好的数据,即使是最好的机器学习算法也不能表现良好。结果,以数据为中心的AI实践现在成为主流。不幸的是,现实世界中的许多数据集是小,肮脏,偏见,甚至中毒。在本调查中,我们研究了数据收集和数据质量的研究景观,主要用于深度学习应用。数据收集很重要,因为对于最近的深度学习方法,功能工程较小,而且需要大量数据。对于数据质量,我们研究数据验证和数据清洁技术。即使数据无法完全清洁,我们仍然可以应对模型培训期间的不完美数据,其中使用鲁棒模型培训技术。此外,虽然在传统数据管理研究中较少研究偏见和公平性,但这些问题成为现代机器学习应用中的重要主题。因此,我们研究了可以在模型培训之前,期间或之后应用的公平措施和不公平的缓解技术。我们相信数据管理界很好地解决了这些方向上的问题。
translated by 谷歌翻译
自几十年前以来,已经证明了机器学习评估贷款申请人信誉的实用性。但是,自动决策可能会导致对群体或个人的不同治疗方法,可能导致歧视。本文基准了12种最大的偏见缓解方法,讨论其绩效,该绩效基于5个不同的公平指标,获得的准确性以及为金融机构提供的潜在利润。我们的发现表明,在确保准确性和利润的同时,实现公平性方面的困难。此外,它突出了一些表现最好和最差的人,并有助于弥合实验机学习及其工业应用之间的差距。
translated by 谷歌翻译
随着机器学习在高风险决策问题中的不断应用,对某些社会群体的人们的潜在算法偏见对个人和我们的整个社会造成了负面影响。在现实世界中,许多此类问题涉及积极和未标记的数据,例如医学诊断,刑事风险评估和推荐系统。例如,在医学诊断中,仅记录诊断性疾病(阳性),而其他疾病则不会(未标记)。尽管在(半)监督和无监督的环境中进行了大量的现有工作,但公平问题在上述正面和未标记的学习(PUL)上下文中基本上却大大不足。在本文中,为了减轻这种张力,我们提出了一种名为Fairpul的公平意识的PUL方法。特别是,对于来自两个人群的个人的二元分类,我们旨在在两个人群中达到相似的真实正利率和假期的误报。基于对PUL的最佳公平分类器的分析,我们设计了模型不合时宜的后处理框架,利用了积极的示例和未标记的示例。从分类错误和公平度量标准方面,我们的框架在统计上是一致的。关于合成和现实世界数据集的实验表明,我们的框架在PUL和公平分类方面的表现都优于最先进。
translated by 谷歌翻译
本文解决了在水模型部署民主化中采用了机器学习的一些挑战。第一个挑战是减少了在主动学习的帮助下减少了标签努力(因此关注数据质量),模型推断与Oracle之间的反馈循环:如在保险中,未标记的数据通常丰富,主动学习可能会成为一个重要的资产减少标签成本。为此目的,本文在研究其对合成和真实数据集的实证影响之前,阐述了各种古典主动学习方法。保险中的另一个关键挑战是模型推论中的公平问题。我们将在此主动学习框架中介绍和整合一个用于多级任务的后处理公平,以解决这两个问题。最后对不公平数据集的数值实验突出显示所提出的设置在模型精度和公平性之间存在良好的折衷。
translated by 谷歌翻译
公平性是确保机器学习(ML)预测系统不会歧视特定个人或整个子人群(尤其是少数族裔)的重要要求。鉴于观察公平概念的固有主观性,文献中已经引入了几种公平概念。本文是一项调查,说明了通过大量示例和场景之间的公平概念之间的微妙之处。此外,与文献中的其他调查不同,它解决了以下问题:哪种公平概念最适合给定的现实世界情景,为什么?我们试图回答这个问题的尝试包括(1)确定手头现实世界情景的一组与公平相关的特征,(2)分析每个公平概念的行为,然后(3)适合这两个元素以推荐每个特定设置中最合适的公平概念。结果总结在决策图中可以由从业者和政策制定者使用,以导航相对较大的ML目录。
translated by 谷歌翻译
Problem statement: Standardisation of AI fairness rules and benchmarks is challenging because AI fairness and other ethical requirements depend on multiple factors such as context, use case, type of the AI system, and so on. In this paper, we elaborate that the AI system is prone to biases at every stage of its lifecycle, from inception to its usage, and that all stages require due attention for mitigating AI bias. We need a standardised approach to handle AI fairness at every stage. Gap analysis: While AI fairness is a hot research topic, a holistic strategy for AI fairness is generally missing. Most researchers focus only on a few facets of AI model-building. Peer review shows excessive focus on biases in the datasets, fairness metrics, and algorithmic bias. In the process, other aspects affecting AI fairness get ignored. The solution proposed: We propose a comprehensive approach in the form of a novel seven-layer model, inspired by the Open System Interconnection (OSI) model, to standardise AI fairness handling. Despite the differences in the various aspects, most AI systems have similar model-building stages. The proposed model splits the AI system lifecycle into seven abstraction layers, each corresponding to a well-defined AI model-building or usage stage. We also provide checklists for each layer and deliberate on potential sources of bias in each layer and their mitigation methodologies. This work will facilitate layer-wise standardisation of AI fairness rules and benchmarking parameters.
translated by 谷歌翻译
在研究人员急于跨所有可用数据或尝试复杂的方法之前,可能是首先检查更简单的替代方案。具体而言,如果历史数据在某些小区域中具有最多的信息,那么也许从该地区学习的模型就足够了,这是项目的其余部分。为支持这一索赔,我们提供了一个案例研究,其中包含240个GitHub项目,在那里我们发现这些项目中的信息“被聚集”朝向项目的最早部分。从前150个提交的缺陷预测模型也有效,或者比最先进的替代品更好。只使用这个早期生命周期数据,我们可以非常快速地构建模型,很早就在软件项目生命周期中。此外,使用这种方法,我们已经显示了一个简单的模型(只有两个功能)概括为数百个软件项目。基于这种经验,我们怀疑概括软件工程缺陷预测模型的事先工作可能有不必要的复杂化本身简单的过程。此外,在从相对无关的区域中得出的结论以来,需要重新讨论焦点生命周期数据的事先工作。 Replication注意:我们所有的数据和脚本都在https://github.com/snaraya7/simplify-software-analytics上线
translated by 谷歌翻译
Automatically generated static code warnings suffer from a large number of false alarms. Hence, developers only take action on a small percent of those warnings. To better predict which static code warnings should not be ignored, we suggest that analysts need to look deeper into their algorithms to find choices that better improve the particulars of their specific problem. Specifically, we show here that effective predictors of such warnings can be created by methods that locally adjust the decision boundary (between actionable warnings and others). These methods yield a new high water-mark for recognizing actionable static code warnings. For eight open-source Java projects (cassandra, jmeter, commons, lucene-solr, maven, ant, tomcat, derby) we achieve perfect test results on 4/8 datasets and, overall, a median AUC (area under the true negatives, true positives curve) of 92%.
translated by 谷歌翻译
The advances in Artificial Intelligence are creating new opportunities to improve lives of people around the world, from business to healthcare, from lifestyle to education. For example, some systems profile the users using their demographic and behavioral characteristics to make certain domain-specific predictions. Often, such predictions impact the life of the user directly or indirectly (e.g., loan disbursement, determining insurance coverage, shortlisting applications, etc.). As a result, the concerns over such AI-enabled systems are also increasing. To address these concerns, such systems are mandated to be responsible i.e., transparent, fair, and explainable to developers and end-users. In this paper, we present ComplAI, a unique framework to enable, observe, analyze and quantify explainability, robustness, performance, fairness, and model behavior in drift scenarios, and to provide a single Trust Factor that evaluates different supervised Machine Learning models not just from their ability to make correct predictions but from overall responsibility perspective. The framework helps users to (a) connect their models and enable explanations, (b) assess and visualize different aspects of the model, such as robustness, drift susceptibility, and fairness, and (c) compare different models (from different model families or obtained through different hyperparameter settings) from an overall perspective thereby facilitating actionable recourse for improvement of the models. It is model agnostic and works with different supervised machine learning scenarios (i.e., Binary Classification, Multi-class Classification, and Regression) and frameworks. It can be seamlessly integrated with any ML life-cycle framework. Thus, this already deployed framework aims to unify critical aspects of Responsible AI systems for regulating the development process of such real systems.
translated by 谷歌翻译