Fairness-aware mining of massive data streams is a growing and challenging concern in the contemporary domain of machine learning. Many stream learning algorithms are used to replace humans at critical decision-making points e.g., hiring staff, assessing credit risk, etc. This calls for handling massive incoming information with minimum response delay while ensuring fair and high quality decisions. Recent discrimination-aware learning methods are optimized based on overall accuracy. However, the overall accuracy is biased in favor of the majority class; therefore, state-of-the-art methods mainly diminish discrimination by partially or completely ignoring the minority class. In this context, we propose a novel adaptation of Na\"ive Bayes to mitigate discrimination embedded in the streams while maintaining high predictive performance for both the majority and minority classes. Our proposed algorithm is simple, fast, and attains multi-objective optimization goals. To handle class imbalance and concept drifts, a dynamic instance weighting module is proposed, which gives more importance to recent instances and less importance to obsolete instances based on their membership in minority or majority class. We conducted experiments on a range of streaming and static datasets and deduced that our proposed methodology outperforms existing state-of-the-art fairness-aware methods in terms of both discrimination score and balanced accuracy.
translated by 谷歌翻译
数据驱动的AI系统可以根据性别或种族等保护属性导致歧视。这种行为的一个原因是训练数据中的编码的社会偏见(例如,女性是不平衡的,这在不平衡的阶级分布情况下加剧(例如,“授予”是少数阶级)。最先进的公平知识机器学习方法专注于保持\ emph {总体}分类准确性,同时提高公平性。在类别的不平衡存在下,这种方法可以进一步加剧歧视问题,通过否认已经不足的群体(例如,\ Texit {女性})的基本社会特权(例如,平等信用机会)的基本权利。为此,我们提出了Adafair,一个公平知识的提升集合,可以在每轮的数据分布中改变数据分布,同时考虑到阶级错误,还考虑到基于部分集合累积累积的模型的公平相关性能。除了培训集团的培训促进,除了每轮歧视,Adafair通过优化用于平衡错误性能(BER)的集成学习者的数量,直接在训练后阶段解决不平衡。 Adafair可以促进基于不同的基于奇偶阶级的公平概念并有效减轻歧视性结果。我们的实验表明,我们的方法可以在统计阶段,平等机会方面实现平价,同时保持所有课程的良好预测性能。
translated by 谷歌翻译
机器学习(ML)在渲染影响社会各个群体的决策中起着越来越重要的作用。 ML模型为刑事司法的决定,银行业中的信贷延长以及公司的招聘做法提供了信息。这提出了模型公平性的要求,这表明自动化的决策对于受保护特征(例如,性别,种族或年龄)通常是公平的,这些特征通常在数据中代表性不足。我们假设这个代表性不足的问题是数据学习不平衡问题的必然性。此类不平衡通常反映在两个类别和受保护的功能中。例如,一个班级(那些获得信用的班级)对于另一个班级(未获得信用的人)可能会过分代表,而特定组(女性)(女性)的代表性可能与另一组(男性)有关。相对于受保护组的算法公平性的关键要素是同时减少了基础培训数据中的类和受保护的群体失衡,这促进了模型准确性和公平性的提高。我们通过展示这些领域中的关键概念如何重叠和相互补充,讨论弥合失衡学习和群体公平的重要性;并提出了一种新颖的过采样算法,即公平的过采样,该算法既解决偏斜的类别分布和受保护的特征。我们的方法:(i)可以用作标准ML算法的有效预处理算法,以共同解决不平衡和群体权益; (ii)可以与公平感知的学习算法结合使用,以提高其对不同水平不平衡水平的稳健性。此外,我们迈出了一步,将公平和不平衡学习之间的差距与新的公平实用程序之间的差距弥合,从而将平衡的准确性与公平性结合在一起。
translated by 谷歌翻译
Concept drift describes unforeseeable changes in the underlying distribution of streaming data over time. Concept drift research involves the development of methodologies and techniques for drift detection, understanding and adaptation. Data analysis has revealed that machine learning in a concept drift environment will result in poor learning results if the drift is not addressed. To help researchers identify which research topics are significant and how to apply related techniques in data analysis tasks, it is necessary that a high quality, instructive review of current research developments and trends in the concept drift field is conducted. In addition, due to the rapid development of concept drift in recent years, the methodologies of learning under concept drift have become noticeably systematic, unveiling a framework which has not been mentioned in literature. This paper reviews over 130 high quality publications in concept drift related research areas, analyzes up-to-date developments in methodologies and techniques, and establishes a framework of learning under concept drift including three main components: concept drift detection, concept drift understanding, and concept drift adaptation. This paper lists and discusses 10 popular synthetic datasets and 14 publicly available benchmark datasets used for evaluating the performance of learning algorithms aiming at handling concept drift. Also, concept drift related research directions are covered and discussed. By providing state-of-the-art knowledge, this survey will directly support researchers in their understanding of research developments in the field of learning under concept drift.
translated by 谷歌翻译
如今机器学习(ML)技术在许多社交敏感的系统中广泛采用,因此需要仔细研究这些系统所采取的决策的公平性。已经提出了许多方法来解决,并确保没有针对个人或特定群体的偏见,这可能来自偏置训练数据集或算法设计。在这方面,我们提出了一种称为eifffel的公平强化方法:通过翻转叶片来强制森林中的公平,该叶片剥夺了基于树木的或基于叶片的后处理策略来重新制作给定森林的选定决策树的叶子。实验结果表明,我们的方法实现了用户定义的群体公平程度,而不会失去大量的准确性。
translated by 谷歌翻译
班级失衡对机器学习构成了重大挑战,因为大多数监督学习模型可能对多数级别和少数族裔表现不佳表现出偏见。成本敏感的学习通过以不同的方式处理类别,通常通过用户定义的固定错误分类成本矩阵来解决此问题,以提供给学习者的输入。这种参数调整是一项具有挑战性的任务,需要域知识,此外,错误的调整可能会导致整体预测性能恶化。在这项工作中,我们为不平衡数据提出了一种新颖的成本敏感方法,该方法可以动态地调整错误分类的成本,以响应Model的性能,而不是使用固定的错误分类成本矩阵。我们的方法称为ADACC,是无参数的,因为它依赖于增强模型的累积行为,以便调整下一次增强回合的错误分类成本,并具有有关培训错误的理论保证。来自不同领域的27个现实世界数据集的实验表明,我们方法的优势超过了12种最先进的成本敏感方法,这些方法在不同度量方面表现出一致的改进,例如[0.3] AUC的%-28.56%],平衡精度[3.4%-21.4%],Gmean [4.8%-45%]和[7.4%-85.5%]用于召回。
translated by 谷歌翻译
流数据分类的重要问题之一是概念漂移的发生,包括分类任务的概率特征的变化。这种现象不稳定了分类模型的性能,并严重降低了其质量。需要抵消这种现象的适当策略来使分类器适应变化的概率特征。实现此类解决方案的一个重要问题是访问数据标签。它通常是昂贵的,从而最大限度地减少与该过程相关的费用,提出了基于半监督学习的学习策略,例如,采用主动学习方法,该方法指示哪些传入对象是有价值的,以便标记为提高分类器的性能。本文提出了一种基于基于分类器集合学习的非静止数据流的基于块的方法,以及考虑可以成功应用于任何数据流分类算法的有限预算的主动学习策略。已经通过使用真实和生成的数据流进行了计算机实验来评估所提出的方法。结果证实了最先进的方法的高质量。
translated by 谷歌翻译
Concept drift primarily refers to an online supervised learning scenario when the relation between the input data and the target variable changes over time. Assuming a general knowledge of supervised learning in this paper we characterize adaptive learning process, categorize existing strategies for handling concept drift, overview the most representative, distinct and popular techniques and algorithms, discuss evaluation methodology of adaptive algorithms, and present a set of illustrative applications. The survey covers the different facets of concept drift in an integrated way to reflect on the existing scattered state-of-the-art. Thus, it aims at providing a comprehensive introduction to the concept drift adaptation for researchers, industry analysts and practitioners.
translated by 谷歌翻译
挖掘数据流姿势存在许多挑战,包括数据的连续和非静止性质,待处理的大量信息和限制计算资源。虽然在文献中提出了一些针对这个问题的监督解决方案,但大多数人都假定访问地面真理(以类标签的形式)是无限的,并且在更新学习系统时可以立即使用此类信息。这远非现实,因为必须考虑获取标签的基本成本。因此,需要解决流方案中实际真相要求的解决方案。在本文中,通过组合来自主动学习和自我标签的信息,提出了一种用于预算的挖水数据流的新框架。我们介绍了几种策略,可以利用智能实例选择和半监督程序,同时考虑到概念漂移的潜在存在。这种混合方法允许有效的探索和利用在现实标记预算中的流数据结构。由于我们的框架工作为包装器,因此它可以应用于不同的学习算法。实验研究,在具有各种类型的概念漂移的多样化现实数据流中进行的实验研究,证明了在处理对类标签的高度限制时拟议的策略的有用性。当一个人不能增加标签或更换低效分类器的预算时,呈现的混合方法尤其可行。我们为我们的战略提供了一套关于适用性领域的建议。
translated by 谷歌翻译
最近的研究表明,用于公平感知机器学习的数据集用于多个受保护的属性(以下称为多歧视)通常是不平衡的。对于关键少数群体中通常代表性不足的受保护群体(例如,女性,非白人等),阶级不平衡问题更为严重。尽管如此,现有的方法仅着眼于整体误差歧视权衡取舍,忽略了不平衡问题,从而扩大了少数群体中普遍的偏见。因此,需要解决方案来解决多歧视和阶级不平衡的综合问题。为此,我们引入了一种新的公平度量,多最大的虐待(MMM),该措施考虑了(多属性)受保护的群体和阶级成员的实例,以衡量歧视。为了解决合并的问题,我们提出了一种提升方法,该方法将MMM成本纳入分销更新和培训后选择了精确,平衡和公平解决方案之间的最佳权衡。实验结果表明,我们的方法与最先进的方法的优越性在跨群体和类别的最佳平衡性能以及对少数族裔阶层中受保护群体的最佳准确性方面的优势。
translated by 谷歌翻译
自几十年前以来,已经证明了机器学习评估贷款申请人信誉的实用性。但是,自动决策可能会导致对群体或个人的不同治疗方法,可能导致歧视。本文基准了12种最大的偏见缓解方法,讨论其绩效,该绩效基于5个不同的公平指标,获得的准确性以及为金融机构提供的潜在利润。我们的发现表明,在确保准确性和利润的同时,实现公平性方面的困难。此外,它突出了一些表现最好和最差的人,并有助于弥合实验机学习及其工业应用之间的差距。
translated by 谷歌翻译
预测学生的学习成绩是教育数据挖掘(EDM)的关键任务之一。传统上,这种模型的高预测质量被认为至关重要。最近,公平和歧视W.R.T.受保护的属性(例如性别或种族)引起了人们的关注。尽管EDM中有几种公平感知的学习方法,但对这些措施的比较评估仍然缺失。在本文中,我们评估了各种教育数据集和公平感知学习模型上学生绩效预测问题的不同群体公平措施。我们的研究表明,公平度量的选择很重要,对于选择等级阈值的选择同样。
translated by 谷歌翻译
随着机器学习在高风险决策问题中的不断应用,对某些社会群体的人们的潜在算法偏见对个人和我们的整个社会造成了负面影响。在现实世界中,许多此类问题涉及积极和未标记的数据,例如医学诊断,刑事风险评估和推荐系统。例如,在医学诊断中,仅记录诊断性疾病(阳性),而其他疾病则不会(未标记)。尽管在(半)监督和无监督的环境中进行了大量的现有工作,但公平问题在上述正面和未标记的学习(PUL)上下文中基本上却大大不足。在本文中,为了减轻这种张力,我们提出了一种名为Fairpul的公平意识的PUL方法。特别是,对于来自两个人群的个人的二元分类,我们旨在在两个人群中达到相似的真实正利率和假期的误报。基于对PUL的最佳公平分类器的分析,我们设计了模型不合时宜的后处理框架,利用了积极的示例和未标记的示例。从分类错误和公平度量标准方面,我们的框架在统计上是一致的。关于合成和现实世界数据集的实验表明,我们的框架在PUL和公平分类方面的表现都优于最先进。
translated by 谷歌翻译
基于机器学习的决策支持系统的利用率增加强调了导致所有利益相关者准确和公平的预测的必要性。在这项工作中,我们提出了一种新的方法,可以在训练期间提高神经网络模型的公平性。我们介绍了一系列公平性,增强了我们与传统的二进制交叉熵基准损耗一起使用的正规化组件。这些损失函数基于偏置奇偶校验分数(BPS),一个分数有助于使用单个数字量化模型中的偏差。在目前的工作中,我们调查这些正则化组件对偏见的行为和效果。我们在累犯预测任务以及基于人口普查的成人收入数据集的上下文中部署它们。结果表明,对于公平损失功能的良好选择,我们可以减少训练有素的模型的偏置,而不会降低精度,即使在不平衡数据集中也是如此。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
住院患者的高血糖治疗对发病率和死亡率都有重大影响。这项研究使用了大型临床数据库来预测需要住院的糖尿病患者的需求,这可能会改善患者的安全性。但是,这些预测可能容易受到社会决定因素(例如种族,年龄和性别)造成的健康差异的影响。这些偏见必须在数据收集过程的早期,在进入系统之前就可以消除,并通过模型预测加强,从而导致模型决策的偏见。在本文中,我们提出了一条能够做出预测以及检测和减轻偏见的机器学习管道。该管道分析了临床数据,确定是否存在偏见,将其删除,然后做出预测。我们使用实验证明了模型预测中的分类准确性和公平性。结果表明,当我们在模型早期减轻偏见时,我们会得到更公平的预测。我们还发现,随着我们获得更好的公平性,我们牺牲了一定程度的准确性,这在先前的研究中也得到了验证。我们邀请研究界为确定可以通过本管道解决的其他因素做出贡献。
translated by 谷歌翻译
分类,一种重大研究的数据驱动机器学习任务,驱动越来越多的预测系统,涉及批准的人类决策,如贷款批准和犯罪风险评估。然而,分类器经常展示歧视性行为,特别是当呈现有偏置数据时。因此,分类公平已经成为一个高优先级的研究区。数据管理研究显示与数据和算法公平有关的主题的增加和兴趣,包括公平分类的主题。公平分类的跨学科努力,具有最大存在的机器学习研究,导致大量的公平概念和尚未系统地评估和比较的广泛方法。在本文中,我们对13个公平分类方法和额外变种的广泛分析,超越,公平,公平,效率,可扩展性,对数据误差的鲁棒性,对潜在的ML模型,数据效率和使用各种指标的稳定性的敏感性和稳定性现实世界数据集。我们的分析突出了对不同指标的影响的新颖见解和高级方法特征对不同方面的性能方面。我们还讨论了选择适合不同实际设置的方法的一般原则,并确定以数据管理为中心的解决方案可能产生最大影响的区域。
translated by 谷歌翻译
决策的公平在我们社会中是一个长期存在的问题。尽管在机器学习模式中对不公平缓解的研究活动越来越多,但几乎没有研究侧重于减轻人类决策的不公平。人类决策的公平性是重要的,如果没有机器学习模型的公平,因为人类使人类做出最终决定和机器学习模型可以继承自培训的人类决策的过程。因此,这项工作旨在检测人类决策的不公平,这是解决不公平的人为决策问题的第一步。本文建议利用现有的机器学习公平检测机制来检测人类决策的不公平。这背后的理由是,虽然难以直接测试人类是否会使人类不公平决策,但目前对机器学习公平的研究,现在易于测试,以低成本的大规模,是否是机器学习模型不公平。通过在四个一般机器学习公平数据集和一个图像处理数据集中综合不公平标签,本文表明,该方法能够检测(1)培训数据中是否存在不公平标签和(2)的程度和方向不公平。我们认为,这项工作展示了利用机器学习公平来检测人类决策公平性的潜力。在这项工作之后,可以在(1)上进行研究(1)预防未来的不公平决定,(2)修复先前不公平的决定,以及(3)培训更公平的机器学习模型。
translated by 谷歌翻译
本文解决了在水模型部署民主化中采用了机器学习的一些挑战。第一个挑战是减少了在主动学习的帮助下减少了标签努力(因此关注数据质量),模型推断与Oracle之间的反馈循环:如在保险中,未标记的数据通常丰富,主动学习可能会成为一个重要的资产减少标签成本。为此目的,本文在研究其对合成和真实数据集的实证影响之前,阐述了各种古典主动学习方法。保险中的另一个关键挑战是模型推论中的公平问题。我们将在此主动学习框架中介绍和整合一个用于多级任务的后处理公平,以解决这两个问题。最后对不公平数据集的数值实验突出显示所提出的设置在模型精度和公平性之间存在良好的折衷。
translated by 谷歌翻译
在处理自动化数据驱动的决策中的敏感数据时,一个重要的问题是学习具有高性能的预测因素对类标签进行高性能,同时最小化对从偏置数据引起的性别或种族的任何敏感属性的歧视。存在一些混合树优化标准,即结合分类性能和公平性。虽然无阈值ROC-AUC是测量传统分类模型性能的标准,但目前的公平树分类方法主要针对分类任务以及公平度量的固定阈值优化。在本文中,我们提出了一种复合分裂标准,其将无阈值(即,强)人口统计平价与Roc-Auc称为公允剧的Scaff - 分裂标准AUC - 并且容易延伸到袋装和提升的树框架。我们的方法同时利用多个敏感属性,其中值可以是多语言的或交叉的,并且可以针对不可避免的性能公平折衷来调谐。在我们的实验中,我们展示了Scaff如何在二进制,多语言和多敏感属性方面产生具有性能和公平的模型。
translated by 谷歌翻译