班级失衡对机器学习构成了重大挑战,因为大多数监督学习模型可能对多数级别和少数族裔表现不佳表现出偏见。成本敏感的学习通过以不同的方式处理类别,通常通过用户定义的固定错误分类成本矩阵来解决此问题,以提供给学习者的输入。这种参数调整是一项具有挑战性的任务,需要域知识,此外,错误的调整可能会导致整体预测性能恶化。在这项工作中,我们为不平衡数据提出了一种新颖的成本敏感方法,该方法可以动态地调整错误分类的成本,以响应Model的性能,而不是使用固定的错误分类成本矩阵。我们的方法称为ADACC,是无参数的,因为它依赖于增强模型的累积行为,以便调整下一次增强回合的错误分类成本,并具有有关培训错误的理论保证。来自不同领域的27个现实世界数据集的实验表明,我们方法的优势超过了12种最先进的成本敏感方法,这些方法在不同度量方面表现出一致的改进,例如[0.3] AUC的%-28.56%],平衡精度[3.4%-21.4%],Gmean [4.8%-45%]和[7.4%-85.5%]用于召回。
translated by 谷歌翻译
数据驱动的AI系统可以根据性别或种族等保护属性导致歧视。这种行为的一个原因是训练数据中的编码的社会偏见(例如,女性是不平衡的,这在不平衡的阶级分布情况下加剧(例如,“授予”是少数阶级)。最先进的公平知识机器学习方法专注于保持\ emph {总体}分类准确性,同时提高公平性。在类别的不平衡存在下,这种方法可以进一步加剧歧视问题,通过否认已经不足的群体(例如,\ Texit {女性})的基本社会特权(例如,平等信用机会)的基本权利。为此,我们提出了Adafair,一个公平知识的提升集合,可以在每轮的数据分布中改变数据分布,同时考虑到阶级错误,还考虑到基于部分集合累积累积的模型的公平相关性能。除了培训集团的培训促进,除了每轮歧视,Adafair通过优化用于平衡错误性能(BER)的集成学习者的数量,直接在训练后阶段解决不平衡。 Adafair可以促进基于不同的基于奇偶阶级的公平概念并有效减轻歧视性结果。我们的实验表明,我们的方法可以在统计阶段,平等机会方面实现平价,同时保持所有课程的良好预测性能。
translated by 谷歌翻译
从不平衡数据中学习是一项具有挑战性的任务。在进行不平衡数据训练时,标准分类算法的性能往往差。需要通过修改数据分布或重新设计基础分类算法以实现理想的性能来采用一些特殊的策略。现实世界数据集中不平衡的流行率导致为班级不平衡问题创造了多种策略。但是,并非所有策略在不同的失衡情况下都有用或提供良好的性能。处理不平衡的数据有许多方法,但是尚未进行此类技术的功效或这些技术之间的实验比较。在这项研究中,我们对26种流行抽样技术进行了全面分析,以了解它们在处理不平衡数据方面的有效性。在50个数据集上进行了严格的实验,具有不同程度的不平衡,以彻底研究这些技术的性能。已经提出了对技术的优势和局限性的详细讨论,以及如何克服此类局限性。我们确定了影响采样策略的一些关键因素,并提供有关如何为特定应用选择合适的采样技术的建议。
translated by 谷歌翻译
分类链是一种用于在多标签分类中建模标签依赖性的有效技术。但是,该方法需要标签的固定静态顺序。虽然理论上,任何顺序都足够了,实际上,该订单对最终预测的质量具有大量影响。动态分类链表示每个实例对分类的想法,可以动态选择预测标签的顺序。这种方法的天真实现的复杂性是禁止的,因为它需要训练一系列分类器,以满足标签的每种可能置换。为了有效地解决这个问题,我们提出了一种基于随机决策树的新方法,该方法可以动态地选择每个预测的标签排序。我们凭经验展示了下一个标签的动态选择,通过在否则不变的随机决策树模型下使用静态排序。 %和实验环境。此外,我们还展示了基于极端梯度提升树的替代方法,其允许更具目标的动态分级链训练。我们的结果表明,该变体优于随机决策树和其他基于树的多标签分类方法。更重要的是,动态选择策略允许大大加速培训和预测。
translated by 谷歌翻译
使用不平衡数据集的二进制分类具有挑战性。模型倾向于将所有样本视为属于多数类的样本。尽管现有的解决方案(例如抽样方法,成本敏感方法和合奏学习方法)提高了少数族裔类别的准确性,但这些方法受到过度拟合问题或难以决定的成本参数的限制。我们提出了HADR,这是一种降低尺寸的混合方法,包括数据块构建,降低性降低和与深度神经网络分类器的合奏学习。我们评估了八个不平衡的公共数据集的性能,从召回,g均值和AUC方面。结果表明,我们的模型优于最先进的方法。
translated by 谷歌翻译
最近的研究表明,用于公平感知机器学习的数据集用于多个受保护的属性(以下称为多歧视)通常是不平衡的。对于关键少数群体中通常代表性不足的受保护群体(例如,女性,非白人等),阶级不平衡问题更为严重。尽管如此,现有的方法仅着眼于整体误差歧视权衡取舍,忽略了不平衡问题,从而扩大了少数群体中普遍的偏见。因此,需要解决方案来解决多歧视和阶级不平衡的综合问题。为此,我们引入了一种新的公平度量,多最大的虐待(MMM),该措施考虑了(多属性)受保护的群体和阶级成员的实例,以衡量歧视。为了解决合并的问题,我们提出了一种提升方法,该方法将MMM成本纳入分销更新和培训后选择了精确,平衡和公平解决方案之间的最佳权衡。实验结果表明,我们的方法与最先进的方法的优越性在跨群体和类别的最佳平衡性能以及对少数族裔阶层中受保护群体的最佳准确性方面的优势。
translated by 谷歌翻译
学习(IL)是数据挖掘应用中广泛存在的重要问题。典型的IL方法利用直观的类努力重新采样或重新重量直接平衡训练集。然而,特定领域的一些最近的研究努力表明,在没有课堂上操纵的情况下可以实现类别不平衡的学习。这提示我们思考两种不同的IL战略之间的关系和班级不平衡的性质。从根本上说,它们对应于IL中存在的两个必要的不平衡:来自不同类别的示例之间的数量差异以及单个类中的易于和硬示例之间,即阶级和级别的帧内不平衡。现有工程未能明确地考虑不平衡,因此遭受次优绩效。鉴于此,我们呈现了双重平衡的集合,即杜博士,一个多功能的集合学习框架。与普遍方法不同,Dube直接执行级别的级别和级别的平衡,而无需依赖基于距离的距离的计算,这允许它在计算效率时实现竞争性能。我们还提出了关于基于杜博伊的不同间/内部平衡策略的优缺点的详细讨论和分析。广泛的实验验证了所提出的方法的有效性。代码和示例可在https://github.com/iCde20222sub/duplebalance获得。
translated by 谷歌翻译
Fairness-aware mining of massive data streams is a growing and challenging concern in the contemporary domain of machine learning. Many stream learning algorithms are used to replace humans at critical decision-making points e.g., hiring staff, assessing credit risk, etc. This calls for handling massive incoming information with minimum response delay while ensuring fair and high quality decisions. Recent discrimination-aware learning methods are optimized based on overall accuracy. However, the overall accuracy is biased in favor of the majority class; therefore, state-of-the-art methods mainly diminish discrimination by partially or completely ignoring the minority class. In this context, we propose a novel adaptation of Na\"ive Bayes to mitigate discrimination embedded in the streams while maintaining high predictive performance for both the majority and minority classes. Our proposed algorithm is simple, fast, and attains multi-objective optimization goals. To handle class imbalance and concept drifts, a dynamic instance weighting module is proposed, which gives more importance to recent instances and less importance to obsolete instances based on their membership in minority or majority class. We conducted experiments on a range of streaming and static datasets and deduced that our proposed methodology outperforms existing state-of-the-art fairness-aware methods in terms of both discrimination score and balanced accuracy.
translated by 谷歌翻译
Dataset scaling, also known as normalization, is an essential preprocessing step in a machine learning pipeline. It is aimed at adjusting attributes scales in a way that they all vary within the same range. This transformation is known to improve the performance of classification models, but there are several scaling techniques to choose from, and this choice is not generally done carefully. In this paper, we execute a broad experiment comparing the impact of 5 scaling techniques on the performances of 20 classification algorithms among monolithic and ensemble models, applying them to 82 publicly available datasets with varying imbalance ratios. Results show that the choice of scaling technique matters for classification performance, and the performance difference between the best and the worst scaling technique is relevant and statistically significant in most cases. They also indicate that choosing an inadequate technique can be more detrimental to classification performance than not scaling the data at all. We also show how the performance variation of an ensemble model, considering different scaling techniques, tends to be dictated by that of its base model. Finally, we discuss the relationship between a model's sensitivity to the choice of scaling technique and its performance and provide insights into its applicability on different model deployment scenarios. Full results and source code for the experiments in this paper are available in a GitHub repository.\footnote{https://github.com/amorimlb/scaling\_matters}
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
由于欺诈模式随着时间的流逝而变化,并且欺诈示例的可用性有限,以学习这种复杂的模式,因此欺诈检测是一项具有挑战性的任务。因此,借助智能版本的机器学习(ML)工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务;但是,相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外,在不平衡类中的分类非常具有挑战性,因为它在少数群体中导致绩效差,大多数ML分类技术都忽略了。因此,我们研究了四种最先进的ML技术,即逻辑回归,决策树,随机森林和极端梯度提升,它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先,这些分类器经过两个原始基准测试不平衡检测数据集的培训,即网站网站URL和欺诈性信用卡交易。然后,通过实现采样框架,即RandomundSampler,Smote和Smoteenn,为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性,即接收器操作特性(AUC ROC)和精度和召回曲线下的面积(AUC PR)(AUC PR)。对于网络钓鱼网站URL和信用卡欺诈事务数据集,结果表明,对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能,并以AUC ROC和AUC PR来超越其他三种方法。
translated by 谷歌翻译
数据不平衡,即来自不同课程的培训观测数量之间的歧视,仍然是影响当代机器学习的最重要挑战之一。数据预处理技术可以减少数据不平衡对传统分类算法的负面影响,可以减少操纵训练数据以人为地降低不平衡程度的方法。然而,现有的数据预处理技术,特别是粉迹及其衍生物构成最普遍的数据预处理的范式,往往易于各种数据难度因素。这部分是由于原始粉碎算法不利用有关多数类观察的信息的事实。本文的重点是利用少数群体和多数阶级的分布的信息,自然地发展新的数据重采样策略。本文总结了12个研究论文的内容,专注于所提出的二进制数据重采采样策略,它们与多级环境的翻译,以及对组织病理数据分类问题的实际应用。
translated by 谷歌翻译
由于医疗保健是关键方面,健康保险已成为最大程度地减少医疗费用的重要计划。此后,由于保险的增加,医疗保健行业的欺诈活动大幅增加,欺诈行业已成为医疗费用上升的重要贡献者,尽管可以使用欺诈检测技术来减轻其影响。为了检测欺诈,使用机器学习技术。美国联邦政府的医疗补助和医疗保险服务中心(CMS)在本研究中使用“医疗保险D部分”保险索赔来开发欺诈检测系统。在类不平衡且高维的Medicare数据集中使用机器学习算法是一项艰巨的任务。为了紧凑此类挑战,目前的工作旨在在数据采样之后执行功能提取,然后应用各种分类算法,以获得更好的性能。特征提取是一种降低降低方法,该方法将属性转换为实际属性的线性或非线性组合,生成较小,更多样化的属性集,从而降低了尺寸。数据采样通常用于通过扩大少数族裔类的频率或降低多数类的频率以获得两种类别的出现数量大约相等的频率来解决类不平衡。通过标准性能指标评估所提出的方法。因此,为了有效地检测欺诈,本研究将自动编码器作为特征提取技术,合成少数族裔过采样技术(SMOTE)作为数据采样技术,以及各种基于决策树的分类器作为分类算法。实验结果表明,自动编码器的结合,然后在LightGBM分类器上获得SMOTE,取得了最佳的结果。
translated by 谷歌翻译
An approach to the construction of classifiers from imbalanced datasets is described. A dataset is imbalanced if the classification categories are not approximately equally represented. Often real-world data sets are predominately composed of "normal" examples with only a small percentage of "abnormal" or "interesting" examples. It is also the case that the cost of misclassifying an abnormal (interesting) example as a normal example is often much higher than the cost of the reverse error. Under-sampling of the majority (normal) class has been proposed as a good means of increasing the sensitivity of a classifier to the minority class. This paper shows that a combination of our method of over-sampling the minority (abnormal) class and under-sampling the majority (normal) class can achieve better classifier performance (in ROC space) than only under-sampling the majority class. This paper also shows that a combination of our method of over-sampling the minority class and under-sampling the majority class can achieve better classifier performance (in ROC space) than varying the loss ratios in Ripper or class priors in Naive Bayes. Our method of over-sampling the minority class involves creating synthetic minority class examples. Experiments are performed using C4.5, Ripper and a Naive Bayes classifier. The method is evaluated using the area under the Receiver Operating Characteristic curve (AUC) and the ROC convex hull strategy.
translated by 谷歌翻译
分类预测建模涉及准确地分配数据集中的观察到目标类或类别。具有严重不平衡的类分布的现实世界分类问题的增长越来越大。在这种情况下,少数群体的观察比较少于多数阶级的观察。尽管这种稀疏性,但少数民族阶级通常被认为是更有趣的阶级,但制定适合观察的科学学习算法呈现无数挑战。在本文中,我们建议一种专门用于根据我们称为Samme.c2的方法处理严重不平衡类的新型多级分类算法。它与SAMME算法,多级分类器和ADA.C2算法中的升压技术的灵活机制混合,这是一种成本敏感的二进制分类器,旨在解决高度类别的不平衡。我们不仅提供了所得算法,但我们还建立了我们提出的Samme.c2算法的科学和统计制定。通过数值实验检查各种程度的分类器难度,我们展示了我们所提出的模型的一致优越性。
translated by 谷歌翻译
Labeling a module defective or non-defective is an expensive task. Hence, there are often limits on how much-labeled data is available for training. Semi-supervised classifiers use far fewer labels for training models, but there are numerous semi-supervised methods, including self-labeling, co-training, maximal-margin, and graph-based methods, to name a few. Only a handful of these methods have been tested in SE for (e.g.) predicting defects and even that, those tests have been on just a handful of projects. This paper takes a wide range of 55 semi-supervised learners and applies these to over 714 projects. We find that semi-supervised "co-training methods" work significantly better than other approaches. However, co-training needs to be used with caution since the specific choice of co-training methods needs to be carefully selected based on a user's specific goals. Also, we warn that a commonly-used co-training method ("multi-view"-- where different learners get different sets of columns) does not improve predictions (while adding too much to the run time costs 11 hours vs. 1.8 hours). Those cautions stated, we find using these "co-trainers," we can label just 2.5% of data, then make predictions that are competitive to those using 100% of the data. It is an open question worthy of future work to test if these reductions can be seen in other areas of software analytics. All the codes used and datasets analyzed during the current study are available in the https://GitHub.com/Suvodeep90/Semi_Supervised_Methods.
translated by 谷歌翻译
深度神经网络(DNN)对于对培训期间的样品大大减少的课程进行更多错误是臭名昭着的。这种类别不平衡在临床应用中普遍存在,并且对处理非常重要,因为样品较少的类通常对应于临界病例(例如,癌症),其中错误分类可能具有严重后果。不要错过这种情况,通过设定更高的阈值,需要以高真正的阳性率(TPRS)运行二进制分类器,但这是类别不平衡问题的非常高的假阳性率(FPRS)的成本。在课堂失衡下的现有方法通常不会考虑到这一点。我们认为,通过在高TPRS处于阳性的错误分类时强调减少FPRS,应提高预测准确性,即赋予阳性,即批判性,类样本与更高的成本相关。为此,我们将DNN的训练训练为二进制分类作为约束优化问题,并引入一种新的约束,可以通过在高TPR处优先考虑FPR减少来强制ROC曲线(AUC)下强制实施最大面积的新约束。我们使用增强拉格朗日方法(ALM)解决了由此产生的受限优化问题。超越二进制文件,我们还提出了两个可能的延长了多级分类问题的建议约束。我们使用内部医学成像数据集,CIFAR10和CIFAR100呈现基于图像的二元和多级分类应用的实验结果。我们的结果表明,该方法通过在关键类别的准确性上获得了大多数病例的拟议方法,同时降低了非关键类别样本的错误分类率。
translated by 谷歌翻译
疾病预测是医学应用中的知名分类问题。 GCNS提供了一个强大的工具,用于分析患者相对于彼此的特征。这可以通过将问题建模作为图形节点分类任务来实现,其中每个节点是患者。由于这种医学数据集的性质,类别不平衡是疾病预测领域的普遍存在问题,其中类的分布是歪曲的。当数据中存在类别不平衡时,现有的基于图形的分类器倾向于偏向于主要类别并忽略小类中的样本。另一方面,所有患者中罕见阳性病例的正确诊断在医疗保健系统中至关重要。在传统方法中,通过将适当的权重分配给丢失函数中的类别来解决这种不平衡,这仍然依赖于对异常值敏感的权重的相对值,并且在某些情况下偏向于小类(ES)。在本文中,我们提出了一种重加权的对抗性图形卷积网络(RA-GCN),以防止基于图形的分类器强调任何特定类的样本。这是通过将基于图形的神经网络与每个类相关联来完成的,这负责加权类样本并改变分类器的每个样本的重要性。因此,分类器自身调节并确定类之间的边界,更加关注重要样本。分类器和加权网络的参数受到侵犯方法训练。我们在合成和三个公共医疗数据集上显示实验。与最近的方法相比,ra-gcn展示了与最近的方法在所有三个数据集上识别患者状态的方法相比。详细分析作为合成数据集的定量和定性实验提供。
translated by 谷歌翻译
利用恒星精度利用机器学习技术使用临床资料的预后,是目前最重要的真实世界挑战之一。考虑到又称PCOS的多囊卵巢综合征的医学问题是15至49岁的女性的新出现问题。通过使用各种升压集合方法诊断这种疾病是我们本文提出的。自适应提升,渐变升压机,XGBoost和Catboost之间的详细和简化差异,具有各自的性能指标突出显示数据中的隐藏异常及其对结果的影响是我们在本文中提出的。本文已经使用了混淆矩阵,精度,召回,F1得分,FPR,ROC曲线和AUC等度量。
translated by 谷歌翻译
Concept drift describes unforeseeable changes in the underlying distribution of streaming data over time. Concept drift research involves the development of methodologies and techniques for drift detection, understanding and adaptation. Data analysis has revealed that machine learning in a concept drift environment will result in poor learning results if the drift is not addressed. To help researchers identify which research topics are significant and how to apply related techniques in data analysis tasks, it is necessary that a high quality, instructive review of current research developments and trends in the concept drift field is conducted. In addition, due to the rapid development of concept drift in recent years, the methodologies of learning under concept drift have become noticeably systematic, unveiling a framework which has not been mentioned in literature. This paper reviews over 130 high quality publications in concept drift related research areas, analyzes up-to-date developments in methodologies and techniques, and establishes a framework of learning under concept drift including three main components: concept drift detection, concept drift understanding, and concept drift adaptation. This paper lists and discusses 10 popular synthetic datasets and 14 publicly available benchmark datasets used for evaluating the performance of learning algorithms aiming at handling concept drift. Also, concept drift related research directions are covered and discussed. By providing state-of-the-art knowledge, this survey will directly support researchers in their understanding of research developments in the field of learning under concept drift.
translated by 谷歌翻译