Learning classifiers using skewed or imbalanced datasets can occasionally lead to classification issues; this is a serious issue. In some cases, one class contains the majority of examples while the other, which is frequently the more important class, is nevertheless represented by a smaller proportion of examples. Using this kind of data could make many carefully designed machine-learning systems ineffective. High training fidelity was a term used to describe biases vs. all other instances of the class. The best approach to all possible remedies to this issue is typically to gain from the minority class. The article examines the most widely used methods for addressing the problem of learning with a class imbalance, including data-level, algorithm-level, hybrid, cost-sensitive learning, and deep learning, etc. including their advantages and limitations. The efficiency and performance of the classifier are assessed using a myriad of evaluation metrics.
translated by 谷歌翻译
不平衡的数据(ID)是阻止机器学习(ML)模型以实现令人满意的结果的问题。 ID是一种情况,即属于一个类别的样本的数量超过另一个类别的情况,这使此类模型学习过程偏向多数类。近年来,为了解决这个问题,已经提出了几种解决方案,该解决方案选择合成为少数族裔类生成新数据,或者减少平衡数据的多数类的数量。因此,在本文中,我们研究了基于深神经网络(DNN)和卷积神经网络(CNN)的方法的有效性,并与各种众所周知的不平衡数据解决方案混合,这意味着过采样和降采样。为了评估我们的方法,我们使用了龙骨,乳腺癌和Z-Alizadeh Sani数据集。为了获得可靠的结果,我们通过随机洗牌的数据分布进行了100次实验。分类结果表明,混合的合成少数族裔过采样技术(SMOTE) - 正态化-CNN优于在24个不平衡数据集上达到99.08%精度的不同方法。因此,提出的混合模型可以应用于其他实际数据集上的不平衡算法分类问题。
translated by 谷歌翻译
使用不平衡数据集的二进制分类具有挑战性。模型倾向于将所有样本视为属于多数类的样本。尽管现有的解决方案(例如抽样方法,成本敏感方法和合奏学习方法)提高了少数族裔类别的准确性,但这些方法受到过度拟合问题或难以决定的成本参数的限制。我们提出了HADR,这是一种降低尺寸的混合方法,包括数据块构建,降低性降低和与深度神经网络分类器的合奏学习。我们评估了八个不平衡的公共数据集的性能,从召回,g均值和AUC方面。结果表明,我们的模型优于最先进的方法。
translated by 谷歌翻译
This paper presents a novel adaptive synthetic (ADASYN) sampling approach for learning from imbalanced data sets. The essential idea of ADASYN is to use a weighted distribution for different minority class examples according to their level of difficulty in learning, where more synthetic data is generated for minority class examples that are harder to learn compared to those minority examples that are easier to learn. As a result, the ADASYN approach improves learning with respect to the data distributions in two ways: (1) reducing the bias introduced by the class imbalance, and (2) adaptively shifting the classification decision boundary toward the difficult examples. Simulation analyses on several machine learning data sets show the effectiveness of this method across five evaluation metrics.
translated by 谷歌翻译
由于欺诈模式随着时间的流逝而变化,并且欺诈示例的可用性有限,以学习这种复杂的模式,因此欺诈检测是一项具有挑战性的任务。因此,借助智能版本的机器学习(ML)工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务;但是,相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外,在不平衡类中的分类非常具有挑战性,因为它在少数群体中导致绩效差,大多数ML分类技术都忽略了。因此,我们研究了四种最先进的ML技术,即逻辑回归,决策树,随机森林和极端梯度提升,它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先,这些分类器经过两个原始基准测试不平衡检测数据集的培训,即网站网站URL和欺诈性信用卡交易。然后,通过实现采样框架,即RandomundSampler,Smote和Smoteenn,为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性,即接收器操作特性(AUC ROC)和精度和召回曲线下的面积(AUC PR)(AUC PR)。对于网络钓鱼网站URL和信用卡欺诈事务数据集,结果表明,对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能,并以AUC ROC和AUC PR来超越其他三种方法。
translated by 谷歌翻译
随着信用卡交易量的增长,欺诈百分比也在上升,包括机构打击和补偿受害者的间接费用。将机器学习用于金融部门可以更有效地保护欺诈和其他经济犯罪。经过适当训练的机器学习分类器有助于主动欺诈检测,改善利益相关者的信任和对非法交易的鲁棒性。但是,由于欺诈数据的极为不平衡的性质以及准确,完全完全确定欺诈行为的挑战,以创建金标准的地面真相,因此基于机器学习的欺诈检测算法的设计是具有挑战性和缓慢的。此外,没有基准或标准分类器评估指标来衡量和识别更好的性能分类器,从而使研究人员处于黑暗状态。在这项工作中,我们建立了一个理论基础,以模拟人类注释错误和现实世界欺诈检测数据集中典型的极端失衡。通过对假设分类器进行经验实验,并具有近似于流行的现实世界信用卡欺诈数据集的合成数据分布,我们模拟了人类注释错误和极端失衡,以观察流行的机器学习分类器评估矩阵的行为。我们证明,按照特定顺序,合并的F1分数和G均值是典型不平衡欺诈检测模型分类的最佳评估指标。
translated by 谷歌翻译
从不平衡数据中学习是一项具有挑战性的任务。在进行不平衡数据训练时,标准分类算法的性能往往差。需要通过修改数据分布或重新设计基础分类算法以实现理想的性能来采用一些特殊的策略。现实世界数据集中不平衡的流行率导致为班级不平衡问题创造了多种策略。但是,并非所有策略在不同的失衡情况下都有用或提供良好的性能。处理不平衡的数据有许多方法,但是尚未进行此类技术的功效或这些技术之间的实验比较。在这项研究中,我们对26种流行抽样技术进行了全面分析,以了解它们在处理不平衡数据方面的有效性。在50个数据集上进行了严格的实验,具有不同程度的不平衡,以彻底研究这些技术的性能。已经提出了对技术的优势和局限性的详细讨论,以及如何克服此类局限性。我们确定了影响采样策略的一些关键因素,并提供有关如何为特定应用选择合适的采样技术的建议。
translated by 谷歌翻译
由于机器学习和数据挖掘领域的不平衡数据集的分类问题,但学习的不平衡学习是重要的并且具有挑战性。提出采样方法来解决这个问题,而基于群集的过采样方法表现出很大的潜力,因为它们的目标是同时解决课堂和级别的不平衡问题。但是,所有现有的聚类方法都基于一次性方法。由于缺乏先验知识,通常存在的群集数量不当设置,这导致集群性能不佳。此外,现有方法可能会产生嘈杂的情况。为了解决这些问题,本文提出了一种基于模糊C-MATION(MLFCM)的基于深度外观信封网络的不平衡学习算法,以及基于最大均值(MINMD)的最小中间层间差异机制。在没有先前知识的情况下,该算法可以使用深度实例包络网络来保证高质量的平衡实例。在实验部分中,三十三个流行的公共数据集用于验证,并且超过十个代表性算法用于比较。实验结果表明,该方法显着优于其他流行的方法。
translated by 谷歌翻译
机器学习(ML)在渲染影响社会各个群体的决策中起着越来越重要的作用。 ML模型为刑事司法的决定,银行业中的信贷延长以及公司的招聘做法提供了信息。这提出了模型公平性的要求,这表明自动化的决策对于受保护特征(例如,性别,种族或年龄)通常是公平的,这些特征通常在数据中代表性不足。我们假设这个代表性不足的问题是数据学习不平衡问题的必然性。此类不平衡通常反映在两个类别和受保护的功能中。例如,一个班级(那些获得信用的班级)对于另一个班级(未获得信用的人)可能会过分代表,而特定组(女性)(女性)的代表性可能与另一组(男性)有关。相对于受保护组的算法公平性的关键要素是同时减少了基础培训数据中的类和受保护的群体失衡,这促进了模型准确性和公平性的提高。我们通过展示这些领域中的关键概念如何重叠和相互补充,讨论弥合失衡学习和群体公平的重要性;并提出了一种新颖的过采样算法,即公平的过采样,该算法既解决偏斜的类别分布和受保护的特征。我们的方法:(i)可以用作标准ML算法的有效预处理算法,以共同解决不平衡和群体权益; (ii)可以与公平感知的学习算法结合使用,以提高其对不同水平不平衡水平的稳健性。此外,我们迈出了一步,将公平和不平衡学习之间的差距与新的公平实用程序之间的差距弥合,从而将平衡的准确性与公平性结合在一起。
translated by 谷歌翻译
根据研究人员在歧视和校准性能方面采用的标准评估实践,这项工作旨在了解阶级不平衡对胸部X射线分类器的性能的影响。首先,我们进行了一项文献研究,分析了普通科学实践并确认:(1)即使在处理高度不平衡的数据集时,社区也倾向于使用由大多数阶级主导的指标; (2)包括包括胸部X射线分类器的校准研究仍然罕见,尽管其在医疗保健的背景下的重要性。其次,我们对两个主要胸部X射线数据集进行了系统实验,探讨了不同类别比率下的几种性能指标的行为,并显示了广泛采用的指标可以隐藏少数阶级中的性能。最后,我们提出了通过两个替代度量,精密召回曲线和平衡的Brier得分,这更好地反映了系统在这种情况下的性能。我们的研究结果表明,胸部X射线分类器研究界采用的当前评估实践可能无法反映真实临床情景中计算机辅助诊断系统的性能,并建议改善这种情况的替代方案。
translated by 谷歌翻译
An approach to the construction of classifiers from imbalanced datasets is described. A dataset is imbalanced if the classification categories are not approximately equally represented. Often real-world data sets are predominately composed of "normal" examples with only a small percentage of "abnormal" or "interesting" examples. It is also the case that the cost of misclassifying an abnormal (interesting) example as a normal example is often much higher than the cost of the reverse error. Under-sampling of the majority (normal) class has been proposed as a good means of increasing the sensitivity of a classifier to the minority class. This paper shows that a combination of our method of over-sampling the minority (abnormal) class and under-sampling the majority (normal) class can achieve better classifier performance (in ROC space) than only under-sampling the majority class. This paper also shows that a combination of our method of over-sampling the minority class and under-sampling the majority class can achieve better classifier performance (in ROC space) than varying the loss ratios in Ripper or class priors in Naive Bayes. Our method of over-sampling the minority class involves creating synthetic minority class examples. Experiments are performed using C4.5, Ripper and a Naive Bayes classifier. The method is evaluated using the area under the Receiver Operating Characteristic curve (AUC) and the ROC convex hull strategy.
translated by 谷歌翻译
由于医疗保健是关键方面,健康保险已成为最大程度地减少医疗费用的重要计划。此后,由于保险的增加,医疗保健行业的欺诈活动大幅增加,欺诈行业已成为医疗费用上升的重要贡献者,尽管可以使用欺诈检测技术来减轻其影响。为了检测欺诈,使用机器学习技术。美国联邦政府的医疗补助和医疗保险服务中心(CMS)在本研究中使用“医疗保险D部分”保险索赔来开发欺诈检测系统。在类不平衡且高维的Medicare数据集中使用机器学习算法是一项艰巨的任务。为了紧凑此类挑战,目前的工作旨在在数据采样之后执行功能提取,然后应用各种分类算法,以获得更好的性能。特征提取是一种降低降低方法,该方法将属性转换为实际属性的线性或非线性组合,生成较小,更多样化的属性集,从而降低了尺寸。数据采样通常用于通过扩大少数族裔类的频率或降低多数类的频率以获得两种类别的出现数量大约相等的频率来解决类不平衡。通过标准性能指标评估所提出的方法。因此,为了有效地检测欺诈,本研究将自动编码器作为特征提取技术,合成少数族裔过采样技术(SMOTE)作为数据采样技术,以及各种基于决策树的分类器作为分类算法。实验结果表明,自动编码器的结合,然后在LightGBM分类器上获得SMOTE,取得了最佳的结果。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
我们与中国的援助卫生委员会合作,我们提出了一个预测系统,以根据免疫后不良事件的数据来预测患有不良反应的儿童的住院。我们从数据中提取了多个功能,并选择“住院或不选择”作为分类目标。由于数据是不平衡的,因此我们使用了各种班级不平衡学习方法来培训并改善了Rusboost算法。实验结果表明,在这些算法中,ROC曲线在ROC曲线下的最高面积是最高的。此外,我们将这些平衡的学习方法与一些常见的机器学习算法进行了比较。我们将改进的Rusboost与动态Web资源开发技术结合在一起,以构建一个评估系统,并为相关医生提供信息输入和疫苗接种响应预测能力。
translated by 谷歌翻译
在全球范围内,有实质性的未满足需要有效地诊断各种疾病。不同疾病机制的复杂性和患者人群的潜在症状具有巨大挑战,以发展早期诊断工具和有效治疗。机器学习(ML),人工智能(AI)区域,使研究人员,医师和患者能够解决这些问题的一些问题。基于相关研究,本综述解释了如何使用机器学习(ML)和深度学习(DL)来帮助早期识别许多疾病。首先,使用来自Scopus和Science(WOS)数据库的数据来给予所述出版物的生物计量研究。对1216个出版物的生物计量研究进行了确定,以确定最多产的作者,国家,组织和最引用的文章。此次审查总结了基于机器学习的疾病诊断(MLBDD)的最新趋势和方法,考虑到以下因素:算法,疾病类型,数据类型,应用和评估指标。最后,该文件突出了关键结果,并向未来的未来趋势和机遇提供了解。
translated by 谷歌翻译
随着网络基础设施提高,个人贷款的需求增长,对等十年来,对等体(P2P)贷款平台已迅速增长。在没有传统金融机构的帮助下,这些平台允许用户创建对等贷款关系。评估借款人的信贷至关重要,以减少P2P平台的违约率和良性开发。构建个人信用评分机学习模型可以有效预测用户是否会在P2P平台上偿还贷款。并处理数据异常值和样本不平衡问题可能会影响机器学习模型的最终效果。已经有一些关于平衡采样方法的研究,但是对机器学习模型有效性的异常检测方法及其与平衡采样方法的影响尚未得到充分研究。在本文中,研究了使用不同异常检测方法对常用机器学习模型的不同异常检测方法和平衡采样方法的影响。 44,487贷款俱乐部样品的实验表明,适当的异常检测可以提高机器学习模型的有效性,平衡采样方法仅对几种机器学习模型(如MLP)有良好的影响。
translated by 谷歌翻译
如今,许多分类算法已应用于各个行业,以帮助他们在现实生活中解决他们的问题。但是,在许多二进制分类任务中,少数族裔类中的样本仅构成了所有实例的一小部分,这导致了我们通常患有高失衡比的数据集。现有模型有时将少数族裔类别视为噪音,或者将它们视为遇到数据偏斜的异常值。为了解决这个问题,我们提出了一个装袋合奏学习框架$ ASE $(基于异常得分的合奏学习)。该框架具有基于异常检测算法的评分系统,可以通过将多数类中的样本分为子空间来指导重采样策略。那么,特定数量的实例将从每个子空间中采样较低,以通过与少数族裔类结合来构建子集。我们根据异常检测模型的分类结果和子空间的统计数据计算由子集训练的基本分类器的权重。已经进行了实验,这表明我们的合奏学习模型可以显着提高基本分类器的性能,并且比在广泛的不平衡比率,数据量表和数据维度下的其他现有方法更有效。 $ ase $可以与各种分类器结合使用,我们的框架的每个部分都被证明是合理和必要的。
translated by 谷歌翻译
本文提出了一种基于对不平衡数据集的图形的新的RWO采样(随机步行过度采样)。在该方法中,引入了基于采样的下采样和过采样方法的两种方案,以使接近信息保持对噪声和异常值的鲁棒。在构建少数群体类上的第一个图形之后,RWO取样将在选定的样本上实现,其余部分保持不变。第二图是为多数类构造的,除去低密度区域(异常值)中的样品被移除。最后,在所提出的方法中,选择高密度区域中的多数类别的样品,并消除其余部分。此外,利用RWO取样,虽然未提高异常值,但虽然少数群体类的边界增加。测试该方法,并将评估措施的数量与先前的九个连续属性数据集进行比较,具有不同的过采集率和一个数据集,用于诊断Covid-19疾病。实验结果表明了所提出的不平衡数据分类方法的高效率和灵活性
translated by 谷歌翻译
从课堂上学习不平衡数据集对许多机器学习算法带来了挑战。许多现实世界域通过定义,通过拥有多数阶级的多数阶级,自然具有比其少数级别更多的阶级(例如,真正的银行交易比欺诈性更频繁)。已经提出了许多方法来解决类别不平衡问题,其中最受欢迎的过采样技术(例如Smote)。这些方法在少数群体类中生成合成实例,以平衡数据集,执行提高预测机器学习(ML)模型的性能的数据增强。在本文中,我们推进了一种新的数据增强方法(改编自解释的AI),它在少数类中生成合成,反事实情况。与其他过采样技术不同,该方法使用实际特征值,而不是实例之间的内插值,自适应地将存在于数据集的实例。报告了使用四种不同分类器和25个数据集的几个实验,这表明该反事实增强方法(CFA)在少数类中生成有用的合成数据点。实验还表明,CFA与许多其他过采样方法具有竞争力,其中许多过采样方法是Smote的变种。讨论了CFAS性能的基础,以及在未来测试中可能更好或更糟的情况下的条件。
translated by 谷歌翻译
在过去的二十年中,已经采用了过采样来克服从不平衡数据集中学习的挑战。文献中提出了许多解决这一挑战的方法。另一方面,过采样是一个问题。也就是说,在解决现实世界问题时,经过虚拟数据训练的模型可能会出色地失败。过采样方法的根本困难是,鉴于现实生活中的人群,合成的样本可能并不真正属于少数群体。结果,在假装代表少数群体的同时,在这些样本上训练分类器可能会导致在现实世界中使用该模型时的预测。我们在本文中分析了大量的过采样方法,并根据隐藏了许多多数示例,设计了一种新的过采样评估系统,并将其与通过过采样过程产生的示例进行了比较。根据我们的评估系统,我们根据它们错误生成的示例进行比较对所有这些方法进行了排名。我们使用70多种超采样方法和三种不平衡现实世界数据集的实验表明,所有研究的过采样方法都会生成最有可能是多数人的少数样本。给定数据和方法,我们认为以目前的形式和方法对从类不平衡数据学习不可靠,应在现实世界中避免。
translated by 谷歌翻译