阶级失衡是一种以使学习对分类模型更具挑战性的特征,因为它们可能最终会偏向多数级别。在不平衡学习的背景下,基于整体的方法中的一种有希望的方法是动态选择(DS)。 DS技术根据整体中的分类器的一个子集,根据其在查询周围区域中的估计能力标记每个给定的样本。由于在选择方案中只考虑了一个小区域,因此全球类别不成比例可能对系统的性能产生较小的影响。但是,本地类重叠的存在可能会严重阻碍DS技术的性能,而不是分布不平衡,因为它不仅加剧了代表不足的影响,而且还引入了能力估计过程中模棱两可且可能不可靠的样本。因此,在这项工作中,我们提出了一种DS技术,该技术试图最大程度地减少分类器选择过程中本地类别重叠的影响。所提出的方法迭代从目标区域中删除了实例被认为是最难分类的实例,直到分类器被认为有能力标记查询样品为止。使用实例硬度度量量化本地类重叠的实例硬度度量来表征已知样品。实验结果表明,该提出的技术可以显着胜过基线以及其他几种DS技术,这表明其适合处理类别不足的班级和重叠的适用性。此外,当使用标记的集合的重新采样,重叠版本较少的版本时,该技术仍会产生竞争结果,特别是在重叠区域中少数少数族类样本的问题上。可在https://github.com/marianaasouza/lords上找到代码。
translated by 谷歌翻译
类不平衡是分类任务中经常发生的情况。从不平衡数据中学习提出了一个重大挑战,这在该领域引起了很多研究。使用采样技术进行数据预处理是处理数据中存在的不平衡的标准方法。由于标准分类算法在不平衡数据上的性能不佳,因此在培训之前,数据集需要足够平衡。这可以通过过度采样少数族裔级别或对多数级别的采样来实现。在这项研究中,已经提出了一种新型的混合采样算法。为了克服采样技术的局限性,同时确保保留采样数据集的质量,已经开发了一个复杂的框架来正确结合三种不同的采样技术。首先应用邻里清洁规则以减少失衡。然后从策略上与SMOTE算法策略性地采样,以在数据集中获得最佳平衡。该提出的混合方法学称为“ smote-rus-nc”,已与其他最先进的采样技术进行了比较。该策略进一步合并到集合学习框架中,以获得更健壮的分类算法,称为“ SRN-BRF”。对26个不平衡数据集进行了严格的实验,并具有不同程度的失衡。在几乎所有数据集中,提出的两种算法在许多情况下都超过了现有的采样策略,其差额很大。尤其是在流行抽样技术完全失败的高度不平衡数据集中,他们实现了无与伦比的性能。获得的优越结果证明了所提出的模型的功效及其在不平衡域中具有强大采样算法的潜力。
translated by 谷歌翻译
Dataset scaling, also known as normalization, is an essential preprocessing step in a machine learning pipeline. It is aimed at adjusting attributes scales in a way that they all vary within the same range. This transformation is known to improve the performance of classification models, but there are several scaling techniques to choose from, and this choice is not generally done carefully. In this paper, we execute a broad experiment comparing the impact of 5 scaling techniques on the performances of 20 classification algorithms among monolithic and ensemble models, applying them to 82 publicly available datasets with varying imbalance ratios. Results show that the choice of scaling technique matters for classification performance, and the performance difference between the best and the worst scaling technique is relevant and statistically significant in most cases. They also indicate that choosing an inadequate technique can be more detrimental to classification performance than not scaling the data at all. We also show how the performance variation of an ensemble model, considering different scaling techniques, tends to be dictated by that of its base model. Finally, we discuss the relationship between a model's sensitivity to the choice of scaling technique and its performance and provide insights into its applicability on different model deployment scenarios. Full results and source code for the experiments in this paper are available in a GitHub repository.\footnote{https://github.com/amorimlb/scaling\_matters}
translated by 谷歌翻译
从不平衡数据中学习是一项具有挑战性的任务。在进行不平衡数据训练时,标准分类算法的性能往往差。需要通过修改数据分布或重新设计基础分类算法以实现理想的性能来采用一些特殊的策略。现实世界数据集中不平衡的流行率导致为班级不平衡问题创造了多种策略。但是,并非所有策略在不同的失衡情况下都有用或提供良好的性能。处理不平衡的数据有许多方法,但是尚未进行此类技术的功效或这些技术之间的实验比较。在这项研究中,我们对26种流行抽样技术进行了全面分析,以了解它们在处理不平衡数据方面的有效性。在50个数据集上进行了严格的实验,具有不同程度的不平衡,以彻底研究这些技术的性能。已经提出了对技术的优势和局限性的详细讨论,以及如何克服此类局限性。我们确定了影响采样策略的一些关键因素,并提供有关如何为特定应用选择合适的采样技术的建议。
translated by 谷歌翻译
不平衡的分类问题成为数据挖掘和机器学习中的重要和具有挑战性问题之一。传统分类器的性能将受到许多数据问题的严重影响,例如类不平衡问题,类重叠和噪声。 Tomek-Link算法仅用于在提出时清理数据。近年来,已经报道了将Tomek-Link算法与采样技术结合起来。 Tomek-Link采样算法可以有效地减少数据上的类重叠,删除难以区分的多数实例,提高算法分类精度。然而,Tomek-Links下面采样算法仅考虑全局彼此的最近邻居并忽略潜在的本地重叠实例。当少数群体实例的数量很小时,取样效果不令人满意,分类模型的性能改善并不明显。因此,在Tomek-Link的基础上,提出了一种多粒度重新标记的取样算法(MGRU)。该算法完全考虑了本地粒度子空间中的数据集的本地信息,并检测数据集中的本地潜在重叠实例。然后,根据全局重新标记的索引值消除重叠的多数实例,这有效地扩展了Tomek-Link的检测范围。仿真结果表明,当我们选择欠采样的最佳全局重新标记索引值时,所提出的下采样算法的分类准确性和泛化性能明显优于其他基线算法。
translated by 谷歌翻译
An approach to the construction of classifiers from imbalanced datasets is described. A dataset is imbalanced if the classification categories are not approximately equally represented. Often real-world data sets are predominately composed of "normal" examples with only a small percentage of "abnormal" or "interesting" examples. It is also the case that the cost of misclassifying an abnormal (interesting) example as a normal example is often much higher than the cost of the reverse error. Under-sampling of the majority (normal) class has been proposed as a good means of increasing the sensitivity of a classifier to the minority class. This paper shows that a combination of our method of over-sampling the minority (abnormal) class and under-sampling the majority (normal) class can achieve better classifier performance (in ROC space) than only under-sampling the majority class. This paper also shows that a combination of our method of over-sampling the minority class and under-sampling the majority class can achieve better classifier performance (in ROC space) than varying the loss ratios in Ripper or class priors in Naive Bayes. Our method of over-sampling the minority class involves creating synthetic minority class examples. Experiments are performed using C4.5, Ripper and a Naive Bayes classifier. The method is evaluated using the area under the Receiver Operating Characteristic curve (AUC) and the ROC convex hull strategy.
translated by 谷歌翻译
由于其在提高培训数据质量方面的重要性,标签噪声检测已被广泛研究。通过采用分类器的集合来实现令人满意的噪声检测。在这种方法中,如果池中的池中的高比例成员分配错误,则将实例分配为误标定。以前的作者已经经验评估了这种方法;然而,它们主要假设在数据集中随机生成标签噪声。这是一个强烈的假设,因为其他类型的标签噪声在实践中是可行的并且可以影响噪声检测结果。这项工作调查了两个不同噪声模型下集合噪声检测的性能:随机(nar)的嘈杂,其中标签噪声的概率取决于实例类,与在随机模型中完全嘈杂相比,其中概率标签噪声完全独立。在此设置中,我们研究了类分布对噪声检测性能的影响,因为它在NAR假设下改变了数据集中观察到的总噪声水平。此外,对集合投票阈值进行评估以与文献中最常见的方法形成对比。在许多执行的实验中,在考虑不同类别中的类别不平衡和噪声水平比等方面时,选择噪声产生模型可以导致不同的结果。
translated by 谷歌翻译
Label noise is an important issue in classification, with many potential negative consequences. For example, the accuracy of predictions may decrease, whereas the complexity of inferred models and the number of necessary training samples may increase. Many works in the literature have been devoted to the study of label noise and the development of techniques to deal with label noise. However, the field lacks a comprehensive survey on the different types of label noise, their consequences and the algorithms that consider label noise. This paper proposes to fill this gap. First, the definitions and sources of label noise are considered and a taxonomy of the types of label noise is proposed. Second, the potential consequences of label noise are discussed. Third, label noise-robust, label noise cleansing, and label noise-tolerant algorithms are reviewed. For each category of approaches, a short discussion is proposed to help the practitioner to choose the most suitable technique in its own particular field of application. Eventually, the design of experiments is also discussed, what may interest the researchers who would like to test their own algorithms. In this paper, label noise consists of mislabeled instances: no additional information is assumed to be available like e.g. confidences on labels.
translated by 谷歌翻译
数据不平衡,即来自不同课程的培训观测数量之间的歧视,仍然是影响当代机器学习的最重要挑战之一。数据预处理技术可以减少数据不平衡对传统分类算法的负面影响,可以减少操纵训练数据以人为地降低不平衡程度的方法。然而,现有的数据预处理技术,特别是粉迹及其衍生物构成最普遍的数据预处理的范式,往往易于各种数据难度因素。这部分是由于原始粉碎算法不利用有关多数类观察的信息的事实。本文的重点是利用少数群体和多数阶级的分布的信息,自然地发展新的数据重采样策略。本文总结了12个研究论文的内容,专注于所提出的二进制数据重采采样策略,它们与多级环境的翻译,以及对组织病理数据分类问题的实际应用。
translated by 谷歌翻译
本文提出了一种基于对不平衡数据集的图形的新的RWO采样(随机步行过度采样)。在该方法中,引入了基于采样的下采样和过采样方法的两种方案,以使接近信息保持对噪声和异常值的鲁棒。在构建少数群体类上的第一个图形之后,RWO取样将在选定的样本上实现,其余部分保持不变。第二图是为多数类构造的,除去低密度区域(异常值)中的样品被移除。最后,在所提出的方法中,选择高密度区域中的多数类别的样品,并消除其余部分。此外,利用RWO取样,虽然未提高异常值,但虽然少数群体类的边界增加。测试该方法,并将评估措施的数量与先前的九个连续属性数据集进行比较,具有不同的过采集率和一个数据集,用于诊断Covid-19疾病。实验结果表明了所提出的不平衡数据分类方法的高效率和灵活性
translated by 谷歌翻译
从课堂上学习不平衡数据集对许多机器学习算法带来了挑战。许多现实世界域通过定义,通过拥有多数阶级的多数阶级,自然具有比其少数级别更多的阶级(例如,真正的银行交易比欺诈性更频繁)。已经提出了许多方法来解决类别不平衡问题,其中最受欢迎的过采样技术(例如Smote)。这些方法在少数群体类中生成合成实例,以平衡数据集,执行提高预测机器学习(ML)模型的性能的数据增强。在本文中,我们推进了一种新的数据增强方法(改编自解释的AI),它在少数类中生成合成,反事实情况。与其他过采样技术不同,该方法使用实际特征值,而不是实例之间的内插值,自适应地将存在于数据集的实例。报告了使用四种不同分类器和25个数据集的几个实验,这表明该反事实增强方法(CFA)在少数类中生成有用的合成数据点。实验还表明,CFA与许多其他过采样方法具有竞争力,其中许多过采样方法是Smote的变种。讨论了CFAS性能的基础,以及在未来测试中可能更好或更糟的情况下的条件。
translated by 谷歌翻译
阶级不平衡问题很重要且具有挑战性。合奏方法由于其有效性而广泛用于解决此问题。但是,现有的合奏方法始终应用于原始样本中,而没有考虑原始样本之间的结构信息。限制将阻止不平衡的学习变得更好。此外,研究表明,样本中的结构信息包括本地和全球结构信息。基于上面的分析,此处提出了具有深层样本前网络(DSEN)(DSEN)和局部全球结构一致性机制(LGSCM)的不平衡合奏算法,以解决该问题。该算法可以保证高质量的深层信封样品用于用于考虑到本地流形和全球结构信息,这有助于失衡学习。首先,深层样品包络预网(DSEN)旨在挖掘样品之间的结构信息。样品。接下来,将DSEN和LGSCM放在一起以形成最终的深层样品网络网络(DSEN-LG)。之后,分别将基本分类器应用于深样品的层。最后,通过装袋集合学习机制融合了基本分类器的预测结果。为了证明该方法的有效性,选择了四十四个公共数据集和十多种代表性相关算法进行验证。实验结果表明,该算法明显优于其他不平衡的集合算法。
translated by 谷歌翻译
冠状质量弹出(CME)是最地理化的空间天气现象,与大型地磁风暴有关,有可能引起电信,卫星网络中断,电网损失和故障的干扰。因此,考虑到这些风暴对人类活动的潜在影响,对CME的地理效果的准确预测至关重要。这项工作着重于在接近太阳CME的白光冠状动脉数据集中训练的不同机器学习方法,以估计这种新爆发的弹出是否有可能诱导地磁活动。我们使用逻辑回归,k-nearest邻居,支持向量机,向前的人工神经网络以及整体模型开发了二进制分类模型。目前,我们限制了我们的预测专门使用太阳能发作参数,以确保延长警告时间。我们讨论了这项任务的主要挑战,即我们数据集中的地理填充和无效事件的数量以及它们的众多相似之处以及可用变量数量有限的极端失衡。我们表明,即使在这种情况下,这些模型也可以达到足够的命中率。
translated by 谷歌翻译
由于机器学习和数据挖掘领域的不平衡数据集的分类问题,但学习的不平衡学习是重要的并且具有挑战性。提出采样方法来解决这个问题,而基于群集的过采样方法表现出很大的潜力,因为它们的目标是同时解决课堂和级别的不平衡问题。但是,所有现有的聚类方法都基于一次性方法。由于缺乏先验知识,通常存在的群集数量不当设置,这导致集群性能不佳。此外,现有方法可能会产生嘈杂的情况。为了解决这些问题,本文提出了一种基于模糊C-MATION(MLFCM)的基于深度外观信封网络的不平衡学习算法,以及基于最大均值(MINMD)的最小中间层间差异机制。在没有先前知识的情况下,该算法可以使用深度实例包络网络来保证高质量的平衡实例。在实验部分中,三十三个流行的公共数据集用于验证,并且超过十个代表性算法用于比较。实验结果表明,该方法显着优于其他流行的方法。
translated by 谷歌翻译
学习(IL)是数据挖掘应用中广泛存在的重要问题。典型的IL方法利用直观的类努力重新采样或重新重量直接平衡训练集。然而,特定领域的一些最近的研究努力表明,在没有课堂上操纵的情况下可以实现类别不平衡的学习。这提示我们思考两种不同的IL战略之间的关系和班级不平衡的性质。从根本上说,它们对应于IL中存在的两个必要的不平衡:来自不同类别的示例之间的数量差异以及单个类中的易于和硬示例之间,即阶级和级别的帧内不平衡。现有工程未能明确地考虑不平衡,因此遭受次优绩效。鉴于此,我们呈现了双重平衡的集合,即杜博士,一个多功能的集合学习框架。与普遍方法不同,Dube直接执行级别的级别和级别的平衡,而无需依赖基于距离的距离的计算,这允许它在计算效率时实现竞争性能。我们还提出了关于基于杜博伊的不同间/内部平衡策略的优缺点的详细讨论和分析。广泛的实验验证了所提出的方法的有效性。代码和示例可在https://github.com/iCde20222sub/duplebalance获得。
translated by 谷歌翻译
使用不平衡数据集的二进制分类具有挑战性。模型倾向于将所有样本视为属于多数类的样本。尽管现有的解决方案(例如抽样方法,成本敏感方法和合奏学习方法)提高了少数族裔类别的准确性,但这些方法受到过度拟合问题或难以决定的成本参数的限制。我们提出了HADR,这是一种降低尺寸的混合方法,包括数据块构建,降低性降低和与深度神经网络分类器的合奏学习。我们评估了八个不平衡的公共数据集的性能,从召回,g均值和AUC方面。结果表明,我们的模型优于最先进的方法。
translated by 谷歌翻译
不平衡的数据(ID)是阻止机器学习(ML)模型以实现令人满意的结果的问题。 ID是一种情况,即属于一个类别的样本的数量超过另一个类别的情况,这使此类模型学习过程偏向多数类。近年来,为了解决这个问题,已经提出了几种解决方案,该解决方案选择合成为少数族裔类生成新数据,或者减少平衡数据的多数类的数量。因此,在本文中,我们研究了基于深神经网络(DNN)和卷积神经网络(CNN)的方法的有效性,并与各种众所周知的不平衡数据解决方案混合,这意味着过采样和降采样。为了评估我们的方法,我们使用了龙骨,乳腺癌和Z-Alizadeh Sani数据集。为了获得可靠的结果,我们通过随机洗牌的数据分布进行了100次实验。分类结果表明,混合的合成少数族裔过采样技术(SMOTE) - 正态化-CNN优于在24个不平衡数据集上达到99.08%精度的不同方法。因此,提出的混合模型可以应用于其他实际数据集上的不平衡算法分类问题。
translated by 谷歌翻译
机器学习(ML)涵盖的实验必须考虑评估模型性能的两个重要方面:数据集和算法。需要强大的基准来评估最佳分类器。为此,可以采用公共存储库中提供的金标准基准。但是,常常不考虑在评估时考虑数据集的复杂性。这项工作提出了一种基于物品响应理论(IRT)和GLICKO-2的组合的新评估方法,该方法通常采用了评估参与者的强度(例如,国际象棋)。对于基准测试中的每个数据集,IRT用于估计分类器的能力,良好的分类器对最困难的测试实例具有良好的预测。然后为每对分类器运行锦标赛,以便GLICKO-2更新每个分类器等额定值,评级偏差和波动等性能信息。在此进行了一个案例研究,该研究通过了OpenML-CC18基准作为数据集的集合和各种分类算法的池进行评估。并非所有数据集都被观察到对评估算法非常有用,其中只有10%被认为是非常困难的。此外,验证了仅包含50%的OpenML-CC18的50%的子集的存在,其同样有用于算法评估。关于算法,本文提出的方法将随机林识别为具有最佳天生能力的算法。
translated by 谷歌翻译
班级失衡对机器学习构成了重大挑战,因为大多数监督学习模型可能对多数级别和少数族裔表现不佳表现出偏见。成本敏感的学习通过以不同的方式处理类别,通常通过用户定义的固定错误分类成本矩阵来解决此问题,以提供给学习者的输入。这种参数调整是一项具有挑战性的任务,需要域知识,此外,错误的调整可能会导致整体预测性能恶化。在这项工作中,我们为不平衡数据提出了一种新颖的成本敏感方法,该方法可以动态地调整错误分类的成本,以响应Model的性能,而不是使用固定的错误分类成本矩阵。我们的方法称为ADACC,是无参数的,因为它依赖于增强模型的累积行为,以便调整下一次增强回合的错误分类成本,并具有有关培训错误的理论保证。来自不同领域的27个现实世界数据集的实验表明,我们方法的优势超过了12种最先进的成本敏感方法,这些方法在不同度量方面表现出一致的改进,例如[0.3] AUC的%-28.56%],平衡精度[3.4%-21.4%],Gmean [4.8%-45%]和[7.4%-85.5%]用于召回。
translated by 谷歌翻译
In this study, we systematically investigate the impact of class imbalance on classification performance of convolutional neural networks (CNNs) and compare frequently used methods to address the issue. Class imbalance is a common problem that has been comprehensively studied in classical machine learning, yet very limited systematic research is available in the context of deep learning. In our study, we use three benchmark datasets of increasing complexity, MNIST, CIFAR-10 and ImageNet, to investigate the effects of imbalance on classification and perform an extensive comparison of several methods to address the issue: oversampling, undersampling, two-phase training, and thresholding that compensates for prior class probabilities. Our main evaluation metric is area under the receiver operating characteristic curve (ROC AUC) adjusted to multi-class tasks since overall accuracy metric is associated with notable difficulties in the context of imbalanced data. Based on results from our experiments we conclude that (i) the effect of class imbalance on classification performance is detrimental; (ii) the method of addressing class imbalance that emerged as dominant in almost all analyzed scenarios was oversampling; (iii) oversampling should be applied to the level that completely eliminates the imbalance, whereas the optimal undersampling ratio depends on the extent of imbalance; (iv) as opposed to some classical machine learning models, oversampling does not cause overfitting of CNNs; (v) thresholding should be applied to compensate for prior class probabilities when overall number of properly classified cases is of interest.
translated by 谷歌翻译