虚假信用卡交易是财务损失的重要来源,并敦促开发准确的欺诈检测算法。在本文中,我们使用机器学习策略进行这种目标。首先,我们应用一种混合学习技术,它使用K-Means预处理在训练对手的问题之前。接下来,我们介绍了一种适用的检测器合奏技术,该技术使用或逻辑算法聚合来增强检测率。然后,使用真实的交易数据在数值模拟中部署了两种策略。我们从模拟结果中观察到所提出的方法减少计算成本和提高了最先进技术的性能。
translated by 谷歌翻译
Dataset scaling, also known as normalization, is an essential preprocessing step in a machine learning pipeline. It is aimed at adjusting attributes scales in a way that they all vary within the same range. This transformation is known to improve the performance of classification models, but there are several scaling techniques to choose from, and this choice is not generally done carefully. In this paper, we execute a broad experiment comparing the impact of 5 scaling techniques on the performances of 20 classification algorithms among monolithic and ensemble models, applying them to 82 publicly available datasets with varying imbalance ratios. Results show that the choice of scaling technique matters for classification performance, and the performance difference between the best and the worst scaling technique is relevant and statistically significant in most cases. They also indicate that choosing an inadequate technique can be more detrimental to classification performance than not scaling the data at all. We also show how the performance variation of an ensemble model, considering different scaling techniques, tends to be dictated by that of its base model. Finally, we discuss the relationship between a model's sensitivity to the choice of scaling technique and its performance and provide insights into its applicability on different model deployment scenarios. Full results and source code for the experiments in this paper are available in a GitHub repository.\footnote{https://github.com/amorimlb/scaling\_matters}
translated by 谷歌翻译
由于欺诈模式随着时间的流逝而变化,并且欺诈示例的可用性有限,以学习这种复杂的模式,因此欺诈检测是一项具有挑战性的任务。因此,借助智能版本的机器学习(ML)工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务;但是,相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外,在不平衡类中的分类非常具有挑战性,因为它在少数群体中导致绩效差,大多数ML分类技术都忽略了。因此,我们研究了四种最先进的ML技术,即逻辑回归,决策树,随机森林和极端梯度提升,它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先,这些分类器经过两个原始基准测试不平衡检测数据集的培训,即网站网站URL和欺诈性信用卡交易。然后,通过实现采样框架,即RandomundSampler,Smote和Smoteenn,为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性,即接收器操作特性(AUC ROC)和精度和召回曲线下的面积(AUC PR)(AUC PR)。对于网络钓鱼网站URL和信用卡欺诈事务数据集,结果表明,对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能,并以AUC ROC和AUC PR来超越其他三种方法。
translated by 谷歌翻译
机器学习已为财务欺诈检测打开了新的工具。使用带注释的交易样本,机器学习分类算法学会了检测欺诈。随着信用卡交易量的不断增长和欺诈百分比的增加,人们越来越有兴趣寻找适当的机器学习分类器进行检测。但是,欺诈数据集是多种多样的,并且表现出不一致的特征。结果,在给定数据集上有效的模型不能保证在另一个数据集上执行。此外,随着时间的推移,数据模式和特征的时间漂移​​的可能性很高。此外,欺诈数据具有巨大的不平衡。在这项工作中,我们将抽样方法评估为可行的预处理机制,以处理失衡并提出数据驱动的分类器选择策略,以高度不平衡欺诈检测数据集。基于我们的选择策略得出的模型超过了同行模型,同时在更现实的条件下工作,建立了策略的有效性。
translated by 谷歌翻译
Label noise is an important issue in classification, with many potential negative consequences. For example, the accuracy of predictions may decrease, whereas the complexity of inferred models and the number of necessary training samples may increase. Many works in the literature have been devoted to the study of label noise and the development of techniques to deal with label noise. However, the field lacks a comprehensive survey on the different types of label noise, their consequences and the algorithms that consider label noise. This paper proposes to fill this gap. First, the definitions and sources of label noise are considered and a taxonomy of the types of label noise is proposed. Second, the potential consequences of label noise are discussed. Third, label noise-robust, label noise cleansing, and label noise-tolerant algorithms are reviewed. For each category of approaches, a short discussion is proposed to help the practitioner to choose the most suitable technique in its own particular field of application. Eventually, the design of experiments is also discussed, what may interest the researchers who would like to test their own algorithms. In this paper, label noise consists of mislabeled instances: no additional information is assumed to be available like e.g. confidences on labels.
translated by 谷歌翻译
如今,乳腺癌已成为近年来最突出的死亡原因之一。在所有恶性肿瘤中,这是全球妇女最常见和主要的死亡原因。手动诊断这种疾病需要大量的时间和专业知识。乳腺癌的检测是耗时的,并且可以通过开发基于机器的乳腺癌预测来减少疾病的传播。在机器学习中,系统可以从先前的实例中学习,并使用各种统计,概率和优化方法从嘈杂或复杂的数据集中找到难以检测的模式。这项工作比较了几种机器学习算法的分类准确性,精度,灵敏度和新近收集的数据集的特异性。在这种工作决策树,随机森林,逻辑回归,天真的贝叶斯和XGBoost中,已经实施了这五种机器学习方法,以在我们的数据集中获得最佳性能。这项研究的重点是找到最佳的算法,该算法可以预测乳腺癌,以最高的准确性。这项工作在效率和有效性方面评估了每种算法数据分类的质量。并与该领域的其他已发表工作相比。实施模型后,本研究达到了最佳模型准确性,在随机森林和XGBoost上达到94%。
translated by 谷歌翻译
随着网络基础设施提高,个人贷款的需求增长,对等十年来,对等体(P2P)贷款平台已迅速增长。在没有传统金融机构的帮助下,这些平台允许用户创建对等贷款关系。评估借款人的信贷至关重要,以减少P2P平台的违约率和良性开发。构建个人信用评分机学习模型可以有效预测用户是否会在P2P平台上偿还贷款。并处理数据异常值和样本不平衡问题可能会影响机器学习模型的最终效果。已经有一些关于平衡采样方法的研究,但是对机器学习模型有效性的异常检测方法及其与平衡采样方法的影响尚未得到充分研究。在本文中,研究了使用不同异常检测方法对常用机器学习模型的不同异常检测方法和平衡采样方法的影响。 44,487贷款俱乐部样品的实验表明,适当的异常检测可以提高机器学习模型的有效性,平衡采样方法仅对几种机器学习模型(如MLP)有良好的影响。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
不平衡的数据(ID)是阻止机器学习(ML)模型以实现令人满意的结果的问题。 ID是一种情况,即属于一个类别的样本的数量超过另一个类别的情况,这使此类模型学习过程偏向多数类。近年来,为了解决这个问题,已经提出了几种解决方案,该解决方案选择合成为少数族裔类生成新数据,或者减少平衡数据的多数类的数量。因此,在本文中,我们研究了基于深神经网络(DNN)和卷积神经网络(CNN)的方法的有效性,并与各种众所周知的不平衡数据解决方案混合,这意味着过采样和降采样。为了评估我们的方法,我们使用了龙骨,乳腺癌和Z-Alizadeh Sani数据集。为了获得可靠的结果,我们通过随机洗牌的数据分布进行了100次实验。分类结果表明,混合的合成少数族裔过采样技术(SMOTE) - 正态化-CNN优于在24个不平衡数据集上达到99.08%精度的不同方法。因此,提出的混合模型可以应用于其他实际数据集上的不平衡算法分类问题。
translated by 谷歌翻译
在全球范围内,有实质性的未满足需要有效地诊断各种疾病。不同疾病机制的复杂性和患者人群的潜在症状具有巨大挑战,以发展早期诊断工具和有效治疗。机器学习(ML),人工智能(AI)区域,使研究人员,医师和患者能够解决这些问题的一些问题。基于相关研究,本综述解释了如何使用机器学习(ML)和深度学习(DL)来帮助早期识别许多疾病。首先,使用来自Scopus和Science(WOS)数据库的数据来给予所述出版物的生物计量研究。对1216个出版物的生物计量研究进行了确定,以确定最多产的作者,国家,组织和最引用的文章。此次审查总结了基于机器学习的疾病诊断(MLBDD)的最新趋势和方法,考虑到以下因素:算法,疾病类型,数据类型,应用和评估指标。最后,该文件突出了关键结果,并向未来的未来趋势和机遇提供了解。
translated by 谷歌翻译
机器学习算法已被广泛用于入侵检测系统,包括多层感知器(MLP)。在这项研究中,我们提出了一个两阶段模型,该模型结合了桦木聚类算法和MLP分类器,以提高网络异常多分类的性能。在我们提出的方法中,我们首先将桦木或kmeans作为无监督的聚类算法应用于CICIDS-2017数据集,以预先分组数据。然后,将生成的伪标签作为基于MLP分类器的训练的附加功能添加。实验结果表明,使用桦木和K-均值聚类进行数据预组化可以改善入侵检测系统的性能。我们的方法可以使用桦木聚类实现多分类的99.73%的精度,这比使用独立的MLP模型的类似研究要好。
translated by 谷歌翻译
Machine Learning (ML) software has been widely adopted in modern society, with reported fairness implications for minority groups based on race, sex, age, etc. Many recent works have proposed methods to measure and mitigate algorithmic bias in ML models. The existing approaches focus on single classifier-based ML models. However, real-world ML models are often composed of multiple independent or dependent learners in an ensemble (e.g., Random Forest), where the fairness composes in a non-trivial way. How does fairness compose in ensembles? What are the fairness impacts of the learners on the ultimate fairness of the ensemble? Can fair learners result in an unfair ensemble? Furthermore, studies have shown that hyperparameters influence the fairness of ML models. Ensemble hyperparameters are more complex since they affect how learners are combined in different categories of ensembles. Understanding the impact of ensemble hyperparameters on fairness will help programmers design fair ensembles. Today, we do not understand these fully for different ensemble algorithms. In this paper, we comprehensively study popular real-world ensembles: bagging, boosting, stacking and voting. We have developed a benchmark of 168 ensemble models collected from Kaggle on four popular fairness datasets. We use existing fairness metrics to understand the composition of fairness. Our results show that ensembles can be designed to be fairer without using mitigation techniques. We also identify the interplay between fairness composition and data characteristics to guide fair ensemble design. Finally, our benchmark can be leveraged for further research on fair ensembles. To the best of our knowledge, this is one of the first and largest studies on fairness composition in ensembles yet presented in the literature.
translated by 谷歌翻译
冠状质量弹出(CME)是最地理化的空间天气现象,与大型地磁风暴有关,有可能引起电信,卫星网络中断,电网损失和故障的干扰。因此,考虑到这些风暴对人类活动的潜在影响,对CME的地理效果的准确预测至关重要。这项工作着重于在接近太阳CME的白光冠状动脉数据集中训练的不同机器学习方法,以估计这种新爆发的弹出是否有可能诱导地磁活动。我们使用逻辑回归,k-nearest邻居,支持向量机,向前的人工神经网络以及整体模型开发了二进制分类模型。目前,我们限制了我们的预测专门使用太阳能发作参数,以确保延长警告时间。我们讨论了这项任务的主要挑战,即我们数据集中的地理填充和无效事件的数量以及它们的众多相似之处以及可用变量数量有限的极端失衡。我们表明,即使在这种情况下,这些模型也可以达到足够的命中率。
translated by 谷歌翻译
痴呆症是一种神经精神脑障碍,通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明,机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积(NWBV)和地图集缩放系数(ASF)收集的收集数据类型,这些数据通常测量并从磁共振成像(MRIS)中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症,但我们无法就这些方法的稳定性得出结论,而这些方法在不同的实验条件下更准确。因此,本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此,使用7种机器学习算法和两种功能还原算法,即信息增益(IG)和主成分分析(PCA)进行大量实验。为了检查这些算法的稳定性,IG的特征选择阈值从20%更改为100%,PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中,都记录了各种分类评估数据。获得的结果表明,在七种算法中,支持向量机和天真的贝叶斯是最稳定的算法,同时更改选择阈值。同样,发现使用IG似乎比使用PCA预测痴呆症更有效。
translated by 谷歌翻译
类不平衡是分类任务中经常发生的情况。从不平衡数据中学习提出了一个重大挑战,这在该领域引起了很多研究。使用采样技术进行数据预处理是处理数据中存在的不平衡的标准方法。由于标准分类算法在不平衡数据上的性能不佳,因此在培训之前,数据集需要足够平衡。这可以通过过度采样少数族裔级别或对多数级别的采样来实现。在这项研究中,已经提出了一种新型的混合采样算法。为了克服采样技术的局限性,同时确保保留采样数据集的质量,已经开发了一个复杂的框架来正确结合三种不同的采样技术。首先应用邻里清洁规则以减少失衡。然后从策略上与SMOTE算法策略性地采样,以在数据集中获得最佳平衡。该提出的混合方法学称为“ smote-rus-nc”,已与其他最先进的采样技术进行了比较。该策略进一步合并到集合学习框架中,以获得更健壮的分类算法,称为“ SRN-BRF”。对26个不平衡数据集进行了严格的实验,并具有不同程度的失衡。在几乎所有数据集中,提出的两种算法在许多情况下都超过了现有的采样策略,其差额很大。尤其是在流行抽样技术完全失败的高度不平衡数据集中,他们实现了无与伦比的性能。获得的优越结果证明了所提出的模型的功效及其在不平衡域中具有强大采样算法的潜力。
translated by 谷歌翻译
分类器的合奏结合了几个单个分类器,以提供最终的预测或分类决策。一个越来越令人发指的问题是,此类系统是否可以胜过单个最佳分类器。如果是这样,哪种形式的分类器合奏(也称为多个分类器学习系统或多个分类器)在合奏本身的规模或多样性中产生最重要的好处?鉴于用于检测自闭症特征的测试是耗时且昂贵的,因此开发了一种将提供最佳结果和测量自闭症谱系障碍(ASD)的系统。在本文中,评估了几个单一和后来的多个分类器学习系统,以预测和确定影响或有助于ASD的因素出于早期筛查目的的能力。行为数据和机器人增强疗法的3,000次课程和300小时的数据集,该疗法被记录为61名儿童。仿真结果表明,与单个分类器相比,多个分类器学习系统(尤其是每个集合具有三个分类器的人)的优越预测性能,可以通过装袋和增强获得出色的结果。看来,社会交流手势仍然是儿童ASD问题的关键因素。
translated by 谷歌翻译
这项工作使用来自建设性模拟的可靠数据比较了监督的机器学习方法,以估算空袭期间发射导弹的最有效时刻。我们采用了重采样技术来改善预测模型,分析准确性,精度,召回和F1得分。的确,我们可以根据决策树以及其他算法对重采样技术的显着敏感性来确定模型的显着性能。最佳F1分数的模型的值分别为0.379和0.465,而没有重新采样技术,这一值分别增加了22.69%。因此,如果理想,重新采样技术可以改善模型的召回率和F1得分,而准确性和精确度略有下降。因此,通过通过建设性模拟获得的数据,可以根据机器学习模型开发决策支持工具,从而可以提高BVR空中战斗的飞行质量,从而提高进攻任务的有效性以达到特定目标。
translated by 谷歌翻译
与经典的机器学习方法相比,量子机学习(QML)尚未广泛证明其优势。到目前为止,只有在特定情况下,某些量子启发的技术已经实现了少量的增量优势,而在中期未来的混合量子计算中,一些实验案例有望实现(不考虑与使用量子的优化相关的成就 - 周期算法)。当前的量子计算机嘈杂,几乎没有量子的测试,因此很难证明QML方法的当前和潜在量子优势。这项研究表明,在数据预处理步骤中,我们可以通过使用线性判别分析(LDA)来实现量子分类器的更好的经典编码和性能。结果,变异量子算法(VQA)通过LDA技术和优于基线基线经典分类器显示出平衡精度的性能。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
从不平衡数据中学习是一项具有挑战性的任务。在进行不平衡数据训练时,标准分类算法的性能往往差。需要通过修改数据分布或重新设计基础分类算法以实现理想的性能来采用一些特殊的策略。现实世界数据集中不平衡的流行率导致为班级不平衡问题创造了多种策略。但是,并非所有策略在不同的失衡情况下都有用或提供良好的性能。处理不平衡的数据有许多方法,但是尚未进行此类技术的功效或这些技术之间的实验比较。在这项研究中,我们对26种流行抽样技术进行了全面分析,以了解它们在处理不平衡数据方面的有效性。在50个数据集上进行了严格的实验,具有不同程度的不平衡,以彻底研究这些技术的性能。已经提出了对技术的优势和局限性的详细讨论,以及如何克服此类局限性。我们确定了影响采样策略的一些关键因素,并提供有关如何为特定应用选择合适的采样技术的建议。
translated by 谷歌翻译