如今,随着数字银行业务已成为常态,信用卡的使用已变得很普遍。随着这一增加,信用卡中的欺诈也对银行和客户都有一个巨大的问题和损失。正常的欺诈检测系统无法检测欺诈,因为欺诈者使用新技术出现欺诈。这创造了使用基于机器学习的软件来检测欺诈的需求。当前,可用的机器学习软件仅着眼于检测欺诈的准确性,但不关注检测的成本或时间因素。这项研究重点是银行信用卡欺诈检测系统的机器学习可伸缩性。我们已经比较了新提出的技术可用的现有机器学习算法和方法。目的是证明,使用较少的位训练机器学习算法将导致更可扩展的系统,这将减少时间,并且实施成本也较低。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
由于欺诈模式随着时间的流逝而变化,并且欺诈示例的可用性有限,以学习这种复杂的模式,因此欺诈检测是一项具有挑战性的任务。因此,借助智能版本的机器学习(ML)工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务;但是,相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外,在不平衡类中的分类非常具有挑战性,因为它在少数群体中导致绩效差,大多数ML分类技术都忽略了。因此,我们研究了四种最先进的ML技术,即逻辑回归,决策树,随机森林和极端梯度提升,它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先,这些分类器经过两个原始基准测试不平衡检测数据集的培训,即网站网站URL和欺诈性信用卡交易。然后,通过实现采样框架,即RandomundSampler,Smote和Smoteenn,为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性,即接收器操作特性(AUC ROC)和精度和召回曲线下的面积(AUC PR)(AUC PR)。对于网络钓鱼网站URL和信用卡欺诈事务数据集,结果表明,对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能,并以AUC ROC和AUC PR来超越其他三种方法。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
信用卡在现代经济体中起着爆炸性的作用。它的受欢迎程度和普遍存在为欺诈行为创造了肥沃的理由,并在跨寄宿范围和瞬时确认的帮助下。尽管交易在增长,但欺诈百分比也在上升,以及一美元欺诈的真实成本。交易的数量,欺诈的独特性和欺诈者的创造力是检测欺诈行为的主要挑战。机器学习,人工智能和大数据的出现为打击欺诈的斗争打开了新的工具。鉴于过去的交易,机器学习算法具有“学习”无限复杂特征的能力,以实时识别欺诈,超过了最佳的人类研究者。但是,欺诈检测算法的发展由于欺诈数据的性质,缺乏基准和标准评估指标的严重不平衡性质而变得挑战和缓慢用于研究的机密交易数据。这项工作调查了典型的欺诈数据集的属性,其可用性,适用于研究用途,同时探索欺诈分布的广泛变化性质。此外,我们展示了人类注释错误与机器分类错误的复合。我们还进行了实验,以确定PCA混淆的影响(作为传播研究和机器学习的敏感交易数据的一种手段)对分类器的算法性能的影响,并表明PCA并未显着降低性能,但应注意使用谨慎适当的主要组件大小(尺寸),以避免过度拟合。
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
本文使用Qiskit软件堆栈提出了金融支付行业中的量子支持矢量机(QSVM)算法的第一个端到端应用,用于金融支付行业中的分类问题。基于实际卡支付数据,进行了详尽的比较,以评估当前最新的量子机学习算法对经典方法带来的互补影响。使用量子支持矢量机的特征映射特征来探索一种搜索最佳功能的新方法。使用欺诈特定的关键绩效指标比较结果:基于人类专业知识(规则决策),经典的机器学习算法(随机森林,XGBoost)和基于量子的机器学习算法,从分析中提取了准确性,回忆和假阳性率。 。此外,通过使用结合经典和量子算法的合奏模型来更好地改善预防欺诈的决策,从而探索了混合经典量子方法。我们发现,正如预期的那样,结果高度依赖于用于选择它们的特征选择和算法。 QSVM对特征空间进行了互补的探索,从而在大幅度降低的数据集上拟合了量子硬件的当前状态,从而提高了混合量子古典方法的欺诈检测准确性。
translated by 谷歌翻译
为了允许机器学习算法从原始数据中提取知识,必须首先清除,转换,并将这些数据置于适当的形式。这些通常很耗时的阶段被称为预处理。预处理阶段的一个重要步骤是特征选择,其目的通过减少数据集的特征量来更好地执行预测模型。在这些数据集中,不同事件的实例通常是不平衡的,这意味着某些正常事件被超出,而其他罕见事件非常有限。通常,这些罕见的事件具有特殊的兴趣,因为它们具有比正常事件更具辨别力。这项工作的目的是过滤提供给这些罕见实例的特征选择方法的实例,从而积极影响特征选择过程。在这项工作过程中,我们能够表明这种过滤对分类模型的性能以及异常值检测方法适用于该过滤。对于某些数据集,所产生的性能增加仅为百分点,但对于其他数据集,我们能够实现高达16%的性能的增加。这项工作应导致预测模型的改进以及在预处理阶段的过程中的特征选择更好的可解释性。本着公开科学的精神,提高了我们的研究领域的透明度,我们已经在公开的存储库中提供了我们的所有源代码和我们的实验结果。
translated by 谷歌翻译
如今,由于最近在人工智能(AI)和机器学习(ML)中的近期突破,因此,智能系统和服务越来越受欢迎。然而,机器学习不仅满足软件工程,不仅具有有希望的潜力,而且还具有一些固有的挑战。尽管最近的一些研究努力,但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外,目前尚不清楚软件工程研究人员应将其努力集中起来,以更好地支持ML应用程序开发人员。在本文中,我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者(以不同的技能,经验和应用领域)获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题,以改善工程过程和基于ML的申请的质量。
translated by 谷歌翻译
人工智能(AI)使机器能够从人类经验中学习,适应新的输入,并执行人类的人类任务。 AI正在迅速发展,从过程自动化到认知增强任务和智能流程/数据分析的方式转换业务方式。然而,人类用户的主要挑战是理解和适当地信任AI算法和方法的结果。在本文中,为了解决这一挑战,我们研究并分析了最近在解释的人工智能(XAI)方法和工具中所做的最新工作。我们介绍了一种新颖的XAI进程,便于生产可解释的模型,同时保持高水平的学习性能。我们提出了一种基于互动的证据方法,以帮助人类用户理解和信任启用AI的算法创建的结果和输出。我们在银行域中采用典型方案进行分析客户交易。我们开发数字仪表板以促进与算法的互动结果,并讨论如何提出的XAI方法如何显着提高数据科学家对理解启用AI的算法结果的置信度。
translated by 谷歌翻译
目前,数据赢得了用户生成的数据和数据处理系统之间的大鼠竞赛。机器学习的使用增加导致处理需求的进一步增加,而数据量不断增长。为了赢得比赛,需要将机器学习应用于通过网络的数据。数据的网络分类可以减少服务器上的负载,减少响应时间并提高可伸缩性。在本文中,我们使用现成的网络设备以混合方式介绍了IISY,以混合方式实施机器学习分类模型。 IISY针对网络内分类的三个主要挑战:(i)将分类模型映射到网络设备(ii)提取所需功能以及(iii)解决资源和功能约束。 IISY支持一系列传统和集合机器学习模型,独立于开关管道中的阶段数量扩展。此外,我们证明了IISY用于混合分类的使用,其中在一个开关上实现了一个小模型,在后端的大型模型上实现了一个小模型,从而实现了接近最佳的分类结果,同时大大降低了服务器上的延迟和负载。
translated by 谷歌翻译
越来越多的工作已经认识到利用机器学习(ML)进步的重要性,以满足提取访问控制属性,策略挖掘,策略验证,访问决策等有效自动化的需求。在这项工作中,我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战,例如缺乏公共现实世界数据集,基于ML的访问控制系统的管理,了解黑盒ML模型的决策等,并列举未来的研究方向。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
本文研究了与可解释的AI(XAI)实践有关的两个不同但相关的问题。机器学习(ML)在金融服务中越来越重要,例如预批准,信用承销,投资以及各种前端和后端活动。机器学习可以自动检测培训数据中的非线性和相互作用,从而促进更快,更准确的信用决策。但是,机器学习模型是不透明的,难以解释,这是建立可靠技术所需的关键要素。该研究比较了各种机器学习模型,包括单个分类器(逻辑回归,决策树,LDA,QDA),异质集合(Adaboost,随机森林)和顺序神经网络。结果表明,整体分类器和神经网络的表现优于表现。此外,使用基于美国P2P贷款平台Lending Club提供的开放式访问数据集评估了两种先进的事后不可解释能力 - 石灰和外形来评估基于ML的信用评分模型。对于这项研究,我们还使用机器学习算法来开发新的投资模型,并探索可以最大化盈利能力同时最大程度地降低风险的投资组合策略。
translated by 谷歌翻译
网络威胁情报(CTI)共享是减少攻击者和捍卫者之间信息不对称的重要活动。但是,由于数据共享和机密性之间的紧张关系,这项活动带来了挑战,这导致信息保留通常会导致自由骑士问题。因此,共享的信息仅代表冰山一角。当前的文献假设访问包含所有信息的集中数据库,但是由于上述张力,这并不总是可行的。这会导致不平衡或不完整的数据集,需要使用技术扩展它们。我们展示了这些技术如何导致结果和误导性能期望。我们提出了一个新颖的框架,用于从分布式数据中提取有关事件,漏洞和妥协指标的分布式数据,并与恶意软件信息共享平台(MISP)一起证明其在几种实际情况下的使用。提出和讨论了CTI共享的政策影响。拟议的系统依赖于隐私增强技术和联合处理的有效组合。这使组织能够控制其CTI,并最大程度地减少暴露或泄漏的风险,同时为共享的好处,更准确和代表性的结果以及更有效的预测性和预防性防御能力。
translated by 谷歌翻译
人们的个人卫生习惯在每日生活方式中照顾身体和健康的状况。保持良好的卫生习惯不仅减少了患疾病的机会,而且还可以降低社区中传播疾病的风险。鉴于目前的大流行,每天的习惯,例如洗手或定期淋浴,在人们中至关重要,尤其是对于单独生活在家里或辅助生活设施中的老年人。本文提出了一个新颖的非侵入性框架,用于使用我们采用机器学习技术的振动传感器监测人卫生。该方法基于地球通传感器,数字化器和实用外壳中具有成本效益的计算机板的组合。监测日常卫生常规可能有助于医疗保健专业人员积极主动,而不是反应性,以识别和控制社区内潜在暴发的传播。实验结果表明,将支持向量机(SVM)用于二元分类,在不同卫生习惯的分类中表现出约95%的有希望的准确性。此外,基于树的分类器(随机福雷斯特和决策树)通过实现最高精度(100%)优于其他模型,这意味着可以使用振动和非侵入性传感器对卫生事件进行分类,以监测卫生活动。
translated by 谷歌翻译
与经典的机器学习方法相比,量子机学习(QML)尚未广泛证明其优势。到目前为止,只有在特定情况下,某些量子启发的技术已经实现了少量的增量优势,而在中期未来的混合量子计算中,一些实验案例有望实现(不考虑与使用量子的优化相关的成就 - 周期算法)。当前的量子计算机嘈杂,几乎没有量子的测试,因此很难证明QML方法的当前和潜在量子优势。这项研究表明,在数据预处理步骤中,我们可以通过使用线性判别分析(LDA)来实现量子分类器的更好的经典编码和性能。结果,变异量子算法(VQA)通过LDA技术和优于基线基线经典分类器显示出平衡精度的性能。
translated by 谷歌翻译
机器学习已为财务欺诈检测打开了新的工具。使用带注释的交易样本,机器学习分类算法学会了检测欺诈。随着信用卡交易量的不断增长和欺诈百分比的增加,人们越来越有兴趣寻找适当的机器学习分类器进行检测。但是,欺诈数据集是多种多样的,并且表现出不一致的特征。结果,在给定数据集上有效的模型不能保证在另一个数据集上执行。此外,随着时间的推移,数据模式和特征的时间漂移​​的可能性很高。此外,欺诈数据具有巨大的不平衡。在这项工作中,我们将抽样方法评估为可行的预处理机制,以处理失衡并提出数据驱动的分类器选择策略,以高度不平衡欺诈检测数据集。基于我们的选择策略得出的模型超过了同行模型,同时在更现实的条件下工作,建立了策略的有效性。
translated by 谷歌翻译
机器学习,已经在越来越多的系统和应用程序的核心,被设置为更普遍存在的可穿戴设备和物联网的快速崛起。在大多数机器学习应用中,主要焦点是实现的结果的质量(例如,预测准确性),因此正在收集大量数据,需要大量的计算资源来构建模型。但是,在许多情况下,建立大型集中式数据存储库是不可行或不切实际的。例如,在个人健康中,隐私问题可能会抑制详细个人数据的共享。在这种情况下,理想情况下,机器学习应该在可穿戴设备本身上执行,这提高了诸如Smartwatches的电池容量的主要计算限制。因此,本文调查了节俭学习,旨在使用最少量资源来构建最准确的可能模型。通过节俭镜头检查广泛的学习算法,在各种数据集上分析了它们的准确性/运行时性能。此后,最有前途的算法通过在SmartWatch中实现它们,并让他们在手表本身上学习活动识别模型来评估现实世界的情况。
translated by 谷歌翻译
通过分析大量数据来提供决策支持,大数据正在改革许多工业域。大数据测试旨在确保大数据系统在维护数据的性能和质量时运行平稳且无错误。但是,由于数据的多样性和复杂性,测试大数据具有挑战性。虽然众多研究对大数据测试进行了综合审查,但解决了测试技术和挑战的综合性尚未混淆。因此,我们对大数据测试技术(2010年 - 2021年)进行了系统审查。本文通过突出显示每个处理阶段的技术来讨论测试数据的处理。此外,我们讨论了挑战和未来的方向。我们的发现表明,已经使用不同的功能,非功能性和组合(功能和非功能性)测试技术来解决与大数据相关的特定问题。同时,在MapReduce验证阶段,大多数测试挑战都面临。此外,组合测试技术是与其他技术相结合的应用技术之一(即随机测试,突变测试,输入空间分区和等价测试),以解决在大数据测试期间面临的各种功能故障挑战。
translated by 谷歌翻译