信用卡在现代经济体中起着爆炸性的作用。它的受欢迎程度和普遍存在为欺诈行为创造了肥沃的理由,并在跨寄宿范围和瞬时确认的帮助下。尽管交易在增长,但欺诈百分比也在上升,以及一美元欺诈的真实成本。交易的数量,欺诈的独特性和欺诈者的创造力是检测欺诈行为的主要挑战。机器学习,人工智能和大数据的出现为打击欺诈的斗争打开了新的工具。鉴于过去的交易,机器学习算法具有“学习”无限复杂特征的能力,以实时识别欺诈,超过了最佳的人类研究者。但是,欺诈检测算法的发展由于欺诈数据的性质,缺乏基准和标准评估指标的严重不平衡性质而变得挑战和缓慢用于研究的机密交易数据。这项工作调查了典型的欺诈数据集的属性,其可用性,适用于研究用途,同时探索欺诈分布的广泛变化性质。此外,我们展示了人类注释错误与机器分类错误的复合。我们还进行了实验,以确定PCA混淆的影响(作为传播研究和机器学习的敏感交易数据的一种手段)对分类器的算法性能的影响,并表明PCA并未显着降低性能,但应注意使用谨慎适当的主要组件大小(尺寸),以避免过度拟合。
translated by 谷歌翻译
机器学习已为财务欺诈检测打开了新的工具。使用带注释的交易样本,机器学习分类算法学会了检测欺诈。随着信用卡交易量的不断增长和欺诈百分比的增加,人们越来越有兴趣寻找适当的机器学习分类器进行检测。但是,欺诈数据集是多种多样的,并且表现出不一致的特征。结果,在给定数据集上有效的模型不能保证在另一个数据集上执行。此外,随着时间的推移,数据模式和特征的时间漂移​​的可能性很高。此外,欺诈数据具有巨大的不平衡。在这项工作中,我们将抽样方法评估为可行的预处理机制,以处理失衡并提出数据驱动的分类器选择策略,以高度不平衡欺诈检测数据集。基于我们的选择策略得出的模型超过了同行模型,同时在更现实的条件下工作,建立了策略的有效性。
translated by 谷歌翻译
随着信用卡交易量的增长,欺诈百分比也在上升,包括机构打击和补偿受害者的间接费用。将机器学习用于金融部门可以更有效地保护欺诈和其他经济犯罪。经过适当训练的机器学习分类器有助于主动欺诈检测,改善利益相关者的信任和对非法交易的鲁棒性。但是,由于欺诈数据的极为不平衡的性质以及准确,完全完全确定欺诈行为的挑战,以创建金标准的地面真相,因此基于机器学习的欺诈检测算法的设计是具有挑战性和缓慢的。此外,没有基准或标准分类器评估指标来衡量和识别更好的性能分类器,从而使研究人员处于黑暗状态。在这项工作中,我们建立了一个理论基础,以模拟人类注释错误和现实世界欺诈检测数据集中典型的极端失衡。通过对假设分类器进行经验实验,并具有近似于流行的现实世界信用卡欺诈数据集的合成数据分布,我们模拟了人类注释错误和极端失衡,以观察流行的机器学习分类器评估矩阵的行为。我们证明,按照特定顺序,合并的F1分数和G均值是典型不平衡欺诈检测模型分类的最佳评估指标。
translated by 谷歌翻译
如今,随着数字银行业务已成为常态,信用卡的使用已变得很普遍。随着这一增加,信用卡中的欺诈也对银行和客户都有一个巨大的问题和损失。正常的欺诈检测系统无法检测欺诈,因为欺诈者使用新技术出现欺诈。这创造了使用基于机器学习的软件来检测欺诈的需求。当前,可用的机器学习软件仅着眼于检测欺诈的准确性,但不关注检测的成本或时间因素。这项研究重点是银行信用卡欺诈检测系统的机器学习可伸缩性。我们已经比较了新提出的技术可用的现有机器学习算法和方法。目的是证明,使用较少的位训练机器学习算法将导致更可扩展的系统,这将减少时间,并且实施成本也较低。
translated by 谷歌翻译
The literature on fraud analytics and fraud detection has seen a substantial increase in output in the past decade. This has led to a wide range of research topics and overall little organization of the many aspects of fraud analytical research. The focus of academics ranges from identifying fraudulent credit card payments to spotting illegitimate insurance claims. In addition, there is a wide range of methods and research objectives. This paper aims to provide an overview of fraud analytics in research and aims to more narrowly organize the discipline and its many subfields. We analyze a sample of almost 300 records on fraud analytics published between 2011 and 2020. In a systematic way, we identify the most prominent domains of application, challenges faced, performance metrics, and methods used. In addition, we build a framework for fraud analytical methods and propose a keywording strategy for future research. One of the key challenges in fraud analytics is access to public datasets. To further aid the community, we provide eight requirements for suitable data sets in research motivated by our research. We structure our sample of the literature in an online database. The database is available online for fellow researchers to investigate and potentially build upon.
translated by 谷歌翻译
与经典的机器学习方法相比,量子机学习(QML)尚未广泛证明其优势。到目前为止,只有在特定情况下,某些量子启发的技术已经实现了少量的增量优势,而在中期未来的混合量子计算中,一些实验案例有望实现(不考虑与使用量子的优化相关的成就 - 周期算法)。当前的量子计算机嘈杂,几乎没有量子的测试,因此很难证明QML方法的当前和潜在量子优势。这项研究表明,在数据预处理步骤中,我们可以通过使用线性判别分析(LDA)来实现量子分类器的更好的经典编码和性能。结果,变异量子算法(VQA)通过LDA技术和优于基线基线经典分类器显示出平衡精度的性能。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
由于欺诈模式随着时间的流逝而变化,并且欺诈示例的可用性有限,以学习这种复杂的模式,因此欺诈检测是一项具有挑战性的任务。因此,借助智能版本的机器学习(ML)工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务;但是,相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外,在不平衡类中的分类非常具有挑战性,因为它在少数群体中导致绩效差,大多数ML分类技术都忽略了。因此,我们研究了四种最先进的ML技术,即逻辑回归,决策树,随机森林和极端梯度提升,它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先,这些分类器经过两个原始基准测试不平衡检测数据集的培训,即网站网站URL和欺诈性信用卡交易。然后,通过实现采样框架,即RandomundSampler,Smote和Smoteenn,为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性,即接收器操作特性(AUC ROC)和精度和召回曲线下的面积(AUC PR)(AUC PR)。对于网络钓鱼网站URL和信用卡欺诈事务数据集,结果表明,对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能,并以AUC ROC和AUC PR来超越其他三种方法。
translated by 谷歌翻译
由于医疗保健是关键方面,健康保险已成为最大程度地减少医疗费用的重要计划。此后,由于保险的增加,医疗保健行业的欺诈活动大幅增加,欺诈行业已成为医疗费用上升的重要贡献者,尽管可以使用欺诈检测技术来减轻其影响。为了检测欺诈,使用机器学习技术。美国联邦政府的医疗补助和医疗保险服务中心(CMS)在本研究中使用“医疗保险D部分”保险索赔来开发欺诈检测系统。在类不平衡且高维的Medicare数据集中使用机器学习算法是一项艰巨的任务。为了紧凑此类挑战,目前的工作旨在在数据采样之后执行功能提取,然后应用各种分类算法,以获得更好的性能。特征提取是一种降低降低方法,该方法将属性转换为实际属性的线性或非线性组合,生成较小,更多样化的属性集,从而降低了尺寸。数据采样通常用于通过扩大少数族裔类的频率或降低多数类的频率以获得两种类别的出现数量大约相等的频率来解决类不平衡。通过标准性能指标评估所提出的方法。因此,为了有效地检测欺诈,本研究将自动编码器作为特征提取技术,合成少数族裔过采样技术(SMOTE)作为数据采样技术,以及各种基于决策树的分类器作为分类算法。实验结果表明,自动编码器的结合,然后在LightGBM分类器上获得SMOTE,取得了最佳的结果。
translated by 谷歌翻译
如今,由于最近在人工智能(AI)和机器学习(ML)中的近期突破,因此,智能系统和服务越来越受欢迎。然而,机器学习不仅满足软件工程,不仅具有有希望的潜力,而且还具有一些固有的挑战。尽管最近的一些研究努力,但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外,目前尚不清楚软件工程研究人员应将其努力集中起来,以更好地支持ML应用程序开发人员。在本文中,我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者(以不同的技能,经验和应用领域)获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题,以改善工程过程和基于ML的申请的质量。
translated by 谷歌翻译
本文使用Qiskit软件堆栈提出了金融支付行业中的量子支持矢量机(QSVM)算法的第一个端到端应用,用于金融支付行业中的分类问题。基于实际卡支付数据,进行了详尽的比较,以评估当前最新的量子机学习算法对经典方法带来的互补影响。使用量子支持矢量机的特征映射特征来探索一种搜索最佳功能的新方法。使用欺诈特定的关键绩效指标比较结果:基于人类专业知识(规则决策),经典的机器学习算法(随机森林,XGBoost)和基于量子的机器学习算法,从分析中提取了准确性,回忆和假阳性率。 。此外,通过使用结合经典和量子算法的合奏模型来更好地改善预防欺诈的决策,从而探索了混合经典量子方法。我们发现,正如预期的那样,结果高度依赖于用于选择它们的特征选择和算法。 QSVM对特征空间进行了互补的探索,从而在大幅度降低的数据集上拟合了量子硬件的当前状态,从而提高了混合量子古典方法的欺诈检测准确性。
translated by 谷歌翻译
机器学习(ML)在渲染影响社会各个群体的决策中起着越来越重要的作用。 ML模型为刑事司法的决定,银行业中的信贷延长以及公司的招聘做法提供了信息。这提出了模型公平性的要求,这表明自动化的决策对于受保护特征(例如,性别,种族或年龄)通常是公平的,这些特征通常在数据中代表性不足。我们假设这个代表性不足的问题是数据学习不平衡问题的必然性。此类不平衡通常反映在两个类别和受保护的功能中。例如,一个班级(那些获得信用的班级)对于另一个班级(未获得信用的人)可能会过分代表,而特定组(女性)(女性)的代表性可能与另一组(男性)有关。相对于受保护组的算法公平性的关键要素是同时减少了基础培训数据中的类和受保护的群体失衡,这促进了模型准确性和公平性的提高。我们通过展示这些领域中的关键概念如何重叠和相互补充,讨论弥合失衡学习和群体公平的重要性;并提出了一种新颖的过采样算法,即公平的过采样,该算法既解决偏斜的类别分布和受保护的特征。我们的方法:(i)可以用作标准ML算法的有效预处理算法,以共同解决不平衡和群体权益; (ii)可以与公平感知的学习算法结合使用,以提高其对不同水平不平衡水平的稳健性。此外,我们迈出了一步,将公平和不平衡学习之间的差距与新的公平实用程序之间的差距弥合,从而将平衡的准确性与公平性结合在一起。
translated by 谷歌翻译
如今,许多分类算法已应用于各个行业,以帮助他们在现实生活中解决他们的问题。但是,在许多二进制分类任务中,少数族裔类中的样本仅构成了所有实例的一小部分,这导致了我们通常患有高失衡比的数据集。现有模型有时将少数族裔类别视为噪音,或者将它们视为遇到数据偏斜的异常值。为了解决这个问题,我们提出了一个装袋合奏学习框架$ ASE $(基于异常得分的合奏学习)。该框架具有基于异常检测算法的评分系统,可以通过将多数类中的样本分为子空间来指导重采样策略。那么,特定数量的实例将从每个子空间中采样较低,以通过与少数族裔类结合来构建子集。我们根据异常检测模型的分类结果和子空间的统计数据计算由子集训练的基本分类器的权重。已经进行了实验,这表明我们的合奏学习模型可以显着提高基本分类器的性能,并且比在广泛的不平衡比率,数据量表和数据维度下的其他现有方法更有效。 $ ase $可以与各种分类器结合使用,我们的框架的每个部分都被证明是合理和必要的。
translated by 谷歌翻译
Learning classifiers using skewed or imbalanced datasets can occasionally lead to classification issues; this is a serious issue. In some cases, one class contains the majority of examples while the other, which is frequently the more important class, is nevertheless represented by a smaller proportion of examples. Using this kind of data could make many carefully designed machine-learning systems ineffective. High training fidelity was a term used to describe biases vs. all other instances of the class. The best approach to all possible remedies to this issue is typically to gain from the minority class. The article examines the most widely used methods for addressing the problem of learning with a class imbalance, including data-level, algorithm-level, hybrid, cost-sensitive learning, and deep learning, etc. including their advantages and limitations. The efficiency and performance of the classifier are assessed using a myriad of evaluation metrics.
translated by 谷歌翻译
当没有足够的数据来证实客户的身份时,身份盗窃是信贷贷方的主要问题。在超级应用程序中,包含许多不同服务的大型数字平台,此问题更为相关;在一个分支中丢失客户通常意味着在其他服务中丢失它们。在本文中,我们审查了超级应用程序信息,手机线数据和传统信用风险变量的特征级融合的有效性,以便早日检测身份盗窃信用卡欺诈。通过提出的框架,我们在使用投入是替代数据和传统信贷局数据融合的模型时实现了更好的性能,从而实现了0.81的ROC AUC评分。我们从信用贷方的数字平台数据库中评估我们的方法超过大约90,000个用户。评估是使用传统的ML指标进行的,但金融成本也是如此。
translated by 谷歌翻译
成像,散射和光谱是理解和发现新功能材料的基础。自动化和实验技术的当代创新导致这些测量更快,分辨率更高,从而产生了大量的分析数据。这些创新在用户设施和同步射击光源时特别明显。机器学习(ML)方法经常开发用于实时地处理和解释大型数据集。然而,仍然存在概念障碍,进入设施一般用户社区,通常缺乏ML的专业知识,以及部署ML模型的技术障碍。在此,我们展示了各种原型ML模型,用于在国家同步光源II(NSLS-II)的多个波束线上在飞行分析。我们谨慎地描述这些示例,专注于将模型集成到现有的实验工作流程中,使得读者可以容易地将它们自己的ML技术与具有普通基础设施的NSLS-II或设施的实验中的实验。此处介绍的框架展示了几乎没有努力,多样化的ML型号通过集成到实验编程和数据管理的现有Blueske套件中与反馈回路一起运行。
translated by 谷歌翻译
越来越多的工作已经认识到利用机器学习(ML)进步的重要性,以满足提取访问控制属性,策略挖掘,策略验证,访问决策等有效自动化的需求。在这项工作中,我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战,例如缺乏公共现实世界数据集,基于ML的访问控制系统的管理,了解黑盒ML模型的决策等,并列举未来的研究方向。
translated by 谷歌翻译
Concept drift primarily refers to an online supervised learning scenario when the relation between the input data and the target variable changes over time. Assuming a general knowledge of supervised learning in this paper we characterize adaptive learning process, categorize existing strategies for handling concept drift, overview the most representative, distinct and popular techniques and algorithms, discuss evaluation methodology of adaptive algorithms, and present a set of illustrative applications. The survey covers the different facets of concept drift in an integrated way to reflect on the existing scattered state-of-the-art. Thus, it aims at providing a comprehensive introduction to the concept drift adaptation for researchers, industry analysts and practitioners.
translated by 谷歌翻译
本文研究了与可解释的AI(XAI)实践有关的两个不同但相关的问题。机器学习(ML)在金融服务中越来越重要,例如预批准,信用承销,投资以及各种前端和后端活动。机器学习可以自动检测培训数据中的非线性和相互作用,从而促进更快,更准确的信用决策。但是,机器学习模型是不透明的,难以解释,这是建立可靠技术所需的关键要素。该研究比较了各种机器学习模型,包括单个分类器(逻辑回归,决策树,LDA,QDA),异质集合(Adaboost,随机森林)和顺序神经网络。结果表明,整体分类器和神经网络的表现优于表现。此外,使用基于美国P2P贷款平台Lending Club提供的开放式访问数据集评估了两种先进的事后不可解释能力 - 石灰和外形来评估基于ML的信用评分模型。对于这项研究,我们还使用机器学习算法来开发新的投资模型,并探索可以最大化盈利能力同时最大程度地降低风险的投资组合策略。
translated by 谷歌翻译
Advocates of algorithmic techniques like data mining argue that these techniques eliminate human biases from the decision-making process. But an algorithm is only as good as the data it works with. Data is frequently imperfect in ways that allow these algorithms to inherit the prejudices of prior decision makers. In other cases, data may simply reflect the widespread biases that persist in society at large. In still others, data mining can discover surprisingly useful regularities that are really just preexisting patterns of exclusion and inequality. Unthinking reliance on data mining can deny historically disadvantaged and vulnerable groups full participation in society. Worse still, because the resulting discrimination is almost always an unintentional emergent property of the algorithm's use rather than a conscious choice by its programmers, it can be unusually hard to identify the source of the problem or to explain it to a court. This Essay examines these concerns through the lens of American antidiscrimination law-more particularly, through Title
translated by 谷歌翻译