智能论文笔记

An AI-powered Smart Routing Solution for Payment Systems

Ramya Bygari , Aayush Gupta , Shashwat Raghuvanshi , Aakanksha Bapna , Birendra Sahu

分类：人工智能

2021-11-01

在当前的数字化时代，在线支付系统吸引了相当大的兴趣。提高支付系统的效率很重要，因为它对企业的收入有很大影响。网关是每次交易都被路由的付款系统的一个组成部分。在在线支付系统中，付款处理器通过各种配置与这些网关集成，例如定价，方法，风险检查等。这些配置称为终端。每个网关都可以有多个与之相关的终端。通过最佳终端路由付款交易至关重要，以提高付款交易的概率成功。机器学习（ML）和人工智能（AI）技术可用于基于先前的性能和各种支付相关属性准确地预测最佳终端。我们设计了一种由静态和动态模块组成的管道。静态模块使用静态规则和预测网关下降时间的逻辑回归模型进行终端初始过滤。随后，动态模块基于成功率，支付属性，时间滞后等来计算大量的新颖功能以准确地模拟终端行为。使用反馈循环实时使用自适应时间衰减速率算法更新这些功能，并传递给随机林分类器以预测每个终端的成功概率。该管道目前正在razorpay在Razorpay提供数百万次交易中实时生产，并在所有支付方法（信用卡，借记卡，UPI，净银行）的成功率上有4-6 \％。这使得我们的支付系统更加适应表现下降，这已经提高了用户体验，灌输了更多信任商家，并提升了业务的收入。

translated by 谷歌翻译

RICON: A ML framework for real-time and proactive intervention to prevent customer churn

Arnab Chakraborty , Vikas Raturi , Shrutendra Harsola

分类：机器学习

2022-03-30

我们考虑实时流失预测的问题。由于推理生成的批处理模式，传统方法只能通过离线干预措施（例如测试消息，电子邮件或静态的产品内裸露）支持保留活动。实时流失预测中的其他最新作品并未评估精确取舍以在生产中部署此类模型的成本。在本文中，我们提出了RICON，这是一种灵活，具有成本效益且健壮的机器学习系统，可使用ClickStream数据实时预测客户流失倾向。除了流失倾向的预测外，RICON还基于产品使用智能提供了见解。通过在QBO高级客户的真实大数据上应用，我们展示了Ricon在存在强大的班级不平衡的情况下如何获得2.68的顶级升降机。此外，我们执行了一项广泛的比较研究，以证明我们对里昂的建模选择是合理的。最后，我们提到了如何将RICON与Intuit中的干预平台集成在一起，以实时的生产外环境有帮助。

translated by 谷歌翻译

A novel approach to increase scalability while training machine learning algorithms using Bfloat 16 in credit card fraud detection

Bushra Yousuf , Rejwan Bin Sulaiman , Musarrat Saberin Nipun

分类：机器学习 | 人工智能

2022-06-24

如今，随着数字银行业务已成为常态，信用卡的使用已变得很普遍。随着这一增加，信用卡中的欺诈也对银行和客户都有一个巨大的问题和损失。正常的欺诈检测系统无法检测欺诈，因为欺诈者使用新技术出现欺诈。这创造了使用基于机器学习的软件来检测欺诈的需求。当前，可用的机器学习软件仅着眼于检测欺诈的准确性，但不关注检测的成本或时间因素。这项研究重点是银行信用卡欺诈检测系统的机器学习可伸缩性。我们已经比较了新提出的技术可用的现有机器学习算法和方法。目的是证明，使用较少的位训练机器学习算法将导致更可扩展的系统，这将减少时间，并且实施成本也较低。

translated by 谷歌翻译

Towards Explainable Artificial Intelligence in Banking and Financial Services

Ambreen Hanif

分类：机器学习 | 人工智能

2021-12-14

人工智能（AI）使机器能够从人类经验中学习，适应新的输入，并执行人类的人类任务。 AI正在迅速发展，从过程自动化到认知增强任务和智能流程/数据分析的方式转换业务方式。然而，人类用户的主要挑战是理解和适当地信任AI算法和方法的结果。在本文中，为了解决这一挑战，我们研究并分析了最近在解释的人工智能（XAI）方法和工具中所做的最新工作。我们介绍了一种新颖的XAI进程，便于生产可解释的模型，同时保持高水平的学习性能。我们提出了一种基于互动的证据方法，以帮助人类用户理解和信任启用AI的算法创建的结果和输出。我们在银行域中采用典型方案进行分析客户交易。我们开发数字仪表板以促进与算法的互动结果，并讨论如何提出的XAI方法如何显着提高数据科学家对理解启用AI的算法结果的置信度。

translated by 谷歌翻译

IoT Data Analytics in Dynamic Environments: From An Automated Machine Learning Perspective

Li Yang , Abdallah Shami

分类：机器学习

2022-09-16

近年来，随着传感器和智能设备的广泛传播，物联网（IoT）系统的数据生成速度已大大增加。在物联网系统中，必须经常处理，转换和分析大量数据，以实现各种物联网服务和功能。机器学习（ML）方法已显示出其物联网数据分析的能力。但是，将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战，特别是有效的模型选择，设计/调整和更新，这给经验丰富的数据科学家带来了巨大的需求。此外，物联网数据的动态性质可能引入概念漂移问题，从而导致模型性能降解。为了减少人类的努力，自动化机器学习（AUTOML）已成为一个流行的领域，旨在自动选择，构建，调整和更新机器学习模型，以在指定任务上实现最佳性能。在本文中，我们对Automl区域中模型选择，调整和更新过程中的现有方法进行了审查，以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法，在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后，我们讨论并分类了该领域的挑战和研究方向。

translated by 谷歌翻译

An Explainable Decision Support System for Predictive Process Analytics

Riccardo Galanti , Massimiliano de Leoni , Merylin Monaro , Nicolò Navarin , Alan Marazzi , Brigida Di Stasi , Stéphanie Maldera

分类：机器学习

2022-07-26

预测过程分析已成为组织的基本援助，从而为其流程提供在线运营支持。但是，需要向流程利益相关者提供解释为什么预测给定流程执行以某种方式行事的原因。否则，他们将不太可能相信预测性监测技术，从而采用它。本文提出了一个预测分析框架，该框架还具有基于Shapley值的游戏理论的解释功能。该框架已在IBM Process采矿套件中实施，并为业务用户商业化。该框架已在现实生活事件数据上进行了测试，以评估预测的质量和相应的评估。特别是，已经执行了用户评估，以了解系统提供的解释是否可以使流程利益相关者可理解。

translated by 谷歌翻译

Agnostic Learning for Packing Machine Stoppage Prediction in Smart Factories

Gabriel Filios , Ioannis Katsidimas , Sotiris Nikoletseas , Stefanos H. Panagiotou , Theofanis P. Raptis

分类：机器学习

2022-12-12

The cyber-physical convergence is opening up new business opportunities for industrial operators. The need for deep integration of the cyber and the physical worlds establishes a rich business agenda towards consolidating new system and network engineering approaches. This revolution would not be possible without the rich and heterogeneous sources of data, as well as the ability of their intelligent exploitation, mainly due to the fact that data will serve as a fundamental resource to promote Industry 4.0. One of the most fruitful research and practice areas emerging from this data-rich, cyber-physical, smart factory environment is the data-driven process monitoring field, which applies machine learning methodologies to enable predictive maintenance applications. In this paper, we examine popular time series forecasting techniques as well as supervised machine learning algorithms in the applied context of Industry 4.0, by transforming and preprocessing the historical industrial dataset of a packing machine's operational state recordings (real data coming from the production line of a manufacturing plant from the food and beverage domain). In our methodology, we use only a single signal concerning the machine's operational status to make our predictions, without considering other operational variables or fault and warning signals, hence its characterization as ``agnostic''. In this respect, the results demonstrate that the adopted methods achieve a quite promising performance on three targeted use cases.

translated by 谷歌翻译

A Natural Language Processing and Deep Learning based Model for Automated Vehicle Diagnostics using Free-Text Customer Service Reports

Ali Khodadadi , Soroush Ghandiparsi , Chen-Nee Chuah

分类：自然语言处理

2021-11-29

初始故障检测和诊断是提高车辆运行效率，安全性和稳定性的迫切措施。近年来，许多研究已经调查了使用可用的车辆数据改善车辆诊断过程的数据驱动方法。此外，采用数据驱动方法来增强客户服务代理交互。在这项研究中，我们展示了一种机器学习管道，以改善自动化车辆诊断。首先，自然语言处理（NLP）用于自由文本故障报告中提取至关重要的信息（在客户对服务部门的呼叫中生成）。然后，采用深度学习算法来验证服务请求并过滤模糊或误导性索赔。最终，实现了不同的分类算法以对服务请求进行分类，以便可以针对相关的服务部门进行有效的服务请求。拟议的模型 - 双向短期内存（BILSTM）以及卷积神经网络（CNN） - 显示了与技术人员的能力相比验证服务请求的18倍以上的准确性提高。此外，在预处理和特征提取阶段使用基于域的NLP技术以及基于CNN-BILSTM的请求验证提高了精度（$> 25 \％$），灵敏度（$> 39 \％$），特异性（$> 11 \％$），精度（$> 11 \％$）渐变树升压（GTB）服务分类模型。曲线下（ROC-AUC）下的接收器操作特征区域达到0.82。

translated by 谷歌翻译

Experiment Based Crafting and Analyzing of Machine Learning Solutions

Samuel Ackerman , Eitan Farchi , Orna Raz , Onn Shehory

分类：机器学习

2022-01-02

基于机器学习（ML）的系统的制作需要在其生命周期中进行统计控制。仔细量化业务需求和识别影响业务需求的关键因素降低了项目故障的风险。业务需求的量化导致随机变量的定义，表示通过统计实验需要分析的系统关键性能指标。此外，可提供的培训和实验结果产生影响系统的设计。开发系统后，测试并不断监控，以确保其符合其业务需求。这是通过持续应用统计实验来分析和控制关键绩效指标来完成的。本书教授制作和开发基于ML的系统的艺术。它倡导“首先”方法，强调从项目生命周期开始定义统计实验的需要。它还详细讨论了如何在整个生命周期中对基于ML的系统进行统计控制。

translated by 谷歌翻译

Mixed Quantum-Classical Method For Fraud Detection with Quantum Feature Selection

Michele Grossi , Noelle Ibrahim , Voica Radescu , Robert Loredo , Kirsten Voigt , Constantin Von Altrock , Andreas Rudnik

分类：机器学习

2022-08-16

本文使用Qiskit软件堆栈提出了金融支付行业中的量子支持矢量机（QSVM）算法的第一个端到端应用，用于金融支付行业中的分类问题。基于实际卡支付数据，进行了详尽的比较，以评估当前最新的量子机学习算法对经典方法带来的互补影响。使用量子支持矢量机的特征映射特征来探索一种搜索最佳功能的新方法。使用欺诈特定的关键绩效指标比较结果：基于人类专业知识（规则决策），经典的机器学习算法（随机森林，XGBoost）和基于量子的机器学习算法，从分析中提取了准确性，回忆和假阳性率。。此外，通过使用结合经典和量子算法的合奏模型来更好地改善预防欺诈的决策，从而探索了混合经典量子方法。我们发现，正如预期的那样，结果高度依赖于用于选择它们的特征选择和算法。 QSVM对特征空间进行了互补的探索，从而在大幅度降低的数据集上拟合了量子硬件的当前状态，从而提高了混合量子古典方法的欺诈检测准确性。

translated by 谷歌翻译

VisRuler: Visual Analytics for Extracting Decision Rules from Bagged and Boosted Decision Trees

Angelos Chatzimparmpas , Rafael M. Martins , Andreas Kerren

分类：机器学习 | (统计)机器学习

2021-12-01

装袋和升压是在机器学习（ml）中的两个流行的集合方法，产生许多单独的决策树。由于这些方法的固有组合特性，它们通常以预测性能更优于单决定树或其他ML模型。然而，为每个决策树生成许多决定路径，增加了模型的整体复杂性，并阻碍了其在需要值得信赖和可解释的决策的域中的域，例如金融，社会护理和保健。因此，随着决策的数量升高，袋装和升降算法（例如随机森林和自适应升压）的解释性降低。在本文中，我们提出了一种视觉分析工具，该工具旨在帮助用户通过彻底的视觉检查工作流程从这种ML模型中提取决策，包括选择一套鲁棒和不同的模型（源自不同的集合学习算法），选择重要的功能根据他们的全球贡献，决定哪些决定对于全球解释（或本地，具体案件）是必不可少的。结果是基于多个模型的协议和用户出口的探索手动决策的最终决定。最后，我们通过用例，使用场景和用户学习评估患者的适用性和有效性。

translated by 谷歌翻译

A survey on concept drift adaptation

分类：

Concept drift primarily refers to an online supervised learning scenario when the relation between the input data and the target variable changes over time. Assuming a general knowledge of supervised learning in this paper we characterize adaptive learning process, categorize existing strategies for handling concept drift, overview the most representative, distinct and popular techniques and algorithms, discuss evaluation methodology of adaptive algorithms, and present a set of illustrative applications. The survey covers the different facets of concept drift in an integrated way to reflect on the existing scattered state-of-the-art. Thus, it aims at providing a comprehensive introduction to the concept drift adaptation for researchers, industry analysts and practitioners.

translated by 谷歌翻译

Analyzing Machine Learning Models for Credit Scoring with Explainable AI and Optimizing Investment Decisions

Swati Tyagi

分类：机器学习 | (统计)机器学习

2022-09-19

本文研究了与可解释的AI（XAI）实践有关的两个不同但相关的问题。机器学习（ML）在金融服务中越来越重要，例如预批准，信用承销，投资以及各种前端和后端活动。机器学习可以自动检测培训数据中的非线性和相互作用，从而促进更快，更准确的信用决策。但是，机器学习模型是不透明的，难以解释，这是建立可靠技术所需的关键要素。该研究比较了各种机器学习模型，包括单个分类器（逻辑回归，决策树，LDA，QDA），异质集合（Adaboost，随机森林）和顺序神经网络。结果表明，整体分类器和神经网络的表现优于表现。此外，使用基于美国P2P贷款平台Lending Club提供的开放式访问数据集评估了两种先进的事后不可解释能力 - 石灰和外形来评估基于ML的信用评分模型。对于这项研究，我们还使用机器学习算法来开发新的投资模型，并探索可以最大化盈利能力同时最大程度地降低风险的投资组合策略。

translated by 谷歌翻译

Nudge: Accelerating Overdue Pull Requests Towards Completion

Chandra Maddila , Sai Surya Upadrasta , Chetan Bansal , Nachiappan Nagappan , Georgios Gousios , Arie van Deursen

分类：人工智能 | 机器学习

2020-11-25

拉力请求是当今协作软件开发和代码审核过程的关键部分。但是，当审阅者或作者不积极参与拉动请求时，拉动请求也可以减慢软件开发过程。在这项工作中，我们设计了一项端到端服务，以提醒作者或审阅者与他们的逾期拉动请求互动，以加速逾期拉动请求。首先，我们根据努力估算和机器学习使用模型来预测给定拉的请求的完成时间。其次，我们使用活动检测来滤除可能逾期的拉请请求，但仍在采取足够的动作。最后，我们使用演员身份证来了解拉动请求的阻止者是谁，并推动适当的演员（作者或审稿人）。轻推的主要新颖性是它成功地减少了拉动请求解决时间，同时确保开发人员认为发送的通知在成千上万的存储库中是有用的。在Microsoft使用的147个存储库的随机试验中，Nudge能够将拉的请求分辨率时间减少60％，而与Nudge未发送通知的逾期拉动请求相比，该请求的8,500次拉。此外，收到推动通知的开发人员将这些通知的73％置于正面。我们观察到在Microsoft的8,000个存储库中扩展Nudge的部署时，我们观察到了类似的结果，在整整一年中，Nudge发送了210,000个通知。这表明了Nudge可以扩展到数千个存储库的能力。最后，我们对选择通知的定性分析指示了未来研究的领域，例如在拉动请求和开发人员的可用性中考虑依赖性。

translated by 谷歌翻译

A Dependable Hybrid Machine Learning Model for Network Intrusion Detection

Md. Alamin Talukder , Khondokar Fida Hasan , Md. Manowarul Islam , Md Ashraf Uddin , Arnisha Akhter , Mohammand Abu Yousuf , Fares Alharbi , Mohammad Ali Moni

分类：机器学习

2022-12-08

Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.

translated by 谷歌翻译

Leak Detection in Natural Gas Pipeline Using Machine Learning Models

Adebayo Oshingbesan

分类：机器学习

2022-09-21

天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要，因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力，然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术，使用回归分类层次模型来检测天然气管道中的泄漏，其中智能模型充当回归器，并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型（梯度提升，决策树，随机森林，支持向量机和人工神经网络）。结果表明，虽然支持向量机和人工神经网络比其他网络更好，但由于其内部复杂性和所使用的数据量，它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的，因为它们可以在大约2小时内检测到标称流量的0.1％的泄漏。所有智能模型在测试阶段中具有高可靠性，错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明，智能模型在泄漏检测问题中的表现相对较好。该结果表明，可以与实时瞬态模型一起使用智能模型，以显着改善泄漏检测结果。

translated by 谷歌翻译

Machine Unlearning: Learning, Polluting, and Unlearning for Spam Email

Nishchal Parne , Kyathi Puppaala , Nithish Bhupathi , Ripon Patgiri

分类：机器学习 | 人工智能

2021-11-26

在此上下文中研究了用于安全性的机器。存在几种垃圾邮件检测方法，每个垃圾邮件检测方法采用不同的算法来检测不期望的垃圾邮件。但这些模型容易受到攻击。许多攻击者通过以各种方式污染到模型的数据来利用模型。因此，在这种情况下，在这种情况下表现得可能需要在不需要再培训的情况下容易地解除污染数据。在大多数情况下，在大多数情况下，Retringing在过去已经训练到模型的大量数据，这需要再次训练，只需删除少量污染数据，这通常明显小于1％。通过开发所有垃圾邮件检测模型的未读框架可以解决这个问题。在本研究中，无线学习模块集成到基于天真贝叶斯，决策树和随机林算法的垃圾邮件检测模型中。为了评估未经读回的未经读取的好处，通过攻击者的职位和证明模型的漏洞，污染和利用了三种垃圾邮件检测模型。每种情况都显示了准确性和真正阳性率的降低，显示出污染对模型的影响。然后，未经读取的模块集成到模型中，并且污染数据是未解决的;在无线学习后测试模型，可以看到恢复性能。此外，对所有模型的不同污染数据尺寸进行了比较无线学习和再培训时间。在分析调查结果时，可以得出结论，无线学习与再培训相当优于。结果表明，无光，易于实施，易于实施，易于使用，有效。

translated by 谷歌翻译

Improving Operational Efficiency In EV Ridepooling Fleets By Predictive Exploitation of Idle Times

Jesper C. Provoost , Andreas Kamilaris , Gyözö Gidófalvi , Geert J. Heijenk , Luc J. J. Wismans

分类：机器学习 | 人工智能

2022-08-30

在带有电动车队的乘车系统中，充电是一个复杂的决策过程。大多数电动汽车（EV）出租车服务要求驾驶员做出利己主义决定，从而导致分散的临时充电策略。车辆之间通常缺乏或不共享移动性系统的当前状态，因此无法做出最佳的决定。大多数现有方法都不将时间，位置和持续时间结合到全面的控制算法中，也不适合实时操作。因此，我们提出了一种实时预测性充电方法，用于使用一个名为“闲置时间开发（ITX）”的单个操作员进行乘车服务，该方法预测了车辆闲置并利用这些时期来收获能量的时期。它依靠图形卷积网络和线性分配算法来设计最佳的车辆和充电站配对，以最大程度地提高利用的空闲时间。我们通过对纽约市现实世界数据集的广泛模拟研究评估了我们的方法。结果表明，就货币奖励功能而言，ITX的表现优于所有基线方法至少提高5％（相当于6,000个车辆操作的$ 70,000），该奖励奖励功能的建模旨在复制现实世界中乘车系统的盈利能力。此外，与基线方法相比，ITX可以将延迟至少减少4.68％，并且通常通过促进顾客在整个车队中更好地传播乘客的舒适度。我们的结果还表明，ITX使车辆能够在白天收获能量，稳定电池水平，并增加需求意外激增的弹性。最后，与表现最佳的基线策略相比，峰值负载减少了17.39％，这使网格操作员受益，并为更可持续的电网使用铺平了道路。

translated by 谷歌翻译

Fraud Detection Using Optimized Machine Learning Tools Under Imbalance Classes

Mary Isangediok , Kelum Gajamannage

分类：机器学习

2022-09-04

由于欺诈模式随着时间的流逝而变化，并且欺诈示例的可用性有限，以学习这种复杂的模式，因此欺诈检测是一项具有挑战性的任务。因此，借助智能版本的机器学习（ML）工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务；但是，相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外，在不平衡类中的分类非常具有挑战性，因为它在少数群体中导致绩效差，大多数ML分类技术都忽略了。因此，我们研究了四种最先进的ML技术，即逻辑回归，决策树，随机森林和极端梯度提升，它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先，这些分类器经过两个原始基准测试不平衡检测数据集的培训，即网站网站URL和欺诈性信用卡交易。然后，通过实现采样框架，即RandomundSampler，Smote和Smoteenn，为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性，即接收器操作特性（AUC ROC）和精度和召回曲线下的面积（AUC PR）（AUC PR）。对于网络钓鱼网站URL和信用卡欺诈事务数据集，结果表明，对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能，并以AUC ROC和AUC PR来超越其他三种方法。

translated by 谷歌翻译

A Survey of Recommender System Techniques and the Ecommerce Domain

Imran Hossain , Md Aminul Haque Palash , Anika Tabassum Sejuty , Noor A Tanjim , MD Abdullah AL Nasim , Sarwar Saif , Abu Bokor Suraj

分类：人工智能

2022-08-15

在这个大数据时代，当前一代很难从在线平台中包含的大量数据中找到正确的数据。在这种情况下，需要一个信息过滤系统，可以帮助他们找到所需的信息。近年来，出现了一个称为推荐系统的研究领域。推荐人变得重要，因为他们拥有许多现实生活应用。本文回顾了推荐系统在电子商务，电子商务，电子资源，电子政务，电子学习和电子生活中的不同技术和发展。通过分析有关该主题的最新工作，我们将能够详细概述当前的发展，并确定建议系统中的现有困难。最终结果为从业者和研究人员提供了对建议系统及其应用的必要指导和见解。

translated by 谷歌翻译