如今,机器学习几乎在任何领域都应用。在机器学习中,有许多方法,分类是最基本和关键的方法之一。可以通过分类来解决各种问题。模型设置的功能选择非常重要,并且通过功能工程生产新功能在模型的成功中也具有至关重要的位置。在我们的研究中,欺诈检测分类模型建立在标记和不平衡数据集的情况下作为案例研究。尽管这是一种自然语言处理方法,但已使用单词嵌入创建了客户空间,该方法已在不同领域,尤其是用于推荐系统。作为功​​能,创建空间中的客户向量被馈送到分类模型。此外,为了增加积极标签的数量,通过使用通过嵌入确定的客户相似性,将具有相似特征的行被重新标记为正。将嵌入方法包含在分类中的模型,该模型已与其他模型进行了比较。考虑到结果,可以观察到客户嵌入方法对分类模型的成功有积极影响。
translated by 谷歌翻译
数据转换(DT)是将原始数据转换为支持特定分类算法的形式的过程,并有助于分析特殊目的的数据。为了提高预测性能,我们调查了各种数据变换方法。本研究在电信行业(TCI)中的客户流失预测(CCP)背景下进行,客户疲劳是一种常见的现象。我们提出了一种与CCP问题的机器学习模型相结合的数据转换方法的新方法。我们在公开的TCI数据集中进行了实验,并在广泛使用的评估措施方面评估了性能(例如,AUC,精确,召回和F测量)。在这项研究中,我们提出了全面的比较来肯定转化方法的影响。比较结果和统计检验证明,大多数所提出的基于数据转换的优化模型显着提高了CCP的性能。总的来说,通过这份手稿介绍了电信行业的有效和优化的CCP模型。
translated by 谷歌翻译
如今,随着数字银行业务已成为常态,信用卡的使用已变得很普遍。随着这一增加,信用卡中的欺诈也对银行和客户都有一个巨大的问题和损失。正常的欺诈检测系统无法检测欺诈,因为欺诈者使用新技术出现欺诈。这创造了使用基于机器学习的软件来检测欺诈的需求。当前,可用的机器学习软件仅着眼于检测欺诈的准确性,但不关注检测的成本或时间因素。这项研究重点是银行信用卡欺诈检测系统的机器学习可伸缩性。我们已经比较了新提出的技术可用的现有机器学习算法和方法。目的是证明,使用较少的位训练机器学习算法将导致更可扩展的系统,这将减少时间,并且实施成本也较低。
translated by 谷歌翻译
人们使用移动消息传递服务的增加导致了像网络钓鱼一样的社会工程攻击的传播,考虑到垃圾邮件文本是传播网络钓鱼攻击的主要因素之一,以窃取信用卡和密码等敏感数据。此外,关于Covid-19大流行的谣言和不正确的医疗信息在社交媒体上广泛分享,导致人们的恐惧和混乱。因此,过滤垃圾邮件内容对于降低风险和威胁至关重要。以前的研究依赖于机器学习和深入学习的垃圾邮件分类方法,但这些方法有两个限制。机器学习模型需要手动功能工程,而深度神经网络需要高计算成本。本文介绍了一种动态的深度集合模型,用于垃圾邮件检测,调整其复杂性并自动提取功能。所提出的模型利用卷积和汇集层进行特征提取以及基础分类器,如随机森林和极其随机的树木,用于将文本分类为垃圾邮件或合法的树。此外,该模型采用了Boosting和Bagging等集合学习程序。结果,该模型达到了高精度,召回,F1分数和精度为98.38%。
translated by 谷歌翻译
由于欺诈模式随着时间的流逝而变化,并且欺诈示例的可用性有限,以学习这种复杂的模式,因此欺诈检测是一项具有挑战性的任务。因此,借助智能版本的机器学习(ML)工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务;但是,相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外,在不平衡类中的分类非常具有挑战性,因为它在少数群体中导致绩效差,大多数ML分类技术都忽略了。因此,我们研究了四种最先进的ML技术,即逻辑回归,决策树,随机森林和极端梯度提升,它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先,这些分类器经过两个原始基准测试不平衡检测数据集的培训,即网站网站URL和欺诈性信用卡交易。然后,通过实现采样框架,即RandomundSampler,Smote和Smoteenn,为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性,即接收器操作特性(AUC ROC)和精度和召回曲线下的面积(AUC PR)(AUC PR)。对于网络钓鱼网站URL和信用卡欺诈事务数据集,结果表明,对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能,并以AUC ROC和AUC PR来超越其他三种方法。
translated by 谷歌翻译
在线游戏论坛对大多数游戏玩家都很受欢迎。他们用它来沟通和讨论游戏的策略,甚至结交朋友。然而,游戏论坛还包含滥用和骚扰演讲,令人不安和威胁的球员。因此,有必要自动检测和删除网络欺凌评论,以保持游戏论坛清洁和友好。我们使用从魔兽世界(WOW)和联盟(LOL)论坛(LOL)论坛和火车分类模型中收集的网络欺凌数据集,以自动检测玩家的评论是否是滥用的。结果获得了LOL论坛的82.69%的宏F1分数,并通过网络伯文数据集的毒性BERT模型为哇论坛的83.86%的宏F1分数。
translated by 谷歌翻译
我们考虑实时流失预测的问题。由于推理生成的批处理模式,传统方法只能通过离线干预措施(例如测试消息,电子邮件或静态的产品内裸露)支持保留活动。实时流失预测中的其他最新作品并未评估精确取舍以在生产中部署此类模型的成本。在本文中,我们提出了RICON,这是一种灵活,具有成本效益且健壮的机器学习系统,可使用ClickStream数据实时预测客户流失倾向。除了流失倾向的预测外,RICON还基于产品使用智能提供了见解。通过在QBO高级客户的真实大数据上应用,我们展示了Ricon在存在强大的班级不平衡的情况下如何获得2.68的顶级升降机。此外,我们执行了一项广泛的比较研究,以证明我们对里昂的建模选择是合理的。最后,我们提到了如何将RICON与Intuit中的干预平台集成在一起,以实时的生产外环境有帮助。
translated by 谷歌翻译
在这个时代,作为医疗的主要重点,这一时刻已经到来了。尽管令人印象深刻,但已经开发出来检测疾病的多种技术。此时,有一些类型的疾病COVID-19,正常烟,偏头痛,肺病,心脏病,肾脏疾病,糖尿病,胃病,胃病,胃病,骨骼疾病,自闭症是非常常见的疾病。在此分析中,我们根据疾病的症状进行了分析疾病症状的预测。我们研究了一系列症状,并接受了人们的调查以完成任务。已经采用了几种分类算法来训练模型。此外,使用性能评估矩阵来衡量模型的性能。最后,我们发现零件分类器超过了其他分类器。
translated by 谷歌翻译
嵌入式是数据分析任务的基本构建块之一。嵌入式已经是大型语言模型和图像分析的重要工具,它们的使用扩展到许多其他研究域。这些分布式表示的生成通常是数据和计算昂贵的过程;然而,他们创造后的整体分析和调整仍然是一个发展中地区。在本文中,我们首先提出了非常一般的定量测量,以基于可以学习的嵌入数据中的特征的存在。然后,我们设计了一种方法来删除或缓解嵌入中的不期望的特征,同时保留数据的基本结构。我们使用域反对派网络(DAN)来生成非仿射变换,但我们添加约束以确保保留嵌入的基本结构。我们的经验结果表明,该算法在若干数据集中显着优异地优于艺术品无监督算法,包括业内新颖的应用。
translated by 谷歌翻译
与经典的机器学习方法相比,量子机学习(QML)尚未广泛证明其优势。到目前为止,只有在特定情况下,某些量子启发的技术已经实现了少量的增量优势,而在中期未来的混合量子计算中,一些实验案例有望实现(不考虑与使用量子的优化相关的成就 - 周期算法)。当前的量子计算机嘈杂,几乎没有量子的测试,因此很难证明QML方法的当前和潜在量子优势。这项研究表明,在数据预处理步骤中,我们可以通过使用线性判别分析(LDA)来实现量子分类器的更好的经典编码和性能。结果,变异量子算法(VQA)通过LDA技术和优于基线基线经典分类器显示出平衡精度的性能。
translated by 谷歌翻译
初始故障检测和诊断是提高车辆运行效率,安全性和稳定性的迫切措施。近年来,许多研究已经调查了使用可用的车辆数据改善车辆诊断过程的数据驱动方法。此外,采用数据驱动方法来增强客户服务代理交互。在这项研究中,我们展示了一种机器学习管道,以改善自动化车辆诊断。首先,自然语言处理(NLP)用于自由文本故障报告中提取至关重要的信息(在客户对服务部门的呼叫中生成)。然后,采用深度学习算法来验证服务请求并过滤模糊或误导性索赔。最终,实现了不同的分类算法以对服务请求进行分类,以便可以针对相关的服务部门进行有效的服务请求。拟议的模型 - 双向短期内存(BILSTM)以及卷积神经网络(CNN) - 显示了与技术人员的能力相比验证服务请求的18倍以上的准确性提高。此外,在预处理和特征提取阶段使用基于域的NLP技术以及基于CNN-BILSTM的请求验证提高了精度($> 25 \%$),灵敏度($> 39 \%$),特异性($> 11 \%$),精度($> 11 \%$)渐变树升压(GTB)服务分类模型。曲线下(ROC-AUC)下的接收器操作特征区域达到0.82。
translated by 谷歌翻译
Sentiment analysis or opinion mining help to illustrate the phrase NLP (Natural Language Processing). Sentiment analysis has been the most significant topic in recent years. The goal of this study is to solve the sentiment polarity classification challenges in sentiment analysis. A broad technique for categorizing sentiment opposition is presented, along with comprehensive process explanations. With the results of the analysis, both sentence-level classification and review-level categorization are conducted. Finally, we discuss our plans for future sentiment analysis research.
translated by 谷歌翻译
在许多行业中,客户流失预测是一项宝贵的任务。在电信中,鉴于数据的高维度以及确定潜在的挫败感签名是多么困难,这可能代表了关于未来流失行为的重要驱动因素。在这里,我们提出了一个新颖的贝叶斯分层联合模型,该模型能够根据不同电视观看旅程中发生的事件以及事件之间需要多长时间来表征客户资料。该模型大幅度地将数据的维度从每个客户的数千个观察值降低到11个客户级参数估计和随机效果。我们使用来自40个BT客户(有20名活跃和20名最终取消订阅的20人)的数据测试我们的方法,他们的电视观看行为是从2019年10月到2019年12月的,总计约为半百万。使用贝叶斯分层模型的参数估计和随机效应采用不同的机器学习技术,作为在验证中与100 \%真实的正率和14 \%的假正率相关的最高92 \%精度可预测流失的精度放。我们提出的方法是降低数据维度的有效方法,同时保持了高描述性和预测能力。我们提供代码以在https://github.com/rafamoral/profiling_tv_watching_behaviour上实现贝叶斯模型。
translated by 谷歌翻译
机器学习中最困难的任务是解释训练有素的浅神经网络。深度神经网络(DNNS)为更多的任务提供了令人印象深刻的结果,但是通常不清楚这种训练有素的深神经网络如何做出决策。提供特征重要性是浅层神经网络中使用的最重要和流行的解释技术。在本文中,我们开发了一种算法,扩展了Garson算法的思想,以解释基于信念网络的自动编码器(DBNA)。它用于确定DBN中每个输入特征的贡献。它可用于具有许多隐藏层的任何神经网络。该方法的有效性在分类和从文献中获取的回归数据集进行了测试。将此方法鉴定出的重要特征与Wald Chi Square(\ c {hi} 2)获得的特征进行了比较。对于4个分类数据集中的2个和5个回归数据集中的2个,我们提出的方法导致识别更好质量的特征,从而导致统计上更重要的结果,相对于wald \ c {hi} 2。
translated by 谷歌翻译
临床数据管理系统和人工智能方法的快速进展使个性化药物的时代能够。重症监护单位(ICU)是这种发展的理想临床研究环境,因为它们收集了许多临床数据,并且是高度计算机化的环境。我们在使用临床自然语言的前瞻性ICU数据库中设计了一种回顾性临床研究,帮助早期诊断严重生病的儿童心力衰竭。该方法包括学习算法的实证实验,以了解法国临床票据数据的隐藏解释和呈现。本研究包括1386名患者的临床票据,符合5444行票据。有1941个阳性案件(总计36%)和3503个使用标准方法的独立医生分类的负案件。多层的感知者神经网络优于其他判别和生成的分类器。因此,所提出的框架产生了总体分类性能,精度为89%,召回88%和89%的精度。本研究成功地应用了学习代表和机器学习算法,以检测单一法国机构中的临床自然语言的心力衰竭。需要进一步的工作来在其他机构和其他语言中使用相同的方法。
translated by 谷歌翻译
满意度测量,在今天的每个部门都出现,是许多公司的一个非常重要的因素。在本研究中,旨在通过使用yemek Sepeti的数据和该数据的变化来达到各种机器学习算法的最高精度率。每种算法的精度值都与所使用的各种自然语言处理方法一起计算。在计算这些精度值时,尝试优化使用的算法的参数。在本研究中培训的模型可以在未标记的数据上使用,并且可以在衡量客户满意度时给公司一个想法。观察到施加的3种不同的自然语言处理方法导致大部分开发模型中的大约5%的精度增加。
translated by 谷歌翻译
缺陷预测是最受欢迎的研究主题之一,因为它有可能最大程度地减少软件质量保证工作。现有方法已经从复杂性和开发者指标等各个角度检查了缺陷预测。但是,这些都没有考虑用于缺陷预测的编程样式。本文旨在分析风格指标对项目内部和交叉对象缺陷预测的影响。为了预测,使用了4种广泛使用的机器学习算法,即幼稚的贝叶斯,支持向量机,决策树和逻辑回归。该实验是在5个流行的开源项目的14个版本上进行的。检查F1,精度和召回以评估结果。结果表明,风格指标是缺陷的良好预测指标。
translated by 谷歌翻译
在当前的股票市场中,计算机科学和技术越来越广泛地用于分析股票。与大多数相关的机器学习股票价格预测工作不同,这项工作研究了公司年度报告披露后第二天的股票价格趋势。我们使用各种不同的模型,包括决策树,逻辑回归,随机森林,神经网络,原型网络。我们使用两组财务指标(密钥和扩展)进行实验,这些财务指标是从公司披露的Eastmoney网站获得的,最后我们发现这些模型的行为不佳来预测趋势。此外,我们还过滤了ROE大于0.15的库存,净现金比大于0.9。我们得出的结论是,根据基于公司刚发布的年度报告的财务指标,披露后第二天股票价格变动的可预测性较弱,最高准确性约为59.6%,我们的测试中的最高精度约为0.56。由随机森林分类器设置,库存过滤并不能改善性能。在所有这些模型中,随机森林总体上表现最好,这些模型符合某些工作的发现。
translated by 谷歌翻译
洪水是大自然最灾难性的灾难之一,对人类生活,农业,基础设施和社会经济系统造成了不可逆转和巨大的破坏。已经进行了几项有关洪水灾难管理和洪水预测系统的研究。实时对洪水的发作和进展的准确预测是具有挑战性的。为了估计大面积的水位和速度,有必要将数据与计算要求的洪水传播模型相结合。本文旨在减少这种自然灾害的极端风险,并通过使用不同的机器学习模型为洪水提供预测来促进政策建议。这项研究将使用二进制逻辑回归,K-Nearest邻居(KNN),支持向量分类器(SVC)和决策树分类器来提供准确的预测。通过结果,将进行比较分析,以了解哪种模型具有更好的准确性。
translated by 谷歌翻译
支持GPS的移动设备的普及和基于位置的服务的广泛使用导致了产生大量的地理标记数据。最近,数据分析现在可以访问更多来源,包括评论,新闻和图像,其中还提出了关于兴趣点(POI)数据源的可靠性的问题。虽然以前的研究通过各种安全机制试图检测到假POI数据,但目前的工作试图以更简单的方式捕获假POI数据。拟议的工作侧重于监督的学习方法及其能力,以找到基于位置的数据中的隐藏模式。通过真实数据获得地面真理标签,使用API​​生成假数据,因此我们将数据集与位置数据上的实际和假标签进行数据集。目的是使用多层Perceptron(MLP)方法来预测关于POI的真实性。在所提出的工作中,基于数据分类技术的MLP用于准确地对位置数据进行分类。将该方法与传统分类和稳健和近期深神经方法进行比较。结果表明,该方法优于基线方法。
translated by 谷歌翻译