根据哪种机器学习模型提高其性能,当他们有更多数据来学习时,存在常见的假设。在这项研究中,作者希望通过使用新颖的职业学生数据进行实证实验来澄清困境。该实验比较了不同的机器学习算法,同时改变了可用于训练和测试模型的数据数量和特征组合。实验表明,数据记录的增加或其样本频率不会立即导致模型精度或性能的显着增加,但是在集合模型的情况下,准确性的方差会减少。在增加模型的输入特征的数量的同时,目睹了类似的现象。该研究驳斥了起始假设,并继续说明,在这种情况下,数据的重要性在于数据的质量而不是数据的数量。
translated by 谷歌翻译
痴呆症是一种神经精神脑障碍,通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明,机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积(NWBV)和地图集缩放系数(ASF)收集的收集数据类型,这些数据通常测量并从磁共振成像(MRIS)中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症,但我们无法就这些方法的稳定性得出结论,而这些方法在不同的实验条件下更准确。因此,本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此,使用7种机器学习算法和两种功能还原算法,即信息增益(IG)和主成分分析(PCA)进行大量实验。为了检查这些算法的稳定性,IG的特征选择阈值从20%更改为100%,PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中,都记录了各种分类评估数据。获得的结果表明,在七种算法中,支持向量机和天真的贝叶斯是最稳定的算法,同时更改选择阈值。同样,发现使用IG似乎比使用PCA预测痴呆症更有效。
translated by 谷歌翻译
在整个宇宙学模拟中,初始条件中的物质密度场的性质对今天形成的结构的特征具有决定性的影响。在本文中,我们使用随机森林分类算法来推断暗物质颗粒是否追溯到初始条件,最终将在肿块上高于一些阈值的暗物质卤素。该问题可能被构成为二进制分类任务,其中物质密度字段的初始条件映射到由光环发现者程序提供的分类标签。我们的研究结果表明,随机森林是有效的工具,无法在不运行完整过程的情况下预测宇宙学模拟的输出。在将来可能使用这些技术来降低计算时间并更有效地探索不同暗物质/暗能候选对宇宙结构的形成的影响。
translated by 谷歌翻译
如今,随着数字银行业务已成为常态,信用卡的使用已变得很普遍。随着这一增加,信用卡中的欺诈也对银行和客户都有一个巨大的问题和损失。正常的欺诈检测系统无法检测欺诈,因为欺诈者使用新技术出现欺诈。这创造了使用基于机器学习的软件来检测欺诈的需求。当前,可用的机器学习软件仅着眼于检测欺诈的准确性,但不关注检测的成本或时间因素。这项研究重点是银行信用卡欺诈检测系统的机器学习可伸缩性。我们已经比较了新提出的技术可用的现有机器学习算法和方法。目的是证明,使用较少的位训练机器学习算法将导致更可扩展的系统,这将减少时间,并且实施成本也较低。
translated by 谷歌翻译
Covid-19是由新型冠状病毒(SARS-COV-2)引起的疾病,于2019年12月下旬首次在中国武汉出现。不久之后,该病毒在全球范围内传播,并于3月被世界卫生组织宣布为大流行病。 2020年。这造成了世界各地和美国的许多变化,包括向在线学习的教育转变。在本文中,我们试图了解Covid-19-19的大流行和在线学习的增加如何影响大学生的情感福祉。我们使用几种机器学习和统计模型来分析卢布尔雅那大学公共行政学院,斯洛文尼亚大学,与国际大学,其他高等教育机构和学生协会一起收集的数据。我们的结果表明,与学生的学术生活有关的特征对他们的情感健康产生了最大的影响。其他重要因素包括学生对大学和政府对大流行的处理以及学生的财务安全的满意。
translated by 谷歌翻译
Machine learning is the study of computer algorithms that can automatically improve based on data and experience. Machine learning algorithms build a model from sample data, called training data, to make predictions or judgments without being explicitly programmed to do so. A variety of wellknown machine learning algorithms have been developed for use in the field of computer science to analyze data. This paper introduced a new machine learning algorithm called impact learning. Impact learning is a supervised learning algorithm that can be consolidated in both classification and regression problems. It can furthermore manifest its superiority in analyzing competitive data. This algorithm is remarkable for learning from the competitive situation and the competition comes from the effects of autonomous features. It is prepared by the impacts of the highlights from the intrinsic rate of natural increase (RNI). We, moreover, manifest the prevalence of the impact learning over the conventional machine learning algorithm.
translated by 谷歌翻译
最近,在气象学中使用机器学习大大增加了。尽管许多机器学习方法并不是什么新鲜事物,但有关机器学习的大学课程在很大程度上是气象学专业的学生,​​不需要成为气象学家。缺乏正式的教学导致人们认为机器学习方法是“黑匣子”,因此最终用户不愿在每天的工作流程中应用机器学习方法。为了减少机器学习方法的不透明性,并降低了对气象学中机器学习的犹豫,本文对一些最常见的机器学习方法进行了调查。一个熟悉的气象示例用于将机器学习方法背景化,同时还使用普通语言讨论机器学习主题。证明了以下机器学习方法:线性回归;逻辑回归;决策树;随机森林;梯度增强了决策树;天真的贝叶斯;并支持向量机。除了讨论不同的方法外,本文还包含有关通用机器学习过程的讨论以及最佳实践,以使读者能够将机器学习应用于自己的数据集。此外,所有代码(以Jupyter笔记本电脑和Google Colaboratory Notebooks的形式)用于在论文中进行示例,以促进气象学中的机器学习使用。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
本文使用Qiskit软件堆栈提出了金融支付行业中的量子支持矢量机(QSVM)算法的第一个端到端应用,用于金融支付行业中的分类问题。基于实际卡支付数据,进行了详尽的比较,以评估当前最新的量子机学习算法对经典方法带来的互补影响。使用量子支持矢量机的特征映射特征来探索一种搜索最佳功能的新方法。使用欺诈特定的关键绩效指标比较结果:基于人类专业知识(规则决策),经典的机器学习算法(随机森林,XGBoost)和基于量子的机器学习算法,从分析中提取了准确性,回忆和假阳性率。 。此外,通过使用结合经典和量子算法的合奏模型来更好地改善预防欺诈的决策,从而探索了混合经典量子方法。我们发现,正如预期的那样,结果高度依赖于用于选择它们的特征选择和算法。 QSVM对特征空间进行了互补的探索,从而在大幅度降低的数据集上拟合了量子硬件的当前状态,从而提高了混合量子古典方法的欺诈检测准确性。
translated by 谷歌翻译
本文研究了与可解释的AI(XAI)实践有关的两个不同但相关的问题。机器学习(ML)在金融服务中越来越重要,例如预批准,信用承销,投资以及各种前端和后端活动。机器学习可以自动检测培训数据中的非线性和相互作用,从而促进更快,更准确的信用决策。但是,机器学习模型是不透明的,难以解释,这是建立可靠技术所需的关键要素。该研究比较了各种机器学习模型,包括单个分类器(逻辑回归,决策树,LDA,QDA),异质集合(Adaboost,随机森林)和顺序神经网络。结果表明,整体分类器和神经网络的表现优于表现。此外,使用基于美国P2P贷款平台Lending Club提供的开放式访问数据集评估了两种先进的事后不可解释能力 - 石灰和外形来评估基于ML的信用评分模型。对于这项研究,我们还使用机器学习算法来开发新的投资模型,并探索可以最大化盈利能力同时最大程度地降低风险的投资组合策略。
translated by 谷歌翻译
The costs and impacts of government corruption range from impairing a country's economic growth to affecting its citizens' well-being and safety. Public contracting between government dependencies and private sector instances, referred to as public procurement, is a fertile land of opportunity for corrupt practices, generating substantial monetary losses worldwide. Thus, identifying and deterring corrupt activities between the government and the private sector is paramount. However, due to several factors, corruption in public procurement is challenging to identify and track, leading to corrupt practices going unnoticed. This paper proposes a machine learning model based on an ensemble of random forest classifiers, which we call hyper-forest, to identify and predict corrupt contracts in M\'exico's public procurement data. This method's results correctly detect most of the corrupt and non-corrupt contracts evaluated in the dataset. Furthermore, we found that the most critical predictors considered in the model are those related to the relationship between buyers and suppliers rather than those related to features of individual contracts. Also, the method proposed here is general enough to be trained with data from other countries. Overall, our work presents a tool that can help in the decision-making process to identify, predict and analyze corruption in public procurement contracts.
translated by 谷歌翻译
A large number of network security breaches in IoT networks have demonstrated the unreliability of current Network Intrusion Detection Systems (NIDSs). Consequently, network interruptions and loss of sensitive data have occurred, which led to an active research area for improving NIDS technologies. In an analysis of related works, it was observed that most researchers aim to obtain better classification results by using a set of untried combinations of Feature Reduction (FR) and Machine Learning (ML) techniques on NIDS datasets. However, these datasets are different in feature sets, attack types, and network design. Therefore, this paper aims to discover whether these techniques can be generalised across various datasets. Six ML models are utilised: a Deep Feed Forward (DFF), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), Decision Tree (DT), Logistic Regression (LR), and Naive Bayes (NB). The accuracy of three Feature Extraction (FE) algorithms; Principal Component Analysis (PCA), Auto-encoder (AE), and Linear Discriminant Analysis (LDA), are evaluated using three benchmark datasets: UNSW-NB15, ToN-IoT and CSE-CIC-IDS2018. Although PCA and AE algorithms have been widely used, the determination of their optimal number of extracted dimensions has been overlooked. The results indicate that no clear FE method or ML model can achieve the best scores for all datasets. The optimal number of extracted dimensions has been identified for each dataset, and LDA degrades the performance of the ML models on two datasets. The variance is used to analyse the extracted dimensions of LDA and PCA. Finally, this paper concludes that the choice of datasets significantly alters the performance of the applied techniques. We believe that a universal (benchmark) feature set is needed to facilitate further advancement and progress of research in this field.
translated by 谷歌翻译
人们的个人卫生习惯在每日生活方式中照顾身体和健康的状况。保持良好的卫生习惯不仅减少了患疾病的机会,而且还可以降低社区中传播疾病的风险。鉴于目前的大流行,每天的习惯,例如洗手或定期淋浴,在人们中至关重要,尤其是对于单独生活在家里或辅助生活设施中的老年人。本文提出了一个新颖的非侵入性框架,用于使用我们采用机器学习技术的振动传感器监测人卫生。该方法基于地球通传感器,数字化器和实用外壳中具有成本效益的计算机板的组合。监测日常卫生常规可能有助于医疗保健专业人员积极主动,而不是反应性,以识别和控制社区内潜在暴发的传播。实验结果表明,将支持向量机(SVM)用于二元分类,在不同卫生习惯的分类中表现出约95%的有希望的准确性。此外,基于树的分类器(随机福雷斯特和决策树)通过实现最高精度(100%)优于其他模型,这意味着可以使用振动和非侵入性传感器对卫生事件进行分类,以监测卫生活动。
translated by 谷歌翻译
机器学习中最困难的任务是解释训练有素的浅神经网络。深度神经网络(DNNS)为更多的任务提供了令人印象深刻的结果,但是通常不清楚这种训练有素的深神经网络如何做出决策。提供特征重要性是浅层神经网络中使用的最重要和流行的解释技术。在本文中,我们开发了一种算法,扩展了Garson算法的思想,以解释基于信念网络的自动编码器(DBNA)。它用于确定DBN中每个输入特征的贡献。它可用于具有许多隐藏层的任何神经网络。该方法的有效性在分类和从文献中获取的回归数据集进行了测试。将此方法鉴定出的重要特征与Wald Chi Square(\ c {hi} 2)获得的特征进行了比较。对于4个分类数据集中的2个和5个回归数据集中的2个,我们提出的方法导致识别更好质量的特征,从而导致统计上更重要的结果,相对于wald \ c {hi} 2。
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译
本文调查了股票回购,特别是分享回购公告。它解决了如何识别此类公告,股票回购的超额回报以及股票回购公告后的回报的预测。我们说明了两种NLP方法,用于自动检测股票回购公告。即使有少量的培训数据,我们也可以达到高达90%的准确性。该论文利用这些NLP方法生成一个由57,155个股票回购公告组成的大数据集。通过分析该数据集,本论文的目的是表明大多数宣布回购的公司的大多数公司都表现不佳。但是,少数公司的表现极大地超过了MSCI世界。当查看所有公司的平均值时,这种重要的表现过高会导致净收益。如果根据公司的规模调整了基准指数,则平均表现过高,并且大多数表现不佳。但是,发现宣布股票回购的公司至少占其市值的1%,即使使用调整后的基准,也平均交付了显着的表现。还发现,在危机时期宣布股票回购的公司比整个市场更好。此外,生成的数据集用于训练72个机器学习模型。通过此,它能够找到许多可以达到高达77%并产生大量超额回报的策略。可以在六个不同的时间范围内改善各种性能指标,并确定明显的表现。这是通过训练多个模型的不同任务和时间范围以及结合这些不同模型的方法来实现的,从而通过融合弱学习者来产生重大改进,以创造一个强大的学习者。
translated by 谷歌翻译
在当前的股票市场中,计算机科学和技术越来越广泛地用于分析股票。与大多数相关的机器学习股票价格预测工作不同,这项工作研究了公司年度报告披露后第二天的股票价格趋势。我们使用各种不同的模型,包括决策树,逻辑回归,随机森林,神经网络,原型网络。我们使用两组财务指标(密钥和扩展)进行实验,这些财务指标是从公司披露的Eastmoney网站获得的,最后我们发现这些模型的行为不佳来预测趋势。此外,我们还过滤了ROE大于0.15的库存,净现金比大于0.9。我们得出的结论是,根据基于公司刚发布的年度报告的财务指标,披露后第二天股票价格变动的可预测性较弱,最高准确性约为59.6%,我们的测试中的最高精度约为0.56。由随机森林分类器设置,库存过滤并不能改善性能。在所有这些模型中,随机森林总体上表现最好,这些模型符合某些工作的发现。
translated by 谷歌翻译
由于欺诈模式随着时间的流逝而变化,并且欺诈示例的可用性有限,以学习这种复杂的模式,因此欺诈检测是一项具有挑战性的任务。因此,借助智能版本的机器学习(ML)工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务;但是,相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外,在不平衡类中的分类非常具有挑战性,因为它在少数群体中导致绩效差,大多数ML分类技术都忽略了。因此,我们研究了四种最先进的ML技术,即逻辑回归,决策树,随机森林和极端梯度提升,它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先,这些分类器经过两个原始基准测试不平衡检测数据集的培训,即网站网站URL和欺诈性信用卡交易。然后,通过实现采样框架,即RandomundSampler,Smote和Smoteenn,为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性,即接收器操作特性(AUC ROC)和精度和召回曲线下的面积(AUC PR)(AUC PR)。对于网络钓鱼网站URL和信用卡欺诈事务数据集,结果表明,对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能,并以AUC ROC和AUC PR来超越其他三种方法。
translated by 谷歌翻译
研究表明,心血管疾病(CVD)对人类健康是恶性的研究。因此,重要的是具有有效的CVD预后方法。为此,医疗保健行业采用了基于机器学习的智能解决方案,以减轻CVD预后的手动过程。因此,这项工作提出了一种信息融合技术,该技术通过分析方差(ANOVA)和域专家的知识结合了人的关键属性。它还引入了新的CVD数据样本集,用于新兴研究。进行了三十八个实验,以验证四个公开可用基准数据集中提出的框架的性能以及在这项工作中新创建的数据集。消融研究表明,所提出的方法可以达到竞争平均平均准确性(MAA)为99.2%,平均AUC平均AUC为97.9%。
translated by 谷歌翻译
由于医疗保健是关键方面,健康保险已成为最大程度地减少医疗费用的重要计划。此后,由于保险的增加,医疗保健行业的欺诈活动大幅增加,欺诈行业已成为医疗费用上升的重要贡献者,尽管可以使用欺诈检测技术来减轻其影响。为了检测欺诈,使用机器学习技术。美国联邦政府的医疗补助和医疗保险服务中心(CMS)在本研究中使用“医疗保险D部分”保险索赔来开发欺诈检测系统。在类不平衡且高维的Medicare数据集中使用机器学习算法是一项艰巨的任务。为了紧凑此类挑战,目前的工作旨在在数据采样之后执行功能提取,然后应用各种分类算法,以获得更好的性能。特征提取是一种降低降低方法,该方法将属性转换为实际属性的线性或非线性组合,生成较小,更多样化的属性集,从而降低了尺寸。数据采样通常用于通过扩大少数族裔类的频率或降低多数类的频率以获得两种类别的出现数量大约相等的频率来解决类不平衡。通过标准性能指标评估所提出的方法。因此,为了有效地检测欺诈,本研究将自动编码器作为特征提取技术,合成少数族裔过采样技术(SMOTE)作为数据采样技术,以及各种基于决策树的分类器作为分类算法。实验结果表明,自动编码器的结合,然后在LightGBM分类器上获得SMOTE,取得了最佳的结果。
translated by 谷歌翻译