Landslides在人为全球变暖时代的人类生活和财产的常规发生和令人震惊的威胁。利用数据驱动方法早日预测利用数据驱动方法是时间的要求。在这项研究中,我们探讨了最能描述Landslide易感性与最先进的机器学习方法的雄辩功能。在我们的研究中,我们采用了最先进的机器学习算法,包括XGBoost,LR,KNN,SVM,Adaboost用于滑坡敏感性预测。要查找每个单独分类器的最佳超级参数以优化性能,我们已纳入网格搜索方法,交叉验证10倍。在这种情况下,XGBoost的优化版本优先于所有其他分类器,交叉验证加权F1得分为94.62%。其次是通过合并Treeshap并识别斜坡,高度,TWI等雄辩的特征来探索XGBoost分类器,这些特征在于,XGBoost分类器的性能大多是Landuse,NDVI,SPI等功能,这对模型性能较小。 。根据Treeshap的特征说明,我们选择了15个最重要的滑坡因果因素。显然,XGBoost的优化版本随着特征减少40%,在具有十字架的流行评估度量方面表现优于所有其他分类器。 - 在培训和AUC分数的加权F1得分为95.01%,AUC得分为97%。
translated by 谷歌翻译
本文研究了与可解释的AI(XAI)实践有关的两个不同但相关的问题。机器学习(ML)在金融服务中越来越重要,例如预批准,信用承销,投资以及各种前端和后端活动。机器学习可以自动检测培训数据中的非线性和相互作用,从而促进更快,更准确的信用决策。但是,机器学习模型是不透明的,难以解释,这是建立可靠技术所需的关键要素。该研究比较了各种机器学习模型,包括单个分类器(逻辑回归,决策树,LDA,QDA),异质集合(Adaboost,随机森林)和顺序神经网络。结果表明,整体分类器和神经网络的表现优于表现。此外,使用基于美国P2P贷款平台Lending Club提供的开放式访问数据集评估了两种先进的事后不可解释能力 - 石灰和外形来评估基于ML的信用评分模型。对于这项研究,我们还使用机器学习算法来开发新的投资模型,并探索可以最大化盈利能力同时最大程度地降低风险的投资组合策略。
translated by 谷歌翻译
我们在人类演变的历史上是一个独特的时间表,在那里我们可能能够发现我们的太阳系外的星星周围的地球行星,条件可以支持生活,甚至在那些行星上找到生命的证据。通过NASA,ESA和其他主要空间机构近年来推出了几个卫星,可以使用充足的数据集,可以使用,可用于培训机器学习模型,可以自动化Exoplanet检测的艰巨任务,其识别和居住地确定。自动化这些任务可以节省相当大的时间并导致人工错误最小化由于手动干预。为了实现这一目标,我们首先分析开孔望远镜捕获的恒星的光强度曲线,以检测表现出可能的行星系统存在特性的潜在曲线。对于该检测,以及培训常规模型,我们提出了一种堆叠的GBDT模型,可以同时在光信号的多个表示上培训。随后,我们通过利用几种最先进的机器学习和集合方法来解决EXOPLANET识别和居住地确定的自动化。外产的鉴定旨在将假阳性实例与外产的实际情况区分开,而居住地评估基于其可居住的特征,将外产行动的情况群体分组到不同的集群中。此外,我们提出了一种称为充足的热量充足(ATA)得分的新度量,以建立可居住和不可居住的情况之间的潜在线性关系。实验结果表明,所提出的堆叠GBDT模型优于检测过渡外出的常规模型。此外,在适当的分类中纳入ATA分数增强了模型的性能。
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
我们分析和分类从电影评论构建的文本数据的观点。为此,我们使用量子机学习算法的基于内核的方法。为了组合量子内核,我们使用使用不同Pauli旋转门组合构造的电路,其中旋转参数是从文本数据获得的数据点的经典非线性函数。为了分析提出的模型的性能,我们使用决策树,增强分类器以及经典和量子支持向量机分析量子模型。我们的结果表明,就所有评估指标而言,量子内核模型或量子支持向量机优于用于分析的所有其他算法。与经典的支持向量机相比,量子支持向量机也会带来明显更好的结果,即使功能数量增加或尺寸增加。结果清楚地表明,如果功能的数量为$ 15 $,则使用量子支持向量机使用量子支持向量机的精度分数提高了$ 9.4 \%$,而经典支持向量机则将其提高。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
这项研究提出了机器学习模型,这些模型使用大型钻探数据集预测和分类循环严重性损失。我们展示了利用易于解释的机器学习方法来应对大型钻井工程挑战的可再现核心技术。我们利用了来自伊朗Azadegan油田组的65,000多个记录数据,其中具有类不平衡问题。数据集的十七个参数中有11个参数用于五个丢失的循环事件的分类。为了生成分类模型,我们使用了六种基本的机器学习算法和四种合奏学习方法。线性判别分析(LDA),逻辑回归(LR),支持向量机(SVM),分类和回归树(CART),K-Nearest Neighbors(KNN)和Gaussian Naive Bayes(GNB)是六个基本技术。我们还在调查解决方案中使用包装和增强集合学习技术,以改善预测性能。这些算法的性能是使用四个指标测量的:精度,精度,回忆和F1得分。选择表示数据不平衡的F1得分作为首选评估标准。发现CART模型是识别钻孔流体循环损失事件的最佳选择,平均加权F1分数为0.9904,标准偏差为0.0015。在应用合奏学习技术后,决策树的随机森林合奏表现出最佳的预测性能。它以1.0的完美加权F1分数确定并分类丢失的循环事件。使用置换功能重要性(PFI),发现测得的深度是准确识别钻孔时丢失的循环事件的最具影响力因素。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译
众所周知,由于许多空间和时间变化的因素有助于斜率稳定性,因此难以预测滑坡。人工神经网络(ANN)已被证明可以提高预测准确性。但是,传统的ANN是无法解释的,复杂的黑匣子模型。这使得很难在建模区域中提取有关滑坡控制的机械信息,或在此高风险应用中信任结果。在此,我们介绍了可解释的加性神经网络在滑坡易感性建模中的首次应用。我们介绍了一个新的添加剂ANN优化框架,以及新的数据集除法和结果解释技术,适用于使用空间依赖的数据结构(例如滑坡易感性)建模应用程序。我们将我们的方法称为完全可解释性,高精度,高推广性和低模型复杂性作为超固有神经网络(SNN)优化的方法。我们通过培训模型来验证我们的方法,以评估喜马拉雅山脉最容易受到滑坡的三个不同区域的滑坡敏感性。 SNN生成的可解释的神经网络模型胜过基于物理的稳定性和统计模型,并实现了与最先进的深神经网络相似的性能,同时提供了有关滑坡控制因素的相对重要性的见解。 SNN模型发现,斜坡,降水和山坡方面的产物是对研究区域中高压滑敏感性的重要主要因素。这些确定的控件表明,强烈的斜坡气候耦合以及微气候以及在最东部喜马拉雅山的滑坡事件中起主要作用。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
本文通过分析每月降雨数据和应用机器学习算法,包括Logistic回归,K-Collect邻居,决策树,随机林和支持向量机,对印度喀拉拉邦的洪水预测模型提供洪水预测模型。虽然这些模型在特定年份的洪水发生的高精度预测中,但它们没有定量和定性地解释预测决定。本文展示了如何学习背景特征,这有助于预测决定,进一步扩展以解释可解释的人工智能模块的开发。所获得的结果证实了解释器模块在喀拉拉邦历史洪水月降雨数据上揭示的研究结果的有效性。
translated by 谷歌翻译
在全球范围内,有实质性的未满足需要有效地诊断各种疾病。不同疾病机制的复杂性和患者人群的潜在症状具有巨大挑战,以发展早期诊断工具和有效治疗。机器学习(ML),人工智能(AI)区域,使研究人员,医师和患者能够解决这些问题的一些问题。基于相关研究,本综述解释了如何使用机器学习(ML)和深度学习(DL)来帮助早期识别许多疾病。首先,使用来自Scopus和Science(WOS)数据库的数据来给予所述出版物的生物计量研究。对1216个出版物的生物计量研究进行了确定,以确定最多产的作者,国家,组织和最引用的文章。此次审查总结了基于机器学习的疾病诊断(MLBDD)的最新趋势和方法,考虑到以下因素:算法,疾病类型,数据类型,应用和评估指标。最后,该文件突出了关键结果,并向未来的未来趋势和机遇提供了解。
translated by 谷歌翻译
冠状质量弹出(CME)是最地理化的空间天气现象,与大型地磁风暴有关,有可能引起电信,卫星网络中断,电网损失和故障的干扰。因此,考虑到这些风暴对人类活动的潜在影响,对CME的地理效果的准确预测至关重要。这项工作着重于在接近太阳CME的白光冠状动脉数据集中训练的不同机器学习方法,以估计这种新爆发的弹出是否有可能诱导地磁活动。我们使用逻辑回归,k-nearest邻居,支持向量机,向前的人工神经网络以及整体模型开发了二进制分类模型。目前,我们限制了我们的预测专门使用太阳能发作参数,以确保延长警告时间。我们讨论了这项任务的主要挑战,即我们数据集中的地理填充和无效事件的数量以及它们的众多相似之处以及可用变量数量有限的极端失衡。我们表明,即使在这种情况下,这些模型也可以达到足够的命中率。
translated by 谷歌翻译
由于医疗保健是关键方面,健康保险已成为最大程度地减少医疗费用的重要计划。此后,由于保险的增加,医疗保健行业的欺诈活动大幅增加,欺诈行业已成为医疗费用上升的重要贡献者,尽管可以使用欺诈检测技术来减轻其影响。为了检测欺诈,使用机器学习技术。美国联邦政府的医疗补助和医疗保险服务中心(CMS)在本研究中使用“医疗保险D部分”保险索赔来开发欺诈检测系统。在类不平衡且高维的Medicare数据集中使用机器学习算法是一项艰巨的任务。为了紧凑此类挑战,目前的工作旨在在数据采样之后执行功能提取,然后应用各种分类算法,以获得更好的性能。特征提取是一种降低降低方法,该方法将属性转换为实际属性的线性或非线性组合,生成较小,更多样化的属性集,从而降低了尺寸。数据采样通常用于通过扩大少数族裔类的频率或降低多数类的频率以获得两种类别的出现数量大约相等的频率来解决类不平衡。通过标准性能指标评估所提出的方法。因此,为了有效地检测欺诈,本研究将自动编码器作为特征提取技术,合成少数族裔过采样技术(SMOTE)作为数据采样技术,以及各种基于决策树的分类器作为分类算法。实验结果表明,自动编码器的结合,然后在LightGBM分类器上获得SMOTE,取得了最佳的结果。
translated by 谷歌翻译
一个躺在胸腔里的心脏的四个基本腔腔对一个人的生存至关重要,但讽刺地证明是最脆弱的。心血管疾病(CVD)也通常被称为心脏病,在过去几十年中,人类在人类死亡原因中稳步发展。考虑到这一点统计,很明显,患有CVDS的患者需要快速且正确的诊断,以便于早期治疗来减少死亡的机会。本文试图利用提供的数据,以培训分类模型,如逻辑回归,k最近邻居,支持向量机,决策树,高斯天真贝叶斯,随机森林和多层感知(人工神经网络),最终使用柔软投票合奏技术,以便尽可能多地诊断。
translated by 谷歌翻译
在医疗保健系统中,需要患者使用可穿戴设备进行远程数据收集和对健康数据的实时监控以及健康状况的状态。可穿戴设备的这种采用导致收集和传输的数据量显着增加。由于设备由较小的电池电源运行,因此由于设备的高处理要求以进行数据收集和传输,因此可以快速减少它们。鉴于医疗数据的重要性,必须所有传输数据遵守严格的完整性和可用性要求。减少医疗保健数据的量和传输频率将通过使用推理算法改善设备电池寿命。有一个以准确性和效率改善传输指标的问题,彼此之间的权衡,例如提高准确性会降低效率。本文表明,机器学习可用于分析复杂的健康数据指标,例如数据传输的准确性和效率,以使用Levenberg-Marquardt算法来克服权衡问题,从而增强这两个指标,从而通过少较少的样本来传输,同时保持维护准确性。使用标准心率数据集测试该算法以比较指标。结果表明,LMA最好以3.33倍的效率进行样本数据尺寸和79.17%的精度,在7种不同的采样案例中具有相似的准确性,用于测试,但表明效率提高。与具有高效率的现有方法相比,这些提出的方法使用机器学习可以显着改善两个指标,而无需牺牲其他指标。
translated by 谷歌翻译
人工智能(AI)和机器学习(ML)在网络安全挑战中的应用已在行业和学术界的吸引力,部分原因是对关键系统(例如云基础架构和政府机构)的广泛恶意软件攻击。入侵检测系统(IDS)使用某些形式的AI,由于能够以高预测准确性处理大量数据,因此获得了广泛的采用。这些系统托管在组织网络安全操作中心(CSOC)中,作为一种防御工具,可监视和检测恶意网络流,否则会影响机密性,完整性和可用性(CIA)。 CSOC分析师依靠这些系统来决定检测到的威胁。但是,使用深度学习(DL)技术设计的IDS通常被视为黑匣子模型,并且没有为其预测提供理由。这为CSOC分析师造成了障碍,因为他们无法根据模型的预测改善决策。解决此问题的一种解决方案是设计可解释的ID(X-IDS)。这项调查回顾了可解释的AI(XAI)的最先进的ID,目前的挑战,并讨论了这些挑战如何涉及X-ID的设计。特别是,我们全面讨论了黑匣子和白盒方法。我们还在这些方法之间的性能和产生解释的能力方面提出了权衡。此外,我们提出了一种通用体系结构,该建筑认为人类在循环中,该架构可以用作设计X-ID时的指南。研究建议是从三个关键观点提出的:需要定义ID的解释性,需要为各种利益相关者量身定制的解释以及设计指标来评估解释的需求。
translated by 谷歌翻译
Machine learning is the study of computer algorithms that can automatically improve based on data and experience. Machine learning algorithms build a model from sample data, called training data, to make predictions or judgments without being explicitly programmed to do so. A variety of wellknown machine learning algorithms have been developed for use in the field of computer science to analyze data. This paper introduced a new machine learning algorithm called impact learning. Impact learning is a supervised learning algorithm that can be consolidated in both classification and regression problems. It can furthermore manifest its superiority in analyzing competitive data. This algorithm is remarkable for learning from the competitive situation and the competition comes from the effects of autonomous features. It is prepared by the impacts of the highlights from the intrinsic rate of natural increase (RNI). We, moreover, manifest the prevalence of the impact learning over the conventional machine learning algorithm.
translated by 谷歌翻译
异常值是一个事件或观察,其被定义为不同于距群体的不规则距离的异常活动,入侵或可疑数据点。然而,异常事件的定义是主观的,取决于应用程序和域(能量,健康,无线网络等)。重要的是要尽可能仔细地检测异常事件,以避免基础设施故障,因为异常事件可能导致对基础设施的严重损坏。例如,诸如微电网的网络物理系统的攻击可以发起电压或频率不稳定性,从而损坏涉及非常昂贵的修复的智能逆变器。微电网中的不寻常活动可以是机械故障,行为在系统中发生变化,人体或仪器错误或恶意攻击。因此,由于其可变性,异常值检测(OD)是一个不断增长的研究领域。在本章中,我们讨论了使用AI技术的OD方法的进展。为此,通过多个类别引入每个OD模型的基本概念。广泛的OD方法分为六大类:基于统计,基于距离,基于密度的,基于群集的,基于学习的和合奏方法。对于每个类别,我们讨论最近最先进的方法,他们的应用领域和表演。之后,关于对未来研究方向的建议提供了关于各种技术的优缺点和挑战的简要讨论。该调查旨在指导读者更好地了解OD方法的最新进展,以便保证AI。
translated by 谷歌翻译