电离层中存在的电子密度不规则性会引起全球导航卫星系统(GNSS)信号的显着波动。信号功率的波动称为振幅闪烁,可以通过S4指数进行监测。当实时数据不可用时,基于历史S4索引数据的幅度闪烁的严重程度是有益的。在这项工作中,我们研究了使用单个GPS闪烁监测接收器中使用历史数据来训练机器学习(ML)模型的可能性参数。评估了六种不同的ML型号,其中包装的树模型是其中最准确的,使用平衡数据集获得了预测准确性$ 81 \%$,使用不平衡数据集获得了$ 97 \%$ $。
translated by 谷歌翻译
最近,在气象学中使用机器学习大大增加了。尽管许多机器学习方法并不是什么新鲜事物,但有关机器学习的大学课程在很大程度上是气象学专业的学生,​​不需要成为气象学家。缺乏正式的教学导致人们认为机器学习方法是“黑匣子”,因此最终用户不愿在每天的工作流程中应用机器学习方法。为了减少机器学习方法的不透明性,并降低了对气象学中机器学习的犹豫,本文对一些最常见的机器学习方法进行了调查。一个熟悉的气象示例用于将机器学习方法背景化,同时还使用普通语言讨论机器学习主题。证明了以下机器学习方法:线性回归;逻辑回归;决策树;随机森林;梯度增强了决策树;天真的贝叶斯;并支持向量机。除了讨论不同的方法外,本文还包含有关通用机器学习过程的讨论以及最佳实践,以使读者能够将机器学习应用于自己的数据集。此外,所有代码(以Jupyter笔记本电脑和Google Colaboratory Notebooks的形式)用于在论文中进行示例,以促进气象学中的机器学习使用。
translated by 谷歌翻译
The availability of Martian atmospheric data provided by several Martian missions broadened the opportunity to investigate and study the conditions of the Martian ionosphere. As such, ionospheric models play a crucial part in improving our understanding of ionospheric behavior in response to different spatial, temporal, and space weather conditions. This work represents an initial attempt to construct an electron density prediction model of the Martian ionosphere using machine learning. The model targets the ionosphere at solar zenith ranging from 70 to 90 degrees, and as such only utilizes observations from the Mars Global Surveyor mission. The performance of different machine learning methods was compared in terms of root mean square error, coefficient of determination, and mean absolute error. The bagged regression trees method performed best out of all the evaluated methods. Furthermore, the optimized bagged regression trees model outperformed other Martian ionosphere models from the literature (MIRI and NeMars) in finding the peak electron density value, and the peak density height in terms of root-mean-square error and mean absolute error.
translated by 谷歌翻译
冠状质量弹出(CME)是最地理化的空间天气现象,与大型地磁风暴有关,有可能引起电信,卫星网络中断,电网损失和故障的干扰。因此,考虑到这些风暴对人类活动的潜在影响,对CME的地理效果的准确预测至关重要。这项工作着重于在接近太阳CME的白光冠状动脉数据集中训练的不同机器学习方法,以估计这种新爆发的弹出是否有可能诱导地磁活动。我们使用逻辑回归,k-nearest邻居,支持向量机,向前的人工神经网络以及整体模型开发了二进制分类模型。目前,我们限制了我们的预测专门使用太阳能发作参数,以确保延长警告时间。我们讨论了这项任务的主要挑战,即我们数据集中的地理填充和无效事件的数量以及它们的众多相似之处以及可用变量数量有限的极端失衡。我们表明,即使在这种情况下,这些模型也可以达到足够的命中率。
translated by 谷歌翻译
由于欺诈模式随着时间的流逝而变化,并且欺诈示例的可用性有限,以学习这种复杂的模式,因此欺诈检测是一项具有挑战性的任务。因此,借助智能版本的机器学习(ML)工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务;但是,相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外,在不平衡类中的分类非常具有挑战性,因为它在少数群体中导致绩效差,大多数ML分类技术都忽略了。因此,我们研究了四种最先进的ML技术,即逻辑回归,决策树,随机森林和极端梯度提升,它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先,这些分类器经过两个原始基准测试不平衡检测数据集的培训,即网站网站URL和欺诈性信用卡交易。然后,通过实现采样框架,即RandomundSampler,Smote和Smoteenn,为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性,即接收器操作特性(AUC ROC)和精度和召回曲线下的面积(AUC PR)(AUC PR)。对于网络钓鱼网站URL和信用卡欺诈事务数据集,结果表明,对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能,并以AUC ROC和AUC PR来超越其他三种方法。
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
洪水是大自然最灾难性的灾难之一,对人类生活,农业,基础设施和社会经济系统造成了不可逆转和巨大的破坏。已经进行了几项有关洪水灾难管理和洪水预测系统的研究。实时对洪水的发作和进展的准确预测是具有挑战性的。为了估计大面积的水位和速度,有必要将数据与计算要求的洪水传播模型相结合。本文旨在减少这种自然灾害的极端风险,并通过使用不同的机器学习模型为洪水提供预测来促进政策建议。这项研究将使用二进制逻辑回归,K-Nearest邻居(KNN),支持向量分类器(SVC)和决策树分类器来提供准确的预测。通过结果,将进行比较分析,以了解哪种模型具有更好的准确性。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
这项研究提出了机器学习模型,这些模型使用大型钻探数据集预测和分类循环严重性损失。我们展示了利用易于解释的机器学习方法来应对大型钻井工程挑战的可再现核心技术。我们利用了来自伊朗Azadegan油田组的65,000多个记录数据,其中具有类不平衡问题。数据集的十七个参数中有11个参数用于五个丢失的循环事件的分类。为了生成分类模型,我们使用了六种基本的机器学习算法和四种合奏学习方法。线性判别分析(LDA),逻辑回归(LR),支持向量机(SVM),分类和回归树(CART),K-Nearest Neighbors(KNN)和Gaussian Naive Bayes(GNB)是六个基本技术。我们还在调查解决方案中使用包装和增强集合学习技术,以改善预测性能。这些算法的性能是使用四个指标测量的:精度,精度,回忆和F1得分。选择表示数据不平衡的F1得分作为首选评估标准。发现CART模型是识别钻孔流体循环损失事件的最佳选择,平均加权F1分数为0.9904,标准偏差为0.0015。在应用合奏学习技术后,决策树的随机森林合奏表现出最佳的预测性能。它以1.0的完美加权F1分数确定并分类丢失的循环事件。使用置换功能重要性(PFI),发现测得的深度是准确识别钻孔时丢失的循环事件的最具影响力因素。
translated by 谷歌翻译
支持GPS的移动设备的普及和基于位置的服务的广泛使用导致了产生大量的地理标记数据。最近,数据分析现在可以访问更多来源,包括评论,新闻和图像,其中还提出了关于兴趣点(POI)数据源的可靠性的问题。虽然以前的研究通过各种安全机制试图检测到假POI数据,但目前的工作试图以更简单的方式捕获假POI数据。拟议的工作侧重于监督的学习方法及其能力,以找到基于位置的数据中的隐藏模式。通过真实数据获得地面真理标签,使用API​​生成假数据,因此我们将数据集与位置数据上的实际和假标签进行数据集。目的是使用多层Perceptron(MLP)方法来预测关于POI的真实性。在所提出的工作中,基于数据分类技术的MLP用于准确地对位置数据进行分类。将该方法与传统分类和稳健和近期深神经方法进行比较。结果表明,该方法优于基线方法。
translated by 谷歌翻译
提出了一个深度学习模型,以便在未来60分钟的五分钟时间分辨率下以闪电的形式出现。该模型基于反复横向的结构,该结构使其能够识别并预测对流的时空发展,包括雷暴细胞的运动,生长和衰变。预测是在固定网格上执行的,而无需使用风暴对象检测和跟踪。从瑞士和周围的区域收集的输入数据包括地面雷达数据,可见/红外卫星数据以及衍生的云产品,闪电检测,数值天气预测和数字高程模型数据。我们分析了不同的替代损失功能,班级加权策略和模型特征,为将来的研究提供了指南,以最佳地选择损失功能,并正确校准其模型的概率预测。基于这些分析,我们在这项研究中使用焦点损失,但得出结论,它仅在交叉熵方面提供了较小的好处,如果模型的重新校准不实用,这是一个可行的选择。该模型在60分钟的现有周期内实现了0.45的像素临界成功指数(CSI)为0.45,以预测8 km的闪电发生,范围从5分钟的CSI到5分钟的提前时间到CSI到CSI的0.32在A处。收货时间60分钟。
translated by 谷歌翻译
The cyber-physical convergence is opening up new business opportunities for industrial operators. The need for deep integration of the cyber and the physical worlds establishes a rich business agenda towards consolidating new system and network engineering approaches. This revolution would not be possible without the rich and heterogeneous sources of data, as well as the ability of their intelligent exploitation, mainly due to the fact that data will serve as a fundamental resource to promote Industry 4.0. One of the most fruitful research and practice areas emerging from this data-rich, cyber-physical, smart factory environment is the data-driven process monitoring field, which applies machine learning methodologies to enable predictive maintenance applications. In this paper, we examine popular time series forecasting techniques as well as supervised machine learning algorithms in the applied context of Industry 4.0, by transforming and preprocessing the historical industrial dataset of a packing machine's operational state recordings (real data coming from the production line of a manufacturing plant from the food and beverage domain). In our methodology, we use only a single signal concerning the machine's operational status to make our predictions, without considering other operational variables or fault and warning signals, hence its characterization as ``agnostic''. In this respect, the results demonstrate that the adopted methods achieve a quite promising performance on three targeted use cases.
translated by 谷歌翻译
这项工作提出了诸如卷积神经网络(CNN),长短期记忆(LSTM),门控复发单元(GRU),它们的混合动力和情绪的浅学习分类器等深度学习模型的性能的详细比较阿拉伯语评论分析。另外,比较包括最先进的模型,例如变压器架构和阿拉伯的预先训练模型。本研究中使用的数据集是多方面的阿拉伯语酒店和书评数据集,这些数据集是阿拉伯评论的一些最大的公共数据集。结果表明,二元和多标签分类的浅层学习表现优于浅层学习,与文献中报告的类似工作的结果相比。结果中的这种差异是由数据集大小引起的,因为我们发现它与深度学习模型的性能成比例。在准确性和F1分数方面分析了深层和浅层学习技术的性能。最好的浅学习技术是随机森林,后跟决策树,以及adaboost。深度学习模型类似地使用默认的嵌入层进行,而变压器模型在增强Arabert时表现最佳。
translated by 谷歌翻译
我们与中国的援助卫生委员会合作,我们提出了一个预测系统,以根据免疫后不良事件的数据来预测患有不良反应的儿童的住院。我们从数据中提取了多个功能,并选择“住院或不选择”作为分类目标。由于数据是不平衡的,因此我们使用了各种班级不平衡学习方法来培训并改善了Rusboost算法。实验结果表明,在这些算法中,ROC曲线在ROC曲线下的最高面积是最高的。此外,我们将这些平衡的学习方法与一些常见的机器学习算法进行了比较。我们将改进的Rusboost与动态Web资源开发技术结合在一起,以构建一个评估系统,并为相关医生提供信息输入和疫苗接种响应预测能力。
translated by 谷歌翻译
通过卫星摄像机获取关于地球表面的大面积的信息使我们能够看到远远超过我们在地面上看到的更多。这有助于我们在检测和监测土地使用模式,大气条件,森林覆盖和许多非上市方面的地区的物理特征。所获得的图像不仅跟踪连续的自然现象,而且对解决严重森林砍伐的全球挑战也至关重要。其中亚马逊盆地每年占最大份额。适当的数据分析将有助于利用可持续健康的氛围来限制对生态系统和生物多样性的不利影响。本报告旨在通过不同的机器学习和优越的深度学习模型用大气和各种陆地覆盖或土地使用亚马逊雨林的卫星图像芯片。评估是基于F2度量完成的,而用于损耗函数,我们都有S形跨熵以及Softmax交叉熵。在使用预先训练的ImageNet架构中仅提取功能之后,图像被间接馈送到机器学习分类器。鉴于深度学习模型,通过传输学习使用微调Imagenet预训练模型的集合。到目前为止,我们的最佳分数与F2度量为0.927。
translated by 谷歌翻译
药物介导的电压门控钾通道(HERG)和电压门控钠通道(NAV1.5)可导致严重的心血管并发症。这种上升的担忧已经反映在药物开发竞技场中,因为许多经批准的药物的常常出现心脏毒性导致他们在某些情况下停止他们的使用,或者在某些情况下,他们从市场上撤回。在药物发现过程的开始时预测潜在的HERG和NAV1.5阻滞剂可以解决这个问题,因此可以降低开发安全药物的时间和昂贵的成本。一种快速且经济高效的方法是在杂草中使用硅预测方法,在药物开发的早期阶段杂草出潜在的Herg和Nav1.5阻滞剂。在这里,我们介绍了两种基于强大的基于2D描述符的基于描述符的QSAR预测模型,用于HERG和NAV1.5责任预测。机器学习模型训练,用于回归,预测药物的效力值,以及三种不同效力截止的多条分类(即1 {\ mu} m,10 {\ mu} m,和30 {\ mu}) M),其中托管 - Herg分类器是随机森林模型的管道,受到8380个独特的分子化合物的大型策级数据集。虽然Toxtree-Nav1.5分类器,凯列化SVM模型的管道,由来自Chembl和Pubchem公开的生物活动数据库的大型手动策划的1550个独特的化合物培训。拟议的HERG诱导者表现优于最先进的发布模型和其他现有工具的大多数指标。此外,我们正在介绍Q4 = 74.9%的第一个NAV1.5责任预测模型,Q2 = 86.7%的二进制分类= 71.2%在173个独特的化合物的外部测试组上进行评估。该项目中使用的策划数据集公开可向研究界提供。
translated by 谷歌翻译
台湾对全球碎片流的敏感性和死亡人数最高。台湾现有的碎屑流警告系统,该系统使用降雨量的时间加权度量,当该措施超过预定义的阈值时,会导致警报。但是,该系统会产生许多错误的警报,并错过了实际碎屑流的很大一部分。为了改善该系统,我们实施了五个机器学习模型,以输入历史降雨数据并预测是否会在选定的时间内发生碎屑流。我们发现,随机的森林模型在五个模型中表现最好,并优于台湾现有系统。此外,我们确定了与碎屑流的发生密切相关的降雨轨迹,并探索了缺失碎屑流的风险与频繁的虚假警报之间的权衡。这些结果表明,仅在小时降雨数据中训练的机器学习模型的潜力可以挽救生命,同时减少虚假警报。
translated by 谷歌翻译
从不平衡数据中学习是一项具有挑战性的任务。在进行不平衡数据训练时,标准分类算法的性能往往差。需要通过修改数据分布或重新设计基础分类算法以实现理想的性能来采用一些特殊的策略。现实世界数据集中不平衡的流行率导致为班级不平衡问题创造了多种策略。但是,并非所有策略在不同的失衡情况下都有用或提供良好的性能。处理不平衡的数据有许多方法,但是尚未进行此类技术的功效或这些技术之间的实验比较。在这项研究中,我们对26种流行抽样技术进行了全面分析,以了解它们在处理不平衡数据方面的有效性。在50个数据集上进行了严格的实验,具有不同程度的不平衡,以彻底研究这些技术的性能。已经提出了对技术的优势和局限性的详细讨论,以及如何克服此类局限性。我们确定了影响采样策略的一些关键因素,并提供有关如何为特定应用选择合适的采样技术的建议。
translated by 谷歌翻译
机器学习模型在几个研究领域的预测任务中发挥着至关重要的作用。在这项工作中,我们利用机器学习算法的能力来预测非线性机械系统中的极端事件的发生。极端事件是罕见的事件,普遍存在的本质上。我们考虑四台机器学习模型,即Logistic回归,支持向量机,随机森林和我们预测任务中的多层射击。我们使用Test Set Data培训训练集数据培训这四种机器学习模型,并计算每个型号的性能。我们表明,多层的Perceptron模型在考虑系统中的极端事件预测中的四种模型中表现得更好。考虑机器学习模型的持久性行为与随机播放的训练集和测试集数据交叉检查。
translated by 谷歌翻译