机器学习模型在几个研究领域的预测任务中发挥着至关重要的作用。在这项工作中,我们利用机器学习算法的能力来预测非线性机械系统中的极端事件的发生。极端事件是罕见的事件,普遍存在的本质上。我们考虑四台机器学习模型,即Logistic回归,支持向量机,随机森林和我们预测任务中的多层射击。我们使用Test Set Data培训训练集数据培训这四种机器学习模型,并计算每个型号的性能。我们表明,多层的Perceptron模型在考虑系统中的极端事件预测中的四种模型中表现得更好。考虑机器学习模型的持久性行为与随机播放的训练集和测试集数据交叉检查。
translated by 谷歌翻译
台湾对全球碎片流的敏感性和死亡人数最高。台湾现有的碎屑流警告系统,该系统使用降雨量的时间加权度量,当该措施超过预定义的阈值时,会导致警报。但是,该系统会产生许多错误的警报,并错过了实际碎屑流的很大一部分。为了改善该系统,我们实施了五个机器学习模型,以输入历史降雨数据并预测是否会在选定的时间内发生碎屑流。我们发现,随机的森林模型在五个模型中表现最好,并优于台湾现有系统。此外,我们确定了与碎屑流的发生密切相关的降雨轨迹,并探索了缺失碎屑流的风险与频繁的虚假警报之间的权衡。这些结果表明,仅在小时降雨数据中训练的机器学习模型的潜力可以挽救生命,同时减少虚假警报。
translated by 谷歌翻译
冠状质量弹出(CME)是最地理化的空间天气现象,与大型地磁风暴有关,有可能引起电信,卫星网络中断,电网损失和故障的干扰。因此,考虑到这些风暴对人类活动的潜在影响,对CME的地理效果的准确预测至关重要。这项工作着重于在接近太阳CME的白光冠状动脉数据集中训练的不同机器学习方法,以估计这种新爆发的弹出是否有可能诱导地磁活动。我们使用逻辑回归,k-nearest邻居,支持向量机,向前的人工神经网络以及整体模型开发了二进制分类模型。目前,我们限制了我们的预测专门使用太阳能发作参数,以确保延长警告时间。我们讨论了这项任务的主要挑战,即我们数据集中的地理填充和无效事件的数量以及它们的众多相似之处以及可用变量数量有限的极端失衡。我们表明,即使在这种情况下,这些模型也可以达到足够的命中率。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
睡眠研究必须携带与睡眠损失相关的表型和有助于精神病理学的露出机制。最常见的是,调查人员手动将多色网络分类为警惕状态,这是耗时的,需要广泛的培训,并且容易出现帧间间变异性。虽然许多作品已经基于多个EEG通道成功开发了自动化状态分类器,但是我们的目标是生产一种自动化和开放式分类器,可以基于来自啮齿动物的单个皮质脑电图(EEG)来可靠地预测警惕状态,以最大限度地减少伴随的缺点通过电线束缚小动物到计算机程序。大约427小时的连续监测的脑电图,电灰度(EMG)和活性由总数据的571小时的域专家标记。在这里,我们评估各种机器学习技术对分类10-秒钟时期的各种机器学习技术的性能,进入三个离散类中的一种:矛盾,慢波或唤醒。我们的调查包括决策树,随机森林,天真贝叶斯分类器,Logistic回归分类器和人工神经网络。这些方法达到了约74%至约96%的精度。最值得注意的是,随机森林和巢穴分别实现了95.78%和93.31%的显着准确性。在这里,我们已经示出了各种机器学习分类器的潜力,以基于单个EEG读数和单一EMG读数自动,准确地和可靠地对警惕状态进行自动。
translated by 谷歌翻译
支持GPS的移动设备的普及和基于位置的服务的广泛使用导致了产生大量的地理标记数据。最近,数据分析现在可以访问更多来源,包括评论,新闻和图像,其中还提出了关于兴趣点(POI)数据源的可靠性的问题。虽然以前的研究通过各种安全机制试图检测到假POI数据,但目前的工作试图以更简单的方式捕获假POI数据。拟议的工作侧重于监督的学习方法及其能力,以找到基于位置的数据中的隐藏模式。通过真实数据获得地面真理标签,使用API​​生成假数据,因此我们将数据集与位置数据上的实际和假标签进行数据集。目的是使用多层Perceptron(MLP)方法来预测关于POI的真实性。在所提出的工作中,基于数据分类技术的MLP用于准确地对位置数据进行分类。将该方法与传统分类和稳健和近期深神经方法进行比较。结果表明,该方法优于基线方法。
translated by 谷歌翻译
The occurrence of vacuum arcs or radio frequency (rf) breakdowns is one of the most prevalent factors limiting the high-gradient performance of normal conducting rf cavities in particle accelerators. In this paper, we search for the existence of previously unrecognized features related to the incidence of rf breakdowns by applying a machine learning strategy to high-gradient cavity data from CERN's test stand for the Compact Linear Collider (CLIC). By interpreting the parameters of the learned models with explainable artificial intelligence (AI), we reverse-engineer physical properties for deriving fast, reliable, and simple rule-based models. Based on 6 months of historical data and dedicated experiments, our models show fractions of data with a high influence on the occurrence of breakdowns. Specifically, it is shown that the field emitted current following an initial breakdown is closely related to the probability of another breakdown occurring shortly thereafter. Results also indicate that the cavity pressure should be monitored with increased temporal resolution in future experiments, to further explore the vacuum activity associated with breakdowns.
translated by 谷歌翻译
在整个宇宙学模拟中,初始条件中的物质密度场的性质对今天形成的结构的特征具有决定性的影响。在本文中,我们使用随机森林分类算法来推断暗物质颗粒是否追溯到初始条件,最终将在肿块上高于一些阈值的暗物质卤素。该问题可能被构成为二进制分类任务,其中物质密度字段的初始条件映射到由光环发现者程序提供的分类标签。我们的研究结果表明,随机森林是有效的工具,无法在不运行完整过程的情况下预测宇宙学模拟的输出。在将来可能使用这些技术来降低计算时间并更有效地探索不同暗物质/暗能候选对宇宙结构的形成的影响。
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译
粒子加速器是复杂的设施,可产生大量的结构化数据,并具有明确的优化目标以及精确定义的控制要求。因此,它们自然适合数据驱动的研究方法。来自传感器和监视加速器形式的多元时间序列的数据。在加速器控制和诊断方面,快速的先发制人方法是高度首选的,数据驱动的时间序列预测方法的应用尤其有希望。这篇综述提出了时间序列预测问题,并总结了现有模型,并在各个科学领域的应用中进行了应用。引入了粒子加速器领域中的几次和将来的尝试。预测到粒子加速器的时间序列的应用显示出令人鼓舞的结果和更广泛使用的希望,现有的问题(例如数据一致性和兼容性)已开始解决。
translated by 谷歌翻译
这项研究提出了机器学习模型,这些模型使用大型钻探数据集预测和分类循环严重性损失。我们展示了利用易于解释的机器学习方法来应对大型钻井工程挑战的可再现核心技术。我们利用了来自伊朗Azadegan油田组的65,000多个记录数据,其中具有类不平衡问题。数据集的十七个参数中有11个参数用于五个丢失的循环事件的分类。为了生成分类模型,我们使用了六种基本的机器学习算法和四种合奏学习方法。线性判别分析(LDA),逻辑回归(LR),支持向量机(SVM),分类和回归树(CART),K-Nearest Neighbors(KNN)和Gaussian Naive Bayes(GNB)是六个基本技术。我们还在调查解决方案中使用包装和增强集合学习技术,以改善预测性能。这些算法的性能是使用四个指标测量的:精度,精度,回忆和F1得分。选择表示数据不平衡的F1得分作为首选评估标准。发现CART模型是识别钻孔流体循环损失事件的最佳选择,平均加权F1分数为0.9904,标准偏差为0.0015。在应用合奏学习技术后,决策树的随机森林合奏表现出最佳的预测性能。它以1.0的完美加权F1分数确定并分类丢失的循环事件。使用置换功能重要性(PFI),发现测得的深度是准确识别钻孔时丢失的循环事件的最具影响力因素。
translated by 谷歌翻译
通过卫星摄像机获取关于地球表面的大面积的信息使我们能够看到远远超过我们在地面上看到的更多。这有助于我们在检测和监测土地使用模式,大气条件,森林覆盖和许多非上市方面的地区的物理特征。所获得的图像不仅跟踪连续的自然现象,而且对解决严重森林砍伐的全球挑战也至关重要。其中亚马逊盆地每年占最大份额。适当的数据分析将有助于利用可持续健康的氛围来限制对生态系统和生物多样性的不利影响。本报告旨在通过不同的机器学习和优越的深度学习模型用大气和各种陆地覆盖或土地使用亚马逊雨林的卫星图像芯片。评估是基于F2度量完成的,而用于损耗函数,我们都有S形跨熵以及Softmax交叉熵。在使用预先训练的ImageNet架构中仅提取功能之后,图像被间接馈送到机器学习分类器。鉴于深度学习模型,通过传输学习使用微调Imagenet预训练模型的集合。到目前为止,我们的最佳分数与F2度量为0.927。
translated by 谷歌翻译
在当前的Internet-Internet-More(IoT)部署中,依赖于TCP协议的传统IP网络和IOT特定协议的组合可用于将数据从源传输到目标。因此,使用TCP SYN攻击的TCP特定攻击,例如使用TCP SYN攻击的分布式拒绝服务(DDOS)是攻击者可以在网络物理系统(CPS)上使用的最合理的工具之一。这可以通过从其IOT子系统启动攻击来完成,这里被称为“CPS-IOT”,其潜在的传播到位于雾中的不同服务器和CP的云基础架构。该研究比较了监督,无监督和半监控机器学习算法的有效性,用于检测CPS-IOT中的DDOS攻击,特别是在通过因特网到网络空间到网络空间的数据传输期间。所考虑的算法广泛地分为二:i)检测算法,其包括逻辑回归(LGR),K型和人工神经网络(ANN)。我们还研究了半监督混合学习模型的有效性,它使用无监督的K-means来标记数据,然后将输出馈送到攻击检测的监督学习模型。 II。)预测算法 - LGR,内核RIDGE回归(KRR)和支持向量回归(SVR),用于预测即将发生的攻击。进行实验试验并获得结果表明,杂交模型能够达到100%的精度,零误报;虽然所有预测模型都能够实现超过94%的攻击预测准确性。
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
最近,在气象学中使用机器学习大大增加了。尽管许多机器学习方法并不是什么新鲜事物,但有关机器学习的大学课程在很大程度上是气象学专业的学生,​​不需要成为气象学家。缺乏正式的教学导致人们认为机器学习方法是“黑匣子”,因此最终用户不愿在每天的工作流程中应用机器学习方法。为了减少机器学习方法的不透明性,并降低了对气象学中机器学习的犹豫,本文对一些最常见的机器学习方法进行了调查。一个熟悉的气象示例用于将机器学习方法背景化,同时还使用普通语言讨论机器学习主题。证明了以下机器学习方法:线性回归;逻辑回归;决策树;随机森林;梯度增强了决策树;天真的贝叶斯;并支持向量机。除了讨论不同的方法外,本文还包含有关通用机器学习过程的讨论以及最佳实践,以使读者能够将机器学习应用于自己的数据集。此外,所有代码(以Jupyter笔记本电脑和Google Colaboratory Notebooks的形式)用于在论文中进行示例,以促进气象学中的机器学习使用。
translated by 谷歌翻译
使用最后一英里无线连接的终端设备的数量随着智能基础设施的上升而大大增加,并且需要可靠的功能来支持平滑和高效的业务流程。为了有效地管理此类大规模无线网络,需要更先进和准确的网络监控和故障检测解决方案。在本文中,我们使用复制图和克朗尼亚角场进行无线异常检测的基于图像的表示技术的第一次分析,并提出了一种启用精确异常检测的新的深度学习架构。我们详细阐述了开发资源意识架构的设计考虑因素,并使用时间序列提出新模型以使用复制图来实现图像转换。我们表明,所提出的模型a)以最多14个百分点的基于语法角字段优异的型号,b)使用动态时间翘曲高达24个百分点,c)优于24个百分点的典型ML模型,C)优于或与主流架构相表现出如AlexNet和VGG11的同时具有<10倍的权重和高达$ \其计算复杂度的8倍,而d)优于各个应用面积的最新状态高达55个百分点。最后,我们还在随机选择的示例上解释了分类器如何决定。
translated by 谷歌翻译
药物介导的电压门控钾通道(HERG)和电压门控钠通道(NAV1.5)可导致严重的心血管并发症。这种上升的担忧已经反映在药物开发竞技场中,因为许多经批准的药物的常常出现心脏毒性导致他们在某些情况下停止他们的使用,或者在某些情况下,他们从市场上撤回。在药物发现过程的开始时预测潜在的HERG和NAV1.5阻滞剂可以解决这个问题,因此可以降低开发安全药物的时间和昂贵的成本。一种快速且经济高效的方法是在杂草中使用硅预测方法,在药物开发的早期阶段杂草出潜在的Herg和Nav1.5阻滞剂。在这里,我们介绍了两种基于强大的基于2D描述符的基于描述符的QSAR预测模型,用于HERG和NAV1.5责任预测。机器学习模型训练,用于回归,预测药物的效力值,以及三种不同效力截止的多条分类(即1 {\ mu} m,10 {\ mu} m,和30 {\ mu}) M),其中托管 - Herg分类器是随机森林模型的管道,受到8380个独特的分子化合物的大型策级数据集。虽然Toxtree-Nav1.5分类器,凯列化SVM模型的管道,由来自Chembl和Pubchem公开的生物活动数据库的大型手动策划的1550个独特的化合物培训。拟议的HERG诱导者表现优于最先进的发布模型和其他现有工具的大多数指标。此外,我们正在介绍Q4 = 74.9%的第一个NAV1.5责任预测模型,Q2 = 86.7%的二进制分类= 71.2%在173个独特的化合物的外部测试组上进行评估。该项目中使用的策划数据集公开可向研究界提供。
translated by 谷歌翻译
机器学习和人工智能可广泛用于诊断慢性疾病,以便可以在关键时间内进行必要的预防治疗。糖尿病是由几种机器学习算法容易诊断的主要疾病之一。早期诊断至关重要,以防止危险后果。在本文中,我们对多种机器学习算法的比较分析了。随机森林,决策树,人工神经网络,K最近邻居,支持向量机和XGBoost以及使用Shav的特征归因,以确定预测从Sylhet医院收集的数据集上的糖尿病的最重要特征。根据所获得的实验结果,随机森林算法表现优于所有其他算法,在该特定数据集中的精度为99%。
translated by 谷歌翻译
拖延是任务的非理性延迟,是在线学习中的普遍情况。潜在的负面后果包括更高的辍学风险,增加压力和情绪减少。由于学习管理系统和学习分析的增加,可以检测到这种行为的指标,从而预测未来的拖延和其他扩张行为。但是,关注此类预测的研究很少。此外,几乎不存在涉及不同类型的预测指标和预测性能之间的比较的研究。在这项研究中,我们旨在通过分析多个机器学习算法的性能来填补这些研究空白,以预测具有两类预测指标的高等教育环境中在线作业的延迟或及时提交:基于主观的,基于问卷的变量和目标,客观,客观,客观,目标,客观,客观,客观,客观,从学习管理系统中提取的基于日志数据的指标。结果表明,具有客观预测变量的模型始终优于主观预测指标的模型,并且两种变量类型的组合表现稍好一些。对于这三个选项中的每一个,一种不同的方法盛行(主观,贝叶斯多层次模型的梯度增强机器,共同预测指标的随机森林)。我们得出的结论是,在学习管理系统中实施此类模型之前,应仔细注意预测变量和算法。
translated by 谷歌翻译
The cyber-physical convergence is opening up new business opportunities for industrial operators. The need for deep integration of the cyber and the physical worlds establishes a rich business agenda towards consolidating new system and network engineering approaches. This revolution would not be possible without the rich and heterogeneous sources of data, as well as the ability of their intelligent exploitation, mainly due to the fact that data will serve as a fundamental resource to promote Industry 4.0. One of the most fruitful research and practice areas emerging from this data-rich, cyber-physical, smart factory environment is the data-driven process monitoring field, which applies machine learning methodologies to enable predictive maintenance applications. In this paper, we examine popular time series forecasting techniques as well as supervised machine learning algorithms in the applied context of Industry 4.0, by transforming and preprocessing the historical industrial dataset of a packing machine's operational state recordings (real data coming from the production line of a manufacturing plant from the food and beverage domain). In our methodology, we use only a single signal concerning the machine's operational status to make our predictions, without considering other operational variables or fault and warning signals, hence its characterization as ``agnostic''. In this respect, the results demonstrate that the adopted methods achieve a quite promising performance on three targeted use cases.
translated by 谷歌翻译