本文探讨了数据驱动模型使用简单的分类标签预测电源系统中电压偏移事件的有效性。通过将预测视为一项分类分类任务,工作流程的特征是计算负担低。关于意大利150 kV子贸易网络的真实部分的概念验证案例研究,该网络托管大量风能发电,证明了该提案的一般有效性,并深入了解了几个广泛的优势和劣势利用此应用程序的预测模型。
translated by 谷歌翻译
The costs and impacts of government corruption range from impairing a country's economic growth to affecting its citizens' well-being and safety. Public contracting between government dependencies and private sector instances, referred to as public procurement, is a fertile land of opportunity for corrupt practices, generating substantial monetary losses worldwide. Thus, identifying and deterring corrupt activities between the government and the private sector is paramount. However, due to several factors, corruption in public procurement is challenging to identify and track, leading to corrupt practices going unnoticed. This paper proposes a machine learning model based on an ensemble of random forest classifiers, which we call hyper-forest, to identify and predict corrupt contracts in M\'exico's public procurement data. This method's results correctly detect most of the corrupt and non-corrupt contracts evaluated in the dataset. Furthermore, we found that the most critical predictors considered in the model are those related to the relationship between buyers and suppliers rather than those related to features of individual contracts. Also, the method proposed here is general enough to be trained with data from other countries. Overall, our work presents a tool that can help in the decision-making process to identify, predict and analyze corruption in public procurement contracts.
translated by 谷歌翻译
台湾对全球碎片流的敏感性和死亡人数最高。台湾现有的碎屑流警告系统,该系统使用降雨量的时间加权度量,当该措施超过预定义的阈值时,会导致警报。但是,该系统会产生许多错误的警报,并错过了实际碎屑流的很大一部分。为了改善该系统,我们实施了五个机器学习模型,以输入历史降雨数据并预测是否会在选定的时间内发生碎屑流。我们发现,随机的森林模型在五个模型中表现最好,并优于台湾现有系统。此外,我们确定了与碎屑流的发生密切相关的降雨轨迹,并探索了缺失碎屑流的风险与频繁的虚假警报之间的权衡。这些结果表明,仅在小时降雨数据中训练的机器学习模型的潜力可以挽救生命,同时减少虚假警报。
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译
拖延是任务的非理性延迟,是在线学习中的普遍情况。潜在的负面后果包括更高的辍学风险,增加压力和情绪减少。由于学习管理系统和学习分析的增加,可以检测到这种行为的指标,从而预测未来的拖延和其他扩张行为。但是,关注此类预测的研究很少。此外,几乎不存在涉及不同类型的预测指标和预测性能之间的比较的研究。在这项研究中,我们旨在通过分析多个机器学习算法的性能来填补这些研究空白,以预测具有两类预测指标的高等教育环境中在线作业的延迟或及时提交:基于主观的,基于问卷的变量和目标,客观,客观,客观,目标,客观,客观,客观,客观,从学习管理系统中提取的基于日志数据的指标。结果表明,具有客观预测变量的模型始终优于主观预测指标的模型,并且两种变量类型的组合表现稍好一些。对于这三个选项中的每一个,一种不同的方法盛行(主观,贝叶斯多层次模型的梯度增强机器,共同预测指标的随机森林)。我们得出的结论是,在学习管理系统中实施此类模型之前,应仔细注意预测变量和算法。
translated by 谷歌翻译
机器学习模型在几个研究领域的预测任务中发挥着至关重要的作用。在这项工作中,我们利用机器学习算法的能力来预测非线性机械系统中的极端事件的发生。极端事件是罕见的事件,普遍存在的本质上。我们考虑四台机器学习模型,即Logistic回归,支持向量机,随机森林和我们预测任务中的多层射击。我们使用Test Set Data培训训练集数据培训这四种机器学习模型,并计算每个型号的性能。我们表明,多层的Perceptron模型在考虑系统中的极端事件预测中的四种模型中表现得更好。考虑机器学习模型的持久性行为与随机播放的训练集和测试集数据交叉检查。
translated by 谷歌翻译
电力系统状态估计面临着不同类型的异常。这些可能包括由总测量错误或通信系统故障引起的不良数据。根据实施的状态估计方法,负载或发电的突然变化可以视为异常。此外,将电网视为网络物理系统,状态估计变得容易受到虚假数据注射攻击的影响。现有的异常分类方法无法准确对上述三种异常进行分类(区分),尤其是在歧视突然的负载变化和虚假数据注入攻击时。本文提出了一种用于检测异常存在,对异常类型进行分类并识别异常起源的新算法更改或通过错误数据注入攻击针对的状态变量。该算法结合了分析和机器学习(ML)方法。第一阶段通过组合$ \ chi^2 $检测指数来利用一种分析方法来检测异常存在。第二阶段利用ML进行异常类型的分类和其来源的识别,特别是指突然负载变化和错误数据注射攻击的歧视。提出的基于ML的方法经过训练,可以独立于网络配置,该网络配置消除了网络拓扑变化后算法的重新训练。通过在IEEE 14总线测试系统上实施拟议的算法获得的结果证明了拟议算法的准确性和有效性。
translated by 谷歌翻译
预测连通航班中的乘客将失去他们的联系对于航空公司盈利能力至关重要。我们为不同阶段的连接飞行管理的不同阶段提出了新型机器学习的决策支持模型,即战略,战术,战术和后期行动。我们预测航空公司枢纽机场的错过航班连接,使用航班和乘客的历史数据,分析了对每个决策地平线的预测结果贡献的因素。我们的数据是高维,异质,不平衡和嘈杂的,并且不会通知客人抵达/离境运输时间。我们采用了分类类的概率编码,与高斯混合模型的数据平衡,以及提升。对于所有规划视野,我们的模型将ROC的AUC达到高于0.93。我们模型的Shap值说明表明计划/感知的连接时间对预测的最大贡献,其次是乘客年龄以及是否需要边界控制。
translated by 谷歌翻译
在整个宇宙学模拟中,初始条件中的物质密度场的性质对今天形成的结构的特征具有决定性的影响。在本文中,我们使用随机森林分类算法来推断暗物质颗粒是否追溯到初始条件,最终将在肿块上高于一些阈值的暗物质卤素。该问题可能被构成为二进制分类任务,其中物质密度字段的初始条件映射到由光环发现者程序提供的分类标签。我们的研究结果表明,随机森林是有效的工具,无法在不运行完整过程的情况下预测宇宙学模拟的输出。在将来可能使用这些技术来降低计算时间并更有效地探索不同暗物质/暗能候选对宇宙结构的形成的影响。
translated by 谷歌翻译
由于极端热波和热圆顶对社会和生物多样性的影响,他们的研究是一个关键挑战。我们专门研究了持久的极端热浪,这是气候影响最重要的热潮。物理驱动天气预报系统或气候模型可用于预测其发生或预测其概率。目前的工作探讨了使用深度学习架构的使用,使用气候模型的输出训练,作为预测极端持久热浪的发生的替代策略。这种新方法将对包括气候模型统计数据研究的几个关键科学目标,建立了对气候模型中罕见事件的定量代理,研究了气候变化的影响,并最终应对预测有用。履行这些重要目标意味着解决与罕见事件预测有本质相关的类大小不平衡的问题,评估转移学习的潜在好处,以解决极端事件的嵌套性质(自然包含在不太极端的情况下)。我们训练一个卷积神经网络,使用1000年的气候模型产出,具有大级欠采样和转移学习。从观察到的表面温度和500 HPA地球态高度场的快照,训练有素的网络在预测持久的极端热浪的发生时实现了显着性能。我们能够以三种不同的强度预测它们,早在活动开始前15天(事件结束前30天)。
translated by 谷歌翻译
Receiver operating characteristics (ROC) graphs are useful for organizing classifiers and visualizing their performance. ROC graphs are commonly used in medical decision making, and in recent years have been used increasingly in machine learning and data mining research. Although ROC graphs are apparently simple, there are some common misconceptions and pitfalls when using them in practice. The purpose of this article is to serve as an introduction to ROC graphs and as a guide for using them in research.
translated by 谷歌翻译
显着的波高预测是海洋数据分析中的关键问题。预测明显的波高对于估计波的能量产生至关重要。此外,及时对大浪的预测对于确保海上行动的安全至关重要,例如船只的通道。我们将预测显着波高的极端值作为超出概率预测问题的任务进行了框架。因此,我们旨在估计显着波高将超过预定义阈值的概率。通常使用概率二进制分类模型来解决此任务。相反,我们提出了一种基于预测模型的新方法。该方法利用了即将到来的观测值的预测来根据累积分布函数估算超出概率。我们使用来自加拿大哈利法克斯海岸的浮标的数据进行了实验。结果表明,提出的方法比最先进的方法要好于超出概率预测。
translated by 谷歌翻译
近年来,破坏预测取得了迅速的进展,尤其是在机器学习(ML)的方法中。理解为什么预测因子使某个预测与未来Tokamak破坏预测指标的预测准确性一样至关重要。大多数破坏预测因素的目的是准确性或跨机能力。但是,如果可以解释中断预测模型,则可以说明为什么某些样品被归类为中断前体。这使我们能够说出传入的破坏类型,并使我们深入了解破坏机制。本文根据J-TEXT上的物理引导特征提取(IDP-PGFE)设计了一种称为可解释的破坏预测变量的破坏预测变量。通过提取物理引导的特征有效地改善了模型的预测性能。需要高性能模型来确保解释结果的有效性。 IDP-PGFE的可解释性研究提供了对J-Text破坏的理解,并且通常与现有的破坏理解一致。 IDP-PGFE已被应用于破坏,因为在J文本上的密度极限实验的密度不断增加。 PGFE的时间演变具有贡献,表明ECRH的应用触发了辐射引起的破坏,从而降低了破坏时的密度。虽然RMP的应用确实提高了J文本中的密度极限。解释性研究指导了RMP不仅会影响MHD不稳定性,而且还会影响辐射轮廓的密度极限破坏的物理机制,从而延迟了密度极限的破坏。
translated by 谷歌翻译
在具有可再生生成的大量份额的网格中,由于负载和发电的波动性增加,运营商将需要其他工具来评估运营风险。正向不确定性传播问题的计算要求必须解决众多安全受限的经济调度(SCED)优化,是这种实时风险评估的主要障碍。本文提出了一个即时风险评估学习框架(Jitralf)作为替代方案。 Jitralf训练风险代理,每天每小时一个,使用机器学习(ML)来预测估计风险所需的数量,而无需明确解决SCED问题。这大大减轻了正向不确定性传播的计算负担,并允许快速,实时的风险估计。本文还提出了一种新颖的,不对称的损失函数,并表明使用不对称损失训练的模型的性能优于使用对称损耗函数的模型。在法国传输系统上评估了Jitralf,以评估运营储量不足的风险,减轻负载的风险和预期的运营成本。
translated by 谷歌翻译
冠状质量弹出(CME)是最地理化的空间天气现象,与大型地磁风暴有关,有可能引起电信,卫星网络中断,电网损失和故障的干扰。因此,考虑到这些风暴对人类活动的潜在影响,对CME的地理效果的准确预测至关重要。这项工作着重于在接近太阳CME的白光冠状动脉数据集中训练的不同机器学习方法,以估计这种新爆发的弹出是否有可能诱导地磁活动。我们使用逻辑回归,k-nearest邻居,支持向量机,向前的人工神经网络以及整体模型开发了二进制分类模型。目前,我们限制了我们的预测专门使用太阳能发作参数,以确保延长警告时间。我们讨论了这项任务的主要挑战,即我们数据集中的地理填充和无效事件的数量以及它们的众多相似之处以及可用变量数量有限的极端失衡。我们表明,即使在这种情况下,这些模型也可以达到足够的命中率。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
The occurrence of vacuum arcs or radio frequency (rf) breakdowns is one of the most prevalent factors limiting the high-gradient performance of normal conducting rf cavities in particle accelerators. In this paper, we search for the existence of previously unrecognized features related to the incidence of rf breakdowns by applying a machine learning strategy to high-gradient cavity data from CERN's test stand for the Compact Linear Collider (CLIC). By interpreting the parameters of the learned models with explainable artificial intelligence (AI), we reverse-engineer physical properties for deriving fast, reliable, and simple rule-based models. Based on 6 months of historical data and dedicated experiments, our models show fractions of data with a high influence on the occurrence of breakdowns. Specifically, it is shown that the field emitted current following an initial breakdown is closely related to the probability of another breakdown occurring shortly thereafter. Results also indicate that the cavity pressure should be monitored with increased temporal resolution in future experiments, to further explore the vacuum activity associated with breakdowns.
translated by 谷歌翻译
本文研究了使用风险模型来预测电力基础设施引起的野火的时间和位置。我们的数据包括由2015年至2019年间在太平洋天然气和电力领域收集的网格基础设施触发的历史点火和降线点,以及各种天气,植被以及网格基础设施的高分辨率数据,包括位置,年龄,材料。通过这些数据,我们探讨了一系列机器学习方法和管理培训数据不平衡的策略。我们获得的接收器操作特性下的最佳区域为0.776,用于分配馈线点火器,传输线向下事件为0.824,均使用基于直方图的梯度增强树算法(HGB),并带有下采样。然后,我们使用这些模型来确定哪些信息提供了最预测的价值。线长度后,我们发现天气和植被特征主导着点火或降线风险的最重要功能。分配点火模型显示出更大的依赖性对慢变化的植被变量,例如燃烧指数,能量释放含量和树高度,而传输线模型更多地依赖于主要天气变量,例如风速和降水量。这些结果表明,改进的植被建模对进料机点火风险模型的重要性,以及对传输线模型的天气预测改进。我们观察到,基础架构功能可以对风险模型预测能力进行较小但有意义的改进。
translated by 谷歌翻译
电力系统容易出现各种事件(例如线路旅行和发电损失),而在情境意识,可靠性和安全性方面,对此类事件的实时识别至关重要。使用来自多个同步管理器的测量值,即相量测量单元(PMU),我们建议通过基于模态动力学提取特征来识别事件。我们将这种基于物理学的特征提取方法与机器学习结合在一起,以区分不同的事件类型。包括每个PMU的所有测量通道都允许利用各种功能,但还需要在高维空间上学习分类模型。为了解决此问题,实现了各种功能选择方法,以选择最佳功能子集。使用获得的功能子集,我们研究了两个众所周知的分类模型的性能,即逻辑回归(LR)和支持向量机(SVM),以识别两个数据集中的发电损失和线路跳闸事件。第一个数据集是从得克萨斯州2000-Bus合成网格中的模拟发电损失和线路跳闸事件中获得的。第二个是专有数据集,其标记事件是从美国的大型公用事业中获得的,涉及近500 pmus的测量。我们的结果表明,所提出的框架有望确定两种类型的事件。
translated by 谷歌翻译
提出了一个深度学习模型,以便在未来60分钟的五分钟时间分辨率下以闪电的形式出现。该模型基于反复横向的结构,该结构使其能够识别并预测对流的时空发展,包括雷暴细胞的运动,生长和衰变。预测是在固定网格上执行的,而无需使用风暴对象检测和跟踪。从瑞士和周围的区域收集的输入数据包括地面雷达数据,可见/红外卫星数据以及衍生的云产品,闪电检测,数值天气预测和数字高程模型数据。我们分析了不同的替代损失功能,班级加权策略和模型特征,为将来的研究提供了指南,以最佳地选择损失功能,并正确校准其模型的概率预测。基于这些分析,我们在这项研究中使用焦点损失,但得出结论,它仅在交叉熵方面提供了较小的好处,如果模型的重新校准不实用,这是一个可行的选择。该模型在60分钟的现有周期内实现了0.45的像素临界成功指数(CSI)为0.45,以预测8 km的闪电发生,范围从5分钟的CSI到5分钟的提前时间到CSI到CSI的0.32在A处。收货时间60分钟。
translated by 谷歌翻译