本文研究了使用风险模型来预测电力基础设施引起的野火的时间和位置。我们的数据包括由2015年至2019年间在太平洋天然气和电力领域收集的网格基础设施触发的历史点火和降线点,以及各种天气,植被以及网格基础设施的高分辨率数据,包括位置,年龄,材料。通过这些数据,我们探讨了一系列机器学习方法和管理培训数据不平衡的策略。我们获得的接收器操作特性下的最佳区域为0.776,用于分配馈线点火器,传输线向下事件为0.824,均使用基于直方图的梯度增强树算法(HGB),并带有下采样。然后,我们使用这些模型来确定哪些信息提供了最预测的价值。线长度后,我们发现天气和植被特征主导着点火或降线风险的最重要功能。分配点火模型显示出更大的依赖性对慢变化的植被变量,例如燃烧指数,能量释放含量和树高度,而传输线模型更多地依赖于主要天气变量,例如风速和降水量。这些结果表明,改进的植被建模对进料机点火风险模型的重要性,以及对传输线模型的天气预测改进。我们观察到,基础架构功能可以对风险模型预测能力进行较小但有意义的改进。
translated by 谷歌翻译
预测野火蔓延对于土地管理和灾害准备至关重要。为此,我们呈现“第二天野火蔓延,”一种策划,大规模的多变量数据集,历史野火的历史野火占据了美国近十年的遥感数据。与基于地球观测卫星的现有火灾数据集相比,我们的数据集合了2D解释性变量(例如,地形,植被,天气,干旱指数,人口密度)与2D区域对齐,提供了丰富的数据为机器学习设置。为了演示该数据集的有用性,我们实现了一个卷积的AutoEncoder,它利用了该数据的空间信息来预测野火扩散。我们将神经网络与其他机器学习模型的性能进行比较:Logistic回归和随机林。该数据集可以用作基于遥感数据开发野火传播模型的基准,以便有一天的提前期。
translated by 谷歌翻译
台湾对全球碎片流的敏感性和死亡人数最高。台湾现有的碎屑流警告系统,该系统使用降雨量的时间加权度量,当该措施超过预定义的阈值时,会导致警报。但是,该系统会产生许多错误的警报,并错过了实际碎屑流的很大一部分。为了改善该系统,我们实施了五个机器学习模型,以输入历史降雨数据并预测是否会在选定的时间内发生碎屑流。我们发现,随机的森林模型在五个模型中表现最好,并优于台湾现有系统。此外,我们确定了与碎屑流的发生密切相关的降雨轨迹,并探索了缺失碎屑流的风险与频繁的虚假警报之间的权衡。这些结果表明,仅在小时降雨数据中训练的机器学习模型的潜力可以挽救生命,同时减少虚假警报。
translated by 谷歌翻译
本文研究了社会经济因素是否对于佛罗里达电力系统的飓风表现很重要。使用随机森林分类器进行调查,其准确性平均降低(MDA),以衡量一组因素的重要性,包括危害强度,最大影响时间恢复时间以及受影响人群的社会经济特征。这项研究的数据集(在县规模上)包括来自美国5年社区调查(ACS)的社会经济变量,风速以及五次飓风的停电数据,包括2018年Alberto和Michael,2019年,Dorian,Dorian,Dorian,以及ETA和ISAIA在2020年。研究表明,社会经济变量对系统性能模型非常重要。这表明在发生停电的发生中可能存在社会差异,这直接影响了社区的弹性,因此需要立即关注。
translated by 谷歌翻译
Flooding is one of the most disastrous natural hazards, responsible for substantial economic losses. A predictive model for flood-induced financial damages is useful for many applications such as climate change adaptation planning and insurance underwriting. This research assesses the predictive capability of regressors constructed on the National Flood Insurance Program (NFIP) dataset using neural networks (Conditional Generative Adversarial Networks), decision trees (Extreme Gradient Boosting), and kernel-based regressors (Gaussian Process). The assessment highlights the most informative predictors for regression. The distribution for claims amount inference is modeled with a Burr distribution permitting the introduction of a bias correction scheme and increasing the regressor's predictive capability. Aiming to study the interaction with physical variables, we incorporate Daymet rainfall estimation to NFIP as an additional predictor. A study on the coastal counties in the eight US South-West states resulted in an $R^2=0.807$. Further analysis of 11 counties with a significant number of claims in the NFIP dataset reveals that Extreme Gradient Boosting provides the best results, that bias correction significantly improves the similarity with the reference distribution, and that the rainfall predictor strengthens the regressor performance.
translated by 谷歌翻译
目的:我们研究使用机器学习(ML)模型的可解释的累入预测,并在预测能力,稀疏性和公平性方面分析性能。与以前的作品不同,本研究列举了输出概率而不是二进制预测的可解释模型,并使用定量公平定义来评估模型。本研究还研究了模型是否可以横跨地理位置概括。方法:我们在佛罗里达州和肯塔基州的两个不同的刑事核查数据集上生成了黑盒和可解释的ML模型。我们将这些模型的预测性能和公平与目前用于司法系统中使用的两种方法进行了比较,以预测审前常规率:Arnold PSA和Compas。我们评估了所有模型的预测性能,可以在两次跨越两次预测六种不同类型犯罪的模型。结果:几种可解释的ML模型可以预测常规和黑盒ML模型,比Compas或Arnold PSA更准确。这些模型在实践中可能有用。类似于Arnold PSA,这些可解释模型中的一些可以作为一个简单的表格写入。其他可以使用一组可视化显示。我们的地理分析表明ML模型应分开培训,以便单独的位置并随时间更新。我们还为可​​解释模型提供了公平分析。结论:可解释的机器学习模型可以在预测准确性和公平性方面表现,也可以表现,也可以表现,也可以执行不可解释的方法和目前使用的风险评估尺度。机器学习模型对于单独培训,可以更准确地进行不同的位置,并保持最新。
translated by 谷歌翻译
每年在美国犯下数十个恐怖袭击,往往会导致死亡和其他重大损害。在更好地理解和减轻这些攻击的结束时,我们展示了一组机器学习模型,用于从本地化的新闻数据中学习,以预测恐怖主义攻击是否将在给定的日历日期和给定状态上发生。最佳模型 - 一种随机森林,了解特征空间的新型可变长度移动平均表示 - 在接收器经营特征下实现的地区分数为$> .667美元,这是由恐怖主义影响最多的五个州的四个国家在2015年和2018年之间。我们的主要发现包括将恐怖主义建模为一系列独立事件,而不是作为一个持续的过程,是一种富有成果的方法 - 尤其是当事件稀疏和异常时。此外,我们的结果突出了对位置之间的差异的本地化模型的需求。从机器学习的角度来看,我们发现随机森林模型在我们的多模式,嘈杂和不平衡数据集上表现出几种深刻的模型,从而展示了我们的新颖特征表示方法在这种情况下的功效。我们还表明,其预测是对攻击之间的时间差距和观察到攻击特征的预测相对稳健。最后,我们分析了限制模型性能的因素,包括嘈杂的特征空间和少量可用数据。这些贡献为利用机器学习在美国及以后的恐怖主义努力中提供了重要的基础。
translated by 谷歌翻译
提出了一种使用天气数据实时太阳生成预测的新方法,同时提出了既有空间结构依赖性的依赖。随着时间的推移,观察到的网络被预测到较低维度的表示,在该表示的情况下,在推理阶段使用天气预报时,使用各种天气测量来训练结构化回归模型。从国家太阳辐射数据库获得的德克萨斯州圣安东尼奥地区的288个地点进行了实验。该模型预测具有良好精度的太阳辐照度(夏季R2 0.91,冬季为0.85,全球模型为0.89)。随机森林回归者获得了最佳准确性。进行了多个实验来表征缺失数据的影响和不同的时间范围的影响,这些范围提供了证据表明,新算法不仅在随机的情况下,而且在机制是空间和时间上都丢失的数据是可靠的。
translated by 谷歌翻译
最近,在气象学中使用机器学习大大增加了。尽管许多机器学习方法并不是什么新鲜事物,但有关机器学习的大学课程在很大程度上是气象学专业的学生,​​不需要成为气象学家。缺乏正式的教学导致人们认为机器学习方法是“黑匣子”,因此最终用户不愿在每天的工作流程中应用机器学习方法。为了减少机器学习方法的不透明性,并降低了对气象学中机器学习的犹豫,本文对一些最常见的机器学习方法进行了调查。一个熟悉的气象示例用于将机器学习方法背景化,同时还使用普通语言讨论机器学习主题。证明了以下机器学习方法:线性回归;逻辑回归;决策树;随机森林;梯度增强了决策树;天真的贝叶斯;并支持向量机。除了讨论不同的方法外,本文还包含有关通用机器学习过程的讨论以及最佳实践,以使读者能够将机器学习应用于自己的数据集。此外,所有代码(以Jupyter笔记本电脑和Google Colaboratory Notebooks的形式)用于在论文中进行示例,以促进气象学中的机器学习使用。
translated by 谷歌翻译
了解极端事件及其可能性是研究气候变化影响,风险评估,适应和保护生物的关键。在这项工作中,我们开发了一种方法来构建极端热浪的预测模型。这些模型基于卷积神经网络,对极长的8,000年气候模型输出进行了培训。由于极端事件之间的关系本质上是概率的,因此我们强调概率预测和验证。我们证明,深度神经网络适用于法国持续持续14天的热浪,快速动态驱动器提前15天(500 hpa地球电位高度场),并且在慢速较长的交货时间内,慢速物理时间驱动器(土壤水分)。该方法很容易实现和通用。我们发现,深神经网络选择了与北半球波数字3模式相关的极端热浪。我们发现,当将2米温度场添加到500 HPA地球电位高度和土壤水分场中时,2米温度场不包含任何新的有用统计信息。主要的科学信息是,训练深层神经网络预测极端热浪的发生是在严重缺乏数据的情况下发生的。我们建议大多数其他应用在大规模的大气和气候现象中都是如此。我们讨论了处理缺乏数据制度的观点,例如罕见的事件模拟,以及转移学习如何在后一种任务中发挥作用。
translated by 谷歌翻译
Efficient energy consumption is crucial for achieving sustainable energy goals in the era of climate change and grid modernization. Thus, it is vital to understand how energy is consumed at finer resolutions such as household in order to plan demand-response events or analyze the impacts of weather, electricity prices, electric vehicles, solar, and occupancy schedules on energy consumption. However, availability and access to detailed energy-use data, which would enable detailed studies, has been rare. In this paper, we release a unique, large-scale, synthetic, residential energy-use dataset for the residential sector across the contiguous United States covering millions of households. The data comprise of hourly energy use profiles for synthetic households, disaggregated into Thermostatically Controlled Loads (TCL) and appliance use. The underlying framework is constructed using a bottom-up approach. Diverse open-source surveys and first principles models are used for end-use modeling. Extensive validation of the synthetic dataset has been conducted through comparisons with reported energy-use data. We present a detailed, open, high-resolution, residential energy-use dataset for the United States.
translated by 谷歌翻译
The costs and impacts of government corruption range from impairing a country's economic growth to affecting its citizens' well-being and safety. Public contracting between government dependencies and private sector instances, referred to as public procurement, is a fertile land of opportunity for corrupt practices, generating substantial monetary losses worldwide. Thus, identifying and deterring corrupt activities between the government and the private sector is paramount. However, due to several factors, corruption in public procurement is challenging to identify and track, leading to corrupt practices going unnoticed. This paper proposes a machine learning model based on an ensemble of random forest classifiers, which we call hyper-forest, to identify and predict corrupt contracts in M\'exico's public procurement data. This method's results correctly detect most of the corrupt and non-corrupt contracts evaluated in the dataset. Furthermore, we found that the most critical predictors considered in the model are those related to the relationship between buyers and suppliers rather than those related to features of individual contracts. Also, the method proposed here is general enough to be trained with data from other countries. Overall, our work presents a tool that can help in the decision-making process to identify, predict and analyze corruption in public procurement contracts.
translated by 谷歌翻译
Algorithms that involve both forecasting and optimization are at the core of solutions to many difficult real-world problems, such as in supply chains (inventory optimization), traffic, and in the transition towards carbon-free energy generation in battery/load/production scheduling in sustainable energy systems. Typically, in these scenarios we want to solve an optimization problem that depends on unknown future values, which therefore need to be forecast. As both forecasting and optimization are difficult problems in their own right, relatively few research has been done in this area. This paper presents the findings of the ``IEEE-CIS Technical Challenge on Predict+Optimize for Renewable Energy Scheduling," held in 2021. We present a comparison and evaluation of the seven highest-ranked solutions in the competition, to provide researchers with a benchmark problem and to establish the state of the art for this benchmark, with the aim to foster and facilitate research in this area. The competition used data from the Monash Microgrid, as well as weather data and energy market data. It then focused on two main challenges: forecasting renewable energy production and demand, and obtaining an optimal schedule for the activities (lectures) and on-site batteries that lead to the lowest cost of energy. The most accurate forecasts were obtained by gradient-boosted tree and random forest models, and optimization was mostly performed using mixed integer linear and quadratic programming. The winning method predicted different scenarios and optimized over all scenarios jointly using a sample average approximation method.
translated by 谷歌翻译
Wind power forecasting helps with the planning for the power systems by contributing to having a higher level of certainty in decision-making. Due to the randomness inherent to meteorological events (e.g., wind speeds), making highly accurate long-term predictions for wind power can be extremely difficult. One approach to remedy this challenge is to utilize weather information from multiple points across a geographical grid to obtain a holistic view of the wind patterns, along with temporal information from the previous power outputs of the wind farms. Our proposed CNN-RNN architecture combines convolutional neural networks (CNNs) and recurrent neural networks (RNNs) to extract spatial and temporal information from multi-dimensional input data to make day-ahead predictions. In this regard, our method incorporates an ultra-wide learning view, combining data from multiple numerical weather prediction models, wind farms, and geographical locations. Additionally, we experiment with global forecasting approaches to understand the impact of training the same model over the datasets obtained from multiple different wind farms, and we employ a method where spatial information extracted from convolutional layers is passed to a tree ensemble (e.g., Light Gradient Boosting Machine (LGBM)) instead of fully connected layers. The results show that our proposed CNN-RNN architecture outperforms other models such as LGBM, Extra Tree regressor and linear regression when trained globally, but fails to replicate such performance when trained individually on each farm. We also observe that passing the spatial information from CNN to LGBM improves its performance, providing further evidence of CNN's spatial feature extraction capabilities.
translated by 谷歌翻译
显着的波高预测是海洋数据分析中的关键问题。预测明显的波高对于估计波的能量产生至关重要。此外,及时对大浪的预测对于确保海上行动的安全至关重要,例如船只的通道。我们将预测显着波高的极端值作为超出概率预测问题的任务进行了框架。因此,我们旨在估计显着波高将超过预定义阈值的概率。通常使用概率二进制分类模型来解决此任务。相反,我们提出了一种基于预测模型的新方法。该方法利用了即将到来的观测值的预测来根据累积分布函数估算超出概率。我们使用来自加拿大哈利法克斯海岸的浮标的数据进行了实验。结果表明,提出的方法比最先进的方法要好于超出概率预测。
translated by 谷歌翻译
道路建设项目维护运输基础设施。这些项目的范围从短期(例如,重新铺面或固定坑洼)到长期(例如,添加肩膀或建造桥梁)。传统上,确定下一个建设项目是什么以及安排什么何时进行安排,这是通过人类使用特殊设备的检查来完成的。这种方法是昂贵且难以扩展的。另一种选择是使用计算方法来整合和分析多种过去和现在的时空数据以预测未来道路构建的位置和时间。本文报告了这种方法,该方法使用基于深神经网络的模型来预测未来的结构。我们的模型在由构造,天气,地图和道路网络数据组成的异质数据集上应用卷积和经常性组件。我们还报告了如何通过构建一个名为“美国建设”的大型数据集来解决我们如何解决足够的公开数据,其中包括620万个道路构造案例,并通过各种时空属性和路线网络功能增强,收集了。在2016年至2021年之间的连续美国(美国)中。使用对美国几个主要城市进行广泛的实验,我们显示了工作在准确预测未来建筑时的适用性 - 平均F1得分为0.85,准确性为82.2% - 这是52.2% - 胜过基线。此外,我们展示了我们的培训管道如何解决数据的空间稀疏性。
translated by 谷歌翻译
Producing high-quality forecasts of key climate variables such as temperature and precipitation on subseasonal time scales has long been a gap in operational forecasting. Recent studies have shown promising results using machine learning (ML) models to advance subseasonal forecasting (SSF), but several open questions remain. First, several past approaches use the average of an ensemble of physics-based forecasts as an input feature of these models. However, ensemble forecasts contain information that can aid prediction beyond only the ensemble mean. Second, past methods have focused on average performance, whereas forecasts of extreme events are far more important for planning and mitigation purposes. Third, climate forecasts correspond to a spatially-varying collection of forecasts, and different methods account for spatial variability in the response differently. Trade-offs between different approaches may be mitigated with model stacking. This paper describes the application of a variety of ML methods used to predict monthly average precipitation and two meter temperature using physics-based predictions (ensemble forecasts) and observational data such as relative humidity, pressure at sea level, or geopotential height, two weeks in advance for the whole continental United States. Regression, quantile regression, and tercile classification tasks using linear models, random forests, convolutional neural networks, and stacked models are considered. The proposed models outperform common baselines such as historical averages (or quantiles) and ensemble averages (or quantiles). This paper further includes an investigation of feature importance, trade-offs between using the full ensemble or only the ensemble average, and different modes of accounting for spatial variability.
translated by 谷歌翻译
太阳耀斑,尤其是M级和X级耀斑,通常与冠状质量弹出(CMES)有关。它们是太空天气影响的最重要来源,可能会严重影响近地环境。因此,必须预测耀斑(尤其是X级),以减轻其破坏性和危险后果。在这里,我们介绍了几种统计和机器学习方法,以预测AR的耀斑指数(FI),这些方法通过考虑到一定时间间隔内的不同类耀斑的数量来量化AR的耀斑生产力。具体而言,我们的样本包括2010年5月至2017年12月在太阳能磁盘上出现的563个AR。25个磁性参数,由空中震动和磁性成像器(HMI)的太空天气HMI活性区域(Sharp)提供的太阳能动力学观测值(HMI)。 (SDO),表征了代理中存储在ARS中的冠状磁能,并用作预测因子。我们研究了这些尖锐的参数与ARS的FI与机器学习算法(样条回归)和重采样方法(合成少数群体过度采样技术,用于使用高斯噪声回归的合成少数群体过度采样技术,smogn简短)。基于既定关系,我们能够在接下来的1天内预测给定AR的FIS值。与其他4种流行的机器学习算法相比,我们的方法提高了FI预测的准确性,尤其是对于大型FI。此外,我们根据Borda Count方法从由9种不同的机器学习方法渲染的等级计算出尖锐参数的重要性。
translated by 谷歌翻译
野火预测对于减少灾害风险和环境可持续性至关重要。我们将每日火灾危险预测作为机器学习任务,使用过去十年来预测下一天的火灾危险。为此,我们收集,预先处理和协调开放式DataCube,其中包括一组协变量,共同影响火灾发生和传播,例如天气条件,卫星衍生的产品,与人类活动相关的地形特征和变量。我们实施各种深度学习(DL)模型,以捕获空间,时间或时空上下文,并将它们与随机林(RF)基线进行比较。我们发现空间或时间上下文足以超越RF,而利用时空上下文的Convlstm在接收器的操作特性为0.926的接收器下的测试区域最佳地执行。我们基于DL的概念证明提供了全国范围的日常火灾危险地图,其空间分辨率高于现有的运营解决方案。
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译