Merging satellite products and ground-based measurements is often required for obtaining precipitation datasets that simultaneously cover large regions with high density and are more accurate than pure satellite precipitation products. Machine and statistical learning regression algorithms are regularly utilized in this endeavour. At the same time, tree-based ensemble algorithms for regression are adopted in various fields for solving algorithmic problems with high accuracy and low computational cost. The latter can constitute a crucial factor for selecting algorithms for satellite precipitation product correction at the daily and finer time scales, where the size of the datasets is particularly large. Still, information on which tree-based ensemble algorithm to select in such a case for the contiguous United States (US) is missing from the literature. In this work, we conduct an extensive comparison between three tree-based ensemble algorithms, specifically random forests, gradient boosting machines (gbm) and extreme gradient boosting (XGBoost), in the context of interest. We use daily data from the PERSIANN (Precipitation Estimation from Remotely Sensed Information using Artificial Neural Networks) and the IMERG (Integrated Multi-satellitE Retrievals for GPM) gridded datasets. We also use earth-observed precipitation data from the Global Historical Climatology Network daily (GHCNd) database. The experiments refer to the entire contiguous US and additionally include the application of the linear regression algorithm for benchmarking purposes. The results suggest that XGBoost is the best-performing tree-based ensemble algorithm among those compared. They also suggest that IMERG is more useful than PERSIANN in the context investigated.
translated by 谷歌翻译
如今,包括水文学在内的各种应用领域,概率的预测正在受到越来越多的关注。几种机器学习概念和方法与通过应对相关挑战的形式化和优化概率预测实现相关。尽管如此,目前,概率的水文预测文献中缺少着重于此类概念和方法的实际意义评论。尽管在同一文献中从机器学习中受益的研究工作中有明显的加剧,但这种缺席仍然存在,尽管最近出现了实质性的相关进展,尤其是在概率水文后处理领域,传统上为水文学家提供了概率学家的概率学家。水文预测实施。在此,我们旨在填补这一特定空白。在我们的综述中,我们强调了可以导致研究概念和方法有效普及的关键思想和信息,因为这种强调可以支持该领域的成功实施和进一步的科学发展。在相同的前瞻性方向上,我们确定了开放的研究问题,并提出了将来要探索的想法。
translated by 谷歌翻译
基于回归的水流区域化框架是围绕流域水文学,洪水频率分析及其相互作用的流域属性构建的。在这项工作中,我们通过制定并广泛研究了基于回归的水流区域化框架,从而偏离了这一传统路径,这些框架主要来自数据科学的通用时间序列序列特征,更准确地说,从多种此类功能中出现。我们专注于28个功能,包括(部分)自相关,熵,时间变化,季节性,趋势,肿块,稳定性,非线性,线性,尖峰,曲率等。我们估计了511个流域的每日温度,降水和水流时间序列的这些特征,然后将它们与传统的地形,土地覆盖,土壤和地质属性合并。降水量和温度特征(例如,降水时间序列的光谱熵,季节性强度和滞后1的自相关以及温度时间序列的稳定性和趋势强度)是许多流量特征的有用预测指标。这也适用于传统属性,例如流域平均高程。还揭示了预测变量和因变量之间的关系,而光谱熵,季节性强度和流量时间序列的几个自相关特征被发现比其他元素更具区域化。
translated by 谷歌翻译
Flooding is one of the most disastrous natural hazards, responsible for substantial economic losses. A predictive model for flood-induced financial damages is useful for many applications such as climate change adaptation planning and insurance underwriting. This research assesses the predictive capability of regressors constructed on the National Flood Insurance Program (NFIP) dataset using neural networks (Conditional Generative Adversarial Networks), decision trees (Extreme Gradient Boosting), and kernel-based regressors (Gaussian Process). The assessment highlights the most informative predictors for regression. The distribution for claims amount inference is modeled with a Burr distribution permitting the introduction of a bias correction scheme and increasing the regressor's predictive capability. Aiming to study the interaction with physical variables, we incorporate Daymet rainfall estimation to NFIP as an additional predictor. A study on the coastal counties in the eight US South-West states resulted in an $R^2=0.807$. Further analysis of 11 counties with a significant number of claims in the NFIP dataset reveals that Extreme Gradient Boosting provides the best results, that bias correction significantly improves the similarity with the reference distribution, and that the rainfall predictor strengthens the regressor performance.
translated by 谷歌翻译
在收获前的作物产量的准确预测对于世界各地的作物物流,市场计划和食物分配至关重要。产量预测需要在延长的时间段内监测物候和气候特征,以模拟农作物发育中涉及的复杂关系。绕过世界各种卫星提供的遥感卫星图像是获取数据预测数据的廉价且可靠的方法。目前,收益率预测的领域由深度学习方法主导。尽管使用这些方法达到的精度是有希望的,但所需的数据量和``Black-Box''性质可以限制深度学习方法的应用。可以通过提出一条管道将遥感图像处理为基于特征的表示形式来克服局限性,该图像允许使用极端梯度提升(XGBoost)进行产量预测。与基于深度学习的最先进的收益率预测系统相比,对美国大豆产量预测的比较评估显示出了有希望的预测准确性。特征重要性将近红外光谱视为我们模型中的重要特征。报告的结果暗示了XGBoost进行产量预测的能力,并鼓励将来对XGBoost进行XGBoost的实验,以对世界各地的其他农作物进行产量预测。
translated by 谷歌翻译
Building an accurate model of travel behaviour based on individuals' characteristics and built environment attributes is of importance for policy-making and transportation planning. Recent experiments with big data and Machine Learning (ML) algorithms toward a better travel behaviour analysis have mainly overlooked socially disadvantaged groups. Accordingly, in this study, we explore the travel behaviour responses of low-income individuals to transit investments in the Greater Toronto and Hamilton Area, Canada, using statistical and ML models. We first investigate how the model choice affects the prediction of transit use by the low-income group. This step includes comparing the predictive performance of traditional and ML algorithms and then evaluating a transit investment policy by contrasting the predicted activities and the spatial distribution of transit trips generated by vulnerable households after improving accessibility. We also empirically investigate the proposed transit investment by each algorithm and compare it with the city of Brampton's future transportation plan. While, unsurprisingly, the ML algorithms outperform classical models, there are still doubts about using them due to interpretability concerns. Hence, we adopt recent local and global model-agnostic interpretation tools to interpret how the model arrives at its predictions. Our findings reveal the great potential of ML algorithms for enhanced travel behaviour predictions for low-income strata without considerably sacrificing interpretability.
translated by 谷歌翻译
全面了解各种地球物理流程的行为,其中包括跨颞级的详细调查。在这项工作中,我们提出了一个新的时间序列,以推进和丰富循环背景下的这种调查。该特定编译可以促进在时间依赖,时间变化,“预测性”,集成,稳定性,非线性(和线性度),趋势,尖峰,曲率和季节性方面的主要可解释的特征调查和比较。通过计算九个时间分辨率的提出的特征编译的值(即,1天,2天,3天,7天,0.5个月,1个月,2 -Month,3个月和6个月的6个月)和三种循环时间序列类型(即温度,降水和流出),适用于美国大陆大陆511个地理位置的34年长时间系列记录。基于所获取的信息和知识,识别出具有增加(或减少)时间分辨率的表征其特征值的演进模式的所获取的时间序列类型之间的相似性和差异。我们认为,这些模式的相似之处相当令人惊讶。我们还发现,从基于特征的时间序列聚类出现的空间模式在很大程度上类似于时间尺度,并比较了在各个时间分辨率下聚类时间序列的实用性的特征。对于大多数特征,这种有用性可以在时间分辨率和时间序列类型上变化,从而指出需要对循环相似性研究进行多方面的时间序列表征。
translated by 谷歌翻译
估计大规模森林AGB和精细的空间决议对于温室气体会计,监测和验证工作以减轻气候变化的范围变得越来越重要。机载LiDAR对于在包括AGB在内的森林结构的属性建模非常有价值,但大多数LiDAR收集都发生在涵盖不规则,不连续的足迹的本地或区域尺度上,导致不同景观细分市场在各个时间点进行拼布。在这里,作为纽约州(美国)全州森林碳评估的一部分,我们解决了利用激光雷达拼布在景观尺度上的雷达拼凑而成的障碍,包括选择培训数据,对预测的区域或覆盖范围的特定模式的调查错误,并绘制与多个量表的现场清单一致。三种机器学习算法和一个集合模型经过FIA场测量,空气传播的激光雷达和地形,气候和心形地理训练。使用一组严格的地块选择标准,选择了801个FIA图,并从17个叶子覆盖范围(2014-2019)的拼布中绘制的共同定位的点云(2014-2019)。我们的合奏模型用于在预测定义的适用性区域(占激光雷达覆盖率的98%)内生成30 m AGB的预测表面,并将所得的AGB图与FIA绘图级别和面积估计值进行比较。我们的模型总体准确(%RMSE 22-45%; MAE 11.6-29.4 mg ha $^{ - 1} $; me 2.4-6.3 mg ha $^{ - 1} $),解释了73-80%的领域 - 观察到的变化,并得出与FIA基于设计的估计值一致的估计值(FIA 95%CI中的估计值的89%)。我们分享实用的解决方案,以使用LIDAR的时空拼布面临的挑战来满足不断增长的AGB映射需求,以支持森林碳会计和生态系统中的应用。
translated by 谷歌翻译
孔隙度已被识别为混凝土耐久性特性的关键指标暴露于侵略性环境。本文采用集体学习来预测含有补充水泥材料的高性能混凝土的孔隙率。本研究中使用的混凝土样品的特征在于八种组合物特征,包括W / B比,粘合剂含量,粉煤灰,GGB,过度塑化剂,粗/细骨料比,固化条件和固化天。组装数据库由240个数据记录组成,具有74个独特的混凝土混合设计。所提出的机器学习算法在从数据集中随机选择的180个观察(75%)培训,然后在剩余的60个观察中进行测试(25%)。数值实验表明,回归树集合可以精确地预测其混合组合物的混凝土的孔隙率。梯度提升树木通常在预测准确性方面优于随机森林。对于随机森林,发现基于袋出错的误差的超参数调整策略比K倍交叉验证更有效。
translated by 谷歌翻译
杂交和集合学习技术是改善预测方法的预测能力的流行模型融合技术。通过有限的研究,将这两种有前途的方法结合在一起,本文着重于不同合奏的基础模型池中指数平滑的旋转神经网络(ES-RNN)的实用性。我们将某些最先进的结合技术和算术模型平均作为基准进行比较。我们对M4预测数据集进行了100,000个时间序列,结果表明,基于特征的预测模型平均(FFORFORA)平均是与ES-RNN的晚期数据融合的最佳技术。但是,考虑到M4的每日数据子集,堆叠是处理所有基本模型性能相似的情况下唯一成功的合奏。我们的实验结果表明,与N-Beats作为基准相比,我们达到了艺术的预测结果。我们得出的结论是,模型平均比模型选择和堆叠策略更强大。此外,结果表明,提高梯度对于实施合奏学习策略是优越的。
translated by 谷歌翻译
Producing high-quality forecasts of key climate variables such as temperature and precipitation on subseasonal time scales has long been a gap in operational forecasting. Recent studies have shown promising results using machine learning (ML) models to advance subseasonal forecasting (SSF), but several open questions remain. First, several past approaches use the average of an ensemble of physics-based forecasts as an input feature of these models. However, ensemble forecasts contain information that can aid prediction beyond only the ensemble mean. Second, past methods have focused on average performance, whereas forecasts of extreme events are far more important for planning and mitigation purposes. Third, climate forecasts correspond to a spatially-varying collection of forecasts, and different methods account for spatial variability in the response differently. Trade-offs between different approaches may be mitigated with model stacking. This paper describes the application of a variety of ML methods used to predict monthly average precipitation and two meter temperature using physics-based predictions (ensemble forecasts) and observational data such as relative humidity, pressure at sea level, or geopotential height, two weeks in advance for the whole continental United States. Regression, quantile regression, and tercile classification tasks using linear models, random forests, convolutional neural networks, and stacked models are considered. The proposed models outperform common baselines such as historical averages (or quantiles) and ensemble averages (or quantiles). This paper further includes an investigation of feature importance, trade-offs between using the full ensemble or only the ensemble average, and different modes of accounting for spatial variability.
translated by 谷歌翻译
美国宇航局的全球生态系统动力学调查(GEDI)是一个关键的气候使命,其目标是推进我们对森林在全球碳循环中的作用的理解。虽然GEDI是第一个基于空间的激光器,明确优化,以测量地上生物质的垂直森林结构预测,这对广泛的观测和环境条件的大量波形数据的准确解释是具有挑战性的。在这里,我们提出了一种新颖的监督机器学习方法来解释GEDI波形和全球标注冠层顶部高度。我们提出了一种基于深度卷积神经网络(CNN)集合的概率深度学习方法,以避免未知效果的显式建模,例如大气噪声。该模型学会提取概括地理区域的强大特征,此外,产生可靠的预测性不确定性估计。最终,我们模型产生的全球顶棚顶部高度估计估计的预期RMSE为2.7米,低偏差。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
在线旅行社(OTA)的网站在元搜索竞标引擎上宣传。预测酒店将收到的单击数量的给定出价金额的问题是管理元搜索引擎上OTA广告活动的重要一步,因为出价时间的点击次数定义了要生成的成本。在这项工作中,各种回归器都结束了,以提高点击预测性能。按照预处理程序,将功能集分为火车和测试组,具体取决于样品的记录日期。然后,将数据收集进行基于XGBoost的缩小降低,从而大大降低了特征的维度。然后通过将贝叶斯高参数优化应用于XGBoost,LightGBM和SGD模型来找到最佳的高参数。单独测试了十种不同的机器学习模型,并将它们组合在一起以创建合奏模型。提出了三种替代合奏解决方案。相同的测试集用于测试单个和集合模型,46个模型组合的结果表明,堆栈集合模型得出所有的R2分数。总之,整体模型将预测性能提高了约10%。
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
Landslides在人为全球变暖时代的人类生活和财产的常规发生和令人震惊的威胁。利用数据驱动方法早日预测利用数据驱动方法是时间的要求。在这项研究中,我们探讨了最能描述Landslide易感性与最先进的机器学习方法的雄辩功能。在我们的研究中,我们采用了最先进的机器学习算法,包括XGBoost,LR,KNN,SVM,Adaboost用于滑坡敏感性预测。要查找每个单独分类器的最佳超级参数以优化性能,我们已纳入网格搜索方法,交叉验证10倍。在这种情况下,XGBoost的优化版本优先于所有其他分类器,交叉验证加权F1得分为94.62%。其次是通过合并Treeshap并识别斜坡,高度,TWI等雄辩的特征来探索XGBoost分类器,这些特征在于,XGBoost分类器的性能大多是Landuse,NDVI,SPI等功能,这对模型性能较小。 。根据Treeshap的特征说明,我们选择了15个最重要的滑坡因果因素。显然,XGBoost的优化版本随着特征减少40%,在具有十字架的流行评估度量方面表现优于所有其他分类器。 - 在培训和AUC分数的加权F1得分为95.01%,AUC得分为97%。
translated by 谷歌翻译
发现新的超链接使Web爬网程序能够找到尚未索引的新页面。这对于集中的爬行者来说尤为重要,因为他们努力提供对网络的特定部分的全面分析,从而优先考虑发现内容的变化的新页面。在文献中,通常同​​时考虑超链接和内容的变化。但是,还有证据表明这两种改变不一定是相关的。此外,关于预测变化的许多研究假设页面的长期可用,这在实践中是无法实现的。这项工作的目的是提供一种方法来使用短历史有效地检测新的链接。为此,我们使用一周的间隔使用十个爬网的数据集。我们的研究包括三个部分。首先,我们通过分析新的倒出数量的经验属性来获得数据的洞察力。我们观察到这些属性平均随着时间的推移稳定,但在目标页面内外页面的超链接出现的超链接之间存在很大的差异(分别分别是内部和外部倒降)。接下来,我们为三个目标提供统计模型:链路变化率,新链接的存在以及新链接的数量。这些模型包括文献中早些时候使用的功能,以及在这项工作中引入的新功能。我们分析了特征之间的相关性,并调查了他们的信息。一个值得注意的发现是,如果目标页面的历史不可用,那么我们的新功能,代表相关页面的历史,对于目标页面中的新链接最预测。最后,我们将排名方法作为聚焦爬虫的准则,以有效地发现新页面,这对相应的目标实现了出色的性能。
translated by 谷歌翻译
在许多环境环境中的风险管理需要了解驱动极端事件的机制。量化这种风险的有用指标是响应变量的极端分位数,该变量是基于描述气候,生物圈和环境状态的预测变量的。通常,这些分位数位于可观察数据的范围之内,因此,为了估算,需要在回归框架内规范参数极值模型。在这种情况下,经典方法利用预测变量和响应变量之间的线性或加性关系,并在其预测能力或计算效率中受苦;此外,它们的简单性不太可能捕获导致极端野火创造的真正复杂结构。在本文中,我们提出了一个新的方法学框架,用于使用人工中性网络执行极端分位回归,该网络能够捕获复杂的非线性关系并很好地扩展到高维数据。神经网络的“黑匣子”性质意味着它们缺乏从业者通常会喜欢的可解释性的理想特征。因此,我们将线性和加法模型的各个方面与深度学习相结合,以创建可解释的神经网络,这些神经网络可用于统计推断,但保留了高预测准确性。为了补充这种方法,我们进一步提出了一个新颖的点过程模型,以克服与广义极值分布类别相关的有限的下端问题。我们的统一框架的功效在具有高维预测器集的美国野火数据上说明了,我们说明了基于线性和基于样条的回归技术的预测性能的大幅改进。
translated by 谷歌翻译
虽然对解释黑盒机学习(ML)模型进行了重大进展,但仍然有明显缺乏诊断工具,阐明了在预测技能和可变重要性方面阐明ML模型的空间行为。该贡献提出了空间预测误差简档(SPEP)和空间可变重要性配置文件(SVIPS)作为用于空间预测模型的新型模型 - 不可止结的评估和解释工具,其侧重于预测距离。它们的适用性在两个案例研究中展示了在环境 - 科学环境中的区域化任务,以及来自远程感应的土地覆盖分类的分类任务。在这些案例研究中,地质统计方法的SPEP和SVIPS,线性模型,随机林和杂交算法显示出惊人的差异,但也是相关的相似之处。概述了相关交叉验证技术的局限性,并且使建模者应将其模型评估和对预定空间预测视野的解释集中起来。相比之下,自相关的范围不是用于定义空间交叉验证测试集的合适标准。新型诊断工具丰富了空间数据科学的工具包,可以改善ML模型解释,选择和设计。
translated by 谷歌翻译
分位数回归是统计学习中的一个基本问题,这是由于需要量化预测中的不确定性或对多样化的人群建模而不过分减少的统计学习。例如,流行病学预测,成本估算和收入预测都可以准确地量化可能的值的范围。因此,在计量经济学,统计和机器学习的多年研究中,已经为这个问题开发了许多模型。而不是提出另一种(新的)算法用于分位数回归,而是采用元观点:我们研究用于汇总任意数量的有条件分位模型的方法,以提高准确性和鲁棒性。我们考虑加权合奏,其中权重不仅可能因单个模型,而且要多于分位数和特征值而变化。我们在本文中考虑的所有模型都可以使用现代深度学习工具包适合,因此可以广泛访问(从实现的角度)和可扩展。为了提高预测分位数的准确性(或等效地,预测间隔),我们开发了确保分位数保持单调排序的工具,并采用保形校准方法。可以使用这些,而无需对原始模型的原始库进行任何修改。我们还回顾了一些围绕分数聚集和相关评分规则的基本理论,并为该文献做出了一些新的结果(例如,在分类或等渗后回归只能提高加权间隔得分的事实)。最后,我们提供了来自两个不同基准存储库的34个数据集的广泛的经验比较套件。
translated by 谷歌翻译