全面了解各种地球物理流程的行为,其中包括跨颞级的详细调查。在这项工作中,我们提出了一个新的时间序列,以推进和丰富循环背景下的这种调查。该特定编译可以促进在时间依赖,时间变化,“预测性”,集成,稳定性,非线性(和线性度),趋势,尖峰,曲率和季节性方面的主要可解释的特征调查和比较。通过计算九个时间分辨率的提出的特征编译的值(即,1天,2天,3天,7天,0.5个月,1个月,2 -Month,3个月和6个月的6个月)和三种循环时间序列类型(即温度,降水和流出),适用于美国大陆大陆511个地理位置的34年长时间系列记录。基于所获取的信息和知识,识别出具有增加(或减少)时间分辨率的表征其特征值的演进模式的所获取的时间序列类型之间的相似性和差异。我们认为,这些模式的相似之处相当令人惊讶。我们还发现,从基于特征的时间序列聚类出现的空间模式在很大程度上类似于时间尺度,并比较了在各个时间分辨率下聚类时间序列的实用性的特征。对于大多数特征,这种有用性可以在时间分辨率和时间序列类型上变化,从而指出需要对循环相似性研究进行多方面的时间序列表征。
translated by 谷歌翻译
基于回归的水流区域化框架是围绕流域水文学,洪水频率分析及其相互作用的流域属性构建的。在这项工作中,我们通过制定并广泛研究了基于回归的水流区域化框架,从而偏离了这一传统路径,这些框架主要来自数据科学的通用时间序列序列特征,更准确地说,从多种此类功能中出现。我们专注于28个功能,包括(部分)自相关,熵,时间变化,季节性,趋势,肿块,稳定性,非线性,线性,尖峰,曲率等。我们估计了511个流域的每日温度,降水和水流时间序列的这些特征,然后将它们与传统的地形,土地覆盖,土壤和地质属性合并。降水量和温度特征(例如,降水时间序列的光谱熵,季节性强度和滞后1的自相关以及温度时间序列的稳定性和趋势强度)是许多流量特征的有用预测指标。这也适用于传统属性,例如流域平均高程。还揭示了预测变量和因变量之间的关系,而光谱熵,季节性强度和流量时间序列的几个自相关特征被发现比其他元素更具区域化。
translated by 谷歌翻译
如今,包括水文学在内的各种应用领域,概率的预测正在受到越来越多的关注。几种机器学习概念和方法与通过应对相关挑战的形式化和优化概率预测实现相关。尽管如此,目前,概率的水文预测文献中缺少着重于此类概念和方法的实际意义评论。尽管在同一文献中从机器学习中受益的研究工作中有明显的加剧,但这种缺席仍然存在,尽管最近出现了实质性的相关进展,尤其是在概率水文后处理领域,传统上为水文学家提供了概率学家的概率学家。水文预测实施。在此,我们旨在填补这一特定空白。在我们的综述中,我们强调了可以导致研究概念和方法有效普及的关键思想和信息,因为这种强调可以支持该领域的成功实施和进一步的科学发展。在相同的前瞻性方向上,我们确定了开放的研究问题,并提出了将来要探索的想法。
translated by 谷歌翻译
Merging satellite products and ground-based measurements is often required for obtaining precipitation datasets that simultaneously cover large regions with high density and are more accurate than pure satellite precipitation products. Machine and statistical learning regression algorithms are regularly utilized in this endeavour. At the same time, tree-based ensemble algorithms for regression are adopted in various fields for solving algorithmic problems with high accuracy and low computational cost. The latter can constitute a crucial factor for selecting algorithms for satellite precipitation product correction at the daily and finer time scales, where the size of the datasets is particularly large. Still, information on which tree-based ensemble algorithm to select in such a case for the contiguous United States (US) is missing from the literature. In this work, we conduct an extensive comparison between three tree-based ensemble algorithms, specifically random forests, gradient boosting machines (gbm) and extreme gradient boosting (XGBoost), in the context of interest. We use daily data from the PERSIANN (Precipitation Estimation from Remotely Sensed Information using Artificial Neural Networks) and the IMERG (Integrated Multi-satellitE Retrievals for GPM) gridded datasets. We also use earth-observed precipitation data from the Global Historical Climatology Network daily (GHCNd) database. The experiments refer to the entire contiguous US and additionally include the application of the linear regression algorithm for benchmarking purposes. The results suggest that XGBoost is the best-performing tree-based ensemble algorithm among those compared. They also suggest that IMERG is more useful than PERSIANN in the context investigated.
translated by 谷歌翻译
在过去二十年中,识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员,我们总结了文献关于纵向聚类的指导。此外,我们提供了一种纵向聚类方法,包括基于基团的轨迹建模(GBTM),生长混合模拟(GMM)和纵向K平均值(KML)。该方法在基本级别引入,并列出了强度,限制和模型扩展。在最近数据收集的发展之后,将注意这些方法的适用性赋予密集的纵向数据(ILD)。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。
translated by 谷歌翻译
In 2021 300 mm of rain, nearly half the average annual rainfall, fell near Catania (Sicily island, Italy). Such events took place in just a few hours, with dramatic consequences on the environmental, social, economic, and health systems of the region. This is the reason why, detecting extreme rainfall events is a crucial prerequisite for planning actions able to reverse possibly intensified dramatic future scenarios. In this paper, the Affinity Propagation algorithm, a clustering algorithm grounded on machine learning, was applied, to the best of our knowledge, for the first time, to identify excess rain events in Sicily. This was possible by using a high-frequency, large dataset we collected, ranging from 2009 to 2021 which we named RSE (the Rainfall Sicily Extreme dataset). Weather indicators were then been employed to validate the results, thus confirming the presence of recent anomalous rainfall events in eastern Sicily. We believe that easy-to-use and multi-modal data science techniques, such as the one proposed in this study, could give rise to significant improvements in policy-making for successfully contrasting climate changes.
translated by 谷歌翻译
Network-based analyses of dynamical systems have become increasingly popular in climate science. Here we address network construction from a statistical perspective and highlight the often ignored fact that the calculated correlation values are only empirical estimates. To measure spurious behaviour as deviation from a ground truth network, we simulate time-dependent isotropic random fields on the sphere and apply common network construction techniques. We find several ways in which the uncertainty stemming from the estimation procedure has major impact on network characteristics. When the data has locally coherent correlation structure, spurious link bundle teleconnections and spurious high-degree clusters have to be expected. Anisotropic estimation variance can also induce severe biases into empirical networks. We validate our findings with ERA5 reanalysis data. Moreover we explain why commonly applied resampling procedures are inappropriate for significance evaluation and propose a statistically more meaningful ensemble construction framework. By communicating which difficulties arise in estimation from scarce data and by presenting which design decisions increase robustness, we hope to contribute to more reliable climate network construction in the future.
translated by 谷歌翻译
捕获恐怖主义群体中运营相似性的动态至关重要,为反恐和智力监测提供可操作的见解。然而,尽管其理论和实用相关性,目前缺乏研究解决这个问题。我们解决这个问题,提出了一种用于检测分享类似行为的恐怖组群集群的新的计算框架,专注于集团的年曲目的部署策略,攻击目标和利用武器。特别考虑到从1997年到2018年签署至少50次攻击的那些组织,总共占全球42,000多个活动的105组,我们提供三套结果。首先,我们表明,多年来,全球恐怖主义的特点是越来越多的运营凝聚力。其次,我们强调,在2009年至2018年,群体之间共聚类的年度达到稳定性,表明过去十年中相似模式的时间一致性。第三,我们证明,两个组织之间的操作相似性由三个因素驱动:(a)其整体活动; (b)业务曲目的多样性差异; (c)多样性和活动的综合衡量标准的差异。团体的运营偏好,地理性交和思想亲和力在确定操作相似性方面没有一致的作用。
translated by 谷歌翻译
预测组合在预测社区中蓬勃发展,近年来,已经成为预测研究和活动主流的一部分。现在,由单个(目标)系列产生的多个预测组合通过整合来自不同来源收集的信息,从而提高准确性,从而减轻了识别单个“最佳”预测的风险。组合方案已从没有估计的简单组合方法演变为涉及时间变化的权重,非线性组合,组件之间的相关性和交叉学习的复杂方法。它们包括结合点预测和结合概率预测。本文提供了有关预测组合的广泛文献的最新评论,并参考可用的开源软件实施。我们讨论了各种方法的潜在和局限性,并突出了这些思想如何随着时间的推移而发展。还调查了有关预测组合实用性的一些重要问题。最后,我们以当前的研究差距和未来研究的潜在见解得出结论。
translated by 谷歌翻译
Efficient energy consumption is crucial for achieving sustainable energy goals in the era of climate change and grid modernization. Thus, it is vital to understand how energy is consumed at finer resolutions such as household in order to plan demand-response events or analyze the impacts of weather, electricity prices, electric vehicles, solar, and occupancy schedules on energy consumption. However, availability and access to detailed energy-use data, which would enable detailed studies, has been rare. In this paper, we release a unique, large-scale, synthetic, residential energy-use dataset for the residential sector across the contiguous United States covering millions of households. The data comprise of hourly energy use profiles for synthetic households, disaggregated into Thermostatically Controlled Loads (TCL) and appliance use. The underlying framework is constructed using a bottom-up approach. Diverse open-source surveys and first principles models are used for end-use modeling. Extensive validation of the synthetic dataset has been conducted through comparisons with reported energy-use data. We present a detailed, open, high-resolution, residential energy-use dataset for the United States.
translated by 谷歌翻译
评估能源转型和能源市场自由化对资源充足性的影响是一种越来越重要和苛刻的任务。能量系统的上升复杂性需要足够的能量系统建模方法,从而提高计算要求。此外,随着复杂性,同样调用概率评估和场景分析同样增加不确定性。为了充分和高效地解决这些各种要求,需要来自数据科学领域的新方法来加速当前方法。通过我们的系统文献综述,我们希望缩小三个学科之间的差距(1)电力供应安全性评估,(2)人工智能和(3)实验设计。为此,我们对所选应用领域进行大规模的定量审查,并制作彼此不同学科的合成。在其他发现之外,我们使用基于AI的方法和应用程序的AI方法和应用来确定电力供应模型的复杂安全性的元素,并作为未充分涵盖的应用领域的储存调度和(非)可用性。我们结束了推出了一种新的方法管道,以便在评估电力供应安全评估时充分有效地解决当前和即将到来的挑战。
translated by 谷歌翻译
In the field of psychopathology, Ecological Momentary Assessment (EMA) methodological advancements have offered new opportunities to collect time-intensive, repeated and intra-individual measurements. This way, a large amount of data has become available, providing the means for further exploring mental disorders. Consequently, advanced machine learning (ML) methods are needed to understand data characteristics and uncover hidden and meaningful relationships regarding the underlying complex psychological processes. Among other uses, ML facilitates the identification of similar patterns in data of different individuals through clustering. This paper focuses on clustering multivariate time-series (MTS) data of individuals into several groups. Since clustering is an unsupervised problem, it is challenging to assess whether the resulting grouping is successful. Thus, we investigate different clustering methods based on different distance measures and assess them for the stability and quality of the derived clusters. These clustering steps are illustrated on a real-world EMA dataset, including 33 individuals and 15 variables. Through evaluation, the results of kernel-based clustering methods appear promising to identify meaningful groups in the data. So, efficient representations of EMA data play an important role in clustering.
translated by 谷歌翻译
在许多科学应用中出现了从一组共同样本中获得两种(或更多)类型的测量的数据集。此类数据的探索性分析中的一个常见问题是识别有密切相关的不同数据类型的特征组。 Bimodule是来自两种数据类型的特征集的一对(A,B),因此A和B中的特征之间的汇总相关很大。如果A与B中的特征显着相关的特征集合,则BIMODULE(A,B)是稳定的,反之亦然。在本文中,我们提出并研究了基于迭代测试的程序(BSP),以识别Bi-View数据中稳定的双模型。我们进行了一项彻底的模拟研究,以评估BSP的性能,并使用GTEX项目的最新数据提出了表达定量性状基因座(EQTL)分析问题的扩展应用。此外,我们将BSP应用于气候数据,以确定北美地区年温度变化影响降水的区域。
translated by 谷歌翻译
社会经济特征正在影响水需求的时间和空间变异 - 水分配系统建模中的最大不确定性源。可以利用改善对这些影响的知识来减少需求的不确定性。本文旨在通过应用新的聚类算法将智能水表数据链接到社会经济用户特征,该算法使用每日需求模式的动态时间翘曲度量。该方法在模拟和测量的单户家庭数据集上进行了测试。我们表明,与常用的聚类方法,两者相比,该算法与普遍使用的聚类方法相比,在找到正确的群集数量以及正确分配模式时,可以更好地执行更好。此外,该方法可用于识别需求模式集群内的异常值。此外,本研究调查了在单簇内普遍存在的社会经济特征(例如就业状况,居民人数),因此可以与群集的重心的形状相关联。将来,建议的方法与随机需求模型结合使用,可用于填补液压模型中的数据间隙。
translated by 谷歌翻译
在过去的几十年中,风产能的增长表明,风能可以促进世界许多地区的能源过渡。对于模型的高度可变和复杂,对风能的时空变化和相关的不确定性的定量与能源计划者高度相关。机器学习已成为执行风速和功率预测的流行工具。但是,现有方法有几个局限性。其中包括(i)在风速数据中不足以考虑时空相关性,(ii)缺乏量化风速预测不确定性及其对风能估算的不确定性的现有方法,以及(iii)焦点在少于小时的频率上。为了克服这些局限性,我们引入了一个框架,以从不规则分布的风速测量值中的常规网格上重建时空场。将数据分解为时间引用的基础函数及其相应的空间分布系数后,后者是使用极端学习机对空间建模的。然后,对模型和预测不确定性的估计及其在风速转化为风能后的传播的估计值,然后将提供对数据分布模式的任何假设。该方法适用于研究瑞士100米轮毂高度的250 x 250平方米的小时风能潜力,为该国提供了其类型的第一个数据集。潜在的风力发电与风力涡轮机安装的可用区域相结合,以估算瑞士风力发电的技术潜力。此处介绍的风力估算代表了计划人员的重要意见,以支持风力发电增加的未来能源系统的设计。
translated by 谷歌翻译
能够捕获与特征向量的时间序列的特征是具有多种应用的非常重要的任务,例如分类,聚类或预测。通常,该特征是从线性和非线性时间序列测量获得的特征,其可能存在若干数据相关的缺点。在这项工作中,我们将NetF介绍作为替代特征,包括时间序列的不同复杂网络映射的几种代表性拓扑测量。我们的方法不需要数据预处理,并且无论任何数据特征如何,都适用。探索我们的新颖特征向量,我们能够将映射的网络功能连接到多样化的时间序列模型中固有的属性,显示NetF可以有用的时间数据。此外,我们还展示了我们在聚类合成和基准时间序列组中的方法的适用性,比较其具有更多传统功能的性能,展示了Netf如何实现高精度集群。我们的结果非常有前途,具有来自不同映射方法的网络特征,捕获时间序列的不同属性,将不同且丰富的功能设置为文献。
translated by 谷歌翻译
尽管最近的研究集中在量化单词用法上以找到叙事情感弧的整体形状,但叙事中叙事的某些特征仍有待探索。在这里,我们通过找到单词用法中波动开始相关的文本长度来表征亚叙事的叙事时间尺度。我们代表30,000多个项目Gutenberg书籍作为时间序列使用OusiOmetrics,这是一个具有基本含义的功率破坏者框架,本身是对价价 - 宽松义务框架的重新解释,这些框架源自语义差异。我们使用经验模式分解将每本书的力量和危险时间序列分解为组成振荡模式和非振荡趋势的总和。通过将原始力量和危险时间序列的分解与从洗牌文本中得出的分解,我们发现较短的书籍仅显示出一般趋势,而较长的书籍除了一般趋势外,还具有波动,类似于子图在一个中的弧线中的弧线。总体叙事弧。这些波动通常有几千个单词的时期,无论书籍长度或库分类代码如何,但根据书的内容和结构而有所不同。我们的方法提供了一种数据驱动的denoisising方法,可用于各种长度的文本,与使用大型窗口尺寸的更传统的方法相反,该方法可能会无意中平滑相关信息,尤其是对于较短的文本而言。
translated by 谷歌翻译
我们基于技能评分,对确定性太阳预测进行了首次全面的荟萃分析,筛选了Google Scholar的1,447篇论文,并审查了320篇论文的全文以进行数据提取。用多元自适应回归样条模型,部分依赖图和线性回归构建和分析了4,758点的数据库。值得注意的是,分析说明了数据中最重要的非线性关系和交互项。我们量化了对重要变量的预测准确性的影响,例如预测范围,分辨率,气候条件,区域的年度太阳辐照度水平,电力系统大小和容量,预测模型,火车和测试集以及使用不同的技术和投入。通过控制预测之间的关键差异,包括位置变量,可以在全球应用分析的发现。还提供了该领域科学进步的概述。
translated by 谷歌翻译
分布式的小型太阳能光伏(PV)系统正在以快速增加的速度安装。这可能会对分销网络和能源市场产生重大影响。结果,在不同时间分辨率和视野中,非常需要改善对这些系统发电的预测。但是,预测模型的性能取决于分辨率和地平线。在这种情况下,将多个模型的预测结合到单个预测中的预测组合(合奏)可能是鲁棒的。因此,在本文中,我们提供了对五个最先进的预测模型的性能以及在多个分辨率和视野下的现有预测组合的比较和见解。我们提出了一种基于粒子群优化(PSO)的预测组合方法,该方法将通过加权单个模型产生的预测来使预报掌握能够为手头的任务产生准确的预测。此外,我们将提出的组合方法的性能与现有的预测组合方法进行了比较。使用现实世界中的PV电源数据集进行了全面的评估,该数据集在美国三个位置的25个房屋中测得。在四种不同的分辨率和四个不同视野之间的结果表明,基于PSO的预测组合方法的表现优于使用任何单独的预测模型和其他预测组合的使用,而平均平均绝对规模误差降低了3.81%,而最佳性能则最佳性能单个个人模型。我们的方法使太阳预报员能够为其应用产生准确的预测,而不管预测分辨率或视野如何。
translated by 谷歌翻译
Crop phenology is crucial information for crop yield estimation and agricultural management. Traditionally, phenology has been observed from the ground; however Earth observation, weather and soil data have been used to capture the physiological growth of crops. In this work, we propose a new approach for the within-season phenology estimation for cotton at the field level. For this, we exploit a variety of Earth observation vegetation indices (derived from Sentinel-2) and numerical simulations of atmospheric and soil parameters. Our method is unsupervised to address the ever-present problem of sparse and scarce ground truth data that makes most supervised alternatives impractical in real-world scenarios. We applied fuzzy c-means clustering to identify the principal phenological stages of cotton and then used the cluster membership weights to further predict the transitional phases between adjacent stages. In order to evaluate our models, we collected 1,285 crop growth ground observations in Orchomenos, Greece. We introduced a new collection protocol, assigning up to two phenology labels that represent the primary and secondary growth stage in the field and thus indicate when stages are transitioning. Our model was tested against a baseline model that allowed to isolate the random agreement and evaluate its true competence. The results showed that our model considerably outperforms the baseline one, which is promising considering the unsupervised nature of the approach. The limitations and the relevant future work are thoroughly discussed. The ground observations are formatted in an ready-to-use dataset and will be available at https://github.com/Agri-Hub/cotton-phenology-dataset upon publication.
translated by 谷歌翻译