Different machine learning (ML) models are trained on SCADA and meteorological data collected at an onshore wind farm and then assessed in terms of fidelity and accuracy for predictions of wind speed, turbulence intensity, and power capture at the turbine and wind farm levels for different wind and atmospheric conditions. ML methods for data quality control and pre-processing are applied to the data set under investigation and found to outperform standard statistical methods. A hybrid model, comprised of a linear interpolation model, Gaussian process, deep neural network (DNN), and support vector machine, paired with a DNN filter, is found to achieve high accuracy for modeling wind turbine power capture. Modifications of the incoming freestream wind speed and turbulence intensity, $TI$, due to the evolution of the wind field over the wind farm and effects associated with operating turbines are also captured using DNN models. Thus, turbine-level modeling is achieved using models for predicting power capture while farm-level modeling is achieved by combining models predicting wind speed and $TI$ at each turbine location from freestream conditions with models predicting power capture. Combining these models provides results consistent with expected power capture performance and holds promise for future endeavors in wind farm modeling and diagnostics. Though training ML models is computationally expensive, using the trained models to simulate the entire wind farm takes only a few seconds on a typical modern laptop computer, and the total computational cost is still lower than other available mid-fidelity simulation approaches.
translated by 谷歌翻译
风电场设计主要取决于风力涡轮机唤醒流向大气风条件的可变性,以及唤醒之间的相互作用。使用高保真度捕获唤醒流场的物理学模型是计算风电场的布局优化的计算非常昂贵,因此数据驱动的减少的订单模型可以代表模拟风电场的有效替代方案。在这项工作中,我们使用现实世界的光检测和测量(LIDAR)测量的风力涡轮机唤醒,用机器学习构建预测代理模型。具体而言,我们首先展示使用深度自动控制器来找到低维\ emph {潜在}空间,其给出了唤醒激光雷达测量的计算易逼近的近似。然后,我们学习使用深神经网络的参数空间和(潜在空间)唤醒流场之间的映射。此外,我们还展示了使用概率机器学习技术,即高斯过程建模,除了数据中的认知和炼拉内不确定性之外,学习参数空间潜空间映射。最后,为了应对培训大型数据集,我们展示了使用变分高斯过程模型,为大型数据集提供了传统的高斯工艺模型的传统高斯工艺模型。此外,我们介绍了主动学习以自适应地构建和改进传统的高斯过程模型预测能力。总的来说,我们发现我们的方法提供了风力涡轮机唤醒流场的准确近似,其可以以比具有基于高保真物理的模拟产生的级别更便宜的成本来查询。
translated by 谷歌翻译
目前,由精确的径向速度(RV)观察结果受到恒星活性引入的虚假RV信号的限制。我们表明,诸如线性回归和神经网络之类的机器学习技术可以有效地从RV观测中删除活动信号(由于星形/张图引起的)。先前的工作着重于使用高斯工艺回归等建模技术仔细地过滤活性信号(例如Haywood等人,2014年)。取而代之的是,我们仅使用对光谱线平均形状的更改进行系统地删除活动信号,也没有有关收集观测值的信息。我们对模拟数据(使用SOAP 2.0软件生成; Dumusque等人,2014年生成)和从Harps-N太阳能望远镜(Dumusque等,2015; Phillips等人2015; 2016; Collier训练)培训了机器学习模型。 Cameron等人2019)。我们发现,这些技术可以从模拟数据(将RV散射从82 cm/s提高到3 cm/s)以及从HARPS-N太阳能望远镜中几乎每天进行的600多种真实观察结果来预测和消除恒星活动(将RV散射从82 cm/s提高到3 cm/s)。 (将RV散射从1.753 m/s提高到1.039 m/s,提高了约1.7倍)。将来,这些或类似的技术可能会从太阳系以外的恒星观察中去除活动信号,并最终有助于检测到阳光状恒星周围可居住的区域质量系外行星。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
映射近场污染物的浓度对于跟踪城市地区意外有毒羽状分散体至关重要。通过求解大部分湍流谱,大型模拟(LES)具有准确表示污染物浓度空间变异性的潜力。找到一种合成大量信息的方法,以提高低保真操作模型的准确性(例如,提供更好的湍流封闭条款)特别有吸引力。这是一个挑战,在多质量环境中,LES的部署成本高昂,以了解羽流和示踪剂分散如何随着各种大气和源参数的变化。为了克服这个问题,我们提出了一个合并正交分解(POD)和高斯过程回归(GPR)的非侵入性降低阶模型,以预测与示踪剂浓度相关的LES现场统计。通过最大的后验(MAP)过程,GPR HyperParameter是通过POD告知的最大后验(MAP)过程来优化组件的。我们在二维案例研究上提供了详细的分析,该案例研究对应于表面安装的障碍物上的湍流大气边界层流。我们表明,障碍物上游的近源浓度异质性需要大量的POD模式才能得到充分捕获。我们还表明,逐组分的优化允许捕获POD模式中的空间尺度范围,尤其是高阶模式中较短的浓度模式。如果学习数据库由至少五十至100个LES快照制成,则可以首先估算所需的预算,以朝着更逼真的大气分散应用程序迈进,因此减少订单模型的预测仍然可以接受。
translated by 谷歌翻译
剪切粘度虽然是所有液体的基本特性,但在计算上估计分子动力学模拟的计算昂贵。最近,机器学习(ML)方法已被用于在许多情况下增强分子模拟,从而显示出以相对廉价的方式估算粘度的希望。但是,ML方法面临重大挑战,例如当数据集的大小很小时,粘度也很小。在这项工作中,我们训练多个ML模型,以预测Lennard-Jones(LJ)流体的剪切粘度,特别强调解决由小型数据集引起的问题。具体而言,研究了与模型选择,绩效估计和不确定性定量有关的问题。首先,我们表明使用单个看不见的数据集的广泛使用的性能估计步骤显示了小数据集的广泛可变性。在这种情况下,可以使用交叉验证(CV)选择超参数(模型选择)的常见实践,以估算概括误差(性能估计)。我们比较了两个简单的简历程序,以便他们同时选择模型选择和性能估计的能力,并发现基于K折CV的过程显示出较低的误差估计差异。我们讨论绩效指标在培训和评估中的作用。最后,使用高斯工艺回归(GPR)和集合方法来估计单个预测的不确定性。 GPR的不确定性估计还用于构建适用性域,使用ML模型对本工作中生成的另一个小数据集提供了更可靠的预测。总体而言,这项工作中规定的程序共同导致了针对小型数据集的强大ML模型。
translated by 谷歌翻译
功率曲线捕获风速与特定风力涡轮机的输出功率之间的关系。这种功能的准确回归模型在监控,维护,设计和规划方面证明是有用的。然而,在实践中,测量并不总是对应于理想曲线:电源缩减将显示为(附加)功能组件。这种多值关系不能通过常规回归建模,并且在预处理期间通常去除相关数据。目前的工作表明了一种替代方法,可以在缩减电力数据中推断多值关系。使用基于人群的方法,将概率回归模型的重叠混合应用于从操作风电场内的涡轮机记录的信号。示出了模型,以便在整个人口中提供精确的实际功率数据表示。
translated by 谷歌翻译
Accurate modeling of ship performance is crucial for the shipping industry to optimize fuel consumption and subsequently reduce emissions. However, predicting the speed-power relation in real-world conditions remains a challenge. In this study, we used in-service monitoring data from multiple vessels with different hull shapes to compare the accuracy of data-driven machine learning (ML) algorithms to traditional methods for assessing ship performance. Our analysis consists of two main parts: (1) a comparison of sea trial curves with calm-water curves fitted on operational data, and (2) a benchmark of multiple added wave resistance theories with an ML-based approach. Our results showed that a simple neural network outperformed established semi-empirical formulas following first principles. The neural network only required operational data as input, while the traditional methods required extensive ship particulars that are often unavailable. These findings suggest that data-driven algorithms may be more effective for predicting ship performance in practical applications.
translated by 谷歌翻译
The hydrodynamic performance of a sea-going ship varies over its lifespan due to factors like marine fouling and the condition of the anti-fouling paint system. In order to accurately estimate the power demand and fuel consumption for a planned voyage, it is important to assess the hydrodynamic performance of the ship. The current work uses machine-learning (ML) methods to estimate the hydrodynamic performance of a ship using the onboard recorded in-service data. Three ML methods, NL-PCR, NL-PLSR and probabilistic ANN, are calibrated using the data from two sister ships. The calibrated models are used to extract the varying trend in ship's hydrodynamic performance over time and predict the change in performance through several propeller and hull cleaning events. The predicted change in performance is compared with the corresponding values estimated using the fouling friction coefficient ($\Delta C_F$). The ML methods are found to be performing well while modelling the hydrodynamic state variables of the ships with probabilistic ANN model performing the best, but the results from NL-PCR and NL-PLSR are not far behind, indicating that it may be possible to use simple methods to solve such problems with the help of domain knowledge.
translated by 谷歌翻译
在许多环境环境中的风险管理需要了解驱动极端事件的机制。量化这种风险的有用指标是响应变量的极端分位数,该变量是基于描述气候,生物圈和环境状态的预测变量的。通常,这些分位数位于可观察数据的范围之内,因此,为了估算,需要在回归框架内规范参数极值模型。在这种情况下,经典方法利用预测变量和响应变量之间的线性或加性关系,并在其预测能力或计算效率中受苦;此外,它们的简单性不太可能捕获导致极端野火创造的真正复杂结构。在本文中,我们提出了一个新的方法学框架,用于使用人工中性网络执行极端分位回归,该网络能够捕获复杂的非线性关系并很好地扩展到高维数据。神经网络的“黑匣子”性质意味着它们缺乏从业者通常会喜欢的可解释性的理想特征。因此,我们将线性和加法模型的各个方面与深度学习相结合,以创建可解释的神经网络,这些神经网络可用于统计推断,但保留了高预测准确性。为了补充这种方法,我们进一步提出了一个新颖的点过程模型,以克服与广义极值分布类别相关的有限的下端问题。我们的统一框架的功效在具有高维预测器集的美国野火数据上说明了,我们说明了基于线性和基于样条的回归技术的预测性能的大幅改进。
translated by 谷歌翻译
高能密度物理学的模拟很昂贵,部分原因是需要产生非本地热力学平衡的不透明性。高保真光谱可能会揭示出在没有低保真光谱的模拟中的新物理学,但是这些模拟的成本也随着所使用的不透明性的保真度的水平而扩展。神经网络能够再现这些光谱,但是神经网络需要数据来训练它们,从而限制了训练数据的忠诚度。本文表明,可以在3 \%至4 \%的领域中使用中位数错误的高保真光谱,使用少于50个高保真k的k k k k数据,通过对许多对许多人进行的神经网络进行转移学习,以对许多人进行培训次数更多的低保真数据。
translated by 谷歌翻译
时间序列加工是风力涡轮机健康监测的重要方面。尽管在这一领域进展,但新方法仍有空间来提高建模质量。在本文中,我们提出了两种新方法来分析风力涡轮机健康。这两种方法都基于抽象概念,使用模糊集实现,概述并汇总了底层的原始数据。通过观察概念的变化,我们推断涡轮机健康的变化。分析分别进行不同的外部条件(风速和温度)。我们提取代表相对低,中等和高功率生产的概念。第一种方法旨在评估相对较高和低功率生产的降低或增加。使用回归式模型执行此任务。第二种方法评估提取的概念的整体漂移。大漂移表明电力生产过程及时经历波动。使用语言标签标记概念,从而用改善的解释性功能配备了我们的模型。我们应用了提出的方法来处理描述四种风力涡轮机的公开数据。仿真结果表明,所有风力涡轮机的老化过程在所有风力涡轮机中都不均匀。
translated by 谷歌翻译
评估能源转型和能源市场自由化对资源充足性的影响是一种越来越重要和苛刻的任务。能量系统的上升复杂性需要足够的能量系统建模方法,从而提高计算要求。此外,随着复杂性,同样调用概率评估和场景分析同样增加不确定性。为了充分和高效地解决这些各种要求,需要来自数据科学领域的新方法来加速当前方法。通过我们的系统文献综述,我们希望缩小三个学科之间的差距(1)电力供应安全性评估,(2)人工智能和(3)实验设计。为此,我们对所选应用领域进行大规模的定量审查,并制作彼此不同学科的合成。在其他发现之外,我们使用基于AI的方法和应用程序的AI方法和应用来确定电力供应模型的复杂安全性的元素,并作为未充分涵盖的应用领域的储存调度和(非)可用性。我们结束了推出了一种新的方法管道,以便在评估电力供应安全评估时充分有效地解决当前和即将到来的挑战。
translated by 谷歌翻译
Machine learning models are frequently employed to perform either purely physics-free or hybrid downscaling of climate data. However, the majority of these implementations operate over relatively small downscaling factors of about 4--6x. This study examines the ability of convolutional neural networks (CNN) to downscale surface wind speed data from three different coarse resolutions (25km, 48km, and 100km side-length grid cells) to 3km and additionally focuses on the ability to recover subgrid-scale variability. Within each downscaling factor, namely 8x, 16x, and 32x, we consider models that produce fine-scale wind speed predictions as functions of different input features: coarse wind fields only; coarse wind and fine-scale topography; and coarse wind, topography, and temporal information in the form of a timestamp. Furthermore, we train one model at 25km to 3km resolution whose fine-scale outputs are probability density function parameters through which sample wind speeds can be generated. All CNN predictions performed on one out-of-sample data outperform classical interpolation. Models with coarse wind and fine topography are shown to exhibit the best performance compared to other models operating across the same downscaling factor. Our timestamp encoding results in lower out-of-sample generalizability compared to other input configurations. Overall, the downscaling factor plays the largest role in model performance.
translated by 谷歌翻译
分配转移或培训数据和部署数据之间的不匹配是在高风险工业应用中使用机器学习的重要障碍,例如自动驾驶和医学。这需要能够评估ML模型的推广以及其不确定性估计的质量。标准ML基线数据集不允许评估这些属性,因为培训,验证和测试数据通常相同分布。最近,已经出现了一系列专用基准测试,其中包括分布匹配和转移的数据。在这些基准测试中,数据集在任务的多样性以及其功能的数据模式方面脱颖而出。虽然大多数基准测试由2D图像分类任务主导,但Shifts包含表格天气预测,机器翻译和车辆运动预测任务。这使得可以评估模型的鲁棒性属性,并可以得出多种工业规模的任务以及通用或直接适用的特定任务结论。在本文中,我们扩展了偏移数据集,其中两个数据集来自具有高社会重要性的工业高风险应用程序。具体而言,我们考虑了3D磁共振脑图像中白质多发性硬化病变的分割任务以及海洋货物容器中功耗的估计。两项任务均具有无处不在的分配变化和由于错误成本而构成严格的安全要求。这些新数据集将使研究人员能够进一步探索新情况下的强大概括和不确定性估计。在这项工作中,我们提供了两个任务的数据集和基线结果的描述。
translated by 谷歌翻译
众所周知,由于许多空间和时间变化的因素有助于斜率稳定性,因此难以预测滑坡。人工神经网络(ANN)已被证明可以提高预测准确性。但是,传统的ANN是无法解释的,复杂的黑匣子模型。这使得很难在建模区域中提取有关滑坡控制的机械信息,或在此高风险应用中信任结果。在此,我们介绍了可解释的加性神经网络在滑坡易感性建模中的首次应用。我们介绍了一个新的添加剂ANN优化框架,以及新的数据集除法和结果解释技术,适用于使用空间依赖的数据结构(例如滑坡易感性)建模应用程序。我们将我们的方法称为完全可解释性,高精度,高推广性和低模型复杂性作为超固有神经网络(SNN)优化的方法。我们通过培训模型来验证我们的方法,以评估喜马拉雅山脉最容易受到滑坡的三个不同区域的滑坡敏感性。 SNN生成的可解释的神经网络模型胜过基于物理的稳定性和统计模型,并实现了与最先进的深神经网络相似的性能,同时提供了有关滑坡控制因素的相对重要性的见解。 SNN模型发现,斜坡,降水和山坡方面的产物是对研究区域中高压滑敏感性的重要主要因素。这些确定的控件表明,强烈的斜坡气候耦合以及微气候以及在最东部喜马拉雅山的滑坡事件中起主要作用。
translated by 谷歌翻译
在概述中,引入了通用数学对象(映射),并解释了其与模型物理参数化的关系。引入了可用于模拟和/或近似映射的机器学习(ML)工具。ML的应用在模拟现有参数化,开发新的参数化,确保物理约束和控制开发应用程序的准确性。讨论了一些允许开发人员超越标准参数化范式的ML方法。
translated by 谷歌翻译
Algorithms that involve both forecasting and optimization are at the core of solutions to many difficult real-world problems, such as in supply chains (inventory optimization), traffic, and in the transition towards carbon-free energy generation in battery/load/production scheduling in sustainable energy systems. Typically, in these scenarios we want to solve an optimization problem that depends on unknown future values, which therefore need to be forecast. As both forecasting and optimization are difficult problems in their own right, relatively few research has been done in this area. This paper presents the findings of the ``IEEE-CIS Technical Challenge on Predict+Optimize for Renewable Energy Scheduling," held in 2021. We present a comparison and evaluation of the seven highest-ranked solutions in the competition, to provide researchers with a benchmark problem and to establish the state of the art for this benchmark, with the aim to foster and facilitate research in this area. The competition used data from the Monash Microgrid, as well as weather data and energy market data. It then focused on two main challenges: forecasting renewable energy production and demand, and obtaining an optimal schedule for the activities (lectures) and on-site batteries that lead to the lowest cost of energy. The most accurate forecasts were obtained by gradient-boosted tree and random forest models, and optimization was mostly performed using mixed integer linear and quadratic programming. The winning method predicted different scenarios and optimized over all scenarios jointly using a sample average approximation method.
translated by 谷歌翻译
飞机行业不断努力在人类的努力,计算时间和资源消耗方面寻求更有效的设计优化方法。当替代模型和最终过渡到HF模型的开关机制均被正确校准时,混合替代物优化保持了高效果,同时提供快速的设计评估。前馈神经网络(FNN)可以捕获高度非线性输入输出映射,从而为飞机绩效因素提供有效的替代物。但是,FNN通常无法概括分布(OOD)样本,这阻碍了它们在关键飞机设计优化中的采用。通过Smood,我们基于平滑度的分布检测方法,我们建议用优化的FNN替代物来编码一个依赖模型的OOD指标,以产生具有选择性但可信度的预测的值得信赖的替代模型。与常规的不确定性接地方法不同,Smood利用了HF模拟的固有平滑性特性,可以通过揭示其可疑敏感性有效地暴露OOD,从而避免对OOD样品的过度自信不确定性估计。通过使用SMOOD,仅将高风险的OOD输入转发到HF模型以进行重新评估,从而以低开销成本获得更准确的结果。研究了三个飞机性能模型。结果表明,基于FNN的代理在预测性能方面优于其高斯过程。此外,在所有研究案例中,Smood的确覆盖了85%的实际OOD。当Smood Plus FNN替代物被部署在混合替代优化设置中时,它们的错误率分别降低了34.65%和计算速度的降低率分别为58.36次。
translated by 谷歌翻译
在过去的几十年中,风产能的增长表明,风能可以促进世界许多地区的能源过渡。对于模型的高度可变和复杂,对风能的时空变化和相关的不确定性的定量与能源计划者高度相关。机器学习已成为执行风速和功率预测的流行工具。但是,现有方法有几个局限性。其中包括(i)在风速数据中不足以考虑时空相关性,(ii)缺乏量化风速预测不确定性及其对风能估算的不确定性的现有方法,以及(iii)焦点在少于小时的频率上。为了克服这些局限性,我们引入了一个框架,以从不规则分布的风速测量值中的常规网格上重建时空场。将数据分解为时间引用的基础函数及其相应的空间分布系数后,后者是使用极端学习机对空间建模的。然后,对模型和预测不确定性的估计及其在风速转化为风能后的传播的估计值,然后将提供对数据分布模式的任何假设。该方法适用于研究瑞士100米轮毂高度的250 x 250平方米的小时风能潜力,为该国提供了其类型的第一个数据集。潜在的风力发电与风力涡轮机安装的可用区域相结合,以估算瑞士风力发电的技术潜力。此处介绍的风力估算代表了计划人员的重要意见,以支持风力发电增加的未来能源系统的设计。
translated by 谷歌翻译