出现集合随机滤清器(ERFF)作为逆建模的替代品的替代卡尔曼滤波器(ENKF)。 ENKF是一种数据同化方法,随着观察结果的收集,可以依次依次估算参数估计参数。更新步骤是基于从实现集合中计算出的实验协方差,并将更新作为线性组合,是观测值和预测的系统状态值之间差异的线性组合。 ERFF用随机森林表示的非线性函数代替更新步骤中的线性组合。这样,可以捕获要更新的参数与观察值之间的非线性关系,并产生更好的更新。在许多方案中,有不同程度的异质性(对数电导率变异从1到6.25(ln m/d)2),在许多方案中,证明了ERFF的对数指导性识别的目的。合奏(50或100),以及打击头观测的数量(18或36)。在所有情况下,ERFF效果很好,能够重建对数传导性空间异质性,同时匹配所选控制点处观察到的压电头。为了进行基准测试,将ERFF与重新启动ENKF进行了比较,以发现ERFF在使用的集合实现的数量(在典型的ENKF应用中很小)中优于ENKF。只有当实现的数量增加到500时,重新启动ENKF才能匹配ERFF的性能,尽管计算成本三倍。
translated by 谷歌翻译
识别异质电导率场并重建污染物释放历史是地下修复的关键方面。通过有限和嘈杂的液压头和集中度测量实现这两个目标是具有挑战性的。这些障碍包括解决高维参数的反问题,以及重复前进建模所需的高计算成本。我们使用卷积对抗自动编码器(CAAE)进行异质非高斯电导率场的参数化,并具有低维的潜在表示。此外,我们训练了三维密集的卷积编码器(密集)网络,以作为流和运输过程的正向替代。结合了CAAE和密度向前的替代模型,使用多个数据同化(ESMDA)算法的整体更平滑,用于从未知参数的贝叶斯后分布中进行采样,形成CAAE密集的ESMDA反转框架。我们在三维污染物源和电导率域识别问题中应用了这种CAAE密集的ESMDA反转框架。提供了CAAE-ESMDA与物理流和运输模拟器和CAAE密度浓度ESMDA的反转结果的比较,这表明以更高的计算效率实现了准确的重建结果。
translated by 谷歌翻译
开发了一种使用多个辅助变量的非静止空间建模算法。它将Geodatistics与Simitile随机林结合起来,以提供一种新的插值和随机仿真算法。本文介绍了该方法,并表明它具有与施加地统计学建模和定量随机森林的那些相似的一致性结果。该方法允许嵌入更简单的插值技术,例如Kriging,以进一步调节模型。该算法通过估计每个目标位置处的目标变量的条件分布来工作。这种分布的家庭称为目标变量的包络。由此,可以获得空间估计,定量和不确定性。还开发了一种从包络产生条件模拟的算法。随着它们从信封中的样本,因此通过相对变化的次要变量,趋势和可变性的相对变化局部地影响。
translated by 谷歌翻译
石油场和地震成像的储层模拟被称为石油和天然气(O&G)行业中高性能计算(HPC)最苛刻的工作量。模拟器数值参数的优化起着至关重要的作用,因为它可以节省大量的计算工作。最先进的优化技术基于运行大量模拟,特定于该目的,以找到良好的参数候选者。但是,在时间和计算资源方面,使用这种方法的成本高昂。这项工作提出了金枪鱼,这是一种新方法,可增强使用性能模型的储层流仿真的最佳数值参数的搜索。在O&G行业中,通常使用不同工作流程中的模型合奏来减少与预测O&G生产相关的不确定性。我们利用此类工作流程中这些合奏的运行来从每个模拟中提取信息,并在其后续运行中优化数值参数。为了验证该方法,我们在历史匹配(HM)过程中实现了它,该过程使用Kalman滤波器算法来调整储层模型的集合以匹配实际字段中观察到的数据。我们从许多具有不同数值配置的模拟中挖掘了过去的执行日志,并根据数据提取的功能构建机器学习模型。这些功能包括储层模型本身的属性,例如活动单元的数量,即模拟行为的统计数据,例如线性求解器的迭代次数。采样技术用于查询甲骨文以找到可以减少经过的时间的数值参数,而不会显着影响结果的质量。我们的实验表明,预测可以平均将HM工作流程运行时提高31%。
translated by 谷歌翻译
生产精确的天气预报和不确定的不确定性的可靠量化是一个开放的科学挑战。到目前为止,集团预测是最成功的方法,以产生相关预测的方法以及估计其不确定性。集合预测的主要局限性是高计算成本,难以捕获和量化不同的不确定性来源,特别是与模型误差相关的源。在这项工作中,进行概念证据模型实验,以检查培训的ANN的性能,以预测系统的校正状态和使用单个确定性预测作为输入的状态不确定性。我们比较不同的培训策略:一个基于使用集合预测的平均值和传播作为目标的直接培训,另一个依赖于使用确定性预测作为目标的决定性预测,其中来自数据隐含地学习不确定性。对于最后一种方法,提出和评估了两个替代损失函数,基于数据观察似然和基于误差的本地估计来评估另一个丢失功能。在不同的交货时间和方案中检查网络的性能,在没有模型错误的情况下。使用Lorenz'96模型的实验表明,ANNS能够模拟集合预测的一些属性,如最不可预测模式的过滤和预测不确定性的状态相关量化。此外,ANNS提供了在模型误差存在下的预测不确定性的可靠估计。
translated by 谷歌翻译
在最近的方法论文中,我们展示了如何使用当地集合卡尔曼滤波器来学习混沌动力学以及状态轨迹。在这里,我们更系统地调查使用具有协方差定位或本地域的本地集合卡尔曼滤波器的可能性,以便检索状态和密钥全局和本地参数的混合。全局参数旨在代表代理动态核心,例如通过神经网络,这些核心让人想起数据驱动的动态机器学习,而本地参数通常代表模型的强制。针对联合状态和参数估计,提出了一种用于协方差和局域定位的一系列算法。特别是,我们展示了如何使用诸如本地集合变换卡尔曼滤波器(LetkF),这是一个固有的本地方法的本地域集合Kalman滤波器(ENKF)严格更新全局参数。使用几种本地ENKF味道在40变量LORENZ模型上取得了成功测试方法。最终提供基于多层Lorenz模型的二维图示。它使用辐射状的非本地观测。它具有本地域名和协方差本地化,以便学习混沌动态和本地强制。本文始终涉及全局和本地模型参数的在线估计的关键问题。
translated by 谷歌翻译
在地质不确定性下,快速同化监测数据以更新压力累积和压力累积和二氧化碳(CO2)羽流迁移的预测是地质碳储存中的一个具有挑战性的问题。具有高维参数空间的数据同化的高计算成本阻碍了商业规模库管理的快速决策。我们建议利用具有深度学习技术的多孔介质流动行为的物理理解,以开发快速历史匹配 - 水库响应预测工作流程。应用集合更顺畅的多数据同化框架,工作流程更新地质特性,并通过通过地震反转解释的压力历史和二氧化碳羽毛的量化不确定性来预测水库性能。由于这种工作流程中最具计算昂贵的组件是储层模拟,我们开发了代理模型,以在多孔注射下预测动态压力和CO2羽流量。代理模型采用深度卷积神经网络,具体地,宽的剩余网络和残留的U-Net。该工作流程针对代表碎屑货架沉积环境的扁平三维储层模型验证。智能处理应用于真正的3D储层模型中数量与单层储层模型之间的桥梁。工作流程可以在主流个人工作站上不到一小时内完成历史匹配和储库预测,在不到一小时内。
translated by 谷歌翻译
在这项工作中,我们提出了一个新的高斯进程回归(GPR)方法:物理信息辅助Kriging(PHIK)。在标准数据驱动的Kriging中,感兴趣的未知功能通常被视为高斯过程,其中具有假定的静止协方差,其具有从数据估计的QuandEdmente。在PHIK中,我们从可用随机模型的实现中计算平均值和协方差函数,例如,从管理随机部分微分方程解决方案的实现。这种构造的高斯过程通常是非静止的,并且不承担特定形式的协方差。我们的方法避免了数据驱动的GPR方法中的优化步骤来识别超参数。更重要的是,我们证明了确定性线性操作员形式的物理约束在得到的预测中保证。当在随机模型实现中包含错误时,我们还提供了保留物理约束时的误差估计。为了降低获取随机模型的计算成本,我们提出了一种多级蒙特卡罗估计的平均和协方差函数。此外,我们介绍了一种有源学习算法,指导选择附加观察位置。 PHIK的效率和准确性被证明重建部分已知的修饰的Branin功能,研究三维传热问题,并从稀疏浓度测量学习保守的示踪剂分布。
translated by 谷歌翻译
基于时间序列观测数据,数据同化技术广泛用于预测具有不确定性的复杂动态系统。错误协方差矩阵建模是数据同化算法中的重要元素,其可以大大影响预测精度。这些协方差通常依赖于经验假设和物理限制的估计通常是不精确的,并且计算昂贵的昂贵,特别是对于大维度的系统。在这项工作中,我们提出了一种基于长短短期存储器(LSTM)经常性神经网络(RNN)的数据驱动方法,以提高观察协方差规范的准确性和效率的动态系统中的数据同化。与观察/模拟时间序列数据学习协方差矩阵,不同的方法不需要任何关于先前错误分布的知识或假设,而不是经典的后调整方法。我们将新的方法与两个最先进的协方差调谐算法进行了比较,即DI01和D05,首先在Lorenz动态系统中,然后在2D浅水双实验框架中,使用集合同化使用不同的协方差参数化。这种新方法在观察协方差规范,同化精度和计算效率方面具有显着的优势。
translated by 谷歌翻译
以知情方式监测和管理地球林是解决生物多样性损失和气候变化等挑战的重要要求。虽然森林评估的传统或空中运动提供了在区域一级分析的准确数据,但将其扩展到整个国家,以外的高度分辨率几乎不可能。在这项工作中,我们提出了一种贝叶斯深度学习方法,以10米的分辨率为全国范围的森林结构变量,使用自由可用的卫星图像作为输入。我们的方法将Sentinel-2光学图像和Sentinel-1合成孔径雷达图像共同变换为五种不同的森林结构变量的地图:95th高度百分位,平均高度,密度,基尼系数和分数盖。我们从挪威的41个机载激光扫描任务中培训和测试我们的模型,并证明它能够概括取消测试区域,从而达到11%和15%之间的归一化平均值误差,具体取决于变量。我们的工作也是第一个提出贝叶斯深度学习方法的工作,以预测具有良好校准的不确定性估计的森林结构变量。这些提高了模型的可信度及其适用于需要可靠的信心估计的下游任务,例如知情决策。我们提出了一组广泛的实验,以验证预测地图的准确性以及预测的不确定性的质量。为了展示可扩展性,我们为五个森林结构变量提供挪威地图。
translated by 谷歌翻译
数据同化(DA)是科学和工程中许多预测模型的关键组成部分。 DA允许使用系统的不完善动力学模型以及系统可用的嘈杂/稀疏观测来估算更好的初始条件。集合Kalman滤波器(ENKF)是一种DA算法,该算法广泛用于涉及高维非线性动力学系统的应用中。但是,ENKF需要使用系统的动力学模型来进化的大型预测集合。这通常在计算上棘手,尤其是当系统的状态数量很大时,例如天气预测。在小合奏的情况下,ENKF算法中的估计背景误差协方差矩阵患有采样误差,导致分析状态的错误估计(下一个预测周期的初始条件)。在这项工作中,我们提出了混合集合卡尔曼滤波器(H-ENKF),该滤波器被应用于两层准地球体流动系统作为测试案例。该框架利用了预先训练的基于学习的数据驱动的替代物,该替代物可廉价地生成和进化系统状态的大型数据驱动的集合,以准确计算背景错误协方差矩阵,而采样误差较少。 H-ENKF框架估算了更好的初始条件,而无需任何临时本地化策略。 H-ENKF可以扩展到任何基于集合的DA算法,例如粒子过滤器,这些粒子过滤器目前难以用于高维系统。
translated by 谷歌翻译
映射近场污染物的浓度对于跟踪城市地区意外有毒羽状分散体至关重要。通过求解大部分湍流谱,大型模拟(LES)具有准确表示污染物浓度空间变异性的潜力。找到一种合成大量信息的方法,以提高低保真操作模型的准确性(例如,提供更好的湍流封闭条款)特别有吸引力。这是一个挑战,在多质量环境中,LES的部署成本高昂,以了解羽流和示踪剂分散如何随着各种大气和源参数的变化。为了克服这个问题,我们提出了一个合并正交分解(POD)和高斯过程回归(GPR)的非侵入性降低阶模型,以预测与示踪剂浓度相关的LES现场统计。通过最大的后验(MAP)过程,GPR HyperParameter是通过POD告知的最大后验(MAP)过程来优化组件的。我们在二维案例研究上提供了详细的分析,该案例研究对应于表面安装的障碍物上的湍流大气边界层流。我们表明,障碍物上游的近源浓度异质性需要大量的POD模式才能得到充分捕获。我们还表明,逐组分的优化允许捕获POD模式中的空间尺度范围,尤其是高阶模式中较短的浓度模式。如果学习数据库由至少五十至100个LES快照制成,则可以首先估算所需的预算,以朝着更逼真的大气分散应用程序迈进,因此减少订单模型的预测仍然可以接受。
translated by 谷歌翻译
罕见事件计算研究中的一个中心对象是委员会函数。尽管计算成本高昂,但委员会功能编码涉及罕见事件的过程的完整机械信息,包括反应率和过渡状态合奏。在过渡路径理论(TPT)的框架下,最近的工作[1]提出了一种算法,其中反馈回路融合了一个神经网络,该神经网络将委员会功能建模为重要性采样,主要是伞形采样,该摘要收集了自适应训练所需的数据。在这项工作中,我们显示需要进行其他修改以提高算法的准确性。第一个修改增加了监督学习的要素,这使神经网络通过拟合从短分子动力学轨迹获得的委员会值的样本均值估计来改善其预测。第二个修改用有限的温度字符串(FTS)方法代替了基于委员会的伞采样,该方法可以在过渡途径的区域中进行均匀抽样。我们测试了具有非凸电势能的低维系统的修改,可以通过分析或有限元方法找到参考解决方案,并显示如何将监督学习和FTS方法组合在一起,从而准确地计算了委员会功能和反应速率。我们还为使用FTS方法的算法提供了错误分析,使用少数样品在训练过程中可以准确估算反应速率。然后将这些方法应用于未知参考溶液的分子系统,其中仍然可以获得委员会功能和反应速率的准确计算。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
在整个宇宙学模拟中,初始条件中的物质密度场的性质对今天形成的结构的特征具有决定性的影响。在本文中,我们使用随机森林分类算法来推断暗物质颗粒是否追溯到初始条件,最终将在肿块上高于一些阈值的暗物质卤素。该问题可能被构成为二进制分类任务,其中物质密度字段的初始条件映射到由光环发现者程序提供的分类标签。我们的研究结果表明,随机森林是有效的工具,无法在不运行完整过程的情况下预测宇宙学模拟的输出。在将来可能使用这些技术来降低计算时间并更有效地探索不同暗物质/暗能候选对宇宙结构的形成的影响。
translated by 谷歌翻译
估计河床型材,也称为沐浴型,在许多应用中起着至关重要的作用,例如安全有效的内陆导航,对银行侵蚀,地面沉降和洪水风险管理的预测。直接沐浴术调查的高成本和复杂物流,即深度成像,鼓励使用间接测量,例如表面流速。然而,从间接测量估计高分辨率的沐浴族是可以计算地具有挑战性的逆问题。在这里,我们提出了一种基于阶的模型(ROM)的方法,其利用变形的自动化器(VAE),一系列深神经网络,中间具有窄层,以压缩沐浴族和流速信息并加速沐浴逆问题流速测量。在我们的应用中,浅水方程(SWE)具有适当的边界条件(BCS),例如排出和/或自由表面升高,构成前向问题,以预测流速。然后,通过变分编码器在低维度的非线性歧管上构造SWES的ROM。利用不确定性量化(UQ)的估计在贝叶斯环境中的低维潜空间上执行。我们已经在美国萨凡纳河的一英里接触到美国,测试了我们的反转方法。一旦培训了神经网络(离线阶段),所提出的技术就可以比通常基于线性投影的传统反转方法更快地执行幅度的反转操作级,例如主成分分析(PCA)或主要成分地质统计方法(PCGA)。此外,即使具有稀疏的流速测量,测试也可以估计算法估计良好的精度均匀的浴权。
translated by 谷歌翻译
在所需的环境保护系统中,可能不排除地下水。除了过度开发的问题外,与可持续发展的概念完全分歧外,另一个不容易忽略的问题涉及地下水的污染。主要是由于强化农业活动或工业化地区。在文献中,有几篇论文处理了运输问题,尤其是在确定发布历史记录或源位置的反问题上。本文的创新目的是开发一个数据驱动的模型,该模型能够分析多种情况,甚至强烈非线性,以解决前进和反向运输问题,从而保留结果的可靠性并降低不确定性。此外,该工具具有提供极快响应的特征,对于立即确定补救策略至关重要。将模型产生的优点与文献研究进行了比较。在这方面,经过训练以处理不同情况的馈电馈线人工神经网络代表数据驱动的模型。首先,在研究区域的特定观察点上确定污染物的浓度(正向问题);其次,要处理识别已知源位置的发布历史记录的反问题;然后,在一个污染物来源的情况下,确定了释放历史记录,同时识别源在研究区域的特定子域中的位置。最后,研究并估计了观察误差。结果令人满意地实现了结果,突出了ANN通过近似非线性函数来处理多种情况的能力,而无需物理观点来描述该现象,从而提供可靠的结果,并具有非常低的计算负担和不确定性。
translated by 谷歌翻译
捕获基于协变量的多变量响应载体之间的条件协方差或相关性对于包括神经科学,流行病学和生物医学在内的各个领域很重要。我们提出了一种新方法,称为随机森林(covregrf),以使用随机森林框架估算一个多变量响应的协方差矩阵。随机林木的建造具有专门设计的分裂规则,以最大化儿童节点的样本协方差矩阵估计值之间的差异。我们还提出了对协变量子集的部分效应的显着性检验。我们通过一项模拟研究评估了提出的方法和显着性测试的性能,该研究表明该方法提供了准确的协方差矩阵估计值,并且Type-1误差得到了很好的控制。我们还证明了该方法与甲状腺疾病数据集的应用。
translated by 谷歌翻译
美国宇航局的全球生态系统动力学调查(GEDI)是一个关键的气候使命,其目标是推进我们对森林在全球碳循环中的作用的理解。虽然GEDI是第一个基于空间的激光器,明确优化,以测量地上生物质的垂直森林结构预测,这对广泛的观测和环境条件的大量波形数据的准确解释是具有挑战性的。在这里,我们提出了一种新颖的监督机器学习方法来解释GEDI波形和全球标注冠层顶部高度。我们提出了一种基于深度卷积神经网络(CNN)集合的概率深度学习方法,以避免未知效果的显式建模,例如大气噪声。该模型学会提取概括地理区域的强大特征,此外,产生可靠的预测性不确定性估计。最终,我们模型产生的全球顶棚顶部高度估计估计的预期RMSE为2.7米,低偏差。
translated by 谷歌翻译
本文介绍了基于机器学习的集合条件均值滤波器(ML-ACMF) - 基于先前在文献中引入的条件均值滤波器(CMF)的过滤方法。 CMF的更新平均值匹配后部的平均值,通过在过滤器的预测分布上应用贝叶斯的规则获得。此外,我们表明CMF的更新协方差与预期的条件协方差相吻合。实施ENCMF需要计算条件平均值(CM)。基于可能性的估计器容易出现小合奏尺寸的重大错误,从而导致滤波器发散。我们开发了一种系统的方法论,可以根据CM的正交投影属性将机器学习整合到ENCMF中。首先,我们使用基于集合Kalman滤波器(ENKF)获得的人工神经网络(ANN)和线性函数的组合,以近似CM,使ML-ANCMF能够继承ENKF的优势。其次,我们在估计损失函数时应用合适的差异技术来减少统计误差。最后,我们提出了一个模型选择过程,用于在每个更新步骤中选择应用过滤器,即ENKF或ML-ACMF。我们使用Lorenz-63和Lorenz-96系统演示了ML-ACMF性能,并表明ML-ACMF优于ENKF和基于可能性的ENCMF。
translated by 谷歌翻译