石油场和地震成像的储层模拟被称为石油和天然气(O&G)行业中高性能计算(HPC)最苛刻的工作量。模拟器数值参数的优化起着至关重要的作用,因为它可以节省大量的计算工作。最先进的优化技术基于运行大量模拟,特定于该目的,以找到良好的参数候选者。但是,在时间和计算资源方面,使用这种方法的成本高昂。这项工作提出了金枪鱼,这是一种新方法,可增强使用性能模型的储层流仿真的最佳数值参数的搜索。在O&G行业中,通常使用不同工作流程中的模型合奏来减少与预测O&G生产相关的不确定性。我们利用此类工作流程中这些合奏的运行来从每个模拟中提取信息,并在其后续运行中优化数值参数。为了验证该方法,我们在历史匹配(HM)过程中实现了它,该过程使用Kalman滤波器算法来调整储层模型的集合以匹配实际字段中观察到的数据。我们从许多具有不同数值配置的模拟中挖掘了过去的执行日志,并根据数据提取的功能构建机器学习模型。这些功能包括储层模型本身的属性,例如活动单元的数量,即模拟行为的统计数据,例如线性求解器的迭代次数。采样技术用于查询甲骨文以找到可以减少经过的时间的数值参数,而不会显着影响结果的质量。我们的实验表明,预测可以平均将HM工作流程运行时提高31%。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
算法配置(AC)与对参数化算法最合适的参数配置的自动搜索有关。目前,文献中提出了各种各样的交流问题变体和方法。现有评论没有考虑到AC问题的所有衍生物,也没有提供完整的分类计划。为此,我们引入分类法以分别描述配置方法的交流问题和特征。我们回顾了分类法的镜头中现有的AC文献,概述相关的配置方法的设计选择,对比方法和问题变体相互对立,并描述行业中的AC状态。最后,我们的评论为研究人员和从业人员提供了AC领域的未来研究方向。
translated by 谷歌翻译
这项研究的目的是评估历史匹配的潜力(HM),以调整具有多尺度动力学的气候系统。通过考虑玩具气候模型,即两尺度的Lorenz96模型并在完美模型设置中生产实验,我们详细探讨了如何需要仔细测试几种内置选择。我们还展示了在参数范围内引入物理专业知识的重要性,这是运行HM的先验性。最后,我们重新审视气候模型调整中的经典过程,该程序包括分别调整慢速和快速组件。通过在Lorenz96模型中这样做,我们说明了合理参数的非唯一性,并突出了从耦合中出现的指标的特异性。本文也有助于弥合不确定性量化,机器学习和气候建模的社区,这是通过在每个社区使用的术语之间建立相同概念的术语并提出有希望的合作途径,从而使气候建模研究受益。
translated by 谷歌翻译
Algorithms that involve both forecasting and optimization are at the core of solutions to many difficult real-world problems, such as in supply chains (inventory optimization), traffic, and in the transition towards carbon-free energy generation in battery/load/production scheduling in sustainable energy systems. Typically, in these scenarios we want to solve an optimization problem that depends on unknown future values, which therefore need to be forecast. As both forecasting and optimization are difficult problems in their own right, relatively few research has been done in this area. This paper presents the findings of the ``IEEE-CIS Technical Challenge on Predict+Optimize for Renewable Energy Scheduling," held in 2021. We present a comparison and evaluation of the seven highest-ranked solutions in the competition, to provide researchers with a benchmark problem and to establish the state of the art for this benchmark, with the aim to foster and facilitate research in this area. The competition used data from the Monash Microgrid, as well as weather data and energy market data. It then focused on two main challenges: forecasting renewable energy production and demand, and obtaining an optimal schedule for the activities (lectures) and on-site batteries that lead to the lowest cost of energy. The most accurate forecasts were obtained by gradient-boosted tree and random forest models, and optimization was mostly performed using mixed integer linear and quadratic programming. The winning method predicted different scenarios and optimized over all scenarios jointly using a sample average approximation method.
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
比较不同的汽车框架是具有挑战性的,并且经常做错了。我们引入了一个开放且可扩展的基准测试,该基准遵循最佳实践,并在比较自动框架时避免常见错误。我们对71个分类和33项回归任务进行了9个著名的自动框架进行了详尽的比较。通过多面分析,评估模型的准确性,与推理时间的权衡以及框架失败,探索了自动框架之间的差异。我们还使用Bradley-terry树来发现相对自动框架排名不同的任务子集。基准配备了一个开源工具,该工具与许多自动框架集成并自动化经验评估过程端到端:从框架安装和资源分配到深入评估。基准测试使用公共数据集,可以轻松地使用其他Automl框架和任务扩展,并且具有最新结果的网站。
translated by 谷歌翻译
端到端的Automl吸引了学术界和行业的密集兴趣,它们在功能工程,算法/模型选择和超参数调整引起的空间中自动搜索ML管道。但是,现有的Automl系统在适用于具有较大高维搜索空间的应用程序域时会遇到可伸缩性问题。我们提出了火山洛(Volcanoml),这是一个可扩展且可扩展的框架,可促进对大型汽车搜索空间的系统探索。 Volcanoml引入并实施了将大型搜索空间分解为较小的基本构建块,并允许用户利用这些构建块来制定手头上的汽车问题的执行计划。 Volcanoml进一步支持火山风格的执行模型(类似于现代数据库系统支持的模型)来执行构建的计划。我们的评估表明,不仅火山团提高了汽车中搜索空间分解的表达水平,还导致了分解策略的实际发现,这些发现比先进的自动符号系统所采用的策略更有效率地更加有效。作为自动滑雪。
translated by 谷歌翻译
自动化封路计优化(HPO)已经获得了很大的普及,并且是大多数自动化机器学习框架的重要成分。然而,设计HPO算法的过程仍然是一个不系统和手动的过程:确定了现有工作的限制,提出的改进是 - 即使是专家知识的指导 - 仍然是一定任意的。这很少允许对哪些算法分量的驾驶性能进行全面了解,并且承载忽略良好算法设计选择的风险。我们提出了一个原理的方法来实现应用于多倍性HPO(MF-HPO)的自动基准驱动算法设计的原则方法:首先,我们正式化包括的MF-HPO候选的丰富空间,但不限于普通的HPO算法,然后呈现可配置的框架覆盖此空间。要自动和系统地查找最佳候选者,我们遵循通过优化方法,并通过贝叶斯优化搜索算法候选的空间。我们挑战是否必须通过执行消融分析来挑战所发现的设计选择或可以通过更加天真和更简单的设计。我们观察到使用相对简单的配置,在某些方式中比建立的方法更简单,只要某些关键配置参数具有正确的值,就可以很好地执行得很好。
translated by 谷歌翻译
自动化机器学习(Automl)努力自动配置机器学习算法及其组合的整体(软件)解决方案 - 机器学习管道 - 针对手头的学习任务(数据集)量身定制。在过去十年中,Automl已成为具有数百个贡献的热门研究课题。虽然Automl提供了许多前景,但也称它也是相当资源密集的,这是其主要批评的主要观点之一。高资源消耗的主要原因是许多方法依赖于许多ML管道的(昂贵)评估,同时寻找良好的候选者。由于使用许多数据集和方法进行了大规模实验,因此在Automl方法研究的背景下放大了这个问题,每个数据都是用几种重复来排除随机效应的几个重复的实验。本文阐述了最近的绿色AI的精神,是为了提高对问题的自动化研究人员的意识,并详细阐述可能的补救措施。为此,我们确定了四类行动,社区可能采取更加可持续的自动化计划,即接近设计,基准,研究激励和透明度。
translated by 谷歌翻译
Data Centers are huge power consumers, both because of the energy required for computation and the cooling needed to keep servers below thermal redlining. The most common technique to minimize cooling costs is increasing data room temperature. However, to avoid reliability issues, and to enhance energy efficiency, there is a need to predict the temperature attained by servers under variable cooling setups. Due to the complex thermal dynamics of data rooms, accurate runtime data center temperature prediction has remained as an important challenge. By using Gramatical Evolution techniques, this paper presents a methodology for the generation of temperature models for data centers and the runtime prediction of CPU and inlet temperature under variable cooling setups. As opposed to time costly Computational Fluid Dynamics techniques, our models do not need specific knowledge about the problem, can be used in arbitrary data centers, re-trained if conditions change and have negligible overhead during runtime prediction. Our models have been trained and tested by using traces from real Data Center scenarios. Our results show how we can fully predict the temperature of the servers in a data rooms, with prediction errors below 2 C and 0.5 C in CPU and server inlet temperature respectively.
translated by 谷歌翻译
我们查看模型可解释性的特定方面:模型通常需要限制在大小上才能被认为是可解释的,例如,深度5的决策树比深度50中的一个更容易解释。但是,较小的模型也倾向于高偏见。这表明可解释性和准确性之间的权衡。我们提出了一种模型不可知论技术,以最大程度地减少这种权衡。我们的策略是首先学习甲骨文,这是培训数据上高度准确的概率模型。 Oracle预测的不确定性用于学习培训数据的抽样分布。然后,对使用此分布获得的数据样本进行了可解释的模型,通常会导致精确度明显更高。我们将抽样策略作为优化问题。我们的解决方案1具有以下关键的有利属性:(1)它使用固定数量的七个优化变量,而与数据的维度(2)无关,它是模型不可知的 - 因为可解释的模型和甲骨文都可能属于任意性模型家族(3)它具有模型大小的灵活概念,并且可以容纳向量大小(4)它是一个框架,使其能够从优化领域的进度中受益。我们还提出了以下有趣的观察结果:(a)通常,小型模型大小的最佳训练分布与测试分布不同; (b)即使可解释的模型和甲骨文来自高度截然不同的模型家族,也存在这种效果:我们通过使用封闭的复发单位网络作为甲骨文来提高决策树的序列分类精度,从而在文本分类任务上显示此效果。使用字符n-grams; (c)对于模型,我们的技术可用于确定给定样本量的最佳训练样本。
translated by 谷歌翻译
在地质不确定性下,快速同化监测数据以更新压力累积和压力累积和二氧化碳(CO2)羽流迁移的预测是地质碳储存中的一个具有挑战性的问题。具有高维参数空间的数据同化的高计算成本阻碍了商业规模库管理的快速决策。我们建议利用具有深度学习技术的多孔介质流动行为的物理理解,以开发快速历史匹配 - 水库响应预测工作流程。应用集合更顺畅的多数据同化框架,工作流程更新地质特性,并通过通过地震反转解释的压力历史和二氧化碳羽毛的量化不确定性来预测水库性能。由于这种工作流程中最具计算昂贵的组件是储层模拟,我们开发了代理模型,以在多孔注射下预测动态压力和CO2羽流量。代理模型采用深度卷积神经网络,具体地,宽的剩余网络和残留的U-Net。该工作流程针对代表碎屑货架沉积环境的扁平三维储层模型验证。智能处理应用于真正的3D储层模型中数量与单层储层模型之间的桥梁。工作流程可以在主流个人工作站上不到一小时内完成历史匹配和储库预测,在不到一小时内。
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译
能源部门的深度脱碳将需要大量的随机可再生能源渗透和大量的网格资产协调。对于面对这种变化而负责维持电网稳定性和安全性的电力系统运营商来说,这是一个具有挑战性的范式。凭借从复杂数据集中学习并提供有关快速时间尺度的预测解决方案的能力,机器学习(ML)得到了很好的选择,可以帮助克服这些挑战,因为在未来几十年中,电力系统转变。在这项工作中,我们概述了与构建可信赖的ML模型相关的五个关键挑战(数据集生成,数据预处理,模型培训,模型评估和模型嵌入),这些模型从基于物理的仿真数据中学习。然后,我们演示如何将单个模块连接在一起,每个模块都克服了各自的挑战,在机器学习管道中的顺序阶段,如何有助于提高训练过程的整体性能。特别是,我们实施了通过反馈连接学习管道的不同元素的方法,从而在模型培训,绩效评估和重新训练之间“关闭循环”。我们通过学习与拟议的北海风能中心系统的详细模型相关的N-1小信号稳定性边缘来证明该框架,其组成模块的有效性及其反馈连接。
translated by 谷歌翻译
我们介绍了数据科学预测生命周期中各个阶段开发和采用自动化的技术和文化挑战的说明概述,从而将重点限制为使用结构化数据集的监督学习。此外,我们回顾了流行的开源Python工具,这些工具实施了针对自动化挑战的通用解决方案模式,并突出了我们认为进步仍然需要的差距。
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
本文调查了股票回购,特别是分享回购公告。它解决了如何识别此类公告,股票回购的超额回报以及股票回购公告后的回报的预测。我们说明了两种NLP方法,用于自动检测股票回购公告。即使有少量的培训数据,我们也可以达到高达90%的准确性。该论文利用这些NLP方法生成一个由57,155个股票回购公告组成的大数据集。通过分析该数据集,本论文的目的是表明大多数宣布回购的公司的大多数公司都表现不佳。但是,少数公司的表现极大地超过了MSCI世界。当查看所有公司的平均值时,这种重要的表现过高会导致净收益。如果根据公司的规模调整了基准指数,则平均表现过高,并且大多数表现不佳。但是,发现宣布股票回购的公司至少占其市值的1%,即使使用调整后的基准,也平均交付了显着的表现。还发现,在危机时期宣布股票回购的公司比整个市场更好。此外,生成的数据集用于训练72个机器学习模型。通过此,它能够找到许多可以达到高达77%并产生大量超额回报的策略。可以在六个不同的时间范围内改善各种性能指标,并确定明显的表现。这是通过训练多个模型的不同任务和时间范围以及结合这些不同模型的方法来实现的,从而通过融合弱学习者来产生重大改进,以创造一个强大的学习者。
translated by 谷歌翻译