数据驱动的设计显示了加速材料发现的希望,但由于搜索化学,结构和合成方法的庞大设计空间的高昂成本,这是具有挑战性的。贝叶斯优化(BO)采用不确定性的机器学习模型来选择有前途的设计来评估,从而降低成本。但是,在材料设计中特别感兴趣的具有混合数值和分类变量的BO尚未得到很好的研究。在这项工作中,我们调查了使用混合变量对机器学习的不确定性量化的常见主义者和贝叶斯方法。然后,我们使用来自每个组的流行代表模型,基于森林的LOLO模型(频繁主义者)和潜在的可变高斯过程模型(贝叶斯)进行了对BO中其表现的系统比较研究。我们研究了这两个模型在数学函数优化的功效以及结构和功能材料的特性,在其中我们观察到与问题维度和复杂性有关的性能差异。通过研究机器学习模型的预测性和不确定性估计功能,我们可以解释观察到的性能差异。我们的结果为在材料设计中的混合变量BO中选择频繁和贝叶斯不确定性的机器学习模型提供了实用的指导。
translated by 谷歌翻译
Bayesian optimization (BO) is increasingly employed in critical applications such as materials design and drug discovery. An increasingly popular strategy in BO is to forgo the sole reliance on high-fidelity data and instead use an ensemble of information sources which provide inexpensive low-fidelity data. The overall premise of this strategy is to reduce the overall sampling costs by querying inexpensive low-fidelity sources whose data are correlated with high-fidelity samples. Here, we propose a multi-fidelity cost-aware BO framework that dramatically outperforms the state-of-the-art technologies in terms of efficiency, consistency, and robustness. We demonstrate the advantages of our framework on analytic and engineering problems and argue that these benefits stem from our two main contributions: (1) we develop a novel acquisition function for multi-fidelity cost-aware BO that safeguards the convergence against the biases of low-fidelity data, and (2) we tailor a newly developed emulator for multi-fidelity BO which enables us to not only simultaneously learn from an ensemble of multi-fidelity datasets, but also identify the severely biased low-fidelity sources that should be excluded from BO.
translated by 谷歌翻译
Real engineering and scientific applications often involve one or more qualitative inputs. Standard Gaussian processes (GPs), however, cannot directly accommodate qualitative inputs. The recently introduced latent variable Gaussian process (LVGP) overcomes this issue by first mapping each qualitative factor to underlying latent variables (LVs), and then uses any standard GP covariance function over these LVs. The LVs are estimated similarly to the other GP hyperparameters through maximum likelihood estimation, and then plugged into the prediction expressions. However, this plug-in approach will not account for uncertainty in estimation of the LVs, which can be significant especially with limited training data. In this work, we develop a fully Bayesian approach for the LVGP model and for visualizing the effects of the qualitative inputs via their LVs. We also develop approximations for scaling up LVGPs and fully Bayesian inference for the LVGP hyperparameters. We conduct numerical studies comparing plug-in inference against fully Bayesian inference over a few engineering models and material design applications. In contrast to previous studies on standard GP modeling that have largely concluded that a fully Bayesian treatment offers limited improvements, our results show that for LVGP modeling it offers significant improvements in prediction accuracy and uncertainty quantification over the plug-in approach.
translated by 谷歌翻译
由于其数据效率,贝叶斯优化已经出现在昂贵的黑盒优化的最前沿。近年来,关于新贝叶斯优化算法及其应用的发展的研究激增。因此,本文试图对贝叶斯优化的最新进展进行全面和更新的调查,并确定有趣的开放问题。我们将贝叶斯优化的现有工作分为九个主要群体,并根据所提出的算法的动机和重点。对于每个类别,我们介绍了替代模型的构建和采集功能的适应的主要进步。最后,我们讨论了开放的问题,并提出了有希望的未来研究方向,尤其是在分布式和联合优化系统中的异质性,隐私保护和公平性方面。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
在工程和科学的许多领域中,优化多个混合变量,昂贵的黑盒问题的多个非首选目标很重要。这些问题的昂贵,嘈杂,黑盒的性质使它们成为贝叶斯优化(BO)的理想候选者。然而,由于BO的基础平稳的高斯工艺替代模型,混合变量和多目标问题是一个挑战。当前的多目标BO算法无法处理可混合变量的问题。我们提出了MixMobo,这是第一个用于此类问题的混合变量,多目标贝叶斯优化框架。使用MixMobo,可以有效地找到用于多目标,混合变量设计空间的最佳帕累托叶,同时确保多样化的解决方案。该方法足够灵活地结合了不同的内核和采集功能,包括其他作者为混合变量或多目标问题开发的函数。我们还提出了Hedgemo,这是一种修改后的对冲策略,该策略使用采集功能的投资组合来解决多目标问题。我们提出了新的采集功能,SMC。我们的结果表明,MixMobo在合成问题上针对其他可混合变量算法表现良好。我们将MixMobo应用于架构材料的现实世界设计,并表明我们的最佳设计是经过实验制造和验证的,其应变能密度$ 10^4 $ $ 10^4 $ $倍。
translated by 谷歌翻译
Bayesian Optimization(BO)是全球优化的黑匣子客观功能的方法,这是昂贵的评估。 Bo Powered实验设计在材料科学,化学,实验物理,药物开发等方面发现了广泛的应用。这项工作旨在提请注意应用BO在设计实验中的益处,并提供博手册,涵盖方法和软件,为了方便任何想要申请或学习博的人。特别是,我们简要解释了BO技术,审查BO中的所有应用程序在添加剂制造中,比较和举例说明不同开放BO库的功能,解锁BO的新潜在应用,以外的数据(例如,优先输出)。本文针对读者,了解贝叶斯方法的一些理解,但不一定符合添加剂制造的知识;软件性能概述和实施说明是任何实验设计从业者的乐器。此外,我们在添加剂制造领域的审查突出了博的目前的知识和技术趋势。本文在线拥有补充材料。
translated by 谷歌翻译
无监督和半监督的ML方法,例如变异自动编码器(VAE),由于其在分离的表述方面的能力以及找到具有复杂实验数据的潜在分类和回归的能力,因此在多个物理,化学和材料科学方面已广泛采用。 。像其他ML问题一样,VAE需要高参数调整,例如,平衡Kullback Leibler(KL)和重建项。但是,训练过程以及由此产生的歧管拓扑和连通性不仅取决于超参数,还取决于训练过程中的演变。由于在高维超参数空间中详尽搜索的效率低下,因此我们在这里探索了一种潜在的贝叶斯优化方法(ZBO)方法,用于用于无监督和半监测的ML的超参数轨迹优化,并证明了连接的ML,并证明VAE具有旋转不变。我们证明了这种方法的应用,用于寻找血浆纳米颗粒材料系统的MNIST和实验数据的联合离散和连续旋转不变表示。已广泛讨论了所提出的方法的性能,它允许对其他ML模型进行任何高维超参数调整或轨迹优化。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译
我们考虑基于活动的运输模拟器的校准和不确定性分析问题。基于活动的模型(ABM)依靠单个旅行者行为的统计模型来预测大都市地区的高阶旅行模式。输入参数通常是使用最大似然从旅行者调查中估算的。我们开发了一种使用高斯工艺模拟器使用流量流数据校准这些参数的方法。我们的方法扩展了传统的模拟器,以处理运输模拟器的高维和非平稳性。我们介绍了一个深度学习维度降低模型,该模型与高斯工艺模型共同估计以近似模拟器。我们使用几个模拟示例以及校准伊利诺伊州布卢明顿的关键参数来证明方法。
translated by 谷歌翻译
机器学习方法的最新进展以及扫描探针显微镜(SPMS)的可编程接口的新兴可用性使自动化和自动显微镜在科学界的关注方面推向了最前沿。但是,启用自动显微镜需要开发特定于任务的机器学习方法,了解物理发现与机器学习之间的相互作用以及完全定义的发现工作流程。反过来,这需要平衡领域科学家的身体直觉和先验知识与定义实验目标和机器学习算法的奖励,这些算法可以将它们转化为特定的实验协议。在这里,我们讨论了贝叶斯活跃学习的基本原理,并说明了其对SPM的应用。我们从高斯过程作为一种简单的数据驱动方法和对物理模型的贝叶斯推断作为基于物理功能的扩展的贝叶斯推断,再到更复杂的深内核学习方法,结构化的高斯过程和假设学习。这些框架允许使用先验数据,在光谱数据中编码的特定功能以及在实验过程中表现出的物理定律的探索。讨论的框架可以普遍应用于结合成像和光谱,SPM方法,纳米识别,电子显微镜和光谱法以及化学成像方法的所有技术,并且对破坏性或不可逆测量的影响特别影响。
translated by 谷歌翻译
自动化封路计优化(HPO)已经获得了很大的普及,并且是大多数自动化机器学习框架的重要成分。然而,设计HPO算法的过程仍然是一个不系统和手动的过程:确定了现有工作的限制,提出的改进是 - 即使是专家知识的指导 - 仍然是一定任意的。这很少允许对哪些算法分量的驾驶性能进行全面了解,并且承载忽略良好算法设计选择的风险。我们提出了一个原理的方法来实现应用于多倍性HPO(MF-HPO)的自动基准驱动算法设计的原则方法:首先,我们正式化包括的MF-HPO候选的丰富空间,但不限于普通的HPO算法,然后呈现可配置的框架覆盖此空间。要自动和系统地查找最佳候选者,我们遵循通过优化方法,并通过贝叶斯优化搜索算法候选的空间。我们挑战是否必须通过执行消融分析来挑战所发现的设计选择或可以通过更加天真和更简单的设计。我们观察到使用相对简单的配置,在某些方式中比建立的方法更简单,只要某些关键配置参数具有正确的值,就可以很好地执行得很好。
translated by 谷歌翻译
贝叶斯优化是一种顺序设计形式:使用适当灵活的非线性回归模型理想化输入 - 输出关系;符合初始实验活动的数据;设计并优化用于选择拟合模型(例如,通过预测方程)下的下一个实验条件的标准,以实现兴趣的结果(例如最小值);在这些条件下获取输出并更新拟合后重复。在许多情况下,这种在新数据采集标准上的“内部优化”是麻烦的,因为它是非凸/高度多模态,可能是非可分子的,或者可能可能挫败数值优化器,尤其是当推理需要蒙特卡罗时。在这种情况下,在随机候选中,用离散的一个离散的一个不常见的情况并不罕见。在这里,我们提出了基于现有输入设计的Delaunay三角测量的候选者。除了详细构建这些“Tricands”之外,基于传统凸船库围绕的简单包装,我们基于所涉及的几何标准的性质促进了几个优势。然后,我们证明了与数值优化的采集和基于随机候选的替代品相比,特异性如何导致Tricands如何导致更好的贝叶斯优化性能。
translated by 谷歌翻译
Perovskite Photovoltaics(PV)在过去十年方面取得了快速发展,方便小区实验室规模设备的电力转换效率;然而,成功的商业化仍然需要进一步发展低成本,可扩展和高通量的制造技术。开发新的制造技术的关键挑战之一是高维参数空间,并且可以使用机器学习(ML)来加速Perovskite PV缩放。在这里,我们介绍了一个ML引导框架,用于制造过程优化的顺序学习。我们在环境条件下将我们的方法应用于快速喷雾等离子体处理(RSPP)技术,用于钙钛矿薄膜。通过有限的筛选100条件工艺条件进行实验预算,我们证明了最佳设备的效率提高至18.5%,我们还通过实验发现了10个独特的条件,以生产超过17%效率的顶级设备,这是5比伪随机拉丁超立方体采样更高的成功率。我们的模型由三种创新启用:(a)通过将数据从现有的实验数据作为软限制将数据纳入实验过程之间的灵活知识转移; (b)在选择下一个实验时纳入主观人类观察和ML见解; (c)首先使用贝叶斯优化定位兴趣区域的自适应策略,然后对高效设备进行本地勘探。此外,在虚拟基准测试中,我们的框架在传统的实验方法(例如,一个可变的AT-AT-AT-A-A-Time采样)上,我们的框架更快地实现了有限的实验预算。
translated by 谷歌翻译
制造中的一个自主实验平台据说能够进行顺序搜索,以便自行为先进材料寻找合适的制造条件,甚至用于发现具有最小的人为干预的新材料。这种平台的智能控制的核心是政策指导顺序实验,即根据到目前为止所做的事情来决定在下次进行下一个实验的地方。此类政策不可避免地违反勘探,而目前的做法是利用预期改进标准或其变体的贝叶斯优化框架。我们讨论是否利用与直接观察相关的元素和惊喜程度来促进剥削与勘探有益。我们使用两个现有的惊喜指标设计了一个惊喜的反应政策,称为香农惊喜和贝叶斯惊喜。我们的分析表明,令人惊讶的反应政策似乎更适合于在资源限制下快速表征响应面或设计地点的整体景观。我们认为未来派自治实验平台需要这种能力。我们没有声称我们有一个完全自主的实验平台,但相信我们目前的努力揭示了新灯或提供了不同的视角,因为研究人员正在赛车提升各种原始自治实验系统的自主权。
translated by 谷歌翻译
多保真建模和校准是在工程设计中普遍出现的数据融合任务。在本文中,我们介绍了一种基于潜在地图高斯过程(LMGPS)的新方法,可实现高效准确的数据融合。在我们的方法中,我们将数据融合转换为潜在的空间学习问题,其中自动学习不同数据源之间的关系。这种转换赋予我们的方法具有有吸引力的优点,例如提高准确性,降低成本,灵活性,共同熔断任何数量的数据源,以及可视化数据源之间的相关性。该可视化允许用户通过拟合LMGP仅拟合到具有良好相关的数据源的子集的子集来检测模型形式误差或确定用于高保真仿真的最佳策略。我们还开发了一种新的内核功能,使LMGPS能够不仅构建概率的多保真代理,而且还具有高精度和一致性的估计参数。与现有技术相比,我们的方法的实施和使用易于更简单,更不容易出现数值问题。我们通过在广泛的示例中比较其对竞争方法的性能来证明基于LMGP的数据融合的好处。
translated by 谷歌翻译
贝叶斯优化提供了一种优化昂贵黑匣子功能的有效方法。它最近已应用于流体动力学问题。本文研究并在一系列合成测试函数上从经验上比较了常见的贝叶斯优化算法。它研究了采集函数和训练样本数量的选择,采集功能的精确计算以及基于蒙特卡洛的方法以及单点和多点优化。该测试功能被认为涵盖了各种各样的挑战,因此是理想的测试床,以了解贝叶斯优化的性能,并确定贝叶斯优化表现良好和差的一般情况。这些知识可以用于应用程序中,包括流体动力学的知识,这些知识是未知的。这项调查的结果表明,要做出的选择与相对简单的功能不相关,而乐观的采集功能(例如上限限制)应首选更复杂的目标函数。此外,蒙特卡洛方法的结果与分析采集函数的结果相当。在目标函数允许并行评估的情况下,多点方法提供了更快的替代方法,但它可能需要进行更多的客观函数评估。
translated by 谷歌翻译
Growing materials data and data-driven informatics drastically promote the discovery and design of materials. While there are significant advancements in data-driven models, the quality of data resources is less studied despite its huge impact on model performance. In this work, we focus on data bias arising from uneven coverage of materials families in existing knowledge. Observing different diversities among crystal systems in common materials databases, we propose an information entropy-based metric for measuring this bias. To mitigate the bias, we develop an entropy-targeted active learning (ET-AL) framework, which guides the acquisition of new data to improve the diversity of underrepresented crystal systems. We demonstrate the capability of ET-AL for bias mitigation and the resulting improvement in downstream machine learning models. This approach is broadly applicable to data-driven materials discovery, including autonomous data acquisition and dataset trimming to reduce bias, as well as data-driven informatics in other scientific domains.
translated by 谷歌翻译
寻找可调谐GPU内核的最佳参数配置是一种非普通的搜索空间练习,即使在自动化时也是如此。这在非凸搜索空间上造成了优化任务,使用昂贵的来评估具有未知衍生的函数。这些特征为贝叶斯优化做好了良好的候选人,以前尚未应用于这个问题。然而,贝叶斯优化对这个问题的应用是具有挑战性的。我们演示如何处理粗略的,离散的受限搜索空间,包含无效配置。我们介绍了一种新颖的上下文方差探索因子,以及具有改进的可扩展性的新采集功能,与知识的采集功能选择机制相结合。通过比较我们贝叶斯优化实现对各种测试用例的性能,以及核心调谐器中的现有搜索策略以及其他贝叶斯优化实现,我们证明我们的搜索策略概括了良好的良好,并始终如一地以广泛的保证金更优于其他搜索策略。
translated by 谷歌翻译
贝叶斯优化是黑匣子功能优化的流行框架。多重方法方法可以通过利用昂贵目标功能的低保真表示来加速贝叶斯优化。流行的多重贝叶斯策略依赖于采样政策,这些策略解释了在特定意见下评估目标函数的立即奖励,从而排除了更多的信息收益,这些收益可能会获得更多的步骤。本文提出了一个非侧重多倍数贝叶斯框架,以掌握优化的未来步骤的长期奖励。我们的计算策略具有两步的lookahead多因素采集函数,可最大程度地提高累积奖励,从而测量解决方案的改进,超过了前面的两个步骤。我们证明,所提出的算法在流行的基准优化问题上优于标准的多尺寸贝叶斯框架。
translated by 谷歌翻译