优化昂贵的查询功能是科学和工程中的常见任务,其中将查询数量保持在最低限度是有益的。流行的策略是贝叶斯优化(BO),其利用概率模型来完成该任务。今天大多数BO使用高斯过程(GP)或其他一些替代模型。但是,我们可能希望使用一组广泛的贝叶斯建模技术来捕获复杂系统并减少查询数量。概率程序(PP)是现代工具,允许灵活的模型组合,先验信息的结合和自动参考。在本文中,我们开发了ProBO,这是BO的框架,仅使用大多数PP共有的标准操作。这允许用户放入任意PP实现并直接在BO中使用它。为此,我们描述了可以在我们的框架中自动使用的流行采集功能的黑盒版本,没有特定于模型的推导,并展示了如何优化这些功能。我们还引入了一个模型,我们将其称为贝叶斯专家产品,它集成到ProBO中,可用于组合使用不同PP实现的多个模型的信息。我们展示了使用多个PP实现的经验结果,并与标准BO方法进行了比较。
translated by 谷歌翻译
我们研究了在低成本近似或保真度的情况下黑噪声优化噪声函数的问题,这是由超参数调整等问题引起的。在超参数调整中,评估一个点处的黑盒函数涉及在特定超参数的大数据集上训练学习算法并评估验证错误。即使单个这样的评估也可能非常昂贵。因此,使用低成本近似是有利的,例如训练学习算法是整个数据集的子采样版本。然而,这些低costapproximations /保真度可以提供功能值的偏差和噪声估计。在这项工作中,我们通过树状分层分区在强大的嘈杂黑盒优化框架中融入了多保真设置。我们针对该问题提出了一种基于多保真强盗的树形搜索算法,并为我们的算法提供了简单的后悔限制。最后,我们验证了算法在实数和合成数据集上的性能,其中它优于几个基准。
translated by 谷歌翻译
许多现实世界的应用可以被构造为多目标优化问题,我们希望同时针对多个标准进行优化。当所讨论的功能的评估是昂贵的时,用于多目标设置的贝叶斯优化技术是相关的。用于多目标优化的传统方法,无论是贝叶斯还是其他方式,都旨在恢复这些目标的帕累托前沿。然而,在某些情况下,由于外部考虑,从业者可能希望仅在帕累托前沿的特定区域中识别帕累托最优点。在这项工作中,我们提出了一种策略,该策略基于解决该问题的目标的随机标量化。虽然在计算上与其他方法相似或相似,但我们的方法足够灵活,可以从帕累托前沿或整个前端的特定子集中进行采样。我们还在多目标背景下引入了一种遗憾的新观念,表明我们的策略存在次线性遗憾。我们尝试了合成和现实问题,并展示了我们提出的算法的灵活性,可扩展性和遗憾的优越性能。
translated by 谷歌翻译
贝叶斯优化(BO)是指一种全局优化函数$ f $的方法,它只能通过点评估来访问。它通常用于评估$ f $的设置。 BO在机器学习中的常见情况是模型选择,其中不可能对统计模型的泛化性能进行分析建模,并且我们采用噪声和昂贵的训练和验证程序来选择最佳模型。传统的BO方法专注于欧几里德和类别域,在模型选择的上下文中,只允许调整机器学习算法的标量超参数。然而,随着对深度学习的兴趣激增,对校正网络\ emph {架构}的需求不断增加。在这项工作中,我们开发了NASBOT,一个基于高斯过程的BO框架,用于神经架构搜索。为了实现这一点,我们在神经网络体系结构的空间中开发了一个距离度量,可以通过最优的传输程序有效地计算。该距离可能对深度学习社区具有独立的兴趣,因为它可能在BO之外找到应用。我们证明NASBOT在多层感知器和卷积神经网络的几个基于交叉验证的模型选择任务中执行其他架构搜索的替代方案。
translated by 谷歌翻译
在许多科学和工程应用中,我们的任务是评估昂贵的黑盒功能$ f $。这个问题的传统设置只假设这个单一函数的可用性。但是,在许多情况下,可以获得$ f $的便宜近似值。例如,机器人的昂贵的现实世界行为可以通过acheap计算机模拟来近似。我们可以使用这些近似值来廉价地消除低功能值区域,并在尽可能小的区域中使用昂贵的$ f $评估并快速确定最佳值。我们将此任务形式化为\ emph {多保真}强盗问题,其中目标函数和近似值是从高斯过程中采样的。我们开发了基于上置信界限技术的MF-GP-UCB,anovel方法。在我们的理论分析中,我们证明它恰好表现出上述行为,并且比忽略多保真信息的策略更令人遗憾。实际上,MF-GP-UCB在几个合成和实际实验中优于这种天真策略和其他多保真方法。
translated by 谷歌翻译
Bayesian Optimisation (BO) is a technique used in optimising a$D$-dimensional function which is typically expensive to evaluate. While therehave been many successes for BO in low dimensions, scaling it to highdimensions has been notoriously difficult. Existing literature on the topic areunder very restrictive settings. In this paper, we identify two key challengesin this endeavour. We tackle these challenges by assuming an additive structurefor the function. This setting is substantially more expressive and contains aricher class of functions than previous work. We prove that, for additivefunctions the regret has only linear dependence on $D$ even though the functiondepends on all $D$ dimensions. We also demonstrate several other statisticaland computational benefits in our framework. Via synthetic examples, ascientific simulation and a face detection problem we demonstrate that ourmethod outperforms naive BO on additive functions and on several examples wherethe function is not additive.
translated by 谷歌翻译