贝叶斯优化(BO)是机器学习算法的封锁率优化(HPO)广泛流行的方法。在其核心,Bo迭代地评估有前途的配置,直到用户定义的预算(例如挂钟时间或迭代次数)耗尽。虽然在调整大量后的最终性能取决于提供的预算,但很难提前预先指定最佳价值。在这项工作中,我们为BO提出了一种有效而直观的终止标准,如果它足够接近全球Optima,则会自动停止程序。在广泛的实际HPO问题中,我们表明,与来自文献的现有基线相比,我们的终止标准实现了更好的测试性能,例如在改进概率下降到固定阈值以下时停止。我们还提供了证据表明,与我们的方法相比,这些基线对其自身的Quand参数的选择非常敏感。此外,我们发现在HPO的背景下可能会出现过度装备,这可以在文献中可以说是一个忽视的问题,并表明我们的终止标准减轻了小型和大型数据集的这种现象。
translated by 谷歌翻译
在开发和分析新的高参数优化方法时,在经过良好策划的基准套件上进行经验评估和比较至关重要。在这项工作中,我们提出了一套新的具有挑战性和相关的基准问题,这些问题是由此类基准测试的理想属性和要求所激发的。我们新的基于替代物的基准集合包含14个方案,这些方案总共构成了700多个多保体超参数优化问题,所有这些方案都可以实现多目标超参数优化。此外,我们从经验上将基于替代物的基准测试与更广泛的表格基准进行了比较,并证明后者可能会在HPO方法的性能排名中产生不忠实的结果。我们检查并比较了根据定义要求的基准收集,并提出了一个单目标和多目标基准套件,我们在基准实验中比较了7个单目标和7个多目标优化器。我们的软件可从[https://github.com/slds-lmu/yahpo_gym]获得。
translated by 谷歌翻译
超参数优化(HPO)和神经体系结构搜索(NAS)是获得一流的机器学习模型的选择,但实际上,它们的运行成本很高。当在大型数据集上培训模型时,即使采用了有效的多志愿方法,对从业者进行HPO或NAS的调整迅速昂贵。我们提出了一种方法,以应对在具有有限计算资源的大型数据集上培训的调整机器学习模型的挑战。我们的方法名为Pasha,能够根据需要动态分配最大资源为调整过程。实验比较表明,Pasha识别出良好的超参数配置和体系结构,同时消耗的计算资源明显少于ASHA等解决方案。
translated by 谷歌翻译
尽管加权套索回归具有吸引力的统计保障,但由于其复杂的搜索空间,通常避免了已有数千个Quand参与的。另一方面,具有用于黑盒功能的高维HPO方法的最新进展表明,高维应用确实可以有效地优化。尽管这一初步成功,但高维HPO方法通常应用于具有适度数量的合成问题,这些尺寸限制了其对科学和工程应用的影响。为了解决这一限制,我们提出了一个新的基准套件,这是一个在卢赛社区中的一个重要的开放研究主题量身定制的,这是加权套索回归。 Lassobench由受良好控制的合成设置(样本,SNR,环境和有效维度以及多维保真度)和现实世界数据集组成的基准,这使得能够利用许多HPO算法来改进和扩展到高维设置。我们评估了5种最先进的HPO方法和3个基线,并表明贝叶斯优化可以改善通常用于稀疏回归的方法,同时突出显示这些框架在非常高的框架中的限制。值得注意的是,贝叶斯优化分别将60,100,300和1000个尺寸问题的卢斯基线分别改善了45.7%,19.2%,19.7%和15.5%。
translated by 谷歌翻译
高赌注应用中产生的许多黑匣子优化任务需要风险厌恶的决策。但标准贝叶斯优化(BO)范式仅优化了预期值。我们概括了博的商业卑鄙和输入依赖性方差,我们认为我们认为是未知的先验。特别是,我们提出了一种新的风险厌恶异源贝类贝叶斯优化算法(Rahbo),其旨在识别具有高回报和低噪声方差的解决方案,同时在飞行时学习噪声分布。为此,我们将期望和方差模拟(未知)RKHS函数,并提出了一种新的风险感知获取功能。我们对我们的方法绑定了遗憾,并提供了一个强大的规则,以报告必须识别单个解决方案的应用程序的最终决策点。我们展示了Rahbo对合成基准函数和超参数调整任务的有效性。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
贝叶斯优化(BO)已成为许多昂贵现实世界功能的全球优化的流行策略。与普遍认为BO适合优化黑框功能的信念相反,它实际上需要有关这些功能特征的域知识才能成功部署BO。这样的领域知识通常表现在高斯流程先验中,这些先验指定了有关功能的初始信念。但是,即使有专家知识,选择先验也不是一件容易的事。对于复杂的机器学习模型上的超参数调谐问题尤其如此,在这种模型中,调整目标的景观通常很难理解。我们寻求一种设定这些功能性先验的替代实践。特别是,我们考虑了从类似功能的数据中,使我们可以先验地进行更紧密的分布。从理论上讲,我们与预先训练的先验表示对BO的遗憾。为了验证我们在现实的模型培训设置中的方法,我们通过训练在流行图像和文本数据集上的数以万计的近状态模型配置来收集了大型多任务超参数调谐数据集,以及蛋白质序列数据集。我们的结果表明,平均而言,我们的方法能够比最佳竞争方法更有效地定位良好的超参数。
translated by 谷歌翻译
神经建筑搜索(NAS)已被广泛研究,并已成长为具有重大影响的研究领域。虽然经典的单目标NAS搜索具有最佳性能的体系结构,但多目标NAS考虑了应同时优化的多个目标,例如,将沿验证错误最小化资源使用率。尽管在多目标NAS领域已经取得了长足的进步,但我们认为实际关注的实际优化问题与多目标NAS试图解决的优化问题之间存在一些差异。我们通过将多目标NAS问题作为质量多样性优化(QDO)问题来解决这一差异,并引入了三种质量多样性NAS优化器(其中两个属于多重速度优化器组),以寻求高度多样化但多样化的体系结构对于特定于应用程序特定的利基,例如硬件约束。通过将这些优化器与它们的多目标对应物进行比较,我们证明了质量多样性总体上优于多目标NA在解决方案和效率方面。我们进一步展示了应用程序和未来的NAS研究如何在QDO上蓬勃发展。
translated by 谷歌翻译
尽管自动超参数优化(HPO)的所有好处,但大多数现代的HPO算法本身都是黑盒子。这使得很难理解导致所选配置,减少对HPO的信任,从而阻碍其广泛采用的决策过程。在这里,我们研究了HPO与可解释的机器学习(IML)方法(例如部分依赖图)的组合。但是,如果将这种方法天真地应用于HPO过程的实验数据,则优化器的潜在采样偏差会扭曲解释。我们提出了一种修改的HPO方法,该方法有效地平衡了对全局最佳W.R.T.的搜索。预测性能以及通过耦合贝叶斯优化和贝叶斯算法执行的基础黑框函数的IML解释的可靠估计。在神经网络的合成目标和HPO的基准情况下,我们证明我们的方法返回对基础黑盒的更可靠的解释,而不会损失优化性能。
translated by 谷歌翻译
自动化的HyperParameter优化(HPO)可以支持从业者在机器学习模型中获得峰值性能。然而,通常缺乏有价值的见解,以对不同的超参数对最终模型性能的影响。这种缺乏可解释性使得难以信任并理解自动化的HPO过程及其结果。我们建议使用可解释的机器学习(IML)从HPO中获得的实验数据与贝叶斯优化(BO)一起获得见解。 BO倾向于专注于具有潜在高性能配置的有前途的区域,从而诱导采样偏差。因此,许多IML技术,例如部分依赖曲线(PDP),承载产生偏置解释的风险。通过利用BO代理模型的后部不确定性,我们引入了具有估计置信带的PDP的变种。我们建议分区Quand参数空间以获得相关子区域的更自信和可靠的PDP。在一个实验研究中,我们为子区域内PDP的质量提高提供了定量证据。
translated by 谷歌翻译
HyperParameter Optimization(HPO)是一种确保机器学习(ML)算法最佳性能的必要步骤。已经开发了几种方法来执行HPO;其中大部分都集中在优化一个性能措施(通常是基于错误的措施),并且在这种单一目标HPO问题上的文献是巨大的。然而,最近似乎似乎侧重于同时优化多个冲突目标的算法。本文提出了对2014年至2020年的文献的系统调查,在多目标HPO算法上发布,区分了基于成逐的算法,Metamodel的算法以及使用两者混合的方法。我们还讨论了用于比较多目标HPO程序和今后的研究方向的质量指标。
translated by 谷歌翻译
由于其样本效率,贝叶斯优化(BO)已成为处理昂贵的黑匣子优化问题的流行方法,如Quand参数优化(HPO)。最近的实证实验表明,HPO问题的损失景观往往比以前假设的良好良好,即,在最佳的单模和凸起的情况下,如果它可以专注于那些有前途的当地地区,BO框架可能会更有效。在本文中,我们提出了船舶,这是一种双阶段方法,它针对中型配置空间量身定制,因为许多HPO问题中的一个遇到。在第一阶段,我们建立一个可扩展的全球代理模型,随机森林来描述整体景观结构。此外,我们通过上级树结构上的自下而上的方法选择有希望的次区域。在第二阶段,利用该子区域中的本地模型来建议接下来进行评估。实证实验表明,鲍威能够利用典型的HPO问题的结构,并特别吻合来自合成功能和HPO的中型问题。
translated by 谷歌翻译
信息理论的贝叶斯优化技术因其非洋流品质而变得越来越流行,以优化昂贵的黑盒功能。熵搜索和预测性熵搜索都考虑了输入空间中最佳的熵,而最新的最大值熵搜索则考虑了输出空间中最佳值的熵。我们提出了联合熵搜索(JES),这是一种新的信息理论采集函数,它考虑了全新的数量,即输入和输出空间上关节最佳概率密度的熵。为了结合此信息,我们考虑从幻想的最佳输入/输出对条件下的熵减少。最终的方法主要依赖于标准的GP机械,并去除通常与信息理论方法相关的复杂近似值。凭借最少的计算开销,JES展示了卓越的决策,并在各种任务中提供了信息理论方法的最新性能。作为具有出色结果的轻重量方法,JES为贝叶斯优化提供了新的首选功能。
translated by 谷歌翻译
深度神经网络(DNNS)和数据集的增长不断上升,这激发了对同时选择和培训的有效解决方案的需求。许多迭代学习者的高参数优化方法(HPO)的许多方法,包括DNNS试图通过查询和学习响应表面来解决该问题的最佳表面来解决此问题。但是,这些方法中的许多方法都会产生近视疑问,不考虑有关响应结构的先验知识和/或执行偏见的成本感知搜索,当指定总成本预算时,所有这些都会加剧识别表现最好的模型。本文提出了一种新颖的方法,称为迭代学习者(BAPI),以在成本预算有限的情况下解决HPO问题。 BAPI是一种有效的非洋流贝叶斯优化解决方案,可以说明预算,并利用有关目标功能和成本功能的先验知识来选择更好的配置,并在评估期间(培训)做出更明智的决策。针对迭代学习者的不同HPO基准测试的实验表明,在大多数情况下,BAPI的性能比最先进的基线表现更好。
translated by 谷歌翻译
贝叶斯优化(BO)是一种广泛使用的顺序方法,用于对复杂和昂贵计算的黑盒功能进行零阶优化。现有的BO方法假设功能评估(反馈)可立即或固定延迟后可用。在许多现实生活中的问题(例如在线建议,临床试验和超参数调谐)中,此类假设可能不实用,在随机延迟后可以提供反馈。为了从这些问题中的实验并行化中受益,学习者需要开始新的功能评估,而无需等待延迟反馈。在本文中,我们认为BO在随机延迟反馈问题下。我们提出了带有子线性后悔的算法,可以确保有效解决选择新功能查询的困境,同时等待随机延迟的反馈。在我们的结果的基础上,我们还为批处理和上下文高斯工艺匪徒做出了新的贡献。合成和现实生活数据集的实验验证了我们的算法的性能。
translated by 谷歌翻译
采集函数是贝叶斯优化(BO)中的关键组成部分,通常可以写为在替代模型下对效用函数的期望。但是,为了确保采集功能是可以优化的,必须对替代模型和实用程序功能进行限制。为了将BO扩展到更广泛的模型和实用程序,我们提出了不含可能性的BO(LFBO),这是一种基于无似然推理的方法。 LFBO直接对采集函数进行建模,而无需单独使用概率替代模型进行推断。我们表明,可以将计算LFBO中的采集函数缩小为优化加权分类问题,而权重对应于所选择的实用程序。通过为预期改进选择实用程序功能,LFBO在几个现实世界优化问题上都优于各种最新的黑盒优化方法。 LFBO还可以有效利用目标函数的复合结构,从而进一步改善了其遗憾。
translated by 谷歌翻译
强化学习(RL)为可以在现实世界中自主互动的培训代理提供了潜力。但是,一个关键限制是RL算法对核心超参数和网络体系结构选择的脆弱性。此外,诸如不断发展的训练数据和增加的代理复杂性等非平稳性意味着不同的超参数和体系结构在不同的训练点上可能是最佳的。这激发了Autorl,这是一种试图自动化这些设计选择的方法。一类突出的Autorl方法是基于人群的培训(PBT),这在几个大型设置中导致了令人印象深刻的表现。在本文中,我们介绍了PBT式方法中的两项新创新。首先,我们采用基于信任区域的贝叶斯优化,从而可以全面覆盖高维混合参数搜索空间。其次,我们表明,使用世代相传,我们还可以在一次训练中共同学习体系结构和超参数。利用新的高度可行的Brax物理引擎,我们表明这些创新导致了巨大的性能增长,在即时学习整个配置的同时,大大优于调谐基线。代码可在https://github.com/xingchenwan/bgpbt上找到。
translated by 谷歌翻译
贝叶斯优化(BO)已成为黑框函数的顺序优化。当BO用于优化目标函数时,我们通常可以访问对潜在相关功能的先前评估。这就提出了一个问题,即我们是否可以通过元学习(meta-bo)来利用这些先前的经验来加速当前的BO任务,同时确保稳健性抵抗可能破坏BO融合的潜在有害的不同任务。本文介绍了两种可扩展且可证明的稳健元算法:稳健的元高斯过程 - 加工置信度结合(RM-GP-UCB)和RM-GP-thompson采样(RM-GP-TS)。我们证明,即使某些或所有以前的任务与当前的任务不同,这两种算法在渐近上都是无重组的,并且证明RM-GP-UCB比RM-GP-TS具有更好的理论鲁棒性。我们还利用理论保证,通过通过在线学习最大程度地减少遗憾,优化分配给各个任务的权重,从而减少了相似任务的影响,从而进一步增强了稳健性。经验评估表明,(a)RM-GP-UCB在各种应用程序中都有效,一致地性能,(b)RM-GP-TS,尽管在理论上和实践中都比RM-GP-ucb稳健,但在实践中,在竞争性中表现出色某些方案具有较小的任务,并且在计算上更有效。
translated by 谷歌翻译
Modern deep learning methods are very sensitive to many hyperparameters, and, due to the long training times of state-of-the-art models, vanilla Bayesian hyperparameter optimization is typically computationally infeasible. On the other hand, bandit-based configuration evaluation approaches based on random search lack guidance and do not converge to the best configurations as quickly. Here, we propose to combine the benefits of both Bayesian optimization and banditbased methods, in order to achieve the best of both worlds: strong anytime performance and fast convergence to optimal configurations. We propose a new practical state-of-the-art hyperparameter optimization method, which consistently outperforms both Bayesian optimization and Hyperband on a wide range of problem types, including high-dimensional toy functions, support vector machines, feed-forward neural networks, Bayesian neural networks, deep reinforcement learning, and convolutional neural networks. Our method is robust and versatile, while at the same time being conceptually simple and easy to implement.
translated by 谷歌翻译
贝叶斯优化(BO)算法在涉及昂贵的黑盒功能的应用中表现出了显着的成功。传统上,BO被设置为一个顺序决策过程,该过程通过采集函数和先前的功能(例如高斯过程)来估计查询点的实用性。然而,最近,通过密度比率估计(BORE)对BO进行重新制定允许将采集函数重新诠释为概率二进制分类器,从而消除了对函数的显式先验和提高可伸缩性的需求。在本文中,我们介绍了对孔的遗憾和算法扩展的理论分析,并提高了不确定性估计。我们还表明,通过将问题重新提交为近似贝叶斯推断,可以自然地扩展到批处理优化设置。所得算法配备了理论性能保证,并在一系列实验中对其他批处理基本线进行了评估。
translated by 谷歌翻译