We consider optimizing a function network in the noise-free grey-box setting with RKHS function classes, where the exact intermediate results are observable. We assume that the structure of the network is known (but not the underlying functions comprising it), and we study three types of structures: (1) chain: a cascade of scalar-valued functions, (2) multi-output chain: a cascade of vector-valued functions, and (3) feed-forward network: a fully connected feed-forward network of scalar-valued functions. We propose a sequential upper confidence bound based algorithm GPN-UCB along with a general theoretical upper bound on the cumulative regret. For the Mat\'ern kernel, we additionally propose a non-adaptive sampling based method along with its theoretical upper bound on the simple regret. We also provide algorithm-independent lower bounds on the simple regret and cumulative regret, showing that GPN-UCB is near-optimal for chains and multi-output chains in broad cases of interest.
translated by 谷歌翻译
基于内核的模型,例如内核脊回归和高斯工艺在机器学习应用程序中无处不在,用于回归和优化。众所周知,基于内核的模型的主要缺点是高计算成本。给定$ n $样本的数据集,成本增长为$ \ Mathcal {o}(n^3)$。在某些情况下,现有的稀疏近似方法可以大大降低计算成本,从而有效地将实际成本降低到$ \ natercal {o}(n)$。尽管取得了显着的经验成功,但由于近似值而导致的误差的分析范围的现有结果仍然存在显着差距。在这项工作中,我们为NyStr \“ Om方法和稀疏变分高斯过程近似方法提供新颖的置信区间,我们使用模型的近似(代理)后差解释来建立这些方法。我们的置信区间可改善性能。回归和优化问题的界限。
translated by 谷歌翻译
我们考虑基于嘈杂的强盗反馈优化黑盒功能的问题。内核强盗算法为此问题显示了强大的实证和理论表现。然而,它们严重依赖于模型所指定的模型,并且没有它可能会失败。相反,我们介绍了一个\ emph {isspecified}内塞的强盗设置,其中未知函数可以是$ \ epsilon $ - 在一些再现内核希尔伯特空间(RKHS)中具有界限范数的函数均匀近似。我们设计高效实用的算法,其性能在模型误操作的存在下最微小地降低。具体而言,我们提出了一种基于高斯过程(GP)方法的两种算法:一种乐观的EC-GP-UCB算法,需要了解误操作误差,并相断的GP不确定性采样,消除型算法,可以适应未知模型拼盘。我们在$ \ epsilon $,时间范围和底层内核方面提供累积遗憾的上限,我们表明我们的算法达到了$ \ epsilon $的最佳依赖性,而没有明确的误解知识。此外,在一个随机的上下文设置中,我们表明EC-GP-UCB可以有效地与遗憾的平衡策略有效地结合,尽管不知道$ \ epsilon $尽管不知道,但仍然可以获得类似的遗憾范围。
translated by 谷歌翻译
有效的全球优化是一种广泛使用的方法,用于优化昂贵的黑盒功能,例如调谐参数,设计新材料等。尽管它很受欢迎,但鉴于其广泛使用,较少的关注来分析问题的固有硬度,重要的是要了解有效的全球优化算法的基本限制。在本文中,我们研究了有效的全球优化问题的最严重的复杂性,并且与现有的内核特异性结果相反,我们得出了一个统一的下限,以根据球的度量熵的指标,以实现有效的全局优化的复杂性在相应的繁殖内核希尔伯特空间〜(RKHS)中。具体而言,我们表明,如果存在确定性算法,该算法在$ t $函数评估中实现了任何函数$ f \ in s $ in s $ f \ in $ t $函数评估的次优差距,则有必要至少是$ \ omemega \ left(\ frac {\ log \ mathcal {n}(s(s(\ Mathcal {x})),4 \ epsilon,\ | \ | \ cdot \ cdot \ | _ \ iftty)} {\ log(\ frac {\ frac {r} {r} {\ epsilon {\ epsilon })}} \ right)$,其中$ \ mathcal {n}(\ cdot,\ cdot,\ cdot)$是覆盖号码,$ s $是$ 0 $ $ 0 $,RKHS中的RADIUS $ r $,并且$ s(\ mathcal {x})$是可行套装$ \ mathcal {x} $的$ s $的限制。此外,我们表明,这种下限几乎与常用平方指数核的非自适应搜索算法和具有较大平滑度参数$ \ nu $的垫子\'ern内核所获得的上限匹配,最多可替换为$ $ $ d/2 $ by $ d $和对数项$ \ log \ frac {r} {\ epsilon} $。也就是说,我们的下限对于这些内核几乎是最佳的。
translated by 谷歌翻译
Many applications require optimizing an unknown, noisy function that is expensive to evaluate. We formalize this task as a multiarmed bandit problem, where the payoff function is either sampled from a Gaussian process (GP) or has low RKHS norm. We resolve the important open problem of deriving regret bounds for this setting, which imply novel convergence rates for GP optimization. We analyze GP-UCB, an intuitive upper-confidence based algorithm, and bound its cumulative regret in terms of maximal information gain, establishing a novel connection between GP optimization and experimental design. Moreover, by bounding the latter in terms of operator spectra, we obtain explicit sublinear regret bounds for many commonly used covariance functions. In some important cases, our bounds have surprisingly weak dependence on the dimensionality. In our experiments on real sensor data, GP-UCB compares favorably with other heuristical GP optimization approaches.
translated by 谷歌翻译
科学和工程中的复杂过程通常被制定为多阶段决策问题。在本文中,我们考虑了一种称为级联过程的多级决策过程。级联过程是一个多级过程,其中一个级的输出用作下一阶段的输入。当每个阶段的成本昂贵时,难以详尽地搜索每个阶段的最佳可控参数。为了解决这个问题,我们将级联过程的优化作为贝叶斯优化框架的延伸,提出了两种类型的采集功能(AFS),基于可靠的间隔和预期的改进。我们调查所提出的AFS的理论特性,并通过数值实验证明其有效性。此外,我们考虑一个被称为悬架设置的延伸,其中我们被允许在多阶段决策过程中暂停级联过程,这些过程经常出现在实际问题中。我们在太阳能电池模拟器的优化问题中应用提出的方法,这是本研究的动机。
translated by 谷歌翻译
我们考虑使用个性化的联合学习,除了全球目标外,每个客户还对最大化个性化的本地目标感兴趣。我们认为,在一般连续的动作空间设置下,目标函数属于繁殖的内核希尔伯特空间。我们提出了基于替代高斯工艺(GP)模型的算法,该算法达到了最佳的遗憾顺序(要归结为各种因素)。此外,我们表明,GP模型的稀疏近似显着降低了客户之间的沟通成本。
translated by 谷歌翻译
基于内核的强盗是一个广泛研究的黑盒优化问题,其中假定目标函数生活在已知的繁殖核Hilbert空间中。尽管在嘈杂的环境中建立了几乎最佳的遗憾界限(达到对数因素),但令人惊讶的是,对于无噪声设置(如果可以在没有观察噪声的情况下可以访问基础函数的确切值)时,却少了。我们遗憾地讨论了几个上限。这些似乎都没有最佳秩序,并在最佳遗憾界的顺序上提供了猜想。
translated by 谷歌翻译
级别设置估计问题旨在查找域$ {\ cal x} $的所有点,其中一个未知函数$ f:{\ cal x} \ lightarrow \ mathbb {r} $超过阈值$ \ alpha $ 。估计基于可以在$ {\ cal x} $中顺序和自适应地选择的位置获取的嘈杂函数评估。阈值$ \ alpha $可以是\弹性{显式},并提供先验,或\ \ ich {隐式},相对于最佳函数值定义,即$ \ alpha =(1- \ epsilon)f(x_ \ AST)$关于给定$ \ epsilon> 0 $ why $ f(x_ \ ist)$是最大函数值,并且未知。在这项工作中,我们通过将其与最近的自适应实验设计方法相关联,为近期自适应实验设计方法提供了一种新的再现内核盗窃空间(RKHS)设置。我们假设可以通过RKHS中的函数近似于未知的拼写,并为此设置中隐含和显式案件提供新的算法,具有很强的理论保证。此外,在线性(内核)设置中,我们表明我们的界限几乎是最佳的,即,我们的上限与阈值线性匪徒的现有下限匹配。据我们所知,这项工作提供了第一个实例依赖性非渐近的上限,就匹配信息理论下限的水平设定估计的样本复杂性。
translated by 谷歌翻译
高赌注应用中产生的许多黑匣子优化任务需要风险厌恶的决策。但标准贝叶斯优化(BO)范式仅优化了预期值。我们概括了博的商业卑鄙和输入依赖性方差,我们认为我们认为是未知的先验。特别是,我们提出了一种新的风险厌恶异源贝类贝叶斯优化算法(Rahbo),其旨在识别具有高回报和低噪声方差的解决方案,同时在飞行时学习噪声分布。为此,我们将期望和方差模拟(未知)RKHS函数,并提出了一种新的风险感知获取功能。我们对我们的方法绑定了遗憾,并提供了一个强大的规则,以报告必须识别单个解决方案的应用程序的最终决策点。我们展示了Rahbo对合成基准函数和超参数调整任务的有效性。
translated by 谷歌翻译
Authors are encouraged to submit new papers to INFORMS journals by means of a style file template, which includes the journal title. However, use of a template does not certify that the paper has been accepted for publication in the named journal. INFORMS journal templates are for the exclusive purpose of submitting to an INFORMS journal and should not be used to distribute the papers in print or online or to submit the papers to another publication.
translated by 谷歌翻译
汤普森采样(TS)是在不确定性下进行决策的有效方法,其中从精心规定的分布中采样了动作,该分布根据观察到的数据进行更新。在这项工作中,我们研究了使用TS的可稳定线性季度调节剂(LQR)自适应控制的问题,其中系统动力学是未知的。先前的作品已经确定,$ \ tilde o(\ sqrt {t})$频繁的遗憾对于LQR的自适应控制是最佳的。但是,现有方法要么仅在限制性设置中起作用,需要先验已知的稳定控制器,要么使用计算上棘手的方法。我们提出了一种有效的TS算法,用于对LQR的自适应控制,TS基于TS的自适应控制,TSAC,该算法达到了$ \ tilde o(\ sqrt {t})$遗憾,即使对于多维系统和Lazaric(2018)。 TSAC不需要先验已知的稳定控制器,并通过在早期阶段有效探索环境来实现基础系统的快速稳定。我们的结果取决于开发新颖的下限TS提供乐观样本的概率。通过仔细规定早期的探索策略和政策更新规则,我们表明TS在适应性控制多维可稳定性LQR方面实现了最佳的遗憾。我们从经验上证明了TSAC在几个自适应控制任务中的性能和效率。
translated by 谷歌翻译
本文在动态定价的背景下调查预先存在的离线数据对在线学习的影响。我们在$ t $期间的销售地平线上研究单一产品动态定价问题。每个时段的需求由产品价格根据具有未知参数的线性需求模型确定。我们假设在销售地平线开始之前,卖方已经有一些预先存在的离线数据。离线数据集包含$ N $示例,其中每个标准是由历史价格和相关的需求观察组成的输入输出对。卖方希望利用预先存在的离线数据和顺序在线数据来最大限度地减少在线学习过程的遗憾。我们的特征在于在线学习过程的最佳遗憾的脱机数据的大小,位置和分散的联合效果。具体而言,离线数据的大小,位置和色散由历史样本数量为$ n $,平均历史价格与最佳价格$ \ delta $之间的距离以及历史价格的标准差价Sigma $分别。我们表明最佳遗憾是$ \ widetilde \ theta \ left(\ sqrt {t} \ wedge \ frac {t} {(n \ wedge t)\ delta ^ 2 + n \ sigma ^ 2} \右)$,基于“面对不确定性”原则的“乐观主义”的学习算法,其遗憾是最佳的对数因子。我们的结果揭示了对脱机数据的大小的最佳遗憾率的惊人变换,我们称之为阶段转型。此外,我们的结果表明,离线数据的位置和分散也对最佳遗憾具有内在效果,我们通过逆平面法量化了这种效果。
translated by 谷歌翻译
在预测功能(假设)中获得可靠的自适应置信度集是顺序决策任务的核心挑战,例如土匪和基于模型的强化学习。这些置信度集合通常依赖于对假设空间的先前假设,例如,繁殖核Hilbert Space(RKHS)的已知核。手动设计此类内核是容易发生的,错误指定可能导致性能差或不安全。在这项工作中,我们建议从离线数据(meta-kel)中进行元学习核。对于未知核是已知碱基核的组合的情况,我们基于结构化的稀疏性开发估计量。在温和的条件下,我们保证我们的估计RKHS会产生有效的置信度集,随着越来越多的离线数据的量,它变得与鉴于真正未知内核的置信度一样紧。我们展示了我们关于内核化强盗问题(又称贝叶斯优化)的方法,我们在其中建立了遗憾的界限,与鉴于真正的内核的人竞争。我们还经验评估方法对贝叶斯优化任务的有效性。
translated by 谷歌翻译
Safety is one of the biggest concerns to applying reinforcement learning (RL) to the physical world. In its core part, it is challenging to ensure RL agents persistently satisfy a hard state constraint without white-box or black-box dynamics models. This paper presents an integrated model learning and safe control framework to safeguard any agent, where its dynamics are learned as Gaussian processes. The proposed theory provides (i) a novel method to construct an offline dataset for model learning that best achieves safety requirements; (ii) a parameterization rule for safety index to ensure the existence of safe control; (iii) a safety guarantee in terms of probabilistic forward invariance when the model is learned using the aforementioned dataset. Simulation results show that our framework guarantees almost zero safety violation on various continuous control tasks.
translated by 谷歌翻译
高斯流程已成为各种安全至关重要环境的有前途的工具,因为后方差可用于直接估计模型误差并量化风险。但是,针对安全 - 关键环境的最新技术取决于核超参数是已知的,这通常不适用。为了减轻这种情况,我们在具有未知的超参数的设置中引入了强大的高斯过程统一误差界。我们的方法计算超参数空间中的一个置信区域,这使我们能够获得具有任意超参数的高斯过程模型误差的概率上限。我们不需要对超参数的任何界限,这是相关工作中常见的假设。相反,我们能够以直观的方式从数据中得出界限。我们还采用了建议的技术来为一类基于学习的控制问题提供绩效保证。实验表明,界限的性能明显优于香草和完全贝叶斯高斯工艺。
translated by 谷歌翻译
我们考虑在可实现的环境中进行交互式学习,并开发一般框架,以处理从最佳ARM识别到主动分类的问题。我们开始调查,即观察到可怕算法\ emph {无法实现可实现的设置中最佳最佳状态。因此,我们设计了新的计算有效的算法,可实现最可实现的设置,该算法与对数因子的最小限制相匹配,并且是通用的,适用于包括内核方法的各种功能类,H {\“O}偏置函数,以及凸起功能。我们的算法的样本复杂性可以在众所周知的数量中量化,如延长的教学尺寸和干草堆维度。然而,与直接基于这些组合量的算法不同,我们的算法是计算效率的。实现计算效率,我们的算法使用Monte Carlo“命令运行”算法来从版本空间中的样本,而不是明确地维护版本空间。我们的方法有两个关键优势。首先,简单,由两个统一,贪婪的算法组成。第二,我们的算法具有能够无缝地利用经常可用和在实践中有用的知识。此外为了我们的新理论结果,我们经验证明我们的算法与高斯过程UCB方法具有竞争力。
translated by 谷歌翻译
我们考虑优化从高斯过程(GP)采样的矢量值的目标函数$ \ boldsymbol {f} $ sampled的问题,其索引集是良好的,紧凑的度量空间$({\ cal x},d)$设计。我们假设$ \ boldsymbol {f} $之前未知,并且在Design $ x $的$ \ \ boldsymbol {f} $ x $导致$ \ boldsymbol {f}(x)$。由于当$ {\ cal x} $很大的基数时,识别通过详尽搜索的帕累托最优设计是不可行的,因此我们提出了一种称为Adaptive $ \ Boldsymbol {\ epsilon} $ - PAL的算法,从而利用GP的平滑度-Ampled函数和$({\ cal x},d)$的结构快速学习。从本质上讲,Adaptive $ \ Boldsymbol {\ epsilon} $ - PAL采用基于树的自适应离散化技术,以识别$ \ Boldsymbol {\ epsilon} $ - 尽可能少的评估中的准确帕累托一组设计。我们在$ \ boldsymbol {\ epsilon} $ - 准确的Pareto Set识别上提供信息类型和度量尺寸类型界限。我们还在实验表明我们的算法在多个基准数据集上优于其他Pareto Set识别方法。
translated by 谷歌翻译
来自高斯过程(GP)模型的汤普森采样(TS)是一个强大的工具,用于优化黑盒功能。虽然TS享有强烈的理论担保和令人信服的实证性能,但它会引发大量的计算开销,可通过优化预算进行多项式。最近,已经提出了基于稀疏GP模型的可扩展TS方法来增加TS的范围,使其应用​​于足够多模态,嘈杂或组合需要的问题,以便要求解决超过几百个评估。但是,稀疏GPS引入的近似误差使所有现有的后悔界限无效。在这项工作中,我们对可扩展Ts进行了理论和实证分析。我们提供理论担保,并表明可以在标准TS上遗憾地享受可扩展TS的计算复杂性的急剧下降。这些概念索赔是针对合成基准测试的可扩展TS的实际实施,作为现实世界的高通量分子设计任务的一部分。
translated by 谷歌翻译
贝叶斯优化(BO)算法在涉及昂贵的黑盒功能的应用中表现出了显着的成功。传统上,BO被设置为一个顺序决策过程,该过程通过采集函数和先前的功能(例如高斯过程)来估计查询点的实用性。然而,最近,通过密度比率估计(BORE)对BO进行重新制定允许将采集函数重新诠释为概率二进制分类器,从而消除了对函数的显式先验和提高可伸缩性的需求。在本文中,我们介绍了对孔的遗憾和算法扩展的理论分析,并提高了不确定性估计。我们还表明,通过将问题重新提交为近似贝叶斯推断,可以自然地扩展到批处理优化设置。所得算法配备了理论性能保证,并在一系列实验中对其他批处理基本线进行了评估。
translated by 谷歌翻译