寻找最佳个性化的治疗方案被认为是最具挑战性的精确药物问题之一。各种患者特征会影响对治疗的反应,因此,没有一种尺寸适合 - 所有方案。此外,甚至在治疗过程中均不服用单一不安全剂量可能对患者的健康产生灾难性后果。因此,个性化治疗模型必须确保患者{\ EM安全} {\ EM有效}优化疗程。在这项工作中,我们研究了一种普遍的和基本的医学问题,其中治疗旨在在范围内保持生理变量,优选接近目标水平。这样的任务也与其他域中相关。我们提出ESCADA,这是一个用于这个问题结构的通用算法,在确保患者安全的同时制作个性化和背景感知最佳剂量推荐。我们在Escada的遗憾中获得了高概率的上限以及安全保证。最后,我们对1型糖尿病疾病的{\ em推注胰岛素剂量}分配问题进行了广泛的模拟,并比较ESCADA对汤普森采样,规则的剂量分配者和临床医生的表现。
translated by 谷歌翻译
多武装匪徒(MAB)在各种设置中进行广泛研究,其中目标是\ Texit {Maximize}随着时间的推移{Maximize}的措施(即,奖励)。由于安全在许多现实世界问题中至关重要,因此MAB算法的安全版本也获得了相当大的兴趣。在这项工作中,我们通过\ Texit {线性随机炸药杆}的镜头来解决不同的关键任务,其中目的是将动作靠近目标级别的结果,同时尊重\ Texit {双面}安全约束,我们调用\ textit {lecoling}。这种任务在许多域中普遍存在。例如,许多医疗保健问题要求在范围内保持生理变量,并且优选地接近目标水平。我们客观的激进变化需要一种新的采购策略,它是MAB算法的核心。我们提出Sale-LTS:通过线性汤普森采样算法进行安全调整,采用新的采集策略来适应我们的任务,并表明它达到了同一时间和维度依赖的索姆林的遗憾,因为以前的经典奖励最大化问题缺乏任何安全约束。我们通过彻底的实验展示并讨论了我们的算法的经验性能。
translated by 谷歌翻译
We consider a sequential decision making task where we are not allowed to evaluate parameters that violate an a priori unknown (safety) constraint. A common approach is to place a Gaussian process prior on the unknown constraint and allow evaluations only in regions that are safe with high probability. Most current methods rely on a discretization of the domain and cannot be directly extended to the continuous case. Moreover, the way in which they exploit regularity assumptions about the constraint introduces an additional critical hyperparameter. In this paper, we propose an information-theoretic safe exploration criterion that directly exploits the GP posterior to identify the most informative safe parameters to evaluate. Our approach is naturally applicable to continuous domains and does not require additional hyperparameters. We theoretically analyze the method and show that we do not violate the safety constraint with high probability and that we explore by learning about the constraint up to arbitrary precision. Empirical evaluations demonstrate improved data-efficiency and scalability.
translated by 谷歌翻译
我们考虑基于嘈杂的强盗反馈优化黑盒功能的问题。内核强盗算法为此问题显示了强大的实证和理论表现。然而,它们严重依赖于模型所指定的模型,并且没有它可能会失败。相反,我们介绍了一个\ emph {isspecified}内塞的强盗设置,其中未知函数可以是$ \ epsilon $ - 在一些再现内核希尔伯特空间(RKHS)中具有界限范数的函数均匀近似。我们设计高效实用的算法,其性能在模型误操作的存在下最微小地降低。具体而言,我们提出了一种基于高斯过程(GP)方法的两种算法:一种乐观的EC-GP-UCB算法,需要了解误操作误差,并相断的GP不确定性采样,消除型算法,可以适应未知模型拼盘。我们在$ \ epsilon $,时间范围和底层内核方面提供累积遗憾的上限,我们表明我们的算法达到了$ \ epsilon $的最佳依赖性,而没有明确的误解知识。此外,在一个随机的上下文设置中,我们表明EC-GP-UCB可以有效地与遗憾的平衡策略有效地结合,尽管不知道$ \ epsilon $尽管不知道,但仍然可以获得类似的遗憾范围。
translated by 谷歌翻译
贝叶斯优化(BO)是一种广泛使用的顺序方法,用于对复杂和昂贵计算的黑盒功能进行零阶优化。现有的BO方法假设功能评估(反馈)可立即或固定延迟后可用。在许多现实生活中的问题(例如在线建议,临床试验和超参数调谐)中,此类假设可能不实用,在随机延迟后可以提供反馈。为了从这些问题中的实验并行化中受益,学习者需要开始新的功能评估,而无需等待延迟反馈。在本文中,我们认为BO在随机延迟反馈问题下。我们提出了带有子线性后悔的算法,可以确保有效解决选择新功能查询的困境,同时等待随机延迟的反馈。在我们的结果的基础上,我们还为批处理和上下文高斯工艺匪徒做出了新的贡献。合成和现实生活数据集的实验验证了我们的算法的性能。
translated by 谷歌翻译
多武装强盗环境中最好的武器识别问题是许多真实世界决策问题的一个优秀模式,但它无法捕捉到现实世界中,在学习时通常必须满足安全限制的事实。在这项工作中,我们研究了安全关键环境中最好的武器识别问题,代理的目标是找到许多人的最佳安全选项,同时以保证某些方式达到满足肯定的方式的探索,最初是未知的安全约束。我们首先在奖励和安全约束采用线性结构的情况下分析此问题,并显示近乎匹配的上限和下限。然后,我们分析了更多的常规版本,我们只假设奖励和安全约束可以通过单调函数建模,并在此设置中提出算法,保证安全地学习。我们的结论与实验结果表明我们在方案中的方法的有效性,如安全地识别许多人以便治疗疾病。
translated by 谷歌翻译
Many applications require optimizing an unknown, noisy function that is expensive to evaluate. We formalize this task as a multiarmed bandit problem, where the payoff function is either sampled from a Gaussian process (GP) or has low RKHS norm. We resolve the important open problem of deriving regret bounds for this setting, which imply novel convergence rates for GP optimization. We analyze GP-UCB, an intuitive upper-confidence based algorithm, and bound its cumulative regret in terms of maximal information gain, establishing a novel connection between GP optimization and experimental design. Moreover, by bounding the latter in terms of operator spectra, we obtain explicit sublinear regret bounds for many commonly used covariance functions. In some important cases, our bounds have surprisingly weak dependence on the dimensionality. In our experiments on real sensor data, GP-UCB compares favorably with other heuristical GP optimization approaches.
translated by 谷歌翻译
我们考虑优化从高斯过程(GP)采样的矢量值的目标函数$ \ boldsymbol {f} $ sampled的问题,其索引集是良好的,紧凑的度量空间$({\ cal x},d)$设计。我们假设$ \ boldsymbol {f} $之前未知,并且在Design $ x $的$ \ \ boldsymbol {f} $ x $导致$ \ boldsymbol {f}(x)$。由于当$ {\ cal x} $很大的基数时,识别通过详尽搜索的帕累托最优设计是不可行的,因此我们提出了一种称为Adaptive $ \ Boldsymbol {\ epsilon} $ - PAL的算法,从而利用GP的平滑度-Ampled函数和$({\ cal x},d)$的结构快速学习。从本质上讲,Adaptive $ \ Boldsymbol {\ epsilon} $ - PAL采用基于树的自适应离散化技术,以识别$ \ Boldsymbol {\ epsilon} $ - 尽可能少的评估中的准确帕累托一组设计。我们在$ \ boldsymbol {\ epsilon} $ - 准确的Pareto Set识别上提供信息类型和度量尺寸类型界限。我们还在实验表明我们的算法在多个基准数据集上优于其他Pareto Set识别方法。
translated by 谷歌翻译
高赌注应用中产生的许多黑匣子优化任务需要风险厌恶的决策。但标准贝叶斯优化(BO)范式仅优化了预期值。我们概括了博的商业卑鄙和输入依赖性方差,我们认为我们认为是未知的先验。特别是,我们提出了一种新的风险厌恶异源贝类贝叶斯优化算法(Rahbo),其旨在识别具有高回报和低噪声方差的解决方案,同时在飞行时学习噪声分布。为此,我们将期望和方差模拟(未知)RKHS函数,并提出了一种新的风险感知获取功能。我们对我们的方法绑定了遗憾,并提供了一个强大的规则,以报告必须识别单个解决方案的应用程序的最终决策点。我们展示了Rahbo对合成基准函数和超参数调整任务的有效性。
translated by 谷歌翻译
在许多真实世界应用程序的组合匪徒如内容缓存,必须在满足最小服务要求的同时最大化奖励。此外,基本ARM可用性随着时间的推移而变化,并且采取的行动需要适应奖励最大化的情况。我们提出了一个名为Contexal Combinatial Volatile Birtits的新的强盗模型,具有组阈值来解决这些挑战。我们的模型通过考虑超级臂作为基础臂组的子集来归档组合匪徒。我们寻求最大化超级手臂奖励,同时满足构成超级臂的所有基座组的阈值。为此,我们定义了一个新的遗憾遗嘱,使超级臂奖励最大化与团体奖励满意度合并。为了便于学习,我们假设基臂的平均结果是由上下文索引的高斯过程的样本,并且预期的奖励是Lipschitz在预期的基础臂结果中连续。我们提出了一种算法,称为阈值组合高斯工艺的上置信度界限(TCGP-UCB),最大化累积奖励和满足组奖励阈值之间的余额,并证明它会导致$ \ tilde {o}(k \ sqrt {t \ overline { \ gamma} _ {t}})$后悔具有高概率,其中$ \ overline {\ gamma} _ {t} $是与第一个$ t $轮中出现的基本arm上下文相关联的最大信息增益$ k $是所有在所有轮匝上任何可行行动的超级臂基数。我们在实验中展示了我们的算法累积了与最先进的组合强盗算法相当的奖励,同时采摘群体满足其阈值的动作。
translated by 谷歌翻译
在预测功能(假设)中获得可靠的自适应置信度集是顺序决策任务的核心挑战,例如土匪和基于模型的强化学习。这些置信度集合通常依赖于对假设空间的先前假设,例如,繁殖核Hilbert Space(RKHS)的已知核。手动设计此类内核是容易发生的,错误指定可能导致性能差或不安全。在这项工作中,我们建议从离线数据(meta-kel)中进行元学习核。对于未知核是已知碱基核的组合的情况,我们基于结构化的稀疏性开发估计量。在温和的条件下,我们保证我们的估计RKHS会产生有效的置信度集,随着越来越多的离线数据的量,它变得与鉴于真正未知内核的置信度一样紧。我们展示了我们关于内核化强盗问题(又称贝叶斯优化)的方法,我们在其中建立了遗憾的界限,与鉴于真正的内核的人竞争。我们还经验评估方法对贝叶斯优化任务的有效性。
translated by 谷歌翻译
Reinforcement learning is a powerful paradigm for learning optimal policies from experimental data. However, to find optimal policies, most reinforcement learning algorithms explore all possible actions, which may be harmful for real-world systems. As a consequence, learning algorithms are rarely applied on safety-critical systems in the real world. In this paper, we present a learning algorithm that explicitly considers safety, defined in terms of stability guarantees. Specifically, we extend control-theoretic results on Lyapunov stability verification and show how to use statistical models of the dynamics to obtain high-performance control policies with provable stability certificates. Moreover, under additional regularity assumptions in terms of a Gaussian process prior, we prove that one can effectively and safely collect data in order to learn about the dynamics and thus both improve control performance and expand the safe region of the state space. In our experiments, we show how the resulting algorithm can safely optimize a neural network policy on a simulated inverted pendulum, without the pendulum ever falling down.
translated by 谷歌翻译
In robotics, optimizing controller parameters under safety constraints is an important challenge. Safe Bayesian optimization (BO) quantifies uncertainty in the objective and constraints to safely guide exploration in such settings. Hand-designing a suitable probabilistic model can be challenging, however. In the presence of unknown safety constraints, it is crucial to choose reliable model hyper-parameters to avoid safety violations. Here, we propose a data-driven approach to this problem by meta-learning priors for safe BO from offline data. We build on a meta-learning algorithm, F-PACOH, capable of providing reliable uncertainty quantification in settings of data scarcity. As core contribution, we develop a novel framework for choosing safety-compliant priors in a data-riven manner via empirical uncertainty metrics and a frontier search algorithm. On benchmark functions and a high-precision motion system, we demonstrate that our meta-learned priors accelerate the convergence of safe BO approaches while maintaining safety.
translated by 谷歌翻译
贝叶斯优化(BO)已成为黑框函数的顺序优化。当BO用于优化目标函数时,我们通常可以访问对潜在相关功能的先前评估。这就提出了一个问题,即我们是否可以通过元学习(meta-bo)来利用这些先前的经验来加速当前的BO任务,同时确保稳健性抵抗可能破坏BO融合的潜在有害的不同任务。本文介绍了两种可扩展且可证明的稳健元算法:稳健的元高斯过程 - 加工置信度结合(RM-GP-UCB)和RM-GP-thompson采样(RM-GP-TS)。我们证明,即使某些或所有以前的任务与当前的任务不同,这两种算法在渐近上都是无重组的,并且证明RM-GP-UCB比RM-GP-TS具有更好的理论鲁棒性。我们还利用理论保证,通过通过在线学习最大程度地减少遗憾,优化分配给各个任务的权重,从而减少了相似任务的影响,从而进一步增强了稳健性。经验评估表明,(a)RM-GP-UCB在各种应用程序中都有效,一致地性能,(b)RM-GP-TS,尽管在理论上和实践中都比RM-GP-ucb稳健,但在实践中,在竞争性中表现出色某些方案具有较小的任务,并且在计算上更有效。
translated by 谷歌翻译
基于内核的模型,例如内核脊回归和高斯工艺在机器学习应用程序中无处不在,用于回归和优化。众所周知,基于内核的模型的主要缺点是高计算成本。给定$ n $样本的数据集,成本增长为$ \ Mathcal {o}(n^3)$。在某些情况下,现有的稀疏近似方法可以大大降低计算成本,从而有效地将实际成本降低到$ \ natercal {o}(n)$。尽管取得了显着的经验成功,但由于近似值而导致的误差的分析范围的现有结果仍然存在显着差距。在这项工作中,我们为NyStr \“ Om方法和稀疏变分高斯过程近似方法提供新颖的置信区间,我们使用模型的近似(代理)后差解释来建立这些方法。我们的置信区间可改善性能。回归和优化问题的界限。
translated by 谷歌翻译
动态治疗方案(DTRS)是个性化的,适应性的,多阶段的治疗计划,可将治疗决策适应个人的初始特征,并在随后的每个阶段中的中级结果和特征,在前阶段受到决策的影响。例子包括对糖尿病,癌症和抑郁症等慢性病的个性化一线和二线治疗,这些治疗适应患者对一线治疗,疾病进展和个人特征的反应。尽管现有文献主要集中于估算离线数据(例如从依次随机试验)中的最佳DTR,但我们研究了以在线方式开发最佳DTR的问题,在线与每个人的互动都会影响我们的累积奖励和我们的数据收集,以供我们的数据收集。未来的学习。我们将其称为DTR匪徒问题。我们提出了一种新颖的算法,通过仔细平衡探索和剥削,可以保证当过渡和奖励模型是线性时,可以实现最佳的遗憾。我们证明了我们的算法及其在合成实验和使用现实世界中对重大抑郁症的适应性治疗的案例研究中的好处。
translated by 谷歌翻译
我们介绍了一个多臂强盗模型,其中奖励是多个随机变量的总和,每个动作只会改变其中的分布。每次动作之后,代理都会观察所有变量的实现。该模型是由营销活动和推荐系统激励的,在该系统中,变量代表单个客户的结果,例如点击。我们提出了UCB风格的算法,以估计基线上的动作的提升。我们研究了问题的多种变体,包括何时未知基线和受影响的变量,并证明所有这些变量均具有sublrinear后悔界限。我们还提供了较低的界限,以证明我们的建模假设的必要性是合理的。关于合成和现实世界数据集的实验显示了估计不使用这种结构的策略的振奋方法的好处。
translated by 谷歌翻译
我们考虑使用个性化的联合学习,除了全球目标外,每个客户还对最大化个性化的本地目标感兴趣。我们认为,在一般连续的动作空间设置下,目标函数属于繁殖的内核希尔伯特空间。我们提出了基于替代高斯工艺(GP)模型的算法,该算法达到了最佳的遗憾顺序(要归结为各种因素)。此外,我们表明,GP模型的稀疏近似显着降低了客户之间的沟通成本。
translated by 谷歌翻译
我们以已知的奖励和未知的约束来研究顺序决策,这是由约束代表昂贵评估人类偏好(例如安全舒适的驾驶行为)的情况所激发的。我们将互动学习这些约束作为新的线性匪徒问题的挑战正式化,我们称之为约束的线性最佳臂识别。为了解决这个问题,我们提出了自适应约束学习(ACOL)算法。我们为约束线性最佳臂识别提供了一个依赖实例的下限,并表明Acol的样品复杂性与最坏情况下的下限匹配。在平均情况下,ACOL的样品复杂性结合仍然比简单方法的边界更紧密。在合成实验中,ACOL与Oracle溶液相同,并且表现优于一系列基准。作为应用程序,我们考虑学习限制,以代表驾驶模拟中的人类偏好。对于此应用,ACOL比替代方案要高得多。此外,我们发现学习偏好作为约束对驾驶场景的变化比直接编码奖励函数中的偏好更强大。
translated by 谷歌翻译
级别设置估计问题旨在查找域$ {\ cal x} $的所有点,其中一个未知函数$ f:{\ cal x} \ lightarrow \ mathbb {r} $超过阈值$ \ alpha $ 。估计基于可以在$ {\ cal x} $中顺序和自适应地选择的位置获取的嘈杂函数评估。阈值$ \ alpha $可以是\弹性{显式},并提供先验,或\ \ ich {隐式},相对于最佳函数值定义,即$ \ alpha =(1- \ epsilon)f(x_ \ AST)$关于给定$ \ epsilon> 0 $ why $ f(x_ \ ist)$是最大函数值,并且未知。在这项工作中,我们通过将其与最近的自适应实验设计方法相关联,为近期自适应实验设计方法提供了一种新的再现内核盗窃空间(RKHS)设置。我们假设可以通过RKHS中的函数近似于未知的拼写,并为此设置中隐含和显式案件提供新的算法,具有很强的理论保证。此外,在线性(内核)设置中,我们表明我们的界限几乎是最佳的,即,我们的上限与阈值线性匪徒的现有下限匹配。据我们所知,这项工作提供了第一个实例依赖性非渐近的上限,就匹配信息理论下限的水平设定估计的样本复杂性。
translated by 谷歌翻译