In this paper, the CONFIG algorithm, a simple and provably efficient constrained global optimization algorithm, is applied to optimize the closed-loop control performance of an unknown system with unmodeled constraints. Existing Gaussian process based closed-loop optimization methods, either can only guarantee local convergence (e.g., SafeOPT), or have no known optimality guarantee (e.g., constrained expected improvement) at all, whereas the recently introduced CONFIG algorithm has been proven to enjoy a theoretical global optimality guarantee. In this study, we demonstrate the effectiveness of CONFIG algorithm in the applications. The algorithm is first applied to an artificial numerical benchmark problem to corroborate its effectiveness. It is then applied to a classical constrained steady-state optimization problem of a continuous stirred-tank reactor. Simulation results show that our CONFIG algorithm can achieve performance competitive with the popular CEI (Constrained Expected Improvement) algorithm, which has no known optimality guarantee. As such, the CONFIG algorithm offers a new tool, with both a provable global optimality guarantee and competitive empirical performance, to optimize the closed-loop control performance for a system with soft unmodeled constraints. Last, but not least, the open-source code is available as a python package to facilitate future applications.
translated by 谷歌翻译
安全的加强学习(RL)旨在学习在将其部署到关键安全应用程序中之前满足某些约束的政策。以前的原始双重风格方法遭受了不稳定性问题的困扰,并且缺乏最佳保证。本文从概率推断的角度克服了问题。我们在政策学习过程中介绍了一种新颖的期望最大化方法来自然纳入约束:1)在凸优化(E-step)后,可以以封闭形式计算可证明的最佳非参数变异分布; 2)基于最佳变异分布(M-step),在信任区域内改进了策略参数。提出的算法将安全的RL问题分解为凸优化阶段和监督学习阶段,从而产生了更稳定的培训性能。对连续机器人任务进行的广泛实验表明,所提出的方法比基线获得了更好的约束满意度和更好的样品效率。该代码可在https://github.com/liuzuxin/cvpo-safe-rl上找到。
translated by 谷歌翻译
本文提出了一类新的实时优化方案,以克服不确定过程的系统模型不匹配。这项工作的新颖性在于在贝叶斯优化框架内集成无衍生优化的优化方案和多保真高斯进程。所提出的方案对随机系统进行了两个高斯过程,通过测量来模拟(已知)过程模型,另一个,真实系统。以这种方式,可以通过模型获得低保真度样本,而通过系统的测量获得高保真样本。该框架在非参数时捕获系统的行为,同时通过采集函数驾驶探索。使用高斯进程代表系统的好处是能够实时地执行不确定性量化,并允许有机会限制以满足高信任。这导致一种实用的方法,其在数值案例研究中示出,包括半批量光生物反应器优化问题。
translated by 谷歌翻译
粒子加速器的调谐计算机参数是一项重复且耗时的任务,可自动化。尽管可以使用许多现成的优化算法,但实际上它们的使用量有限,因为大多数方法都不考虑每种迭代中的安全至关重要的约束,例如损失信号或步骤尺寸的限制。一个值得注意的例外是安全的贝叶斯优化,这是一种以嘈杂的反馈进行数据驱动的调谐方法。我们建议并评估Paul Scherrer Institut(PSI)的两个研究设施的安全贝叶斯优化的阶梯尺寸有限变体:a)瑞士游离电子激光器(瑞士法)和b)高强度质子加速器(HIPA)。我们报告了两台机器上有希望的实验结果,最多调整了16个受约束约束的参数。
translated by 谷歌翻译
我们考虑使用昂贵的功能评估(也称为实验)的黑匣子多目标优化(MOO)的问题,其中目标是通过最小化实验的总资源成本来近似真正的帕累托解决方案。例如,在硬件设计优化中,我们需要使用昂贵的计算模拟找到权衡性能,能量和面积开销的设计。关键挑战是选择使用最小资源揭示高质量解决方案的实验顺序。在本文中,我们提出了一种基于输出空间熵(OSE)搜索原理来解决MOO问题的一般框架:选择最大化每单位资源成本的信息的实验,这是真正的帕累托前线所获得的信息。我们适当地实例化了OSE搜索的原理,以导出以下四个Moo问题设置的高效算法:1)最基本的EM单一保真设置,实验昂贵且准确; 2)处理EM黑匣子约束}在不执行实验的情况下无法进行评估; 3)离散的多保真设置,实验可以在消耗的资源量和评估准确度时变化; 4)EM连续保真设置,其中连续函数近似导致巨大的实验空间。不同综合和现实世界基准测试的实验表明,基于OSE搜索的算法在既有计算效率和MOO解决方案的准确性方面改进了最先进的方法。
translated by 谷歌翻译
In robotics, optimizing controller parameters under safety constraints is an important challenge. Safe Bayesian optimization (BO) quantifies uncertainty in the objective and constraints to safely guide exploration in such settings. Hand-designing a suitable probabilistic model can be challenging, however. In the presence of unknown safety constraints, it is crucial to choose reliable model hyper-parameters to avoid safety violations. Here, we propose a data-driven approach to this problem by meta-learning priors for safe BO from offline data. We build on a meta-learning algorithm, F-PACOH, capable of providing reliable uncertainty quantification in settings of data scarcity. As core contribution, we develop a novel framework for choosing safety-compliant priors in a data-riven manner via empirical uncertainty metrics and a frontier search algorithm. On benchmark functions and a high-precision motion system, we demonstrate that our meta-learned priors accelerate the convergence of safe BO approaches while maintaining safety.
translated by 谷歌翻译
有效的全球优化是一种广泛使用的方法,用于优化昂贵的黑盒功能,例如调谐参数,设计新材料等。尽管它很受欢迎,但鉴于其广泛使用,较少的关注来分析问题的固有硬度,重要的是要了解有效的全球优化算法的基本限制。在本文中,我们研究了有效的全球优化问题的最严重的复杂性,并且与现有的内核特异性结果相反,我们得出了一个统一的下限,以根据球的度量熵的指标,以实现有效的全局优化的复杂性在相应的繁殖内核希尔伯特空间〜(RKHS)中。具体而言,我们表明,如果存在确定性算法,该算法在$ t $函数评估中实现了任何函数$ f \ in s $ in s $ f \ in $ t $函数评估的次优差距,则有必要至少是$ \ omemega \ left(\ frac {\ log \ mathcal {n}(s(s(\ Mathcal {x})),4 \ epsilon,\ | \ | \ cdot \ cdot \ | _ \ iftty)} {\ log(\ frac {\ frac {r} {r} {\ epsilon {\ epsilon })}} \ right)$,其中$ \ mathcal {n}(\ cdot,\ cdot,\ cdot)$是覆盖号码,$ s $是$ 0 $ $ 0 $,RKHS中的RADIUS $ r $,并且$ s(\ mathcal {x})$是可行套装$ \ mathcal {x} $的$ s $的限制。此外,我们表明,这种下限几乎与常用平方指数核的非自适应搜索算法和具有较大平滑度参数$ \ nu $的垫子\'ern内核所获得的上限匹配,最多可替换为$ $ $ d/2 $ by $ d $和对数项$ \ log \ frac {r} {\ epsilon} $。也就是说,我们的下限对于这些内核几乎是最佳的。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
机器人等系统的安全操作要求它们计划和执行受安全约束的轨迹。当这些系统受到动态的不确定性的影响时,确保不违反限制是具有挑战性的。本文提出了基于受约束差分动态规划(DDP)的附加不确定性和非线性安全约束的安全轨迹,安全轨迹优化和控制方法。在其运动中的机器人的安全性被制定为机会限制了用户所选择的约束满足的概率。通过约束收紧将机会约束转换为DDP制剂中的确定性。为了避免在约束期间的过保守,从受约束的DDP导出的反馈策略的线性控制增益用于预测中的闭环不确定性传播的近似。所提出的算法在三种不同的机器人动态上进行了经验评估,模拟中具有高达12度的自由度。使用物理硬件实现对方法的计算可行性和适用性进行了说明。
translated by 谷歌翻译
This paper studies the problem of stochastic continuum-armed bandit with constraints (SCBwC), where we optimize a black-box reward function $f(x)$ subject to a black-box constraint function $g(x)\leq 0$ over a continuous space $\mathcal X$. We model reward and constraint functions via Gaussian processes (GPs) and propose a Rectified Pessimistic-Optimistic Learning framework (RPOL), a penalty-based method incorporating optimistic and pessimistic GP bandit learning for reward and constraint functions, respectively. We consider the metric of cumulative constraint violation $\sum_{t=1}^T(g(x_t))^{+},$ which is strictly stronger than the traditional long-term constraint violation $\sum_{t=1}^Tg(x_t).$ The rectified design for the penalty update and the pessimistic learning for the constraint function in RPOL guarantee the cumulative constraint violation is minimal. RPOL can achieve sublinear regret and cumulative constraint violation for SCBwC and its variants (e.g., under delayed feedback and non-stationary environment). These theoretical results match their unconstrained counterparts. Our experiments justify RPOL outperforms several existing baseline algorithms.
translated by 谷歌翻译
计算高效的非近视贝叶斯优化(BO)的最新进展提高了传统近视方法的查询效率,如预期的改进,同时仅适度提高计算成本。然而,这些进展在很大程度上是有限的,因为不受约束的优化。对于约束优化,少数现有的非近视博方法需要重量计算。例如,一个现有的非近视约束BO方法[LAM和Willcox,2017]依赖于计算昂贵的不可靠的暴力衍生物的无可靠性衍生物优化蒙特卡罗卷展卷采集功能。使用Reparameterization技巧进行更有效的基于衍生物的优化的方法,如在不受约束的环境中,如样本平均近似和无限扰动分析,不扩展:约束在取样的采集功能表面中引入阻碍其优化的不连续性。此外,我们认为非近视在受限制问题中更为重要,因为违反限制的恐惧将近视方法推动了可行和不可行区域之间的边界,减缓了具有严格约束的最佳解决方案的发现。在本文中,我们提出了一种计算的有效的两步保护受限贝叶斯优化采集功能(2-OPT-C)支持顺序和批处理设置。为了实现快速采集功能优化,我们开发了一种新的基于似然比的非偏见估计,其两步最佳采集函数的梯度不使用Reparameterization技巧。在数值实验中,2-OPT-C通常通过先前的方法通过2倍或更多的查询效率,并且在某些情况下通过10倍或更大。
translated by 谷歌翻译
本文提出了一种校准控制参数的方法。这种控制参数的示例是PID控制器的增益,优化控制的成本函数的权重,过滤器系数,滑动模式控制器的滑动表面,或神经网络的权重。因此,所提出的方法可以应用于各种控制器。该方法使用闭环系统操作数据来估计控制参数而不是系统状态的卡尔曼滤波器。控制参数校准由训练目标驱动,其包括对动态系统性能的规范。校准方法在线和强大地调整参数,是计算效率,具有低数据存储要求,并且易于实现对许多实时应用的吸引力。仿真结果表明,该方法能够快速学习控制参数(闭环成本的平均衰减因子大约24%),能够调整参数来补偿干扰(跟踪精度的提高约29%),并且是坚固的噪音。此外,具有高保真车辆模拟器Carim的仿真研究表明,该方法可以在线校准复杂动态系统的控制器,这表明其对现实世界的适用性。
translated by 谷歌翻译
Decision-making problems are commonly formulated as optimization problems, which are then solved to make optimal decisions. In this work, we consider the inverse problem where we use prior decision data to uncover the underlying decision-making process in the form of a mathematical optimization model. This statistical learning problem is referred to as data-driven inverse optimization. We focus on problems where the underlying decision-making process is modeled as a convex optimization problem whose parameters are unknown. We formulate the inverse optimization problem as a bilevel program and propose an efficient block coordinate descent-based algorithm to solve large problem instances. Numerical experiments on synthetic datasets demonstrate the computational advantage of our method compared to standard commercial solvers. Moreover, the real-world utility of the proposed approach is highlighted through two realistic case studies in which we consider estimating risk preferences and learning local constraint parameters of agents in a multiplayer Nash bargaining game.
translated by 谷歌翻译
This paper studies a model for online job scheduling in green datacenters. In green datacenters, resource availability depends on the power supply from the renewables. Intermittent power supply from renewables leads to intermittent resource availability, inducing job delays (and associated costs). Green datacenter operators must intelligently manage their workloads and available power supply to extract maximum benefits. The scheduler's objective is to schedule jobs on a set of resources to maximize the total value (revenue) while minimizing the overall job delay. A trade-off exists between achieving high job value on the one hand and low expected delays on the other. Hence, the aims of achieving high rewards and low costs are in opposition. In addition, datacenter operators often prioritize multiple objectives, including high system utilization and job completion. To accomplish the opposing goals of maximizing total job value and minimizing job delays, we apply the Proportional-Integral-Derivative (PID) Lagrangian methods in Deep Reinforcement Learning to job scheduling problem in the green datacenter environment. Lagrangian methods are widely used algorithms for constrained optimization problems. We adopt a controls perspective to learn the Lagrange multiplier with proportional, integral, and derivative control, achieving favorable learning dynamics. Feedback control defines cost terms for the learning agent, monitors the cost limits during training, and continuously adjusts the learning parameters to achieve stable performance. Our experiments demonstrate improved performance compared to scheduling policies without the PID Lagrangian methods. Experimental results illustrate the effectiveness of the Constraint Controlled Reinforcement Learning (CoCoRL) scheduler that simultaneously satisfies multiple objectives.
translated by 谷歌翻译
由于其数据效率,贝叶斯优化已经出现在昂贵的黑盒优化的最前沿。近年来,关于新贝叶斯优化算法及其应用的发展的研究激增。因此,本文试图对贝叶斯优化的最新进展进行全面和更新的调查,并确定有趣的开放问题。我们将贝叶斯优化的现有工作分为九个主要群体,并根据所提出的算法的动机和重点。对于每个类别,我们介绍了替代模型的构建和采集功能的适应的主要进步。最后,我们讨论了开放的问题,并提出了有希望的未来研究方向,尤其是在分布式和联合优化系统中的异质性,隐私保护和公平性方面。
translated by 谷歌翻译
Bayesian Optimization(BO)是全球优化的黑匣子客观功能的方法,这是昂贵的评估。 Bo Powered实验设计在材料科学,化学,实验物理,药物开发等方面发现了广泛的应用。这项工作旨在提请注意应用BO在设计实验中的益处,并提供博手册,涵盖方法和软件,为了方便任何想要申请或学习博的人。特别是,我们简要解释了BO技术,审查BO中的所有应用程序在添加剂制造中,比较和举例说明不同开放BO库的功能,解锁BO的新潜在应用,以外的数据(例如,优先输出)。本文针对读者,了解贝叶斯方法的一些理解,但不一定符合添加剂制造的知识;软件性能概述和实施说明是任何实验设计从业者的乐器。此外,我们在添加剂制造领域的审查突出了博的目前的知识和技术趋势。本文在线拥有补充材料。
translated by 谷歌翻译
We consider the problem of decision-making under uncertainty in an environment with safety constraints. Many business and industrial applications rely on real-time optimization with changing inputs to improve key performance indicators. In the case of unknown environmental characteristics, real-time optimization becomes challenging, particularly for the satisfaction of safety constraints. We propose the ARTEO algorithm, where we cast multi-armed bandits as a mathematical programming problem subject to safety constraints and learn the environmental characteristics through changes in optimization inputs and through exploration. We quantify the uncertainty in unknown characteristics by using Gaussian processes and incorporate it into the utility function as a contribution which drives exploration. We adaptively control the size of this contribution using a heuristic in accordance with the requirements of the environment. We guarantee the safety of our algorithm with a high probability through confidence bounds constructed under the regularity assumptions of Gaussian processes. Compared to existing safe-learning approaches, our algorithm does not require an exclusive exploration phase and follows the optimization goals even in the explored points, which makes it suitable for safety-critical systems. We demonstrate the safety and efficiency of our approach with two experiments: an industrial process and an online bid optimization benchmark problem.
translated by 谷歌翻译
各种科学和工程领域使用参数化机制模型。工程师和科学家通常可以假设几个竞争模型来解释特定的过程或现象。考虑一个模特歧视设置,我们希望找到最佳机械,动态模型候选者和最佳模型参数估计。通常,若干竞争机械模型可以解释可用数据,因此通过找到最大化模型预测发散的实验设置,可以通过找到最大化模型预测发散的实验设置来实现最佳地收集额外数据的动态实验。我们争论文献中有两种主要方法,用于解决最佳设计问题:(i)分析方法,使用线性和高斯近似来找设计目标的闭合表达式,以及(ii)数据驱动方法,这通常依赖于计算密集的蒙特卡罗技术。 olofsson等人。 (ICML 35,2018)介绍了高斯工艺(GP)替代模型来杂交的分析和数据驱动方法,这允许计算的实验设计,以识别黑盒式模型。在这项研究中,我们证明我们可以扩展现有的动态实验设计方法,以纳入更广泛的问题不确定性。我们还延伸了Olofsson等人。 (2018)使用GP代理模型来辨别动态黑盒式模型的方法。我们在文献中的着名案例研究中评估了我们的方法,并探讨了使用GP代理到近似基于梯度的方法的后果。
translated by 谷歌翻译
除了最大化奖励目标之外,现实世界中的强化学习(RL)代理商必须满足安全限制。基于模型的RL算法占据了减少不安全的现实世界行动的承诺:它们可以合成使用来自学习模型的模拟样本遵守所有约束的策略。但是,即使对于预测满足所有约束的操作,甚至可能导致真实的结构违规。我们提出了保守和自适应惩罚(CAP),一种基于模型的安全RL框架,其通过捕获模型不确定性并自适应利用它来平衡奖励和成本目标来占潜在的建模错误。首先,CAP利用基于不确定性的惩罚来膨胀预测成本。从理论上讲,我们展示了满足这种保守成本约束的政策,也可以保证在真正的环境中是可行的。我们进一步表明,这保证了在RL培训期间所有中间解决方案的安全性。此外,在使用环境中使用真正的成本反馈,帽子在培训期间自适应地调整这种惩罚。我们在基于状态和基于图像的环境中,评估了基于模型的安全RL的保守和自适应惩罚方法。我们的结果表明了样品效率的大量收益,同时产生比现有安全RL算法更少的违规行为。代码可用:https://github.com/redrew/cap
translated by 谷歌翻译
强化学习(RL)控制器在控制社区中产生了兴奋。 RL控制器相对于现有方法的主要优点是它们能够优化不确定的系统,独立于明确假设过程不确定性。最近对工程应用的关注是针对安全RL控制器的发展。以前的作品已经提出了通过从随机模型预测控制领域的限制收紧来解释约束满足的方法。在这里,我们将这些方法扩展到植物模型不匹配。具体地,我们提出了一种利用离线仿真模型的高斯过程的数据驱动方法,并使用相关的后部不确定预测来解释联合机会限制和植物模型不匹配。该方法通过案例研究反对非线性模型预测控制的基准测试。结果证明了方法理解过程不确定性的能力,即使在植物模型错配的情况下也能满足联合机会限制。
translated by 谷歌翻译