本文提出了一类新的实时优化方案,以克服不确定过程的系统模型不匹配。这项工作的新颖性在于在贝叶斯优化框架内集成无衍生优化的优化方案和多保真高斯进程。所提出的方案对随机系统进行了两个高斯过程,通过测量来模拟(已知)过程模型,另一个,真实系统。以这种方式,可以通过模型获得低保真度样本,而通过系统的测量获得高保真样本。该框架在非参数时捕获系统的行为,同时通过采集函数驾驶探索。使用高斯进程代表系统的好处是能够实时地执行不确定性量化,并允许有机会限制以满足高信任。这导致一种实用的方法,其在数值案例研究中示出,包括半批量光生物反应器优化问题。
translated by 谷歌翻译
强化学习(RL)控制器在控制社区中产生了兴奋。 RL控制器相对于现有方法的主要优点是它们能够优化不确定的系统,独立于明确假设过程不确定性。最近对工程应用的关注是针对安全RL控制器的发展。以前的作品已经提出了通过从随机模型预测控制领域的限制收紧来解释约束满足的方法。在这里,我们将这些方法扩展到植物模型不匹配。具体地,我们提出了一种利用离线仿真模型的高斯过程的数据驱动方法,并使用相关的后部不确定预测来解释联合机会限制和植物模型不匹配。该方法通过案例研究反对非线性模型预测控制的基准测试。结果证明了方法理解过程不确定性的能力,即使在植物模型错配的情况下也能满足联合机会限制。
translated by 谷歌翻译
各种科学和工程领域使用参数化机制模型。工程师和科学家通常可以假设几个竞争模型来解释特定的过程或现象。考虑一个模特歧视设置,我们希望找到最佳机械,动态模型候选者和最佳模型参数估计。通常,若干竞争机械模型可以解释可用数据,因此通过找到最大化模型预测发散的实验设置,可以通过找到最大化模型预测发散的实验设置来实现最佳地收集额外数据的动态实验。我们争论文献中有两种主要方法,用于解决最佳设计问题:(i)分析方法,使用线性和高斯近似来找设计目标的闭合表达式,以及(ii)数据驱动方法,这通常依赖于计算密集的蒙特卡罗技术。 olofsson等人。 (ICML 35,2018)介绍了高斯工艺(GP)替代模型来杂交的分析和数据驱动方法,这允许计算的实验设计,以识别黑盒式模型。在这项研究中,我们证明我们可以扩展现有的动态实验设计方法,以纳入更广泛的问题不确定性。我们还延伸了Olofsson等人。 (2018)使用GP代理模型来辨别动态黑盒式模型的方法。我们在文献中的着名案例研究中评估了我们的方法,并探讨了使用GP代理到近似基于梯度的方法的后果。
translated by 谷歌翻译
受到控制障碍功能(CBF)在解决安全性方面的成功以及数据驱动技术建模功能的兴起的启发,我们提出了一种使用高斯流程(GPS)在线合成CBF的非参数方法。 CBF等数学结构通过先验设计候选功能来实现安全性。但是,设计这样的候选功能可能具有挑战性。这种设置的一个实际示例是在需要确定安全且可导航区域的灾难恢复方案中设计CBF。在这样的示例中,安全性边界未知,不能先验设计。在我们的方法中,我们使用安全样本或观察结果来在线构建CBF,通过在这些样品上具有灵活的GP,并称我们为高斯CBF的配方。除非参数外,例如分析性障碍性和稳健的不确定性估计,GP具有有利的特性。这允许通过合并方差估计来实现具有高安全性保证的后部组件,同时还计算封闭形式中相关的部分导数以实现安全控制。此外,我们方法的合成安全函数允许根据数据任意更改相应的安全集,从而允许非Convex安全集。我们通过证明对固定但任意的安全集和避免碰撞的安全性在线构建安全集的安全控制,从而在四极管上验证了我们的方法。最后,我们将高斯CBF与常规的CBF并列,在嘈杂状态下,以突出其灵活性和对噪声的鲁棒性。实验视频可以在:https://youtu.be/hx6uokvcigk上看到。
translated by 谷歌翻译
由于其数据效率,贝叶斯优化已经出现在昂贵的黑盒优化的最前沿。近年来,关于新贝叶斯优化算法及其应用的发展的研究激增。因此,本文试图对贝叶斯优化的最新进展进行全面和更新的调查,并确定有趣的开放问题。我们将贝叶斯优化的现有工作分为九个主要群体,并根据所提出的算法的动机和重点。对于每个类别,我们介绍了替代模型的构建和采集功能的适应的主要进步。最后,我们讨论了开放的问题,并提出了有希望的未来研究方向,尤其是在分布式和联合优化系统中的异质性,隐私保护和公平性方面。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
This paper proposes embedded Gaussian Process Barrier States (GP-BaS), a methodology to safely control unmodeled dynamics of nonlinear system using Bayesian learning. Gaussian Processes (GPs) are used to model the dynamics of the safety-critical system, which is subsequently used in the GP-BaS model. We derive the barrier state dynamics utilizing the GP posterior, which is used to construct a safety embedded Gaussian process dynamical model (GPDM). We show that the safety-critical system can be controlled to remain inside the safe region as long as we can design a controller that renders the BaS-GPDM's trajectories bounded (or asymptotically stable). The proposed approach overcomes various limitations in early attempts at combining GPs with barrier functions due to the abstention of restrictive assumptions such as linearity of the system with respect to control, relative degree of the constraints and number or nature of constraints. This work is implemented on various examples for trajectory optimization and control including optimal stabilization of unstable linear system and safe trajectory optimization of a Dubins vehicle navigating through an obstacle course and on a quadrotor in an obstacle avoidance task using GP differentiable dynamic programming (GP-DDP). The proposed framework is capable of maintaining safe optimization and control of unmodeled dynamics and is purely data driven.
translated by 谷歌翻译
We consider the problem of decision-making under uncertainty in an environment with safety constraints. Many business and industrial applications rely on real-time optimization with changing inputs to improve key performance indicators. In the case of unknown environmental characteristics, real-time optimization becomes challenging, particularly for the satisfaction of safety constraints. We propose the ARTEO algorithm, where we cast multi-armed bandits as a mathematical programming problem subject to safety constraints and learn the environmental characteristics through changes in optimization inputs and through exploration. We quantify the uncertainty in unknown characteristics by using Gaussian processes and incorporate it into the utility function as a contribution which drives exploration. We adaptively control the size of this contribution using a heuristic in accordance with the requirements of the environment. We guarantee the safety of our algorithm with a high probability through confidence bounds constructed under the regularity assumptions of Gaussian processes. Compared to existing safe-learning approaches, our algorithm does not require an exclusive exploration phase and follows the optimization goals even in the explored points, which makes it suitable for safety-critical systems. We demonstrate the safety and efficiency of our approach with two experiments: an industrial process and an online bid optimization benchmark problem.
translated by 谷歌翻译
贝叶斯优化已被证明是优化昂贵至尊评估系统的有效方法。然而,根据单一观察的成本,一个或多个目标的多维优化可能仍然是昂贵的。多保真优化通过包括多个更便宜的信息来源,例如数值模拟中的低分辨率近似来解决这个问题。用于多保真优化的采集功能通常基于勘探重算法,这些算法难以与多种目标的优化结合。在这里,我们认为预期的超越改善政策可以在许多情况下作为合适的替代品起作用。我们通过两步评估或在单个采集函数内纳入评估成本,额外的保真相关目标。这允许同时多目标和多保真优化,这允许以分数成本准确地建立帕累托集和前部。基准显示成本降低了一个数量级或更多的顺序。因此,我们的方法允许极其膨胀的黑盒功能进行静态优化。在现有的优化贝叶斯优化框架中实现了本方法简单且直接,可以立即扩展到批量优化。该技术还可用于组合不同的连续和/或离散保真度尺寸,这使得它们特别相关地与等离子体物理,流体动力学和许多科学计算分支中的模拟问题相关。
translated by 谷歌翻译
高斯流程已成为各种安全至关重要环境的有前途的工具,因为后方差可用于直接估计模型误差并量化风险。但是,针对安全 - 关键环境的最新技术取决于核超参数是已知的,这通常不适用。为了减轻这种情况,我们在具有未知的超参数的设置中引入了强大的高斯过程统一误差界。我们的方法计算超参数空间中的一个置信区域,这使我们能够获得具有任意超参数的高斯过程模型误差的概率上限。我们不需要对超参数的任何界限,这是相关工作中常见的假设。相反,我们能够以直观的方式从数据中得出界限。我们还采用了建议的技术来为一类基于学习的控制问题提供绩效保证。实验表明,界限的性能明显优于香草和完全贝叶斯高斯工艺。
translated by 谷歌翻译
基于学习的控制方案最近表现出了出色的效力执行复杂的任务。但是,为了将它们部署在实际系统中,保证该系统在在线培训和执行过程中将保持安全至关重要。因此,我们需要安全的在线学习框架,能够自主地理论当前的信息是否足以确保安全或需要新的测量。在本文中,我们提出了一个由两个部分组成的框架:首先,在需要时积极收集测量的隔离外检测机制,以确保至少一个安全备份方向始终可供使用;其次,基于高斯的基于过程的概率安全 - 关键控制器可确保系统始终保持安全的可能性。我们的方法通过使用控制屏障功能来利用模型知识,并以事件触发的方式从在线数据流中收集测量,以确保学习的安全至关重要控制器的递归可行性。反过来,这又使我们能够提供具有很高概率的安全集的正式结果,即使在先验未开发的区域中也是如此。最后,我们在自适应巡航控制系统的数值模拟中验证了所提出的框架。
translated by 谷歌翻译
贝叶斯优化是黑匣子功能优化的流行框架。多重方法方法可以通过利用昂贵目标功能的低保真表示来加速贝叶斯优化。流行的多重贝叶斯策略依赖于采样政策,这些策略解释了在特定意见下评估目标函数的立即奖励,从而排除了更多的信息收益,这些收益可能会获得更多的步骤。本文提出了一个非侧重多倍数贝叶斯框架,以掌握优化的未来步骤的长期奖励。我们的计算策略具有两步的lookahead多因素采集函数,可最大程度地提高累积奖励,从而测量解决方案的改进,超过了前面的两个步骤。我们证明,所提出的算法在流行的基准优化问题上优于标准的多尺寸贝叶斯框架。
translated by 谷歌翻译
我们考虑基于活动的运输模拟器的校准和不确定性分析问题。基于活动的模型(ABM)依靠单个旅行者行为的统计模型来预测大都市地区的高阶旅行模式。输入参数通常是使用最大似然从旅行者调查中估算的。我们开发了一种使用高斯工艺模拟器使用流量流数据校准这些参数的方法。我们的方法扩展了传统的模拟器,以处理运输模拟器的高维和非平稳性。我们介绍了一个深度学习维度降低模型,该模型与高斯工艺模型共同估计以近似模拟器。我们使用几个模拟示例以及校准伊利诺伊州布卢明顿的关键参数来证明方法。
translated by 谷歌翻译
考虑了建立UNKONWN地面真相函数值的样本外界限的问题。内核及其相关的希尔伯特空间是本文所采用的主要形式主义,以及一个观察模型,在该模型中,输出被有限的测量噪声损坏。噪声可以源于任何紧凑的分布,并且没有对可用数据进行独立假设。在这种情况下,我们显示计算紧密的,有限样本的不确定性范围等于求解参数四次约束线性程序。接下来,建立了我们方法的属性,并研究了其与另一种方法的关系。提出了数值实验,以说明如何在许多情况下应用理论,并将其与其他封闭形式的替代方案进行对比。
translated by 谷歌翻译
贝叶斯优化(BO)被广泛用于优化随机黑匣子功能。尽管大多数BO方法都集中在优化条件期望上,但许多应用程序都需要规避风险的策略,并且需要考虑分配尾巴的替代标准。在本文中,我们提出了针对贝叶斯分位数和预期回归的新变异模型,这些模型非常适合异形的噪声设置。我们的模型分别由有条件分位数(或期望)的两个潜在高斯过程和不对称可能性函数的比例参数组成。此外,我们提出了基于最大值熵搜索和汤普森采样的两种BO策略,这些策略是针对此类型号量身定制的,可以容纳大量点。与现有的BO进行规避风险优化的方法相反,我们的策略可以直接针对分位数和预期进行优化,而无需复制观测值或假设噪声的参数形式。如实验部分所示,所提出的方法清楚地表现出异质的非高斯案例中的最新状态。
translated by 谷歌翻译
计算高效的非近视贝叶斯优化(BO)的最新进展提高了传统近视方法的查询效率,如预期的改进,同时仅适度提高计算成本。然而,这些进展在很大程度上是有限的,因为不受约束的优化。对于约束优化,少数现有的非近视博方法需要重量计算。例如,一个现有的非近视约束BO方法[LAM和Willcox,2017]依赖于计算昂贵的不可靠的暴力衍生物的无可靠性衍生物优化蒙特卡罗卷展卷采集功能。使用Reparameterization技巧进行更有效的基于衍生物的优化的方法,如在不受约束的环境中,如样本平均近似和无限扰动分析,不扩展:约束在取样的采集功能表面中引入阻碍其优化的不连续性。此外,我们认为非近视在受限制问题中更为重要,因为违反限制的恐惧将近视方法推动了可行和不可行区域之间的边界,减缓了具有严格约束的最佳解决方案的发现。在本文中,我们提出了一种计算的有效的两步保护受限贝叶斯优化采集功能(2-OPT-C)支持顺序和批处理设置。为了实现快速采集功能优化,我们开发了一种新的基于似然比的非偏见估计,其两步最佳采集函数的梯度不使用Reparameterization技巧。在数值实验中,2-OPT-C通常通过先前的方法通过2倍或更多的查询效率,并且在某些情况下通过10倍或更大。
translated by 谷歌翻译
In robotics, optimizing controller parameters under safety constraints is an important challenge. Safe Bayesian optimization (BO) quantifies uncertainty in the objective and constraints to safely guide exploration in such settings. Hand-designing a suitable probabilistic model can be challenging, however. In the presence of unknown safety constraints, it is crucial to choose reliable model hyper-parameters to avoid safety violations. Here, we propose a data-driven approach to this problem by meta-learning priors for safe BO from offline data. We build on a meta-learning algorithm, F-PACOH, capable of providing reliable uncertainty quantification in settings of data scarcity. As core contribution, we develop a novel framework for choosing safety-compliant priors in a data-riven manner via empirical uncertainty metrics and a frontier search algorithm. On benchmark functions and a high-precision motion system, we demonstrate that our meta-learned priors accelerate the convergence of safe BO approaches while maintaining safety.
translated by 谷歌翻译
动态系统的建模和仿真是许多控制方法的必要步骤。使用基于参数的基于参数的技术来建模现代系统,例如软机器人或人机交互,由于系统动态的复杂性,通常是挑战甚至不可行的。相比之下,数据驱动方法只需要最少的先验知识和规模,并以系统的复杂性规模。特别地,高斯过程动态模型(GPDMS)为复杂动态的建模提供了非常有前途的结果。然而,这些GP模型的控制特性刚刚稀疏地研究,这导致了建模和控制方案中的“黑箱”处理。此外,GPDMS对预测目的的采样,尊重其非参数性的非公平性,使得理论分析具有挑战性。在本文中,我们呈现近似的GPDM,它是马尔可夫的并分析它们的控制理论特性。其中,分析了近似的误差,提供了轨迹的界限条件。结果用数字示例说明,该数值示例显示近似模型的功率,而计算时间显着降低。
translated by 谷歌翻译
Bayesian Optimization is a useful tool for experiment design. Unfortunately, the classical, sequential setting of Bayesian Optimization does not translate well into laboratory experiments, for instance battery design, where measurements may come from different sources and their evaluations may require significant waiting times. Multi-fidelity Bayesian Optimization addresses the setting with measurements from different sources. Asynchronous batch Bayesian Optimization provides a framework to select new experiments before the results of the prior experiments are revealed. This paper proposes an algorithm combining multi-fidelity and asynchronous batch methods. We empirically study the algorithm behavior, and show it can outperform single-fidelity batch methods and multi-fidelity sequential methods. As an application, we consider designing electrode materials for optimal performance in pouch cells using experiments with coin cells to approximate battery performance.
translated by 谷歌翻译
对非线性不确定系统的控制是机器人技术领域的常见挑战。非线性潜在力模型结合了以高斯流程为特征的潜在不确定性,具有有效代表此类系统的希望,我们专注于这项工作的控制设计。为了实现设计,我们采用了高斯过程的状态空间表示来重塑非线性潜在力模型,从而建立了同时预测未来状态和不确定性的能力。使用此功能,制定了随机模型预测控制问题。为了得出问题的计算算法,我们使用基于方案的方法来制定随机优化的确定性近似。我们通过基于自动驾驶汽车的运动计划的仿真研究评估了最终方案的模型预测控制方法,该研究表现出很大的有效性。拟议的方法可以在其他各种机器人应用中找到前瞻性使用。
translated by 谷歌翻译