我们研究了安全在线凸优化的问题,其中每个时间步长的动作必须满足一组线性安全约束。目标是选择一系列动作,以最小化遗憾,而不会在任何时间步骤(具有高概率)时违反安全约束。指定线性安全约束的参数对算法未知。该算法只能访问所选择的操作的约束的嘈杂观察。我们提出了一种算法,称为{Safe Online投影梯度下降}(SO-PGD)算法,以解决这个问题。我们表明,在假设安全基线动作的可用性的假设下,所以PGD算法实现了遗憾$ O(t ^ {2/3})$。虽然在线凸优化(OCO)存在许多用于文献中的安全约束的算法,但它们允许在学习/优化期间违反限制,并且重点是表征累积约束违规。据我们所知,我们的是第一项工作,提供了一个遗憾的算法,而无需在任何时间步骤违反线性安全约束(具有高概率)。
translated by 谷歌翻译
我们解决了通过在线后退地平线控制(RHC)的框架来控制控制未知线性动态系统的问题,以时代变化的成本函数。我们考虑控制算法不知道真正的系统模型的设置,并且只能访问固定长度(不与控制范围内的增长)预览未来成本函数。我们使用动态遗憾度量的算法表征了算法的性能,该算法被定义为算法产生的累积成本与后视行动中最佳动作顺序之间的差异。我们提出了两个不同的在线RHC算法来解决这个问题,即确定的等价RHC(CE-RHC)算法和乐观RHC(O-RHC)算法。我们表明,在模型估计的标准稳定假设下,CE-RHC算法实现$ \ Mathcal {O}(T ^ {2/3})$动态遗憾。然后,我们将此结果扩展到通过提出O-RHC算法仅适用于真实系统模型的稳定假设。我们表明O-RHC算法实现$ \ Mathcal {O}(T ^ {2/3})$动态遗憾,但有一些额外的计算。
translated by 谷歌翻译
我们考虑了学习eoiSodic安全控制政策的问题,这最小化了客观函数,同时满足必要的安全约束 - 都在学习和部署期间。我们使用具有未知转换概率函数的有限范围限制的Markov决策过程(CMDP)的有限范围限制的Markov决策过程(CMDP)制定了这种安全约束的强化学习(RL)问题。在这里,我们将安全要求造型为关于在所有学习集中必须满足的预期累计成本的限制。我们提出了一种基于模型的安全RL算法,我们称之为乐观 - 悲观的安全强化学习(OPSRL)算法,并表明它实现了$ \ TINDE {\ MATHCAL {O}}(S ^ {2} \ SQRT {啊^ {7} k} /(\ bar {c} - \ bar {c} _ {b}))$累积遗憾在学习期间没有违反安全限制,其中$ S $是州的数量,$ a $动作数量,$ H $是地平线长度,$ k $是学习剧集的数量,$(\ bar {c} - \ bar {c} _ {b})$是安全差距,即,约束值与已知安全基线政策的成本之间的差异。缩放为$ \ tilde {\ mathcal {o}}(\ sqrt {k})$与学习期间可能违反约束的传统方法相同,这意味着我们的算法尽管提供了一个额外的遗憾安全保证。我们的主要思想是利用乐观的探索方法,以悲观的约束实施来学习政策。这种方法同时激励了未知国家的探索,同时对访问可能违反安全限制的国家施加罚款。我们通过对传统方法的基准问题进行评估来验证我们的算法。
translated by 谷歌翻译
我们研究在线学习问题,决策者必须采取一系列决策,但要受到$ M $长期约束。决策者的目标是最大程度地提高其总奖励,同时达到小累积约束,在$ t $回合中违规。我们介绍了此一般类问题的第一个最佳世界类型算法,在根据未知随机模型选择奖励和约束的情况下,无需保证,在它们的情况下,在他们的情况下选择了奖励和约束。在每个回合中由对手选择。我们的算法是关于满足长期约束的最佳固定策略的第一个在对抗环境中提供保证的算法。特别是,它保证了$ \ rho/(1+ \ rho)$的最佳奖励和额定性遗憾,其中$ \ rho $是与严格可行的解决方案有关的可行性参数。我们的框架采用传统的遗憾最小化器作为黑盒组件。因此,通过使用适当的遗憾最小化器进行实例化,它可以处理全反馈以及强盗反馈设置。此外,它允许决策者通过非凸奖励和约束无缝处理场景。我们展示了如何在重复拍卖的预算管理机制的背景下应用我们的框架,以保证不包装的长期约束(例如,ROI约束)。
translated by 谷歌翻译
在本文中,我们考虑了找到一种元学习在线控制算法的问题,该算法可以在面对$ n $(类似)控制任务的序列时可以在整个任务中学习。每个任务都涉及控制$ t $时间步骤的有限视野的线性动力系统。在采取控制动作之前,每个时间步骤的成本函数和系统噪声是对抗性的,并且控制器未知。元学习是一种广泛的方法,其目标是为任何新的未见任务开出在线政策,从其他任务中利用信息以及任务之间的相似性。我们为控制设置提出了一种元学习的在线控制算法,并通过\ textit {meta-regret}表征其性能,这是整个任务的平均累积后悔。我们表明,当任务数量足够大时,我们提出的方法实现了与独立学习的在线控制算法相比,$ d/d/d^{*} $较小的元regret,该算法不会在整个网上控制算法上进行学习任务,其中$ d $是一个问题常数,$ d^{*} $是标量,随着任务之间的相似性的增加而降低。因此,当任务的顺序相似时,提议的元学习在线控制的遗憾显着低于没有元学习的幼稚方法。我们还提出了实验结果,以证明我们的元学习算法获得的出色性能。
translated by 谷歌翻译
通过在线实验和违规学习中的实践需求激励,我们研究了安全最佳设计的问题,在那里我们开发了一个有效探索的数据记录策略,同时通过基线生产政策实现竞争奖励。我们首先展示,也许令人惊讶的是,尽管安全,但尽管安全,但尽管是安全的,但仍有统一探索的常见做法是最大化信息增益的次优。然后,我们提出了一个安全的最佳日志记录策略,因为没有有关操作的预期奖励的侧面信息。我们通过考虑侧面信息来改进这种设计,并且还通过线性奖励模型扩展到大量动作的方法。我们分析了我们的数据记录策略如何影响禁止策略学习中的错误。最后,我们通过进行广泛的实验,经验验证了我们设计的好处。
translated by 谷歌翻译
我们提出了一个\下划线{d} oully \下划线{o} \下划线{s} afe- \ \ useverline {l} inline {l} inear- \ usew suespline {b}和doslb的问题。安全的线性匪徒问题是使用随机的强盗反馈和动作安全风险的动作来优化未知的线性奖励,同时满足动作的未知圆形安全限制。与先前在汇总资源约束方面的工作相反,我们的公式明确要求控制环形安全风险。与现有的对安全匪徒的乐观态度范式不同,DOSLB练习至高无上,使用对奖励和安全得分的乐观估计来选择动作。然而,令人惊讶的是,我们表明doslb很少采取风险的行动,并获得了$ \ tilde {o}(d \ sqrt {t})$遗憾,在这里,我们对遗憾的概念既说明效率低下又缺乏行动的安全性。我们首先尤其表明$ \ sqrt {t} $ - 即使有较大的差距也无法改善遗憾的绑定,然后确定我们显示紧密的实例依赖性$ O(\ log(\ log),也无法改善,我们首先表明$ \ sqrt {t} $ - 遗憾的界限也无法改善,我们首先表明$ \ sqrt {t} $ - ^2 t)$边界。我们进一步认为,在这样的域中,播放过度风险的动作的次数也被限制为$ o(\ log^2t)$。
translated by 谷歌翻译
在对关键安全环境的强化学习中,通常希望代理在所有时间点(包括培训期间)服从安全性限制。我们提出了一种称为Spice的新型神经符号方法,以解决这个安全的探索问题。与现有工具相比,Spice使用基于符号最弱的先决条件的在线屏蔽层获得更精确的安全性分析,而不会不适当地影响培训过程。我们在连续控制基准的套件上评估了该方法,并表明它可以达到与现有的安全学习技术相当的性能,同时遭受较少的安全性违规行为。此外,我们提出的理论结果表明,在合理假设下,香料会收敛到最佳安全政策。
translated by 谷歌翻译
在将强化学习(RL)部署到现实世界系统中时,确保安全是一个至关重要的挑战。我们开发了基于置信的安全过滤器,这是一种基于概率动力学模型的标准RL技术,通过标准RL技术学到的名义策略来证明国家安全限制的控制理论方法。我们的方法基于对成本功能的国家约束的重新重新制定,从而将安全验证减少到标准RL任务。通过利用幻觉输入的概念,我们扩展了此公式,以确定对具有很高可能性的未知系统安全的“备份”策略。最后,在推出备用政策期间的每一个时间步骤中,标称政策的调整最少,以便以后可以保证安全恢复。我们提供正式的安全保证,并从经验上证明我们方法的有效性。
translated by 谷歌翻译
积极的学习方法在减少学习所需的样本数量方面表现出了巨大的希望。随着自动化学习系统被采用到实时的现实世界决策管道中,越来越重要的是,这种算法的设计考虑到了安全性。在这项工作中,我们研究了在互动环境中学习最佳安全决定的复杂性。我们将这个问题减少到约束的线性匪徒问题,我们的目标是找到满足某些(未知)安全限制的最佳手臂。我们提出了一种基于自适应的实验性设计算法,在显示ARM的难度与次优的难度之间,我们表现出了有效的交易。据我们所知,我们的结果是具有安全限制的线性匪徒最佳武器识别。实际上,我们证明了这种方法在合成和现实世界数据集上的表现很好。
translated by 谷歌翻译
强化学习被广泛用于在与环境互动时需要执行顺序决策的应用中。当决策要求包括满足一些安全限制时,问题就变得更加具有挑战性。该问题在数学上是作为约束的马尔可夫决策过程(CMDP)提出的。在文献中,可以通过无模型的方式解决各种算法来解决CMDP问题,以实现$ \ epsilon $ - 最佳的累积奖励,并使用$ \ epsilon $可行的政策。 $ \ epsilon $可行的政策意味着它遭受了违规的限制。这里的一个重要问题是,我们是否可以实现$ \ epsilon $ - 最佳的累积奖励,并违反零约束。为此,我们主张使用随机原始偶对偶方法来解决CMDP问题,并提出保守的随机原始二重算法(CSPDA),该算法(CSPDA)显示出$ \ tilde {\ tilde {\ Mathcal {o}} \ left(1 /\ epsilon^2 \ right)$样本复杂性,以实现$ \ epsilon $ - 最佳累积奖励,违反零约束。在先前的工作中,$ \ epsilon $ - 最佳策略的最佳可用样本复杂性是零约束的策略是$ \ tilde {\ Mathcal {o}}} \ left(1/\ epsilon^5 \ right)$。因此,与最新技术相比,拟议的算法提供了重大改进。
translated by 谷歌翻译
本文考虑了具有一般非线性约束的随机线性匪徒。目标是通过每轮$ \ Tau \ Leq T $的一组限制来最大化预期的累计奖励。我们提出了一种悲观的乐观乐观算法,其在两个方面有效。首先,算法产生$ \ tilde {\ cal o} \ left(\ left(\ frac {k ^ {0.75}} {\ delta}} {\ delta} + d \ over)\ sqrt {\ tau} \右)$(伪)在圆形$ \ tau \ leq t,$ k $的遗憾,$ k $是约束的数量,$ d $是奖励功能空间的尺寸,$ \ delta $ in是slater的常数;在任何圆形$ \ tau> \ tau'中的零限制违规,$ \ tau' $独立于地平线$ t. $ the $秒,算法是计算效率的。我们的算法基于优化中的原始方法,包括两个组件。原始分量类似于无约束的随机线性匪徒(我们的算法使用线性上置信界限算法(Linucb))。双组分的计算复杂性取决于约束的数量,而是与上下文空间,动作空间和特征空间的大小无关。因此,我们的算法的整体计算复杂性类似于线性UCB的线性UCB,用于无约束随机线性匪徒。
translated by 谷歌翻译
我们考虑通过有限的地平线$ t $控制线性二次调节器(LQR)系统的问题,以固定和已知的成本矩阵$ q,r $但未知和非静止动力$ \ {a_t,b_t \} $。动态矩阵的序列可以是任意的,但总体变化,V_T $,假设为$ O(t)$和控制器未知。在假设所有$ $ $的稳定序列,但潜在的子最优控制器中,我们介绍了一种实现$ \ tilde {\ mathcal {o}} \ left的最佳动态遗憾的算法(v_t ^ { 2/5} t ^ {3/5} \右)$。通过分词恒定动态,我们的算法实现了$ \ tilde {\ mathcal {o}}(\ sqrt {st})$的最佳遗憾,其中$ s $是交换机的数量。我们的算法的关键是一种自适应的非平稳性检测策略,它在最近开发的用于上下文多武装匪徒问题的方法中构建。我们还争辩说,不适应忘记(例如,重新启动或使用静态窗口大小的滑动窗口学习)可能对LQR问题的后悔最佳,即使窗口大小以$ V_T $的知识最佳地调整。我们算法分析中的主要技术挑战是证明普通的最小二乘(OLS)估计器在待估计的参数是非静止的情况下具有小的偏差。我们的分析还突出了推动遗憾的关键主题是LQR问题在于LQR问题是具有线性反馈和局部二次成本的强盗问题。这个主题比LQR问题本身更普及,因此我们相信我们的结果应该找到更广泛的应用。
translated by 谷歌翻译
在本文中,我们开发了一种新的虚拟队列在线在线凸优化(OCO)问题,具有长期和时变的约束,并对动态遗憾和约束违规进行性能分析。我们设计了一种新的Dual变量的新更新规则以及将时间变化约束函数的新方法集成到双变量中。据我们所知,我们的算法是第一个免费算法,可以同时实现Sublinear动态遗憾和约束违规。我们所提出的算法还优于最先进的结果,例如,在许多方面,例如,我们的算法不需要替换条件。同时,对于一组实际和广泛研究的约束oco问题,其中连续约束的变化在跨时时间流畅,我们的算法实现了$ O(1)$约束违规。此外,我们将算法和分析扩展到案例时,当时地平线$ T $未知。最后,进行了数值实验以验证我们算法的理论保证,并概述了我们提出的框架的一些应用。
translated by 谷歌翻译
尽管无奖励强化学习勘探阶段的主要目标(RF-RL)是减少具有最小轨迹数量的估计模型中的不确定性时间。目前尚不清楚这种安全的探索要求如何影响相应的样本复杂性,以实现所获得的计划中所需的最佳性。在这项工作中,我们首次尝试回答这个问题。特别是,我们考虑了事先知道安全基线政策的情况,并提出了一个统一的安全奖励探索(甜蜜)框架。然后,我们将甜蜜框架专门为表格和低级MDP设置,并分别开发出算法所构成的表格甜味和低级别甜味。两种算法都利用了新引入的截短值函数的凹度和连续性,并保证在探索过程中以高概率侵犯了零约束。此外,两种算法都可以在计划阶段的任何约束中找到近乎最佳的政策。值得注意的是,算法下的样本复杂性在无限制的对应物中匹配甚至超过最恒定因素的最新情况,这证明安全约束几乎不会增加RF-RL的样本复杂性。
translated by 谷歌翻译
我们考虑在随机凸成本和状态和成本函数的全部反馈下控制未知线性动力学系统的问题。我们提出了一种计算高效的算法,该算法与最佳的稳定线性控制器相比,该算法达到了最佳的$ \ sqrt {t} $遗憾。与以前的工作相反,我们的算法基于面对不确定性范式的乐观情绪。这导致了大大改善的计算复杂性和更简单的分析。
translated by 谷歌翻译
本文考虑了线性二次双控制问题,其中需要识别系统参数,并且需要在该时期优化控制目标。与现有的数据驱动线性二次调节相反,这通常在某种概率内提供错误或后悔界限,我们提出了一种在线算法,可以在几乎肯定的意义上保证控制器的渐近最优性。我们的双重控制策略由两部分组成:基于勘探噪声和系统输出之间的互相关,具有时间衰减探索噪声和Markov参数推断的交换控制器。当实际状态显着地从目标状态偏离时,几乎肯定的性能保证是一个安全的交换控制策略,其返回到已知的保守但稳定的控制器。我们证明,此切换策略规定了从应用中的任何潜在的稳定控制器,而我们的交换策略与最佳线性状态反馈之间的性能差距是指数较小的。在我们的双控制方案下,参数推理误差尺度为$ O(t ^ {-1 / 4 + \ epsilon})$,而控制性能的子优相差距为$ o(t ^ { - 1/2 + \ epsilon})$,$ t $是时间步数,$ \ epsilon $是一个任意小的正数。提供了工业过程示例的仿真结果,以说明我们提出的策略的有效性。
translated by 谷歌翻译
多武装强盗环境中最好的武器识别问题是许多真实世界决策问题的一个优秀模式,但它无法捕捉到现实世界中,在学习时通常必须满足安全限制的事实。在这项工作中,我们研究了安全关键环境中最好的武器识别问题,代理的目标是找到许多人的最佳安全选项,同时以保证某些方式达到满足肯定的方式的探索,最初是未知的安全约束。我们首先在奖励和安全约束采用线性结构的情况下分析此问题,并显示近乎匹配的上限和下限。然后,我们分析了更多的常规版本,我们只假设奖励和安全约束可以通过单调函数建模,并在此设置中提出算法,保证安全地学习。我们的结论与实验结果表明我们在方案中的方法的有效性,如安全地识别许多人以便治疗疾病。
translated by 谷歌翻译
在表演性预测中,预测模型的部署触发了数据分布的变化。由于这些转变通常是未知的,因此学习者需要部署模型以获取有关其引起的分布的反馈。我们研究了在性能下发现近乎最佳模型的问题,同时保持低廉的遗憾。从表面上看,这个问题似乎等同于强盗问题。但是,它表现出一种从根本上说的反馈结构,我们将其称为表演反馈:在每次部署后,学习者都会从转移的分布中收到样本,而不仅仅是关于奖励的强盗反馈。我们的主要贡献是一种算法,该算法仅随着分配的复杂性而不是奖励功能的复杂性而实现后悔的界限。该算法仅依赖于移位的平滑度,并且不假定凸度。此外,它的最终迭代保证是近乎最佳的。关键算法的想法是对分布变化的仔细探索,该分布变化为新颖的置信范围构造了未开发模型的风险。从更广泛的角度来看,我们的工作为从土匪文献中利用工具的概念方法建立了一种概念性方法,目的是通过表演性反馈最小化后悔的目的。
translated by 谷歌翻译
我们通过反馈信息研究了离线和在线上下文优化的问题,而不是观察损失,我们会在事后观察到最佳的动作,而是对目标功能充分了解的甲骨文。我们的目标是最大程度地减少遗憾,这被定义为我们的损失与全知的甲骨所产生的损失之间的区别。在离线设置中,决策者可以从过去段中获得信息,并且需要做出一个决策,而在在线环境中,决策者在每个时期内都会动态地基于一组新的可行动作和上下文功能,以动态进行决策。 。对于离线设置,我们表征了最佳的最小策略,确定可以实现的性能,这是数据引起的信息的基础几何形状的函数。在在线环境中,我们利用这种几何表征来优化累积遗憾。我们开发了一种算法,该算法在时间范围内产生了对数的第一个遗憾。
translated by 谷歌翻译