在许多实际控制应用中,由于植物特征的变化,闭环系统的性能水平随着时间而变化。因此,在不经过系统建模过程的情况下,非常需要重新设计控制器,这对于闭环系统通常很难。强化学习(RL)是一种有前途的方法之一,仅基于闭环系统的测量,可以为非线性动力学系统提供最佳控制器的无模型重新设计。但是,RL的学习过程需要使用可能会在植物上累积磨损的控制系统不良的系统进行大量试验实验。为了克服这一限制,我们提出了一种无模型的两步设计方法,该方法在未知非线性系统的最佳调节器重新设计问题中提高了RL的瞬态学习性能。具体而言,我们首先设计了一种线性控制定律,该法律以无模型的方式达到一定程度的控制性能,然后通过并行使用设计的线性控制法来训练非线性最佳控制法。我们引入了一种线性控制定律设计的离线RL算法,并理论上保证了其在轻度假设下与LQR控制器的收敛性。数值模拟表明,所提出的方法可以提高RL的超参数调整中的瞬态学习性能和效率。
translated by 谷歌翻译
现有的数据驱动和反馈流量控制策略不考虑实时数据测量的异质性。此外,对于缺乏数据效率,传统的加固学习方法(RL)方法通常会缓慢收敛。此外,常规的最佳外围控制方案需要对系统动力学的精确了解,因此对内源性不确定性会很脆弱。为了应对这些挑战,这项工作提出了一种基于不可或缺的增强学习(IRL)的方法来学习宏观交通动态,以进行自适应最佳周边控制。这项工作为运输文献做出了以下主要贡献:(a)开发连续的时间控制,并具有离散增益更新以适应离散时间传感器数据。 (b)为了降低采样复杂性并更有效地使用可用数据,将体验重播(ER)技术引入IRL算法。 (c)所提出的方法以“无模型”方式放松模型校准的要求,该方式可以稳健地进行建模不确定性,并通过数据驱动的RL算法增强实时性能。 (d)通过Lyapunov理论证明了基于IRL的算法和受控交通动力学的稳定性的收敛性。最佳控制定律被参数化,然后通过神经网络(NN)近似,从而缓解计算复杂性。在不需要模型线性化的同时,考虑了状态和输入约束。提出了数值示例和仿真实验,以验证所提出方法的有效性和效率。
translated by 谷歌翻译
最近,基于障碍函数的安全强化学习(RL)与actor-批评结构用于连续控制任务的批评结构已经受到越来越受到关注。使用安全性和收敛保证,学习近最优控制政策仍然挑战。此外,很少有效地解决了在时变的安全约束下的安全RL算法设计。本文提出了一种基于模型的安全RL算法,用于具有时变状态和控制约束的非线性系统的最佳控制。在拟议的方法中,我们构建了一种新的基于障碍的控制策略结构,可以保证控制安全性。提出了一种多步骤策略评估机制,以预测策略在时变的安全限制下的安全风险,并指导政策安全更新。证明了稳定性和稳健性的理论结果。此外,分析了演员 - 评论家学习算法的收敛。所提出的算法的性能优于模拟安全健身房环境中的几种最先进的RL算法。此外,该方法适用于两个现实世界智能车辆的综合路径和碰撞避免问题。差动驱动车辆和Ackermann-Drive分别用于验证离线部署性能和在线学习性能。我们的方法在实验中显示了令人印象深刻的SIM-to-Real的转移能力和令人满意的在线控制性能。
translated by 谷歌翻译
如今,数据可以丰富地访问,并且计算功能越来越强大,可以合理地处理大数据。这种了不起的场景为解决一些以前难以分析和解决的控制问题提供了一种新的方法。在本文中,提出了一种新型的控制方法,即具有模式(CWP)的控制方法,以处理与受离散控制约束集的非线性动力学系统相对应的数据集。对于此类数据集,提出了一个新的定义,即数据集中的指数吸引力,以描述正在考虑的非线性动力学系统。基于数据集和参数化的Lyapunov函数,数据集中的指数吸引力的问题转换为模式分类。此外,相应地提出了控制器设计,其中使用模式分类函数来确定应使用控制集中的哪个控制元素。给出了说明性示例以显示拟议的CWP的有效性。
translated by 谷歌翻译
影响模型预测控制(MPC)策略的神经网络(NN)近似的常见问题是缺乏分析工具来评估基于NN的控制器的动作下闭环系统的稳定性。我们介绍了一种通用过程来量化这种控制器的性能,或者设计具有整流的线性单元(Relus)的最小复杂性NN,其保留给定MPC方案的理想性质。通过量化基于NN和基于MPC的状态到输入映射之间的近似误差,我们首先建立适当的条件,涉及两个关键量,最坏情况误差和嘴唇截止恒定,保证闭环系统的稳定性。然后,我们开发了一个离线,混合整数的基于优化的方法,以确切地计算这些数量。这些技术共同提供足以认证MPC控制法的基于Relu的近似的稳定性和性能的条件。
translated by 谷歌翻译
模型预测控制(MPC)越来越多地考虑控制快速系统和嵌入式应用。然而,MPC对这种系统具有一些重大挑战。其高计算复杂性导致来自控制算法的高功耗,这可能考虑电池供电嵌入式系统中的能量资源的大量份额。必须调整MPC参数,这主要是一个试验和错误过程,这些过程会影响控制器的控制性能,鲁棒性和计算复杂度高度。在本文中,我们提出了一种新颖的框架,其中可以使用加强学习(RL)共同调整控制算法的任何参数,其目的是同时优化控制算法的控制性能和功率使用。我们提出了优化MPCWith RL的元参数的新颖思想,即影响MPCPROBLAB的结构的参数,而不是给定个问题的解决方案。我们的控制算法基于事件触发的MPC,在那里我们学习当应该重新计算MPC时,以及在MPC计算之间应用的双模MPC和线性状态反馈控制法。我们制定了一种新的混合分配政策,并表明,随着联合优化,我们在孤立地优化相同参数时,无法呈现自己的改进。我们展示了我们对倒立摆控制任务的框架,将控制系统的总计算时间减少了36%,同时还通过最佳性能的MPC基线提高了18.4%的控制性能。
translated by 谷歌翻译
在过去的十年中,由于分散控制应用程序的趋势和网络物理系统应用的出现,网络控制系统在过去十年中引起了广泛的关注。但是,由于无线网络的复杂性质,现实世界中无线网络控制系统的通信带宽,可靠性问题以及对网络动态的认识不足。将机器学习和事件触发的控制结合起来有可能减轻其中一些问题。例如,可以使用机器学习来克服缺乏网络模型的问题,通过学习系统行为或通过不断学习模型动态来适应动态变化的模型。事件触发的控制可以通过仅在必要时或可用资源时传输控制信息来帮助保护通信带宽。本文的目的是对有关机器学习的使用与事件触发的控制的使用进行综述。机器学习技术,例如统计学习,神经网络和基于强化的学习方法,例如深入强化学习,并结合事件触发的控制。我们讨论如何根据机器学习使用的目的将这些学习算法用于不同的应用程序。在对文献的审查和讨论之后,我们重点介绍了与基于机器学习的事件触发的控制并提出潜在解决方案相关的开放研究问题和挑战。
translated by 谷歌翻译
本文提出了一种校准控制参数的方法。这种控制参数的示例是PID控制器的增益,优化控制的成本函数的权重,过滤器系数,滑动模式控制器的滑动表面,或神经网络的权重。因此,所提出的方法可以应用于各种控制器。该方法使用闭环系统操作数据来估计控制参数而不是系统状态的卡尔曼滤波器。控制参数校准由训练目标驱动,其包括对动态系统性能的规范。校准方法在线和强大地调整参数,是计算效率,具有低数据存储要求,并且易于实现对许多实时应用的吸引力。仿真结果表明,该方法能够快速学习控制参数(闭环成本的平均衰减因子大约24%),能够调整参数来补偿干扰(跟踪精度的提高约29%),并且是坚固的噪音。此外,具有高保真车辆模拟器Carim的仿真研究表明,该方法可以在线校准复杂动态系统的控制器,这表明其对现实世界的适用性。
translated by 谷歌翻译
加固学习算法可以解决动态决策和最优控制问题。通过连续值的状态和输入变量,强化学习算法必须依赖函数近似器来表示值函数和策略映射。常用的数值近似器,如神经网络或基础函数扩展,具有两个主要缺点:它们是黑匣子型号,可以对学习的映射有很小的洞察力,并且他们需要广泛的试验和错误调整它们的超参数。在本文中,我们通过使用符号回归提出了一种以分析表达式的形式构建平滑值函数的新方法。我们介绍了三种离线方法,用于基于状态转换模型查找值函数:符号值迭代,符号策略迭代,以及Bellman方程的直接解决方案。该方法在四个非线性控制问题上说明:速度控制摩擦力控制,单键和双连杆摆动,和磁操作。结果表明,该价值函数产生良好的策略,并紧凑,数学上易行,易于插入其他算法。这使得它们可能适用于进一步分析闭环系统。使用神经网络的替代方法的比较表明,我们的方法优于基于神经网络的方法。
translated by 谷歌翻译
稳定性认证并确定安全稳定的初始集是确保动态系统的操作安全性,稳定性和鲁棒性的两个重要问题。随着机器学习工具的出现,需要针对反馈循环中具有机器学习组件的系统来解决这些问题。为了开发一种关于神经网络(NN)控制的非线性系统的稳定性和稳定性的一般理论,提出了基于Lyapunov的稳定性证书,并进一步用于设计用于NN Controller和NN控制器和最大LIPSCHITZ绑定的。也是给定的安全操作域内内部相应的最大诱因(ROA)。为了计算这种强大的稳定NN控制器,它也最大化了系统的长期实用程序,提出了稳定性保证训练(SGT)算法。提出的框架的有效性通过说明性示例得到了验证。
translated by 谷歌翻译
本文考虑了线性二次双控制问题,其中需要识别系统参数,并且需要在该时期优化控制目标。与现有的数据驱动线性二次调节相反,这通常在某种概率内提供错误或后悔界限,我们提出了一种在线算法,可以在几乎肯定的意义上保证控制器的渐近最优性。我们的双重控制策略由两部分组成:基于勘探噪声和系统输出之间的互相关,具有时间衰减探索噪声和Markov参数推断的交换控制器。当实际状态显着地从目标状态偏离时,几乎肯定的性能保证是一个安全的交换控制策略,其返回到已知的保守但稳定的控制器。我们证明,此切换策略规定了从应用中的任何潜在的稳定控制器,而我们的交换策略与最佳线性状态反馈之间的性能差距是指数较小的。在我们的双控制方案下,参数推理误差尺度为$ O(t ^ {-1 / 4 + \ epsilon})$,而控制性能的子优相差距为$ o(t ^ { - 1/2 + \ epsilon})$,$ t $是时间步数,$ \ epsilon $是一个任意小的正数。提供了工业过程示例的仿真结果,以说明我们提出的策略的有效性。
translated by 谷歌翻译
在最近的文献中,学习方法与模型预测控制(MPC)的结合吸引了大量关注。这种组合的希望是减少MPC方案对准确模型的依赖,并利用快速开发的机器学习和强化学习工具,以利用许多系统可用的数据量。特别是,增强学习和MPC的结合已被认为是一种可行且理论上合理的方法,以引入可解释的,安全和稳定的政策,以实现强化学习。但是,一种正式的理论详细介绍了如何通过学习工具提供的参数更新来维持基于MPC的策略的安全性和稳定性。本文解决了这一差距。该理论是针对通用的强大MPC案例开发的,并在基于强大的管线MPC情况的模拟中应用,在该情况下,该理论在实践中很容易部署。本文着重于增强学习作为学习工具,但它适用于任何在线更新MPC参数的学习方法。
translated by 谷歌翻译
强化学习通常与奖励最大化(或成本量化)代理的培训相关,换句话说是控制者。它可以使用先验或在线收集的系统数据以无模型或基于模型的方式应用,以培训涉及的参数体系结构。通常,除非通过学习限制或量身定制的培训规则采取特殊措施,否则在线增强学习不能保证闭环稳定性。特别有希望的是通过“经典”控制方法进行增强学习的混合体。在这项工作中,我们建议一种在纯粹的在线学习环境中,即没有离线培训的情况下,可以保证系统控制器闭环的实际稳定性。此外,我们仅假设对系统模型的部分知识。为了达到要求的结果,我们采用经典自适应控制技术。总体控制方案的实施是在数字,采样设置中明确提供的。也就是说,控制器接收系统的状态,并在离散的时间(尤其是等距的时刻)中计算控制动作。该方法在自适应牵引力控制和巡航控制中进行了测试,事实证明,该方法可显着降低成本。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
强化学习(RL)文献的最新进展使机器人主义者能够在模拟环境中自动训练复杂的政策。但是,由于这些方法的样本复杂性差,使用现实世界数据解决强化学习问题仍然是一个具有挑战性的问题。本文介绍了一种新颖的成本整形方法,旨在减少学习稳定控制器所需的样品数量。该方法添加了一个涉及控制Lyapunov功能(CLF)的术语 - 基于模型的控制文献的“能量样”功能 - 到典型的成本配方。理论结果表明,新的成本会导致使用较小的折现因子时稳定控制器,这是众所周知的,以降低样品复杂性。此外,通过确保即使是高度亚最佳的策略也可以稳定系统,添加CLF术语“鲁棒化”搜索稳定控制器。我们通过两个硬件示例演示了我们的方法,在其中我们学习了一个cartpole的稳定控制器和仅使用几秒钟和几分钟的微调数据的A1稳定控制器。
translated by 谷歌翻译
可变形线性对象(DLOS)的机器人操纵在许多领域都具有广泛的应用前景。但是,一个关键问题是获得确切的变形模型(即机器人运动如何影响DLO变形),这些模型在不同的DLOS之间很难计算和变化。因此,DLOS的形状控制具有挑战性,尤其是对于需要全球和更准确模型的大型变形控制。在本文中,我们提出了一种离线和在线数据驱动的方法,用于有效地学习全球变形模型,从而可以通过离线学习进行准确的建模,并通过在线适应进行新的DLOS进行进一步更新。具体而言,由神经网络近似的模型首先是在随机数据的离线训练中,然后无缝迁移到在线阶段,并在实际操纵过程中进一步在线更新。引入了几种策略,以提高模型的效率和泛化能力。我们提出了一个基于凸优化的控制器,并使用Lyapunov方法分析系统的稳定性。详细的仿真和现实世界实验表明,我们的方法可以有效,精确地估计变形模型,并在2D和3D双臂操纵任务中对未经训练的DLO进行大型变形控制,而不是现有方法。它仅使用仿真数据进行离线学习来完成所有24个任务,并在现实世界中不同的DLO上具有不同的所需形状。
translated by 谷歌翻译
本文开发了一种基于模型的强化学习(MBR)框架,用于在线在线学习无限范围最佳控制问题的价值函数,同时遵循表示为控制屏障功能(CBFS)的安全约束。我们的方法是通过开发一种新型的CBFS,称为Lyapunov样CBF(LCBF),其保留CBFS的有益特性,以开发最微创的安全控制政策,同时也具有阳性半自动等所需的Lyapunov样品质 - 义法。我们展示这些LCBFS如何用于增强基于学习的控制策略,以保证安全性,然后利用这种方法在MBRL设置中开发安全探索框架。我们表明,我们的开发方法可以通过各种数值示例来处理比较法的更通用的安全限制。
translated by 谷歌翻译
响应于不同规格的产品的不断变化的原料供应和市场需求,需要在时变的操作条件和目标(例如,设定值)的过程中运行,以改善过程经济,与预定的传统过程操作相比均衡。本文开发了一种用于非线性化学过程的基于收缩理论的控制方法,以实现时变参考跟踪。这种方法利用神经网络的通用近似特征,采用离散时间收缩分析和控制。它涉及训练神经网络以学习嵌入基于收缩的控制器中的收缩度量和差分反馈增益。第二个,单独的神经网络也结合到控制循环中,以在线学习不确定系统模型参数。得到的控制方案能够实现有效的偏移跟踪时变的参考,其具有全范围的模型不确定性,而无需控制器结构作为参考变化重新设计。这是一种强大的方法,可以在工艺模型中处理流程模型中的有界参数不确定性,这些方法通常遇到工业(化学)过程中。这种方法还确保在线同时学习和控制期间的过程稳定性。提供模拟实施例以说明上述方法。
translated by 谷歌翻译
基于政策的强化学习(RL)最近的经验成功,有一项研究趋势,研究了基于政策的RL方法对标准控制基准问题的研究。在本文中,我们研究了基于政策的RL方法的有效性在重要的强大控制问题上,即$ \ mu $综合。我们在强大的对策RL和$ \ mu $综合之间建立连接,并开发出众所周知的$ DK $ antication的无模型版本,用于解决静态$ d $-scaling的状态反馈$ \ mu $ synthesis。在所提出的算法中,$ k $步骤通过将最近开发的双循环对冲RL方法作为子程序来模仿经典的中央路径算法,$ D $步骤基于无模型有限差分近似。还提出了广泛的数值研究以展示我们提出的无模型算法的效用。我们的研究揭示了对抗对抗和鲁棒控制之间的联系。
translated by 谷歌翻译
由于存在动态变化,在标称环境中培训的强化学习(RL)控制策略可能在新的/扰动环境中失败。为了控制具有连续状态和动作空间的系统,我们提出了一种加载方法,通过使用$ \ mathcal {l} _ {1} $自适应控制器($ \ mathcal {l} _{1} $ AC)。利用$ \ mathcal {l} _ {1} $ AC的能力进行快速估计和动态变化的主动补偿,所提出的方法可以提高RL策略的稳健性,该策略在模拟器或现实世界中培训不考虑广泛的动态变化。数值和现实世界实验经验证明了所提出的方法在使用无模型和基于模型的方法训练的RL政策中的强制性策略的功效。用于真正的拼图设置实验的视频是可用的://youtu.be/xgob9vpyuge。
translated by 谷歌翻译