在许多实际控制应用中,由于植物特征的变化,闭环系统的性能水平随着时间而变化。因此,在不经过系统建模过程的情况下,非常需要重新设计控制器,这对于闭环系统通常很难。强化学习(RL)是一种有前途的方法之一,仅基于闭环系统的测量,可以为非线性动力学系统提供最佳控制器的无模型重新设计。但是,RL的学习过程需要使用可能会在植物上累积磨损的控制系统不良的系统进行大量试验实验。为了克服这一限制,我们提出了一种无模型的两步设计方法,该方法在未知非线性系统的最佳调节器重新设计问题中提高了RL的瞬态学习性能。具体而言,我们首先设计了一种线性控制定律,该法律以无模型的方式达到一定程度的控制性能,然后通过并行使用设计的线性控制法来训练非线性最佳控制法。我们引入了一种线性控制定律设计的离线RL算法,并理论上保证了其在轻度假设下与LQR控制器的收敛性。数值模拟表明,所提出的方法可以提高RL的超参数调整中的瞬态学习性能和效率。
translated by 谷歌翻译