事件触发的模型预测控制(EMPC)是一种流行的最佳控制方法,旨在减轻MPC的计算和/或通信负担。但是,通常需要先验了解闭环系统行为以及设计事件触发策略的通信特征。本文试图通过提出有效的EMPC框架来解决这一挑战,并在随后的自动驾驶汽车路径上成功实施了该框架。首先,使用无模型的加固学习(RL)代理用于学习最佳的事件触发策略,而无需在此框架中具有完整的动态系统和通信知识。此外,还采用了包括优先经验重播(PER)缓冲区和长期术语记忆(LSTM)的技术来促进探索和提高训练效率。在本文中,我们使用提出的三种深度RL算法的拟议框架,即双Q学习(DDQN),近端策略优化(PPO)和软参与者 - 批评(SAC),以解决此问题。实验结果表明,所有三个基于RL的EMPC(DEEP-RL-EMPC)都比在自动途径下的常规阈值和以前的基于线性Q的方法获得更好的评估性能。特别是,具有LSTM和DDQN-EMPC的PPO-EMPC具有PER和LSTM的PPO-EMPC在闭环控制性能和事件触发频率之间获得了较高的平衡。关联的代码是开源的,可在以下网址提供:https://github.com/dangfengying/rl基础基础 - event-triggered-mpc。
translated by 谷歌翻译
在许多机器人和工业应用中,传统的线性控制策略已经广泛研究和使用,但它们不应响应系统的总动态,以避免对非线性控制等非线性控制方案的繁琐计算,加强学习的预测控制应用可以提供替代解决方案本文介绍了在移动自拍的深度确定性政策梯度和近端策略优化的情况下实现了RL控制的实现,在移动自拍伸直倒立摆片EWIP系统这样的RL模型使得找到满意控制方案的任务更容易,并在自我调整时有效地响应动态。在本文中提供更好控制的参数,两个RL基础控制器被针对MPC控制器捕获,以基于EWIP系统的状态变量进行评估,同时遵循特定的所需轨迹
translated by 谷歌翻译
本文解决了当参与需求响应(DR)时优化电动汽车(EV)的充电/排放时间表的问题。由于电动汽车的剩余能量,到达和出发时间以及未来的电价中存在不确定性,因此很难做出充电决定以最大程度地减少充电成本,同时保证电动汽车的电池最先进(SOC)在内某些范围。为了解决这一难题,本文将EV充电调度问题制定为Markov决策过程(CMDP)。通过协同结合增强的Lagrangian方法和软演员评论家算法,本文提出了一种新型安全的非政策钢筋学习方法(RL)方法来解决CMDP。通过Lagrangian值函数以策略梯度方式更新Actor网络。采用双重危机网络来同步估计动作值函数,以避免高估偏差。所提出的算法不需要强烈的凸度保证,可以保证被检查的问题,并且是有效的样本。现实世界中电价的全面数值实验表明,我们提出的算法可以实现高解决方案最佳性和约束依从性。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
The high emission and low energy efficiency caused by internal combustion engines (ICE) have become unacceptable under environmental regulations and the energy crisis. As a promising alternative solution, multi-power source electric vehicles (MPS-EVs) introduce different clean energy systems to improve powertrain efficiency. The energy management strategy (EMS) is a critical technology for MPS-EVs to maximize efficiency, fuel economy, and range. Reinforcement learning (RL) has become an effective methodology for the development of EMS. RL has received continuous attention and research, but there is still a lack of systematic analysis of the design elements of RL-based EMS. To this end, this paper presents an in-depth analysis of the current research on RL-based EMS (RL-EMS) and summarizes the design elements of RL-based EMS. This paper first summarizes the previous applications of RL in EMS from five aspects: algorithm, perception scheme, decision scheme, reward function, and innovative training method. The contribution of advanced algorithms to the training effect is shown, the perception and control schemes in the literature are analyzed in detail, different reward function settings are classified, and innovative training methods with their roles are elaborated. Finally, by comparing the development routes of RL and RL-EMS, this paper identifies the gap between advanced RL solutions and existing RL-EMS. Finally, this paper suggests potential development directions for implementing advanced artificial intelligence (AI) solutions in EMS.
translated by 谷歌翻译
With the growing need to reduce energy consumption and greenhouse gas emissions, Eco-driving strategies provide a significant opportunity for additional fuel savings on top of other technological solutions being pursued in the transportation sector. In this paper, a model-free deep reinforcement learning (RL) control agent is proposed for active Eco-driving assistance that trades-off fuel consumption against other driver-accommodation objectives, and learns optimal traction torque and transmission shifting policies from experience. The training scheme for the proposed RL agent uses an off-policy actor-critic architecture that iteratively does policy evaluation with a multi-step return and policy improvement with the maximum posteriori policy optimization algorithm for hybrid action spaces. The proposed Eco-driving RL agent is implemented on a commercial vehicle in car following traffic. It shows superior performance in minimizing fuel consumption compared to a baseline controller that has full knowledge of fuel-efficiency tables.
translated by 谷歌翻译
移动机器人的成功操作要求它们迅速适应环境变化。为了为移动机器人开发自适应决策工具,我们提出了一种新颖的算法,该算法将元强化学习(META-RL)与模型预测控制(MPC)相结合。我们的方法采用额外的元元素算法作为基线,以使用MPC生成的过渡样本来训练策略,当机器人检测到某些事件可以通过MPC有效处理的某些事件,并明确使用机器人动力学。我们方法的关键思想是以随机和事件触发的方式在元学习策略和MPC控制器之间进行切换,以弥补由有限的预测范围引起的次优MPC动作。在元测试期间,将停用MPC模块,以显着减少运动控制中的计算时间。我们进一步提出了一种在线适应方案,该方案使机器人能够在单个轨迹中推断并适应新任务。通过使用(i)障碍物的合成运动和(ii)现实世界的行人运动数据,使用非线性汽车样的车辆模型来证明我们方法的性能。模拟结果表明,我们的方法在学习效率和导航质量方面优于其他算法。
translated by 谷歌翻译
在过去的十年中,由于分散控制应用程序的趋势和网络物理系统应用的出现,网络控制系统在过去十年中引起了广泛的关注。但是,由于无线网络的复杂性质,现实世界中无线网络控制系统的通信带宽,可靠性问题以及对网络动态的认识不足。将机器学习和事件触发的控制结合起来有可能减轻其中一些问题。例如,可以使用机器学习来克服缺乏网络模型的问题,通过学习系统行为或通过不断学习模型动态来适应动态变化的模型。事件触发的控制可以通过仅在必要时或可用资源时传输控制信息来帮助保护通信带宽。本文的目的是对有关机器学习的使用与事件触发的控制的使用进行综述。机器学习技术,例如统计学习,神经网络和基于强化的学习方法,例如深入强化学习,并结合事件触发的控制。我们讨论如何根据机器学习使用的目的将这些学习算法用于不同的应用程序。在对文献的审查和讨论之后,我们重点介绍了与基于机器学习的事件触发的控制并提出潜在解决方案相关的开放研究问题和挑战。
translated by 谷歌翻译
深钢筋学习(DRL)被视为一种潜在的方法来控制汽车控制,并主要研究以支持一辆接下来的车辆。但是,在排中有多个以下车辆,尤其是在不可预测的领先车辆行为中,学习稳定,高效的汽车跟随政策是更具挑战性的。在这种情况下,我们采用集成的DRL和动态编程(DP)方法来学习自主排控制策略,该政策将深层确定性策略梯度(DDPG)算法嵌入到有限的 - Horizo​​n值迭代框架中。尽管DP框架可以提高DDPG的稳定性和性能,但它具有较低的采样和训练效率的局限性。在本文中,我们提出了一种算法,即有限的horizo​​n-ddpg,使用固定近似(FH-DDPG-SS)通过减少状态空间(FH-DDPG-SS)进行扫描,该算法使用三个关键思想来克服上述限制,即,即将网络权重转移到向后转移的网络权重。时间,较早的时间步骤的固定政策近似,并通过减少的状态空间进行扫描。为了验证FH-DDPG-SS的有效性,使用实际驾驶数据进行了模拟,其中将FH-DDPG-SS的性能与基准算法的性能进行了比较。最后,展示了FH-DDPG-SS的排安全性和弦稳定性。
translated by 谷歌翻译
本文探讨了强化学习(RL)模型用于自动赛车的使用。与安全车是头等大事的乘用车相反,赛车的目的是最大程度地减少单圈时间。我们将问题视为一项强化学习任务,其中包括由车辆遥测组成的多维输入和连续的动作空间。为了找出哪种RL方法更好地解决了问题,以及获得的模型是否推广到未知轨道上,我们将10种深层确定性策略梯度(DDPG)变体进行了两个实验:i)〜研究RL方法如何学习驱动驱动赛车和ii)研究学习方案如何影响模型的推广能力。我们的研究表明,接受RL训练的模型不仅能够比基线开源手工机器人更快地驾驶,而且还可以推广到未知轨道。
translated by 谷歌翻译
Reinforcement learning (RL) requires skillful definition and remarkable computational efforts to solve optimization and control problems, which could impair its prospect. Introducing human guidance into reinforcement learning is a promising way to improve learning performance. In this paper, a comprehensive human guidance-based reinforcement learning framework is established. A novel prioritized experience replay mechanism that adapts to human guidance in the reinforcement learning process is proposed to boost the efficiency and performance of the reinforcement learning algorithm. To relieve the heavy workload on human participants, a behavior model is established based on an incremental online learning method to mimic human actions. We design two challenging autonomous driving tasks for evaluating the proposed algorithm. Experiments are conducted to access the training and testing performance and learning mechanism of the proposed algorithm. Comparative results against the state-of-the-art methods suggest the advantages of our algorithm in terms of learning efficiency, performance, and robustness.
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
为设计控制器选择适当的参数集对于最终性能至关重要,但通常需要一个乏味而仔细的调整过程,这意味着强烈需要自动调整方法。但是,在现有方法中,无衍生物的可扩展性或效率低下,而基于梯度的方法可能由于可能是非差异的控制器结构而无法使用。为了解决问题,我们使用新颖的无衍生化强化学习(RL)框架来解决控制器调整问题,该框架在经验收集过程中在参数空间中执行时间段的扰动,并将无衍生策略更新集成到高级参与者 - 批判性RL中实现高多功能性和效率的体系结构。为了证明该框架的功效,我们在自动驾驶的两个具体示例上进行数值实验,即使用PID控制器和MPC控制器进行轨迹跟踪的自适应巡航控制。实验结果表明,所提出的方法的表现优于流行的基线,并突出了其强大的控制器调整潜力。
translated by 谷歌翻译
本文为基于MPC的基于MPC模型的增强学习方法的计划模块提出了一个新的评分功能,以解决使用奖励功能得分轨迹的固有偏见。所提出的方法使用折现价值和折扣价值提高了现有基于MPC的MBRL方法的学习效率。该方法利用最佳轨迹来指导策略学习,并根据现实世界更新其状态行动价值函数,并增强板载数据。在选定的Mujoco健身环境中评估了所提出方法的学习效率,以及在学习的模拟机器人模型中学习运动技能。结果表明,所提出的方法在学习效率和平均奖励回报方面优于当前的最新算法。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
当任何安全违规可能导致灾难性失败时,赛车要求每个车辆都能在其物质范围内驾驶。在这项工作中,我们研究了自主赛车的安全强化学习(RL)的问题,使用车辆的自我摄像机视图和速度作为输入。鉴于任务的性质,自主代理需要能够1)识别并避免复杂的车辆动态下的不安全场景,而2)在快速变化的环境中使子第二决定。为了满足这些标准,我们建议纳入汉密尔顿 - 雅各(HJ)可达性理论,是一般非线性系统的安全验证方法,进入受约束的马尔可夫决策过程(CMDP)框架。 HJ可达性不仅提供了一种了解安全的控制理论方法,还可以实现低延迟安全验证。尽管HJ可达性传统上不可扩展到高维系统,但我们证明了具有神经逼近的,可以直接在视觉上下文中学习HJ安全值 - 迄今为止通过该方法研究的最高尺寸问题。我们在最近发布的高保真自主赛车环境中评估了我们在几个基准任务中的方法,包括安全健身房和学习(L2R)。与安全健身房的其他受约束的RL基线相比,我们的方法非常少的限制性违规,并在L2R基准任务上实现了新的最先进结果。我们在以下匿名纸质网站提供额外可视化代理行为:https://sites.google.com/view/safeautomouracing/home
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
Machine learning frameworks such as Genetic Programming (GP) and Reinforcement Learning (RL) are gaining popularity in flow control. This work presents a comparative analysis of the two, bench-marking some of their most representative algorithms against global optimization techniques such as Bayesian Optimization (BO) and Lipschitz global optimization (LIPO). First, we review the general framework of the model-free control problem, bringing together all methods as black-box optimization problems. Then, we test the control algorithms on three test cases. These are (1) the stabilization of a nonlinear dynamical system featuring frequency cross-talk, (2) the wave cancellation from a Burgers' flow and (3) the drag reduction in a cylinder wake flow. We present a comprehensive comparison to illustrate their differences in exploration versus exploitation and their balance between `model capacity' in the control law definition versus `required complexity'. We believe that such a comparison paves the way toward the hybridization of the various methods, and we offer some perspective on their future development in the literature on flow control problems.
translated by 谷歌翻译
深度加强学习(RL)是一种优化驱动的框架,用于生产一般动力系统的控制策略,而无明确依赖过程模型。仿真报告了良好的结果。在这里,我们展示了在真实物理系统上实现了艺术深度RL算法状态的挑战。方面包括软件与现有硬件之间的相互作用;实验设计和样品效率;培训受输入限制;和算法和控制法的解释性。在我们的方法中,我们的方法是使用PID控制器作为培训RL策略。除了简单性之外,这种方法还具有多种吸引力功能:无需将额外的硬件添加到控制系统中,因为PID控制器可以通过标准可编程逻辑控制器轻松实现;控制法可以在参数空间的“安全”区域中很容易初始化;最终产品 - 一个调整良好的PID控制器 - 有一种形式,从业者可以充分推理和部署。
translated by 谷歌翻译
在包装交付,交通监控,搜索和救援操作以及军事战斗订婚等不同应用中,对使用无人驾驶汽车(UAV)(无人机)的需求越来越不断增加。在所有这些应用程序中,无人机用于自动导航环境 - 没有人类互动,执行特定任务并避免障碍。自主无人机导航通常是使用强化学习(RL)来完成的,在该学习中,代理在域中充当专家在避免障碍的同时导航环境。了解导航环境和算法限制在选择适当的RL算法以有效解决导航问题方面起着至关重要的作用。因此,本研究首先确定了无人机导航任务,并讨论导航框架和仿真软件。接下来,根据环境,算法特征,能力和不同无人机导航问题的应用程序对RL算法进行分类和讨论,这将帮助从业人员和研究人员为其无人机导航使用情况选择适当的RL算法。此外,确定的差距和机会将推动无人机导航研究。
translated by 谷歌翻译