在这项工作中,我们提出了一种基于物理信息引导元进化策略(ES)的新型数据驱动的实时电力系统电压控制方法。主要目标是快速提供自适应控制策略来减轻故障引起的延迟电压恢复(FIDVR)问题。已经为相同或类似的具有挑战性的控制问题制定了强化学习方法,但它们遭受培训效率低下,“角落或看不见”情景缺乏鲁棒性。另一方面,在电力系统中开发了广泛的物理知识,但基于学习的方法很少有利于。为了解决这些挑战,我们介绍了可训练的动作掩模技术,以灵活地将物理知识嵌入到RL模型中,以排除不必要或不利的行动,并达到样本效率,控制性能和鲁棒性的显着改善。此外,我们的方法利用过去学习体验来导出代理梯度,以指导和加速培训勘探过程。与其他最先进的基准方法的IEEE 300座系统和比较案例研究表明了我们方法的有效性和优势。
translated by 谷歌翻译
This article proposes a model-based deep reinforcement learning (DRL) method to design emergency control strategies for short-term voltage stability problems in power systems. Recent advances show promising results in model-free DRL-based methods for power systems, but model-free methods suffer from poor sample efficiency and training time, both critical for making state-of-the-art DRL algorithms practically applicable. DRL-agent learns an optimal policy via a trial-and-error method while interacting with the real-world environment. And it is desirable to minimize the direct interaction of the DRL agent with the real-world power grid due to its safety-critical nature. Additionally, state-of-the-art DRL-based policies are mostly trained using a physics-based grid simulator where dynamic simulation is computationally intensive, lowering the training efficiency. We propose a novel model-based-DRL framework where a deep neural network (DNN)-based dynamic surrogate model, instead of a real-world power-grid or physics-based simulation, is utilized with the policy learning framework, making the process faster and sample efficient. However, stabilizing model-based DRL is challenging because of the complex system dynamics of large-scale power systems. We solved these issues by incorporating imitation learning to have a warm start in policy learning, reward-shaping, and multi-step surrogate loss. Finally, we achieved 97.5% sample efficiency and 87.7% training efficiency for an application to the IEEE 300-bus test system.
translated by 谷歌翻译
在电压负载下,已被认为是在紧急情况下恢复电力电网电压稳定性的标准方法,但该方案通常越来越大的负载量。加强学习(RL)被采用作为一种有希望的方法来规避问题;但是,RL方法通常不能保证控制系统的安全性。在本文中,我们讨论了一些新的安全R1方法,即限制优化方法和基于障碍功能的方法,可以在紧急事件下安全地恢复电压。该方法是一般的,可以应用于其他安全关键控制问题。进行了39母线IEEE基准测试的数值模拟,以证明所提出的安全RL紧急控制的有效性。
translated by 谷歌翻译
The high emission and low energy efficiency caused by internal combustion engines (ICE) have become unacceptable under environmental regulations and the energy crisis. As a promising alternative solution, multi-power source electric vehicles (MPS-EVs) introduce different clean energy systems to improve powertrain efficiency. The energy management strategy (EMS) is a critical technology for MPS-EVs to maximize efficiency, fuel economy, and range. Reinforcement learning (RL) has become an effective methodology for the development of EMS. RL has received continuous attention and research, but there is still a lack of systematic analysis of the design elements of RL-based EMS. To this end, this paper presents an in-depth analysis of the current research on RL-based EMS (RL-EMS) and summarizes the design elements of RL-based EMS. This paper first summarizes the previous applications of RL in EMS from five aspects: algorithm, perception scheme, decision scheme, reward function, and innovative training method. The contribution of advanced algorithms to the training effect is shown, the perception and control schemes in the literature are analyzed in detail, different reward function settings are classified, and innovative training methods with their roles are elaborated. Finally, by comparing the development routes of RL and RL-EMS, this paper identifies the gap between advanced RL solutions and existing RL-EMS. Finally, this paper suggests potential development directions for implementing advanced artificial intelligence (AI) solutions in EMS.
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
值得信赖的强化学习算法应有能力解决挑战性的现实问题,包括{Robustly}处理不确定性,满足{安全}的限制以避免灾难性的失败,以及在部署过程中{prencepentiming}以避免灾难性的失败}。这项研究旨在概述这些可信赖的强化学习的主要观点,即考虑其在鲁棒性,安全性和概括性上的内在脆弱性。特别是,我们给出严格的表述,对相应的方法进行分类,并讨论每个观点的基准。此外,我们提供了一个前景部分,以刺激有希望的未来方向,并简要讨论考虑人类反馈的外部漏洞。我们希望这项调查可以在统一的框架中将单独的研究汇合在一起,并促进强化学习的可信度。
translated by 谷歌翻译
深度强化学习(DRL)和深度多机构的强化学习(MARL)在包括游戏AI,自动驾驶汽车,机器人技术等各种领域取得了巨大的成功。但是,众所周知,DRL和Deep MARL代理的样本效率低下,即使对于相对简单的问题设置,通常也需要数百万个相互作用,从而阻止了在实地场景中的广泛应用和部署。背后的一个瓶颈挑战是众所周知的探索问题,即如何有效地探索环境和收集信息丰富的经验,从而使政策学习受益于最佳研究。在稀疏的奖励,吵闹的干扰,长距离和非平稳的共同学习者的复杂环境中,这个问题变得更加具有挑战性。在本文中,我们对单格和多代理RL的现有勘探方法进行了全面的调查。我们通过确定有效探索的几个关键挑战开始调查。除了上述两个主要分支外,我们还包括其他具有不同思想和技术的著名探索方法。除了算法分析外,我们还对一组常用基准的DRL进行了全面和统一的经验比较。根据我们的算法和实证研究,我们终于总结了DRL和Deep Marl中探索的公开问题,并指出了一些未来的方向。
translated by 谷歌翻译
交通信号控制对于有效使用运输基础设施是至关重要的。车辆交通的快速增长和交通模式的变化使交通信号控制越来越具有挑战性。基于加强学习(RL)的算法已经证明了它们在处理交通信号控制方面的潜力。然而,大多数现有解决方案需要大量的培训数据,这对于许多真实的情景来说是不可接受的。本文提出了一种用于交通信号控制的新型模型的元增强学习框架(型号)。在Modelight中,用于道路交叉路口模型的集合和基于优化的元学习方法,用于提高基于RL的流量光控制方法的数据效率。现实世界数据集的实验表明,制造智慧可以倾向于最先进的交通光控制算法,同时大大减少了与现实世界环境的所需交互的数量。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
本文介绍了电力系统运营商的域知识如何集成到强化学习(RL)框架中,以有效学习控制电网拓扑以防止热级联的代理。由于大搜索/优化空间,典型的基于RL的拓扑控制器无法表现良好。在这里,我们提出了一个基于演员 - 评论家的代理,以解决问题的组合性质,并使用由RTE,法国TSO开发的RL环境训练代理。为了解决大型优化空间的挑战,通过使用网络物理修改环境以增强代理学习来纳入训练过程中的基于奖励调整的基于课程的方法。此外,采用多种方案的并行训练方法来避免将代理偏置到几种情况,并使其稳健地对网格操作中的自然变异性。如果没有对培训过程进行这些修改,则RL代理失败了大多数测试场景,说明了正确整合物理系统的域知识以获得真实世界的RL学习的重要性。该代理通过RTE测试2019年学习,以运行电力网络挑战,并以精确度和第1位的速度授予第2位。开发的代码是公共使用开放的。
translated by 谷歌翻译
机器学习算法中多个超参数的最佳设置是发出大多数可用数据的关键。为此目的,已经提出了几种方法,例如进化策略,随机搜索,贝叶斯优化和启发式拇指规则。在钢筋学习(RL)中,学习代理在与其环境交互时收集的数据的信息内容严重依赖于许多超参数的设置。因此,RL算法的用户必须依赖于基于搜索的优化方法,例如网格搜索或Nelder-Mead单简单算法,这对于大多数R1任务来说是非常效率的,显着减慢学习曲线和离开用户的速度有目的地偏见数据收集的负担。在这项工作中,为了使RL算法更加用户独立,提出了一种使用贝叶斯优化的自主超参数设置的新方法。来自过去剧集和不同的超参数值的数据通过执行行为克隆在元学习水平上使用,这有助于提高最大化获取功能的加强学习变体的有效性。此外,通过紧密地整合在加强学习代理设计中的贝叶斯优化,还减少了收敛到给定任务的最佳策略所需的状态转换的数量。与其他手动调整和基于优化的方法相比,计算实验显示了有希望的结果,这突出了改变算法超级参数来增加所生成数据的信息内容的好处。
translated by 谷歌翻译
研究表明,进化策略(ES)是具有深层神经网络的强化学习(RL)的有前途的方法。但是,高样本复杂性的问题仍然存在于ES对深度RL的应用中。本文是第一个通过新颖的神经进化多任务处理(NUEMT)算法解决当今方法的缺点,该算法旨在将信息从一组(短情节长度)转移到目标(全长)的RL任务。从目标中提取的辅助任务允许代理更新并快速评估较短时间范围的策略。然后转移进化的技能,以指导更长,更艰巨的任务实现最佳政策。我们证明了NUEMT算法达到了数据叶进化RL,从而减少了昂贵的代理环境相互作用数据要求。在这种情况下,我们的主要算法贡献是首次基于统计重要性抽样技术引入多任务技能转移机制。此外,利用自适应资源分配策略将计算资源分配给基于其收集的实用性的辅助任务。关于OpenAI体育馆的一系列连续控制任务的实验证实,与最近的ES基线相比,我们提出的算法有效。
translated by 谷歌翻译
单位承诺(UC)是日期电力市场中的一个基本问题,有效解决UC问题至关重要。 UC问题通常采用数学优化技术,例如动态编程,拉格朗日放松和混合二次二次编程(MIQP)。但是,这些方法的计算时间随着发电机和能源资源的数量而增加,这仍然是行业中的主要瓶颈。人工智能的最新进展证明了加强学习(RL)解决UC问题的能力。不幸的是,当UC问题的大小增长时,现有关于解决RL的UC问题的研究受到维数的诅咒。为了解决这些问题,我们提出了一个优化方法辅助的集合深钢筋学习算法,其中UC问题是作为Markov决策过程(MDP)提出的,并通过集合框架中的多步进深度学习解决。所提出的算法通过解决量身定制的优化问题来确保相对较高的性能和操作约束的满意度来建立候选动作。关于IEEE 118和300总线系统的数值研究表明,我们的算法优于基线RL算法和MIQP。此外,所提出的算法在无法预见的操作条件下显示出强大的概括能力。
translated by 谷歌翻译
深入学习的强化学习(RL)的结合导致了一系列令人印象深刻的壮举,许多相信(深)RL提供了一般能力的代理。然而,RL代理商的成功往往对培训过程中的设计选择非常敏感,这可能需要繁琐和易于易于的手动调整。这使得利用RL对新问题充满挑战,同时也限制了其全部潜力。在许多其他机器学习领域,AutomL已经示出了可以自动化这样的设计选择,并且在应用于RL时也会产生有希望的初始结果。然而,自动化强化学习(AutorL)不仅涉及Automl的标准应用,而且还包括RL独特的额外挑战,其自然地产生了不同的方法。因此,Autorl已成为RL中的一个重要研究领域,提供来自RNA设计的各种应用中的承诺,以便玩游戏等游戏。鉴于RL中考虑的方法和环境的多样性,在不同的子领域进行了大部分研究,从Meta学习到进化。在这项调查中,我们寻求统一自动的领域,我们提供常见的分类法,详细讨论每个区域并对研究人员来说是一个兴趣的开放问题。
translated by 谷歌翻译
最近几十年来,已经采用了用于解决各种多主体优化问题(MOPS)的多主体进化算法(MOEAS)的显着进步。但是,这些逐渐改善的MOEAS并不一定配备了精致的可扩展和可学习的解决问题的策略,这些策略能够应对缩放型拖把带来的新的和宏伟的挑战,并不断提高各种方面的复杂性或规模,主要包括昂贵的方面,包括昂贵的方面。功能评估,许多目标,大规模搜索空间,时变环境和多任务。在不同的情况下,它需要不同的思考来设计新的强大MOEAS,以有效地解决它们。在这种情况下,对可学习的MOEAS进行的研究,以机器学习技术进行缩放的拖把,在进化计算领域受到了广泛的关注。在本文中,我们从可扩展的拖把和可学习的MOEAS的分类学开始,然后分析将拖把构成对传统MOEAS的挑战的分析。然后,我们综合概述了可学习的MOEAS的最新进展,以求解各种扩展拖把,主要集中在三个有吸引力的有前途的方向上(即,可学习的环境选择的可学习的进化鉴别器,可学习的进化生物的可学习生殖发生器,以及可学习的进化转移,用于分享或分享或分享或进行分享或可学习的转移。不同问题域之间的经验)。在本文中提供了有关可学习的MOEAS的见解,以参考该领域的努力的一般踪迹。
translated by 谷歌翻译
电动汽车快速采用(EVS)要求广泛安装EV充电站。为了最大限度地提高充电站的盈利能力,提供充电和电网服务的智能控制器实际上很需要。然而,由于不确定的到达时间和EVS的充电需求,确定最佳充电时间表具有挑战性。在本文中,我们提出了一种新的集中分配和分散执行(CADE)强化学习(RL)框架,以最大限度地提高收费站的利润。在集中分配过程中,EVS被分配给等待或充电点。在分散的执行过程中,每个充电器都在学习来自共享重放内存的动作值函数的同时使其自己的充电/放电决定。该CADE框架显着提高了RL算法的可扩展性和采样效率。数值结果表明,所提出的CADE框架既有计算高效且可扩展,显着优于基线模型预测控制(MPC)。我们还提供了对学习的动作值的深入分析,以解释加强学习代理的内部工作。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
Compared with model-based control and optimization methods, reinforcement learning (RL) provides a data-driven, learning-based framework to formulate and solve sequential decision-making problems. The RL framework has become promising due to largely improved data availability and computing power in the aviation industry. Many aviation-based applications can be formulated or treated as sequential decision-making problems. Some of them are offline planning problems, while others need to be solved online and are safety-critical. In this survey paper, we first describe standard RL formulations and solutions. Then we survey the landscape of existing RL-based applications in aviation. Finally, we summarize the paper, identify the technical gaps, and suggest future directions of RL research in aviation.
translated by 谷歌翻译