在电力市场中寻找最佳的招标策略将带来更高的利润。但是,由于系统不确定性,这是一个充满挑战的问题,这是由于其他一代单位的策略所致。分布式优化(每个实体或代理人都决定单独出价)已成为最新技术的状态。但是,它无法克服系统不确定性的挑战。深度强化学习是在不确定环境中学习最佳策略的一种有前途的方法。然而,它无法在学习过程中整合有关空间系统拓扑的信息。本文提出了一种基于深钢筋学习(DRL)与图形卷积神经网络(GCN)的分布式学习算法。实际上,拟议的框架可以通过从环境中获得反馈来帮助代理商更新决策,从而可以克服不确定性的挑战。在该提出的算法中,节点之间的状态和连接是GCN的输入,可以使代理知道系统的结构。有关系统拓扑的此信息可以帮助代理商改善其投标策略并增加利润。我们在不同情况下评估了IEEE 30总线系统上提出的算法。此外,为了研究所提出的方法的概括能力,我们测试了IEEE 39-BUS系统的训练模型。结果表明,所提出的算法具有与DRL相比具有更大的泛化能力,并且在更改系统拓扑时可能会获得更高的利润。
translated by 谷歌翻译
本文提出了一种安全的竞标决策和单位维护调度的安全加强学习算法和竞争力的电力市场环境。在这个问题中,每个单位都旨在找到一个招标策略,以通过调度预防性维护同时保持其可靠性,以最大限度地提高其收入。维护调度提供了一些安全约束,应该始终满足。满足批判性安全性和可靠性限制,而生成单位具有彼此的不完整信息的竞标策略是一个具有挑战性的问题。双层优化和加强学习是解决这种问题的最先进方法。然而,双层优化和增强学习都无法应对不完全信息和关键安全限制的挑战。为了解决这些挑战,我们提出了安全的深度确定性政策梯度加强学习算法,其基于加强学习和预测安全滤波器的组合。案例研究表明,与其他现有技术相比,该方法可以实现更高的利润,同时满足系统安全约束。
translated by 谷歌翻译
Optimal Power Flow (OPF) is a very traditional research area within the power systems field that seeks for the optimal operation point of electric power plants, and which needs to be solved every few minutes in real-world scenarios. However, due to the nonconvexities that arise in power generation systems, there is not yet a fast, robust solution technique for the full Alternating Current Optimal Power Flow (ACOPF). In the last decades, power grids have evolved into a typical dynamic, non-linear and large-scale control system, known as the power system, so searching for better and faster ACOPF solutions is becoming crucial. Appearance of Graph Neural Networks (GNN) has allowed the natural use of Machine Learning (ML) algorithms on graph data, such as power networks. On the other hand, Deep Reinforcement Learning (DRL) is known for its powerful capability to solve complex decision-making problems. Although solutions that use these two methods separately are beginning to appear in the literature, none has yet combined the advantages of both. We propose a novel architecture based on the Proximal Policy Optimization algorithm with Graph Neural Networks to solve the Optimal Power Flow. The objective is to design an architecture that learns how to solve the optimization problem and that is at the same time able to generalize to unseen scenarios. We compare our solution with the DCOPF in terms of cost after having trained our DRL agent on IEEE 30 bus system and then computing the OPF on that base network with topology changes
translated by 谷歌翻译
Driven by the global decarbonization effort, the rapid integration of renewable energy into the conventional electricity grid presents new challenges and opportunities for the battery energy storage system (BESS) participating in the energy market. Energy arbitrage can be a significant source of revenue for the BESS due to the increasing price volatility in the spot market caused by the mismatch between renewable generation and electricity demand. In addition, the Frequency Control Ancillary Services (FCAS) markets established to stabilize the grid can offer higher returns for the BESS due to their capability to respond within milliseconds. Therefore, it is crucial for the BESS to carefully decide how much capacity to assign to each market to maximize the total profit under uncertain market conditions. This paper formulates the bidding problem of the BESS as a Markov Decision Process, which enables the BESS to participate in both the spot market and the FCAS market to maximize profit. Then, Proximal Policy Optimization, a model-free deep reinforcement learning algorithm, is employed to learn the optimal bidding strategy from the dynamic environment of the energy market under a continuous bidding scale. The proposed model is trained and validated using real-world historical data of the Australian National Electricity Market. The results demonstrate that our developed joint bidding strategy in both markets is significantly profitable compared to individual markets.
translated by 谷歌翻译
智能能源网络提供了一种有效的手段,可容纳可变可再生能源(例如太阳能和风能)的高渗透率,这是能源生产深度脱碳的关键。但是,鉴于可再生能源以及能源需求的可变性,必须制定有效的控制和能源存储方案来管理可变的能源产生并实现所需的系统经济学和环境目标。在本文中,我们引入了由电池和氢能存储组成的混合储能系统,以处理与电价,可再生能源生产和消费有关的不确定性。我们旨在提高可再生能源利用率,并最大程度地减少能源成本和碳排放,同时确保网络内的能源可靠性和稳定性。为了实现这一目标,我们提出了一种多代理的深层确定性政策梯度方法,这是一种基于强化的基于强化学习的控制策略,可实时优化混合能源存储系统和能源需求的调度。提出的方法是无模型的,不需要明确的知识和智能能源网络环境的严格数学模型。基于现实世界数据的仿真结果表明:(i)混合储能系统和能源需求的集成和优化操作可将碳排放量减少78.69%,将成本节省的成本储蓄提高23.5%,可续订的能源利用率比13.2%以上。其他基线模型和(ii)所提出的算法优于最先进的自学习算法,例如Deep-Q网络。
translated by 谷歌翻译
单位承诺(UC)是日期电力市场中的一个基本问题,有效解决UC问题至关重要。 UC问题通常采用数学优化技术,例如动态编程,拉格朗日放松和混合二次二次编程(MIQP)。但是,这些方法的计算时间随着发电机和能源资源的数量而增加,这仍然是行业中的主要瓶颈。人工智能的最新进展证明了加强学习(RL)解决UC问题的能力。不幸的是,当UC问题的大小增长时,现有关于解决RL的UC问题的研究受到维数的诅咒。为了解决这些问题,我们提出了一个优化方法辅助的集合深钢筋学习算法,其中UC问题是作为Markov决策过程(MDP)提出的,并通过集合框架中的多步进深度学习解决。所提出的算法通过解决量身定制的优化问题来确保相对较高的性能和操作约束的满意度来建立候选动作。关于IEEE 118和300总线系统的数值研究表明,我们的算法优于基线RL算法和MIQP。此外,所提出的算法在无法预见的操作条件下显示出强大的概括能力。
translated by 谷歌翻译
本文解决了当参与需求响应(DR)时优化电动汽车(EV)的充电/排放时间表的问题。由于电动汽车的剩余能量,到达和出发时间以及未来的电价中存在不确定性,因此很难做出充电决定以最大程度地减少充电成本,同时保证电动汽车的电池最先进(SOC)在内某些范围。为了解决这一难题,本文将EV充电调度问题制定为Markov决策过程(CMDP)。通过协同结合增强的Lagrangian方法和软演员评论家算法,本文提出了一种新型安全的非政策钢筋学习方法(RL)方法来解决CMDP。通过Lagrangian值函数以策略梯度方式更新Actor网络。采用双重危机网络来同步估计动作值函数,以避免高估偏差。所提出的算法不需要强烈的凸度保证,可以保证被检查的问题,并且是有效的样本。现实世界中电价的全面数值实验表明,我们提出的算法可以实现高解决方案最佳性和约束依从性。
translated by 谷歌翻译
This paper presents a multi-agent Deep Reinforcement Learning (DRL) framework for autonomous control and integration of renewable energy resources into smart power grid systems. In particular, the proposed framework jointly considers demand response (DR) and distributed energy management (DEM) for residential end-users. DR has a widely recognized potential for improving power grid stability and reliability, while at the same time reducing end-users energy bills. However, the conventional DR techniques come with several shortcomings, such as the inability to handle operational uncertainties while incurring end-user disutility, which prevents widespread adoption in real-world applications. The proposed framework addresses these shortcomings by implementing DR and DEM based on real-time pricing strategy that is achieved using deep reinforcement learning. Furthermore, this framework enables the power grid service provider to leverage distributed energy resources (i.e., PV rooftop panels and battery storage) as dispatchable assets to support the smart grid during peak hours, thus achieving management of distributed energy resources. Simulation results based on the Deep Q-Network (DQN) demonstrate significant improvements of the 24-hour accumulative profit for both prosumers and the power grid service provider, as well as major reductions in the utilization of the power grid reserve generators.
translated by 谷歌翻译
本文介绍了电力系统运营商的域知识如何集成到强化学习(RL)框架中,以有效学习控制电网拓扑以防止热级联的代理。由于大搜索/优化空间,典型的基于RL的拓扑控制器无法表现良好。在这里,我们提出了一个基于演员 - 评论家的代理,以解决问题的组合性质,并使用由RTE,法国TSO开发的RL环境训练代理。为了解决大型优化空间的挑战,通过使用网络物理修改环境以增强代理学习来纳入训练过程中的基于奖励调整的基于课程的方法。此外,采用多种方案的并行训练方法来避免将代理偏置到几种情况,并使其稳健地对网格操作中的自然变异性。如果没有对培训过程进行这些修改,则RL代理失败了大多数测试场景,说明了正确整合物理系统的域知识以获得真实世界的RL学习的重要性。该代理通过RTE测试2019年学习,以运行电力网络挑战,并以精确度和第1位的速度授予第2位。开发的代码是公共使用开放的。
translated by 谷歌翻译
可再生能源的增加集成为电源分销网络的运行带来了许多技术挑战。其中,由可再生能源的不稳定性引起的电压波动正在受到越来越多的关注。最近在主动电压控制任务中广泛研究了电网中的多个控制单元(能够处理电源系统快速变化)中的多个控制单元。但是,基于MARL的现有方法忽略了网格的独特性质,并实现有限的性能。在本文中,我们介绍了变压器体系结构,以提取适应电力网络问题的表示形式,并提出基于变压器的多代理参与者 - 批判框架(T-MAAC)以稳定电源分配网络中的电压。此外,我们采用了针对电压控制任务量身定制的新型辅助任务训练过程,从而提高了样品效率并促进基于变压器模型的表示。我们将T-MAAC与不同的多代理 - 参与者批评算法相结合,而主动电压控制任务的一致改进证明了该方法的有效性。
translated by 谷歌翻译
我们考虑了需求侧能源管理的问题,每个家庭都配备了能够在线安排家用电器的智能电表。目的是最大程度地减少实时定价计划下的整体成本。尽管以前的作品引入了集中式方法,在该方法中,调度算法具有完全可观察的性能,但我们提出了将智能网格环境作为马尔可夫游戏的表述。每个家庭都是具有部分可观察性的去中心化代理,可以在现实环境中进行可扩展性和隐私保护。电网操作员产生的价格信号随能量需求而变化。我们提出了从代理商的角度来解决部分可观察性和环境的局部可观察性的扩展,以解决部分可观察性。该算法学习了一位集中批评者,该批评者协调分散的代理商的培训。因此,我们的方法使用集中学习,但分散执行。仿真结果表明,我们的在线深入强化学习方法可以纯粹基于瞬时观察和价格信号来降低所有消耗的总能量的峰值与平均值和所有家庭的电力。
translated by 谷歌翻译
这篇科学论文提出了一种新型的投资组合优化模型,使用改进的深钢筋学习算法。优化模型的目标函数是投资组合累积回报的期望和价值的加权总和。所提出的算法基于参与者 - 批判性架构,其中关键网络的主要任务是使用分位数回归学习投资组合累积返回的分布,而Actor网络通过最大化上述目标函数来输出最佳投资组合权重。同时,我们利用线性转换功能来实现资产短销售。最后,使用了一种称为APE-X的多进程方法来加速深度强化学习训练的速度。为了验证我们提出的方法,我们对两个代表性的投资组合进行了重新测试,并观察到这项工作中提出的模型优于基准策略。
translated by 谷歌翻译
As an efficient way to integrate multiple distributed energy resources and the user side, a microgrid is mainly faced with the problems of small-scale volatility, uncertainty, intermittency and demand-side uncertainty of DERs. The traditional microgrid has a single form and cannot meet the flexible energy dispatch between the complex demand side and the microgrid. In response to this problem, the overall environment of wind power, thermostatically controlled loads, energy storage systems, price-responsive loads and the main grid is proposed. Secondly, the centralized control of the microgrid operation is convenient for the control of the reactive power and voltage of the distributed power supply and the adjustment of the grid frequency. However, there is a problem in that the flexible loads aggregate and generate peaks during the electricity price valley. The existing research takes into account the power constraints of the microgrid and fails to ensure a sufficient supply of electric energy for a single flexible load. This paper considers the response priority of each unit component of TCLs and ESSs on the basis of the overall environment operation of the microgrid so as to ensure the power supply of the flexible load of the microgrid and save the power input cost to the greatest extent. Finally, the simulation optimization of the environment can be expressed as a Markov decision process process. It combines two stages of offline and online operations in the training process. The addition of multiple threads with the lack of historical data learning leads to low learning efficiency. The asynchronous advantage actor-critic with the experience replay pool memory library is added to solve the data correlation and nonstatic distribution problems during training.
translated by 谷歌翻译
在本文中,多种子体增强学习用于控制混合能量存储系统,通过最大化可再生能源和交易的价值来降低微电网的能量成本。该代理商必须学习在波动需求,动态批发能源价格和不可预测的可再生能源中,控制三种不同类型的能量存储系统。考虑了两种案例研究:首先看能量存储系统如何在动态定价下更好地整合可再生能源发电,第二种与这些同一代理商如何与聚合剂一起使用,以向自私外部微电网销售能量的能量减少自己的能源票据。这项工作发现,具有分散执行的多代理深度确定性政策梯度的集中学习及其最先进的变体允许多种代理方法显着地比来自单个全局代理的控制更好。还发现,在多种子体方法中使用单独的奖励功能比使用单个控制剂更好。还发现能够与其他微电网交易,而不是卖回实用电网,也发现大大增加了网格的储蓄。
translated by 谷歌翻译
如今,微电网(MG)具有可再生能源的应用越来越广泛,这对动态能量管理产生了强烈的需求。在本文中,深入强化学习(DRL)用于学习最佳政策,以在孤立的毫克中制定联合能源调度(ED)和单位承诺(UC)决策,目的是降低前提的总发电成本确保供求余额。为了克服因联合ED和UC引起的离散连续混合动作空间的挑战,我们提出了DRL算法,即混合动作有限的Horizo​​n DDPG(HAFH-DDPG),该算法无缝地集成了两个经典的DRL算法,即。 ,基于有限的horizo​​n动态编程(DP)框架,深Q网络(DQN)和深层确定性策略梯度(DDPG)。此外,提出了柴油发电机(DG)选择策略,以支持简化的动作空间,以降低该算法的计算复杂性。最后,通过与现实世界数据集的实验相比,通过与多种基线算法进行比较来验证我们所提出的算法的有效性。
translated by 谷歌翻译
我们研究了竞争激烈的马尔可夫游戏(MG)环境中的NASH平衡学习,其中多个代理商竞争,并且可以存在多个NASH均衡。特别是,对于寡头的动态定价环境,由于差异性的诅咒,难以获得精确的NASH平衡。我们开发了一种新的无模型方法来找到近似NASH平衡。然后,将无梯度的黑匣子优化应用于估计$ \ epsilon $,这是代理商单方面偏离任何联合政策的最大奖励优势,并估算了任何给定州的$ \ epsilon $降低政策。政策 - $ \ epsilon $通讯和国家对$ \ epsilon $ - 缩小政策的政策由神经网络表示,后者是NASH策略网。在批处理更新期间,我们通过使用NASH策略网调整操作概率在系统上进行NASH Q学习。我们证明可以学习近似的NASH平衡,尤其是在精确溶液通常很棘手的动态定价域中。
translated by 谷歌翻译
可再生能源资源(RERS)已越来越纳入现代电力系统,尤其是在大规模分配网络(DNS)中。在本文中,我们提出了一种深度加强学习(DRL)基础的方法来动态搜索最佳操作点,即最佳功率流(OPF),在具有高摄取RER的DNS中。考虑到由RERS引起的不确定性和电压波动问题,我们将OPF分为多目标优化(MOO)问题。为了解决MOO问题,我们开发了一种利用分发网络图形信息的新型DRL算法。具体而言,我们采用最先进的DRL算法,即深度确定性政策梯度(DDPG),以学习OPF的最佳策略。由于DN中的电力流重新分配是连续的过程,其中节点是在时间和空间视图中自相关和相互关联的,以充分利用DNS的图形信息,我们开发了一种基于多粒的关注的空间 - 时间图卷积用于空间颞曲线图信息提取的网络(MG-ASTGCN),为其顺序DDPG准备。我们在修改IEEE 33,69和118总线径向分布系统(RDS)中验证了基于DRL的基于DRL的方法,并显示了基于DRL的方法优于其他基准算法。我们的实验结果还揭示了MG-ASTGCN可以显着加速DDPG训练过程,并提高DDPG在重新分配OPF电流中的能力。所提出的基于DRL的方法还促进了节点故障存在下的DNS的稳定性,特别是对于大型DNS。
translated by 谷歌翻译
Reinforcement Learning (RL) is currently one of the most commonly used techniques for traffic signal control (TSC), which can adaptively adjusted traffic signal phase and duration according to real-time traffic data. However, a fully centralized RL approach is beset with difficulties in a multi-network scenario because of exponential growth in state-action space with increasing intersections. Multi-agent reinforcement learning (MARL) can overcome the high-dimension problem by employing the global control of each local RL agent, but it also brings new challenges, such as the failure of convergence caused by the non-stationary Markov Decision Process (MDP). In this paper, we introduce an off-policy nash deep Q-Network (OPNDQN) algorithm, which mitigates the weakness of both fully centralized and MARL approaches. The OPNDQN algorithm solves the problem that traditional algorithms cannot be used in large state-action space traffic models by utilizing a fictitious game approach at each iteration to find the nash equilibrium among neighboring intersections, from which no intersection has incentive to unilaterally deviate. One of main advantages of OPNDQN is to mitigate the non-stationarity of multi-agent Markov process because it considers the mutual influence among neighboring intersections by sharing their actions. On the other hand, for training a large traffic network, the convergence rate of OPNDQN is higher than that of existing MARL approaches because it does not incorporate all state information of each agent. We conduct an extensive experiments by using Simulation of Urban MObility simulator (SUMO), and show the dominant superiority of OPNDQN over several existing MARL approaches in terms of average queue length, episode training reward and average waiting time.
translated by 谷歌翻译
巴士系统是可持续城市交通的关键组成部分。然而,公交车队的操作本质上是不稳定的,总线串行已成为泛滥的现象,破坏了公交系统的效率和可靠性。最近的研究表明,多智能体增强学习(MARL)应用了高效的车载控制,以避免公共汽车束缚。然而,现有的研究基本上忽略了过境系统中的各种事件,扰动和异常导致的稳健性问题,这在传输现实世界部署/应用程序的模型时至关重要。在这项研究中,我们将隐式分位式网络和元学习集成了开发分布式Marl框架 - IQNC-M - 以学习连续控制。所提出的IQNC-M框架通过更好地处理实时运输操作中的各种不确定性/事件来实现高效可靠的控制决策。具体而言,我们介绍一个可解释的元学习模块,将全球信息纳入分配MARL框架,这是一种有效的解决方案,以规避过境系统中的信用分配问题。此外,我们设计了一个特定的学习过程,以培训框架内的每个代理,以追求强大的控制策略。我们基于现实世界总线服务和乘客需求数据开发仿真环境,并评估传统控股型号和最先进的MARL模型的建议框架。我们的研究结果表明,建议的IQNC-M框架可以有效处理各种极端事件,如交通状态扰动,服务中断和需求浪涌,从而提高了系统的效率和可靠性。
translated by 谷歌翻译
最近,增强学习方法(RL)在NP-HARD组合优化问题上的应用已成为一个流行的话题。这本质上是由于传统组合算法的性质,通常是基于试验过程。 RL旨在自动化此过程。在这方面,本文着重于RL在车辆路由问题(VRP)中的应用,这是属于NP-HARD问题的著名组合问题。首先,在这项工作中,该问题被建模为马尔可夫决策过程(MDP),然后应用PPO方法(属于Actor-Critic-Critic cornforcion学习方法类别)。在第二阶段,已经建立了演员和评论家背后的神经建筑,选择采用基于卷积神经网络的神经建筑,包括演员和评论家。这种选择有效地解决了不同大小的问题。在各种实例上进行的实验表明该算法具有良好的概括能力,并且可以在短时间内达到良好的解决方案。提出的算法与最先进的求解器或最先进的求解器之间的比较表明,后者仍然优于强化学习算法。但是,有一些未来的研究观点,旨在升级提出的算法的当前性能。
translated by 谷歌翻译