Cloud computing holds the promise of reduced costs through economies of scale. To realize this promise, cloud computing vendors typically solve sequential resource allocation problems, where customer workloads are packed on shared hardware. Virtual machines (VM) form the foundation of modern cloud computing as they help logically abstract user compute from shared physical infrastructure. Traditionally, VM packing problems are solved by predicting demand, followed by a Model Predictive Control (MPC) optimization over a future horizon. We introduce an approximate formulation of an industrial VM packing problem as an MILP with soft-constraints parameterized by the predictions. Recently, predict-and-optimize (PnO) was proposed for end-to-end training of prediction models by back-propagating the cost of decisions through the optimization problem. But, PnO is unable to scale to the large prediction horizons prevalent in cloud computing. To tackle this issue, we propose the Predict-and-Critic (PnC) framework that outperforms PnO with just a two-step horizon by leveraging reinforcement learning. PnC jointly trains a prediction model and a terminal Q function that approximates cost-to-go over a long horizon, by back-propagating the cost of decisions through the optimization problem \emph{and from the future}. The terminal Q function allows us to solve a much smaller two-step horizon optimization problem than the multi-step horizon necessary in PnO. We evaluate PnO and the PnC framework on two datasets, three workloads, and with disturbances not modeled in the optimization problem. We find that PnC significantly improves decision quality over PnO, even when the optimization problem is not a perfect representation of reality. We also find that hardening the soft constraints of the MILP and back-propagating through the constraints improves decision quality for both PnO and PnC.
translated by 谷歌翻译
在确定性优化中,通常假定问题的所有参数都是固定和已知的。但是,实际上,某些参数可能是未知的先验参数,但可以从历史数据中估算。典型的预测 - 优化方法将预测和优化分为两个阶段。最近,端到端的预测到优化已成为有吸引力的替代方法。在这项工作中,我们介绍了PYEPO软件包,这是一个基于Pytorch的端到端预测,然后在Python中进行了优化的库。据我们所知,PYEPO(发音为“带有静音” n“”的“菠萝”)是线性和整数编程的第一个通用工具,具有预测的目标函数系数。它提供了两种基本算法:第一种基于Elmachtoub&Grigas(2021)的开创性工作的凸替代损失函数,第二个基于Vlastelica等人的可区分黑盒求解器方法。 (2019)。 PYEPO提供了一个简单的接口,用于定义新的优化问题,最先进的预测 - 优化训练算法,自定义神经网络体系结构的使用以及端到端方法与端到端方法与与端到端方法的比较两阶段的方法。 PYEPO使我们能够进行一系列全面的实验,以比较沿轴上的多种端到端和两阶段方法,例如预测准确性,决策质量和运行时间,例如最短路径,多个背包和旅行等问题销售人员问题。我们讨论了这些实验中的一些经验见解,这些见解可以指导未来的研究。 PYEPO及其文档可在https://github.com/khalil-research/pyepo上找到。
translated by 谷歌翻译
我们为处理顺序决策和外在不确定性的应用程序开发了增强学习(RL)框架,例如资源分配和库存管理。在这些应用中,不确定性仅由于未来需求等外源变量所致。一种流行的方法是使用历史数据预测外源变量,然后对预测进行计划。但是,这种间接方法需要对外源过程进行高保真模型,以确保良好的下游决策,当外源性过程复杂时,这可能是不切实际的。在这项工作中,我们提出了一种基于事后观察学习的替代方法,该方法避开了对外源过程进行建模的建模。我们的主要见解是,与Sim2real RL不同,我们可以在历史数据中重新审视过去的决定,并在这些应用程序中对其他动作产生反事实后果。我们的框架将事后最佳的行动用作政策培训信号,并在决策绩效方面具有强大的理论保证。我们使用框架开发了一种算法,以分配计算资源,以用于现实世界中的Microsoft Azure工作负载。结果表明,我们的方法比域特异性的启发式方法和SIM2REAL RL基准学习更好的政策。
translated by 谷歌翻译
本文解决了当参与需求响应(DR)时优化电动汽车(EV)的充电/排放时间表的问题。由于电动汽车的剩余能量,到达和出发时间以及未来的电价中存在不确定性,因此很难做出充电决定以最大程度地减少充电成本,同时保证电动汽车的电池最先进(SOC)在内某些范围。为了解决这一难题,本文将EV充电调度问题制定为Markov决策过程(CMDP)。通过协同结合增强的Lagrangian方法和软演员评论家算法,本文提出了一种新型安全的非政策钢筋学习方法(RL)方法来解决CMDP。通过Lagrangian值函数以策略梯度方式更新Actor网络。采用双重危机网络来同步估计动作值函数,以避免高估偏差。所提出的算法不需要强烈的凸度保证,可以保证被检查的问题,并且是有效的样本。现实世界中电价的全面数值实验表明,我们提出的算法可以实现高解决方案最佳性和约束依从性。
translated by 谷歌翻译
This work provides a Deep Reinforcement Learning approach to solving a periodic review inventory control system with stochastic vendor lead times, lost sales, correlated demand, and price matching. While this dynamic program has historically been considered intractable, our results show that several policy learning approaches are competitive with or outperform classical methods. In order to train these algorithms, we develop novel techniques to convert historical data into a simulator. On the theoretical side, we present learnability results on a subclass of inventory control problems, where we provide a provable reduction of the reinforcement learning problem to that of supervised learning. On the algorithmic side, we present a model-based reinforcement learning procedure (Direct Backprop) to solve the periodic review inventory control problem by constructing a differentiable simulator. Under a variety of metrics Direct Backprop outperforms model-free RL and newsvendor baselines, in both simulations and real-world deployments.
translated by 谷歌翻译
强化学习(RL)通过与环境相互作用的试验过程解决顺序决策问题。尽管RL在玩复杂的视频游戏方面取得了巨大的成功,但在现实世界中,犯错误总是不希望的。为了提高样本效率并从而降低错误,据信基于模型的增强学习(MBRL)是一个有前途的方向,它建立了环境模型,在该模型中可以进行反复试验,而无需实际成本。在这项调查中,我们对MBRL进行了审查,重点是Deep RL的最新进展。对于非壮观环境,学到的环境模型与真实环境之间始终存在概括性错误。因此,非常重要的是分析环境模型中的政策培训与实际环境中的差异,这反过来又指导了更好的模型学习,模型使用和政策培训的算法设计。此外,我们还讨论了其他形式的RL,包括离线RL,目标条件RL,多代理RL和Meta-RL的最新进展。此外,我们讨论了MBRL在现实世界任务中的适用性和优势。最后,我们通过讨论MBRL未来发展的前景来结束这项调查。我们认为,MBRL在被忽略的现实应用程序中具有巨大的潜力和优势,我们希望这项调查能够吸引更多关于MBRL的研究。
translated by 谷歌翻译
The exponential growth in demand for digital services drives massive datacenter energy consumption and negative environmental impacts. Promoting sustainable solutions to pressing energy and digital infrastructure challenges is crucial. Several hyperscale cloud providers have announced plans to power their datacenters using renewable energy. However, integrating renewables to power the datacenters is challenging because the power generation is intermittent, necessitating approaches to tackle power supply variability. Hand engineering domain-specific heuristics-based schedulers to meet specific objective functions in such complex dynamic green datacenter environments is time-consuming, expensive, and requires extensive tuning by domain experts. The green datacenters need smart systems and system software to employ multiple renewable energy sources (wind and solar) by intelligently adapting computing to renewable energy generation. We present RARE (Renewable energy Aware REsource management), a Deep Reinforcement Learning (DRL) job scheduler that automatically learns effective job scheduling policies while continually adapting to datacenters' complex dynamic environment. The resulting DRL scheduler performs better than heuristic scheduling policies with different workloads and adapts to the intermittent power supply from renewables. We demonstrate DRL scheduler system design parameters that, when tuned correctly, produce better performance. Finally, we demonstrate that the DRL scheduler can learn from and improve upon existing heuristic policies using Offline Learning.
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
随机双动态编程(SDDP)是一种用于解决多级随机优化的最新方法,广泛用于建模现实世界流程优化任务。不幸的是,SDDP具有最糟糕的复杂性,其在决策变量的数量中呈指数级级别,这严重限制了仅限于低维度问题的适用性。为了克服这一限制,我们通过引入培训神经模型来扩展SDDP,该培训神经模型将在内部低维空间内将问题实例映射到内在的低维空间内的分型线性值函数,该尺寸低维空间是专门用于与基础SDDP求解器进行交互的架构成型,因此可以在新实例上加速优化性能。通过解决连续问题,提出的神经随机双动态编程($ \ nu $ -sddp)不断自我提高。实证调查表明,$ \ nu $ -sddp可以显着降低解决问题的问题,而不会在一系列合成和实际过程优化问题上牺牲竞争对手的解决方案质量。
translated by 谷歌翻译
如今,微电网(MG)具有可再生能源的应用越来越广泛,这对动态能量管理产生了强烈的需求。在本文中,深入强化学习(DRL)用于学习最佳政策,以在孤立的毫克中制定联合能源调度(ED)和单位承诺(UC)决策,目的是降低前提的总发电成本确保供求余额。为了克服因联合ED和UC引起的离散连续混合动作空间的挑战,我们提出了DRL算法,即混合动作有限的Horizo​​n DDPG(HAFH-DDPG),该算法无缝地集成了两个经典的DRL算法,即。 ,基于有限的horizo​​n动态编程(DP)框架,深Q网络(DQN)和深层确定性策略梯度(DDPG)。此外,提出了柴油发电机(DG)选择策略,以支持简化的动作空间,以降低该算法的计算复杂性。最后,通过与现实世界数据集的实验相比,通过与多种基线算法进行比较来验证我们所提出的算法的有效性。
translated by 谷歌翻译
我们为投资组合构建提供了一个端到端分配稳健的系统,该系统将资产返回预测模型与分配强大的投资组合优化模型集成在一起。我们还展示了如何直接从数据中学习易耐受性参数和鲁棒性程度。端到端系统在培训期间可以在预测层和决策层之间传达该信息的优势,从而使参数可以接受最终任务的培训,而不仅仅是用于预测性能。但是,现有的端到端系统无法量化和纠正模型风险对决策层的影响。我们提出的分配在良好的端到端投资组合选择系统明确说明了模型风险的影响。决策层通过解决最小值问题来选择投资组合,其中假定资产返回的分布属于围绕名义分布的歧义集。使用凸双重性,我们以一种允许对端到端系统进行有效训练的形式重新阐述了最小问题。
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
数据驱动的模型预测控制比无模型方法具有两个关键优势:通过模型学习提高样本效率的潜力,并且作为计划增加的计算预算的更好性能。但是,在漫长的视野上进行计划既昂贵又挑战,以获得准确的环境模型。在这项工作中,我们结合了无模型和基于模型的方法的优势。我们在短范围内使用学习的面向任务的潜在动力学模型进行局部轨迹优化,并使用学习的终端值函数来估计长期回报,这两者都是通过时间差异学习共同学习的。我们的TD-MPC方法比在DMCONTROL和META-WORLD的状态和基于图像的连续控制任务上实现了卓越的样本效率和渐近性能。代码和视频结果可在https://nicklashansen.github.io/td-mpc上获得。
translated by 谷歌翻译
Algorithms that involve both forecasting and optimization are at the core of solutions to many difficult real-world problems, such as in supply chains (inventory optimization), traffic, and in the transition towards carbon-free energy generation in battery/load/production scheduling in sustainable energy systems. Typically, in these scenarios we want to solve an optimization problem that depends on unknown future values, which therefore need to be forecast. As both forecasting and optimization are difficult problems in their own right, relatively few research has been done in this area. This paper presents the findings of the ``IEEE-CIS Technical Challenge on Predict+Optimize for Renewable Energy Scheduling," held in 2021. We present a comparison and evaluation of the seven highest-ranked solutions in the competition, to provide researchers with a benchmark problem and to establish the state of the art for this benchmark, with the aim to foster and facilitate research in this area. The competition used data from the Monash Microgrid, as well as weather data and energy market data. It then focused on two main challenges: forecasting renewable energy production and demand, and obtaining an optimal schedule for the activities (lectures) and on-site batteries that lead to the lowest cost of energy. The most accurate forecasts were obtained by gradient-boosted tree and random forest models, and optimization was mostly performed using mixed integer linear and quadratic programming. The winning method predicted different scenarios and optimized over all scenarios jointly using a sample average approximation method.
translated by 谷歌翻译
我们考虑使用一组并行代理和参数服务器分发在线MIN-MAX资源分配。我们的目标是最大限度地减少一组时变的凸起和降低成本函数的点最大值,而无需先验信息。我们提出了一种新的在线算法,称为分布式在线资源重新分配(DORA),其中非贸易人员学会通过陷入拖放者释放资源和共享资源。与大多数现有的在线优化策略不同,Dora的一个值得注意的特征是它不需要梯度计算或投影操作。这允许它基本上减少大规模和分布式网络中的计算开销。我们表明,所提出的算法的动态遗憾是由$ o lex的上限(t ^ {\ frac {3} {4}}(1 + p_t)^ {\ frac {1} {4} \右) $,$ t $是轮次的总数,$ p_t $是瞬时最小化器的路径长度。我们进一步考虑在分布式在线机器学习中的带宽分配问题的应用程序。我们的数值研究证明了所提出的解决方案及其性能优势在减少壁钟时间的基于梯度和/或投影的资源分配算法中的功效。
translated by 谷歌翻译
事件触发的模型预测控制(EMPC)是一种流行的最佳控制方法,旨在减轻MPC的计算和/或通信负担。但是,通常需要先验了解闭环系统行为以及设计事件触发策略的通信特征。本文试图通过提出有效的EMPC框架来解决这一挑战,并在随后的自动驾驶汽车路径上成功实施了该框架。首先,使用无模型的加固学习(RL)代理用于学习最佳的事件触发策略,而无需在此框架中具有完整的动态系统和通信知识。此外,还采用了包括优先经验重播(PER)缓冲区和长期术语记忆(LSTM)的技术来促进探索和提高训练效率。在本文中,我们使用提出的三种深度RL算法的拟议框架,即双Q学习(DDQN),近端策略优化(PPO)和软参与者 - 批评(SAC),以解决此问题。实验结果表明,所有三个基于RL的EMPC(DEEP-RL-EMPC)都比在自动途径下的常规阈值和以前的基于线性Q的方法获得更好的评估性能。特别是,具有LSTM和DDQN-EMPC的PPO-EMPC具有PER和LSTM的PPO-EMPC在闭环控制性能和事件触发频率之间获得了较高的平衡。关联的代码是开源的,可在以下网址提供:https://github.com/dangfengying/rl基础基础 - event-triggered-mpc。
translated by 谷歌翻译
Safety comes first in many real-world applications involving autonomous agents. Despite a large number of reinforcement learning (RL) methods focusing on safety-critical tasks, there is still a lack of high-quality evaluation of those algorithms that adheres to safety constraints at each decision step under complex and unknown dynamics. In this paper, we revisit prior work in this scope from the perspective of state-wise safe RL and categorize them as projection-based, recovery-based, and optimization-based approaches, respectively. Furthermore, we propose Unrolling Safety Layer (USL), a joint method that combines safety optimization and safety projection. This novel technique explicitly enforces hard constraints via the deep unrolling architecture and enjoys structural advantages in navigating the trade-off between reward improvement and constraint satisfaction. To facilitate further research in this area, we reproduce related algorithms in a unified pipeline and incorporate them into SafeRL-Kit, a toolkit that provides off-the-shelf interfaces and evaluation utilities for safety-critical tasks. We then perform a comparative study of the involved algorithms on six benchmarks ranging from robotic control to autonomous driving. The empirical results provide an insight into their applicability and robustness in learning zero-cost-return policies without task-dependent handcrafting. The project page is available at https://sites.google.com/view/saferlkit.
translated by 谷歌翻译
在预测 - 优化框架中,目的是训练预测模型,从环境特征映射到优化问题的参数,这使得当优化被求解时最大化判定质量。最近的决定学习的工作表明,与依赖于用于评估预测质量的中间损耗功能相比,嵌入训练管道中的优化问题可以提高判定质量,并帮助更好地提高未经任务的任务。我们研究了通过增强学习解决的顺序决策问题(制定为MDP)的上下文中的预测 - 优化框架。特别是,我们是给予的环境特征和来自训练MDP的一组轨迹,我们用于训练推广的预测模型,无需轨迹。在将决策的学习应用于MDPS上,出现了两个重要的计算挑战:(i)大状态和行动空间使现有技术可行,以区分通过MDP问题,并且(ii)是由神经的参数化的高维策略空间网络,通过昂贵的政策进行区分。我们通过采样可释放的无偏见的衍生物来解决第一挑战,以通过最优条件近似和分辨,并通过使用基于高维样本的衍生物的低秩近似来分辨。我们在缺少参数的三个不同MDP问题上实现了基于Bellman的基于政策梯度的决定学习,并表明,决定的学习在概括任务中表现更好。
translated by 谷歌翻译
在机器人,游戏和许多其他地区,加固学习导致各种区域导致相当大的突破。但是在复杂的真实决策中申请RL仍然有限。运营管理中的许多问题(例如,库存和收入管理)的特点是大动作空间和随机系统动态。这些特征使得解决问题的问题很难解决依赖于每步行动问题解决枚举技术的现有RL方法。要解决这些问题,我们开发可编程演员强化学习(PARL),一种策略迭代方法,该方法使用整数编程和示例平均近似的技术。在分析上,我们表明,对于给定的批评者,每个迭代的学习政策会聚到最佳政策,因为不确定性的底层样本转到无穷大。实际上,我们表明,即使来自潜在的不确定性的样本很少,潜在的不确定分布的正确选择的不确定分布可以在最佳的演员政策附近产生。然后,我们将算法应用于具有复杂的供应链结构的现实库存管理问题,并显示Parl优于这些设置中的最先进的RL和库存优化方法。我们发现Parl优于常用的基础股票启发式44.7%,并且在不同供应链环境中平均最高可达的RL方法高达12.1%。
translated by 谷歌翻译
实际应用程序中的车辆路由问题(VRP)通常会带有各种限制,因此为精确的解决方案方法或启发式搜索方法带来了其他计算挑战。从样本数据中学习启发式移动模式的最新想法已变得越来越有希望减少解决方案发展成本。但是,使用基于学习的方法来解决更多类型的受限VRP仍然是一个挑战。困难在于在寻找最佳解决方案时控制约束违规。为了克服这一挑战,我们提出了一种基于加强学习的方法,通过纳入Lagrangian放松技术并使用受限的策略优化来解决软件限制的VRP。我们将该方法应用于三种常见类型的VRP,旅行推销员问题与时间窗口(TSPTW),电容性VRP(CVRP)和带有时间窗口(CVRPTW)的电容VRP,以显示所提出方法的普遍性。在与现有的基于RL的方法和开源启发式求解器进行比较之后,我们展示了其在旅行距离,违规距离和推理速度方面良好平衡的解决方案方面的竞争性能。
translated by 谷歌翻译