排队系统出现在许多重要的现实生活应用中,包括通信网络,运输和制造系统。加固学习(RL)框架是排队控制问题的合适模型,在该问题中,基础动力通常未知,并且代理几乎没有从环境中接收到导航的信息。在这项工作中,我们将排队模型作为RL环境的优化方面进行了研究,并提供了有效学习最佳政策的见解。我们通过使用排队网络系统的固有属性来提出策略的新参数化。实验显示了我们的方法的良好性能,从轻度到繁忙的交通状况各种负载条件。
translated by 谷歌翻译
为了在许多因素动态影响输出轨迹的复杂随机系统上学习,希望有效利用从以前迭代中收集的历史样本中的信息来加速策略优化。经典的经验重播使代理商可以通过重复使用历史观察来记住。但是,处理所有观察结果的统一重复使用策略均忽略了不同样本的相对重要性。为了克服这一限制,我们提出了一个基于一般差异的经验重播(VRER)框架,该框架可以选择性地重复使用最相关的样本以改善策略梯度估计。这种选择性机制可以自适应地对过去的样品增加重量,这些样本更可能由当前目标分布产生。我们的理论和实证研究表明,提议的VRER可以加速学习最佳政策,并增强最先进的政策优化方法的性能。
translated by 谷歌翻译
为了在许多因素动态影响输出轨迹的复杂随机系统上学习,希望有效利用从以前迭代中收集的历史样本中的信息来加速策略优化。经典的经验重播使代理商可以通过重复使用历史观察来记住。但是,处理所有观察结果的统一重复使用策略均忽略了不同样本的相对重要性。为了克服这一限制,我们提出了一个基于一般差异的经验重播(VRER)框架,该框架可以选择性地重复使用最相关的样本以改善策略梯度估计。这种选择性机制可以自适应地对过去的样品增加重量,这些样本更可能由当前目标分布产生。我们的理论和实证研究表明,提议的VRER可以加速学习最佳政策,并增强最先进的政策优化方法的性能。
translated by 谷歌翻译
尽管政策梯度方法的普及日益越来越大,但它们尚未广泛用于样品稀缺应用,例如机器人。通过充分利用可用信息,可以提高样本效率。作为强化学习中的关键部件,奖励功能通常仔细设计以引导代理商。因此,奖励功能通常是已知的,允许访问不仅可以访问标量奖励信号,而且允许奖励梯度。为了从奖励梯度中受益,之前的作品需要了解环境动态,这很难获得。在这项工作中,我们开发\ Textit {奖励政策梯度}估计器,这是一种新的方法,可以在不学习模型的情况下整合奖励梯度。绕过模型动态允许我们的估算器实现更好的偏差差异,这导致更高的样本效率,如经验分析所示。我们的方法还提高了在不同的Mujoco控制任务上的近端策略优化的性能。
translated by 谷歌翻译
我们考虑一个不当的强化学习设置,在该设置中,为学习者提供了$ M $的基本控制器,以进行未知的马尔可夫决策过程,并希望最佳地结合它们,以生产一个可能胜过每个基本基础的控制器。这对于在不匹配或模拟环境中学习的跨控制器进行调整可能很有用,可以为给定的目标环境获得良好的控制器,而试验相对较少。在此方面,我们提出了两种算法:(1)一种基于政策梯度的方法; (2)可以根据可用信息在基于简单的参与者(AC)方案和天然参与者(NAC)方案之间切换的算法。两种算法都在给定控制器的一类不当混合物上运行。对于第一种情况,我们得出融合率保证,假设访问梯度甲骨文。对于基于AC的方法,我们提供了基本AC案例中的固定点的收敛速率保证,并在NAC情况下为全球最优值提供了保证。 (i)稳定卡特柱的标准控制理论基准的数值结果; (ii)一个受约束的排队任务表明,即使可以使用的基本策略不稳定,我们的不当政策优化算法也可以稳定系统。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
基于我们先前关于绿色仿真辅助政策梯度(GS-PG)的研究,重点是基于轨迹的重复使用,在本文中,我们考虑了无限 - 马尔可夫马尔可夫决策过程,并创建了一种新的重要性采样策略梯度优化的方法来支持动态决策制造。现有的GS-PG方法旨在从完整的剧集或过程轨迹中学习,这将其适用性限制在低数据状态和灵活的在线过程控制中。为了克服这一限制,提出的方法可以选择性地重复使用最相关的部分轨迹,即,重用单元基于每步或每次派遣的历史观察。具体而言,我们创建了基于混合的可能性比率(MLR)策略梯度优化,该优化可以利用不同行为政策下产生的历史状态行动转变中的信息。提出的减少差异经验重播(VRER)方法可以智能地选择和重复使用最相关的过渡观察,改善策略梯度估计并加速最佳政策的学习。我们的实证研究表明,它可以改善优化融合并增强最先进的政策优化方法的性能,例如Actor-Critic方法和近端政策优化。
translated by 谷歌翻译
政策梯度(PG)算法是备受期待的强化学习对现实世界控制任务(例如机器人技术)的最佳候选人之一。但是,每当必须在物理系统上执行学习过程本身或涉及任何形式的人类计算机相互作用时,这些方法的反复试验性质就会提出安全问题。在本文中,我们解决了一种特定的安全公式,其中目标和危险都以标量奖励信号进行编码,并且学习代理被限制为从不恶化其性能,以衡量为预期的奖励总和。通过从随机优化的角度研究仅行为者的政策梯度,我们为广泛的参数政策建立了改进保证,从而将现有结果推广到高斯政策上。这与策略梯度估计器的差异的新型上限一起,使我们能够识别出具有很高概率的单调改进的元参数计划。两个关键的元参数是参数更新的步长和梯度估计的批处理大小。通过对这些元参数的联合自适应选择,我们获得了具有单调改进保证的政策梯度算法。
translated by 谷歌翻译
降低策略梯度方法方差的梯度估计器已成为近年来增强学习研究的主要重点之一,因为它们允许加速估算过程。我们提出了一种称为Sharp的方差降低的策略梯度方法,该方法将二阶信息纳入随机梯度下降(SGD)中,并使用动量和时间变化的学习率。 Sharp Algorithm无参数,实现$ \ Epsilon $ - Appro-Appro-Approximate固定点,带有$ O(\ Epsilon^{ - 3})$的轨迹数,同时使用批量的大小为$ O(1)$迭代。与以前的大多数工作不同,我们提出的算法不需要重要的抽样,这可能会损害降低方差的优势。此外,估计错误的差异会以$ o(1/t^{2/3})$的快速速率衰减,其中$ t $是迭代的数量。我们广泛的实验评估表明,拟议算法对各种控制任务的有效性及其对实践中最新状态的优势。
translated by 谷歌翻译
在钢筋学习中,连续时间通常是通过时间缩放$ \ delta $离散的,所以已知产生的性能是高度敏感的。在这项工作中,我们寻求找到一个$ \ delta $-invariant算法,用于策略渐变(pg)方法,无论$ \ delta $的值如何,它会效果良好。我们首先确定导致PG方法失败的潜在原因作为$ \ delta \ 0美元,证明了PG估计器的方差在随机性的某些假设下随机环境中的无限远。虽然可以使用持续行动或动作重复来拥有$ \ delta $-invariance,但之前的操作重复方法不能立即对随机环境中的意外情况作出反应。因此,我们提出了一种新的$ \ delta $-invariant方法,命名为适用于任何现有的pg算法的安全操作重复(sar)。 SAR可以通过自适应地反应在行动重复期间的状态变化来处理环境的随机性。我们经验表明,我们的方法不仅是$ \ delta $-invariant,而且对随机性的强大,表现出以前的八个Mujoco环境中的前一\ \ delta $-invariant方法,具有确定性和随机设置。我们的代码在https://vision.snu.ac.kr/projects/sar上获得。
translated by 谷歌翻译
近年来,数据中心和云服务的容量和并行处理能力大大提高。为了充分利用所述分布式系统,必须实现并行排队架构的最佳负载平衡。现有的最新解决方案未能考虑沟通延迟对许多客户的非常大系统的行为的影响。在这项工作中,我们考虑了一个多代理负载平衡系统,其中包含延迟信息,包括许多客户(负载平衡器)和许多并行队列。为了获得可处理的解决方案,我们通过精确离散化在离散时间内将该系统建模为具有扩大状态行动空间的平均场控制问题。随后,我们应用政策梯度增强学习算法来找到最佳的负载平衡解决方案。在这里,离散时间系统模型包含了同步延迟,在该延迟下,在所有客户端,队列状态信息同步广播和更新。然后,我们在大型系统中为我们的方法提供了理论性能保证。最后,使用实验,我们证明了我们的方法不仅可扩展,而且与最新的Join-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the warriant相比,还表现出良好的性能(JSQ)和其他在同步延迟的情况下政策。
translated by 谷歌翻译
基于如何解释参数模型(例如价值与策略表示)或如何制定学习目标,但它们具有最大化预期回报的共同目标,从而从各种原则中激发了政策优化的方法。为了更好地捕获共同点并确定策略优化方法之间的关键差异,我们开发了一个统一的观点,该视角以有限的梯度形式和缩放功能的选择来重新表达基础更新。特别是,我们确定了高度结构化的策略优化的近似梯度更新的参数化空间,但涵盖了包括PPO在内的经典和最近的示例。结果,我们获得了新颖而充满动力的更新,以概括现有算法的方式可以在收敛速度和最终结果质量方面带来好处。一项实验研究表明,可以利用参数化更新家族中提供的额外自由度,以获得合成域和流行的深入RL基准的非平凡改进。
translated by 谷歌翻译
Model-free deep reinforcement learning (RL) algorithms have been demonstrated on a range of challenging decision making and control tasks. However, these methods typically suffer from two major challenges: very high sample complexity and brittle convergence properties, which necessitate meticulous hyperparameter tuning. Both of these challenges severely limit the applicability of such methods to complex, real-world domains. In this paper, we propose soft actor-critic, an offpolicy actor-critic deep RL algorithm based on the maximum entropy reinforcement learning framework. In this framework, the actor aims to maximize expected reward while also maximizing entropy. That is, to succeed at the task while acting as randomly as possible. Prior deep RL methods based on this framework have been formulated as Q-learning methods. By combining off-policy updates with a stable stochastic actor-critic formulation, our method achieves state-of-the-art performance on a range of continuous control benchmark tasks, outperforming prior on-policy and off-policy methods. Furthermore, we demonstrate that, in contrast to other off-policy algorithms, our approach is very stable, achieving very similar performance across different random seeds.
translated by 谷歌翻译
当我们不允许我们使用目标策略进行采样,而只能访问某些未知行为策略生成的数据集时,策略梯度(PG)估计就成为一个挑战。用于支付政策PG估计的常规方法通常会遭受明显的偏差或指数较大的差异。在本文中,我们提出了双拟合的PG估计(FPG)算法。假设访问Bellman-Complete值函数类,FPG可以与任意策略参数化一起工作。在线性值函数近似的情况下,我们在策略梯度估计误差上提供了一个紧密的有限样本上限,该界限受特征空间中测量的分布不匹配量的控制。我们还建立了FPG估计误差的渐近正态性,并具有精确的协方差表征,这进一步证明在统计上是最佳的,具有匹配的Cramer-Rao下限。从经验上讲,我们使用SoftMax表格或RELU策略网络评估FPG在策略梯度估计和策略优化方面的性能。在各种指标下,我们的结果表明,基于重要性采样和降低方差技术,FPG显着优于现有的非政策PG估计方法。
translated by 谷歌翻译
我们研究了平均奖励马尔可夫决策过程(AMDP)的问题,并开发了具有强大理论保证的新型一阶方法,以进行政策评估和优化。由于缺乏勘探,现有的彻底评估方法遭受了次优融合率以及处理不足的随机策略(例如确定性政策)的失败。为了解决这些问题,我们开发了一种新颖的差异时间差异(VRTD)方法,具有随机策略的线性函数近似以及最佳收敛保证,以及一种探索性方差降低的时间差(EVRTD)方法,用于不充分的随机策略,可相当的融合保证。我们进一步建立了政策评估偏见的线性收敛速率,这对于改善策略优化的总体样本复杂性至关重要。另一方面,与对MDP的政策梯度方法的有限样本分析相比,对AMDP的策略梯度方法的现有研究主要集中在基础马尔可夫流程的限制性假设下(例如,参见Abbasi-e, Yadkori等人,2019年),他们通常缺乏整体样本复杂性的保证。为此,我们开发了随机策略镜下降(SPMD)的平均奖励变体(LAN,2022)。我们建立了第一个$ \ widetilde {\ Mathcal {o}}(\ epsilon^{ - 2})$样品复杂性,用于在生成模型(带有UNICHAIN假设)和Markovian Noise模型(使用Ergodicicic Modele(具有核能的模型)下,使用策略梯度方法求解AMDP假设)。该界限可以进一步改进到$ \ widetilde {\ Mathcal {o}}}(\ epsilon^{ - 1})$用于求解正则化AMDPS。我们的理论优势通过数值实验来证实。
translated by 谷歌翻译
Reinforcement learning (RL) problems can be challenging without well-shaped rewards. Prior work on provably efficient RL methods generally proposes to address this issue with dedicated exploration strategies. However, another way to tackle this challenge is to reformulate it as a multi-task RL problem, where the task space contains not only the challenging task of interest but also easier tasks that implicitly function as a curriculum. Such a reformulation opens up the possibility of running existing multi-task RL methods as a more efficient alternative to solving a single challenging task from scratch. In this work, we provide a theoretical framework that reformulates a single-task RL problem as a multi-task RL problem defined by a curriculum. Under mild regularity conditions on the curriculum, we show that sequentially solving each task in the multi-task RL problem is more computationally efficient than solving the original single-task problem, without any explicit exploration bonuses or other exploration strategies. We also show that our theoretical insights can be translated into an effective practical learning algorithm that can accelerate curriculum learning on simulated robotic tasks.
translated by 谷歌翻译
我们考虑在离线域中的强化学习(RL)方法,没有其他在线数据收集,例如移动健康应用程序。计算机科学文献中的大多数现有策略优化算法都是在易于收集或模拟的在线设置中开发的。通过预采用的离线数据集,它们对移动健康应用程序的概括尚不清楚。本文的目的是开发一个新颖的优势学习框架,以便有效地使用预采用的数据进行策略优化。所提出的方法采用由任何现有的最新RL算法计算的最佳Q-估计器作为输入,并输出一项新策略,其价值比基于初始Q-得出的策略更快地收敛速度。估计器。进行广泛的数值实验以支持我们的理论发现。我们提出的方法的Python实现可在https://github.com/leyuanheart/seal上获得。
translated by 谷歌翻译
我们在$ gi/gi/1 $队列中研究动态定价和容量大小问题,服务提供商的目标是获得最佳服务费$ p $ $ p $和服务能力$ \ mu $,以最大程度地提高累积预期利润(服务收入减去人员配备成本和延迟罚款)。由于排队动力学的复杂性质,这种问题没有分析解决方案,因此以前的研究经常诉诸于交通重型分析,在这种分析中,到达率和服务率都发送到无穷大。在这项工作中,我们提出了一个旨在解决此问题的在线学习框架,该框架不需要系统的规模增加。我们的框架在队列(GOLIQ)中被称为基于梯度的在线学习。 Goliq将时间范围组织为连续的操作周期,并开出了有效的程序,以使用先前的周期中收集的数据在每个周期中获得改进的定价和人员配备策略。此处的数据包括客户到达的数量,等待时间和服务器的繁忙时间。这种方法的创造力在于其在线性质,这使服务提供商可以通过与环境进行互动来更好。 GOLIQ的有效性得到了(i)理论结果的证实,包括算法收敛和遗憾分析(对数遗憾的束缚),以及(ii)通过模拟实验进行工程确认,以了解各种代表性$ GI/GI/GI/1 $ $ $ $ $。
translated by 谷歌翻译
提高样本效率是加固学习的长期目标。本文提出了$ \ mathtt {vrmpo} $算法:具有随机镜血液的样本高效策略梯度方法。在$ \ mathtt {vrmpo} $中,提出了一种新的差异减少的政策梯度估计,以提高样本效率。我们证明了所提出的$ \ mathtt {vrmpo} $只需要$ \ mathcal {o}(\ epsilon ^ {-3})$ at \ epsilon $ att \ epsilon $-uppryoge一阶静止点,符合策略优化的最佳样本复杂性。广泛的实验结果表明,$ \ mathtt {vrmpo} $胜过各种设置中最先进的政策梯度方法。
translated by 谷歌翻译
我们考虑在一个有限时间范围内的离散时间随机动力系统的联合设计和控制。我们将问题作为一个多步优化问题,在寻求识别系统设计和控制政策的不确定性下,共同最大化所考虑的时间范围内收集的预期奖励总和。转换函数,奖励函数和策略都是参数化的,假设与其参数有所不同。然后,我们引入了一种深度加强学习算法,将策略梯度方法与基于模型的优化技术相结合以解决这个问题。从本质上讲,我们的算法迭代地估计通过Monte-Carlo采样和自动分化的预期返回的梯度,并在环境和策略参数空间中投影梯度上升步骤。该算法称为直接环境和策略搜索(DEPS)。我们评估我们算法在三个环境中的性能,分别在三种环境中进行了一个群众弹簧阻尼系统的设计和控制,分别小型离网电力系统和无人机。此外,我们的算法是针对用于解决联合设计和控制问题的最先进的深增强学习算法的基准测试。我们表明,在所有三种环境中,DEPS至少在或更好地执行,始终如一地产生更高的迭代返回的解决方案。最后,通过我们的算法产生的解决方案也与由算法产生的解决方案相比,不共同优化环境和策略参数,突出显示在执行联合优化时可以实现更高返回的事实。
translated by 谷歌翻译