在钢筋学习中,体验重播存储过去的样本以进一步重用。优先采样是一个有希望的技术,可以更好地利用这些样品。以前的优先级标准包括TD误差,近似和纠正反馈,主要是启发式设计。在这项工作中,我们从遗憾最小化目标开始,并获得最佳的贝尔曼更新优先级探讨策略,可以直接最大化策略的返回。该理论表明,具有较高后视TD误差的数据,应在采样期间具有更高权重的重量来分配更高的Hindsight TD误差,更好的政策和更准确的Q值。因此,最先前的标准只会部分考虑这一战略。我们不仅为以前的标准提供了理论理由,还提出了两种新方法来计算优先级重量,即remern并恢复。 remern学习错误网络,而remert利用状态的时间顺序。这两种方法都以先前的优先考虑的采样算法挑战,包括Mujoco,Atari和Meta-World。
translated by 谷歌翻译
Effectively leveraging large, previously collected datasets in reinforcement learning (RL) is a key challenge for large-scale real-world applications. Offline RL algorithms promise to learn effective policies from previously-collected, static datasets without further interaction. However, in practice, offline RL presents a major challenge, and standard off-policy RL methods can fail due to overestimation of values induced by the distributional shift between the dataset and the learned policy, especially when training on complex and multi-modal data distributions. In this paper, we propose conservative Q-learning (CQL), which aims to address these limitations by learning a conservative Q-function such that the expected value of a policy under this Q-function lower-bounds its true value. We theoretically show that CQL produces a lower bound on the value of the current policy and that it can be incorporated into a policy learning procedure with theoretical improvement guarantees. In practice, CQL augments the standard Bellman error objective with a simple Q-value regularizer which is straightforward to implement on top of existing deep Q-learning and actor-critic implementations. On both discrete and continuous control domains, we show that CQL substantially outperforms existing offline RL methods, often learning policies that attain 2-5 times higher final return, especially when learning from complex and multi-modal data distributions.Preprint. Under review.
translated by 谷歌翻译
重要性采样(IS)是非政策评估中的一种流行技术,它重新赋予了重播缓冲液中轨迹的回归以提高样本效率。但是,对IS进行培训可能是不稳定的,以前试图解决此问题的尝试主要集中于分析IS的差异。在本文中,我们揭示了不稳定性与IS的重复使用偏见的新概念有关 - 由重复使用缓冲液重用进行评估和优化引起的非政策评估偏差。从理论上讲,我们证明了对当前策略的非政策评估和优化,并通过重播缓冲区的数据导致目标高估,这可能会导致错误的梯度更新并退化性能。我们进一步提供了重复使用偏差的高概率上限,并表明控制上限的一个项可以通过引入非政策算法的稳定性概念来控制重复使用偏置。基于这些分析,我们最终提出了一种新颖的偏见调查重要性抽样(BIRIS)框架以及实际算法,可以减轻重复使用偏见的负面影响。实验结果表明,我们基于BIRIS的方法可以显着提高一系列连续控制任务的样品效率。
translated by 谷歌翻译
在许多顺序决策问题(例如,机器人控制,游戏播放,顺序预测),人类或专家数据可用包含有关任务的有用信息。然而,来自少量专家数据的模仿学习(IL)可能在具有复杂动态的高维环境中具有挑战性。行为克隆是一种简单的方法,由于其简单的实现和稳定的收敛而被广泛使用,但不利用涉及环境动态的任何信息。由于对奖励和政策近似器或偏差,高方差梯度估计器,难以在实践中难以在实践中努力训练的许多现有方法。我们介绍了一种用于动态感知IL的方法,它通过学习单个Q函数来避免对抗训练,隐含地代表奖励和策略。在标准基准测试中,隐式学习的奖励显示与地面真实奖励的高正面相关性,说明我们的方法也可以用于逆钢筋学习(IRL)。我们的方法,逆软Q学习(IQ-Learn)获得了最先进的结果,在离线和在线模仿学习设置中,显着优于现有的现有方法,这些方法都在所需的环境交互和高维空间中的可扩展性中,通常超过3倍。
translated by 谷歌翻译
深度加强学习(DRL)的框架为连续决策提供了强大而广泛适用的数学形式化。本文提出了一种新的DRL框架,称为\ emph {$ f $-diveliventcence加强学习(frl)}。在FRL中,通过最大限度地减少学习政策和采样策略之间的$ F $同时执行策略评估和政策改进阶段,这与旨在最大化预期累计奖励的传统DRL算法不同。理论上,我们证明最小化此类$ F $ - 可以使学习政策会聚到最佳政策。此外,我们将FRL框架中的培训代理程序转换为通过Fenchel Concugate的特定$ F $函数转换为鞍点优化问题,这构成了政策评估和政策改进的新方法。通过数学证据和经验评估,我们证明FRL框架有两个优点:(1)政策评估和政策改进过程同时进行,(2)高估价值函数的问题自然而缓解。为了评估FRL框架的有效性,我们对Atari 2600的视频游戏进行实验,并显示在FRL框架中培训的代理匹配或超越基线DRL算法。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
我们根据相对悲观主义的概念,在数据覆盖不足的情况下提出了经过对抗训练的演员评论家(ATAC),这是一种新的无模型算法(RL)。 ATAC被设计为两人Stackelberg游戏:政策演员与受对抗训练的价值评论家竞争,后者发现参与者不如数据收集行为策略的数据一致方案。我们证明,当演员在两人游戏中不后悔时,运行ATAC会产生一项政策,证明1)在控制悲观程度的各种超级参数上都超过了行为政策,而2)与最佳竞争。 policy covered by data with appropriately chosen hyperparameters.与现有作品相比,尤其是我们的框架提供了一般函数近似的理论保证,也提供了可扩展到复杂环境和大型数据集的深度RL实现。在D4RL基准测试中,ATAC在一系列连续的控制任务上始终优于最先进的离线RL算法。
translated by 谷歌翻译
我们考虑在离线域中的强化学习(RL)方法,没有其他在线数据收集,例如移动健康应用程序。计算机科学文献中的大多数现有策略优化算法都是在易于收集或模拟的在线设置中开发的。通过预采用的离线数据集,它们对移动健康应用程序的概括尚不清楚。本文的目的是开发一个新颖的优势学习框架,以便有效地使用预采用的数据进行策略优化。所提出的方法采用由任何现有的最新RL算法计算的最佳Q-估计器作为输入,并输出一项新策略,其价值比基于初始Q-得出的策略更快地收敛速度。估计器。进行广泛的数值实验以支持我们的理论发现。我们提出的方法的Python实现可在https://github.com/leyuanheart/seal上获得。
translated by 谷歌翻译
我们研究马尔可夫决策过程(MDP)框架中的离线数据驱动的顺序决策问题。为了提高学习政策的概括性和适应性,我们建议通过一套关于在政策诱导的固定分配所在的分发的一套平均奖励来评估每项政策。给定由某些行为策略生成的多个轨迹的预收集数据集,我们的目标是在预先指定的策略类中学习一个强大的策略,可以最大化此集的最小值。利用半参数统计的理论,我们开发了一种统计上有效的策略学习方法,用于估算DE NED强大的最佳政策。在数据集中的总决策点方面建立了达到对数因子的速率最佳遗憾。
translated by 谷歌翻译
本文提供了一项理论研究,该研究对在线环境下的$ \ epsilon $ - 梅迪探索中的增强学习(RL)中的深神经功能近似(RL)提供了研究。这种问题设置是由属于该制度的成功深Q-Networks(DQN)框架所激发的。在这项工作中,我们从函数类别和神经网络体系结构(例如,宽度和深度)的角度从“线性”制度之外的函数类别和神经网络体系结构(例如宽度和深度)提供了对理论理解的初步尝试。具体来说,我们将重点放在基于价值的算法上,分别通过BESOV(和Barron)功能空间赋予的深层(和两层)神经网络,以$ \ epsilon $ greedy探索,旨在近似于$ \ alpha $ -Smooth Q功能在$ d $二维功能空间中。我们证明,使用$ t $情节,缩放宽度$ m = \ widetilde {\ mathcal {o}}}(t^{\ frac {d} {2 \ alpha + d}})$和depth $ l = \ Mathcal {O}(\ log t)for Deep RL的神经网络的$足以在Besov空间中以sublinear的遗憾学习。此外,对于由Barron空间赋予的两层神经网络,缩放宽度$ \ omega(\ sqrt {t})$就足够了。为了实现这一目标,我们分析中的关键问题是如何估计深神经功能近似下的时间差异误差,因为$ \ epsilon $ - 否则探索不足以确保“乐观”。我们的分析重新制定了$ l^2(\ mathrm {d} \ mu)$ - 在某个平均度量$ \ mu $上的可集成空间,并将其转换为非IID设置下的概括问题。这可能对RL理论具有自身的兴趣,以便更好地理解Deep RL中的$ \ Epsilon $ -Greedy Exploration。
translated by 谷歌翻译
强化学习算法的实用性由于相对于问题大小的规模差而受到限制,因为学习$ \ epsilon $ -optimal策略的样本复杂性为$ \ tilde {\ omega} \ left(| s | s || a || a || a || a | h^3 / \ eps^2 \ right)$在MDP的最坏情况下,带有状态空间$ S $,ACTION SPACE $ A $和HORIZON $ H $。我们考虑一类显示出低级结构的MDP,其中潜在特征未知。我们认为,价值迭代和低级别矩阵估计的自然组合导致估计误差在地平线上呈指数增长。然后,我们提供了一种新算法以及统计保证,即有效利用了对生成模型的访问,实现了$ \ tilde {o} \ left的样本复杂度(d^5(d^5(| s |+| a |)\),我们有效利用低级结构。对于等级$ d $设置的Mathrm {Poly}(h)/\ EPS^2 \ right)$,相对于$ | s |,| a | $和$ \ eps $的缩放,这是最小值的最佳。与线性和低级别MDP的文献相反,我们不需要已知的功能映射,我们的算法在计算上很简单,并且我们的结果长期存在。我们的结果提供了有关MDP对过渡内核与最佳动作值函数所需的最小低级结构假设的见解。
translated by 谷歌翻译
强大的增强学习(RL)的目的是学习一项与模型参数不确定性的强大策略。由于模拟器建模错误,随着时间的推移,现实世界系统动力学的变化以及对抗性干扰,参数不确定性通常发生在许多现实世界中的RL应用中。强大的RL通常被称为最大问题问题,其目的是学习最大化价值与不确定性集合中最坏可能的模型的策略。在这项工作中,我们提出了一种称为鲁棒拟合Q-材料(RFQI)的强大RL算法,该算法仅使用离线数据集来学习最佳稳健策略。使用离线数据的强大RL比其非持续性对应物更具挑战性,因为在强大的Bellman运营商中所有模型的最小化。这在离线数据收集,对模型的优化以及公正的估计中构成了挑战。在这项工作中,我们提出了一种系统的方法来克服这些挑战,从而导致了我们的RFQI算法。我们证明,RFQI在标准假设下学习了一项近乎最佳的强大政策,并证明了其在标准基准问题上的出色表现。
translated by 谷歌翻译
如何在离线强化学习(RL)中不同培训算法产生的策略和价值函数 - 这对于Hyperpa-Rameter调整至关重要 - 是一个重要的开放问题。基于禁止策略评估(OPE)的现有方法通常需要额外的函数近似,因此造成鸡蛋和鸡蛋情况。在本文中,我们基于BVFT [XJ21]的策略选择设计了近双数点算法,其最近的价值函数选择的理论前进,并在atari等离散动作基准中展示了它们的有效性。为了应对持续动作域的批评群体较差的绩效劣化,我们进一步将BVFT与OPE结合起来,以获得最佳世界,并获得基于Q函数的OPE的高参与计调整方法,具有侧面产品的理论保证。
translated by 谷歌翻译
现代的元强化学习(META-RL)方法主要基于模型 - 不合时宜的元学习开发,该方法在跨任务中执行策略梯度步骤以最大程度地提高策略绩效。但是,在元RL中,梯度冲突问题仍然很少了解,这可能导致遇到不同任务时的性能退化。为了应对这一挑战,本文提出了一种新颖的个性化元素RL(PMETA-RL)算法,该算法汇总了特定任务的个性化政策,以更新用于所有任务的元政策,同时保持个性化的政策,以最大程度地提高每个任务的平均回报在元政策的约束下任务。我们还提供了表格设置下的理论分析,该分析证明了我们的PMETA-RL算法的收敛性。此外,我们将所提出的PMETA-RL算法扩展到基于软参与者批评的深网络版本,使其适合连续控制任务。实验结果表明,所提出的算法在健身房和Mujoco套件上的其他以前的元rl算法都优于其他以前的元素算法。
translated by 谷歌翻译
我们在无限地平线马尔可夫决策过程中考虑批量(离线)策略学习问题。通过移动健康应用程序的推动,我们专注于学习最大化长期平均奖励的政策。我们为平均奖励提出了一款双重强大估算器,并表明它实现了半导体效率。此外,我们开发了一种优化算法来计算参数化随机策略类中的最佳策略。估计政策的履行是通过政策阶级的最佳平均奖励与估计政策的平均奖励之间的差异来衡量,我们建立了有限样本的遗憾保证。通过模拟研究和促进体育活动的移动健康研究的分析来说明该方法的性能。
translated by 谷歌翻译
在没有高保真模拟环境的情况下,学习有效的加强学习(RL)政策可以解决现实世界中的复杂任务。在大多数情况下,我们只有具有简化动力学的不完善的模拟器,这不可避免地导致RL策略学习中的SIM到巨大差距。最近出现的离线RL领域为直接从预先收集的历史数据中学习政策提供了另一种可能性。但是,为了达到合理的性能,现有的离线RL算法需要不切实际的离线数据,并具有足够的州行动空间覆盖范围进行培训。这提出了一个新问题:是否有可能通过在线RL中的不完美模拟器中的离线RL中的有限数据中的学习结合到无限制的探索,以解决两种方法的缺点?在这项研究中,我们提出了动态感知的混合离线和对线增强学习(H2O)框架,以为这个问题提供肯定的答案。 H2O引入了动态感知的政策评估方案,该方案可以自适应地惩罚Q函数在模拟的状态行动对上具有较大的动态差距,同时也允许从固定的现实世界数据集中学习。通过广泛的模拟和现实世界任务以及理论分析,我们证明了H2O与其他跨域在线和离线RL算法相对于其他跨域的表现。 H2O提供了全新的脱机脱机RL范式,该范式可能会阐明未来的RL算法设计,以解决实用的现实世界任务。
translated by 谷歌翻译
We revisit the domain of off-policy policy optimization in RL from the perspective of coordinate ascent. One commonly-used approach is to leverage the off-policy policy gradient to optimize a surrogate objective -- the total discounted in expectation return of the target policy with respect to the state distribution of the behavior policy. However, this approach has been shown to suffer from the distribution mismatch issue, and therefore significant efforts are needed for correcting this mismatch either via state distribution correction or a counterfactual method. In this paper, we rethink off-policy learning via Coordinate Ascent Policy Optimization (CAPO), an off-policy actor-critic algorithm that decouples policy improvement from the state distribution of the behavior policy without using the policy gradient. This design obviates the need for distribution correction or importance sampling in the policy improvement step of off-policy policy gradient. We establish the global convergence of CAPO with general coordinate selection and then further quantify the convergence rates of several instances of CAPO with popular coordinate selection rules, including the cyclic and the randomized variants of CAPO. We then extend CAPO to neural policies for a more practical implementation. Through experiments, we demonstrate that CAPO provides a competitive approach to RL in practice.
translated by 谷歌翻译
最近的平均野外游戏(MFG)形式主义促进了对许多代理环境中近似NASH均衡的棘手计算。在本文中,我们考虑具有有限摩托目标目标的离散时间有限的MFG。我们表明,所有具有非恒定固定点运算符的离散时间有限的MFG无法正如现有MFG文献中通常假设的,禁止通过固定点迭代收敛。取而代之的是,我们将熵验证和玻尔兹曼策略纳入固定点迭代中。结果,我们获得了现有方法失败的近似固定点的可证明的融合,并达到了近似NASH平衡的原始目标。所有提出的方法均可在其可剥削性方面进行评估,这两个方法都具有可牵引的精确溶液和高维问题的启发性示例,在这些示例中,精确方法变得棘手。在高维场景中,我们采用了既定的深入强化学习方法,并从经验上将虚拟的游戏与我们的近似值结合在一起。
translated by 谷歌翻译
逆增强学习(IRL)是从专家演示中推断奖励功能的强大范式。许多IRL算法都需要已知的过渡模型,有时甚至是已知的专家政策,或者至少需要访问生成模型。但是,对于许多现实世界应用,这些假设太强了,在这些应用程序中,只能通过顺序相互作用访问环境。我们提出了一种新颖的IRL算法:逆增强学习(ACEIRL)的积极探索,该探索积极探索未知的环境和专家政策,以快速学习专家的奖励功能并确定良好的政策。 Aceirl使用以前的观察来构建置信区间,以捕获合理的奖励功能,并找到关注环境最有用区域的勘探政策。 Aceirl是使用样品复杂性界限的第一种活动IRL的方法,不需要环境的生成模型。在最坏情况下,Aceirl与活性IRL的样品复杂性与生成模型匹配。此外,我们建立了一个与问题相关的结合,该结合将Aceirl的样品复杂性与给定IRL问题的次级隔离间隙联系起来。我们在模拟中对Aceirl进行了经验评估,发现它的表现明显优于更幼稚的探索策略。
translated by 谷歌翻译
我们介绍了一种普遍的策略,可实现有效的多目标勘探。它依赖于adagoal,一种基于简单约束优化问题的新的目标选择方案,其自适应地针对目标状态,这既不是太困难也不是根据代理目前的知识达到的。我们展示了Adagoal如何用于解决学习$ \ epsilon $ -optimal的目标条件的政策,以便在$ L $ S_0 $ S_0 $奖励中获得的每一个目标状态,以便在$ S_0 $中获取。免费马尔可夫决策过程。在标准的表格外壳中,我们的算法需要$ \ tilde {o}(l ^ 3 s a \ epsilon ^ { - 2})$探索步骤,这几乎很少最佳。我们还容易在线性混合Markov决策过程中实例化Adagoal,其产生具有线性函数近似的第一目标导向的PAC保证。除了强大的理论保证之外,迈克纳队以现有方法的高级别算法结构为锚定,为目标条件的深度加固学习。
translated by 谷歌翻译