表示学习通常通过管理维度的诅咒在加强学习中起关键作用。代表性的算法类别利用了随机过渡动力学的光谱分解,以构建在理想化环境中具有强大理论特性的表示。但是,当前的光谱方法的适用性有限,因为它们是用于仅国家的聚合并源自策略依赖性过渡内核的,而无需考虑勘探问题。为了解决这些问题,我们提出了一种替代光谱方法,光谱分解表示(SPEDER),该方法从动力学中提取了国家行动抽象而不诱导虚假依赖数据收集策略,同时还可以平衡探索访问权分析交易 - 在学习过程中关闭。理论分析确定了在线和离线设置中所提出的算法的样本效率。此外,一项实验研究表明,在几个基准测试中,比当前的最新算法表现出色。
translated by 谷歌翻译
Deep latent variable models have achieved significant empirical successes in model-based reinforcement learning (RL) due to their expressiveness in modeling complex transition dynamics. On the other hand, it remains unclear theoretically and empirically how latent variable models may facilitate learning, planning, and exploration to improve the sample efficiency of RL. In this paper, we provide a representation view of the latent variable models for state-action value functions, which allows both tractable variational learning algorithm and effective implementation of the optimism/pessimism principle in the face of uncertainty for exploration. In particular, we propose a computationally efficient planning algorithm with UCB exploration by incorporating kernel embeddings of latent variable models. Theoretically, we establish the sample complexity of the proposed approach in the online and offline settings. Empirically, we demonstrate superior performance over current state-of-the-art algorithms across various benchmarks.
translated by 谷歌翻译
通常通过利用低级别表示来解决马尔可夫决策过程(MDP)中维度的诅咒。这激发了有关线性MDP的最新理论研究。但是,大多数方法在不切实际的假设下对分解的归一化或在实践中引入未解决的计算挑战。相反,我们考虑了线性MDP的替代定义,该定义自动确保正常化,同时允许通过对比度估计进行有效的表示。该框架还承认了置信度调整的索引算法,从而使面对不确定性的乐观或悲观主义,使得有效而有原则的方法。据我们所知,这为线性MDP提供了第一种实用的表示学习方法,该方法既可以实现强大的理论保证和经验绩效。从理论上讲,我们证明所提出的算法在在线和离线设置中均有效。从经验上讲,我们在几个基准测试中表现出优于现有基于模型的现有模型和无模型算法的卓越性能。
translated by 谷歌翻译
代表学习呈现在深入学习的经验成功的核心,以处理维度的诅咒。然而,由于i),表现力(RL)的钢筋学习(RL)尚未充分利用卓越的能力,表现力和易疏忽之间的权衡;二世),探索与代表学习之间的耦合。在本文中,我们首先揭示了在随机控制模型中的一些噪声假设下,我们可以免费获得其相应的马尔可夫过渡操作员的线性谱特征。基于该观察,我们提出了嵌入(Spede)的谱动力学嵌入(SPEDE),这将通过利用噪声结构来完成对代表学习的乐观探索。我们提供对Speded的严格理论分析,并展示了几种基准上现有最先进的实证算法的实际卓越性能。
translated by 谷歌翻译
这项工作研究了RL中的代表性学习问题:我们如何学习紧凑的低维表示,使得在代表之上,我们可以以示例有效的方式执行诸如勘探和开发的RL程序。我们专注于低级马尔可夫决策过程(MDP),其中转换动态对应于低秩转换矩阵。与假设表示的事先作品(例如,线性MDP)不同,这里我们需要学习低秩MDP的表示。我们研究在线RL和离线RL设置。对于在线设置,在Flambe(Agarwal et.al)中使用相同的计算oracells操作,用于在低级MDP中学习表示的最先进的算法,我们提出了一种算法Rep-UCB上部置信束缚的驱动表示学习对于RL),这显着提高了$ \ widetilde {o}的样本复杂性(a ^ 9 d ^ 7 /(\ epsilon ^ {10}(1- \ gamma)^ {22}),因为flambe到$ \ widetilde {o}(a ^ 4 d ^ 4 /(\ epsilon ^ 2(1- \ gamma)^ {3})$ d $是转换矩阵的等级(或地面真相表示的维度) ,$ a $是行动次数,而$ \ gamma $是折扣因素。值得注意的是,rep-ucb比flambe更简单,因为它直接余额余额表示学习,探索和剥削之间的相互作用,而Flambe是一种探索的探索式风格方法,并且必须逐步执行无奖励探索及时。对于离线RL设置,我们开发了一种利用悲观主义在部分覆盖条件下学习的算法:我们的算法能够与脱机分布所涵盖的策略进行竞争。
translated by 谷歌翻译
随着代表性学习成为一种在实践中降低增强学习(RL)样本复杂性(RL)的强大技术,对其优势的理论理解仍然是有限的。在本文中,我们从理论上表征了在低级马尔可夫决策过程(MDP)模型下表示学习的好处。我们首先研究多任务低级RL(作为上游培训),所有任务都共享一个共同的表示,并提出了一种称为加油的新型多任务奖励算法。加油站同时了解每个任务的过渡内核和近乎最佳的策略,并为下游任务输出良好的代表。我们的结果表明,只要任务总数高于一定的阈值,多任务表示学习比单独学习的样本效率要高。然后,我们研究在线和离线设置中的下游RL,在该设置中,代理商分配了一个新任务,共享与上游任务相同的表示形式。对于在线和离线设置,我们都会开发出样本效率高的算法,并表明它找到了一个近乎最佳的策略,其次要差距在上游中学习的估计误差和一个消失的术语作为数字作为数字的估计误差的范围。下游样品的大量变大。我们在线和离线RL的下游结果进一步捕获了从上游采用学习的表示形式的好处,而不是直接学习低级模型的表示。据我们所知,这是第一个理论研究,它表征了代表性学习在基于探索的无奖励多任务RL中对上游和下游任务的好处。
translated by 谷歌翻译
Model-based reinforcement learning (RL) methods are appealing in the offline setting because they allow an agent to reason about the consequences of actions without interacting with the environment. Prior methods learn a 1-step dynamics model, which predicts the next state given the current state and action. These models do not immediately tell the agent which actions to take, but must be integrated into a larger RL framework. Can we model the environment dynamics in a different way, such that the learned model does directly indicate the value of each action? In this paper, we propose Contrastive Value Learning (CVL), which learns an implicit, multi-step model of the environment dynamics. This model can be learned without access to reward functions, but nonetheless can be used to directly estimate the value of each action, without requiring any TD learning. Because this model represents the multi-step transitions implicitly, it avoids having to predict high-dimensional observations and thus scales to high-dimensional tasks. Our experiments demonstrate that CVL outperforms prior offline RL methods on complex continuous control benchmarks.
translated by 谷歌翻译
我们研究了基于模型的无奖励加强学习,具有ePiSodic Markov决策过程的线性函数近似(MDP)。在此设置中,代理在两个阶段工作。在勘探阶段,代理商与环境相互作用并在没有奖励的情况下收集样品。在规划阶段,代理商给出了特定的奖励功能,并使用从勘探阶段收集的样品来学习良好的政策。我们提出了一种新的可直接有效的算法,称为UCRL-RFE在线性混合MDP假设,其中MDP的转换概率内核可以通过线性函数参数化,在状态,动作和下一个状态的三联体上定义的某些特征映射上参数化。我们展示了获得$ \ epsilon $-Optimal策略进行任意奖励函数,Ucrl-RFE需要以大多数$ \ tilde {\ mathcal {o}}来进行采样(h ^ 5d ^ 2 \ epsilon ^ { - 2})勘探阶段期间的$派对。在这里,$ H $是集的长度,$ d $是特征映射的尺寸。我们还使用Bernstein型奖金提出了一种UCRL-RFE的变种,并表明它需要在大多数$ \ TINDE {\ MATHCAL {o}}(H ^ 4D(H + D)\ epsilon ^ { - 2})进行样本$达到$ \ epsilon $ -optimal政策。通过构建特殊类的线性混合MDPS,我们还证明了对于任何无奖励算法,它需要至少为$ \ TINDE \ OMEGA(H ^ 2d \ epsilon ^ { - 2})$剧集来获取$ \ epsilon $ -optimal政策。我们的上限与依赖于$ \ epsilon $的依赖性和$ d $ if $ h \ ge d $。
translated by 谷歌翻译
尽管理论上的行为克隆(BC)遭受了复杂错误,但其可扩展性和简单性仍然使其成为一种有吸引力的模仿学习算法。相比之下,对抗性训练的模仿方法通常不会共享相同的问题,但需要与环境进行互动。同时,大多数模仿学习方法仅利用最佳数据集,这可能比其次优的数据集更昂贵。出现的一个问题是,我们可以以原则上的方式使用次优数据集,否则会闲置吗?我们提出了一个基于可扩展模型的离线模仿学习算法框架,该算法框架利用次优和最佳策略收集的数据集,并表明其最坏情况下的次优率在时间范围内相对于专家样本而变线。我们从经验上验证了我们的理论结果,并表明所提出的方法\ textit {始终}在模拟连续控制域的低数据状态下优于BC。
translated by 谷歌翻译
这项工作开发了具有严格效率的新算法,可确保无限的地平线模仿学习(IL)具有线性函数近似而无需限制性相干假设。我们从问题的最小值开始,然后概述如何从优化中利用经典工具,尤其是近端点方法(PPM)和双平滑性,分别用于在线和离线IL。多亏了PPM,我们避免了在以前的文献中出现在线IL的嵌套政策评估和成本更新。特别是,我们通过优化单个凸的优化和在成本和Q函数上的平稳目标来消除常规交替更新。当不确定地解决时,我们将优化错误与恢复策略的次级优势联系起来。作为额外的奖励,通过将PPM重新解释为双重平滑以专家政策为中心,我们还获得了一个离线IL IL算法,该算法在所需的专家轨迹方面享有理论保证。最后,我们实现了线性和神经网络功能近似的令人信服的经验性能。
translated by 谷歌翻译
We study sample efficient reinforcement learning (RL) under the general framework of interactive decision making, which includes Markov decision process (MDP), partially observable Markov decision process (POMDP), and predictive state representation (PSR) as special cases. Toward finding the minimum assumption that empowers sample efficient learning, we propose a novel complexity measure, generalized eluder coefficient (GEC), which characterizes the fundamental tradeoff between exploration and exploitation in online interactive decision making. In specific, GEC captures the hardness of exploration by comparing the error of predicting the performance of the updated policy with the in-sample training error evaluated on the historical data. We show that RL problems with low GEC form a remarkably rich class, which subsumes low Bellman eluder dimension problems, bilinear class, low witness rank problems, PO-bilinear class, and generalized regular PSR, where generalized regular PSR, a new tractable PSR class identified by us, includes nearly all known tractable POMDPs. Furthermore, in terms of algorithm design, we propose a generic posterior sampling algorithm, which can be implemented in both model-free and model-based fashion, under both fully observable and partially observable settings. The proposed algorithm modifies the standard posterior sampling algorithm in two aspects: (i) we use an optimistic prior distribution that biases towards hypotheses with higher values and (ii) a loglikelihood function is set to be the empirical loss evaluated on the historical data, where the choice of loss function supports both model-free and model-based learning. We prove that the proposed algorithm is sample efficient by establishing a sublinear regret upper bound in terms of GEC. In summary, we provide a new and unified understanding of both fully observable and partially observable RL.
translated by 谷歌翻译
离线目标条件的强化学习(GCRL)承诺以从纯粹的离线数据集实现各种目标的形式的通用技能学习。我们提出$ \ textbf {go} $ al-al-conditioned $ f $ - $ \ textbf {a} $ dvantage $ \ textbf {r} $ egression(gofar),这是一种基于新颖的回归gcrl gcrl algorithm,它源自州越来越多匹配的视角;关键的直觉是,可以将目标任务提出为守护动态的模仿者和直接传送到目标的专家代理之间的状态占用匹配问题。与先前的方法相反,Gofar不需要任何事后重新标签,并且对其价值和策略网络享有未融合的优化。这些独特的功能允许Gofar具有更好的离线性能和稳定性以及统计性能保证,这对于先前的方法无法实现。此外,我们证明了Gofar的训练目标可以重新使用,以从纯粹的离线源数据域数据中学习独立于代理的目标条件计划的计划者,这可以使零射击传输到新的目标域。通过广泛的实验,我们验证了Gofar在各种问题设置和任务中的有效性,显着超过了先前的先验。值得注意的是,在真正的机器人灵活性操纵任务上,虽然没有其他方法取得了有意义的进步,但Gofar获得了成功实现各种目标的复杂操纵行为。
translated by 谷歌翻译
确保基于乐观或后采样(PSRL)的基于模型的强化增强学习(MBRL)通过引入模型的复杂度度量,以渐近地实现全局最优性。但是,对于最简单的非线性模型,复杂性可能会成倍增长,在有限的迭代中,全局收敛是不可能的。当模型遭受大的概括误差(通过模型复杂性定量测量)时,不确定性可能很大。因此,对当前策略进行贪婪优化的采样模型将不设置,从而导致积极的政策更新和过度探索。在这项工作中,我们提出了涉及参考更新和保守更新的保守双重政策优化(CDPO)。该策略首先在参考模型下进行了优化,该策略模仿PSRL的机制,同时提供更大的稳定性。通过最大化模型值的期望来保证保守的随机性范围。没有有害的采样程序,CDPO仍然可以达到与PSRL相同的遗憾。更重要的是,CDPO同时享有单调的政策改进和全球最优性。经验结果还验证了CDPO的勘探效率。
translated by 谷歌翻译
我们研究了离线加强学习(RL)的代表性学习,重点是离线政策评估(OPE)的重要任务。最近的工作表明,与监督的学习相反,Q功能的可实现性不足以学习。样品效率OPE的两个足够条件是Bellman的完整性和覆盖范围。先前的工作通常假设给出满足这些条件的表示形式,结果大多是理论上的。在这项工作中,我们提出了BCRL,该BCRL直接从数据中吸取了近似线性的贝尔曼完整表示,并具有良好的覆盖范围。通过这种学识渊博的表示,我们使用最小平方策略评估(LSPE)执行OPE,并在我们学习的表示中具有线性函数。我们提出了端到端的理论分析,表明我们的两阶段算法享有多项式样本复杂性,该算法在所考虑的丰富类别中提供了一些表示形式,这是线性的贝尔曼完成。从经验上讲,我们广泛评估了我们的DeepMind Control Suite的具有挑战性的基于图像的连续控制任务。我们显示我们的表示能够与针对非政策RL开发的先前表示的学习方法(例如Curl,SPR)相比,可以更好地使用OPE。 BCRL使用最先进的方法拟合Q评估(FQE)实现竞争性OPE误差,并在评估超出初始状态分布的评估时击败FQE。我们的消融表明,我们方法的线性铃铛完整和覆盖范围都至关重要。
translated by 谷歌翻译
鉴于它在提取功能表示方面的力量,对比性的自我监督学习已成功整合到(深)强化学习(RL)的实践中,从而在各种应用程序中提供了有效的政策学习。尽管取得了巨大的经验成功,但对RL的对比学习的理解仍然难以捉摸。为了缩小这样的差距,我们研究了Markov决策过程(MDP)和Markov Games(MGS)的对比度学习如何赋予RL的能力。对于这两种模型,我们建议通过最大程度地减少对比度损失来提取低级别模型的正确特征表示。此外,在在线环境下,我们提出了新颖的上限置信界(UCB)型算法,该算法将这种对比度损失与MDP或MGS的在线RL算法结合在一起。从理论上讲,我们进一步证明了我们的算法恢复了真实表示形式,并同时在学习MDP和MGS中学习最佳策略和NASH平衡方面同时实现了样本效率。我们还提供实证研究,以证明基于UCB的RL的对比度学习方法的功效。据我们所知,我们提供了第一种可证明有效的在线RL算法,该算法结合了代表学习的对比学习。我们的代码可从https://github.com/baichenjia/contrastive-ucb获得。
translated by 谷歌翻译
Effectively leveraging large, previously collected datasets in reinforcement learning (RL) is a key challenge for large-scale real-world applications. Offline RL algorithms promise to learn effective policies from previously-collected, static datasets without further interaction. However, in practice, offline RL presents a major challenge, and standard off-policy RL methods can fail due to overestimation of values induced by the distributional shift between the dataset and the learned policy, especially when training on complex and multi-modal data distributions. In this paper, we propose conservative Q-learning (CQL), which aims to address these limitations by learning a conservative Q-function such that the expected value of a policy under this Q-function lower-bounds its true value. We theoretically show that CQL produces a lower bound on the value of the current policy and that it can be incorporated into a policy learning procedure with theoretical improvement guarantees. In practice, CQL augments the standard Bellman error objective with a simple Q-value regularizer which is straightforward to implement on top of existing deep Q-learning and actor-critic implementations. On both discrete and continuous control domains, we show that CQL substantially outperforms existing offline RL methods, often learning policies that attain 2-5 times higher final return, especially when learning from complex and multi-modal data distributions.Preprint. Under review.
translated by 谷歌翻译
低级MDP已成为研究强化学习中的表示和探索的重要模型。有了已知的代表,存在几种无模型的探索策略。相反,未知表示设置的所有算法都是基于模型的,因此需要对完整动力学进行建模。在这项工作中,我们介绍了低级MDP的第一个无模型表示学习算法。关键的算法贡献是一个新的Minimax表示学习目标,我们为其提供具有不同权衡的变体,其统计和计算属性不同。我们将这一表示的学习步骤与探索策略交织在一起,以无奖励的方式覆盖状态空间。所得算法可证明样品有效,并且可以适应一般函数近似以扩展到复杂的环境。
translated by 谷歌翻译
Offline reinforcement learning (RL) enables the agent to effectively learn from logged data, which significantly extends the applicability of RL algorithms in real-world scenarios where exploration can be expensive or unsafe. Previous works have shown that extracting primitive skills from the recurring and temporally extended structures in the logged data yields better learning. However, these methods suffer greatly when the primitives have limited representation ability to recover the original policy space, especially in offline settings. In this paper, we give a quantitative characterization of the performance of offline hierarchical learning and highlight the importance of learning lossless primitives. To this end, we propose to use a \emph{flow}-based structure as the representation for low-level policies. This allows us to represent the behaviors in the dataset faithfully while keeping the expression ability to recover the whole policy space. We show that such lossless primitives can drastically improve the performance of hierarchical policies. The experimental results and extensive ablation studies on the standard D4RL benchmark show that our method has a good representation ability for policies and achieves superior performance in most tasks.
translated by 谷歌翻译
强化学习算法的实用性由于相对于问题大小的规模差而受到限制,因为学习$ \ epsilon $ -optimal策略的样本复杂性为$ \ tilde {\ omega} \ left(| s | s || a || a || a || a | h^3 / \ eps^2 \ right)$在MDP的最坏情况下,带有状态空间$ S $,ACTION SPACE $ A $和HORIZON $ H $。我们考虑一类显示出低级结构的MDP,其中潜在特征未知。我们认为,价值迭代和低级别矩阵估计的自然组合导致估计误差在地平线上呈指数增长。然后,我们提供了一种新算法以及统计保证,即有效利用了对生成模型的访问,实现了$ \ tilde {o} \ left的样本复杂度(d^5(d^5(| s |+| a |)\),我们有效利用低级结构。对于等级$ d $设置的Mathrm {Poly}(h)/\ EPS^2 \ right)$,相对于$ | s |,| a | $和$ \ eps $的缩放,这是最小值的最佳。与线性和低级别MDP的文献相反,我们不需要已知的功能映射,我们的算法在计算上很简单,并且我们的结果长期存在。我们的结果提供了有关MDP对过渡内核与最佳动作值函数所需的最小低级结构假设的见解。
translated by 谷歌翻译
尽管无奖励强化学习勘探阶段的主要目标(RF-RL)是减少具有最小轨迹数量的估计模型中的不确定性时间。目前尚不清楚这种安全的探索要求如何影响相应的样本复杂性,以实现所获得的计划中所需的最佳性。在这项工作中,我们首次尝试回答这个问题。特别是,我们考虑了事先知道安全基线政策的情况,并提出了一个统一的安全奖励探索(甜蜜)框架。然后,我们将甜蜜框架专门为表格和低级MDP设置,并分别开发出算法所构成的表格甜味和低级别甜味。两种算法都利用了新引入的截短值函数的凹度和连续性,并保证在探索过程中以高概率侵犯了零约束。此外,两种算法都可以在计划阶段的任何约束中找到近乎最佳的政策。值得注意的是,算法下的样本复杂性在无限制的对应物中匹配甚至超过最恒定因素的最新情况,这证明安全约束几乎不会增加RF-RL的样本复杂性。
translated by 谷歌翻译