我们研究了具有无限观察和状态空间的部分观察到的马尔可夫决策过程(POMDP)的强化学习,理论上仍然不太研究。为此,我们首次尝试弥合具有线性结构的一类POMDP的部分可观察性和功能近似。详细说明,我们建议在$ O(1/\ Epsilon^2)$情节中获得$ \ epsilon $ - 最佳策略的增强学习算法(通过对抗积分方程或操作装置的乐观探索)。特别是,样品复杂性在线性结构的固有维度上缩放,并且独立于观测和状态空间的大小。 Op-Tenet的样品效率由一系列成分启用:(i)具有有限内存的钟形操作员,该操作员以递归方式表示值函数,(ii)通过对抗性积分对此类操作员的识别和估计方程式具有针对线性结构量身定制的平滑歧视器,以及(iii)通过乐观探索观察和状态空间,该探索基于量化对抗性积分方程的不确定性。
translated by 谷歌翻译
我们在面对未衡量的混杂因素时研究离线增强学习(RL)。由于缺乏与环境的在线互动,离线RL面临以下两个重大挑战:(i)代理可能会被未观察到的状态变量混淆; (ii)提前收集的离线数据不能为环境提供足够的覆盖范围。为了应对上述挑战,我们借助工具变量研究了混杂的MDP中的政策学习。具体而言,我们首先建立了基于和边缘化的重要性采样(MIS)的识别结果,以确定混杂的MDP中的预期总奖励结果。然后,通过利用悲观主义和我们的认同结果,我们提出了各种政策学习方法,并具有有限样本的次级临时性保证,可以在最小的数据覆盖范围和建模假设下找到最佳的课堂政策。最后,我们广泛的理论研究和一项由肾脏移植动机的数值研究证明了该方法的有希望的表现。
translated by 谷歌翻译
We study sample efficient reinforcement learning (RL) under the general framework of interactive decision making, which includes Markov decision process (MDP), partially observable Markov decision process (POMDP), and predictive state representation (PSR) as special cases. Toward finding the minimum assumption that empowers sample efficient learning, we propose a novel complexity measure, generalized eluder coefficient (GEC), which characterizes the fundamental tradeoff between exploration and exploitation in online interactive decision making. In specific, GEC captures the hardness of exploration by comparing the error of predicting the performance of the updated policy with the in-sample training error evaluated on the historical data. We show that RL problems with low GEC form a remarkably rich class, which subsumes low Bellman eluder dimension problems, bilinear class, low witness rank problems, PO-bilinear class, and generalized regular PSR, where generalized regular PSR, a new tractable PSR class identified by us, includes nearly all known tractable POMDPs. Furthermore, in terms of algorithm design, we propose a generic posterior sampling algorithm, which can be implemented in both model-free and model-based fashion, under both fully observable and partially observable settings. The proposed algorithm modifies the standard posterior sampling algorithm in two aspects: (i) we use an optimistic prior distribution that biases towards hypotheses with higher values and (ii) a loglikelihood function is set to be the empirical loss evaluated on the historical data, where the choice of loss function supports both model-free and model-based learning. We prove that the proposed algorithm is sample efficient by establishing a sublinear regret upper bound in terms of GEC. In summary, we provide a new and unified understanding of both fully observable and partially observable RL.
translated by 谷歌翻译
尽管无奖励强化学习勘探阶段的主要目标(RF-RL)是减少具有最小轨迹数量的估计模型中的不确定性时间。目前尚不清楚这种安全的探索要求如何影响相应的样本复杂性,以实现所获得的计划中所需的最佳性。在这项工作中,我们首次尝试回答这个问题。特别是,我们考虑了事先知道安全基线政策的情况,并提出了一个统一的安全奖励探索(甜蜜)框架。然后,我们将甜蜜框架专门为表格和低级MDP设置,并分别开发出算法所构成的表格甜味和低级别甜味。两种算法都利用了新引入的截短值函数的凹度和连续性,并保证在探索过程中以高概率侵犯了零约束。此外,两种算法都可以在计划阶段的任何约束中找到近乎最佳的政策。值得注意的是,算法下的样本复杂性在无限制的对应物中匹配甚至超过最恒定因素的最新情况,这证明安全约束几乎不会增加RF-RL的样本复杂性。
translated by 谷歌翻译
We study time-inhomogeneous episodic reinforcement learning (RL) under general function approximation and sparse rewards. We design a new algorithm, Variance-weighted Optimistic $Q$-Learning (VO$Q$L), based on $Q$-learning and bound its regret assuming completeness and bounded Eluder dimension for the regression function class. As a special case, VO$Q$L achieves $\tilde{O}(d\sqrt{HT}+d^6H^{5})$ regret over $T$ episodes for a horizon $H$ MDP under ($d$-dimensional) linear function approximation, which is asymptotically optimal. Our algorithm incorporates weighted regression-based upper and lower bounds on the optimal value function to obtain this improved regret. The algorithm is computationally efficient given a regression oracle over the function class, making this the first computationally tractable and statistically optimal approach for linear MDPs.
translated by 谷歌翻译
我们研究使用功能近似的部分可观察到的动力学系统的增强学习。我们提出了一个新的\ textit {部分可观察到的双线性actor-Critic-Critic框架},它足以包括可观察到的图表部分可观察到的Markov决策过程(POMDPS),可观察到的线性Quadratic-Quadratic-Gaussian(LQG)(LQG),预测状态表示(POMDPS)( PSRS),以及新引入的模型Hilbert空间嵌入POMDPS和可观察到的POMDP,具有潜在的低级过渡。在此框架下,我们提出了一种能够执行不可知论政策学习的参与者批评算法。给定一个由基于内存的策略组成的策略类别(查看最近观察的固定长度窗口),以及一个值得将内存和未来观察作为输入的功能组成的值函数类别,我们的算法学会了与最佳的最佳竞争在给定策略类中基于内存的策略。对于某些示例,例如可观察到的表格pomdps,可观察到的LQG和可观察到的具有潜在低级过渡的可观察到的POMDP,通过隐式利用其特殊特性,我们的算法甚至能够与全球最佳策略竞争,而无需支付对高度依赖的依赖,以竞争全球最佳的策略。它的样本复杂性。
translated by 谷歌翻译
我们研究了具有线性函数近似增强学习中的随机最短路径(SSP)问题,其中过渡内核表示为未知模型的线性混合物。我们将此类别的SSP问题称为线性混合物SSP。我们提出了一种具有Hoeffding-type置信度的新型算法,用于学习线性混合物SSP,可以获得$ \ tilde {\ Mathcal {o}}}}(d B _ {\ star}^{1.5} \ sqrt {k/c_ {k/c_ {k/c_ {k/c_ { \ min}})$遗憾。这里$ k $是情节的数量,$ d $是混合模型中功能映射的维度,$ b _ {\ star} $限制了最佳策略的预期累积成本,$ c _ {\ min}>> 0 $是成本函数的下限。当$ c _ {\ min} = 0 $和$ \ tilde {\ mathcal {o}}}(k^{2/3})$遗憾时,我们的算法也适用于情况。据我们所知,这是第一个具有sublrinear遗憾保证线性混合物SSP的算法。此外,我们设计了精致的伯恩斯坦型信心集并提出了改进的算法,该算法可实现$ \ tilde {\ Mathcal {o}}}(d b _ {\ star} \ sqrt {k/c/c/c {k/c _ {\ min}}) $遗憾。为了补充遗憾的上限,我们还证明了$ \ omega(db _ {\ star} \ sqrt {k})$的下限。因此,我们的改进算法将下限匹配到$ 1/\ sqrt {c _ {\ min}} $ factor和poly-logarithmic因素,从而实现了近乎最佳的遗憾保证。
translated by 谷歌翻译
我们考虑在具有非线性函数近似的两名玩家零和马尔可夫游戏中学习NASH平衡,其中动作值函数通过繁殖内核Hilbert Space(RKHS)中的函数近似。关键挑战是如何在高维函数空间中进行探索。我们提出了一种新颖的在线学习算法,以最大程度地减少双重性差距来找到NASH平衡。我们算法的核心是基于不确定性的乐观原理得出的上和下置信度界限。我们证明,在非常温和的假设上,我们的算法能够获得$ O(\ sqrt {t})$遗憾,并在对奖励功能和马尔可夫游戏的基本动态下进行多项式计算复杂性。我们还提出了我们的算法的几个扩展,包括具有伯恩斯坦型奖励的算法,可以实现更严格的遗憾,以及用于模型错误指定的另一种算法,可以应用于神经功能近似。
translated by 谷歌翻译
我们研究了基于模型的无奖励加强学习,具有ePiSodic Markov决策过程的线性函数近似(MDP)。在此设置中,代理在两个阶段工作。在勘探阶段,代理商与环境相互作用并在没有奖励的情况下收集样品。在规划阶段,代理商给出了特定的奖励功能,并使用从勘探阶段收集的样品来学习良好的政策。我们提出了一种新的可直接有效的算法,称为UCRL-RFE在线性混合MDP假设,其中MDP的转换概率内核可以通过线性函数参数化,在状态,动作和下一个状态的三联体上定义的某些特征映射上参数化。我们展示了获得$ \ epsilon $-Optimal策略进行任意奖励函数,Ucrl-RFE需要以大多数$ \ tilde {\ mathcal {o}}来进行采样(h ^ 5d ^ 2 \ epsilon ^ { - 2})勘探阶段期间的$派对。在这里,$ H $是集的长度,$ d $是特征映射的尺寸。我们还使用Bernstein型奖金提出了一种UCRL-RFE的变种,并表明它需要在大多数$ \ TINDE {\ MATHCAL {o}}(H ^ 4D(H + D)\ epsilon ^ { - 2})进行样本$达到$ \ epsilon $ -optimal政策。通过构建特殊类的线性混合MDPS,我们还证明了对于任何无奖励算法,它需要至少为$ \ TINDE \ OMEGA(H ^ 2d \ epsilon ^ { - 2})$剧集来获取$ \ epsilon $ -optimal政策。我们的上限与依赖于$ \ epsilon $的依赖性和$ d $ if $ h \ ge d $。
translated by 谷歌翻译
我们与指定为领导者的球员之一和其他球员读为追随者的球员学习多人一般汇总马尔可夫游戏。特别是,我们专注于追随者是近视的游戏,即,他们的目标是最大限度地提高他们的瞬间奖励。对于这样的游戏,我们的目标是找到一个Stackelberg-Nash均衡(SNE),这是一个策略对$(\ pi ^ *,\ nu ^ *)$,这样(i)$ \ pi ^ * $是追随者始终发挥最佳回应的领导者的最佳政策,(ii)$ \ nu ^ * $是追随者的最佳反应政策,这是由$ \ pi ^ *引起的追随者游戏的纳什均衡$。我们开发了用于在线和离线设置中的SNE解决SNE的采样高效的强化学习(RL)算法。我们的算法是最小二乘值迭代的乐观和悲观的变体,并且它们很容易能够在大状态空间的设置中结合函数近似工具。此外,对于线性函数近似的情况,我们证明我们的算法分别在线和离线设置下实现了Sublinear遗憾和次优。据我们所知,我们建立了第一种可用于解决近代Markov游戏的SNES的第一款可透明的RL算法。
translated by 谷歌翻译
Modern Reinforcement Learning (RL) is commonly applied to practical problems with an enormous number of states, where function approximation must be deployed to approximate either the value function or the policy. The introduction of function approximation raises a fundamental set of challenges involving computational and statistical efficiency, especially given the need to manage the exploration/exploitation tradeoff. As a result, a core RL question remains open: how can we design provably efficient RL algorithms that incorporate function approximation? This question persists even in a basic setting with linear dynamics and linear rewards, for which only linear function approximation is needed.This paper presents the first provable RL algorithm with both polynomial runtime and polynomial sample complexity in this linear setting, without requiring a "simulator" or additional assumptions. Concretely, we prove that an optimistic modification of Least-Squares Value Iteration (LSVI)-a classical algorithm frequently studied in the linear setting-achieves O( √ d 3 H 3 T ) regret, where d is the ambient dimension of feature space, H is the length of each episode, and T is the total number of steps. Importantly, such regret is independent of the number of states and actions.
translated by 谷歌翻译
我们研究马尔可夫决策过程(MDP)框架中的离线数据驱动的顺序决策问题。为了提高学习政策的概括性和适应性,我们建议通过一套关于在政策诱导的固定分配所在的分发的一套平均奖励来评估每项政策。给定由某些行为策略生成的多个轨迹的预收集数据集,我们的目标是在预先指定的策略类中学习一个强大的策略,可以最大化此集的最小值。利用半参数统计的理论,我们开发了一种统计上有效的策略学习方法,用于估算DE NED强大的最佳政策。在数据集中的总决策点方面建立了达到对数因子的速率最佳遗憾。
translated by 谷歌翻译
在本文中,我们研究了部分可观察到的动态系统的在线增强学习(RL)。我们专注于预测状态表示(PSRS)模型,该模型是捕获其他知名模型(例如可观察到的马尔可夫决策过程(POMDP))的表达模型。 PSR使用一组未来观察结果的预测表示状态,并完全使用可观察的数量来定义。我们为PSRS开发了一种新型的基于模型的算法,该算法可以在样本复杂性中学习相对于系统的所有相关参数的多项式缩放的近乎最佳策略。我们的算法自然可以与功能近似合作,以扩展到具有较大状态和观察空间的系统。我们表明,给定一个可实现的模型类别,学习近乎最佳策略的样本复杂性仅相对于模型类的统计复杂性,而没有任何明确的多项式依赖性对状态和观察空间的大小依赖。值得注意的是,我们的工作是表明多项式样本复杂性与PSR中全球最佳政策竞争的第一项工作。最后,我们演示了如何直接使用我们的一般定理来得出特殊模型的样本复杂性界限,包括$ m $ $ step弱揭示和$ m $ $ $ - 可解码的表格pomdps,具有低率潜在过渡的POMDP和具有线性pomdps的POMDP排放和潜在过渡。
translated by 谷歌翻译
我们研究了用线性函数近似的加固学习中的违规评估(OPE)问题,旨在根据行为策略收集的脱机数据来估计目标策略的价值函数。我们建议纳入价值函数的方差信息以提高ope的样本效率。更具体地说,对于时间不均匀的epiSodic线性马尔可夫决策过程(MDP),我们提出了一种算法VA-OPE,它使用价值函数的估计方差重新重量拟合Q迭代中的Bellman残差。我们表明我们的算法达到了比最着名的结果绑定的更紧密的误差。我们还提供了行为政策与目标政策之间的分布转移的细粒度。广泛的数值实验证实了我们的理论。
translated by 谷歌翻译
我们认为在情节环境中的强化学习(RL)中的遗憾最小化问题。在许多实际的RL环境中,状态和动作空间是连续的或非常大的。现有方法通过随机过渡模型的低维表示或$ q $ functions的近似值来确定遗憾的保证。但是,对国家价值函数的函数近似方案的理解基本上仍然缺失。在本文中,我们提出了一种基于在线模型的RL算法,即CME-RL,该算法将过渡分布的表示形式学习为嵌入在复制的内核希尔伯特领域中的嵌入,同时仔细平衡了利用探索 - 探索权衡取舍。我们通过证明频繁的(最糟糕的)遗憾结束了$ \ tilde {o} \ big(h \ gamma_n \ sqrt {n} \ big)$ \ footnote {$ footnote {$ tilde {$ o}(\ cdot)$仅隐藏绝对常数和poly-logarithmic因素。},其中$ h $是情节长度,$ n $是时间步长的总数,$ \ gamma_n $是信息理论数量国家行动特征空间的有效维度。我们的方法绕过了估计过渡概率的需求,并适用于可以定义内核的任何域。它还为内核方法的一般理论带来了新的见解,以进行近似推断和RL遗憾的最小化。
translated by 谷歌翻译
大部分强化学习理论都建立在计算上难以实施的甲板上。专门用于在部分可观察到的马尔可夫决策过程(POMDP)中学习近乎最佳的政策,现有算法要么需要对模型动态(例如确定性过渡)做出强有力的假设,要么假设访问甲骨文作为解决艰难的计划或估算问题的访问子例程。在这项工作中,我们在合理的假设下开发了第一个用于POMDP的无Oracle学习算法。具体而言,我们给出了一种用于在“可观察” pomdps中学习的准化性时间端到端算法,其中可观察性是一个假设,即对国家而言,分离良好的分布诱导了分离良好的分布分布而不是观察。我们的技术规定了在不确定性下使用乐观原则来促进探索的更传统的方法,而是在构建策略涵盖的情况下提供了一种新颖的barycentric跨度应用。
translated by 谷歌翻译
本文介绍了一种简单的有效学习算法,用于一般顺序决策。该算法将探索的乐观与模型估计的最大似然估计相结合,因此被命名为OMLE。我们证明,Omle了解了多项式数量的样本中一系列非常丰富的顺序决策问题的近乎最佳策略。这个丰富的类别不仅包括大多数已知的基于模型的基于模型的强化学习(RL)问题(例如表格MDP,计算的MDP,低证人等级问题,表格弱弱/可观察到的POMDP和多步可解码的POMDP),但是同样,许多新的具有挑战性的RL问题,尤其是在可观察到的部分环境中,这些问题以前尚不清楚。值得注意的是,本文解决的新问题包括(1)具有连续观察和功能近似的可观察到的POMDP,在其中我们实现了完全独立于观察空间的第一个样品复杂性; (2)条件良好的低级顺序决策问题(也称为预测状态表示(PSRS)),其中包括并概括了所有已知的可牵引的POMDP示例,这些示例在更固有的表示下; (3)在帆条件下进行一般顺序决策问题,这统一了我们在完全可观察和部分可观察的设置中对基于模型的RL的现有理解。帆条件是由本文确定的,可以将其视为贝尔曼/证人等级的自然概括,以解决部分可观察性。
translated by 谷歌翻译
强化学习(RL)的显着成功在很大程度上依赖于观察每个访问的州行动对的奖励。但是,在许多现实世界应用中,代理只能观察一个代表整个轨迹质量的分数,该分数称为{\ em轨迹方面的奖励}。在这种情况下,标准RL方法很难很好地利用轨迹的奖励,并且在政策评估中可能会产生巨大的偏见和方差错误。在这项工作中,我们提出了一种新颖的离线RL算法,称为悲观的价值迭代,奖励分解(分开),该算法将轨迹返回分解为每个步骤代理奖励,通过基于最小二乘的奖励重新分配,然后执行基于基于基于基于基于的价值迭代的迭代价值迭代的迭代迭代率关于博学的代理奖励。为了确保由分开构建的价值功能对最佳函数始终是悲观的,我们设计了一个新的罚款术语来抵消代理奖励的不确定性。对于具有较大状态空间的一般情节MDP,我们表明与过度参数化的神经网络函数近似近似能够实现$ \ tilde {\ Mathcal {o}}}(d _ {\ text {eff}}} h^2/\ sqrt {n}) $ suboftimality,其中$ h $是情节的长度,$ n $是样本总数,而$ d _ {\ text {eff}} $是神经切线核矩阵的有效维度。为了进一步说明结果,我们表明分开实现了$ \ tilde {\ mathcal {o}}}(dh^3/\ sqrt {n})$ subiptimation fi linearem mdps,其中$ d $是特征尺寸,匹配功能维度使用神经网络功能近似,当$ d _ {\ text {eff}} = dh $时。据我们所知,分开是第一种离线RL算法,在MDP总体上,轨迹奖励的效率非常有效。
translated by 谷歌翻译
We study episodic two-player zero-sum Markov games (MGs) in the offline setting, where the goal is to find an approximate Nash equilibrium (NE) policy pair based on a dataset collected a priori. When the dataset does not have uniform coverage over all policy pairs, finding an approximate NE involves challenges in three aspects: (i) distributional shift between the behavior policy and the optimal policy, (ii) function approximation to handle large state space, and (iii) minimax optimization for equilibrium solving. We propose a pessimism-based algorithm, dubbed as pessimistic minimax value iteration (PMVI), which overcomes the distributional shift by constructing pessimistic estimates of the value functions for both players and outputs a policy pair by solving NEs based on the two value functions. Furthermore, we establish a data-dependent upper bound on the suboptimality which recovers a sublinear rate without the assumption on uniform coverage of the dataset. We also prove an information-theoretical lower bound, which suggests that the data-dependent term in the upper bound is intrinsic. Our theoretical results also highlight a notion of "relative uncertainty", which characterizes the necessary and sufficient condition for achieving sample efficiency in offline MGs. To the best of our knowledge, we provide the first nearly minimax optimal result for offline MGs with function approximation.
translated by 谷歌翻译
我们研究了一个名为“战略MDP”的新型模型下的离线增强学习,该模型表征了本金和一系列与私有类型的近视药物之间的战略相互作用。由于双层结构和私人类型,战略MDP涉及主体与代理之间的信息不对称。我们专注于离线RL问题,其目标是基于由历史互动组成的预采用数据集学习委托人的最佳政策。未观察到的私人类型混淆了这样的数据集,因为它们会影响委托人收到的奖励和观察结果。我们提出了一种新颖的算法,具有算法工具(计划)的悲观政策学习,该算法利用仪器变量回归的思想和悲观主义原则在一般功能近似的背景下学习近乎最佳的原理政策。我们的算法是基于批判性观察,即主体的行为是有效的工具变量。特别是,在离线数据集中的部分覆盖范围假设下,我们证明计划输出$ 1 / \ sqrt {k} $ - 最佳策略,$ k $是收集的轨迹数量。我们进一步将框架应用于一些特殊的战略MDP案例,包括战略回归,战略强盗和推荐系统中的不合规性。
translated by 谷歌翻译