强化学习(RL)的经典理论主要集中在单个任务设置上,在该设备设置中,代理商学会通过反复试验的经验来解决任务,仅从该任务中访问数据。但是,许多最近的经验工作表明,利用跨多个相关任务训练的联合代表的实践好处。在这项工作中,我们从理论上分析了这样的设置,将与任务相关性的概念形式化为共享的状态行动表示,该表示在所有任务中都接受线性动态。我们介绍了用于Multitask MatrixRl的共享matrixrl算法。在$ p $ dimension $ d $共享联合$ r \ ll d $低维表示的情况下,我们向$ o o提高了对$ p $任务的遗憾(phd \ sqrt { nh})$ to $ o(((HD \ sqrt {rp} + hp \ sqrt {rd})\ sqrt {nh})$ bo $ n $ n $ n $ episodes of horizo​​n $ h $。这些收益与上下文匪徒和RL中其他线性模型中观察到的收益一致。与以前研究过其他函数近似模型中多任务RL的工作相反,我们表明,在具有双线性优化的Oracle和有限状态作用空间的存在下,多任务矩阵的计算有效算法通过减少到Quadratic编程。我们还开发了一种简单的技术,可以从某些情节线性问题的遗憾上限中刮除$ \ sqrt {h} $ factor。
translated by 谷歌翻译
我们使用线性函数近似研究强化学习,其中过渡概率和奖励函数相对于特征映射$ \ boldsymbol {\ phi}(s,a)$是线性的。具体而言,我们考虑情节不均匀线性马尔可夫决策过程(MDP),并提出了一种新颖的计算有效算法,lsvi-ucb $^+$,它可以实现$ \ widetilde {o} {o}(hd \ sqrt {t})$遗憾的是$ h $是情节长度,$ d $是功能维度,而$ t $是步骤数。 LSVI-UCB $^+$以伯恩斯坦类型的勘探奖金建立了加权山脊回归和上限价值迭代。我们的统计结果是通过新颖的分析工具获得的,包括与椭圆电位的保守主义的新伯恩斯坦自称结合,并对校正项进行了完善的分析。据我们所知,这是线性MDP的第一个最佳最佳算法,直至对数因素,它关闭了$ \ sqrt {hd} $差距,$ \ widetilde {o}(\ sqrt {\ sqrt {\ sqrt { h^3d^3t})$ in \ cit {jin2020provalible}和$ \ omega(hd \ sqrt {t})$的下限用于线性MDPS。
translated by 谷歌翻译
We study model-based reinforcement learning (RL) for episodic Markov decision processes (MDP) whose transition probability is parametrized by an unknown transition core with features of state and action. Despite much recent progress in analyzing algorithms in the linear MDP setting, the understanding of more general transition models is very restrictive. In this paper, we establish a provably efficient RL algorithm for the MDP whose state transition is given by a multinomial logistic model. To balance the exploration-exploitation trade-off, we propose an upper confidence bound-based algorithm. We show that our proposed algorithm achieves $\tilde{\mathcal{O}}(d \sqrt{H^3 T})$ regret bound where $d$ is the dimension of the transition core, $H$ is the horizon, and $T$ is the total number of steps. To the best of our knowledge, this is the first model-based RL algorithm with multinomial logistic function approximation with provable guarantees. We also comprehensively evaluate our proposed algorithm numerically and show that it consistently outperforms the existing methods, hence achieving both provable efficiency and practical superior performance.
translated by 谷歌翻译
We study time-inhomogeneous episodic reinforcement learning (RL) under general function approximation and sparse rewards. We design a new algorithm, Variance-weighted Optimistic $Q$-Learning (VO$Q$L), based on $Q$-learning and bound its regret assuming completeness and bounded Eluder dimension for the regression function class. As a special case, VO$Q$L achieves $\tilde{O}(d\sqrt{HT}+d^6H^{5})$ regret over $T$ episodes for a horizon $H$ MDP under ($d$-dimensional) linear function approximation, which is asymptotically optimal. Our algorithm incorporates weighted regression-based upper and lower bounds on the optimal value function to obtain this improved regret. The algorithm is computationally efficient given a regression oracle over the function class, making this the first computationally tractable and statistically optimal approach for linear MDPs.
translated by 谷歌翻译
部署效率是许多实际应用程序应用(RL)的重要标准。尽管社区的兴趣越来越大,但对于该问题缺乏正式的理论表述。在本文中,我们从“具有约束的优化”的角度提出了一种用于部署有效的RL(DE-RL)的公式:我们有兴趣探索MDP并在最小值{部署复杂性}中获得近乎最佳的策略。 ,而在每个部署中,策略可以采样大量数据。使用有限的摩尼子线性MDP作为具体的结构模型,我们通过建立信息理论下限,并提供实现最佳部署效率的算法来揭示实现部署效率的基本限制。此外,我们对DE-RL的配方是灵活的,可以作为其他实际相关设置的基础;我们将“安全的DE-RL”和“样本有效的DE-RL”作为两个例子,这可能是值得将来的研究。
translated by 谷歌翻译
我们认为在情节环境中的强化学习(RL)中的遗憾最小化问题。在许多实际的RL环境中,状态和动作空间是连续的或非常大的。现有方法通过随机过渡模型的低维表示或$ q $ functions的近似值来确定遗憾的保证。但是,对国家价值函数的函数近似方案的理解基本上仍然缺失。在本文中,我们提出了一种基于在线模型的RL算法,即CME-RL,该算法将过渡分布的表示形式学习为嵌入在复制的内核希尔伯特领域中的嵌入,同时仔细平衡了利用探索 - 探索权衡取舍。我们通过证明频繁的(最糟糕的)遗憾结束了$ \ tilde {o} \ big(h \ gamma_n \ sqrt {n} \ big)$ \ footnote {$ footnote {$ tilde {$ o}(\ cdot)$仅隐藏绝对常数和poly-logarithmic因素。},其中$ h $是情节长度,$ n $是时间步长的总数,$ \ gamma_n $是信息理论数量国家行动特征空间的有效维度。我们的方法绕过了估计过渡概率的需求,并适用于可以定义内核的任何域。它还为内核方法的一般理论带来了新的见解,以进行近似推断和RL遗憾的最小化。
translated by 谷歌翻译
强化学习算法的实用性由于相对于问题大小的规模差而受到限制,因为学习$ \ epsilon $ -optimal策略的样本复杂性为$ \ tilde {\ omega} \ left(| s | s || a || a || a || a | h^3 / \ eps^2 \ right)$在MDP的最坏情况下,带有状态空间$ S $,ACTION SPACE $ A $和HORIZON $ H $。我们考虑一类显示出低级结构的MDP,其中潜在特征未知。我们认为,价值迭代和低级别矩阵估计的自然组合导致估计误差在地平线上呈指数增长。然后,我们提供了一种新算法以及统计保证,即有效利用了对生成模型的访问,实现了$ \ tilde {o} \ left的样本复杂度(d^5(d^5(| s |+| a |)\),我们有效利用低级结构。对于等级$ d $设置的Mathrm {Poly}(h)/\ EPS^2 \ right)$,相对于$ | s |,| a | $和$ \ eps $的缩放,这是最小值的最佳。与线性和低级别MDP的文献相反,我们不需要已知的功能映射,我们的算法在计算上很简单,并且我们的结果长期存在。我们的结果提供了有关MDP对过渡内核与最佳动作值函数所需的最小低级结构假设的见解。
translated by 谷歌翻译
在不确定性面前的乐观原则在整个连续决策中普遍存在,如多武装匪和加强学习(RL)等问题。为了成功,乐观的RL算法必须过度估计真正的值函数(乐观),但不是通过它不准确的(估计错误)。在表格设置中,许多最先进的方法通过在缩放到深rl时难以应变的方法产生所需的乐观。我们重新解释基于可扩展的乐观模型的算法,以解决易解噪声增强MDP。这种配方实现了竞争遗憾:$ \ tilde {\ mathcal {o}}(| \ mathcal {s} | h \ sqrt {| \ mathcal {a} | t} $在使用高斯噪音时,$ t $是环境步骤的总数。我们还探讨了这种权衡在深度RL设置中的权衡变化,我们在验证上显示估计误差明显更麻烦。但是,我们还表明,如果此错误减少,基于乐观的模型的RL算法可以在连续控制问题中匹配最先进的性能。
translated by 谷歌翻译
无奖励强化学习(RL)考虑了代理在探索过程中无法访问奖励功能的设置,但必须提出仅在探索后才揭示的任意奖励功能的近乎最佳的政策。在表格环境中,众所周知,这是一个比奖励意识(PAC)RL(代理在探索过程中访问奖励功能)更困难的问题$ | \ Mathcal {s} | $,状态空间的大小。我们表明,在线性MDP的设置中,这种分离不存在。我们首先在$ d $二维线性MDP中开发了一种计算高效算法,其样品复杂度比例为$ \ widetilde {\ Mathcal {o}}(d^2 H^5/\ epsilon^2)$ 。然后,我们显示出$ \ omega(d^2 h^2/\ epsilon^2)$的匹配尺寸依赖性的下限,该限制为奖励感知的RL设置。据我们所知,我们的方法是第一个在线性MDP中实现最佳$ d $依赖性的计算有效算法,即使在单次奖励PAC设置中也是如此。我们的算法取决于一种新的程序,该过程有效地穿越了线性MDP,在任何给定的``特征方向''中收集样品,并在最大状态访问概率(线性MDP等效)中享受最佳缩放样品复杂性。我们表明,该探索过程也可以应用于解决线性MDP中````良好条件''''协变量的问题。
translated by 谷歌翻译
我们研究了一种强化学习理论(RL),其中学习者在情节结束时仅收到一次二进制反馈。尽管这是理论上的极端测试案例,但它也可以说是实际应用程序的代表性,而不是在RL实践中,学习者在每个时间步骤中都会收到反馈。的确,在许多实际应用的应用程序中,例如自动驾驶汽车和机器人技术,更容易评估学习者的完整轨迹要么是“好”还是“坏”,但是更难在每个方面提供奖励信号步。为了证明在这种更具挑战性的环境中学习是可能的,我们研究了轨迹标签由未知参数模型生成的情况,并提供了一种统计和计算上有效的算法,从而实现了sublinear遗憾。
translated by 谷歌翻译
获取一阶遗憾界限 - 遗憾的界限不是作为最坏情况,但有一些衡量给定实例的最佳政策的性能 - 是连续决策的核心问题。虽然这种界限存在于许多设置中,但它们在具有大状态空间的钢筋学习中被证明是难以捉摸的。在这项工作中,我们解决了这个差距,并表明可以将遗憾的缩放作为$ \ mathcal {o}(\ sqrt {v_1 ^ \ star})$中的钢筋学习,即用大状态空间,即线性MDP设置。这里$ v_1 ^ \ star $是最佳政策的价值,$ k $是剧集的数量。我们证明基于最小二乘估计的现有技术不足以获得该结果,而是基于强大的Catoni平均估计器制定一种新的稳健自归一化浓度,其可能具有独立兴趣。
translated by 谷歌翻译
部分可观察性 - 代理只能观察有关系统真正潜在状态的部分信息 - 在增强学习(RL)的现实应用中无处不在。从理论上讲,在最坏情况下,由于指数样本的复杂性下限,在最坏情况下学习了近距离观察性的近乎最佳政策。最近的工作已经确定了几个可通过多项式样本学习的可学性亚类,例如部分可观察到的马尔可夫决策过程(POMDPS)具有某些可揭示或可分解性条件。但是,这一研究仍处于起步阶段,(1)缺乏统一的结构条件,从而缺乏样品效率学习; (2)现有的已知拖拉子类的样品复杂性远非锋利; (3)与完全可观察的RL相比,可用的样品效率算法更少。本文在预测状态表示(PSRS)的一般环境中,上面的所有三个方面都在部分可观察到的RL方向前进。首先,我们提出了一种称为\ emph {b稳定性}的自然和统一的结构条件。 B稳定的PSR包括绝大多数已知的可牵引子类,例如弱揭示的POMDP,低级别的未来pomdps,可解码的POMDP和常规PSR。接下来,我们证明可以在相关问题参数中使用多项式样本学习任何B稳定PSR。当在上述子类中实例化时,我们的样本复杂性比当前最好的复杂性大大改善。最后,我们的结果是通过三种算法同时实现的:乐观的最大似然估计,估计到决策和基于模型的乐观后验采样。后两种算法是用于POMDPS/PSR的样品有效学习的新算法。
translated by 谷歌翻译
在本文中,我们研究了强大的马尔可夫决策过程(MDPS)的最佳稳健策略和价值功能的非反应性和渐近性能,其中仅从生成模型中求解了最佳的稳健策略和价值功能。尽管在KL不确定性集和$(s,a)$ - 矩形假设的设置中限制了以前专注于可靠MDP的非反应性能的工作,但我们改善了它们的结果,还考虑了其​​他不确定性集,包括$ L_1 $和$ L_1 $和$ \ chi^2 $球。我们的结果表明,当我们假设$(s,a)$ - 矩形在不确定性集上时,示例复杂度大约为$ \ widetilde {o} \ left(\ frac {| \ mathcal {| \ mathcal {s} |^2 | \ mathcal { a} |} {\ varepsilon^2 \ rho^2(1- \ gamma)^4} \ right)$。此外,我们将结果从$(s,a)$ - 矩形假设扩展到$ s $矩形假设。在这种情况下,样本复杂性随选择不确定性集而变化,通常比$(s,a)$矩形假设下的情况大。此外,我们还表明,在$(s,a)$和$ s $ retectangular的假设下,从理论和经验的角度来看,最佳的鲁棒值函数是渐近的正常,典型的速率$ \ sqrt {n} $。
translated by 谷歌翻译
We study reinforcement learning (RL) with linear function approximation. For episodic time-inhomogeneous linear Markov decision processes (linear MDPs) whose transition dynamic can be parameterized as a linear function of a given feature mapping, we propose the first computationally efficient algorithm that achieves the nearly minimax optimal regret $\tilde O(d\sqrt{H^3K})$, where $d$ is the dimension of the feature mapping, $H$ is the planning horizon, and $K$ is the number of episodes. Our algorithm is based on a weighted linear regression scheme with a carefully designed weight, which depends on a new variance estimator that (1) directly estimates the variance of the \emph{optimal} value function, (2) monotonically decreases with respect to the number of episodes to ensure a better estimation accuracy, and (3) uses a rare-switching policy to update the value function estimator to control the complexity of the estimated value function class. Our work provides a complete answer to optimal RL with linear MDPs, and the developed algorithm and theoretical tools may be of independent interest.
translated by 谷歌翻译
这项工作研究了RL中的代表性学习问题:我们如何学习紧凑的低维表示,使得在代表之上,我们可以以示例有效的方式执行诸如勘探和开发的RL程序。我们专注于低级马尔可夫决策过程(MDP),其中转换动态对应于低秩转换矩阵。与假设表示的事先作品(例如,线性MDP)不同,这里我们需要学习低秩MDP的表示。我们研究在线RL和离线RL设置。对于在线设置,在Flambe(Agarwal et.al)中使用相同的计算oracells操作,用于在低级MDP中学习表示的最先进的算法,我们提出了一种算法Rep-UCB上部置信束缚的驱动表示学习对于RL),这显着提高了$ \ widetilde {o}的样本复杂性(a ^ 9 d ^ 7 /(\ epsilon ^ {10}(1- \ gamma)^ {22}),因为flambe到$ \ widetilde {o}(a ^ 4 d ^ 4 /(\ epsilon ^ 2(1- \ gamma)^ {3})$ d $是转换矩阵的等级(或地面真相表示的维度) ,$ a $是行动次数,而$ \ gamma $是折扣因素。值得注意的是,rep-ucb比flambe更简单,因为它直接余额余额表示学习,探索和剥削之间的相互作用,而Flambe是一种探索的探索式风格方法,并且必须逐步执行无奖励探索及时。对于离线RL设置,我们开发了一种利用悲观主义在部分覆盖条件下学习的算法:我们的算法能够与脱机分布所涵盖的策略进行竞争。
translated by 谷歌翻译
我们在非静止线性(AKA低级别)马尔可夫决策过程(MDP)中研究了集中加强学习,即奖励和转换内核都是关于给定特征映射的线性,并且被允许缓慢或突然演变时间。对于此问题设置,我们提出了一种基于加权最小二乘值的乐观模型算法的Opt-WLSVI,其使用指数权重来平滑地忘记过去远远的数据。我们表明我们的算法在每次竞争最佳政策时,实现了由$ \ widetilde {\ mathcal {o}}的上部界限的遗憾(d ^ {5/4} h ^ 2 \ delta ^ {1 / 4} k ^ {3/4})$何地在$ d $是特征空间的尺寸,$ h $是规划地平线,$ k $是剧集的数量和$ \ delta $是一个合适的衡量标准MDP的非固定性。此外,我们指出了在忘记以前作品的非静止线性匪徒环境中忘记策略的技术差距,并提出了修复其遗憾分析。
translated by 谷歌翻译
我们在随机和对抗性马尔可夫决策过程(MDP)中研究合作在线学习。也就是说,在每一集中,$ m $代理商同时与MDP互动,并共享信息以最大程度地减少他们的遗憾。我们考虑具有两种随机性的环境:\ emph {Fresh} - 在每个代理的轨迹均已采样i.i.d和\ emph {non-fresh} - 其中所有代理人共享实现(但每个代理的轨迹也受到影响)通过其自己的行动)。更确切地说,通过非志趣相投的随机性,每个成本和过渡的实现都在每个情节开始时都固定了,并且在同一时间同时采取相同行动的代理人观察到相同的成本和下一个状态。我们彻底分析了所有相关设置,强调了模型之间的挑战和差异,并证明了几乎匹配的遗憾下层和上限。据我们所知,我们是第一个考虑具有非伪造随机性或对抗性MDP的合作强化学习(RL)。
translated by 谷歌翻译
我们研究依靠敏感数据(例如医疗记录)的环境的顺序决策中,研究隐私的探索。特别是,我们专注于解决在线性MDP设置中受(联合)差异隐私的约束的增强学习问题(RL),在该设置中,动态和奖励均由线性函数给出。由于Luyo等人而引起的此问题的事先工作。 (2021)实现了$ o(k^{3/5})$的依赖性的遗憾率。我们提供了一种私人算法,其遗憾率提高,最佳依赖性为$ o(\ sqrt {k})$对情节数量。我们强烈遗憾保证的关键配方是策略更新时间表中的适应性,其中仅在检测到数据足够更改时才发生更新。结果,我们的算法受益于低切换成本,并且仅执行$ o(\ log(k))$更新,这大大降低了隐私噪声的量。最后,在最普遍的隐私制度中,隐私参数$ \ epsilon $是一个常数,我们的算法会造成可忽略不计的隐私成本 - 与现有的非私人遗憾界限相比,由于隐私而引起的额外遗憾在低阶中出现了术语。
translated by 谷歌翻译
我们解决了有限地平线的模型选择的问题,用于转换内核$ P ^ * $属于一个型号$ \ mathcal {p} ^ * $的offultic公制熵。在模型选择框架中,而不是$ \ mathcal {p} ^ * $,我们被给予了$ m $嵌套的转换内核rested interned内核$ \ cp_1 \ subset \ cp_2 \ subset \ ldots \ subset \ cp_m $。我们提出并分析了一种新颖的算法,即\ EMPH {自适应增强学习(常规)}(\ texttt {arl-gen}),它适应真正的转换内核$ p ^ * $谎言的最小这些家庭。 \ texttt {arl-gen}使用具有价值目标回归的上置信度强化学习(\ texttt {Ucrl})算法作为Blackbox,并在每个时代的开头放置模型选择模块。在模型类上的温和可分离性假设下,我们显示\ texttt {arl-gen}获得$ \ tilde {\ mathcal {o}}的后悔(d _ {\ mathcal {e}} ^ * h ^ 2 + \ sqrt {d _ {\ mathcal {e}} ^ * \ mathbb {m} ^ * h ^ 2 t})$,具有高概率,其中$ h $是地平线长度,$ t $是步骤总数, $ d _ {\ mathcal {e}} ^ * $是ecured维度和$ \ mathbb {m} ^ * $是与$ \ mathcal {p} ^ * $相对应的度量熵。请注意,这一遗憾缩放匹配Oracle的Oracle,它提前了解$ \ mathcal {p} ^ * $。我们表明,对于\ texttt {arl-gen}的模型选择成本是一个附加术语,遗憾是对$ t $的弱点。随后,我们删除可分离假设,并考虑线性混合MDP的设置,其中转换内核$ P ^ * $具有线性函数近似。通过这种低等级结构,我们提出了新颖的自适应算法,用于模型选择,并获得(令人令人令)与Oracle的遗憾相同,具有真正的模型类。
translated by 谷歌翻译
This paper studies systematic exploration for reinforcement learning with rich observations and function approximation. We introduce a new model called contextual decision processes, that unifies and generalizes most prior settings. Our first contribution is a complexity measure, the Bellman rank , that we show enables tractable learning of near-optimal behavior in these processes and is naturally small for many well-studied reinforcement learning settings. Our second contribution is a new reinforcement learning algorithm that engages in systematic exploration to learn contextual decision processes with low Bellman rank. Our algorithm provably learns near-optimal behavior with a number of samples that is polynomial in all relevant parameters but independent of the number of unique observations. The approach uses Bellman error minimization with optimistic exploration and provides new insights into efficient exploration for reinforcement learning with function approximation.
translated by 谷歌翻译