考虑互动学习的问题设定(IGL),其中学习者的目标是与环境进行最佳互动,而无需明确的奖励以依靠其政策。代理商观察上下文向量,采取行动并接收反馈向量,并使用此信息有效地优化潜在奖励功能的策略。当反馈向量包含该动作时,事先分析的方法失败了,这在许多潜在方案中显着限制了IGL的成功,例如脑部计算机界面(BCI)或人类计算机界面(HCI)应用程序。我们通过创建算法和分析来解决这一问题,该算法和分析即使反馈向量包含以任何方式编码的动作,允许IGL起作用。我们根据监督数据集提供理论保证和大规模实验,以证明新方法的有效性。
translated by 谷歌翻译
鉴于它在提取功能表示方面的力量,对比性的自我监督学习已成功整合到(深)强化学习(RL)的实践中,从而在各种应用程序中提供了有效的政策学习。尽管取得了巨大的经验成功,但对RL的对比学习的理解仍然难以捉摸。为了缩小这样的差距,我们研究了Markov决策过程(MDP)和Markov Games(MGS)的对比度学习如何赋予RL的能力。对于这两种模型,我们建议通过最大程度地减少对比度损失来提取低级别模型的正确特征表示。此外,在在线环境下,我们提出了新颖的上限置信界(UCB)型算法,该算法将这种对比度损失与MDP或MGS的在线RL算法结合在一起。从理论上讲,我们进一步证明了我们的算法恢复了真实表示形式,并同时在学习MDP和MGS中学习最佳策略和NASH平衡方面同时实现了样本效率。我们还提供实证研究,以证明基于UCB的RL的对比度学习方法的功效。据我们所知,我们提供了第一种可证明有效的在线RL算法,该算法结合了代表学习的对比学习。我们的代码可从https://github.com/baichenjia/contrastive-ucb获得。
translated by 谷歌翻译
我们考虑在离线增强学习中有一个具有挑战性的理论问题(RL):仅在功能近似器的可靠性型假设下,通过缺乏足够覆盖的数据集获得样本效率保证。尽管现有的理论已经在可实现性和非探索数据下分别解决了学习,但没有工作能够同时解决这两者(除了我们对详细比较的并发工作除外)。在额外的差距假设下,我们根据边缘化重要性采样(MIS)形成的版本空间(MIS)为简单的悲观算法提供保证,并且保证只需要数据来涵盖最佳策略和功能类,以实现最佳价值和最佳价值和密度比函数。尽管在RL理论的其他领域中使用了类似的差距假设,但我们的工作是第一个识别离线RL中差距假设的实用性和新型机制,其功能近似较弱。
translated by 谷歌翻译
上下文的强盗和强化学习算法已成功用于各种交互式学习系统,例如在线广告,推荐系统和动态定价。但是,在高风险应用领域(例如医疗保健)中,它们尚未被广泛采用。原因之一可能是现有方法假定基本机制是静态的,因为它们不会在不同的环境上改变。但是,在许多现实世界中,这些机制可能会跨环境变化,这可能使静态环境假设无效。在本文中,考虑到离线上下文匪徒的框架,我们迈出了解决环境转变问题的一步。我们认为环境转移问题通过因果关系的角度,并提出了多种环境的背景匪徒,从而可以改变基本机制。我们采用因果关系文献的不变性概念,并介绍了政策不变性的概念。我们认为,仅当存在未观察到的变量时,政策不变性才有意义,并表明在这种情况下,保证在适当假设下跨环境概括最佳不变政策。我们的结果建立了因果关系,不变性和上下文土匪之间的具体联系。
translated by 谷歌翻译
In offline reinforcement learning (RL), a learner leverages prior logged data to learn a good policy without interacting with the environment. A major challenge in applying such methods in practice is the lack of both theoretically principled and practical tools for model selection and evaluation. To address this, we study the problem of model selection in offline RL with value function approximation. The learner is given a nested sequence of model classes to minimize squared Bellman error and must select among these to achieve a balance between approximation and estimation error of the classes. We propose the first model selection algorithm for offline RL that achieves minimax rate-optimal oracle inequalities up to logarithmic factors. The algorithm, ModBE, takes as input a collection of candidate model classes and a generic base offline RL algorithm. By successively eliminating model classes using a novel one-sided generalization test, ModBE returns a policy with regret scaling with the complexity of the minimally complete model class. In addition to its theoretical guarantees, it is conceptually simple and computationally efficient, amounting to solving a series of square loss regression problems and then comparing relative square loss between classes. We conclude with several numerical simulations showing it is capable of reliably selecting a good model class.
translated by 谷歌翻译
我们考虑在部分可观察到的马尔可夫决策过程(POMDP)中的违法评估(OPE),其中评估策略仅取决于可观察变量,并且行为策略取决于不可观察的潜在变量。现有的作品无论是假设未测量的混乱,还是专注于观察和状态空间都是表格的设置。因此,这些方法在存在未测量的混淆器的情况下遭受大偏差,或者在具有连续或大观察/状态空间的设置中的大方差。在这项工作中,通过引入将目标策略的价值和观察到的数据分布联系起来,提出了具有潜在混淆的POMDPS的新识别方法。在完全可观察到的MDP中,这些桥接功能将熟悉的值函数和评估与行为策略之间的边际密度比减少。我们接下来提出了用于学习这些桥接功能的最小值估计方法。我们的提案允许一般函数近似,因此适用于具有连续或大观察/状态空间的设置。最后,我们基于这些估计的桥梁功能构建了三种估计,对应于基于价值函数的估计器,边缘化重要性采样估计器和双重稳健的估计器。他们的掺入无血症和渐近性质进行了详细研究。
translated by 谷歌翻译
This paper studies systematic exploration for reinforcement learning with rich observations and function approximation. We introduce a new model called contextual decision processes, that unifies and generalizes most prior settings. Our first contribution is a complexity measure, the Bellman rank , that we show enables tractable learning of near-optimal behavior in these processes and is naturally small for many well-studied reinforcement learning settings. Our second contribution is a new reinforcement learning algorithm that engages in systematic exploration to learn contextual decision processes with low Bellman rank. Our algorithm provably learns near-optimal behavior with a number of samples that is polynomial in all relevant parameters but independent of the number of unique observations. The approach uses Bellman error minimization with optimistic exploration and provides new insights into efficient exploration for reinforcement learning with function approximation.
translated by 谷歌翻译
使用悲观,推理缺乏详尽的勘探数据集时的脱机强化学习最近颇具知名度。尽管它增加了算法的鲁棒性,过于悲观的推理可以在排除利好政策的发现,这是流行的基于红利悲观的问题同样有害。在本文中,我们介绍一般函数近似的Bellman-一致悲观的概念:不是计算逐点下界的值的功能,我们在超过设定的与贝尔曼方程一致的功能的初始状态实现悲观。我们的理论保证只需要贝尔曼封闭性作为探索性的设置标准,其中基于奖金的情况下的悲观情绪未能提供担保。即使在线性函数逼近的特殊情况下更强的表现力假设成立,我们的结果由$ \ mathcal {}Ø(d)在其样品的复杂$在最近的基于奖金的方法改善的时候,动作的空间是有限的。值得注意的是,我们的算法,能够自动适应事后最好的偏差 - 方差折中,而大多数现有的方法中需要调整的额外超参数的先验。
translated by 谷歌翻译
我们根据相对悲观主义的概念,在数据覆盖不足的情况下提出了经过对抗训练的演员评论家(ATAC),这是一种新的无模型算法(RL)。 ATAC被设计为两人Stackelberg游戏:政策演员与受对抗训练的价值评论家竞争,后者发现参与者不如数据收集行为策略的数据一致方案。我们证明,当演员在两人游戏中不后悔时,运行ATAC会产生一项政策,证明1)在控制悲观程度的各种超级参数上都超过了行为政策,而2)与最佳竞争。 policy covered by data with appropriately chosen hyperparameters.与现有作品相比,尤其是我们的框架提供了一般函数近似的理论保证,也提供了可扩展到复杂环境和大型数据集的深度RL实现。在D4RL基准测试中,ATAC在一系列连续的控制任务上始终优于最先进的离线RL算法。
translated by 谷歌翻译
在现实世界的强化学习应用中,学习者的观察空间无处不在,有关手头任务的相关信息和无关紧要。从高维观察中学习一直是监督学习和统计数据(例如,通过稀疏性)进行广泛研究的主题,但是即使在有限的状态/行动(表格)领域,也不能很好地理解强化学习中的类似问题。我们引入了一个新的问题设置,用于增强学习,即马尔可夫决策过程(EXOMDP),其中状态空间将(未知)分解成一个小的(或内源性)组件,并且很大的无关(或外源)组件;外源成分独立于学习者的行为,但以任意的,时间相关的方式演变。我们提供了一种新的算法Exorl,该算法学习了一种近乎最佳的政策,其样品复杂性在内源性组件的大小中多项式,几乎独立于外源成分的大小,从而提供了一个双重指数的改进算法。我们的结果首次突出了在存在外源信息的情况下首次可以进行样品高效的增强学习,并为未来的调查提供了简单,用户友好的基准。
translated by 谷歌翻译
我们研究了用线性函数近似的加固学习中的违规评估(OPE)问题,旨在根据行为策略收集的脱机数据来估计目标策略的价值函数。我们建议纳入价值函数的方差信息以提高ope的样本效率。更具体地说,对于时间不均匀的epiSodic线性马尔可夫决策过程(MDP),我们提出了一种算法VA-OPE,它使用价值函数的估计方差重新重量拟合Q迭代中的Bellman残差。我们表明我们的算法达到了比最着名的结果绑定的更紧密的误差。我们还提供了行为政策与目标政策之间的分布转移的细粒度。广泛的数值实验证实了我们的理论。
translated by 谷歌翻译
低级MDP已成为研究强化学习中的表示和探索的重要模型。有了已知的代表,存在几种无模型的探索策略。相反,未知表示设置的所有算法都是基于模型的,因此需要对完整动力学进行建模。在这项工作中,我们介绍了低级MDP的第一个无模型表示学习算法。关键的算法贡献是一个新的Minimax表示学习目标,我们为其提供具有不同权衡的变体,其统计和计算属性不同。我们将这一表示的学习步骤与探索策略交织在一起,以无奖励的方式覆盖状态空间。所得算法可证明样品有效,并且可以适应一般函数近似以扩展到复杂的环境。
translated by 谷歌翻译
Epsilon-Greedy,SoftMax或Gaussian噪声等近视探索政策在某些强化学习任务中无法有效探索,但是在许多其他方面,它们的表现都很好。实际上,实际上,由于简单性,它们通常被选为最佳选择。但是,对于哪些任务执行此类政策成功?我们可以为他们的有利表现提供理论保证吗?尽管这些政策具有显着的实际重要性,但这些关键问题几乎没有得到研究。本文介绍了对此类政策的理论分析,并为通过近视探索提供了对增强学习的首次遗憾和样本复杂性。我们的结果适用于具有有限的Bellman Eluder维度的情节MDP中的基于价值功能的算法。我们提出了一种新的复杂度度量,称为近视探索差距,用Alpha表示,该差距捕获了MDP的结构属性,勘探策略和给定的值函数类别。我们表明,近视探索的样品复杂性与该数量的倒数1 / alpha^2二次地量表。我们通过具体的例子进一步证明,由于相应的动态和奖励结构,在近视探索成功的几项任务中,近视探索差距确实是有利的。
translated by 谷歌翻译
我们提出了一个新的学习框架,该框架捕获了许多真实世界用户交互应用程序的分层结构,在该框架中,可以根据探索风险的不同公差将用户分为两组,并应分别处理。在这种情况下,我们同时维护两个政策$ \ pi^{\ text {o}} $和$ \ pi^{\ text {e}} $:$ \ pi^{\ pi^{\ text {o}}} $(“ o “对于“在线”)与第一层的更具风险的用户进行互动,并像往常一样平衡探索和剥削来最大程度地减少后悔,而$ \ pi^{\ text {e}} $(“ e” for“ exploit”)专注于利用到目前为止收集的数据,从第二层的规避风险用户进行剥削。一个重要的问题是,这种分离是否比标准在线设置(即$ \ pi^{\ text {e}} = \ pi^{\ text {o}} $)是否产生优势。我们单独考虑与差距无关的与差距依赖性设置。对于前者来说,我们证明从最小值的角度来看,分离确实不是有益的。对于后者,我们表明,如果选择悲观的价值迭代作为剥削算法来产生$ \ pi^{\ text {e}} $,我们可以不断地对无独立的风险用户$ k的数量来实现遗憾$,与$ \ omega(\ log k)$相同的$ \ omega(\ log k)$在同一环境中遗憾在线遗憾的最优性,不需要为成功的成功而妥协。
translated by 谷歌翻译
We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $\Omega(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.
translated by 谷歌翻译
在上下文土匪中,非政策评估(OPE)已在现实世界中迅速采用,因为它仅使用历史日志数据就可以离线评估新政策。不幸的是,当动作数量较大时,现有的OPE估计器(其中大多数是基于反相反的得分加权)会严重降解,并且可能会遭受极端偏见和差异。这挫败了从推荐系统到语言模型的许多应用程序中使用OPE。为了克服这个问题,我们提出了一个新的OPE估计器,即当动作嵌入在动作空间中提供结构时,利用边缘化的重要性权重。我们表征了所提出的估计器的偏差,方差和平方平方误差,并分析了动作嵌入提供了比常规估计器提供统计益处的条件。除了理论分析外,我们还发现,即使由于大量作用,现有估计量崩溃,经验性绩效的改善也可以实现可靠的OPE。
translated by 谷歌翻译
In an era of countless content offerings, recommender systems alleviate information overload by providing users with personalized content suggestions. Due to the scarcity of explicit user feedback, modern recommender systems typically optimize for the same fixed combination of implicit feedback signals across all users. However, this approach disregards a growing body of work highlighting that (i) implicit signals can be used by users in diverse ways, signaling anything from satisfaction to active dislike, and (ii) different users communicate preferences in different ways. We propose applying the recent Interaction Grounded Learning (IGL) paradigm to address the challenge of learning representations of diverse user communication modalities. Rather than taking a fixed, human-designed reward function, IGL is able to learn personalized reward functions for different users and then optimize directly for the latent user satisfaction. We demonstrate the success of IGL with experiments using simulations as well as with real-world production traces.
translated by 谷歌翻译
我们研究了批量策略优化中模型选择的问题:给定固定的部分反馈数据集和$ M $ Model类,学习具有与最佳模型类的策略具有竞争力的性能的策略。通过识别任何模型选择算法应最佳地折衷的错误,以线性模型类在与线性模型类中的内容匪徒设置中的问题正式化。(1)近似误差,(2)统计复杂性,(3 )覆盖范围。前两个来源是在监督学习的模型选择中常见的,在最佳的交易中,这些属性得到了很好的研究。相比之下,第三个源是批量策略优化的唯一,并且是由于设置所固有的数据集移位。首先表明,没有批处理策略优化算法可以同时实现所有三个的保证,展示批量策略优化的困难之间的显着对比,以及监督学习中的积极结果。尽管存在这种负面结果,但我们表明,在三个错误源中的任何一个都可以实现实现剩下的两个近乎oracle不平等的算法。我们通过实验结论,证明了这些算法的功效。
translated by 谷歌翻译
本文以非线性功能近似研究基于模型的匪徒和增强学​​习(RL)。我们建议研究与近似局部最大值的收敛性,因为我们表明,即使对于具有确定性奖励的一层神经网络匪徒,全球收敛在统计上也很棘手。对于非线性匪徒和RL,本文介绍了一种基于模型的算法,即具有在线模型学习者(小提琴)的虚拟攀登,该算法可证明其收敛到局部最大值,其样品复杂性仅取决于模型类的顺序Rademacher复杂性。我们的结果意味着在几种具体设置(例如有限或稀疏模型类别的线性匪徒)和两层神经净匪内的新型全球或本地遗憾界限。一个关键的算法洞察力是,即使对于两层神经净模型类别,乐观也可能导致过度探索。另一方面,为了收敛到本地最大值,如果模型还可以合理地预测真实返回的梯度和Hessian的大小,则足以最大化虚拟返回。
translated by 谷歌翻译
Two central paradigms have emerged in the reinforcement learning (RL) community: online RL and offline RL. In the online RL setting, the agent has no prior knowledge of the environment, and must interact with it in order to find an $\epsilon$-optimal policy. In the offline RL setting, the learner instead has access to a fixed dataset to learn from, but is unable to otherwise interact with the environment, and must obtain the best policy it can from this offline data. Practical scenarios often motivate an intermediate setting: if we have some set of offline data and, in addition, may also interact with the environment, how can we best use the offline data to minimize the number of online interactions necessary to learn an $\epsilon$-optimal policy? In this work, we consider this setting, which we call the \textsf{FineTuneRL} setting, for MDPs with linear structure. We characterize the necessary number of online samples needed in this setting given access to some offline dataset, and develop an algorithm, \textsc{FTPedel}, which is provably optimal. We show through an explicit example that combining offline data with online interactions can lead to a provable improvement over either purely offline or purely online RL. Finally, our results illustrate the distinction between \emph{verifiable} learning, the typical setting considered in online RL, and \emph{unverifiable} learning, the setting often considered in offline RL, and show that there is a formal separation between these regimes.
translated by 谷歌翻译