公民的大会需要根据普通人口的比例代表贫民区。这些大型委员会通常通过联系人员以在线方式构建,要求志愿者的人口特征,并决定包括它们。这在联系的人数(以及产生的成本)和委员会的代表性之间提出了权衡。我们在理论上和实验上研究了三种方法:一种贪婪的算法,包括志愿者,只要违反比例;假设志愿者池中的关节特征分布是众所周知的,一种非自适应方法,包括根据其特征的特征而具有概率。当这种分布不知道先验时,基于加强学习的方法,但在线学习。
translated by 谷歌翻译
在线强化学习(RL)中的挑战之一是代理人需要促进对环境的探索和对样品的利用来优化其行为。无论我们是否优化遗憾,采样复杂性,状态空间覆盖范围或模型估计,我们都需要攻击不同的勘探开发权衡。在本文中,我们建议在分离方法组成的探索 - 剥削问题:1)“客观特定”算法(自适应)规定哪些样本以收集到哪些状态,似乎它可以访问a生成模型(即环境的模拟器); 2)负责尽可能快地生成规定样品的“客观无关的”样品收集勘探策略。建立最近在随机最短路径问题中进行探索的方法,我们首先提供一种算法,它给出了每个状态动作对所需的样本$ B(S,a)$的样本数量,需要$ \ tilde {o} (bd + d ^ {3/2} s ^ 2 a)收集$ b = \ sum_ {s,a} b(s,a)$所需样本的$时间步骤,以$ s $各国,$ a $行动和直径$ d $。然后我们展示了这种通用探索算法如何与“客观特定的”策略配对,这些策略规定了解决各种设置的样本要求 - 例如,模型估计,稀疏奖励发现,无需无成本勘探沟通MDP - 我们获得改进或新颖的样本复杂性保证。
translated by 谷歌翻译
我们介绍了一种普遍的策略,可实现有效的多目标勘探。它依赖于adagoal,一种基于简单约束优化问题的新的目标选择方案,其自适应地针对目标状态,这既不是太困难也不是根据代理目前的知识达到的。我们展示了Adagoal如何用于解决学习$ \ epsilon $ -optimal的目标条件的政策,以便在$ L $ S_0 $ S_0 $奖励中获得的每一个目标状态,以便在$ S_0 $中获取。免费马尔可夫决策过程。在标准的表格外壳中,我们的算法需要$ \ tilde {o}(l ^ 3 s a \ epsilon ^ { - 2})$探索步骤,这几乎很少最佳。我们还容易在线性混合Markov决策过程中实例化Adagoal,其产生具有线性函数近似的第一目标导向的PAC保证。除了强大的理论保证之外,迈克纳队以现有方法的高级别算法结构为锚定,为目标条件的深度加固学习。
translated by 谷歌翻译
逆增强学习(IRL)是从专家演示中推断奖励功能的强大范式。许多IRL算法都需要已知的过渡模型,有时甚至是已知的专家政策,或者至少需要访问生成模型。但是,对于许多现实世界应用,这些假设太强了,在这些应用程序中,只能通过顺序相互作用访问环境。我们提出了一种新颖的IRL算法:逆增强学习(ACEIRL)的积极探索,该探索积极探索未知的环境和专家政策,以快速学习专家的奖励功能并确定良好的政策。 Aceirl使用以前的观察来构建置信区间,以捕获合理的奖励功能,并找到关注环境最有用区域的勘探政策。 Aceirl是使用样品复杂性界限的第一种活动IRL的方法,不需要环境的生成模型。在最坏情况下,Aceirl与活性IRL的样品复杂性与生成模型匹配。此外,我们建立了一个与问题相关的结合,该结合将Aceirl的样品复杂性与给定IRL问题的次级隔离间隙联系起来。我们在模拟中对Aceirl进行了经验评估,发现它的表现明显优于更幼稚的探索策略。
translated by 谷歌翻译
强化学习理论集中在两个基本问题上:实现低遗憾,并确定$ \ epsilon $ - 最佳政策。虽然简单的减少允许人们应用低温算法来获得$ \ epsilon $ - 最佳政策并达到最坏的最佳速率,但尚不清楚低regret算法是否可以获得实例 - 最佳率的策略识别率。我们表明这是不可能的 - 在遗憾和确定$ \ epsilon $ - 最佳政策之间以最佳的利率确定了基本的权衡。由于我们的负面发现,我们提出了针对PAC表格增强学习实例依赖性样本复杂性的新量度,该方法明确说明了基础MDP中可达到的国家访问分布。然后,我们提出和分析一种基于计划的新型算法,该算法达到了这种样本的复杂性 - 产生的复杂性会随着次要差距和状态的“可达到性”而缩放。我们显示我们的算法几乎是最小的最佳选择,并且在一些示例中,我们实例依赖性样品复杂性比最差案例界限可显着改善。
translated by 谷歌翻译
我们考虑了学习eoiSodic安全控制政策的问题,这最小化了客观函数,同时满足必要的安全约束 - 都在学习和部署期间。我们使用具有未知转换概率函数的有限范围限制的Markov决策过程(CMDP)的有限范围限制的Markov决策过程(CMDP)制定了这种安全约束的强化学习(RL)问题。在这里,我们将安全要求造型为关于在所有学习集中必须满足的预期累计成本的限制。我们提出了一种基于模型的安全RL算法,我们称之为乐观 - 悲观的安全强化学习(OPSRL)算法,并表明它实现了$ \ TINDE {\ MATHCAL {O}}(S ^ {2} \ SQRT {啊^ {7} k} /(\ bar {c} - \ bar {c} _ {b}))$累积遗憾在学习期间没有违反安全限制,其中$ S $是州的数量,$ a $动作数量,$ H $是地平线长度,$ k $是学习剧集的数量,$(\ bar {c} - \ bar {c} _ {b})$是安全差距,即,约束值与已知安全基线政策的成本之间的差异。缩放为$ \ tilde {\ mathcal {o}}(\ sqrt {k})$与学习期间可能违反约束的传统方法相同,这意味着我们的算法尽管提供了一个额外的遗憾安全保证。我们的主要思想是利用乐观的探索方法,以悲观的约束实施来学习政策。这种方法同时激励了未知国家的探索,同时对访问可能违反安全限制的国家施加罚款。我们通过对传统方法的基准问题进行评估来验证我们的算法。
translated by 谷歌翻译
Epsilon-Greedy,SoftMax或Gaussian噪声等近视探索政策在某些强化学习任务中无法有效探索,但是在许多其他方面,它们的表现都很好。实际上,实际上,由于简单性,它们通常被选为最佳选择。但是,对于哪些任务执行此类政策成功?我们可以为他们的有利表现提供理论保证吗?尽管这些政策具有显着的实际重要性,但这些关键问题几乎没有得到研究。本文介绍了对此类政策的理论分析,并为通过近视探索提供了对增强学习的首次遗憾和样本复杂性。我们的结果适用于具有有限的Bellman Eluder维度的情节MDP中的基于价值功能的算法。我们提出了一种新的复杂度度量,称为近视探索差距,用Alpha表示,该差距捕获了MDP的结构属性,勘探策略和给定的值函数类别。我们表明,近视探索的样品复杂性与该数量的倒数1 / alpha^2二次地量表。我们通过具体的例子进一步证明,由于相应的动态和奖励结构,在近视探索成功的几项任务中,近视探索差距确实是有利的。
translated by 谷歌翻译
我们研究了线性函数近似的强化学习(RL)。此问题的现有算法仅具有高概率遗憾和/或可能大致正确(PAC)样本复杂性保证,这不能保证对最佳政策的趋同。在本文中,为了克服现有算法的限制,我们提出了一种新的算法,称为长笛,它享有统一-PAC收敛到具有高概率的最佳政策。统一-PAC保证是文献中强化学习的最强烈保证,它可以直接意味着PAC和高概率遗憾,使我们的算法优于具有线性函数近似的所有现有算法。在我们的算法的核心,是一种新颖的最小值函数估计器和多级别分区方案,以从历史观察中选择训练样本。这两种技术都是新的和独立的兴趣。
translated by 谷歌翻译
在大约正确的(PAC)强化学习(RL)中,需要代理来识别具有$ 1- \ delta $的$ \ epsilon $最佳政策。尽管此问题存在最小值最佳算法,但其实例依赖性复杂性在情节马尔可夫决策过程(MDPS)中仍然难以捉摸。在本文中,我们提出了具有有限状态和动作空间的确定性情节MDP中PAC RL样品复杂性的第一个(几乎)匹配的上限和下限。特别是,我们的界限为国家行动对的新概念构成了我们称为确定性返回差距的新概念。尽管我们的依赖实例的下限是作为线性程序编写的,但我们的算法非常简单,并且在学习过程中不需要解决这样的优化问题。他们的设计和分析采用了新颖的想法,包括图理论概念,例如最小流量和最大削减,我们认为这为这个问题提供了新的启示。
translated by 谷歌翻译
无奖励强化学习(RL)考虑了代理在探索过程中无法访问奖励功能的设置,但必须提出仅在探索后才揭示的任意奖励功能的近乎最佳的政策。在表格环境中,众所周知,这是一个比奖励意识(PAC)RL(代理在探索过程中访问奖励功能)更困难的问题$ | \ Mathcal {s} | $,状态空间的大小。我们表明,在线性MDP的设置中,这种分离不存在。我们首先在$ d $二维线性MDP中开发了一种计算高效算法,其样品复杂度比例为$ \ widetilde {\ Mathcal {o}}(d^2 H^5/\ epsilon^2)$ 。然后,我们显示出$ \ omega(d^2 h^2/\ epsilon^2)$的匹配尺寸依赖性的下限,该限制为奖励感知的RL设置。据我们所知,我们的方法是第一个在线性MDP中实现最佳$ d $依赖性的计算有效算法,即使在单次奖励PAC设置中也是如此。我们的算法取决于一种新的程序,该过程有效地穿越了线性MDP,在任何给定的``特征方向''中收集样品,并在最大状态访问概率(线性MDP等效)中享受最佳缩放样品复杂性。我们表明,该探索过程也可以应用于解决线性MDP中````良好条件''''协变量的问题。
translated by 谷歌翻译
我们考虑在马尔可夫决策过程中的强化学习(RL),其中代理人反复交互与由受控马尔可夫进程建模的环境进行交互。在每次步骤$ $ $时,它赢得了奖励,并招收了由$ M $成本组成的成本矢量。我们设计学习算法,最大限度地提高$ T $时间步长的时间范围内获得的累积奖励,同时确保$ M $成本支出的平均值由代理指定的阈值界限为$ C ^ {UB} _I ,i = 1,2,\ ldots,m $。关于累积成本支出的审议从现有文献中离开,因为代理商此外需要以在线方式平衡成本费用,同时执行通常遇到的RL任务中的勘探开发权衡。为了测量满足平均成本约束的加强学习算法的性能,我们定义了由其奖励后悔组成的$ M + 1 $维度遗憾的载体,而M $费用遗憾。奖励后悔在累计奖励中衡量次级最优性,而成本遗憾的奖励奖励奖励是其$ I $ -Th累计成本费用与预期成本支出之间的差异,而预期的成本支出$ TC ^ {UB} _i $。我们证明,通过高概率,UCRL-CMDP的遗憾矢量是高度限制的(S \ SQRT {AT ^ {1.5} \ log(t)\右)$,其中$ s $状态的数量,$ a $是行动的数量,而$ t $是时间范围。我们进一步展示了如何减少预期奖金的所需子集的遗憾,以牺牲奖励遗憾和剩余成本的牺牲品为代价。据我们所知,我们的是唯一考虑在平均成本限制下的非焦化RL的工作,并且可以根据代理人对其成本遗憾的要求进行〜\ excph {调整后悔向量}的算法。
translated by 谷歌翻译
Model-free reinforcement learning (RL) algorithms, such as Q-learning, directly parameterize and update value functions or policies without explicitly modeling the environment. They are typically simpler, more flexible to use, and thus more prevalent in modern deep RL than model-based approaches. However, empirical work has suggested that model-free algorithms may require more samples to learn [7,22]. The theoretical question of "whether model-free algorithms can be made sample efficient" is one of the most fundamental questions in RL, and remains unsolved even in the basic scenario with finitely many states and actions.We prove that, in an episodic MDP setting, Q-learning with UCB exploration achieves regret Õ( √ H 3 SAT ), where S and A are the numbers of states and actions, H is the number of steps per episode, and T is the total number of steps. This sample efficiency matches the optimal regret that can be achieved by any model-based approach, up to a single √ H factor. To the best of our knowledge, this is the first analysis in the model-free setting that establishes √ T regret without requiring access to a "simulator." * The first two authors contributed equally.
translated by 谷歌翻译
This paper studies systematic exploration for reinforcement learning with rich observations and function approximation. We introduce a new model called contextual decision processes, that unifies and generalizes most prior settings. Our first contribution is a complexity measure, the Bellman rank , that we show enables tractable learning of near-optimal behavior in these processes and is naturally small for many well-studied reinforcement learning settings. Our second contribution is a new reinforcement learning algorithm that engages in systematic exploration to learn contextual decision processes with low Bellman rank. Our algorithm provably learns near-optimal behavior with a number of samples that is polynomial in all relevant parameters but independent of the number of unique observations. The approach uses Bellman error minimization with optimistic exploration and provides new insights into efficient exploration for reinforcement learning with function approximation.
translated by 谷歌翻译
我们在随机和对抗性马尔可夫决策过程(MDP)中研究合作在线学习。也就是说,在每一集中,$ m $代理商同时与MDP互动,并共享信息以最大程度地减少他们的遗憾。我们考虑具有两种随机性的环境:\ emph {Fresh} - 在每个代理的轨迹均已采样i.i.d和\ emph {non-fresh} - 其中所有代理人共享实现(但每个代理的轨迹也受到影响)通过其自己的行动)。更确切地说,通过非志趣相投的随机性,每个成本和过渡的实现都在每个情节开始时都固定了,并且在同一时间同时采取相同行动的代理人观察到相同的成本和下一个状态。我们彻底分析了所有相关设置,强调了模型之间的挑战和差异,并证明了几乎匹配的遗憾下层和上限。据我们所知,我们是第一个考虑具有非伪造随机性或对抗性MDP的合作强化学习(RL)。
translated by 谷歌翻译
我们研究了线性上下文的匪徒问题,其中代理必须从池中选择一个候选者,每个候选者属于敏感组。在这种情况下,候选人的奖励可能无法直接可比,例如,当代理人是雇主雇用来自不同种族的候选人时,由于歧视性偏见和/或社会不公正,有些群体的奖励较低。我们提出了一个公平的概念,该概念指出,当代理人选择一个相对排名最高的候选人时,它是公平的,这可以衡量与同一组的候选人相比,奖励的良好程度。这是一个非常强烈的公平概念,因为代理没有直接观察到相对等级,而取决于基本的奖励模型和奖励的分布。因此,我们研究了学习政策的问题,该策略在背景之间是独立的,而每个小组之间的奖励分配是绝对连续的。特别是,我们设计了一个贪婪的策略,在每个回合中,从观察到的上下文奖励对构建了脊回归估计器,然后使用经验累积分布函数计算每个候选者的相对等级的估计值。我们证明,贪婪的策略在$ t $ rounds之后达到了日志因素,并且以高概率为止,订单$ \ sqrt {dt} $的合理伪regret,其中$ d $是上下文矢量的尺寸。 The policy also satisfies demographic parity at each round when averaged over all possible information available before the selection.我们最终通过概念模拟证明,我们的政策在实践中也可以实现次线性公平伪rebret。
translated by 谷歌翻译
许多基于模型的强化学习方法(MBRL)为他们可以提供的马尔可夫决策过程(MDP)模型的准确性和学习效率提供了保证。同时,状态抽象技术允许减少MDP的大小,同时相对于原始问题保持有限的损失。因此,令人惊讶的是,在结合两种技术时,即MBRL仅观察抽象状态时,没有任何保证可用。我们的理论分析表明,抽象可以在网上收集的样本(例如在现实世界中)引入依赖性,这意味着MBRL的大多数结果不能直接扩展到此设置。这项工作的新结果表明,可以使用Martingales的浓度不平等来克服此问题,并允许将R-MAX等算法的结果扩展到以抽象为设置的算法。因此,通过抽象的模型为抽象的RL生成了第一个性能保证:基于模型的强化学习。
translated by 谷歌翻译
我们研究了受限的强化学习问题,其中代理的目的是最大程度地提高预期的累积奖励,从而受到对实用程序函数的预期总价值的约束。与现有的基于模型的方法或无模型方法伴随着“模拟器”,我们旨在开发第一个无模型的无模拟算法,即使在大规模系统中,也能够实现sublinear遗憾和透明度的约束侵犯。为此,我们考虑具有线性函数近似的情节约束决策过程,其中过渡动力学和奖励函数可以表示为某些已知功能映射的线性函数。我们表明$ \ tilde {\ mathcal {o}}(\ sqrt {d^3h^3t})$遗憾和$ \ tilde {\ tillcal {\ mathcal {o}}(\ sqrt {d^3h^3ht})$约束$约束$约束可以实现违规范围,其中$ d $是功能映射的尺寸,$ h $是情节的长度,而$ t $是总数的总数。我们的界限是在没有明确估计未知过渡模型或需要模拟器的情况下达到的,并且仅通过特征映射的维度依赖于状态空间。因此,即使国家的数量进入无穷大,我们的界限也会存在。我们的主要结果是通过标准LSVI-UCB算法的新型适应来实现的。特别是,我们首先将原始二次优化引入LSVI-UCB算法中,以在遗憾和违反约束之间取得平衡。更重要的是,我们使用软马克斯政策取代了LSVI-UCB中的状态行动功能的标准贪婪选择。事实证明,这对于通过其近似平滑度的权衡来确定受约束案例的统一浓度是关键。我们还表明,一个人可以达到均匀的约束违规行为,同时仍然保持相同的订单相对于$ t $。
translated by 谷歌翻译
Two central paradigms have emerged in the reinforcement learning (RL) community: online RL and offline RL. In the online RL setting, the agent has no prior knowledge of the environment, and must interact with it in order to find an $\epsilon$-optimal policy. In the offline RL setting, the learner instead has access to a fixed dataset to learn from, but is unable to otherwise interact with the environment, and must obtain the best policy it can from this offline data. Practical scenarios often motivate an intermediate setting: if we have some set of offline data and, in addition, may also interact with the environment, how can we best use the offline data to minimize the number of online interactions necessary to learn an $\epsilon$-optimal policy? In this work, we consider this setting, which we call the \textsf{FineTuneRL} setting, for MDPs with linear structure. We characterize the necessary number of online samples needed in this setting given access to some offline dataset, and develop an algorithm, \textsc{FTPedel}, which is provably optimal. We show through an explicit example that combining offline data with online interactions can lead to a provable improvement over either purely offline or purely online RL. Finally, our results illustrate the distinction between \emph{verifiable} learning, the typical setting considered in online RL, and \emph{unverifiable} learning, the setting often considered in offline RL, and show that there is a formal separation between these regimes.
translated by 谷歌翻译
我们提出了一个新的学习框架,该框架捕获了许多真实世界用户交互应用程序的分层结构,在该框架中,可以根据探索风险的不同公差将用户分为两组,并应分别处理。在这种情况下,我们同时维护两个政策$ \ pi^{\ text {o}} $和$ \ pi^{\ text {e}} $:$ \ pi^{\ pi^{\ text {o}}} $(“ o “对于“在线”)与第一层的更具风险的用户进行互动,并像往常一样平衡探索和剥削来最大程度地减少后悔,而$ \ pi^{\ text {e}} $(“ e” for“ exploit”)专注于利用到目前为止收集的数据,从第二层的规避风险用户进行剥削。一个重要的问题是,这种分离是否比标准在线设置(即$ \ pi^{\ text {e}} = \ pi^{\ text {o}} $)是否产生优势。我们单独考虑与差距无关的与差距依赖性设置。对于前者来说,我们证明从最小值的角度来看,分离确实不是有益的。对于后者,我们表明,如果选择悲观的价值迭代作为剥削算法来产生$ \ pi^{\ text {e}} $,我们可以不断地对无独立的风险用户$ k的数量来实现遗憾$,与$ \ omega(\ log k)$相同的$ \ omega(\ log k)$在同一环境中遗憾在线遗憾的最优性,不需要为成功的成功而妥协。
translated by 谷歌翻译
从最小值和实例依赖性视图中,已经对乐观算法进行了广泛的研究,以在情节表格MDP中进行遗憾的最小化。但是,对于PAC RL问题,目标是确定具有很高可能性的近乎最佳策略,对它们的实例依赖性样本复杂性知之甚少。 Wagenmaker等人的负面结果。 (2021)表明,乐观的抽样规则不能用于达到(仍然难以捉摸的)最佳实例依赖性样本复杂性。在正面,我们为PAC RL的乐观算法提供了第一个依赖于实例依赖性的结合,BPI-UCRL仅可用的最小值保证(Kaufmann等,2021)。尽管我们的界限具有一些最小的访问概率,但与先前工作中出现的价值差距相比,它的次要差距的精致概念。此外,在具有确定性过渡的MDP中,我们表明BPI-UCRL实际上是近乎最佳的。从技术方面来说,由于独立兴趣的新“目标技巧”,我们的分析非常简单。我们用新颖的硬度结果补充了这些发现,解释了为什么与Minimax政权不同,为什么PAC RL的实例依赖性复杂性与遗憾最小化的复杂性不易与遗憾最小化相关。
translated by 谷歌翻译