我们考虑在随机凸成本和状态和成本函数的全部反馈下控制未知线性动力学系统的问题。我们提出了一种计算高效的算法,该算法与最佳的稳定线性控制器相比,该算法达到了最佳的$ \ sqrt {t} $遗憾。与以前的工作相反,我们的算法基于面对不确定性范式的乐观情绪。这导致了大大改善的计算复杂性和更简单的分析。
translated by 谷歌翻译
汤普森采样(TS)是在不确定性下进行决策的有效方法,其中从精心规定的分布中采样了动作,该分布根据观察到的数据进行更新。在这项工作中,我们研究了使用TS的可稳定线性季度调节剂(LQR)自适应控制的问题,其中系统动力学是未知的。先前的作品已经确定,$ \ tilde o(\ sqrt {t})$频繁的遗憾对于LQR的自适应控制是最佳的。但是,现有方法要么仅在限制性设置中起作用,需要先验已知的稳定控制器,要么使用计算上棘手的方法。我们提出了一种有效的TS算法,用于对LQR的自适应控制,TS基于TS的自适应控制,TSAC,该算法达到了$ \ tilde o(\ sqrt {t})$遗憾,即使对于多维系统和Lazaric(2018)。 TSAC不需要先验已知的稳定控制器,并通过在早期阶段有效探索环境来实现基础系统的快速稳定。我们的结果取决于开发新颖的下限TS提供乐观样本的概率。通过仔细规定早期的探索策略和政策更新规则,我们表明TS在适应性控制多维可稳定性LQR方面实现了最佳的遗憾。我们从经验上证明了TSAC在几个自适应控制任务中的性能和效率。
translated by 谷歌翻译
我们考虑通过有限的地平线$ t $控制线性二次调节器(LQR)系统的问题,以固定和已知的成本矩阵$ q,r $但未知和非静止动力$ \ {a_t,b_t \} $。动态矩阵的序列可以是任意的,但总体变化,V_T $,假设为$ O(t)$和控制器未知。在假设所有$ $ $的稳定序列,但潜在的子最优控制器中,我们介绍了一种实现$ \ tilde {\ mathcal {o}} \ left的最佳动态遗憾的算法(v_t ^ { 2/5} t ^ {3/5} \右)$。通过分词恒定动态,我们的算法实现了$ \ tilde {\ mathcal {o}}(\ sqrt {st})$的最佳遗憾,其中$ s $是交换机的数量。我们的算法的关键是一种自适应的非平稳性检测策略,它在最近开发的用于上下文多武装匪徒问题的方法中构建。我们还争辩说,不适应忘记(例如,重新启动或使用静态窗口大小的滑动窗口学习)可能对LQR问题的后悔最佳,即使窗口大小以$ V_T $的知识最佳地调整。我们算法分析中的主要技术挑战是证明普通的最小二乘(OLS)估计器在待估计的参数是非静止的情况下具有小的偏差。我们的分析还突出了推动遗憾的关键主题是LQR问题在于LQR问题是具有线性反馈和局部二次成本的强盗问题。这个主题比LQR问题本身更普及,因此我们相信我们的结果应该找到更广泛的应用。
translated by 谷歌翻译
We study time-inhomogeneous episodic reinforcement learning (RL) under general function approximation and sparse rewards. We design a new algorithm, Variance-weighted Optimistic $Q$-Learning (VO$Q$L), based on $Q$-learning and bound its regret assuming completeness and bounded Eluder dimension for the regression function class. As a special case, VO$Q$L achieves $\tilde{O}(d\sqrt{HT}+d^6H^{5})$ regret over $T$ episodes for a horizon $H$ MDP under ($d$-dimensional) linear function approximation, which is asymptotically optimal. Our algorithm incorporates weighted regression-based upper and lower bounds on the optimal value function to obtain this improved regret. The algorithm is computationally efficient given a regression oracle over the function class, making this the first computationally tractable and statistically optimal approach for linear MDPs.
translated by 谷歌翻译
强化学习通常假设代理人立即观察其动作的反馈,但在许多实际应用中(如推荐系统),延迟观察到反馈。本文在线学习在线学习,具有未知过渡,过渡性的成本和不受限制的延迟反馈,在线学习。也就是说,集中的成本和轨迹只在第k + d ^ k $的集中延迟到学习者,其中延迟$ d ^ k $既不相同也不有界限,并由其中选择忘记的对手。我们提出了基于策略优化的新型算法,该算法在全信息反馈下实现了$ \ sqrt {k + d} $的近乎最佳的高概率遗憾,其中$ k $是剧集的数量和$ d = \ sum_ {k D ^ K $是总延迟。在强盗反馈下,我们证明了类似$ \ SQRT {K + D} $遗憾假设成本是随机的,而在一般情况下为$(k + d)^ {2/3} $遗憾。我们是第一个在具有延迟反馈的MDP的重要设置中考虑后悔最小化。
translated by 谷歌翻译
我们研究了具有线性函数近似增强学习中的随机最短路径(SSP)问题,其中过渡内核表示为未知模型的线性混合物。我们将此类别的SSP问题称为线性混合物SSP。我们提出了一种具有Hoeffding-type置信度的新型算法,用于学习线性混合物SSP,可以获得$ \ tilde {\ Mathcal {o}}}}(d B _ {\ star}^{1.5} \ sqrt {k/c_ {k/c_ {k/c_ {k/c_ { \ min}})$遗憾。这里$ k $是情节的数量,$ d $是混合模型中功能映射的维度,$ b _ {\ star} $限制了最佳策略的预期累积成本,$ c _ {\ min}>> 0 $是成本函数的下限。当$ c _ {\ min} = 0 $和$ \ tilde {\ mathcal {o}}}(k^{2/3})$遗憾时,我们的算法也适用于情况。据我们所知,这是第一个具有sublrinear遗憾保证线性混合物SSP的算法。此外,我们设计了精致的伯恩斯坦型信心集并提出了改进的算法,该算法可实现$ \ tilde {\ Mathcal {o}}}(d b _ {\ star} \ sqrt {k/c/c/c {k/c _ {\ min}}) $遗憾。为了补充遗憾的上限,我们还证明了$ \ omega(db _ {\ star} \ sqrt {k})$的下限。因此,我们的改进算法将下限匹配到$ 1/\ sqrt {c _ {\ min}} $ factor和poly-logarithmic因素,从而实现了近乎最佳的遗憾保证。
translated by 谷歌翻译
凭借其综合理论和实际相关性,逻辑匪徒最近经历了仔细的审查。这项研究工作提供了统计上有效的算法,通过指数巨大的因素来改善以前的策略的遗憾。然而,这种算法非常昂贵,因为它们需要每轮的$ \ omega(t)$操作。另一方面,一种不同的研究系列专注于计算效率($ \ mathcal {o}(1)美元的成本),但在放弃上述指数改进的成本上。遗憾的是,获得两个世界的最佳并非结婚两种方法的问题。相反,我们为Logistic Barits介绍了一个新的学习过程。它产生了信心集,可以在没有牺牲统计密封性的情况下轻松在线维护足够的统计数据。结合高效的规划机制,我们设计了快速算法,后悔性能仍然符合Abeille等人的问题依赖性较低。 (2021)。据我们所知,这些是第一个同时享受统计和计算效率的第一逻辑强盗算法。
translated by 谷歌翻译
我们研究了随机的最短路径(SSP)问题,其中代理商必须以最短的预计成本达到目标状态。在问题的学习制定中,代理商没有关于模型的成本和动态的知识。她反复与k $剧集的型号交互,并且必须尽量减少她的遗憾。在这项工作中,我们表明这个设置的Minimax遗憾是$ \ widetilde o(\ sqrt {(b_ \ star ^ 2 + b_ \ star)| s | a | a | k})$ why $ b_ \ star $ a符合来自任何州的最佳政策的预期成本,$ S $是状态空间,$ a $是行动空间。此相匹配的$ \欧米茄(\ SQRT {B_ \星^ 2 | S | |甲| K})$下界Rosenberg等人的。 [2020]对于$ b_ \ star \ ge 1 $,并改善了他们的遗憾,以\ sqrt {| s |} $ \ you的遗憾。对于$ b_ \ star <1 $我们证明$ \ omega的匹配下限(\ sqrt {b_ \ star | s | a | a | k})$。我们的算法基于SSP的新颖减少到有限地平线MDP。为此,我们为有限地域设置提供了一种算法,其前期遗憾遗憾地取决于最佳政策的预期成本,并且仅对地平线上的对数。
translated by 谷歌翻译
学习如何有效地控制未知的动态系统对于智能自治系统至关重要。当潜在的动态随着时间的推移时,这项任务成为一个重大挑战。本文认为这一挑战,本文考虑了控制未知马尔可夫跳跃线性系统(MJS)的问题,以优化二次目标。通过采用基于模型的透视图,我们考虑对MJSS的识别自适应控制。我们首先为MJS提供系统识别算法,用于从系统状态,输入和模式的单个轨迹,从模式开关的演进中的底层中学习MJS的系统识别算法。通过混合时间参数,该算法的样本复杂性显示为$ \ mathcal {o}(1 / \ sqrt {t})$。然后,我们提出了一种自适应控制方案,其与确定性等效控制一起执行系统识别,以使控制器以焦化方式调整。 Combining our sample complexity results with recent perturbation results for certainty equivalent control, we prove that when the episode lengths are appropriately chosen, the proposed adaptive control scheme achieves $\mathcal{O}(\sqrt{T})$ regret, which can be改进了$ \ mathcal {o}(polylog(t))$与系统的部分了解。我们的证据策略介绍了在MJSS中处理马尔可维亚跳跃的创新和较弱的稳定概念。我们的分析提供了影响学习准确性和控制性能的系统理论量的见解。提出了数值模拟,以进一步加强这些见解。
translated by 谷歌翻译
随机通用的线性匪徒是针对顺序决策问题的一个很好理解的模型,许多算法在立即反馈下实现了近乎最佳的遗憾。但是,在许多现实世界中,立即观察奖励的要求不适用。在这种情况下,不再理解标准算法。我们通过在选择动作和获得奖励之间引入延迟,以理论方式研究延迟奖励的现象。随后,我们表明,基于乐观原则的算法通过消除对决策集和延迟的延迟分布和放松假设的需要,从而改善了本设置的现有方法。这也导致从$ \ widetilde o(\ sqrt {dt} \ sqrt {d + \ mathbb {e} [\ tau]})$改善遗憾保证。 ^{3/2} \ mathbb {e} [\ tau])$,其中$ \ mathbb {e} [\ tau] $表示预期的延迟,$ d $是尺寸,$ t $ t $ the Time Horizo​​n,我们我们抑制了对数术语。我们通过对模拟数据进行实验来验证我们的理论结果。
translated by 谷歌翻译
我们为随机最短路径(SSP)问题引入了两个新的无悔算法,其线性MDP显着改善了唯一的现有结果(Vial等,2021)。我们的第一算法是计算上的效率,实现了遗憾的绑定$ \ wideetilde {o} \ left(\ sqrt {d ^ 3b _ {\ star} ^ 2t _ {\ star} k}右)$,其中$ d $是维度特征空间,$ B _ {\ star} $和$ t _ {\ star} $分别是预期成本的上限,分别击中最佳政策的时间,$ k $是剧集的数量。具有略微修改的相同算法也实现了对数为OR o \ lex的对数后悔(\ frac {d ^ 3b _ {\ star} ^ 4} {c _ {\ min} ^ 2 \ text {gap} _ {\ min}} \ ln ^ 5 \ frac {db _ {\ star}} {c _ {\ min}} \右)$,其中$ \ text {gap} _ {\ min} $是最小的子项目差距和$ c_ { \ min} $是所有国家动作对的最低成本。我们的结果是通过开发更简单和改进的分析(Cohen等人,2021)的有限范围的分析而具有较小的近似误差,这可能具有独立兴趣。另一方面,在全局优化问题中使用方差感知的信心集,我们的第二算法是计算效率低下的,但实现了第一个“免费”后悔绑定$ \ widetilde {o}(d ^ {3.5} b _ {\ star } \ sqrt {k})$与$ t _ {\ star} $或$ 1 / c _ {\ min} $,几乎匹配$ \ omega(db _ {\ star} \ sqrt {k})$较低(Min等,2021)的绑定。
translated by 谷歌翻译
获取一阶遗憾界限 - 遗憾的界限不是作为最坏情况,但有一些衡量给定实例的最佳政策的性能 - 是连续决策的核心问题。虽然这种界限存在于许多设置中,但它们在具有大状态空间的钢筋学习中被证明是难以捉摸的。在这项工作中,我们解决了这个差距,并表明可以将遗憾的缩放作为$ \ mathcal {o}(\ sqrt {v_1 ^ \ star})$中的钢筋学习,即用大状态空间,即线性MDP设置。这里$ v_1 ^ \ star $是最佳政策的价值,$ k $是剧集的数量。我们证明基于最小二乘估计的现有技术不足以获得该结果,而是基于强大的Catoni平均估计器制定一种新的稳健自归一化浓度,其可能具有独立兴趣。
translated by 谷歌翻译
Projection operations are a typical computation bottleneck in online learning. In this paper, we enable projection-free online learning within the framework of Online Convex Optimization with Memory (OCO-M) -- OCO-M captures how the history of decisions affects the current outcome by allowing the online learning loss functions to depend on both current and past decisions. Particularly, we introduce the first projection-free meta-base learning algorithm with memory that minimizes dynamic regret, i.e., that minimizes the suboptimality against any sequence of time-varying decisions. We are motivated by artificial intelligence applications where autonomous agents need to adapt to time-varying environments in real-time, accounting for how past decisions affect the present. Examples of such applications are: online control of dynamical systems; statistical arbitrage; and time series prediction. The algorithm builds on the Online Frank-Wolfe (OFW) and Hedge algorithms. We demonstrate how our algorithm can be applied to the online control of linear time-varying systems in the presence of unpredictable process noise. To this end, we develop the first controller with memory and bounded dynamic regret against any optimal time-varying linear feedback control policy. We validate our algorithm in simulated scenarios of online control of linear time-invariant systems.
translated by 谷歌翻译
我们开发了一个修改的在线镜下降框架,该框架适用于在无界域中构建自适应和无参数的算法。我们利用这项技术来开发第一个不受限制的在线线性优化算法,从而达到了最佳的动态遗憾,我们进一步证明,基于以下规范化领导者的自然策略无法取得相似的结果。我们还将镜像下降框架应用于构建新的无参数隐式更新,以及简化和改进的无限规模算法。
translated by 谷歌翻译
我们开发了一个概率框架,用于分析基于模型的加强学习在整个概念环境中。然后,我们将其应用于使用线性动力学但未知的系数和凸起的有限时间地平线随机控制问题,但可能是不规则的,客观的函数。使用概率表示,我们研究相关成本函数的规律性,并建立精确估计,用于应用估计和真实模型参数的最佳反馈控制之间的性能差距。我们确定这种性能差距是二次,提高近期工作的线性性能差距的条件[X.郭,A. Hu和Y. Zhang,Arxiv预印,arxiv:2104.09311,(2021)],它与随机线性二次问题获得的结果相匹配。接下来,我们提出了一种基于阶段的学习算法,我们展示了如何优化探索剥削权衡,并在高概率和期望中实现索布林遗憾。当对二次性能间隙保持所需的假设时,该算法在一般情况下实现了订单$ \ mathcal {o}(\ sqrt {n \ ln n)$高概率后悔,以及订单$ \ mathcal {o} ((\ ln n)^ 2)$预期遗憾,在自我探索案例中,超过$ n $剧集,匹配文献中的最佳结果。分析需要新的浓度不等式,用于相关的连续时间观察,我们得出。
translated by 谷歌翻译
我们研究了一种强化学习理论(RL),其中学习者在情节结束时仅收到一次二进制反馈。尽管这是理论上的极端测试案例,但它也可以说是实际应用程序的代表性,而不是在RL实践中,学习者在每个时间步骤中都会收到反馈。的确,在许多实际应用的应用程序中,例如自动驾驶汽车和机器人技术,更容易评估学习者的完整轨迹要么是“好”还是“坏”,但是更难在每个方面提供奖励信号步。为了证明在这种更具挑战性的环境中学习是可能的,我们研究了轨迹标签由未知参数模型生成的情况,并提供了一种统计和计算上有效的算法,从而实现了sublinear遗憾。
translated by 谷歌翻译
在随机上下文的强盗设置中,对遗憾最小化算法进行了广泛的研究,但是他们的实例最少的最佳武器识别对应物仍然很少研究。在这项工作中,我们将重点关注$(\ epsilon,\ delta)$ - $ \ textit {pac} $设置:给定策略类$ \ pi $,学习者的目标是返回策略的目标, $ \ pi \ in \ pi $的预期奖励在最佳政策的$ \ epsilon $之内,概率大于$ 1- \ delta $。我们表征了第一个$ \ textit {实例依赖性} $ PAC样品通过数量$ \ rho _ {\ pi} $的上下文匪徒的复杂性,并根据$ \ rho _ {\ pi} $提供匹配的上和下限不可知论和线性上下文最佳武器标识设置。我们表明,对于遗憾的最小化和实例依赖性PAC而言,无法同时最小化算法。我们的主要结果是一种新的实例 - 最佳和计算有效算法,该算法依赖于多项式呼叫对Argmax Oracle的调用。
translated by 谷歌翻译
我们解决了通过在线后退地平线控制(RHC)的框架来控制控制未知线性动态系统的问题,以时代变化的成本函数。我们考虑控制算法不知道真正的系统模型的设置,并且只能访问固定长度(不与控制范围内的增长)预览未来成本函数。我们使用动态遗憾度量的算法表征了算法的性能,该算法被定义为算法产生的累积成本与后视行动中最佳动作顺序之间的差异。我们提出了两个不同的在线RHC算法来解决这个问题,即确定的等价RHC(CE-RHC)算法和乐观RHC(O-RHC)算法。我们表明,在模型估计的标准稳定假设下,CE-RHC算法实现$ \ Mathcal {O}(T ^ {2/3})$动态遗憾。然后,我们将此结果扩展到通过提出O-RHC算法仅适用于真实系统模型的稳定假设。我们表明O-RHC算法实现$ \ Mathcal {O}(T ^ {2/3})$动态遗憾,但有一些额外的计算。
translated by 谷歌翻译
本文以非线性功能近似研究基于模型的匪徒和增强学​​习(RL)。我们建议研究与近似局部最大值的收敛性,因为我们表明,即使对于具有确定性奖励的一层神经网络匪徒,全球收敛在统计上也很棘手。对于非线性匪徒和RL,本文介绍了一种基于模型的算法,即具有在线模型学习者(小提琴)的虚拟攀登,该算法可证明其收敛到局部最大值,其样品复杂性仅取决于模型类的顺序Rademacher复杂性。我们的结果意味着在几种具体设置(例如有限或稀疏模型类别的线性匪徒)和两层神经净匪内的新型全球或本地遗憾界限。一个关键的算法洞察力是,即使对于两层神经净模型类别,乐观也可能导致过度探索。另一方面,为了收敛到本地最大值,如果模型还可以合理地预测真实返回的梯度和Hessian的大小,则足以最大化虚拟返回。
translated by 谷歌翻译
尽管在理解增强学习的最小样本复杂性(RL)(在“最坏情况”的实例上学习的复杂性)方面已经取得了很多进展,但这种复杂性的衡量标准通常不会捕捉到真正的学习困难。在实践中,在“简单”的情况下,我们可能希望获得比最糟糕的实例可以实现的要好得多。在这项工作中,我们试图理解在具有线性函数近似的RL设置中学习近乎最佳策略(PAC RL)的“实例依赖性”复杂性。我们提出了一种算法,\ textsc {pedel},该算法实现了依赖于实例的复杂性的量度,这是RL中的第一个具有功能近似设置,从而捕获了每个特定问题实例的学习难度。通过一个明确的示例,我们表明\ textsc {pedel}可以在低重晶,最小值 - 最佳算法上获得可证明的收益,并且这种算法无法达到实例 - 最佳速率。我们的方法取决于基于设计的新型实验程序,该程序将勘探预算重点放在与学习近乎最佳政策最相关的“方向”上,并且可能具有独立的兴趣。
translated by 谷歌翻译