本文调查了非静止线性匪徒的问题,其中未知的回归参数随着时间的推移而发展。现有的研究开发了各种算法并显示他们享受$ \ widetilde {\ mathcal {p_t ^ {1/3})$动态遗憾,其中$ t $是时间范围和$ p_t $是测量演化未知参数的波动的路径长度。在本文中,我们发现一个严肃的技术缺陷使其结果未接地,然后呈现一个FIX,它给出$ \ WidTilde {\ Mathcal {o}}(t ^ {3/4} p_t ^ {1/4} )$动态遗憾而不修改原始算法。此外,我们证明了代替使用复杂的机制,例如滑动窗口或加权罚款,简单的重启策略足以实现相同的遗憾保证。具体而言,我们设计了UCB型算法来平衡利用和探索,并定期重新启动它以处理未知参数的漂移。我们的方法享有$ \ widetilde {\ mathcal {o}}(t ^ {3/4} p_t ^ {1/4})$动态遗憾。请注意,为了实现这一界限,该算法需要Oracle知识路径长度$ P_T $。将强盗带式机制组合通过将我们的算法视为基础学习者,我们可以通过无参数方式实现相同的遗憾。实证研究还验证了我们方法的有效性。
translated by 谷歌翻译
我们在非静止环境中调查在线凸优化,然后选择\ emph {动态后悔}作为性能测量,定义为在线算法产生的累积损失与任何可行比较器序列之间的差异。让$ t $是$ p_t $ be的路径长度,基本上反映了环境的非平稳性,最先进的动态遗憾是$ \ mathcal {o}(\ sqrt {t( 1 + p_t)})$。虽然这一界限被证明是凸函数最佳的最低限度,但在本文中,我们证明可以进一步提高一些简单的问题实例的保证,特别是当在线功能平滑时。具体而言,我们提出了新的在线算法,可以利用平滑度并替换动态遗憾的$ t $替换依据\ {问题依赖性}数量:损耗函数梯度的变化,比较器序列的累积损失,以及比较器序列的累积损失最低术语的最低限度。这些数量是大多数$ \ mathcal {o}(t)$,良性环境中可能更小。因此,我们的结果适应了问题的内在难度,因为边界比现有结果更严格,以便在最坏的情况下保证相同的速率。值得注意的是,我们的算法只需要\ emph {一个}渐变,这与开发的方法共享相同的渐变查询复杂性,以优化静态遗憾。作为进一步的应用,我们将来自全信息设置的结果扩展到具有两点反馈的强盗凸优化,从而达到此类强盗任务的第一个相关的动态遗憾。
translated by 谷歌翻译
我们研究了在线马尔可夫决策过程(MDP),具有对抗性变化的损失功能和已知过渡。我们选择动态遗憾作为绩效度量,定义为学习者和任何可行的变化策略序列之间的绩效差异。这项措施严格比标准的静态遗憾要强得多,该标准遗憾的是,基准通过固定的政策将学习者的绩效表现为学习者的表现。我们考虑了三种在线MDP的基础模型,包括无情节循环随机路径(SSP),情节SSP和Infinite-Horizo​​n MDP。对于这三个模型,我们提出了新颖的在线集合算法并分别建立了动态​​遗憾保证,在这种情况下,情节性(无环)SSP的结果在时间范围和某些非平稳性度量方面是最佳的最低限度。此外,当学习者遇到的在线环境是可以预测的时,我们设计了改进的算法并为情节(无环)SSP实现更好的动态遗憾界限;此外,我们证明了无限 - 摩恩MDP的不可能结果。
translated by 谷歌翻译
我们在非静止线性(AKA低级别)马尔可夫决策过程(MDP)中研究了集中加强学习,即奖励和转换内核都是关于给定特征映射的线性,并且被允许缓慢或突然演变时间。对于此问题设置,我们提出了一种基于加权最小二乘值的乐观模型算法的Opt-WLSVI,其使用指数权重来平滑地忘记过去远远的数据。我们表明我们的算法在每次竞争最佳政策时,实现了由$ \ widetilde {\ mathcal {o}}的上部界限的遗憾(d ^ {5/4} h ^ 2 \ delta ^ {1 / 4} k ^ {3/4})$何地在$ d $是特征空间的尺寸,$ h $是规划地平线,$ k $是剧集的数量和$ \ delta $是一个合适的衡量标准MDP的非固定性。此外,我们指出了在忘记以前作品的非静止线性匪徒环境中忘记策略的技术差距,并提出了修复其遗憾分析。
translated by 谷歌翻译
当培训数据共享与即将到来的测试样本相同的分布时,标准监督学习范式有效地工作。但是,在现实世界中,通常会违反此假设,尤其是在以在线方式出现测试数据时。在本文中,我们制定和调查了在线标签转移(OLAS)的问题:学习者从标记的离线数据训练初始模型,然后将其部署到未标记的在线环境中,而基础标签分布会随着时间的推移而变化,但标签 - 条件密度没有。非平稳性和缺乏监督使问题具有挑战性。为了解决难度,我们构建了一个新的无偏风险估计器,该风险估计器利用了未标记的数据,该数据表现出许多良性特性,尽管具有潜在的非跨性别性。在此基础上,我们提出了新颖的在线合奏算法来应对环境的非平稳性。我们的方法享有最佳的动态遗憾,表明该性能与千里眼的千里眼竞争,后者是事后看来的在线环境,然后选择每轮的最佳决定。获得的动态遗憾结合量表与标签分布转移的强度和模式,因此在OLAS问题中表现出适应性。进行广泛的实验以验证有效性和支持我们的理论发现。
translated by 谷歌翻译
我们考虑随机环境中在线线性回归的问题。我们派生了在线岭回归和前向算法的高概率遗憾。这使我们能够更准确地比较在线回归算法并消除有界观测和预测的假设。我们的研究由于其增强的界限和鲁棒性对正则化参数而代替脊,所以提出了前向算法的倡导者。此外,我们解释了如何将其集成在涉及线性函数近似的算法中以消除界限假设,而不会恶化理论界限。我们在线性强盗设置展示了这种修改,其中它产生了改进的遗憾范围。最后,我们提供数字实验来说明我们的结果并赞同我们的直觉。
translated by 谷歌翻译
本文在动态定价的背景下调查预先存在的离线数据对在线学习的影响。我们在$ t $期间的销售地平线上研究单一产品动态定价问题。每个时段的需求由产品价格根据具有未知参数的线性需求模型确定。我们假设在销售地平线开始之前,卖方已经有一些预先存在的离线数据。离线数据集包含$ N $示例,其中每个标准是由历史价格和相关的需求观察组成的输入输出对。卖方希望利用预先存在的离线数据和顺序在线数据来最大限度地减少在线学习过程的遗憾。我们的特征在于在线学习过程的最佳遗憾的脱机数据的大小,位置和分散的联合效果。具体而言,离线数据的大小,位置和色散由历史样本数量为$ n $,平均历史价格与最佳价格$ \ delta $之间的距离以及历史价格的标准差价Sigma $分别。我们表明最佳遗憾是$ \ widetilde \ theta \ left(\ sqrt {t} \ wedge \ frac {t} {(n \ wedge t)\ delta ^ 2 + n \ sigma ^ 2} \右)$,基于“面对不确定性”原则的“乐观主义”的学习算法,其遗憾是最佳的对数因子。我们的结果揭示了对脱机数据的大小的最佳遗憾率的惊人变换,我们称之为阶段转型。此外,我们的结果表明,离线数据的位置和分散也对最佳遗憾具有内在效果,我们通过逆平面法量化了这种效果。
translated by 谷歌翻译
我们考虑通过有限的地平线$ t $控制线性二次调节器(LQR)系统的问题,以固定和已知的成本矩阵$ q,r $但未知和非静止动力$ \ {a_t,b_t \} $。动态矩阵的序列可以是任意的,但总体变化,V_T $,假设为$ O(t)$和控制器未知。在假设所有$ $ $的稳定序列,但潜在的子最优控制器中,我们介绍了一种实现$ \ tilde {\ mathcal {o}} \ left的最佳动态遗憾的算法(v_t ^ { 2/5} t ^ {3/5} \右)$。通过分词恒定动态,我们的算法实现了$ \ tilde {\ mathcal {o}}(\ sqrt {st})$的最佳遗憾,其中$ s $是交换机的数量。我们的算法的关键是一种自适应的非平稳性检测策略,它在最近开发的用于上下文多武装匪徒问题的方法中构建。我们还争辩说,不适应忘记(例如,重新启动或使用静态窗口大小的滑动窗口学习)可能对LQR问题的后悔最佳,即使窗口大小以$ V_T $的知识最佳地调整。我们算法分析中的主要技术挑战是证明普通的最小二乘(OLS)估计器在待估计的参数是非静止的情况下具有小的偏差。我们的分析还突出了推动遗憾的关键主题是LQR问题在于LQR问题是具有线性反馈和局部二次成本的强盗问题。这个主题比LQR问题本身更普及,因此我们相信我们的结果应该找到更广泛的应用。
translated by 谷歌翻译
我们为线性上下文匪徒提出了一种新颖的算法(\ sqrt {dt \ log t})$遗憾,其中$ d $是上下文的尺寸,$ t $是时间范围。我们提出的算法配备了一种新型估计量,其中探索通过显式随机化嵌入。根据随机化的不同,我们提出的估计器从所有武器的上下文或选定的上下文中都取得了贡献。我们为我们的估计器建立了一个自称的绑定,这使累积遗憾的新颖分解为依赖添加剂的术语而不是乘法术语。在我们的问题设置下,我们还证明了$ \ omega(\ sqrt {dt})$的新颖下限。因此,我们提出的算法的遗憾与对数因素的下限相匹配。数值实验支持理论保证,并表明我们所提出的方法的表现优于现有的线性匪徒算法。
translated by 谷歌翻译
我们考虑具有未知实用程序参数的多项式logit模型(MNL)下的动态分类优化问题。本文研究的主要问题是$ \ varepsilon $ - 污染模型下的模型错误指定,该模型是强大统计和机器学习中的基本模型。特别是,在整个长度$ t $的销售范围内,我们假设客户根据$(1- \ varepsilon)$ - 时间段的$(1- \ varepsilon)的基础多项式logit选择模型进行购买,并进行任意购买取而代之的是在剩余的$ \ varepsilon $ - 分数中的决策。在此模型中,我们通过主动淘汰策略制定了新的强大在线分类优化政策。我们对遗憾建立上限和下界,并表明当分类能力恒定时,我们的政策是$ t $的最佳对数因素。分类能力具有恒定的上限。我们进一步制定了一种完全自适应策略,该政策不需要任何先验知识,即污染参数$ \ varepsilon $。如果存在最佳和亚最佳产品之间存在的亚临时差距,我们还建立了依赖差距的对数遗憾上限和已知的 - $ \ VAREPSILON $和UNKNOWER-$ \ \ VAREPSILON $案例。我们的仿真研究表明,我们的政策表现优于基于上置信度范围(UCB)和汤普森采样的现有政策。
translated by 谷歌翻译
获取一阶遗憾界限 - 遗憾的界限不是作为最坏情况,但有一些衡量给定实例的最佳政策的性能 - 是连续决策的核心问题。虽然这种界限存在于许多设置中,但它们在具有大状态空间的钢筋学习中被证明是难以捉摸的。在这项工作中,我们解决了这个差距,并表明可以将遗憾的缩放作为$ \ mathcal {o}(\ sqrt {v_1 ^ \ star})$中的钢筋学习,即用大状态空间,即线性MDP设置。这里$ v_1 ^ \ star $是最佳政策的价值,$ k $是剧集的数量。我们证明基于最小二乘估计的现有技术不足以获得该结果,而是基于强大的Catoni平均估计器制定一种新的稳健自归一化浓度,其可能具有独立兴趣。
translated by 谷歌翻译
我们研究了批量线性上下文匪徒的最佳批量遗憾权衡。对于任何批次数$ M $,操作次数$ k $,时间范围$ t $和维度$ d $,我们提供了一种算法,并证明了其遗憾的保证,这是由于技术原因,具有两阶段表达作为时间的时间$ t $ grose。我们还证明了一个令人奇迹的定理,令人惊讶地显示了在问题参数的“问题参数”中的两相遗憾(最高〜对数因子)的最优性,因此建立了确切的批量后悔权衡。与最近的工作\ citep {ruan2020linear}相比,这表明$ m = o(\ log \ log t)$批次实现无需批处理限制的渐近最佳遗憾的渐近最佳遗憾,我们的算法更简单,更易于实际实现。此外,我们的算法实现了所有$ t \ geq d $的最佳遗憾,而\ citep {ruan2020linear}要求$ t $大于$ d $的不切实际的大多项式。沿着我们的分析,我们还证明了一种新的矩阵集中不平等,依赖于他们的动态上限,这是我们的知识,这是其文学中的第一个和独立兴趣。
translated by 谷歌翻译
我们在存在对抗性腐败的情况下研究线性上下文的强盗问题,在场,每回合的奖励都被对手损坏,腐败级别(即,地平线上的腐败总数)为$ c \ geq 0 $。在这种情况下,最著名的算法受到限制,因为它们要么在计算效率低下,要么需要对腐败做出强烈的假设,或者他们的遗憾至少比没有腐败的遗憾差的$ C $倍。在本文中,为了克服这些局限性,我们提出了一种基于不确定性的乐观原则的新算法。我们算法的核心是加权山脊回归,每个选择动作的重量都取决于其置信度,直到一定的阈值。 We show that for both known $C$ and unknown $C$ cases, our algorithm with proper choice of hyperparameter achieves a regret that nearly matches the lower bounds.因此,我们的算法几乎是两种情况的对数因素的最佳选择。值得注意的是,我们的算法同时对腐败和未腐败的案件($ c = 0 $)实现了近乎最理想的遗憾。
translated by 谷歌翻译
我们考虑非平稳马尔可夫决策过程中的无模型增强学习(RL)。只要其累积变化不超过某些变化预算,奖励功能和国家过渡功能都可以随时间随时间变化。我们提出了重新启动的Q学习,以上置信度范围(RestartQ-UCB),这是第一个用于非平稳RL的无模型算法,并表明它在动态遗憾方面优于现有的解决方案。具体而言,带有freedman型奖励项的restartq-ucb实现了$ \ widetilde {o}(s^{\ frac {1} {3}} {\ frac {\ frac {1} {1} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {\ delta ^{\ frac {1} {3}} h t^{\ frac {2} {3}}} $,其中$ s $和$ a $分别是$ \ delta> 0 $的状态和动作的数字是变化预算,$ h $是每集的时间步数,而$ t $是时间步长的总数。我们进一步提出了一种名为Double-Restart Q-UCB的无参数算法,该算法不需要事先了解变化预算。我们证明我们的算法是\ emph {几乎是最佳},通过建立$ \ omega的信息理论下限(s^{\ frac {1} {1} {3}}} a^{\ frac {1} {1} {3}}}}}} \ delta^{\ frac {1} {3}} h^{\ frac {2} {3}}}} t^{\ frac {2} {3}}} $,是非稳态RL中的第一个下下限。数值实验可以根据累积奖励和计算效率来验证RISTARTQ-UCB的优势。我们在相关产品的多代理RL和库存控制的示例中证明了我们的结果的力量。
translated by 谷歌翻译
我们研究了具有线性函数近似增强学习中的随机最短路径(SSP)问题,其中过渡内核表示为未知模型的线性混合物。我们将此类别的SSP问题称为线性混合物SSP。我们提出了一种具有Hoeffding-type置信度的新型算法,用于学习线性混合物SSP,可以获得$ \ tilde {\ Mathcal {o}}}}(d B _ {\ star}^{1.5} \ sqrt {k/c_ {k/c_ {k/c_ {k/c_ { \ min}})$遗憾。这里$ k $是情节的数量,$ d $是混合模型中功能映射的维度,$ b _ {\ star} $限制了最佳策略的预期累积成本,$ c _ {\ min}>> 0 $是成本函数的下限。当$ c _ {\ min} = 0 $和$ \ tilde {\ mathcal {o}}}(k^{2/3})$遗憾时,我们的算法也适用于情况。据我们所知,这是第一个具有sublrinear遗憾保证线性混合物SSP的算法。此外,我们设计了精致的伯恩斯坦型信心集并提出了改进的算法,该算法可实现$ \ tilde {\ Mathcal {o}}}(d b _ {\ star} \ sqrt {k/c/c/c {k/c _ {\ min}}) $遗憾。为了补充遗憾的上限,我们还证明了$ \ omega(db _ {\ star} \ sqrt {k})$的下限。因此,我们的改进算法将下限匹配到$ 1/\ sqrt {c _ {\ min}} $ factor和poly-logarithmic因素,从而实现了近乎最佳的遗憾保证。
translated by 谷歌翻译
We study reinforcement learning (RL) with linear function approximation. For episodic time-inhomogeneous linear Markov decision processes (linear MDPs) whose transition dynamic can be parameterized as a linear function of a given feature mapping, we propose the first computationally efficient algorithm that achieves the nearly minimax optimal regret $\tilde O(d\sqrt{H^3K})$, where $d$ is the dimension of the feature mapping, $H$ is the planning horizon, and $K$ is the number of episodes. Our algorithm is based on a weighted linear regression scheme with a carefully designed weight, which depends on a new variance estimator that (1) directly estimates the variance of the \emph{optimal} value function, (2) monotonically decreases with respect to the number of episodes to ensure a better estimation accuracy, and (3) uses a rare-switching policy to update the value function estimator to control the complexity of the estimated value function class. Our work provides a complete answer to optimal RL with linear MDPs, and the developed algorithm and theoretical tools may be of independent interest.
translated by 谷歌翻译
汤普森采样(TS)是在不确定性下进行决策的有效方法,其中从精心规定的分布中采样了动作,该分布根据观察到的数据进行更新。在这项工作中,我们研究了使用TS的可稳定线性季度调节剂(LQR)自适应控制的问题,其中系统动力学是未知的。先前的作品已经确定,$ \ tilde o(\ sqrt {t})$频繁的遗憾对于LQR的自适应控制是最佳的。但是,现有方法要么仅在限制性设置中起作用,需要先验已知的稳定控制器,要么使用计算上棘手的方法。我们提出了一种有效的TS算法,用于对LQR的自适应控制,TS基于TS的自适应控制,TSAC,该算法达到了$ \ tilde o(\ sqrt {t})$遗憾,即使对于多维系统和Lazaric(2018)。 TSAC不需要先验已知的稳定控制器,并通过在早期阶段有效探索环境来实现基础系统的快速稳定。我们的结果取决于开发新颖的下限TS提供乐观样本的概率。通过仔细规定早期的探索策略和政策更新规则,我们表明TS在适应性控制多维可稳定性LQR方面实现了最佳的遗憾。我们从经验上证明了TSAC在几个自适应控制任务中的性能和效率。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
在本文中,我们考虑了MNL-Bandit问题的上下文变体。更具体地说,我们考虑了一个动态设置优化问题,决策者为消费者提供了一系列产品(各种产品),并在每回合中观察他们的响应。消费者购买产品以最大化其实用性。我们假设一组属性描述了产品,并且产品的平均效用在这些属性的值中是线性的。我们使用广泛使用的多项式logit(MNL)模型对消费者选择行为进行建模,并考虑动态学习模型参数的决策者问题,同时优化累计收入,超过销售范围$ t $。尽管最近这个问题引起了人们的关注,但许多现有方法通常涉及解决棘手的非凸优化问题。他们的理论绩效保证取决于问题依赖性参数,该参数可能非常大。特别是,此问题的现有算法对$ o(\ sqrt {\ kappa d t})$界后后悔,其中$ \ kappa $是问题依赖性常数,可以对属性的数量具有指数依赖性。在本文中,我们提出了一种乐观的算法,并表明遗憾是由$ o(\ sqrt {dt} + \ kappa)$界定的,从而大大提高了现有方法的性能。此外,我们提出了对优化步骤的放松,该步骤允许进行可牵引的决策,同时保留有利的遗憾保证。
translated by 谷歌翻译
随机通用的线性匪徒是针对顺序决策问题的一个很好理解的模型,许多算法在立即反馈下实现了近乎最佳的遗憾。但是,在许多现实世界中,立即观察奖励的要求不适用。在这种情况下,不再理解标准算法。我们通过在选择动作和获得奖励之间引入延迟,以理论方式研究延迟奖励的现象。随后,我们表明,基于乐观原则的算法通过消除对决策集和延迟的延迟分布和放松假设的需要,从而改善了本设置的现有方法。这也导致从$ \ widetilde o(\ sqrt {dt} \ sqrt {d + \ mathbb {e} [\ tau]})$改善遗憾保证。 ^{3/2} \ mathbb {e} [\ tau])$,其中$ \ mathbb {e} [\ tau] $表示预期的延迟,$ d $是尺寸,$ t $ t $ the Time Horizo​​n,我们我们抑制了对数术语。我们通过对模拟数据进行实验来验证我们的理论结果。
translated by 谷歌翻译