我们研究$ k $ used的上下文决斗强盗问题,一个顺序决策制定设置,其中学习者使用上下文信息来制作两个决定,但只观察到\ emph {基于优先级的反馈}建议一个决定比另一个决定更好。我们专注于可实现的遗憾最小化问题,其中反馈由一个由给定函数类$ \ mathcal f $规定的成对偏好矩阵生成。我们提供了一种新的算法,实现了最佳反应遗憾的新概念的最佳遗憾,这是一个严格更强烈的性能测量,而不是先前作品所考虑的绩效衡量标准。该算法还在计算上有效,在多项式时间中运行,假设访问在线丢失回归超过$ \ mathcal f $。这可以解决dud \'ik等人的开放问题。[2015]关于Oracle高效,后悔 - 用于上下文决斗匪徒的最佳算法。
translated by 谷歌翻译
我们考虑带有背包的土匪(从此以后,BWK),这是一种在供应/预算限制下的多臂土匪的通用模型。特别是,强盗算法需要解决一个众所周知的背包问题:找到最佳的物品包装到有限尺寸的背包中。 BWK问题是众多激励示例的普遍概括,范围从动态定价到重复拍卖,再到动态AD分配,再到网络路由和调度。尽管BWK的先前工作集中在随机版本上,但我们开创了可以在对手身上选择结果的另一个极端。与随机版本和“经典”对抗土匪相比,这是一个更加困难的问题,因为遗憾的最小化不再可行。相反,目的是最大程度地减少竞争比率:基准奖励与算法奖励的比率。我们设计了一种具有竞争比O(log t)的算法,相对于动作的最佳固定分布,其中T是时间范围;我们还证明了一个匹配的下限。关键的概念贡献是对问题的随机版本的新观点。我们为随机版本提出了一种新的算法,该算法是基于重复游戏中遗憾最小化的框架,并且与先前的工作相比,它具有更简单的分析。然后,我们为对抗版本分析此算法,并将其用作求解后者的子例程。
translated by 谷歌翻译
我们在非稳定性或时间变化偏好下,在$ k $的武器{动态遗憾最小化}中研究了\ mpph {动态遗憾最小化}。这是一个在线学习设置,其中代理在每个轮中选择一对项目,并仅观察该对的相对二进制`的次数“反馈,从该圆的底层偏好矩阵中采样。我们首先研究对抗性偏好序列的静态后悔最小化问题,并使用$ O(\ SQRT {kt})为高概率遗憾设计了高效的算法。我们接下来使用类似的算法思想,提出一种在非实践中的两种概念下的动态遗为最小化的高效且可透明的最佳算法。特别是,我们建立$ \ to(\ sqrt {skt})$和$ \ to({v_t ^ {1/3} k ^ {1/3} t ^ {2/3}})$动态后悔保证,$ S $是基础偏好关系中的“有效交换机”的总数,以及$ V_T $的衡量标准的“连续变化”非公平性。尽管现实世界系统中的非静止环境实用性,但在这项工作之前尚未研究这些问题的复杂性。我们通过证明在上述非实践概念下的符合下限保证匹配的匹配的算法来证明我们的算法的最优性。最后,我们通过广泛的模拟来证实我们的结果,并比较我们算法在最先进的基线上的功效。
translated by 谷歌翻译
在古典语境匪徒问题中,在每轮$ t $,学习者观察一些上下文$ c $,选择一些动作$ i $执行,并收到一些奖励$ r_ {i,t}(c)$。我们考虑此问题的变体除了接收奖励$ r_ {i,t}(c)$之外,学习者还要学习其他一些上下文$的$ r_ {i,t}(c')$的值C'$ in设置$ \ mathcal {o} _i(c)$;即,通过在不同的上下文下执行该行动来实现的奖励\ mathcal {o} _i(c)$。这种变体出现在若干战略设置中,例如学习如何在非真实的重复拍卖中出价,最热衷于随着许多平台转换为运行的第一价格拍卖。我们将此问题称为交叉学习的上下文匪徒问题。古典上下围匪徒问题的最佳算法达到$ \ tilde {o}(\ sqrt {ckt})$遗憾针对所有固定策略,其中$ c $是上下文的数量,$ k $的行动数量和$ $次数。我们设计并分析了交叉学习的上下文匪徒问题的新算法,并表明他们的遗憾更好地依赖上下文的数量。在选择动作时学习所有上下文的奖励的完整交叉学习下,即设置$ \ mathcal {o} _i(c)$包含所有上下文,我们显示我们的算法实现后悔$ \ tilde {o}( \ sqrt {kt})$,删除$ c $的依赖。对于任何其他情况,即在部分交叉学习下,$ | \ mathcal {o} _i(c)| <c $ for $(i,c)$,遗憾界限取决于如何设置$ \ mathcal o_i(c)$影响上下文之间的交叉学习的程度。我们从Ad Exchange运行一流拍卖的广告交换中模拟了我们的真实拍卖数据的算法,并表明了它们优于传统的上下文强盗算法。
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
设计有效的通用上下文盗版算法,这些算法与大型甚至连续的动作空间一起使用,将有助于应用于重要场景,例如信息检索,推荐系统和连续控制。尽管获得标准的遗憾保证可能是无望的,但已经提出了另一种遗憾的观念来解决大型行动。我们为上下文土匪提出了一个平稳的遗憾概念,该概念主导了先前提出的替代方案。我们在统计和计算高效的算法上设计了一种在标准监督的甲骨文中与一般功能近似作用的统计和高效算法。我们还提出了一种自适应算法,该算法会自动适应任何平滑度。我们的算法可用于在标准遗憾的情况下恢复以前的minimax/pareto最佳保证我们提出的算法。
translated by 谷歌翻译
我们考虑基于偏好的加强学习(PBRL)的问题,在那里,与传统的增强学习不同,代理仅根据轨迹对的1位(0/1)偏好而不是对它们的绝对奖励来接收反馈。传统的RL框架的成功至关重要,依赖于潜在的代理 - 奖励模型,但是,这取决于系统设计者可以表达适当的奖励功能以及通常是非微不足道的任务。我们框架的主要新颖性是能够从基于偏好的轨迹反馈中学习,这消除了手工艺数字奖励模型的需要。本文为非马车奖励提供了一个正式的框架,其中轨道偏好是由尺寸为$ d $的广义线性模型编码。假设过渡模型是已知的,我们提出了一种算法,几乎最佳的$ \ tilde {\ mathcal {o}} \ left(sh d \ log(t / \ delta)\ sqrt {t} \右)$ 。进一步,将上述算法扩展到未知的转换动态的情况,并提供近最优遗憾的算法保证$ \ widetilde {\ mathcal {o}}((\ sqrt {d} + h ^ 2 + | \ mathcal { s} |)\ sqrt {dt} + \ sqrt {| \ mathcal {s} || \ mathcal {a} | th})$。据我们所知,我们的作品是第一个遗憾的遗忘遗嘱的首选RL问题之一,轨迹偏好。
translated by 谷歌翻译
We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $\Omega(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.
translated by 谷歌翻译
富达匪徒问题是$ k $的武器问题的变体,其中每个臂的奖励通过提供额外收益的富达奖励来增强,这取决于播放器如何对该臂进行“忠诚”在过去。我们提出了两种忠诚的模型。在忠诚点模型中,额外奖励的数量取决于手臂之前播放的次数。在订阅模型中,额外的奖励取决于手臂的连续绘制的当前数量。我们考虑随机和对抗问题。由于单臂策略在随机问题中并不总是最佳,因此对抗性环境中遗憾的概念需要仔细调整。我们介绍了三个可能的遗憾和调查,这可以是偏执的偏执。我们详细介绍了增加,减少和优惠券的特殊情况(玩家在手臂的每辆M $播放后获得额外的奖励)保真奖励。对于不一定享受载体遗憾的模型,我们提供了最糟糕的下限。对于那些展示Sublinear遗憾的模型,我们提供算法并绑定他们的遗憾。
translated by 谷歌翻译
本文以非线性功能近似研究基于模型的匪徒和增强学​​习(RL)。我们建议研究与近似局部最大值的收敛性,因为我们表明,即使对于具有确定性奖励的一层神经网络匪徒,全球收敛在统计上也很棘手。对于非线性匪徒和RL,本文介绍了一种基于模型的算法,即具有在线模型学习者(小提琴)的虚拟攀登,该算法可证明其收敛到局部最大值,其样品复杂性仅取决于模型类的顺序Rademacher复杂性。我们的结果意味着在几种具体设置(例如有限或稀疏模型类别的线性匪徒)和两层神经净匪内的新型全球或本地遗憾界限。一个关键的算法洞察力是,即使对于两层神经净模型类别,乐观也可能导致过度探索。另一方面,为了收敛到本地最大值,如果模型还可以合理地预测真实返回的梯度和Hessian的大小,则足以最大化虚拟返回。
translated by 谷歌翻译
模仿学习(IL)是解决顺序决策问题的一般学习范式。互动模仿学习,学习者可以在其中与专家示范的互动查询,与其离线同行或强化学习相比,已证明可以实现可证明的卓越样本效率保证。在这项工作中,我们研究了基于分类的在线模仿学习(abbrev。$ \ textbf {coil} $),以及在这种情况下设计Oracle有效的遗憾最小化算法的基本可行性,重点是一般的不可思议的情况。我们做出以下贡献:(1)我们表明,在$ \ textbf {coil} $问题中,任何适当的在线学习算法都不能保证总体上遗憾的是; (2)我们提出了$ \ textbf {logger} $,一种不当的在线学习算法框架,通过利用混合策略类的新定义,将$ \ textbf {coil} $降低到在线线性优化; (3)我们在$ \ textbf {logger} $框架中设计了两种Oracle效率算法,它们享受不同的样本和互动的复杂性权衡,并进行有限样本分析以显示其对幼稚行为克隆的改进; (4)我们表明,在标准复杂性理论假设下,在$ \ textbf {logger} $框架中,有效的动态遗憾最小化是不可行的。我们的工作将基于分类的在线模仿学习(一个重要的IL设置)置于更牢固的基础上。
translated by 谷歌翻译
我们在嵌套政策类别的存在下研究匪徒场景中的模型选择问题,目的是获得同时的对抗和随机性(“两全其美”)高概率的遗憾保证。我们的方法要求每个基础学习者都有一个候选人的遗憾约束,可能会或可能不会举行,而我们的元算法按照一定时间表来扮演每个基础学习者,该时间表使基础学习者的候选人后悔的界限保持平衡,直到被发现违反他们的保证为止。我们开发了专门设计的仔细的错误指定测试,以将上述模型选择标准与利用环境的(潜在良性)性质的能力相结合。我们在对抗环境中恢复畜栏算法的模型选择保证,但是在实现高概率后悔界限的附加益处,特别是在嵌套对抗性线性斑块的情况下。更重要的是,我们的模型选择结果也同时在差距假设​​下的随机环境中同时保持。这些是在(线性)匪徒场景中执行模型选择时,可以达到世界上最好的(随机和对抗性)保证的第一个理论结果。
translated by 谷歌翻译
顺序决策中的一个核心问题是开发实用且计算上有效的算法,但支持灵活的通用模型的使用。关注上下文匪徒问题,最近的进度在可能的替代品数量(“动作”)很小时提供了可证明的有效算法,并具有很强的经验性能,但是在大型,连续的行动空间中进行决策的保证仍然难以捉摸,导致了重要的重要性理论与实践之间的差距。我们介绍了具有连续线性结构化作用空间的上下文匪徒的第一个有效的通用算法。我们的算法利用了(i)监督学习的计算序列,以及(ii)在动作空间上进行优化,并实现样本复杂性,运行时和内存,独立于动作空间的大小。此外,这是简单而实用的。我们进行大规模的经验评估,并表明我们的方法通常比标准基准相比具有较高的性能和效率。
translated by 谷歌翻译
我们考虑激励探索:一种多臂匪徒的版本,其中武器的选择由自私者控制,而算法只能发布建议。该算法控制信息流,信息不对称可以激励代理探索。先前的工作达到了最佳的遗憾率,直到乘法因素,这些因素根据贝叶斯先验而变得很大,并在武器数量上成倍规模扩展。采样每只手臂的一个更基本的问题一旦遇到了类似的因素。我们专注于激励措施的价格:出于激励兼容的目的,绩效的损失,广泛解释为。我们证明,如果用足够多的数据点初始化,则标准的匪徒汤普森采样是激励兼容的。因此,当收集这些数据点时,由于激励措施的绩效损失仅限于初始回合。这个问题主要降低到样本复杂性的问题:需要多少个回合?我们解决了这个问题,提供了匹配的上限和下限,并在各种推论中实例化。通常,最佳样品复杂性在“信念强度”中的武器数量和指数中是多项式。
translated by 谷歌翻译
我们研究Stackelberg游戏,其中一位校长反复与长寿,非洋流代理商进行互动,而不知道代理商的回报功能。尽管当代理商是近视,非侧心代理会带来额外的并发症时,在Stackelberg游戏中的学习是充分理解的。尤其是,非洋流代理可以从战略上选择当前劣等的行动,以误导校长的学习算法并在未来获得更好的结果。我们提供了一个通用框架,该框架可在存在近视剂的情况下降低非洋白酶的学习来优化强大的匪徒。通过设计和分析微型反应性匪徒算法,我们的还原从校长学习算法的统计效率中进行了差异,以与其在诱导接近最佳的响应中的有效性。我们将此框架应用于Stackelberg Security Games(SSG),需求曲线,战略分类和一般有限的Stackelberg游戏的价格。在每种情况下,我们都表征了近最佳响应中存在的错误的类型和影响,并为此类拼写错误开发了一种鲁棒性的学习算法。在此过程中,我们通过最先进的$ O(n^3)$从SSGS中提高了SSG中的学习复杂性,从通过发现此类游戏的基本结构属性。该结果除了对非洋流药物学习之外,还具有独立的兴趣。
translated by 谷歌翻译
我们考虑了上下文匪徒的问题,其中Action是一个地面集的子集,均值奖励由属于$ \ Mathcal {F} $的未知单调子模块函数建模。我们允许将时变的Matroid约束放置在可行的集合上。假设使用后悔$ \ mathsf {reg}(\ mathcal {f})$访问Oracle,我们的算法根据逆间隙加权策略有效地随机随机化估计函数的局部最佳函数。我们展示了这种过程的累积遗憾了时间,以时间为单位$ N $尺度作为$ o(\ sqrt {n \ mathsf {reg}(\ mathcal {f})),乘以乘法因子$ 1/2 $的基准。另一方面,使用(filmus和ward 2014)的技术,我们展示了与当地随机化的$ \ epsilon $ -greedy程序率为$ o(n ^ {2/3} \ mathsf {reg}(\mathcal {f})^ {1/3})$较强大的$(1-e ^ { - 1})$基准。
translated by 谷歌翻译
我们考虑随机多武装强盗(MAB)问题,延迟影响了行动。在我们的环境中,过去采取的行动在随后的未来影响了ARM奖励。在现实世界中,行动的这种延迟影响是普遍的。例如,为某个社会群体中的人员偿还贷款的能力可能历史上历史上批准贷款申请的频率频率。如果银行将贷款申请拒绝拒绝弱势群体,则可以创建反馈循环,进一步损害该群体中获取贷款的机会。在本文中,我们制定了在多武装匪徒的背景下的行动延迟和长期影响。由于在学习期间,我们将强盗设置概括为对这种“偏置”的依赖性进行编码。目标是随着时间的推移最大化收集的公用事业,同时考虑到历史行动延迟影响所产生的动态。我们提出了一种算法,实现了$ \ tilde {\ mathcal {o}}的遗憾,并显示$ \ omega(kt ^ {2/3})$的匹配遗憾下限,其中$ k $是武器数量,$ t $是学习地平线。我们的结果通过添加技术来补充强盗文献,以处理具有长期影响的行动,并对设计公平算法有影响。
translated by 谷歌翻译
我们通过审查反馈重复进行一定的第一价格拍卖来研究在线学习,在每次拍卖结束时,出价者只观察获胜的出价,学会了适应性地出价,以最大程度地提高她的累积回报。为了实现这一目标,投标人面临着一个具有挑战性的困境:如果她赢得了竞标 - 获得正收益的唯一方法 - 然后她无法观察其他竞标者的最高竞标,我们认为我们认为这是从中汲取的。一个未知的分布。尽管这一困境让人联想到上下文强盗中的探索探索折衷权,但现有的UCB或汤普森采样算法无法直接解决。在本文中,通过利用第一价格拍卖的结构属性,我们开发了第一个实现$ o(\ sqrt {t} \ log^{2.5} t)$ hearry bund的第一个学习算法(\ sqrt {t} \ log^{2.5} t),这是最小值的最低$ $ \ log $因素,当投标人的私人价值随机生成时。我们这样做是通过在一系列问题上提供算法,称为部分有序的上下文匪徒,该算法将图形反馈跨动作,跨环境跨上下文进行结合,以及在上下文中的部分顺序。我们通过表现出一个奇怪的分离来确定该框架的优势和劣势,即在随机环境下几乎可以独立于动作/背景规模的遗憾,但是在对抗性环境下是不可能的。尽管这一通用框架有限制,但我们进一步利用了第一价格拍卖的结构,并开发了一种学习算法,该算法在存在对手生成的私有价值的情况下,在存在的情况下可以有效地运行样本(并有效地计算)。我们建立了一个$ o(\ sqrt {t} \ log^3 t)$遗憾,以此为此算法,因此提供了对第一价格拍卖的最佳学习保证的完整表征。
translated by 谷歌翻译
我们研究了批量线性上下文匪徒的最佳批量遗憾权衡。对于任何批次数$ M $,操作次数$ k $,时间范围$ t $和维度$ d $,我们提供了一种算法,并证明了其遗憾的保证,这是由于技术原因,具有两阶段表达作为时间的时间$ t $ grose。我们还证明了一个令人奇迹的定理,令人惊讶地显示了在问题参数的“问题参数”中的两相遗憾(最高〜对数因子)的最优性,因此建立了确切的批量后悔权衡。与最近的工作\ citep {ruan2020linear}相比,这表明$ m = o(\ log \ log t)$批次实现无需批处理限制的渐近最佳遗憾的渐近最佳遗憾,我们的算法更简单,更易于实际实现。此外,我们的算法实现了所有$ t \ geq d $的最佳遗憾,而\ citep {ruan2020linear}要求$ t $大于$ d $的不切实际的大多项式。沿着我们的分析,我们还证明了一种新的矩阵集中不平等,依赖于他们的动态上限,这是我们的知识,这是其文学中的第一个和独立兴趣。
translated by 谷歌翻译
由于信息不对称,多智能经纪增强学习(Marl)问题是挑战。为了克服这一挑战,现有方法通常需要代理商之间的高度协调或沟通。我们考虑具有在应用中产生的分层信息结构的两个代理多武装匪徒(MAB)和MARKOV决策过程(MDP),我们利用不需要协调或通信的更简单和更高效的算法。在结构中,在每个步骤中,“领导者”首先选择她的行动,然后“追随者”在观察领导者的行动后,“追随者”决定他的行动。这两个代理观察了相同的奖励(以及MDP设置中的相同状态转换),这取决于其联合行动。对于强盗设置,我们提出了一种分层匪盗算法,实现了$ \ widetilde {\ mathcal {o}}(\ sqrt {abt})$和近最佳差距依赖的近乎最佳的差距遗憾$ \ mathcal {o}(\ log(t))$,其中$ a $和$ b $分别是领导者和追随者的行动数,$ t $是步数。我们进一步延伸到多个追随者的情况,并且具有深层层次结构的情况,在那里我们都获得了近乎最佳的遗憾范围。对于MDP设置,我们获得$ \ widetilde {\ mathcal {o}}(\ sqrt {h ^ 7s ^ 2abt})$后悔,其中$ h $是每集的步骤数,$ s $是数量各国,$ T $是剧集的数量。这与$ a,b $和$ t $的现有下限匹配。
translated by 谷歌翻译