智能论文笔记

Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization

Peng Zhao , Yu-Jie Zhang , Lijun Zhang , Zhi-Hua Zhou

分类：机器学习

2021-12-29

我们在非静止环境中调查在线凸优化，然后选择\ emph {动态后悔}作为性能测量，定义为在线算法产生的累积损失与任何可行比较器序列之间的差异。让$ t $是$ p_t $ be的路径长度，基本上反映了环境的非平稳性，最先进的动态遗憾是$ \ mathcal {o}（\ sqrt {t（ 1 + p_t）}）$。虽然这一界限被证明是凸函数最佳的最低限度，但在本文中，我们证明可以进一步提高一些简单的问题实例的保证，特别是当在线功能平滑时。具体而言，我们提出了新的在线算法，可以利用平滑度并替换动态遗憾的$ t $替换依据\ {问题依赖性}数量：损耗函数梯度的变化，比较器序列的累积损失，以及比较器序列的累积损失最低术语的最低限度。这些数量是大多数$ \ mathcal {o}（t）$，良性环境中可能更小。因此，我们的结果适应了问题的内在难度，因为边界比现有结果更严格，以便在最坏的情况下保证相同的速率。值得注意的是，我们的算法只需要\ emph {一个}渐变，这与开发的方法共享相同的渐变查询复杂性，以优化静态遗憾。作为进一步的应用，我们将来自全信息设置的结果扩展到具有两点反馈的强盗凸优化，从而达到此类强盗任务的第一个相关的动态遗憾。

translated by 谷歌翻译

Dynamic Regret of Online Markov Decision Processes

Peng Zhao , Long-Fei Li , Zhi-Hua Zhou

分类：机器学习 | (统计)机器学习

2022-08-26

我们研究了在线马尔可夫决策过程（MDP），具有对抗性变化的损失功能和已知过渡。我们选择动态遗憾作为绩效度量，定义为学习者和任何可行的变化策略序列之间的绩效差异。这项措施严格比标准的静态遗憾要强得多，该标准遗憾的是，基准通过固定的政策将学习者的绩效表现为学习者的表现。我们考虑了三种在线MDP的基础模型，包括无情节循环随机路径（SSP），情节SSP和Infinite-Horizon MDP。对于这三个模型，我们提出了新颖的在线集合算法并分别建立了动态遗憾保证，在这种情况下，情节性（无环）SSP的结果在时间范围和某些非平稳性度量方面是最佳的最低限度。此外，当学习者遇到的在线环境是可以预测的时，我们设计了改进的算法并为情节（无环）SSP实现更好的动态遗憾界限；此外，我们证明了无限 - 摩恩MDP的不可能结果。

translated by 谷歌翻译

HTML版本

Adapting to Online Label Shift with Provable Guarantees

Yong Bai , Yu-Jie Zhang , Peng Zhao , Masashi Sugiyama , Zhi-Hua Zhou

分类：机器学习 | (统计)机器学习

2022-07-05

当培训数据共享与即将到来的测试样本相同的分布时，标准监督学习范式有效地工作。但是，在现实世界中，通常会违反此假设，尤其是在以在线方式出现测试数据时。在本文中，我们制定和调查了在线标签转移（OLAS）的问题：学习者从标记的离线数据训练初始模型，然后将其部署到未标记的在线环境中，而基础标签分布会随着时间的推移而变化，但标签 - 条件密度没有。非平稳性和缺乏监督使问题具有挑战性。为了解决难度，我们构建了一个新的无偏风险估计器，该风险估计器利用了未标记的数据，该数据表现出许多良性特性，尽管具有潜在的非跨性别性。在此基础上，我们提出了新颖的在线合奏算法来应对环境的非平稳性。我们的方法享有最佳的动态遗憾，表明该性能与千里眼的千里眼竞争，后者是事后看来的在线环境，然后选择每轮的最佳决定。获得的动态遗憾结合量表与标签分布转移的强度和模式，因此在OLAS问题中表现出适应性。进行广泛的实验以验证有效性和支持我们的理论发现。

translated by 谷歌翻译

Efficient Online Learning with Memory via Frank-Wolfe Optimization: Algorithms with Bounded Dynamic Regret and Applications to Control

Hongyu Zhou , Zirui Xu , Vasileios Tzoumas

分类：机器学习

2023-01-02

Projection operations are a typical computation bottleneck in online learning. In this paper, we enable projection-free online learning within the framework of Online Convex Optimization with Memory (OCO-M) -- OCO-M captures how the history of decisions affects the current outcome by allowing the online learning loss functions to depend on both current and past decisions. Particularly, we introduce the first projection-free meta-base learning algorithm with memory that minimizes dynamic regret, i.e., that minimizes the suboptimality against any sequence of time-varying decisions. We are motivated by artificial intelligence applications where autonomous agents need to adapt to time-varying environments in real-time, accounting for how past decisions affect the present. Examples of such applications are: online control of dynamical systems; statistical arbitrage; and time series prediction. The algorithm builds on the Online Frank-Wolfe (OFW) and Hedge algorithms. We demonstrate how our algorithm can be applied to the online control of linear time-varying systems in the presence of unpredictable process noise. To this end, we develop the first controller with memory and bounded dynamic regret against any optimal time-varying linear feedback control policy. We validate our algorithm in simulated scenarios of online control of linear time-invariant systems.

translated by 谷歌翻译

A Simple Approach for Non-stationary Linear Bandits

Peng Zhao , Lijun Zhang , Yuan Jiang , Zhi-Hua Zhou

分类：机器学习

2021-03-09

本文调查了非静止线性匪徒的问题，其中未知的回归参数随着时间的推移而发展。现有的研究开发了各种算法并显示他们享受$ \ widetilde {\ mathcal {p_t ^ {1/3}）$动态遗憾，其中$ t $是时间范围和$ p_t $是测量演化未知参数的波动的路径长度。在本文中，我们发现一个严肃的技术缺陷使其结果未接地，然后呈现一个FIX，它给出$ \ WidTilde {\ Mathcal {o}}（t ^ {3/4} p_t ^ {1/4} ）$动态遗憾而不修改原始算法。此外，我们证明了代替使用复杂的机制，例如滑动窗口或加权罚款，简单的重启策略足以实现相同的遗憾保证。具体而言，我们设计了UCB型算法来平衡利用和探索，并定期重新启动它以处理未知参数的漂移。我们的方法享有$ \ widetilde {\ mathcal {o}}（t ^ {3/4} p_t ^ {1/4}）$动态遗憾。请注意，为了实现这一界限，该算法需要Oracle知识路径长度$ P_T $。将强盗带式机制组合通过将我们的算法视为基础学习者，我们可以通过无参数方式实现相同的遗憾。实证研究还验证了我们方法的有效性。

translated by 谷歌翻译

Online Bilevel Optimization: Regret Analysis of Online Alternating Gradient Methods

Davoud Ataee Tarzanagh , Laura Balzano

分类：机器学习

2022-07-06

在线优化是一个完善的优化范式，旨在鉴于对以前的决策任务的正确答案，旨在做出一系列正确的决策。二重编程涉及一个分层优化问题，其中所谓的外部问题的可行区域受内部问题的解决方案集映射的限制。本文将这两个想法汇总在一起，并研究了在线双层优化设置，其中一系列随时间变化的二聚体问题又一个接一个地揭示了一个。我们将已知的单层在线算法的已知遗憾界限扩展到双重设置。具体而言，我们引入了新的杂种遗憾概念，开发了一种在线交替的时间平均梯度方法，该方法能够利用光滑度，并根据内部和外部极型序列的长度提供遗憾的界限。

translated by 谷歌翻译

Dynamic Regret of Adaptive Gradient Methods for Strongly Convex Problems

Parvin Nazari , Esmaile Khorram

分类：机器学习

2022-09-04

自适应梯度算法（例如Adagrad及其变体）在培训深神经网络方面已广受欢迎。尽管许多适合自适应方法的工作都集中在静态的遗憾上，作为实现良好遗憾保证的性能指标，但对这些方法的动态遗憾分析尚不清楚。与静态的遗憾相反，动态遗憾被认为是绩效测量的更强大的概念，因为它明确阐明了环境的非平稳性。在本文中，我们通过动态遗憾的概念在一个强大的凸面设置中浏览了Adagrad（称为M-Adagrad）的一种变体，该遗憾衡量了在线学习者的性能，而不是参考（最佳）解决方案，这可能会改变时间。我们证明了根据最小化序列的路径长度的束缚，该序列基本上反映了环境的非平稳性。此外，我们通过利用每个回合中学习者的多个访问权限来增强动态遗憾。经验结果表明，M-Adagrad在实践中也很好。

translated by 谷歌翻译

Relaxing the I.I.D. Assumption: Adaptively Minimax Optimal Regret via Root-Entropic Regularization

Blair Bilodeau , Jeffrey Negrea , Daniel M. Roy

分类： (统计)机器学习 | 机器学习

2020-07-13

当在未知约束集中任意变化的分布中生成数据时，我们会考虑使用专家建议的预测。这种半反向的设置包括（在极端）经典的I.I.D.设置时，当未知约束集限制为单身人士时，当约束集是所有分布的集合时，不受约束的对抗设置。对冲状态中，对冲算法（长期以来已知是最佳的最佳速率（速率））最近被证明是对I.I.D.的最佳最小值。数据。在这项工作中，我们建议放松I.I.D.通过在约束集的所有自然顺序上寻求适应性来假设。我们在各个级别的Minimax遗憾中提供匹配的上限和下限，表明确定性学习率的对冲在极端之外是次优的，并证明人们可以在各个级别的各个层面上都能适应Minimax的遗憾。我们使用以下规范化领导者（FTRL）框架实现了这种最佳适应性，并采用了一种新型的自适应正则化方案，该方案隐含地缩放为当前预测分布的熵的平方根，而不是初始预测分布的熵。最后，我们提供了新的技术工具来研究FTRL沿半逆转频谱的统计性能。

translated by 谷歌翻译

Between Stochastic and Adversarial Online Convex Optimization: Improved Regret Bounds via Smoothness

Sarah Sachs , Hédi Hadiji , Tim van Erven , Cristóbal Guzmán

分类：机器学习 | (统计)机器学习

2022-02-15

在线学习中，随机数据和对抗性数据是两个广泛研究的设置。但是许多优化任务都不是I.I.D.也不完全对抗，这使得对这些极端之间的世界有更好的理论理解具有根本的利益。在这项工作中，我们在在随机I.I.D.之间插值的环境中建立了在线凸优化的新颖遗憾界限。和完全的对抗损失。通过利用预期损失的平滑度，这些边界用梯度的方差取代对最大梯度长度的依赖，这是以前仅以线性损失而闻名的。此外，它们削弱了I.I.D.假设通过允许对抗中毒的回合，以前在专家和强盗设置中考虑过。我们的结果将其扩展到在线凸优化框架。在完全I.I.D.中情况，我们的界限与随机加速的结果相匹配，并且在完全对抗的情况下，它们优雅地恶化以符合Minimax的遗憾。我们进一步提供了下限，表明所有中级方案的遗憾上限都很紧张，从随机方差和损失梯度的对抗变异方面。

translated by 谷歌翻译

No-Regret Dynamics in the Fenchel Game: A Unified Framework for Algorithmic Convex Optimization

Jun-Kun Wang , Jacob Abernethy , Kfir Y. Levy

分类：机器学习

2021-11-22

我们开发了一种使用无遗憾的游戏动态解决凸面优化问题的算法框架。通过转换最小化凸起函数以顺序方式解决Min-Max游戏的辅助问题的问题，我们可以考虑一系列必须在另一个之后选择其行动的两名员工的一系列策略。这些策略的常见选择是所谓的无悔的学习算法，我们描述了许多此类并证明了遗憾。然后，我们表明许多凸面优化的经典一阶方法 - 包括平均迭代梯度下降，弗兰克 - 沃尔夫算法，重球算法和Nesterov的加速方法 - 可以被解释为我们框架的特殊情况由于每个玩家都做出正确选择无悔的策略。证明该框架中的收敛速率变得非常简单，因为它们遵循适当已知的遗憾范围。我们的框架还引发了一些凸优化的特殊情况的许多新的一阶方法。

translated by 谷歌翻译

Parameter-free Mirror Descent

Andrew Jacobsen , Ashok Cutkosky

分类：机器学习 | (统计)机器学习

2022-02-26

我们开发了一个修改的在线镜下降框架，该框架适用于在无界域中构建自适应和无参数的算法。我们利用这项技术来开发第一个不受限制的在线线性优化算法，从而达到了最佳的动态遗憾，我们进一步证明，基于以下规范化领导者的自然策略无法取得相似的结果。我们还将镜像下降框架应用于构建新的无参数隐式更新，以及简化和改进的无限规模算法。

translated by 谷歌翻译

Distributed Online Non-convex Optimization with Composite Regret

Zhanhong Jiang , Aditya Balu , Xian Yeow Lee , Young M. Lee , Chinmay Hegde , Soumik Sarkar

分类：机器学习 | (统计)机器学习

2022-09-21

遗憾已被广泛用作评估分布式多代理系统在线优化算法的性能的首选指标。但是，与代理相关的数据/模型变化可以显着影响决策，并需要在代理之间达成共识。此外，大多数现有的作品都集中在开发（强烈或非严格地）凸出的方法上，对于一般非凸损失的分布式在线优化中的遗憾界限，几乎没有得到很少的结果。为了解决这两个问题，我们提出了一种新型的综合遗憾，并使用新的基于网络的基于遗憾的度量标准来评估分布式在线优化算法。我们具体地定义了复合遗憾的静态和动态形式。通过利用我们的综合遗憾的动态形式，我们开发了一种基于共识的在线归一化梯度（CONGD）的伪convex损失方法，事实证明，它显示了与最佳器路径变化的规律性术语有关的透明性行为。对于一般的非凸损失，我们首先阐明了基于最近进步的分布式在线非凸学习的遗憾，因此没有确定性算法可以实现sublinear的遗憾。然后，我们根据离线优化的Oracle开发了分布式的在线非凸优化（Dinoco），而无需进入梯度。迪诺科（Dinoco）被证明是统一的遗憾。据我们所知，这是对一般分布在线非convex学习的第一个遗憾。

translated by 谷歌翻译

Projection-free Distributed Online Learning with Sublinear Communication Complexity

Yuanyu Wan , Guanghui Wang , Wei-Wei Tu , Lijun Zhang

分类：机器学习 | (统计)机器学习

2021-03-20

为了通过分布式在线学习中的本地光计算处理复杂的约束，最近的一项研究提出了一种称为分布式在线条件梯度（D-OCG）的无投影算法（D-OCG），并获得了$ O（T^{3/4}）$遗憾的是凸出损失，其中$ t $是总回合的数量。但是，它需要$ t $通信回合，并且不能利用强大的损失凸度。在本文中，我们提出了一个改进的D-OCG的变体，即D-BOCG，可以达到相同的$ O（t^{3/4}）$遗憾，只有$ o（\ sqrt {t}）$凸损失的通信回合，以及$ o（t^{2/3}（\ log t）^{1/3}）$的更好遗憾，少于$ o（t^{1/3}（\ log log） t）^{2/3}）$通信回合，以实现强烈凸出的损失。关键思想是采用延迟的更新机制，以降低通信复杂性，并重新定义D-OCG中的替代损失功能以利用强凸度。此外，我们提供了下限，以证明D-BOCG所需的$ O（\ sqrt {t}）$通信回合是最佳的（以$ t $为单位）实现$ O（T^{3/4} ）$遗憾带有凸损失，以及$ o（t^{1/3}（\ log t）^{2/3}）$ d-bocg所需的通信回合近距离）实现$ o（t^{2/3}（\ log t）^{1/3}）$遗憾的是，强烈凸出的损失归属于多凝集因子。最后，为了处理更具挑战性的强盗设置，其中只有损失值可用，我们将经典的单点梯度估计器纳入D-BOCG，并获得类似的理论保证。

translated by 谷歌翻译

Isotuning With Applications To Scale-Free Online Learning

Laurent Orseau , Marcus Hutter

分类：机器学习 | 人工智能

2021-12-29

我们扩展并结合了一些文献的工具，以设计快速，自适应，随时和无规模的在线学习算法。无尺寸的遗憾界限必须以最大损失线性缩放，既朝向大损失，缺乏较小亏损。自适应遗憾界限表明，算法可以利用易于数据，并且可能具有恒定的遗憾。我们寻求开发快速算法，依赖于尽可能少的参数，特别是它们应该是随时随地的，因此不依赖于时间范围。我们的第一和主要工具，IsoTuning是平衡遗憾权衡的想法的概括。我们开发了一套工具来轻松设计和分析这些学习率，并表明它们自动适应遗憾（无论是常量，$ O（\ log t）$，$ o（\ sqrt {t}）$，在Hindsight的最佳学习率的因子2中，对于相同的观察量的因子2中。第二种工具是在线校正，其允许我们获得许多算法的中心界限，以防止当域太大或仅部分约束时遗憾地被空隙。最后一个工具null更新，防止算法执行过多的更大的更新，这可能导致无限的后悔，甚至无效更新。我们使用这些工具开发一般理论并将其应用于几种标准算法。特别是，我们（几乎完全）恢复对无限域的FTRL的小损失的适应性，设计和证明无镜面下降的无缝的自适应保证（至少当Bregman发散在其第二个参数中凸出），延伸Adapt-ML-PROSIA令无规模的保证，并为Prod，Adahedge，Boa和软贝内斯提供了其他几个小贡献。

translated by 谷歌翻译

Online Learning via Offline Greedy Algorithms: Applications in Market Design and Optimization

Rad Niazadeh , Negin Golrezaei , Joshua Wang , Fransisca Susan , Ashwinkumar Badanidiyuru

分类：机器学习 | (统计)机器学习

2021-02-18

在随着时间变化的组合环境中的在线决策激励，我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题，我们提供了一个通用框架，该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明，在完整信息设置下，由此产生的在线算法具有$ O（\ sqrt {t}）$（近似）遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展，我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪（t^{2/3}）$（近似）$（近似）的遗憾。展示了我们框架的灵活性，我们将脱机之间的转换应用于收入管理，市场设计和在线优化的几个问题，包括在线平台中的产品排名优化，拍卖中的储备价格优化以及supperular tossodular最大化。。我们还将还原扩展到连续优化的类似贪婪的一阶方法，例如用于最大化连续强的DR单调下调功能，这些功能受到凸约束的约束。我们表明，当应用于这些应用程序时，我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究，在这两种应用中，我们都观察到，转换的数值性能在实际情况下优于理论保证。

translated by 谷歌翻译

Impossible Tuning Made Possible: A New Expert Algorithm and Its Applications

Liyu Chen , Haipeng Luo , Chen-Yu Wei

分类：机器学习

2021-02-01

我们解决了经典专家问题的长期“不可能的调整”问题，并表明，实际上可能实现后悔$ o \ lex（\ sqrt {（\ ln d）\ sum_t \ ell_ {t，i} ^ 2} \ \右）同时为所有专家$ i $ t-$-t-$ -round $ d $ -expert问题在哪里$ \ ell_ {t，i} $是专家$ i $的损失$ t $ 。我们的算法基于镜像血迹框架，具有校正项和加权熵规范器。虽然自然，但之前尚未研究该算法，并且需要仔细分析。对于任何预测向量$ M_T，我们还概括了refton to $ o reft（\ sqrt {（\ ln d）\ sum_t（\ ell_ {t，i}）^ 2} \右）$ $ Cylayer通过选择不同的$ M_T $来收到学习者，并恢复或改善许多现有结果。此外，我们使用相同的框架来创建一个组合一组基础算法的主算法，并学习最好的一个开销。我们的主人的新保证使我们能够为专家问题提供许多新的结果，并且更广泛的在线线性优化。

translated by 谷歌翻译

Dynamic Regret for Strongly Adaptive Methods and Optimality of Online KRR

Dheeraj Baby , Hilaf Hasson , Yuyang Wang

分类：机器学习 | (统计)机器学习

2021-11-22

我们考虑非静止在线凸优化的框架，其中学习者寻求控制其动态遗憾，免于任意比较器序列。当损耗函数强烈凸或exy-yshave时，我们证明了强烈的自适应（SA）算法可以被视为在比较器序列的路径变化$ V_T $的路径变化中控制动态遗憾的原则方式。具体来说，我们展示了SA算法享受$ \ tilde o（\ sqrt {tv_t} \ vee \ log t）$和$ \ tilde o（\ sqrt {dtv_t} \ vee d \ log t）$动态遗憾强烈凸Exp-Trowave损失分别没有APRIORI $ v_t $。本发明进一步展示了原理方法的多功能性，在与高斯内核的界限线性预测器和在线回归的环境中进一步证明了原则方法。在一个相关的环境下，纸张的第二个组件解决了Zhdanov和Kalnishkan（2010）提出的一个开放问题，涉及与平方误差损失的在线内核回归。我们在一定处罚后悔的新下限，该遗憾地建立了在线内核Ridge回归（KRR）的近极低最低限度。我们的下限可以被视为vovk（2001）中派生的rkhs扩展，以便在有限维中在线线性回归。

translated by 谷歌翻译

Adaptation to the Range in $K$-Armed Bandits

Hédi Hadiji , Gilles Stoltz

分类： (统计)机器学习

2020-06-05

我们考虑使用$ K $臂的随机匪徒问题，每一个都与$ [m，m] $范围内支持的有限分布相关。我们不认为$ [m，m] $是已知的范围，并表明学习此范围有成本。确实，出现了与分销相关和无分配后悔界限之间的新权衡，这阻止了同时实现典型的$ \ ln t $和$ \ sqrt {t} $ bunds。例如，仅当与分布相关的遗憾界限至少属于$ \ sqrt {t} $的顺序时，才能实现$ \ sqrt {t} $}无分布遗憾。我们展示了一项策略，以实现新的权衡表明的遗憾。

translated by 谷歌翻译

The Best of Many Worlds: Dual Mirror Descent for Online Allocation Problems

Santiago Balseiro , Haihao Lu , Vahab Mirrokni

分类：机器学习

2020-11-18

资源限制的在线分配问题是收入管理和在线广告中的核心问题。在这些问题中，请求在有限的地平线期间顺序到达，对于每个请求，决策者需要选择消耗一定数量资源并生成奖励的动作。目标是最大限度地提高累计奖励，这是对资源总消费的限制。在本文中，我们考虑一种数据驱动的设置，其中使用决策者未知的输入模型生成每个请求的奖励和资源消耗。我们设计了一般的算法算法，可以在各种输入模型中实现良好的性能，而不知道它们面临的类型类型。特别是，我们的算法在独立和相同的分布式输入以及各种非静止随机输入模型下是渐近的最佳选择，并且当输入是对抗性时，它们达到渐近最佳的固定竞争比率。我们的算法在Lagrangian双色空间中运行：它们为使用在线镜像血管更新的每个资源维护双倍乘数。通过相应地选择参考功能，我们恢复双梯度下降和双乘法权重更新算法。与现有的在线分配问题的现有方法相比，所产生的算法简单，快速，不需要在收入函数，消费函数和动作空间中凸起。我们将应用程序讨论到网络收入管理，在线竞标，重复拍卖，预算限制，与高熵的在线比例匹配，以及具有有限库存的个性化分类优化。

translated by 谷歌翻译

On Efficient Online Imitation Learning via Classification

Yichen Li , Chicheng Zhang

分类：机器学习

2022-09-26

模仿学习（IL）是解决顺序决策问题的一般学习范式。互动模仿学习，学习者可以在其中与专家示范的互动查询，与其离线同行或强化学习相比，已证明可以实现可证明的卓越样本效率保证。在这项工作中，我们研究了基于分类的在线模仿学习（abbrev。$ \ textbf {coil} $），以及在这种情况下设计Oracle有效的遗憾最小化算法的基本可行性，重点是一般的不可思议的情况。我们做出以下贡献：（1）我们表明，在$ \ textbf {coil} $问题中，任何适当的在线学习算法都不能保证总体上遗憾的是；（2）我们提出了$ \ textbf {logger} $，一种不当的在线学习算法框架，通过利用混合策略类的新定义，将$ \ textbf {coil} $降低到在线线性优化；（3）我们在$ \ textbf {logger} $框架中设计了两种Oracle效率算法，它们享受不同的样本和互动的复杂性权衡，并进行有限样本分析以显示其对幼稚行为克隆的改进；（4）我们表明，在标准复杂性理论假设下，在$ \ textbf {logger} $框架中，有效的动态遗憾最小化是不可行的。我们的工作将基于分类的在线模仿学习（一个重要的IL设置）置于更牢固的基础上。

translated by 谷歌翻译