智能论文笔记

Individually Fair Learning with One-Sided Feedback

Yahav Bechavod , Aaron Roth

分类：机器学习 | (统计)机器学习

2022-06-09

我们考虑了一个单方面反馈的在线学习问题，其中学习者只能观察到真正的标签以进行积极的预测实例。在每回合中，$ k $实例到达并根据学习者部署的随机策略来收到分类结果，其目标是在部署单独的公平政策的同时最大化准确性。我们首先扩展了Bechavod等人的框架。（2020）依靠人类公平审计师的存在来检测公平性违规行为，而是将动态选择的审计师的动态选择面板的反馈纳入了反馈。然后，我们通过单方面反馈的在线学习问题构建了有效的降低，并对上下文组合半伴侣问题报告公平性违反了公平性（Cesa-Bianchi＆Lugosi，2009年，Gy \ \ \'{O} Rgy等。，2007年）。最后，我们展示了如何利用上下文组合半循环设置中两种算法的保证：exp2（Bubeck等，2012）和Oracle-seversefficited context-semi-bandit-ftpl（Syrgkanis等人（Syrgkanis等）。以及任何单一人类审核员可能存在的人类偏见，但可以通过选择一个精选的面板来减轻。

translated by 谷歌翻译

Metric-Free Individual Fairness in Online Learning

Yahav Bechavod , Christopher Jung , Zhiwei Steven Wu

分类：机器学习 | (统计)机器学习

2020-02-13

我们研究了一个受个人公平的限制的在线学习问题，这要求类似的个体相似地治疗。与事先对个人公平的工作不同，我们不认为个人之间的相似性措施是已知的，我们也不认为这种措施采用某种参数形式。相反，我们利用了审计师的存在，审计师在没有阐述定量措施的情况下检测公平违规行为。在每一轮中，审计员审查了学习者的决定，并试图识别学习者不公平对待的一对个人。我们提供了一般的框架，将我们的模型中的在线分类降低到标准的在线分类，这使我们能够利用现有的在线学习算法来实现子线性遗憾和公平违规的数量。令人惊讶的是，在独立于分布绘制数据的随机环境中，我们还能够建立PAC样式和准确性概括保障（YONA和Rothblum [2018]），尽管只有获得了一种非常受限制的公平形式回馈。我们的公平泛化界定定性匹配Yona和Rothblum的统一收敛[2018]，同时还提供了有意义的准确性概括担保。我们的结果通过Gillen等人解决了一个开放的问题。 [2018]通过表明在未知的单个公平性约束下的在线学习是可能的，即使在不假设基础相似度措施的强大参数形式的情况下也是可能的。

translated by 谷歌翻译

Efficient and Optimal Algorithms for Contextual Dueling Bandits under Realizability

Aadirupa Saha , Akshay Krishnamurthy

分类：机器学习

2021-11-24

我们研究$ k $ used的上下文决斗强盗问题，一个顺序决策制定设置，其中学习者使用上下文信息来制作两个决定，但只观察到\ emph {基于优先级的反馈}建议一个决定比另一个决定更好。我们专注于可实现的遗憾最小化问题，其中反馈由一个由给定函数类$ \ mathcal f $规定的成对偏好矩阵生成。我们提供了一种新的算法，实现了最佳反应遗憾的新概念的最佳遗憾，这是一个严格更强烈的性能测量，而不是先前作品所考虑的绩效衡量标准。该算法还在计算上有效，在多项式时间中运行，假设访问在线丢失回归超过$ \ mathcal f $。这可以解决dud \'ik等人的开放问题。[2015]关于Oracle高效，后悔 - 用于上下文决斗匪徒的最佳算法。

translated by 谷歌翻译

Preventing Fairness Gerrymandering: Auditing and Learning for Subgroup Fairness

Michael Kearns , Seth Neel , Aaron Roth , Zhiwei Steven Wu

分类：

2017-11-14

The most prevalent notions of fairness in machine learning are statistical definitions: they fix a small collection of high-level, pre-defined groups (such as race or gender), and then ask for approximate parity of some statistic of the classifier (like positive classification rate or false positive rate) across these groups. Constraints of this form are susceptible to (intentional or inadvertent) fairness gerrymandering, in which a classifier appears to be fair on each individual group, but badly violates the fairness constraint on one or more structured subgroups defined over the protected attributes (such as certain combinations of protected attribute values). We propose instead to demand statistical notions of fairness across exponentially (or infinitely) many subgroups, defined by a structured class of functions over the protected attributes. This interpolates between statistical definitions of fairness, and recently proposed individual notions of fairness, but it raises several computational challenges. It is no longer clear how to even check or audit a fixed classifier to see if it satisfies such a strong definition of fairness. We prove that the computational problem of auditing subgroup fairness for both equality of false positive rates and statistical parity is equivalent to the problem of weak agnostic learning -which means it is computationally hard in the worst case, even for simple structured subclasses. However, it also suggests that common heuristics for learning can be applied to successfully solve the auditing problem in practice.We then derive two algorithms that provably converge to the best fair distribution over classifiers in a given class, given access to oracles which can optimally solve the agnostic learning problem. The algorithms are based on a formulation of subgroup fairness as a two-player zero-sum game between a Learner (the primal player) and an Auditor (the dual player). Both algorithms compute an equilibrium of this game. We obtain our first algorithm by simulating play of the game by having Learner play an instance of the no-regret Follow the Perturbed Leader algorithm, and having Auditor play best response. This algorithm provably converges to an approximate Nash equilibrium (and thus to an approximately optimal subgroup-fair distribution over classifiers) in a polynomial number of steps. We obtain our second algorithm by simulating play of the game by having both players play Fictitious Play, which enjoys only provably asymptotic convergence, but has the merit of simplicity and faster per-step computation. We implement the Fictitious Play version using linear regression as a heuristic oracle, and show that we can effectively both audit and learn fair classifiers on real datasets.

translated by 谷歌翻译

Optimal No-regret Learning in Repeated First-price Auctions

Yanjun Han , Zhengyuan Zhou , Tsachy Weissman

分类：机器学习 | (统计)机器学习

2020-03-22

我们通过审查反馈重复进行一定的第一价格拍卖来研究在线学习，在每次拍卖结束时，出价者只观察获胜的出价，学会了适应性地出价，以最大程度地提高她的累积回报。为了实现这一目标，投标人面临着一个具有挑战性的困境：如果她赢得了竞标 - 获得正收益的唯一方法 - 然后她无法观察其他竞标者的最高竞标，我们认为我们认为这是从中汲取的。一个未知的分布。尽管这一困境让人联想到上下文强盗中的探索探索折衷权，但现有的UCB或汤普森采样算法无法直接解决。在本文中，通过利用第一价格拍卖的结构属性，我们开发了第一个实现$ o（\ sqrt {t} \ log^{2.5} t）$ hearry bund的第一个学习算法（\ sqrt {t} \ log^{2.5} t），这是最小值的最低$ $ \ log $因素，当投标人的私人价值随机生成时。我们这样做是通过在一系列问题上提供算法，称为部分有序的上下文匪徒，该算法将图形反馈跨动作，跨环境跨上下文进行结合，以及在上下文中的部分顺序。我们通过表现出一个奇怪的分离来确定该框架的优势和劣势，即在随机环境下几乎可以独立于动作/背景规模的遗憾，但是在对抗性环境下是不可能的。尽管这一通用框架有限制，但我们进一步利用了第一价格拍卖的结构，并开发了一种学习算法，该算法在存在对手生成的私有价值的情况下，在存在的情况下可以有效地运行样本（并有效地计算）。我们建立了一个$ o（\ sqrt {t} \ log^3 t）$遗憾，以此为此算法，因此提供了对第一价格拍卖的最佳学习保证的完整表征。

translated by 谷歌翻译

Fast Rates for Nonparametric Online Learning: From Realizability to Learning in Games

Constantinos Daskalakis , Noah Golowich

分类：机器学习 | (统计)机器学习

2021-11-17

我们研究了非参数在线回归中的快速收敛速度，即遗憾的是关于具有有界复杂度的任意函数类来定义后悔。我们的贡献是两倍： - 在绝对损失中的非参数网上回归的可实现设置中，我们提出了一种随机适当的学习算法，该算法在假设类的顺序脂肪破碎尺寸方面获得了近乎最佳的错误。在与一类Littlestone维度$ D $的在线分类中，我们的绑定减少到$ d \ cdot {\ rm poly} \ log t $。这结果回答了一个问题，以及适当的学习者是否可以实现近乎最佳错误的界限;以前，即使在线分类，绑定的最知名错误也是$ \ tilde o（\ sqrt {dt}）$。此外，对于真实值（回归）设置，在这项工作之前，界定的最佳错误甚至没有以不正当的学习者所知。 - 使用上述结果，我们展示了Littlestone维度$ D $的一般总和二进制游戏的独立学习算法，每个玩家达到后悔$ \ tilde o（d ^ {3/4} \ cdot t ^ {1 / 4}）$。该结果概括了Syrgkanis等人的类似结果。（2015）谁表明，在有限的游戏中，最佳遗憾可以从普通的o（\ sqrt {t}）$中的$ o（\ sqrt {t}）为游戏设置中的$ o（t ^ {1/4}）$。要建立上述结果，我们介绍了几种新技术，包括：分层聚合规则，以实现对实际类别的最佳错误，Hanneke等人的适当在线可实现学习者的多尺度扩展。（2021），一种方法来表明这种非参数学习算法的输出是稳定的，并且证明Minimax定理在所有在线学习游戏中保持。

translated by 谷歌翻译

Cost-Effective Online Contextual Model Selection

Xuefeng Liu , Fangfang Xia , Rick L. Stevens , Yuxin Chen

分类：机器学习 | 人工智能 | (统计)机器学习

2022-07-13

当使用任意异质数据流提供时，我们如何收集最有用的标签来学习模型选择策略？在本文中，我们将此任务制定为一个在线上下文的活动模型选择问题，在每个回合中，学习者在上下文中都会收到一个未标记的数据点以及上下文。目的是在任何给定上下文中输出最佳模型，而不会获得过多的标签。特别是，我们专注于选择预训练的分类器的任务，并提出一种上下文活动模型选择算法（CAM），该算法依赖于在给定策略类别上定义的新型不确定性采样查询标准用于自适应模型选择。与先前的ART相比，我们的算法不假定全球最佳模型。我们提供严格的理论分析，以实现对抗和随机设置下的遗憾和查询复杂性。我们对几个基准分类数据集的实验证明了该算法在遗憾和查询复杂性方面的有效性。值得注意的是，与CIFAR10上最佳的在线型号选择基线相比，CAMS的标签成本少于标签成本的10％。

translated by 谷歌翻译

Online Learning with Off-Policy Feedback

Germano Gabbianelli , Matteo Papini , Gergely Neu

分类：机器学习 | (统计)机器学习

2022-07-18

我们研究了在偏见的可观察性模型下，在对抗性匪徒问题中的在线学习问题，称为政策反馈。在这个顺序决策问题中，学习者无法直接观察其奖励，而是看到由另一个未知策略并行运行的奖励（行为策略）。学习者必须在这种情况下面临另一个挑战：由于他们的控制之外的观察结果有限，学习者可能无法同样估算每个政策的价值。为了解决这个问题，我们提出了一系列算法，以保证任何比较者政策与行为政策之间的自然不匹配概念的范围，从而提高了对观察结果良好覆盖的比较者的绩效。我们还为对抗性线性上下文匪徒的设置提供了扩展，并通过一组实验验证理论保证。我们的关键算法想法是调整最近在非政策强化学习背景下流行的悲观奖励估计量的概念。

translated by 谷歌翻译

Bandit Learning with Delayed Impact of Actions

Wei Tang , Chien-Ju Ho , Yang Liu

分类：机器学习 | (统计)机器学习

2020-02-24

我们考虑随机多武装强盗（MAB）问题，延迟影响了行动。在我们的环境中，过去采取的行动在随后的未来影响了ARM奖励。在现实世界中，行动的这种延迟影响是普遍的。例如，为某个社会群体中的人员偿还贷款的能力可能历史上历史上批准贷款申请的频率频率。如果银行将贷款申请拒绝拒绝弱势群体，则可以创建反馈循环，进一步损害该群体中获取贷款的机会。在本文中，我们制定了在多武装匪徒的背景下的行动延迟和长期影响。由于在学习期间，我们将强盗设置概括为对这种“偏置”的依赖性进行编码。目标是随着时间的推移最大化收集的公用事业，同时考虑到历史行动延迟影响所产生的动态。我们提出了一种算法，实现了$ \ tilde {\ mathcal {o}}的遗憾，并显示$ \ omega（kt ^ {2/3}）$的匹配遗憾下限，其中$ k $是武器数量，$ t $是学习地平线。我们的结果通过添加技术来补充强盗文献，以处理具有长期影响的行动，并对设计公平算法有影响。

translated by 谷歌翻译

Online Learning via Offline Greedy Algorithms: Applications in Market Design and Optimization

Rad Niazadeh , Negin Golrezaei , Joshua Wang , Fransisca Susan , Ashwinkumar Badanidiyuru

分类：机器学习 | (统计)机器学习

2021-02-18

在随着时间变化的组合环境中的在线决策激励，我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题，我们提供了一个通用框架，该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明，在完整信息设置下，由此产生的在线算法具有$ O（\ sqrt {t}）$（近似）遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展，我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪（t^{2/3}）$（近似）$（近似）的遗憾。展示了我们框架的灵活性，我们将脱机之间的转换应用于收入管理，市场设计和在线优化的几个问题，包括在线平台中的产品排名优化，拍卖中的储备价格优化以及supperular tossodular最大化。。我们还将还原扩展到连续优化的类似贪婪的一阶方法，例如用于最大化连续强的DR单调下调功能，这些功能受到凸约束的约束。我们表明，当应用于这些应用程序时，我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究，在这两种应用中，我们都观察到，转换的数值性能在实际情况下优于理论保证。

translated by 谷歌翻译

Simple and near-optimal algorithms for hidden stratification and multi-group learning

Christopher Tosh , Daniel Hsu

分类：机器学习 | (统计)机器学习

2021-12-22

多集团不可知学习是一个正式的学习标准，涉及人口亚组内的预测因子的条件风险。标准解决了最近的实际问题，如亚组公平和隐藏分层。本文研究了对多组学习问题的解决方案的结构，为学习问题提供了简单和近最佳的算法。

translated by 谷歌翻译

Uplifting Bandits

Yu-Guan Hsieh , Shiva Prasad Kasiviswanathan , Branislav Kveton

分类： (统计)机器学习 | 机器学习

2022-06-08

我们介绍了一个多臂强盗模型，其中奖励是多个随机变量的总和，每个动作只会改变其中的分布。每次动作之后，代理都会观察所有变量的实现。该模型是由营销活动和推荐系统激励的，在该系统中，变量代表单个客户的结果，例如点击。我们提出了UCB风格的算法，以估计基线上的动作的提升。我们研究了问题的多种变体，包括何时未知基线和受影响的变量，并证明所有这些变量均具有sublrinear后悔界限。我们还提供了较低的界限，以证明我们的建模假设的必要性是合理的。关于合成和现实世界数据集的实验显示了估计不使用这种结构的策略的振奋方法的好处。

translated by 谷歌翻译

Adversarial Bandits with Knapsacks

Nicole Immorlica , Karthik Abinav Sankararaman , Robert Schapire , Aleksandrs Slivkins

分类：机器学习 | (统计)机器学习

2018-11-28

我们考虑带有背包的土匪（从此以后，BWK），这是一种在供应/预算限制下的多臂土匪的通用模型。特别是，强盗算法需要解决一个众所周知的背包问题：找到最佳的物品包装到有限尺寸的背包中。 BWK问题是众多激励示例的普遍概括，范围从动态定价到重复拍卖，再到动态AD分配，再到网络路由和调度。尽管BWK的先前工作集中在随机版本上，但我们开创了可以在对手身上选择结果的另一个极端。与随机版本和“经典”对抗土匪相比，这是一个更加困难的问题，因为遗憾的最小化不再可行。相反，目的是最大程度地减少竞争比率：基准奖励与算法奖励的比率。我们设计了一种具有竞争比O（log t）的算法，相对于动作的最佳固定分布，其中T是时间范围；我们还证明了一个匹配的下限。关键的概念贡献是对问题的随机版本的新观点。我们为随机版本提出了一种新的算法，该算法是基于重复游戏中遗憾最小化的框架，并且与先前的工作相比，它具有更简单的分析。然后，我们为对抗版本分析此算法，并将其用作求解后者的子例程。

translated by 谷歌翻译

Multicalibrated Regression for Downstream Fairness

Ira Globus-Harris , Varun Gupta , Christopher Jung , Michael Kearns , Jamie Morgenstern , Aaron Roth

分类：机器学习

2022-09-15

我们展示了如何采用回归函数$ \ hat {f} $，该{f} $适当地``多校准''并有效地将其后处理成近似错误的分类器，使分类器满足各种公平限制。后处理不需要标记的数据，只有一定数量的未标记数据和计算。计算$ \ hat f $的计算和样本复杂性要求与解决单个公平学习任务的要求相媲美，但实际上可以用来有效地解决许多不同的下游公平约束的学习问题。我们的后处理方法可以轻松处理相交组，从而将先前的工作推广到后处理回归功能上，以满足仅应用于分离组的公平约束。我们的工作扩展了最近的工作，表明多校准的回归函数是``omnipredictors''（即可以在后处理以最佳解决无约束的ERM问题）以进行约束优化。

translated by 谷歌翻译

Follow-the-Perturbed-Leader for Adversarial Markov Decision Processes with Bandit Feedback

Yan Dai , Haipeng Luo , Liyu Chen

分类：机器学习 | 人工智能 | (统计)机器学习

2022-05-26

我们考虑对对抗性马尔可夫决策过程（AMDP）的遗憾最小化，其中损失功能随着时间的流逝而变化和对抗性，学习者仅观察访问的国家行动对的损失（即强盗反馈）。尽管使用在线培训（OMD）方法对此问题进行了大量研究，但对以下扰动领导者（FTPL）方法的了解很少，这些方法通常在计算上更有效，并且更易于实施仅仅需要解决离线计划问题。以此为激励，我们仔细研究了从标准的情节有限摩托设置开始学习AMDP的FTPL。我们在分析中发现了一些独特而有趣的困难，并提出解决方法，最终表明FTPL在这种情况下也能够达到近乎最佳的遗憾界限。更重要的是，我们然后找到两个重要的应用：首先，FTPL的分析很容易被延迟的匪徒反馈和订单最佳的遗憾，而OMD方法则表现出额外的困难（Jin等，2022）。其次，使用FTPL，我们还开发了第一个用于学习在无限 - 摩恩环境中通过匪徒反馈和随机过渡的无限 - 马设置中通信AMDP的NO-Regret算法。我们的算法是有效的，假设访问离线规划Oracle，即使为了易于全信息设置，唯一的现有算法（Chandrasekaran和Tewari，2021年）在计算上效率低下。

translated by 谷歌翻译

Parameter and Feature Selection in Stochastic Linear Bandits

Ahmadreza Moradipari , Berkay Turan , Yasin Abbasi-Yadkori , Mahnoosh Alizadeh , Mohammad Ghavamzadeh

分类：机器学习

2021-06-09

我们研究了随机线性匪徒（LB）中的两个模型选择设置。在我们将其称为特征选择的第一个设置中，LB问题的预期奖励是$ M $特征映射（模型）中至少一个的线性跨度。在第二个设置中，LB问题的奖励参数由$ \ MATHBB r ^ d $中表示（可能）重叠球的$ M $模型任意选择。但是，该代理只能访问错过模型，即球的中心和半径的估计。我们将此设置称为参数选择。对于每个设置，我们开发和分析一种基于从匪徒减少到全信息问题的算法。这允许我们获得遗憾的界限（最多超过$ \ sqrt {\ log m} $ factor）而不是已知真实模型的情况。我们参数选择算法的遗憾也以模型不确定性对数进行缩放。最后，我们经验展现了使用合成和现实世界实验的算法的有效性。

translated by 谷歌翻译

Contextual Search in the Presence of Adversarial Corruptions

Akshay Krishnamurthy , Thodoris Lykouris , Chara Podimata , Robert Schapire

分类：机器学习 | (统计)机器学习

2020-02-26

我们研究上下文搜索，在较高维度中对二进制搜索的概括，该搜索捕获了设置，例如基于功能的动态定价。该问题的标准公式假定代理根据特定的均匀响应模型起作用。但是，实际上，某些反应可能会受到对抗的腐败。现有的算法在很大程度上取决于假定的响应模型（大约）对所有试剂的准确性，并且在存在一些此类任意错误的情况下的性能较差。当某些代理商以与基本响应模型不一致的方式行为时，我们会启动上下文搜索的研究。特别是，我们提供两种算法，一种基于多维二进制搜索方法，另一种基于梯度下降。我们表明，这些算法在没有对抗性腐败及其性能与此类代理的数量优雅地降低的情况下获得了近乎最佳的遗憾，这为在任何对抗性噪声模型中提供了第一个结果，以进行上下文搜索。我们的技术从学习理论，游戏理论，高维几何形状和凸分析中汲取灵感。

translated by 谷歌翻译

Contextual Bandits and Optimistically Universal Learning

Moise Blanchard , Steve Hanneke , Patrick Jaillet

分类： (统计)机器学习 | 机器学习

2022-12-31

We consider the contextual bandit problem on general action and context spaces, where the learner's rewards depend on their selected actions and an observable context. This generalizes the standard multi-armed bandit to the case where side information is available, e.g., patients' records or customers' history, which allows for personalized treatment. We focus on consistency -- vanishing regret compared to the optimal policy -- and show that for large classes of non-i.i.d. contexts, consistency can be achieved regardless of the time-invariant reward mechanism, a property known as universal consistency. Precisely, we first give necessary and sufficient conditions on the context-generating process for universal consistency to be possible. Second, we show that there always exists an algorithm that guarantees universal consistency whenever this is achievable, called an optimistically universal learning rule. Interestingly, for finite action spaces, learnable processes for universal learning are exactly the same as in the full-feedback setting of supervised learning, previously studied in the literature. In other words, learning can be performed with partial feedback without any generalization cost. The algorithms balance a trade-off between generalization (similar to structural risk minimization) and personalization (tailoring actions to specific contexts). Lastly, we consider the case of added continuity assumptions on rewards and show that these lead to universal consistency for significantly larger classes of data-generating processes.

translated by 谷歌翻译

A Unifying Framework for Online Optimization with Long-Term Constraints

Matteo Castiglioni , Andrea Celli , Alberto Marchesi , Giulia Romano , Nicola Gatti

分类：机器学习

2022-09-15

我们研究在线学习问题，决策者必须采取一系列决策，但要受到$ M $长期约束。决策者的目标是最大程度地提高其总奖励，同时达到小累积约束，在$ t $回合中违规。我们介绍了此一般类问题的第一个最佳世界类型算法，在根据未知随机模型选择奖励和约束的情况下，无需保证，在它们的情况下，在他们的情况下选择了奖励和约束。在每个回合中由对手选择。我们的算法是关于满足长期约束的最佳固定策略的第一个在对抗环境中提供保证的算法。特别是，它保证了$ \ rho/（1+ \ rho）$的最佳奖励和额定性遗憾，其中$ \ rho $是与严格可行的解决方案有关的可行性参数。我们的框架采用传统的遗憾最小化器作为黑盒组件。因此，通过使用适当的遗憾最小化器进行实例化，它可以处理全反馈以及强盗反馈设置。此外，它允许决策者通过非凸奖励和约束无缝处理场景。我们展示了如何在重复拍卖的预算管理机制的背景下应用我们的框架，以保证不包装的长期约束（例如，ROI约束）。

translated by 谷歌翻译

Safe Optimal Design with Applications in Policy Learning

Ruihao Zhu , Branislav Kveton

分类：机器学习

2021-11-08

通过在线实验和违规学习中的实践需求激励，我们研究了安全最佳设计的问题，在那里我们开发了一个有效探索的数据记录策略，同时通过基线生产政策实现竞争奖励。我们首先展示，也许令人惊讶的是，尽管安全，但尽管安全，但尽管是安全的，但仍有统一探索的常见做法是最大化信息增益的次优。然后，我们提出了一个安全的最佳日志记录策略，因为没有有关操作的预期奖励的侧面信息。我们通过考虑侧面信息来改进这种设计，并且还通过线性奖励模型扩展到大量动作的方法。我们分析了我们的数据记录策略如何影响禁止策略学习中的错误。最后，我们通过进行广泛的实验，经验验证了我们设计的好处。

translated by 谷歌翻译