智能论文笔记

When Privacy Meets Partial Information: A Refined Analysis of Differentially Private Bandits

Achraf Azize , Debabrota Basu

分类：机器学习 | (统计)机器学习

2022-09-06

我们研究了具有$ \ epsilon $ -Global差异隐私（DP）的多臂土匪的问题。首先，我们证明了使用$ \ epsilon $ -Global DP量化土匪硬度的随机和线性土匪的最小值和问题依赖的后悔下限。这些界限表明存在两个硬度制度，具体取决于隐私预算$ \ epsilon $。在高私人制度（小$ \ epsilon $）中，硬度取决于隐私的耦合效果以及有关奖励分布的部分信息。在低私人制度（大$ \ epsilon $）中，具有$ \ epsilon $ -Global DP的土匪并不比没有隐私的土匪更难。对于随机匪徒，我们进一步提出了一个通用框架，以设计基于索引的乐观强盗算法的近乎最佳的$ \ epsilon $全局DP扩展。该框架由三种成分组成：拉普拉斯机制，依赖手臂的自适应发作以及仅在最后一集中收集的奖励来计算私人统计数据。具体而言，我们实例化了UCB和KL-UCB算法的Epsilon $ -Global DP扩展，即ADAP-UCB和ADAP-KLUCB。 Adap-klucb是两者都满足$ \ epsilon $ -Global DP的第一种算法，并产生了遗憾的上限，与问题依赖性下限与乘法常数相匹配。

translated by 谷歌翻译

Quantile Multi-Armed Bandits: Optimal Best-Arm Identification and a Differentially Private Scheme

Kontantinos E. Nikolakakis , Dionysios S. Kalogerias , Or Sheffet , Anand D. Sarwate

分类： (统计)机器学习 | 机器学习

2020-06-11

We study the best-arm identification problem in multi-armed bandits with stochastic, potentially private rewards, when the goal is to identify the arm with the highest quantile at a fixed, prescribed level. First, we propose a (non-private) successive elimination algorithm for strictly optimal best-arm identification, we show that our algorithm is $\delta$-PAC and we characterize its sample complexity. Further, we provide a lower bound on the expected number of pulls, showing that the proposed algorithm is essentially optimal up to logarithmic factors. Both upper and lower complexity bounds depend on a special definition of the associated suboptimality gap, designed in particular for the quantile bandit problem, as we show when the gap approaches zero, best-arm identification is impossible. Second, motivated by applications where the rewards are private, we provide a differentially private successive elimination algorithm whose sample complexity is finite even for distributions with infinite support-size, and we characterize its sample complexity. Our algorithms do not require prior knowledge of either the suboptimality gap or other statistical information related to the bandit problem at hand.

translated by 谷歌翻译

Uplifting Bandits

Yu-Guan Hsieh , Shiva Prasad Kasiviswanathan , Branislav Kveton

分类： (统计)机器学习 | 机器学习

2022-06-08

我们介绍了一个多臂强盗模型，其中奖励是多个随机变量的总和，每个动作只会改变其中的分布。每次动作之后，代理都会观察所有变量的实现。该模型是由营销活动和推荐系统激励的，在该系统中，变量代表单个客户的结果，例如点击。我们提出了UCB风格的算法，以估计基线上的动作的提升。我们研究了问题的多种变体，包括何时未知基线和受影响的变量，并证明所有这些变量均具有sublrinear后悔界限。我们还提供了较低的界限，以证明我们的建模假设的必要性是合理的。关于合成和现实世界数据集的实验显示了估计不使用这种结构的策略的振奋方法的好处。

translated by 谷歌翻译

Finite-Time Regret of Thompson Sampling Algorithms for Exponential Family Multi-Armed Bandits

Tianyuan Jin , Pan Xu , Xiaokui Xiao , Anima Anandkumar

分类： (统计)机器学习 | 机器学习

2022-06-07

我们研究汤普森采样（TS）算法的遗憾，指数为家庭土匪，其中奖励分配来自一个一维指数式家庭，该家庭涵盖了许多常见的奖励分布，包括伯努利，高斯，伽玛，伽玛，指数等。我们建议汤普森采样算法，称为expts，它使用新颖的采样分布来避免估计最佳臂。我们为expts提供了严格的遗憾分析，同时产生有限的遗憾和渐近遗憾。特别是，对于带指数级家庭奖励的$ k $臂匪徒，expts of horizon $ t $ sub-ucb（对于有限的时间遗憾的是问题依赖的有限时间标准） $ \ sqrt {\ log k} $，并且对于指数家庭奖励，渐近最佳。此外，我们通过在Expts中使用的采样分配外添加一个贪婪的剥削步骤，提出$^+$，以避免过度估计亚最佳武器。 expts $^+$是随时随地的强盗算法，可用于指数级的家庭奖励分布同时实现最小值和渐近最优性。我们的证明技术在概念上很简单，可以轻松地应用于用特定奖励分布分析标准的汤普森抽样。

translated by 谷歌翻译

Model Selection in Contextual Stochastic Bandit Problems

Aldo Pacchiano , My Phan , Yasin Abbasi-Yadkori , Anup Rao , Julian Zimmert , Tor Lattimore , Csaba Szepesvari

分类：机器学习 | (统计)机器学习

2020-03-03

We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $\Omega(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.

translated by 谷歌翻译

Optimal No-regret Learning in Repeated First-price Auctions

Yanjun Han , Zhengyuan Zhou , Tsachy Weissman

分类：机器学习 | (统计)机器学习

2020-03-22

我们通过审查反馈重复进行一定的第一价格拍卖来研究在线学习，在每次拍卖结束时，出价者只观察获胜的出价，学会了适应性地出价，以最大程度地提高她的累积回报。为了实现这一目标，投标人面临着一个具有挑战性的困境：如果她赢得了竞标 - 获得正收益的唯一方法 - 然后她无法观察其他竞标者的最高竞标，我们认为我们认为这是从中汲取的。一个未知的分布。尽管这一困境让人联想到上下文强盗中的探索探索折衷权，但现有的UCB或汤普森采样算法无法直接解决。在本文中，通过利用第一价格拍卖的结构属性，我们开发了第一个实现$ o（\ sqrt {t} \ log^{2.5} t）$ hearry bund的第一个学习算法（\ sqrt {t} \ log^{2.5} t），这是最小值的最低$ $ \ log $因素，当投标人的私人价值随机生成时。我们这样做是通过在一系列问题上提供算法，称为部分有序的上下文匪徒，该算法将图形反馈跨动作，跨环境跨上下文进行结合，以及在上下文中的部分顺序。我们通过表现出一个奇怪的分离来确定该框架的优势和劣势，即在随机环境下几乎可以独立于动作/背景规模的遗憾，但是在对抗性环境下是不可能的。尽管这一通用框架有限制，但我们进一步利用了第一价格拍卖的结构，并开发了一种学习算法，该算法在存在对手生成的私有价值的情况下，在存在的情况下可以有效地运行样本（并有效地计算）。我们建立了一个$ o（\ sqrt {t} \ log^3 t）$遗憾，以此为此算法，因此提供了对第一价格拍卖的最佳学习保证的完整表征。

translated by 谷歌翻译

Offline Reinforcement Learning with Differential Privacy

Dan Qiao , Yu-Xiang Wang

分类：机器学习 | 人工智能 | (统计)机器学习

2022-06-02

The offline reinforcement learning (RL) problem is often motivated by the need to learn data-driven decision policies in financial, legal and healthcare applications. However, the learned policy could retain sensitive information of individuals in the training data (e.g., treatment and outcome of patients), thus susceptible to various privacy risks. We design offline RL algorithms with differential privacy guarantees which provably prevent such risks. These algorithms also enjoy strong instance-dependent learning bounds under both tabular and linear Markov decision process (MDP) settings. Our theory and simulation suggest that the privacy guarantee comes at (almost) no drop in utility comparing to the non-private counterpart for a medium-size dataset.

translated by 谷歌翻译

Rotting Infinitely Many-armed Bandits

Jung-hun Kim , Milan Vojnovic , Se-Young Yun

分类：机器学习 | (统计)机器学习

2022-01-31

我们考虑腐烂奖励的无限多臂匪徒问题，其中手臂的平均奖励是根据任意趋势在每次拉动的手臂上减小的，最大腐烂速率$ \ varrho = o（1）$。我们表明，这个学习问题具有$ \ omega（\ max \ {\ varrho^{1/3} t，\ sqrt {t} \}）$ worst-case遗憾的遗憾下降下降，其中$ t $是$ t $。我们表明，匹配的上限$ \ tilde {o}（\ max \ {\ varrho^{1/3} t，\ sqrt {t} \}）$，最多可以通过多元素来实现当算法知道最大腐烂速率$ \ varrho $时，一种使用UCB索引的算法，该算法使用UCB索引和一个阈值来决定是否继续拉动手臂或从进一步考虑中移除手臂。我们还表明，$ \ tilde {o}（\ max \ {\ varrho^{1/3} t，t^{3/4} \}）$遗憾的上限可以通过不知道的算法来实现$ \ varrho $的值通过使用自适应UCB索引以及自适应阈值值。

translated by 谷歌翻译

Multi-Armed Bandits with Self-Information Rewards

Nir Weinberger , Michal Yemini

分类：机器学习

2022-09-06

本文介绍了信息性多臂强盗（IMAB）模型，在每个回合中，玩家选择手臂，观察符号，并以符号的自我信息形式获得未观察到的奖励。因此，手臂的预期奖励是产生其符号的源质量函数的香农熵。玩家的目标是最大程度地提高与武器的熵值相关的预期奖励。在假设字母大小是已知的假设下，为IMAB模型提出了两种基于UCB的算法，该算法考虑了插件熵估计器的偏差。第一种算法在熵估计中乐观地纠正了偏置项。第二算法依赖于数据依赖性置信区间，该置信区间适应具有较小熵值的源。性能保证是通过上限为每种算法的预期遗憾提供的。此外，在Bernoulli案例中，将这些算法的渐近行为与伪遗憾的Lai-Robbins的下限进行了比较。此外，在假设\ textit {cract}字母大小的假设下是未知的，而播放器仅知道其上方的宽度上限，提出了一种基于UCB的算法，在其中，玩家的目的是减少由该算法造成的遗憾。未知的字母尺寸在有限的时间方面。数字结果说明了论文中介绍的算法的预期遗憾。

translated by 谷歌翻译

On the Complexity of Adversarial Decision Making

Dylan J. Foster , Alexander Rakhlin , Ayush Sekhari , Karthik Sridharan

分类：机器学习 | (统计)机器学习

2022-06-27

在线学习和决策中的一个核心问题 - 从土匪到强化学习 - 是要了解哪种建模假设会导致样本有效的学习保证。我们考虑了一个普遍的对抗性决策框架，该框架涵盖了（结构化的）匪徒问题，这些问题与对抗性动力学有关。我们的主要结果是通过新的上限和下限显示决策估计系数，这是Foster等人引入的复杂度度量。在与我们环境的随机对应物中，对于对抗性决策而言是必要和足够的遗憾。但是，与随机设置相比，必须将决策估计系数应用于所考虑的模型类（或假设）的凸壳。这就确定了容纳对抗奖励或动态的价格受凸层化模型类的行为的约束，并恢复了许多现有结果 - 既积极又负面。在获得这些保证的途径中，我们提供了新的结构结果，将决策估计系数与其他众所周知的复杂性度量的变体联系起来，包括Russo和Van Roy的信息比以及Lattimore和Gy的探索目标\“ {o} rgy。

translated by 谷歌翻译

Differentially Private Regret Minimization in Episodic Markov Decision Processes

Sayak Ray Chowdhury , Xingyu Zhou

分类：机器学习

2021-12-20

在差异隐私（DP）的约束下，我们在有限地域表格马尔可夫决策过程（MDP）中研究了遗憾最小化。这是由强化学习（RL）在现实世界顺序决策中的广泛应用程序的推动，保护用户敏感和私人信息变得最大程度。我们考虑了两种DP - 关节DP（JDP）的变体，其中集中式代理负责保护用户的敏感数据和本地DP（LDP），其中需要直接在用户端保护信息。我们首先提出了两个一般框架 - 一个用于策略优化，另一个用于迭代 - 用于设计私有，乐观的RL算法。然后，我们将这些框架实例化了合适的隐私机制来满足JDP和LDP要求，并同时获得Sublinear遗憾担保。遗憾的界限表明，在JDP下，隐私费用只是较低的秩序添加剂项，而在LDP下，对于更强的隐私保护，遭受的成本是乘法的。最后，通过统一的分析获得了遗憾范围，我们相信，我们相信，可以超出表格MDP。

translated by 谷歌翻译

Near-Optimal Differentially Private Reinforcement Learning

Dan Qiao , Yu-Xiang Wang

分类：机器学习 | 人工智能 | (统计)机器学习

2022-12-09

Motivated by personalized healthcare and other applications involving sensitive data, we study online exploration in reinforcement learning with differential privacy (DP) constraints. Existing work on this problem established that no-regret learning is possible under joint differential privacy (JDP) and local differential privacy (LDP) but did not provide an algorithm with optimal regret. We close this gap for the JDP case by designing an $\epsilon$-JDP algorithm with a regret of $\widetilde{O}(\sqrt{SAH^2T}+S^2AH^3/\epsilon)$ which matches the information-theoretic lower bound of non-private learning for all choices of $\epsilon> S^{1.5}A^{0.5} H^2/\sqrt{T}$. In the above, $S$, $A$ denote the number of states and actions, $H$ denotes the planning horizon, and $T$ is the number of steps. To the best of our knowledge, this is the first private RL algorithm that achieves \emph{privacy for free} asymptotically as $T\rightarrow \infty$. Our techniques -- which could be of independent interest -- include privately releasing Bernstein-type exploration bonuses and an improved method for releasing visitation statistics. The same techniques also imply a slightly improved regret bound for the LDP case.

translated by 谷歌翻译

Dynamic Global Sensitivity for Differentially Private Contextual Bandits

Huazheng Wang , David Zhao , Hongning Wang

分类：机器学习 | (统计)机器学习

2022-08-30

土匪算法已成为交互式建议的参考解决方案。但是，由于这种算法直接与用户进行改进的建议，因此对其实际使用提出了严重的隐私问题。在这项工作中，我们通过基于树的机制提出了一种差异性的线性上下文匪徒算法，以将拉普拉斯或高斯噪声添加到模型参数中。我们的关键见解是，随着模型在在线更新过程中收敛时，其参数的全局灵敏度随着时间的推移而缩小（因此命名为动态全局灵敏度）。与现有解决方案相比，我们动态的全球敏感性分析使我们能够减少噪声以获得$（\ epsilon，\ delta）$ - 差异隐私，并具有$ \ tilde o（\ log {t} \ sqrt中的噪声注入引起的额外遗憾） {t}/\ epsilon）$。我们通过动态全局灵敏度和我们提出的算法的相应上后悔界限提供了严格的理论分析。合成和现实世界数据集的实验结果证实了该算法对现有解决方案的优势。

translated by 谷歌翻译

HTML版本

Bandits with many optimal arms

Rianne de Heide , James Cheshire , Pierre Ménard , Alexandra Carpentier

分类：机器学习 | (统计)机器学习

2021-03-23

我们考虑了一种有可能无限的武器的随机强盗问题。我们为最佳武器和$ \ delta $的比例写入$ p ^ * $，以获得最佳和次优臂之间的最小含义 - 均值差距。我们在累积遗憾设置中表征了最佳学习率，以及在问题参数$ t $（预算），$ p ^ * $和$ \ delta $的最佳臂识别环境中。为了最大限度地减少累积遗憾，我们提供了订单$ \ OMEGA（\ log（t）/（p ^ * \ delta））$的下限和UCB样式算法，其匹配上限为一个因子$ \ log（1 / \ delta）$。我们的算法需要$ p ^ * $来校准其参数，我们证明了这种知识是必要的，因为在这个设置中调整到$ p ^ * $以来，因此是不可能的。为了获得最佳武器识别，我们还提供了订单$ \ Omega（\ exp（-ct \ delta ^ 2 p ^））的较低限制，以上输出次优臂的概率，其中$ c> 0 $是一个绝对常数。我们还提供了一个消除算法，其上限匹配下限到指数中的订单$ \ log（t）$倍数，并且不需要$ p ^ * $或$ \ delta $ as参数。我们的结果直接适用于竞争$ j $ -th最佳手臂的三个相关问题，识别$ \ epsilon $良好的手臂，并找到一个平均值大于已知订单的大分的手臂。

translated by 谷歌翻译

Almost Optimal Batch-Regret Tradeoff for Batch Linear Contextual Bandits

Zihan Zhang , Xiangyang Ji , Yuan Zhou

分类：机器学习

2021-10-15

我们研究了批量线性上下文匪徒的最佳批量遗憾权衡。对于任何批次数$ M $，操作次数$ k $，时间范围$ t $和维度$ d $，我们提供了一种算法，并证明了其遗憾的保证，这是由于技术原因，具有两阶段表达作为时间的时间$ t $ grose。我们还证明了一个令人奇迹的定理，令人惊讶地显示了在问题参数的“问题参数”中的两相遗憾（最高〜对数因子）的最优性，因此建立了确切的批量后悔权衡。与最近的工作\ citep {ruan2020linear}相比，这表明$ m = o（\ log \ log t）$批次实现无需批处理限制的渐近最佳遗憾的渐近最佳遗憾，我们的算法更简单，更易于实际实现。此外，我们的算法实现了所有$ t \ geq d $的最佳遗憾，而\ citep {ruan2020linear}要求$ t $大于$ d $的不切实际的大多项式。沿着我们的分析，我们还证明了一种新的矩阵集中不平等，依赖于他们的动态上限，这是我们的知识，这是其文学中的第一个和独立兴趣。

translated by 谷歌翻译

On Private Online Convex Optimization: Optimal Algorithms in $\ell_p$-Geometry and High Dimensional Contextual Bandits

Yuxuan Han , Zhicong Liang , Zhipeng Liang , Yang Wang , Yuan Yao , Jiheng Zhang

分类：机器学习 | (统计)机器学习

2022-06-16

差异化（DP）随机凸优化（SCO）在可信赖的机器学习算法设计中无处不在。本文研究了DP-SCO问题，该问题是从分布中采样并顺序到达的流媒体数据。我们还考虑了连续发布模型，其中与私人信息相关的参数已在每个新数据（通常称为在线算法）上更新和发布。尽管已经开发了许多算法，以实现不同$ \ ell_p $ norm几何的最佳多余风险，但是没有一个现有的算法可以适应流和持续发布设置。为了解决诸如在线凸优化和隐私保护的挑战，我们提出了一种在线弗兰克 - 沃尔夫算法的私人变体，并带有递归梯度，以减少差异，以更新和揭示每个数据上的参数。结合自适应差异隐私分析，我们的在线算法在线性时间中实现了最佳的超额风险，当$ 1 <p \ leq 2 $和最先进的超额风险达到了非私人较低的风险时，当$ 2 <p \ p \ $ 2 <p \ leq \ infty $。我们的算法也可以扩展到$ p = 1 $的情况，以实现几乎与维度无关的多余风险。虽然先前的递归梯度降低结果仅在独立和分布的样本设置中才具有理论保证，但我们在非平稳环境中建立了这样的保证。为了展示我们方法的优点，我们设计了第一个DP算法，用于具有对数遗憾的高维广义线性土匪。使用多种DP-SCO和DP-Bandit算法的比较实验表现出所提出的算法的功效和实用性。

translated by 谷歌翻译

Differentially Private Stochastic Linear Bandits: (Almost) for Free

Osama A. Hanna , Antonious M. Girgis , Christina Fragouli , Suhas Diggavi

分类：机器学习

2022-07-07

在本文中，我们提出了针对中央，局部和洗牌模型中随机线性匪徒问题的差异私有算法。在中心模型中，我们获得了与最佳非私有算法的遗憾，这意味着我们可以免费获得隐私。特别是，我们感到遗憾的是$ \ tilde {o}（\ sqrt {t}+\ frac {1} {\ epsilon}）$匹配已知的私有线性匪徒的较低限制，而最佳以前已知的算法实现了$ \ tilde {o}（\ frac {1} {\ epsilon} \ sqrt {t}）$。在当地情况下，我们感到遗憾的是$ \ tilde {o}（\ frac {1} {\ epsilon} {\ sqrt {t}} $，与常数$ \ epsilon $相匹配的非私人遗憾，但是当$ \ epsilon $很小时，会受到遗憾的处罚。在洗牌模型中，我们还遗憾地对$ \ tilde {o}（\ sqrt {t}+\ frac {1} {\ epsilon} {\ epsilon}）$％$ \ epsilon $，如中心案例，而最佳情况是以前已知的算法对$ \ tilde {o}（\ frac {1} {\ epsilon} {t^{3/5}}）$感到遗憾。我们的数值评估验证了我们的理论结果。

translated by 谷歌翻译

The Fragility of Optimized Bandit Algorithms

Lin Fan , Peter W. Glynn

分类：机器学习

2021-09-28

关于强盗算法最佳设计的许多文献都是基于最小化预期遗憾的基础。众所周知，在某些指数家庭中最佳的设计可以实现预期的遗憾，即以LAI-ROBBINS下降的速度在ARM游戏数量上进行对数增长。在本文中，我们表明，当人们使用这种优化的设计时，相关算法的遗憾分布必然具有非常沉重的尾巴，特别是cauchy分布的尾巴。此外，对于$ p> 1 $，遗憾分布的$ p $'瞬间增长速度要比多层型的速度快得多，尤其是作为ARM播放总数的力量。我们表明，优化的UCB强盗设计在另一种意义上也是脆弱的，即，当问题甚至略有指定时，遗憾的增长可能比传统理论所建议的要快得多。我们的论点是基于标准的量化想法，并表明最有可能的遗憾变得比预期的要大的方法是最佳手臂在前几只手臂比赛中返回低于平均水平的奖励，从而导致算法相信这一点手臂是最佳的。为了减轻暴露的脆弱性问题，我们表明可以修改UCB算法，以确保对错误指定的理想程度。在此过程中，我们还提供了UCB勘探数量与产生后悔分布的尾声之间的巨大权衡。

translated by 谷歌翻译

Distributed Differential Privacy in Multi-Armed Bandits

Sayak Ray Chowdhury , Xingyu Zhou

分类：机器学习

2022-06-12

我们考虑在差异隐私（DP）的分布式信任模型下考虑标准的$ k $武装匪徒问题，该问题使得无需可信赖的服务器保证隐私。在此信任模型下，先前的工作主要集中在使用Shuffle协议实现隐私，在此过程中，在发送到中央服务器之前，将一批用户数据随机排列。通过牺牲额外的添加剂$ o \！\ left（\！\ frac {k \ log t \ sqrt {\ log（1/\ delta）}} } {\ epsilon} \！\ right）\！$在$ t $ - 步骤累积遗憾中成本。相比之下，在广泛使用的中央信托模型下实现更强（$ \ epsilon，0 $）或纯dp保证的最佳隐私成本仅为$ \ theta \！\ left（\！\ frac {k \ log t t t } {\ epsilon} \！\ right）\！$，但是，需要一个受信任的服务器。在这项工作中，我们旨在获得分布式信托模型下的纯DP保证，同时牺牲比中央信托模型的遗憾。我们通过基于连续的ARM消除设计通用的匪徒算法来实现这一目标，在这种情况下，通过使用安全的计算协议确保使用等效的离散拉普拉斯噪声来损坏奖励来保证隐私。我们还表明，当使用Skellam噪声和安全协议实例化时，我们的算法可确保\ emph {r \'{e} nyi差异隐私} - 一个比分布式信任模型的近似dp更强的概念$ o \！\ left（\！\ frac {k \ sqrt {\ log t}}}} {\ epsilon} \！\ right）\！$。

translated by 谷歌翻译

Differentially Private Exploration in Reinforcement Learning with Linear Representation

Paul Luyo , Evrard Garcelon , Alessandro Lazaric , Matteo Pirotta

分类：机器学习

2021-12-02

本文研究了Markov决策过程（MDP）的隐私保留探索，线性表示。我们首先考虑线性混合MDP（Ayoub等，2020）（A.K.A.基于模型的设置）的设置，并提供统一的框架，用于分析关节和局部差异私有（DP）探索。通过这个框架，我们证明了一个$ \ widetilde {o}（k ^ {3/4} / \ sqrt {\ epsilon}）$遗憾绑定$（\ epsilon，\ delta）$ - 本地DP探索和$ \widetilde {o}（\ sqrt {k / \ epsilon}）$后悔绑定$（\ epsilon，\ delta）$ - 联合dp。我们进一步研究了Linear MDP中的隐私保留探索（Jin等，2020）（AKA \ Forws-Free Setting），我们提供$ \ widetilde {o}（\ sqrt {k / \ epsilon}）$后悔绑定$（\ epsilon，\ delta）$ - 关节dp，具有基于低切换的新型算法。最后，我们提供了在这种无模型设置中设计本地DP算法的问题的见解。

translated by 谷歌翻译