土匪算法已成为交互式建议的参考解决方案。但是,由于这种算法直接与用户进行改进的建议,因此对其实际使用提出了严重的隐私问题。在这项工作中,我们通过基于树的机制提出了一种差异性的线性上下文匪徒算法,以将拉普拉斯或高斯噪声添加到模型参数中。我们的关键见解是,随着模型在在线更新过程中收敛时,其参数的全局灵敏度随着时间的推移而缩小(因此命名为动态全局灵敏度)。与现有解决方案相比,我们动态的全球敏感性分析使我们能够减少噪声以获得$(\ epsilon,\ delta)$ - 差异隐私,并具有$ \ tilde o(\ log {t} \ sqrt中的噪声注入引起的额外遗憾) {t}/\ epsilon)$。我们通过动态全局灵敏度和我们提出的算法的相应上后悔界限提供了严格的理论分析。合成和现实世界数据集的实验结果证实了该算法对现有解决方案的优势。
translated by 谷歌翻译
差异化(DP)随机凸优化(SCO)在可信赖的机器学习算法设计中无处不在。本文研究了DP-SCO问题,该问题是从分布中采样并顺序到达的流媒体数据。我们还考虑了连续发布模型,其中与私人信息相关的参数已在每个新数据(通常称为在线算法)上更新和发布。尽管已经开发了许多算法,以实现不同$ \ ell_p $ norm几何的最佳多余风险,但是没有一个现有的算法可以适应流和持续发布设置。为了解决诸如在线凸优化和隐私保护的挑战,我们提出了一种在线弗兰克 - 沃尔夫算法的私人变体,并带有递归梯度,以减少差异,以更新和揭示每个数据上的参数。结合自适应差异隐私分析,我们的在线算法在线性时间中实现了最佳的超额风险,当$ 1 <p \ leq 2 $和最先进的超额风险达到了非私人较低的风险时,当$ 2 <p \ p \ $ 2 <p \ leq \ infty $。我们的算法也可以扩展到$ p = 1 $的情况,以实现几乎与维度无关的多余风险。虽然先前的递归梯度降低结果仅在独立和分布的样本设置中才具有理论保证,但我们在非平稳环境中建立了这样的保证。为了展示我们方法的优点,我们设计了第一个DP算法,用于具有对数遗憾的高维广义线性土匪。使用多种DP-SCO和DP-Bandit算法的比较实验表现出所提出的算法的功效和实用性。
translated by 谷歌翻译
我们研究对线性随机匪徒的对抗攻击:通过操纵奖励,对手旨在控制匪徒的行为。也许令人惊讶的是,我们首先表明某些攻击目标永远无法实现。这与无上下文的随机匪徒形成了鲜明的对比,并且本质上是由于线性随机陆上的臂之间的相关性。在这一发现的激励下,本文研究了$ k $武装的线性匪徒环境的攻击性。我们首先根据武器上下文向量的几何形状提供了攻击性的完全必要性和充分性表征。然后,我们提出了针对Linucb和鲁棒相消除的两阶段攻击方法。该方法首先断言给定环境是否可攻击;而且,如果是的话,它会付出巨大的奖励,以强迫算法仅使用sublinear成本来拉动目标臂线性时间。数值实验进一步验证了拟议攻击方法的有效性和成本效益。
translated by 谷歌翻译
我们考虑在差异隐私(DP)的分布式信任模型下考虑标准的$ k $武装匪徒问题,该问题使得无需可信赖的服务器保证隐私。在此信任模型下,先前的工作主要集中在使用Shuffle协议实现隐私,在此过程中,在发送到中央服务器之前,将一批用户数据随机排列。通过牺牲额外的添加剂$ o \!\ left(\!\ frac {k \ log t \ sqrt {\ log(1/\ delta)}} } {\ epsilon} \!\ right)\!$在$ t $ - 步骤累积遗憾中成本。相比之下,在广泛使用的中央信托模型下实现更强($ \ epsilon,0 $)或纯dp保证的最佳隐私成本仅为$ \ theta \!\ left(\!\ frac {k \ log t t t } {\ epsilon} \!\ right)\!$,但是,需要一个受信任的服务器。在这项工作中,我们旨在获得分布式信托模型下的纯DP保证,同时牺牲比中央信托模型的遗憾。我们通过基于连续的ARM消除设计通用的匪徒算法来实现这一目标,在这种情况下,通过使用安全的计算协议确保使用等效的离散拉普拉斯噪声来损坏奖励来保证隐私。我们还表明,当使用Skellam噪声和安全协议实例化时,我们的算法可确保\ emph {r \'{e} nyi差异隐私} - 一个比分布式信任模型的近似dp更强的概念$ o \!\ left(\!\ frac {k \ sqrt {\ log t}}}} {\ epsilon} \!\ right)\!$。
translated by 谷歌翻译
我们研究了具有$ \ epsilon $ -Global差异隐私(DP)的多臂土匪的问题。首先,我们证明了使用$ \ epsilon $ -Global DP量化土匪硬度的随机和线性土匪的最小值和问题依赖的后悔下限。这些界限表明存在两个硬度制度,具体取决于隐私预算$ \ epsilon $。在高私人制度(小$ \ epsilon $)中,硬度取决于隐私的耦合效果以及有关奖励分布的部分信息。在低私人制度(大$ \ epsilon $)中,具有$ \ epsilon $ -Global DP的土匪并不比没有隐私的土匪更难。对于随机匪徒,我们进一步提出了一个通用框架,以设计基于索引的乐观强盗算法的近乎最佳的$ \ epsilon $全局DP扩展。该框架由三种成分组成:拉普拉斯机制,依赖手臂的自适应发作以及仅在最后一集中收集的奖励来计算私人统计数据。具体而言,我们实例化了UCB和KL-UCB算法的Epsilon $ -Global DP扩展,即ADAP-UCB和ADAP-KLUCB。 Adap-klucb是两者都满足$ \ epsilon $ -Global DP的第一种算法,并产生了遗憾的上限,与问题依赖性下限与乘法常数相匹配。
translated by 谷歌翻译
我们研究依靠敏感数据(例如医疗记录)的环境的顺序决策中,研究隐私的探索。特别是,我们专注于解决在线性MDP设置中受(联合)差异隐私的约束的增强学习问题(RL),在该设置中,动态和奖励均由线性函数给出。由于Luyo等人而引起的此问题的事先工作。 (2021)实现了$ o(k^{3/5})$的依赖性的遗憾率。我们提供了一种私人算法,其遗憾率提高,最佳依赖性为$ o(\ sqrt {k})$对情节数量。我们强烈遗憾保证的关键配方是策略更新时间表中的适应性,其中仅在检测到数据足够更改时才发生更新。结果,我们的算法受益于低切换成本,并且仅执行$ o(\ log(k))$更新,这大大降低了隐私噪声的量。最后,在最普遍的隐私制度中,隐私参数$ \ epsilon $是一个常数,我们的算法会造成可忽略不计的隐私成本 - 与现有的非私人遗憾界限相比,由于隐私而引起的额外遗憾在低阶中出现了术语。
translated by 谷歌翻译
上下文多臂强盗(MAB)是推荐系统中重要的顺序决策问题。一系列称为土匪(俱乐部)聚集的作品,利用了对用户的协作效果,并显着提高了建议质量。由于应用程序量表的日益增加和对隐私的关注,因此需求不断增加,以使用户数据分散并将匪徒学习推向本地服务器端。但是,现有的俱乐部算法是在中央服务器上可用的集中设置下设计的。我们专注于研究Bandit(FCLUB)问题的联合在线聚类,该问题旨在最大程度地减少遗憾,同时满足隐私和沟通的考虑。我们为群集检测设计了一种新的基于阶段的方案,并为解决此问题的合作强盗学习提供了一种新型的异步通信协议。为了保护用户的隐私,以前的差异隐私(DP)定义不是很合适,我们提出了一个在用户群集级别上起作用的新DP概念。我们提供了严格的证据,以证明我们的算法同时实现(聚类)DP,sublrinear沟通复杂性和sublrinear遗憾。最后,实验评估表明,与基准算法相比,我们的表现出色。
translated by 谷歌翻译
在本文中,我们提出了针对中央,局部和洗牌模型中随机线性匪徒问题的差异私有算法。在中心模型中,我们获得了与最佳非私有算法的遗憾,这意味着我们可以免费获得隐私。特别是,我们感到遗憾的是$ \ tilde {o}(\ sqrt {t}+\ frac {1} {\ epsilon})$匹配已知的私有线性匪徒的较低限制,而最佳以前已知的算法实现了$ \ tilde {o}(\ frac {1} {\ epsilon} \ sqrt {t})$。在当地情况下,我们感到遗憾的是$ \ tilde {o}(\ frac {1} {\ epsilon} {\ sqrt {t}} $,与常数$ \ epsilon $相匹配的非私人遗憾,但是当$ \ epsilon $很小时,会受到遗憾的处罚。在洗牌模型中,我们还遗憾地对$ \ tilde {o}(\ sqrt {t}+\ frac {1} {\ epsilon} {\ epsilon})$%$ \ epsilon $,如中心案例,而最佳情况是以前已知的算法对$ \ tilde {o}(\ frac {1} {\ epsilon} {t^{3/5}})$感到遗憾。我们的数值评估验证了我们的理论结果。
translated by 谷歌翻译
上下文强盗算法广泛用于域中,其中期望通过利用上下文信息提供个性化服务,这可能包含需要保护的敏感信息。灵感来自这种情况,我们研究了差异隐私(DP)约束的上下文线性强盗问题。虽然文献专注于集中式(联合DP)或本地(本地DP)隐私,但我们考虑了隐私的洗牌模型,我们表明可以在JDP和LDP之间实现隐私/实用权折衷。通过利用隐私和批处理从匪徒进行洗牌,我们介绍了一个遗憾的遗留率$ \ widetilde {\ mathcal {o}}(t ^ {2/3} / \ varepsilon ^ {1/3})$,同时保证中央(联合)和当地隐私。我们的结果表明,通过利用Shuffle模型在保留本地隐私时,可以在JDP和LDP之间获得权衡。
translated by 谷歌翻译
本文研究了Markov决策过程(MDP)的隐私保留探索,线性表示。我们首先考虑线性混合MDP(Ayoub等,2020)(A.K.A.基于模型的设置)的设置,并提供统一的框架,用于分析关节和局部差异私有(DP)探索。通过这个框架,我们证明了一个$ \ widetilde {o}(k ^ {3/4} / \ sqrt {\ epsilon})$遗憾绑定$(\ epsilon,\ delta)$ - 本地DP探索和$ \widetilde {o}(\ sqrt {k / \ epsilon})$后悔绑定$(\ epsilon,\ delta)$ - 联合dp。我们进一步研究了Linear MDP中的隐私保留探索(Jin等,2020)(AKA \ Forws-Free Setting),我们提供$ \ widetilde {o}(\ sqrt {k / \ epsilon})$后悔绑定$(\ epsilon,\ delta)$ - 关节dp,具有基于低切换的新型算法。最后,我们提供了在这种无模型设置中设计本地DP算法的问题的见解。
translated by 谷歌翻译
We study the best-arm identification problem in multi-armed bandits with stochastic, potentially private rewards, when the goal is to identify the arm with the highest quantile at a fixed, prescribed level. First, we propose a (non-private) successive elimination algorithm for strictly optimal best-arm identification, we show that our algorithm is $\delta$-PAC and we characterize its sample complexity. Further, we provide a lower bound on the expected number of pulls, showing that the proposed algorithm is essentially optimal up to logarithmic factors. Both upper and lower complexity bounds depend on a special definition of the associated suboptimality gap, designed in particular for the quantile bandit problem, as we show when the gap approaches zero, best-arm identification is impossible. Second, motivated by applications where the rewards are private, we provide a differentially private successive elimination algorithm whose sample complexity is finite even for distributions with infinite support-size, and we characterize its sample complexity. Our algorithms do not require prior knowledge of either the suboptimality gap or other statistical information related to the bandit problem at hand.
translated by 谷歌翻译
在本文中,我们仅使用部分分布式反馈来研究全球奖励最大化的问题。这个问题是由几个现实世界应用程序(例如蜂窝网络配置,动态定价和政策选择)激发的,其中中央实体采取的行动会影响有助于全球奖励的大量人群。但是,从整个人群那里收集此类奖励反馈不仅会产生高昂的成本,而且经常导致隐私问题。为了解决此问题,我们考虑了差异的私有分布式线性土匪,其中只选择了来自人群的一部分用户(称为客户)来参与学习过程,并且中央服务器通过迭代地汇总这些部分从这种部分反馈中学习了全局模型客户的本地反馈以差异化的方式。然后,我们提出了一个统一的算法学习框架,称为差异性分布式分布式消除(DP-DPE),该框架可以与流行的差异隐私(DP)模型(包括中央DP,Local DP,Local DP和Shuffle DP)自然集成。此外,我们证明DP-DPE既可以达到统一的遗憾,又实现了额定性沟通成本。有趣的是,DP-DPE也可以“免费”获得隐私保护,这是因为由于隐私保证是一个较低的加法术语。此外,作为我们技术的副产品,对于标准的差异私有线性匪徒,也可以实现“自由”隐私的相同结果。最后,我们进行模拟以证实我们的理论结果并证明DP-DPE的有效性。
translated by 谷歌翻译
We study the problem of preserving privacy while still providing high utility in sequential decision making scenarios in a changing environment. We consider abruptly changing environment: the environment remains constant during periods and it changes at unknown time instants. To formulate this problem, we propose a variant of multi-armed bandits called non-stationary stochastic corrupt bandits. We construct an algorithm called SW-KLUCB-CF and prove an upper bound on its utility using the performance measure of regret. The proven regret upper bound for SW-KLUCB-CF is near-optimal in the number of time steps and matches the best known bound for analogous problems in terms of the number of time steps and the number of changes. Moreover, we present a provably optimal mechanism which can guarantee the desired level of local differential privacy while providing high utility.
translated by 谷歌翻译
在差异隐私(DP)的约束下,我们在有限地域表格马尔可夫决策过程(MDP)中研究了遗憾最小化。这是由强化学习(RL)在现实世界顺序决策中的广泛应用程序的推动,保护用户敏感和私人信息变得最大程度。我们考虑了两种DP - 关节DP(JDP)的变体,其中集中式代理负责保护用户的敏感数据和本地DP(LDP),其中需要直接在用户端保护信息。我们首先提出了两个一般框架 - 一个用于策略优化,另一个用于迭代 - 用于设计私有,乐观的RL算法。然后,我们将这些框架实例化了合适的隐私机制来满足JDP和LDP要求,并同时获得Sublinear遗憾担保。遗憾的界限表明,在JDP下,隐私费用只是较低的秩序添加剂项,而在LDP下,对于更强的隐私保护,遭受的成本是乘法的。最后,通过统一的分析获得了遗憾范围,我们相信,我们相信,可以超出表格MDP。
translated by 谷歌翻译
我们为随机线性匪徒问题提出了一种新的基于自举的在线算法。关键的想法是采用残留的自举勘探,在该探索中,代理商通过重新采样平均奖励估算的残差来估算下一步奖励。我们的算法,随机线性匪徒(\ texttt {linreboot})的残留bootstrap探索,从其重新采样分布中估算了线性奖励,并以最高的奖励估计拉动了手臂。特别是,我们为理论框架做出了一个理论框架,以使基于自举的探索机制在随机线性匪徒问题中脱颖而出。关键见解是,Bootstrap探索的强度基于在线学习模型和残差的重新采样分布之间的乐观情绪。这样的观察使我们能够证明所提出的\ texttt {linreboot}确保了高概率$ \ tilde {o}(d \ sqrt {n})$ sub-linear在温和条件下的遗憾。我们的实验支持\ texttt {重新启动}原理在线性匪徒问题的各种公式中的简易概括性,并显示了\ texttt {linreboot}的显着计算效率。
translated by 谷歌翻译
我们为线性上下文匪徒提出了一种新颖的算法(\ sqrt {dt \ log t})$遗憾,其中$ d $是上下文的尺寸,$ t $是时间范围。我们提出的算法配备了一种新型估计量,其中探索通过显式随机化嵌入。根据随机化的不同,我们提出的估计器从所有武器的上下文或选定的上下文中都取得了贡献。我们为我们的估计器建立了一个自称的绑定,这使累积遗憾的新颖分解为依赖添加剂的术语而不是乘法术语。在我们的问题设置下,我们还证明了$ \ omega(\ sqrt {dt})$的新颖下限。因此,我们提出的算法的遗憾与对数因素的下限相匹配。数值实验支持理论保证,并表明我们所提出的方法的表现优于现有的线性匪徒算法。
translated by 谷歌翻译
我们研究在上下文多臂强盗(MAB)中识别用户簇。上下文mAB是许多真实应用程序的有效工具,例如内容建议和在线广告。实际上,用户依赖性在用户的操作以及奖励中起着至关重要的作用。聚类相似的用户可以提高奖励估计的质量,从而导致更有效的内容建议和有针对性的广告。与传统的聚类设置不同,我们基于未知的匪徒参数聚类用户,该参数将逐步估算。特别是,我们在上下文mAB中定义了群集检测的问题,并提出了一种带有局部聚类过程的Bandit算法,LocB,LocB。而且,我们就聚类的正确性和效率及其遗憾束缚的理论分析提供了有关LICB的理论分析。最后,我们从各个方面评估了提出的算法,这些算法的表现优于最先进的基准。
translated by 谷歌翻译
我们在存在对抗性腐败的情况下研究线性上下文的强盗问题,在场,每回合的奖励都被对手损坏,腐败级别(即,地平线上的腐败总数)为$ c \ geq 0 $。在这种情况下,最著名的算法受到限制,因为它们要么在计算效率低下,要么需要对腐败做出强烈的假设,或者他们的遗憾至少比没有腐败的遗憾差的$ C $倍。在本文中,为了克服这些局限性,我们提出了一种基于不确定性的乐观原则的新算法。我们算法的核心是加权山脊回归,每个选择动作的重量都取决于其置信度,直到一定的阈值。 We show that for both known $C$ and unknown $C$ cases, our algorithm with proper choice of hyperparameter achieves a regret that nearly matches the lower bounds.因此,我们的算法几乎是两种情况的对数因素的最佳选择。值得注意的是,我们的算法同时对腐败和未腐败的案件($ c = 0 $)实现了近乎最理想的遗憾。
translated by 谷歌翻译
We consider the classic online learning and stochastic multi-armed bandit (MAB) problems, when at each step, the online policy can probe and find out which of a small number ($k$) of choices has better reward (or loss) before making its choice. In this model, we derive algorithms whose regret bounds have exponentially better dependence on the time horizon compared to the classic regret bounds. In particular, we show that probing with $k=2$ suffices to achieve time-independent regret bounds for online linear and convex optimization. The same number of probes improve the regret bound of stochastic MAB with independent arms from $O(\sqrt{nT})$ to $O(n^2 \log T)$, where $n$ is the number of arms and $T$ is the horizon length. For stochastic MAB, we also consider a stronger model where a probe reveals the reward values of the probed arms, and show that in this case, $k=3$ probes suffice to achieve parameter-independent constant regret, $O(n^2)$. Such regret bounds cannot be achieved even with full feedback after the play, showcasing the power of limited ``advice'' via probing before making the play. We also present extensions to the setting where the hints can be imperfect, and to the case of stochastic MAB where the rewards of the arms can be correlated.
translated by 谷歌翻译
The offline reinforcement learning (RL) problem is often motivated by the need to learn data-driven decision policies in financial, legal and healthcare applications. However, the learned policy could retain sensitive information of individuals in the training data (e.g., treatment and outcome of patients), thus susceptible to various privacy risks. We design offline RL algorithms with differential privacy guarantees which provably prevent such risks. These algorithms also enjoy strong instance-dependent learning bounds under both tabular and linear Markov decision process (MDP) settings. Our theory and simulation suggest that the privacy guarantee comes at (almost) no drop in utility comparing to the non-private counterpart for a medium-size dataset.
translated by 谷歌翻译