通信瓶颈和数据隐私是联邦多武装强盗(MAB)问题中的两个至关重要的问题,例如通过无线连接车辆的决策和建议的情况。在本文中,我们在这些问题中设计了隐私保留的通信有效的算法,并在遗憾方面研究隐私,沟通和学习绩效之间的互动。具体而言,我们设计隐私保留的学习算法和通信协议,并在网络私人代理在主工作人员,分散和混合结构中进行在线强盗学习时,从而导出学习遗憾。我们的强盗学习算法基于每个代理和代理在每个时代结束时与服务器/彼此交换学习知识的庞大的子最优手臂。此外,我们采用差异隐私(DP)方法在交换信息时保护每个代理人的数据隐私;并且我们通过减少频繁的沟通与较少的代理商参与来缩短沟通成本。通过分析我们拟议的算法框架,在硕士劳动,分散和混合结构中的暗示框架,理论上显示了遗憾和沟通成本/隐私之间的权衡。最后,我们经验展示了与我们理论分析一致的这些权衡。
translated by 谷歌翻译
合作匪徒问题越来越多地成为其在大规模决策中的应用。然而,对此问题的大多数研究专注于具有完美通信的环境,而在大多数现实世界分布式设置中,通信通常是随机网络,具有任意损坏和延迟。在本文中,我们在三个典型的真实沟通场景下研究了合作匪徒学习,即(a)通过随机时变网络的消息传递,(b)通过随机延迟的网络瞬时奖励共享(c )通过对冲损坏的奖励来传递消息,包括拜占庭式沟通。对于每个环境中的每一个,我们提出了实现竞争性能的分散算法,以及在发生的群体后悔的近乎最佳保证。此外,在具有完美通信的环境中,我们提出了一种改进的延迟更新算法,其优于各种网络拓扑的现有最先进的算法。最后,我们在集团后悔呈现紧密的网络依赖性最低限度。我们所提出的算法很简单,以实现和获得竞争性的经验性能。
translated by 谷歌翻译
在本文中,我们仅使用部分分布式反馈来研究全球奖励最大化的问题。这个问题是由几个现实世界应用程序(例如蜂窝网络配置,动态定价和政策选择)激发的,其中中央实体采取的行动会影响有助于全球奖励的大量人群。但是,从整个人群那里收集此类奖励反馈不仅会产生高昂的成本,而且经常导致隐私问题。为了解决此问题,我们考虑了差异的私有分布式线性土匪,其中只选择了来自人群的一部分用户(称为客户)来参与学习过程,并且中央服务器通过迭代地汇总这些部分从这种部分反馈中学习了全局模型客户的本地反馈以差异化的方式。然后,我们提出了一个统一的算法学习框架,称为差异性分布式分布式消除(DP-DPE),该框架可以与流行的差异隐私(DP)模型(包括中央DP,Local DP,Local DP和Shuffle DP)自然集成。此外,我们证明DP-DPE既可以达到统一的遗憾,又实现了额定性沟通成本。有趣的是,DP-DPE也可以“免费”获得隐私保护,这是因为由于隐私保证是一个较低的加法术语。此外,作为我们技术的副产品,对于标准的差异私有线性匪徒,也可以实现“自由”隐私的相同结果。最后,我们进行模拟以证实我们的理论结果并证明DP-DPE的有效性。
translated by 谷歌翻译
上下文多臂强盗(MAB)是推荐系统中重要的顺序决策问题。一系列称为土匪(俱乐部)聚集的作品,利用了对用户的协作效果,并显着提高了建议质量。由于应用程序量表的日益增加和对隐私的关注,因此需求不断增加,以使用户数据分散并将匪徒学习推向本地服务器端。但是,现有的俱乐部算法是在中央服务器上可用的集中设置下设计的。我们专注于研究Bandit(FCLUB)问题的联合在线聚类,该问题旨在最大程度地减少遗憾,同时满足隐私和沟通的考虑。我们为群集检测设计了一种新的基于阶段的方案,并为解决此问题的合作强盗学习提供了一种新型的异步通信协议。为了保护用户的隐私,以前的差异隐私(DP)定义不是很合适,我们提出了一个在用户群集级别上起作用的新DP概念。我们提供了严格的证据,以证明我们的算法同时实现(聚类)DP,sublrinear沟通复杂性和sublrinear遗憾。最后,实验评估表明,与基准算法相比,我们的表现出色。
translated by 谷歌翻译
我们考虑在差异隐私(DP)的分布式信任模型下考虑标准的$ k $武装匪徒问题,该问题使得无需可信赖的服务器保证隐私。在此信任模型下,先前的工作主要集中在使用Shuffle协议实现隐私,在此过程中,在发送到中央服务器之前,将一批用户数据随机排列。通过牺牲额外的添加剂$ o \!\ left(\!\ frac {k \ log t \ sqrt {\ log(1/\ delta)}} } {\ epsilon} \!\ right)\!$在$ t $ - 步骤累积遗憾中成本。相比之下,在广泛使用的中央信托模型下实现更强($ \ epsilon,0 $)或纯dp保证的最佳隐私成本仅为$ \ theta \!\ left(\!\ frac {k \ log t t t } {\ epsilon} \!\ right)\!$,但是,需要一个受信任的服务器。在这项工作中,我们旨在获得分布式信托模型下的纯DP保证,同时牺牲比中央信托模型的遗憾。我们通过基于连续的ARM消除设计通用的匪徒算法来实现这一目标,在这种情况下,通过使用安全的计算协议确保使用等效的离散拉普拉斯噪声来损坏奖励来保证隐私。我们还表明,当使用Skellam噪声和安全协议实例化时,我们的算法可确保\ emph {r \'{e} nyi差异隐私} - 一个比分布式信任模型的近似dp更强的概念$ o \!\ left(\!\ frac {k \ sqrt {\ log t}}}} {\ epsilon} \!\ right)\!$。
translated by 谷歌翻译
本文研究了多功能网络网络中分散的多武装强盗问题。当他们面对一套常见的M武器并分享每个ARM奖励的相同均值,问题是由N代理同时解决的。每个代理可以从其邻居接收信息,其中代理之间的邻居关系由其顶点代表代理的定向图描述,并且其定向边缘描绘了邻居关系。针对每个试剂提出了一种完全分散的多武装强盗算法,其曲折了经典共识算法和上置信算法(UCB)算法。结果表明,该算法保证了每个代理,以实现比邻居图强烈连接的经典UCB更好的对数渐近遗憾。如果邻居图无向,则可以进一步提高遗憾。
translated by 谷歌翻译
We consider distributed linear bandits where $M$ agents learn collaboratively to minimize the overall cumulative regret incurred by all agents. Information exchange is facilitated by a central server, and both the uplink and downlink communications are carried over channels with fixed capacity, which limits the amount of information that can be transmitted in each use of the channels. We investigate the regret-communication trade-off by (i) establishing information-theoretic lower bounds on the required communications (in terms of bits) for achieving a sublinear regret order; (ii) developing an efficient algorithm that achieves the minimum sublinear regret order offered by centralized learning using the minimum order of communications dictated by the information-theoretic lower bounds. For sparse linear bandits, we show a variant of the proposed algorithm offers better regret-communication trade-off by leveraging the sparsity of the problem.
translated by 谷歌翻译
在线学习环境(即联合学习(FL))中,合作学习范式的迅速增加。与大多数FL设置不同,在许多情况下,代理商具有竞争力。每个代理商都想向他人学习,但是它为他人分享的信息的一部分可能很敏感。因此,它希望其隐私。这项工作调查了一组代理人同时工作,以解决类似的组合匪徒问题,同时保持质量约束。这些代理商可以通过使用差异隐私来保密其敏感信息的同时学习敏感信息吗?我们观察到交流可以减少遗憾。但是,保护敏感信息的差异隐私技术使数据嘈杂,并且可能会恶化,而不是帮助改善遗憾。因此,我们注意到,必须决定何时交流以及学习哪些共享数据以学会在遗憾和隐私之间取得功能平衡。对于这样的联合组合MAB设置,我们提出了一个保护隐私的联合联合组合匪徒,P-FCB。我们通过模拟说明了P-FCB的功效。我们进一步表明,我们的算法在遗憾方面提供了改善,同时维护质量阈值和有意义的隐私保证。
translated by 谷歌翻译
We study distributed contextual linear bandits with stochastic contexts, where $N$ agents act cooperatively to solve a linear bandit-optimization problem with $d$-dimensional features over the course of $T$ rounds. For this problem, we derive the first ever information-theoretic lower bound $\Omega(dN)$ on the communication cost of any algorithm that performs optimally in a regret minimization setup. We then propose a distributed batch elimination version of the LinUCB algorithm, DisBE-LUCB, where the agents share information among each other through a central server. We prove that the communication cost of DisBE-LUCB matches our lower bound up to logarithmic factors. In particular, for scenarios with known context distribution, the communication cost of DisBE-LUCB is only $\tilde{\mathcal{O}}(dN)$ and its regret is ${\tilde{\mathcal{O}}}(\sqrt{dNT})$, which is of the same order as that incurred by an optimal single-agent algorithm for $NT$ rounds. We also provide similar bounds for practical settings where the context distribution can only be estimated. Therefore, our proposed algorithm is nearly minimax optimal in terms of \emph{both regret and communication cost}. Finally, we propose DecBE-LUCB, a fully decentralized version of DisBE-LUCB, which operates without a central server, where agents share information with their \emph{immediate neighbors} through a carefully designed consensus procedure.
translated by 谷歌翻译
在本文中,我们提出了针对中央,局部和洗牌模型中随机线性匪徒问题的差异私有算法。在中心模型中,我们获得了与最佳非私有算法的遗憾,这意味着我们可以免费获得隐私。特别是,我们感到遗憾的是$ \ tilde {o}(\ sqrt {t}+\ frac {1} {\ epsilon})$匹配已知的私有线性匪徒的较低限制,而最佳以前已知的算法实现了$ \ tilde {o}(\ frac {1} {\ epsilon} \ sqrt {t})$。在当地情况下,我们感到遗憾的是$ \ tilde {o}(\ frac {1} {\ epsilon} {\ sqrt {t}} $,与常数$ \ epsilon $相匹配的非私人遗憾,但是当$ \ epsilon $很小时,会受到遗憾的处罚。在洗牌模型中,我们还遗憾地对$ \ tilde {o}(\ sqrt {t}+\ frac {1} {\ epsilon} {\ epsilon})$%$ \ epsilon $,如中心案例,而最佳情况是以前已知的算法对$ \ tilde {o}(\ frac {1} {\ epsilon} {t^{3/5}})$感到遗憾。我们的数值评估验证了我们的理论结果。
translated by 谷歌翻译
We consider the decentralized exploration problem: a set of players collaborate to identify the best arm by asynchronously interacting with the same stochastic environment. The objective is to insure privacy in the best arm identification problem between asynchronous, collaborative, and thrifty players. In the context of a digital service, we advocate that this decentralized approach allows a good balance between the interests of users and those of service providers: the providers optimize their services, while protecting the privacy of the users and saving resources. We define the privacy level as the amount of information an adversary could infer by intercepting the messages concerning a single user. We provide a generic algorithm Decentralized Elimination, which uses any best arm identification algorithm as a subroutine. We prove that this algorithm insures privacy, with a low communication cost, and that in comparison to the lower bound of the best arm identification problem, its sample complexity suffers from a penalty depending on the inverse of the probability of the most frequent players. Then, thanks to the genericity of the approach, we extend the proposed algorithm to the non-stationary bandits. Finally, experiments illustrate and complete the analysis.
translated by 谷歌翻译
我们研究联合的上下文线性匪徒,其中$ m $代理相互合作,在中央服务器的帮助下解决全球上下文线性匪徒问题。我们考虑了异步设置,所有代理商都独立工作,一个代理和服务器之间的通信不会触发其他代理的通信。我们提出了一种基于乐观原理的简单算法\ texttt {fedlinucb}。我们证明\ texttt {fedlinucb}的遗憾是由$ \ tilde {o}(d \ sqrt {\ sum_ {m = 1}^m t_m})$界定的,通信复杂性是$ \ tilde {o}(o}(o}(o}(o}(o))dm^2)$,其中$ d $是上下文向量的尺寸,$ t_m $是与环境的交互总数,$ m $ -th代理。据我们所知,这是第一种可证明有效的算法,它允许联合上下文线性匪徒完全异步通信,同时获得与单一代理设置相同的遗憾保证。
translated by 谷歌翻译
土匪算法已成为交互式建议的参考解决方案。但是,由于这种算法直接与用户进行改进的建议,因此对其实际使用提出了严重的隐私问题。在这项工作中,我们通过基于树的机制提出了一种差异性的线性上下文匪徒算法,以将拉普拉斯或高斯噪声添加到模型参数中。我们的关键见解是,随着模型在在线更新过程中收敛时,其参数的全局灵敏度随着时间的推移而缩小(因此命名为动态全局灵敏度)。与现有解决方案相比,我们动态的全球敏感性分析使我们能够减少噪声以获得$(\ epsilon,\ delta)$ - 差异隐私,并具有$ \ tilde o(\ log {t} \ sqrt中的噪声注入引起的额外遗憾) {t}/\ epsilon)$。我们通过动态全局灵敏度和我们提出的算法的相应上后悔界限提供了严格的理论分析。合成和现实世界数据集的实验结果证实了该算法对现有解决方案的优势。
translated by 谷歌翻译
We consider the nonstochastic multi-agent multi-armed bandit problem with agents collaborating via a communication network with delays. We show a lower bound for individual regret of all agents. We show that with suitable regularizers and communication protocols, a collaborative multi-agent \emph{follow-the-regularized-leader} (FTRL) algorithm has an individual regret upper bound that matches the lower bound up to a constant factor when the number of arms is large enough relative to degrees of agents in the communication graph. We also show that an FTRL algorithm with a suitable regularizer is regret optimal with respect to the scaling with the edge-delay parameter. We present numerical experiments validating our theoretical results and demonstrate cases when our algorithms outperform previously proposed algorithms.
translated by 谷歌翻译
移动边缘计算有助于用户将计算任务卸载到边缘服务器,以满足其严格的延迟要求。以前的作品主要探讨给出系统侧信息时的任务卸载(例如,服务器处理速度,蜂窝数据速率)或系统不确定性的集中卸载。但两者普遍跌倒,以处理涉及动态和不确定环境中许多共存用户的任务安置。在本文中,我们开发了考虑未知随机系统侧信息的多用户卸载框架,以实现分散的用户发起的服务放置。具体而言,我们将动态任务放置作为在线多用户多武装强盗过程,并提出基于分散的epoch的卸载(DEBO),以优化在网络延迟下进行的用户奖励。我们表明DEBO可以推断最佳用户服务器分配,从而实现了近距离的服务性能和紧密的O(log t)卸载后悔。此外,我们将DEBO概括为各种常见场景,如未知的奖励差距,动态进入或离开客户,以及公平的奖励分发,同时进一步探索用户卸载任务需要异构计算资源。特别是,我们为这些实例中的每一个完成子线性遗憾。基于实际测量的评估证实了我们在优化延迟敏感奖励的最先进方法中的卸载方案的优势。
translated by 谷歌翻译
由于信息不对称,多智能经纪增强学习(Marl)问题是挑战。为了克服这一挑战,现有方法通常需要代理商之间的高度协调或沟通。我们考虑具有在应用中产生的分层信息结构的两个代理多武装匪徒(MAB)和MARKOV决策过程(MDP),我们利用不需要协调或通信的更简单和更高效的算法。在结构中,在每个步骤中,“领导者”首先选择她的行动,然后“追随者”在观察领导者的行动后,“追随者”决定他的行动。这两个代理观察了相同的奖励(以及MDP设置中的相同状态转换),这取决于其联合行动。对于强盗设置,我们提出了一种分层匪盗算法,实现了$ \ widetilde {\ mathcal {o}}(\ sqrt {abt})$和近最佳差距依赖的近乎最佳的差距遗憾$ \ mathcal {o}(\ log(t))$,其中$ a $和$ b $分别是领导者和追随者的行动数,$ t $是步数。我们进一步延伸到多个追随者的情况,并且具有深层层次结构的情况,在那里我们都获得了近乎最佳的遗憾范围。对于MDP设置,我们获得$ \ widetilde {\ mathcal {o}}(\ sqrt {h ^ 7s ^ 2abt})$后悔,其中$ h $是每集的步骤数,$ s $是数量各国,$ T $是剧集的数量。这与$ a,b $和$ t $的现有下限匹配。
translated by 谷歌翻译
Due mostly to its application to cognitive radio networks, multiplayer bandits gained a lot of interest in the last decade. A considerable progress has been made on its theoretical aspect. However, the current algorithms are far from applicable and many obstacles remain between these theoretical results and a possible implementation of multiplayer bandits algorithms in real cognitive radio networks. This survey contextualizes and organizes the rich multiplayer bandits literature. In light of the existing works, some clear directions for future research appear. We believe that a further study of these different directions might lead to theoretical algorithms adapted to real-world situations.
translated by 谷歌翻译
我们通过可共享的手臂设置概括了多武器的多臂土匪(MP-MAB)问题,其中几场比赛可以共享同一臂。此外,每个可共享的组都有有限的奖励能力和“每载”奖励分配,这两者都是学习者所不知道的。可共享臂的奖励取决于负载,这是“每载”奖励乘以拉动手臂的戏剧数量或当比赛数量超过容量限制时的奖励能力。当“按负载”奖励遵循高斯分布时,我们证明了样本复杂性的下限,从负载依赖的奖励中学习容量,也遗憾的是这个新的MP-MAB问题的下限。我们设计了一个容量估计器,其样品复杂性上限在奖励手段和能力方面与下限匹配。我们还提出了一种在线学习算法来解决该问题并证明其遗憾的上限。这个遗憾的上界的第一任期与遗憾的下限相同,其第二和第三个术语显然也对应于下边界。广泛的实验验证了我们算法的性能以及其在5G和4G基站选择中的增长。
translated by 谷歌翻译
我们考虑一个完全分散的多人多手随机多武装匪盗匪徒,其中玩家不能互相通信,并且只能观察自己的行为和奖励。环境可能与不同的播放器不同,$ \ texit {i.e.} $,给定臂的奖励分布在球员之间是异构的。在碰撞的情况下(当多个玩家播放相同的手臂时),我们允许碰撞玩家接收非零奖励。播放武器的时间 - 地平线$ t $是\ emph {否}对玩家已知。在此设置中,允许玩家的数量大于武器的数量,我们展示了一项达到订单优化预期令人遗憾的政策$ O(\ log ^ {1 + delta} t)$有些$ 0 <\ delta <1 $超过时间的时间$ t $。IEEE关于信息理论的交易中接受了本文。
translated by 谷歌翻译
Multi-player multi-armed bandit is an increasingly relevant decision-making problem, motivated by applications to cognitive radio systems. Most research for this problem focuses exclusively on the settings that players have \textit{full access} to all arms and receive no reward when pulling the same arm. Hence all players solve the same bandit problem with the goal of maximizing their cumulative reward. However, these settings neglect several important factors in many real-world applications, where players have \textit{limited access} to \textit{a dynamic local subset of arms} (i.e., an arm could sometimes be ``walking'' and not accessible to the player). To this end, this paper proposes a \textit{multi-player multi-armed walking bandits} model, aiming to address aforementioned modeling issues. The goal now is to maximize the reward, however, players can only pull arms from the local subset and only collect a full reward if no other players pull the same arm. We adopt Upper Confidence Bound (UCB) to deal with the exploration-exploitation tradeoff and employ distributed optimization techniques to properly handle collisions. By carefully integrating these two techniques, we propose a decentralized algorithm with near-optimal guarantee on the regret, and can be easily implemented to obtain competitive empirical performance.
translated by 谷歌翻译