在本文中,我们研究了时间速度与非IID数据的协作学习模型中学习过程的交流次数之间的权衡,其中多个代理与可能不同的环境互动,他们希望学习一个目标。汇总环境。我们在匪徒理论中使用一个基本问题,称为多臂匪徒中最佳ARM识别作为传递以下概念信息的工具:对非IID数据的协作学习比在IID数据上更加困难。特别是,我们显示以下内容:a)非IID数据设置中的加速度可能小于$ 1 $(即放缓)。当回合$ r = o(1)$的数量时,我们将至少需要多项式数量的代理(就武器数量而言)来实现大于$ 1 $的加速。这与IID数据设置形成鲜明对比,在$ r \ ge 2 $中,无论代理数量如何,加速度总是至少$ 1 $。 b)学习过程中的适应性无济于事。这与IID数据设置形成鲜明对比,为了实现相同的速度,最佳的非自适应算法需要比最佳自适应算法要大得多。在技​​术空间中,我们进一步开发了Arxiv:1904.03293中引入的广义消除技术。我们表明,在使用复杂的硬输入分布并直接证明自适应算法的下限时,分配类别的隐式表示非常有用。
translated by 谷歌翻译
我们在多机构学习模型中调查了Top-$ m $ ARM标识,这是Bandit理论中的一个基本问题,在该模型中,代理商合作学习目标函数。我们有兴趣设计使用最低沟通成本的协作学习算法,以实现最大的加速(与单人学习算法相比),因为沟通通常是多学院学习中的瓶颈。我们提供算法和不可能的结果,并进行一组实验以证明我们的算法的有效性。
translated by 谷歌翻译
The multi-armed bandit problem is a popular model for studying exploration/exploitation trade-off in sequential decision problems. Many algorithms are now available for this well-studied problem. One of the earliest algorithms, given by W. R. Thompson, dates back to 1933. This algorithm, referred to as Thompson Sampling, is a natural Bayesian algorithm. The basic idea is to choose an arm to play according to its probability of being the best arm. Thompson Sampling algorithm has experimentally been shown to be close to optimal. In addition, it is efficient to implement and exhibits several desirable properties such as small regret for delayed feedback. However, theoretical understanding of this algorithm was quite limited. In this paper, for the first time, we show that Thompson Sampling algorithm achieves logarithmic expected regret for the stochastic multi-armed bandit problem. More precisely, for the stochastic two-armed bandit problem, the expected regret in time T is O( ln T ∆ + 1 ∆ 3 ). And, for the stochastic N -armed bandit problem, the expected regret in time) 2 ln T ). Our bounds are optimal but for the dependence on ∆i and the constant factors in big-Oh.
translated by 谷歌翻译
我们研究了批量线性上下文匪徒的最佳批量遗憾权衡。对于任何批次数$ M $,操作次数$ k $,时间范围$ t $和维度$ d $,我们提供了一种算法,并证明了其遗憾的保证,这是由于技术原因,具有两阶段表达作为时间的时间$ t $ grose。我们还证明了一个令人奇迹的定理,令人惊讶地显示了在问题参数的“问题参数”中的两相遗憾(最高〜对数因子)的最优性,因此建立了确切的批量后悔权衡。与最近的工作\ citep {ruan2020linear}相比,这表明$ m = o(\ log \ log t)$批次实现无需批处理限制的渐近最佳遗憾的渐近最佳遗憾,我们的算法更简单,更易于实际实现。此外,我们的算法实现了所有$ t \ geq d $的最佳遗憾,而\ citep {ruan2020linear}要求$ t $大于$ d $的不切实际的大多项式。沿着我们的分析,我们还证明了一种新的矩阵集中不平等,依赖于他们的动态上限,这是我们的知识,这是其文学中的第一个和独立兴趣。
translated by 谷歌翻译
在本文中,我们制定了在内核强盗问题(COPE-KB)中的协作纯探索,它为在有限的通信和一般奖励函数下提供了一种用于多智能组件多任务决策的新型模型,并且适用于许多在线学习任务,例如,推荐系统和网络调度。我们考虑两个COPE-KB,即固定信道(FC)和固定预算(FB)的设置,以及设计两个最佳算法COOPKERNECC(FC)和Coopkerhelfb(FB)。我们的算法配备了创新和高效的核化估计,同时实现了计算和通信效率。建立统计和通信度量标准下的上限和下限以证明我们算法的最优性。理论界限成功地量化了任务相似性对学习加速度的影响,并且只取决于内核特征空间的有效维度。我们的分析技术,包括数据尺寸分解,线性结构化实例转换和(通信)圆形加速感应,是新颖的,适用于其他强盗问题。提供了实证评估以验证我们的理论结果,并展示我们算法的性能优势。
translated by 谷歌翻译
Consider the following abstract coin tossing problem: Given a set of $n$ coins with unknown biases, find the most biased coin using a minimal number of coin tosses. This is a common abstraction of various exploration problems in theoretical computer science and machine learning and has been studied extensively over the years. In particular, algorithms with optimal sample complexity (number of coin tosses) have been known for this problem for quite some time. Motivated by applications to processing massive datasets, we study the space complexity of solving this problem with optimal number of coin tosses in the streaming model. In this model, the coins are arriving one by one and the algorithm is only allowed to store a limited number of coins at any point -- any coin not present in the memory is lost and can no longer be tossed or compared to arriving coins. Prior algorithms for the coin tossing problem with optimal sample complexity are based on iterative elimination of coins which inherently require storing all the coins, leading to memory-inefficient streaming algorithms. We remedy this state-of-affairs by presenting a series of improved streaming algorithms for this problem: we start with a simple algorithm which require storing only $O(\log{n})$ coins and then iteratively refine it further and further, leading to algorithms with $O(\log\log{(n)})$ memory, $O(\log^*{(n)})$ memory, and finally a one that only stores a single extra coin in memory -- the same exact space needed to just store the best coin throughout the stream. Furthermore, we extend our algorithms to the problem of finding the $k$ most biased coins as well as other exploration problems such as finding top-$k$ elements using noisy comparisons or finding an $\epsilon$-best arm in stochastic multi-armed bandits, and obtain efficient streaming algorithms for these problems.
translated by 谷歌翻译
我们考虑激励探索:一种多臂匪徒的版本,其中武器的选择由自私者控制,而算法只能发布建议。该算法控制信息流,信息不对称可以激励代理探索。先前的工作达到了最佳的遗憾率,直到乘法因素,这些因素根据贝叶斯先验而变得很大,并在武器数量上成倍规模扩展。采样每只手臂的一个更基本的问题一旦遇到了类似的因素。我们专注于激励措施的价格:出于激励兼容的目的,绩效的损失,广泛解释为。我们证明,如果用足够多的数据点初始化,则标准的匪徒汤普森采样是激励兼容的。因此,当收集这些数据点时,由于激励措施的绩效损失仅限于初始回合。这个问题主要降低到样本复杂性的问题:需要多少个回合?我们解决了这个问题,提供了匹配的上限和下限,并在各种推论中实例化。通常,最佳样品复杂性在“信念强度”中的武器数量和指数中是多项式。
translated by 谷歌翻译
我们研究了在线多任务学习的问题,其中在相似但不一定相同的多臂强盗环境中执行任务。特别是,我们研究学习者如何通过知识转移来改善多个相关任务的整体绩效。虽然最近已证明,在所有任务同时解决的环境中,尚不清楚汤普森采样(TS)算法是否尚不清楚,虽然最近证明了基于上限的算法(UCB)算法几乎达到了最佳的性能保证,具有类似的理论属性。在这项工作中,我们为更通用的在线多任务学习协议提供了TS-Type算法,该协议扩展了并发设置。我们提供了其频繁的分析,并证明它在随机停止时间内使用新型浓度不平等的多任务数据聚集也几乎是最佳的。最后,我们评估了关于合成数据的算法,并表明与基于UCB的算法相比,TS-Type算法具有出色的经验性能和基线算法,该算法在没有转移的情况下为每个单独的任务执行TS。
translated by 谷歌翻译
在本文中,我们研究了汤普森采样(TS)方法的应用到随机组合多臂匪徒(CMAB)框架中。当所有基本臂的结果分布都是独立的,并获得$ o(m \ log k _ {\ max} \ log t / \ delta_时,我们首先分析一般CMAB模型的标准TS算法。 {\ min})$,其中$ m $是基本武器的数量,$ k _ {\ max} $是最大的超级臂的大小,$ t $是时间范围,而$ \ delta _ {\ min} $是最佳解决方案的预期奖励与任何非最佳解决方案之间的最小差距。这种遗憾的上限比$ o(m(\ log k _ {\ max})^2 \ log t / \ delta _ {\ min})$更好。此外,我们的新颖分析技术可以帮助收紧其他基于UCB的政策(例如ESC)的遗憾界限,因为我们改善了计算累积遗憾的方法。然后,我们考虑Matroid Bandit设置(CMAB模型的特殊类别),在这里我们可以删除跨武器的独立性假设,并实现与下限匹配的遗憾上限。除了遗憾的上限外,我们还指出,一个人不能直接替换确切的离线甲骨文(将离线问题实例的参数作为输入,并在此实例下输出确切的最佳操作),用TS算法中的近似oracle替换了ts算法的近似值。甚至经典的mAb问题。最后,我们使用一些实验来显示TS遗憾与其他现有算法之间的比较,实验结果表明TS优于现有基准。
translated by 谷歌翻译
We consider distributed linear bandits where $M$ agents learn collaboratively to minimize the overall cumulative regret incurred by all agents. Information exchange is facilitated by a central server, and both the uplink and downlink communications are carried over channels with fixed capacity, which limits the amount of information that can be transmitted in each use of the channels. We investigate the regret-communication trade-off by (i) establishing information-theoretic lower bounds on the required communications (in terms of bits) for achieving a sublinear regret order; (ii) developing an efficient algorithm that achieves the minimum sublinear regret order offered by centralized learning using the minimum order of communications dictated by the information-theoretic lower bounds. For sparse linear bandits, we show a variant of the proposed algorithm offers better regret-communication trade-off by leveraging the sparsity of the problem.
translated by 谷歌翻译
我们考虑了一种有可能无限的武器的随机强盗问题。我们为最佳武器和$ \ delta $的比例写入$ p ^ * $,以获得最佳和次优臂之间的最小含义 - 均值差距。我们在累积遗憾设置中表征了最佳学习率,以及在问题参数$ t $(预算),$ p ^ * $和$ \ delta $的最佳臂识别环境中。为了最大限度地减少累积遗憾,我们提供了订单$ \ OMEGA(\ log(t)/(p ^ * \ delta))$的下限和UCB样式算法,其匹配上限为一个因子$ \ log(1 / \ delta)$。我们的算法需要$ p ^ * $来校准其参数,我们证明了这种知识是必要的,因为在这个设置中调整到$ p ^ * $以来,因此是不可能的。为了获得最佳武器识别,我们还提供了订单$ \ Omega(\ exp(-ct \ delta ^ 2 p ^))的较低限制,以上输出次优臂的概率,其中$ c> 0 $是一个绝对常数。我们还提供了一个消除算法,其上限匹配下限到指数中的订单$ \ log(t)$倍数,并且不需要$ p ^ * $或$ \ delta $ as参数。我们的结果直接适用于竞争$ j $ -th最佳手臂的三个相关问题,识别$ \ epsilon $良好的手臂,并找到一个平均值大于已知订单的大分的手臂。
translated by 谷歌翻译
在古典语境匪徒问题中,在每轮$ t $,学习者观察一些上下文$ c $,选择一些动作$ i $执行,并收到一些奖励$ r_ {i,t}(c)$。我们考虑此问题的变体除了接收奖励$ r_ {i,t}(c)$之外,学习者还要学习其他一些上下文$的$ r_ {i,t}(c')$的值C'$ in设置$ \ mathcal {o} _i(c)$;即,通过在不同的上下文下执行该行动来实现的奖励\ mathcal {o} _i(c)$。这种变体出现在若干战略设置中,例如学习如何在非真实的重复拍卖中出价,最热衷于随着许多平台转换为运行的第一价格拍卖。我们将此问题称为交叉学习的上下文匪徒问题。古典上下围匪徒问题的最佳算法达到$ \ tilde {o}(\ sqrt {ckt})$遗憾针对所有固定策略,其中$ c $是上下文的数量,$ k $的行动数量和$ $次数。我们设计并分析了交叉学习的上下文匪徒问题的新算法,并表明他们的遗憾更好地依赖上下文的数量。在选择动作时学习所有上下文的奖励的完整交叉学习下,即设置$ \ mathcal {o} _i(c)$包含所有上下文,我们显示我们的算法实现后悔$ \ tilde {o}( \ sqrt {kt})$,删除$ c $的依赖。对于任何其他情况,即在部分交叉学习下,$ | \ mathcal {o} _i(c)| <c $ for $(i,c)$,遗憾界限取决于如何设置$ \ mathcal o_i(c)$影响上下文之间的交叉学习的程度。我们从Ad Exchange运行一流拍卖的广告交换中模拟了我们的真实拍卖数据的算法,并表明了它们优于传统的上下文强盗算法。
translated by 谷歌翻译
We consider the classic online learning and stochastic multi-armed bandit (MAB) problems, when at each step, the online policy can probe and find out which of a small number ($k$) of choices has better reward (or loss) before making its choice. In this model, we derive algorithms whose regret bounds have exponentially better dependence on the time horizon compared to the classic regret bounds. In particular, we show that probing with $k=2$ suffices to achieve time-independent regret bounds for online linear and convex optimization. The same number of probes improve the regret bound of stochastic MAB with independent arms from $O(\sqrt{nT})$ to $O(n^2 \log T)$, where $n$ is the number of arms and $T$ is the horizon length. For stochastic MAB, we also consider a stronger model where a probe reveals the reward values of the probed arms, and show that in this case, $k=3$ probes suffice to achieve parameter-independent constant regret, $O(n^2)$. Such regret bounds cannot be achieved even with full feedback after the play, showcasing the power of limited ``advice'' via probing before making the play. We also present extensions to the setting where the hints can be imperfect, and to the case of stochastic MAB where the rewards of the arms can be correlated.
translated by 谷歌翻译
Thompson Sampling is one of the oldest heuristics for multi-armed bandit problems. It is a randomized algorithm based on Bayesian ideas, and has recently generated significant interest after several studies demonstrated it to have better empirical performance compared to the stateof-the-art methods. However, many questions regarding its theoretical performance remained open. In this paper, we design and analyze a generalization of Thompson Sampling algorithm for the stochastic contextual multi-armed bandit problem with linear payoff functions, when the contexts are provided by an adaptive adversary. This is among the most important and widely studied version of the contextual bandits problem. We provide the first theoretical guarantees for the contextual version of Thompson Sampling. We prove a high probability regret bound of Õ(d 3/2 √ T ) (or Õ(d T log(N ))), which is the best regret bound achieved by any computationally efficient algorithm for this problem, and is within a factor of √ d (or log(N )) of the information-theoretic lower bound for this problem.
translated by 谷歌翻译
在线学习通常需要探索以最大程度地提高长期奖励,但这是以短期“遗憾”为代价的。我们研究如何在多个小组之间分担这种探索成本。例如,在临床试验环境中,分配了亚最佳治疗的患者有效地产生了勘探成本。当患者根据种族或年龄与自然群体相关联时,自然要问任何单一群体所承担的探索成本是否“公平”。如此有动力,我们介绍了“分组”的强盗模型。我们利用公理讨价还价的理论,尤其是纳什议价解决方案,以形式化可能构成跨群体勘探成本的公平分裂的方式。一方面,我们表明,任何遗憾的政策都引起了最不公平的结果:此类政策将在可能的情况下传递最“处于弱势”的群体。更具建设性的方式,我们得出了最佳公平且同时享受“公平价格”的政策。我们通过对华法林剂量的上下文匪徒进行案例研究来说明我们的算法框架的相对优点,我们关注多个种族和年龄段的探索成本。
translated by 谷歌翻译
最近,提出了经典多军强盗的多代理变体来解决在线学习中的公平问题。受社会选择和经济学方面的长期工作的启发,目标是优化NASH的社会福利,而不是全面的效用。不幸的是,就回合$ t $的数量而言,以前的算法要么不是有效的,要么实现次级遗憾。我们提出了一种新的有效算法,其遗憾也比以前效率低下的算法要低。对于$ n $ agents,$ k $ ands和$ t $ rounds,我们的方法遗憾的是$ \ tilde {o}(\ sqrt {nkt} + nk)$。这是对先前方法的改进,后者对$ \ tilde {o}(\ min(nk,\ sqrt {n} k^{3/2})\ sqrt {t})$的遗憾。我们还使用$ \ tilde {o}(\ sqrt {kt} + n^2k)$遗憾的方法来补充有效算法。实验发现证实了与先前方法相比,我们有效算法的有效性。
translated by 谷歌翻译
在线学习算法广泛用于网络上的搜索和内容优化,必须平衡探索和开发,可能牺牲当前用户的经验,以获得将来会导致未来更好决策的信息。虽然在最坏的情况下,与贪婪算法相比,显式探索具有许多缺点,其通过选择当前看起来最佳的动作始终“利用”。我们在数据中固有的多样性的情况下提出了明确的探索不必要。我们在最近的一系列工作中进行了线性上下围匪盗模型中贪婪算法的平滑分析。我们提高了先前的结果,表明,只要多样性条件保持,贪婪的方法几乎符合任何其他算法的最佳可能性贝叶斯遗憾率,并且这种遗憾是最多的$ \ tilde o(t ^ {1/ 3})$。
translated by 谷歌翻译
合作匪徒问题越来越多地成为其在大规模决策中的应用。然而,对此问题的大多数研究专注于具有完美通信的环境,而在大多数现实世界分布式设置中,通信通常是随机网络,具有任意损坏和延迟。在本文中,我们在三个典型的真实沟通场景下研究了合作匪徒学习,即(a)通过随机时变网络的消息传递,(b)通过随机延迟的网络瞬时奖励共享(c )通过对冲损坏的奖励来传递消息,包括拜占庭式沟通。对于每个环境中的每一个,我们提出了实现竞争性能的分散算法,以及在发生的群体后悔的近乎最佳保证。此外,在具有完美通信的环境中,我们提出了一种改进的延迟更新算法,其优于各种网络拓扑的现有最先进的算法。最后,我们在集团后悔呈现紧密的网络依赖性最低限度。我们所提出的算法很简单,以实现和获得竞争性的经验性能。
translated by 谷歌翻译
我们研究了$ k $武装的决斗匪徒问题,这是传统的多武器匪徒问题的一种变体,其中以成对比较的形式获得了反馈。以前的学习算法专注于$ \ textit {完全自适应} $设置,在每次比较后,算法可以进行更新。 “批处理”决斗匪徒问题是由Web搜索排名和推荐系统等大规模应用程序激励的,在这种应用程序中执行顺序更新可能是不可行的。在这项工作中,我们要问:$ \ textit {是否只使用几个自适应回合有解决方案,该回合与$ k $ armed的决斗匪徒的最佳顺序算法的渐近后悔界限?} $? \ textit {在condorcet条件下} $,这是$ k $武装的决斗匪徒问题的标准设置。我们获得$ O(k^2 \ log^2(k)) + O(k \ log(t))$的渐近遗憾地平线。我们的遗憾界限几乎与在Condorcet条件下完全顺序环境中已知的最佳后悔界限相匹配。最后,在各种现实世界数据集的计算实验中,我们观察到使用$ o(\ log(t))$ rounds的算法与完全顺序的算法(使用$ t $ rounds)的性能几乎相同。
translated by 谷歌翻译
我们通过审查反馈重复进行一定的第一价格拍卖来研究在线学习,在每次拍卖结束时,出价者只观察获胜的出价,学会了适应性地出价,以最大程度地提高她的累积回报。为了实现这一目标,投标人面临着一个具有挑战性的困境:如果她赢得了竞标 - 获得正收益的唯一方法 - 然后她无法观察其他竞标者的最高竞标,我们认为我们认为这是从中汲取的。一个未知的分布。尽管这一困境让人联想到上下文强盗中的探索探索折衷权,但现有的UCB或汤普森采样算法无法直接解决。在本文中,通过利用第一价格拍卖的结构属性,我们开发了第一个实现$ o(\ sqrt {t} \ log^{2.5} t)$ hearry bund的第一个学习算法(\ sqrt {t} \ log^{2.5} t),这是最小值的最低$ $ \ log $因素,当投标人的私人价值随机生成时。我们这样做是通过在一系列问题上提供算法,称为部分有序的上下文匪徒,该算法将图形反馈跨动作,跨环境跨上下文进行结合,以及在上下文中的部分顺序。我们通过表现出一个奇怪的分离来确定该框架的优势和劣势,即在随机环境下几乎可以独立于动作/背景规模的遗憾,但是在对抗性环境下是不可能的。尽管这一通用框架有限制,但我们进一步利用了第一价格拍卖的结构,并开发了一种学习算法,该算法在存在对手生成的私有价值的情况下,在存在的情况下可以有效地运行样本(并有效地计算)。我们建立了一个$ o(\ sqrt {t} \ log^3 t)$遗憾,以此为此算法,因此提供了对第一价格拍卖的最佳学习保证的完整表征。
translated by 谷歌翻译