在本文中,我们研究了一个多级多服务器排队系统,其具有代表作业和服务器的特征向量的Bilinear模型之后的作业服务器分配随机奖励。我们的目标是对oracle策略的遗憾最小化,该策略具有完整的系统参数信息。我们提出了一种调度算法,该算法使用线性强盗算法以及动态作业分配给服务器。对于基线设置,其中均值工作时间与所有作业相同,我们表明我们的算法具有子线性遗憾,以及在地平线时间内的平均队列长度上的子线性绑定。我们进一步示出了类似的界限在更一般的假设下保持,允许不同的作业类别的非相同均值工作时间和一组时变的服务器类。我们还表明,可以通过访问作业类的交通强度的算法来保证更好的遗憾和均值队列长度界限。我们呈现数值实验的结果,示出了我们算法的遗憾和平均队列长度依赖于各种系统参数,并将它们的性能与先前提出的算法进行比较,使用合成随机生成的数据和真实世界集群计算数据跟踪。
translated by 谷歌翻译
我们研究了一个单服务器调度问题,目的是最大程度地降低工作所产生的预期累积持有成本,在该计划中,调度程序未知定义随机工作成本的参数。我们考虑一个允许不同工作类别的一般设置,同一班级的工作在统计上相同的持有成本和服务时间,并且跨课程任意数量的工作数量。在每个时间步骤中,服务器都可以处理作业并观察尚未完成的工作的随机保留成本。我们考虑了一个基于学习的$ C \ MU $规则计划,该计划从固定持续时间的先发制期开始,作为学习阶段,并收集了有关工作的数据,它将切换到非抢占计划。我们的算法旨在处理平均职位持有成本的大小差距的实例,并实现近乎最佳的性能保证。遗憾评估了算法的性能,其中基准是当已知工作参数时,$ c \ mu $规则计划策略可能达到的最低持有成本。我们表现​​出遗憾的下限和算法,这些算法几乎获得了遗憾的上限。我们的数值结果证明了我们的算法的功效,并表明我们的遗憾分析几乎很紧张。
translated by 谷歌翻译
在包括在线广告,合同招聘和无线调度的各种应用中,控制器受到可用资源的严格预算约束的限制,这些资源由每个动作以随机量消耗,以及可能施加的随机可行性约束关于决策的重要运作限制。在这项工作中,我们考虑一个常规模型来解决这些问题,每个行动都返回一个随机奖励,成本和罚款从未知的联合分配返回,决策者旨在最大限度地提高预算约束下的总奖励$ B $在总成本和随机限制的时间平均罚款。我们提出了一种基于Lyapunov优化方法的新型低复杂性算法,命名为$ {\ tt lyon} $,并证明它以$ k $武器实现$ o(\ sqrt {kb \ log b})$后悔和零约束 - 当$ B $足够大时。 $ {\ tt lyon} $的计算成本和尖锐性能界限表明,基于Lyapunov的算法设计方法可以有效地解决受约束的强盗优化问题。
translated by 谷歌翻译
我们考虑腐烂奖励的无限多臂匪徒问题,其中手臂的平均奖励是根据任意趋势在每次拉动的手臂上减小的,最大腐烂速率$ \ varrho = o(1)$。我们表明,这个学习问题具有$ \ omega(\ max \ {\ varrho^{1/3} t,\ sqrt {t} \})$ worst-case遗憾的遗憾下降下降,其中$ t $是$ t $。我们表明,匹配的上限$ \ tilde {o}(\ max \ {\ varrho^{1/3} t,\ sqrt {t} \})$,最多可以通过多元素来实现当算法知道最大腐烂速率$ \ varrho $时,一种使用UCB索引的算法,该算法使用UCB索引和一个阈值来决定是否继续拉动手臂或从进一步考虑中移除手臂。我们还表明,$ \ tilde {o}(\ max \ {\ varrho^{1/3} t,t^{3/4} \})$遗憾的上限可以通过不知道的算法来实现$ \ varrho $的值通过使用自适应UCB索引以及自适应阈值值。
translated by 谷歌翻译
我们在$ gi/gi/1 $队列中研究动态定价和容量大小问题,服务提供商的目标是获得最佳服务费$ p $ $ p $和服务能力$ \ mu $,以最大程度地提高累积预期利润(服务收入减去人员配备成本和延迟罚款)。由于排队动力学的复杂性质,这种问题没有分析解决方案,因此以前的研究经常诉诸于交通重型分析,在这种分析中,到达率和服务率都发送到无穷大。在这项工作中,我们提出了一个旨在解决此问题的在线学习框架,该框架不需要系统的规模增加。我们的框架在队列(GOLIQ)中被称为基于梯度的在线学习。 Goliq将时间范围组织为连续的操作周期,并开出了有效的程序,以使用先前的周期中收集的数据在每个周期中获得改进的定价和人员配备策略。此处的数据包括客户到达的数量,等待时间和服务器的繁忙时间。这种方法的创造力在于其在线性质,这使服务提供商可以通过与环境进行互动来更好。 GOLIQ的有效性得到了(i)理论结果的证实,包括算法收敛和遗憾分析(对数遗憾的束缚),以及(ii)通过模拟实验进行工程确认,以了解各种代表性$ GI/GI/GI/1 $ $ $ $ $。
translated by 谷歌翻译
资源限制的在线分配问题是收入管理和在线广告中的核心问题。在这些问题中,请求在有限的地平线期间顺序到达,对于每个请求,决策者需要选择消耗一定数量资源并生成奖励的动作。目标是最大限度地提高累计奖励,这是对资源总消费的限制。在本文中,我们考虑一种数据驱动的设置,其中使用决策者未知的输入模型生成每个请求的奖励和资源消耗。我们设计了一般的算法算法,可以在各种输入模型中实现良好的性能,而不知道它们面临的类型类型。特别是,我们的算法在独立和相同的分布式输入以及各种非静止随机输入模型下是渐近的最佳选择,并且当输入是对抗性时,它们达到渐近最佳的固定竞争比率。我们的算法在Lagrangian双色空间中运行:它们为使用在线镜像血管更新的每个资源维护双倍乘数。通过相应地选择参考功能,我们恢复双梯度下降和双乘法权重更新算法。与现有的在线分配问题的现有方法相比,所产生的算法简单,快速,不需要在收入函数,消费函数和动作空间中凸起。我们将应用程序讨论到网络收入管理,在线竞标,重复拍卖,预算限制,与高熵的在线比例匹配,以及具有有限库存的个性化分类优化。
translated by 谷歌翻译
在本文中,我们开发了一种新的虚拟队列在线在线凸优化(OCO)问题,具有长期和时变的约束,并对动态遗憾和约束违规进行性能分析。我们设计了一种新的Dual变量的新更新规则以及将时间变化约束函数的新方法集成到双变量中。据我们所知,我们的算法是第一个免费算法,可以同时实现Sublinear动态遗憾和约束违规。我们所提出的算法还优于最先进的结果,例如,在许多方面,例如,我们的算法不需要替换条件。同时,对于一组实际和广泛研究的约束oco问题,其中连续约束的变化在跨时时间流畅,我们的算法实现了$ O(1)$约束违规。此外,我们将算法和分析扩展到案例时,当时地平线$ T $未知。最后,进行了数值实验以验证我们算法的理论保证,并概述了我们提出的框架的一些应用。
translated by 谷歌翻译
我们考虑随机多武装强盗(MAB)问题,延迟影响了行动。在我们的环境中,过去采取的行动在随后的未来影响了ARM奖励。在现实世界中,行动的这种延迟影响是普遍的。例如,为某个社会群体中的人员偿还贷款的能力可能历史上历史上批准贷款申请的频率频率。如果银行将贷款申请拒绝拒绝弱势群体,则可以创建反馈循环,进一步损害该群体中获取贷款的机会。在本文中,我们制定了在多武装匪徒的背景下的行动延迟和长期影响。由于在学习期间,我们将强盗设置概括为对这种“偏置”的依赖性进行编码。目标是随着时间的推移最大化收集的公用事业,同时考虑到历史行动延迟影响所产生的动态。我们提出了一种算法,实现了$ \ tilde {\ mathcal {o}}的遗憾,并显示$ \ omega(kt ^ {2/3})$的匹配遗憾下限,其中$ k $是武器数量,$ t $是学习地平线。我们的结果通过添加技术来补充强盗文献,以处理具有长期影响的行动,并对设计公平算法有影响。
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
动态治疗方案(DTRS)是个性化的,适应性的,多阶段的治疗计划,可将治疗决策适应个人的初始特征,并在随后的每个阶段中的中级结果和特征,在前阶段受到决策的影响。例子包括对糖尿病,癌症和抑郁症等慢性病的个性化一线和二线治疗,这些治疗适应患者对一线治疗,疾病进展和个人特征的反应。尽管现有文献主要集中于估算离线数据(例如从依次随机试验)中的最佳DTR,但我们研究了以在线方式开发最佳DTR的问题,在线与每个人的互动都会影响我们的累积奖励和我们的数据收集,以供我们的数据收集。未来的学习。我们将其称为DTR匪徒问题。我们提出了一种新颖的算法,通过仔细平衡探索和剥削,可以保证当过渡和奖励模型是线性时,可以实现最佳的遗憾。我们证明了我们的算法及其在合成实验和使用现实世界中对重大抑郁症的适应性治疗的案例研究中的好处。
translated by 谷歌翻译
本文研究了在因果图形模型中设计最佳干预措施序列的问题,以最大程度地减少对事后最佳干预的累积后悔。自然,这是一个因果匪徒问题。重点是线性结构方程模型(SEM)和软干预措施的因果匪徒。假定该图的结构是已知的,并且具有$ n $节点。每个节点都假定使用两种线性机制,一种软干预和一种观察性,产生了$ 2^n $可能的干预措施。现有的因果匪徒算法假设,至少完全指定了奖励节点父母的介入分布。但是,有$ 2^n $这样的分布(一个与每个干预措施相对应),即使在中等尺寸的图中也变得越来越高。本文分配了知道这些分布的假设。提出了两种算法,用于常见者(基于UCB)和贝叶斯(基于汤普森采样)的设置。这些算法的关键思想是避免直接估计$ 2^n $奖励分布,而是估算完全指定SEMS($ n $线性)的参数,并使用它们来计算奖励。在这两种算法中,在噪声和参数空间的有界假设下,累积遗憾的是$ \ tilde {\ cal o}(((2d)^l l \ sqrt {t})$,其中$ d $是图的最高度和$ l $是其最长因果路径的长度。
translated by 谷歌翻译
We consider a long-term average profit maximizing admission control problem in an M/M/1 queuing system with a known arrival rate but an unknown service rate. With a fixed reward collected upon service completion and a cost per unit of time enforced on customers waiting in the queue, a dispatcher decides upon arrivals whether to admit the arriving customer or not based on the full history of observations of the queue-length of the system. \cite[Econometrica]{Naor} showed that if all the parameters of the model are known, then it is optimal to use a static threshold policy - admit if the queue-length is less than a predetermined threshold and otherwise not. We propose a learning-based dispatching algorithm and characterize its regret with respect to optimal dispatch policies for the full information model of \cite{Naor}. We show that the algorithm achieves an $O(1)$ regret when all optimal thresholds with full information are non-zero, and achieves an $O(\ln^{3+\epsilon}(N))$ regret in the case that an optimal threshold with full information is $0$ (i.e., an optimal policy is to reject all arrivals), where $N$ is the number of arrivals and $\epsilon>0$.
translated by 谷歌翻译
We consider the classic online learning and stochastic multi-armed bandit (MAB) problems, when at each step, the online policy can probe and find out which of a small number ($k$) of choices has better reward (or loss) before making its choice. In this model, we derive algorithms whose regret bounds have exponentially better dependence on the time horizon compared to the classic regret bounds. In particular, we show that probing with $k=2$ suffices to achieve time-independent regret bounds for online linear and convex optimization. The same number of probes improve the regret bound of stochastic MAB with independent arms from $O(\sqrt{nT})$ to $O(n^2 \log T)$, where $n$ is the number of arms and $T$ is the horizon length. For stochastic MAB, we also consider a stronger model where a probe reveals the reward values of the probed arms, and show that in this case, $k=3$ probes suffice to achieve parameter-independent constant regret, $O(n^2)$. Such regret bounds cannot be achieved even with full feedback after the play, showcasing the power of limited ``advice'' via probing before making the play. We also present extensions to the setting where the hints can be imperfect, and to the case of stochastic MAB where the rewards of the arms can be correlated.
translated by 谷歌翻译
本文在动态定价的背景下调查预先存在的离线数据对在线学习的影响。我们在$ t $期间的销售地平线上研究单一产品动态定价问题。每个时段的需求由产品价格根据具有未知参数的线性需求模型确定。我们假设在销售地平线开始之前,卖方已经有一些预先存在的离线数据。离线数据集包含$ N $示例,其中每个标准是由历史价格和相关的需求观察组成的输入输出对。卖方希望利用预先存在的离线数据和顺序在线数据来最大限度地减少在线学习过程的遗憾。我们的特征在于在线学习过程的最佳遗憾的脱机数据的大小,位置和分散的联合效果。具体而言,离线数据的大小,位置和色散由历史样本数量为$ n $,平均历史价格与最佳价格$ \ delta $之间的距离以及历史价格的标准差价Sigma $分别。我们表明最佳遗憾是$ \ widetilde \ theta \ left(\ sqrt {t} \ wedge \ frac {t} {(n \ wedge t)\ delta ^ 2 + n \ sigma ^ 2} \右)$,基于“面对不确定性”原则的“乐观主义”的学习算法,其遗憾是最佳的对数因子。我们的结果揭示了对脱机数据的大小的最佳遗憾率的惊人变换,我们称之为阶段转型。此外,我们的结果表明,离线数据的位置和分散也对最佳遗憾具有内在效果,我们通过逆平面法量化了这种效果。
translated by 谷歌翻译
移动边缘计算有助于用户将计算任务卸载到边缘服务器,以满足其严格的延迟要求。以前的作品主要探讨给出系统侧信息时的任务卸载(例如,服务器处理速度,蜂窝数据速率)或系统不确定性的集中卸载。但两者普遍跌倒,以处理涉及动态和不确定环境中许多共存用户的任务安置。在本文中,我们开发了考虑未知随机系统侧信息的多用户卸载框架,以实现分散的用户发起的服务放置。具体而言,我们将动态任务放置作为在线多用户多武装强盗过程,并提出基于分散的epoch的卸载(DEBO),以优化在网络延迟下进行的用户奖励。我们表明DEBO可以推断最佳用户服务器分配,从而实现了近距离的服务性能和紧密的O(log t)卸载后悔。此外,我们将DEBO概括为各种常见场景,如未知的奖励差距,动态进入或离开客户,以及公平的奖励分发,同时进一步探索用户卸载任务需要异构计算资源。特别是,我们为这些实例中的每一个完成子线性遗憾。基于实际测量的评估证实了我们在优化延迟敏感奖励的最先进方法中的卸载方案的优势。
translated by 谷歌翻译
我们研究随机的在线资源分配:决策者需要分配有限的资源来为随机生成的顺序派遣请求,以最大程度地提高奖励。通过练习,我们考虑了一个数据驱动的设置,在该设置中,请求独立于决策者未知的分布。过去已经对在线资源分配及其特殊情况进行了广泛的研究,但是这些先前的结果至关重要和普遍地依赖于一个实际上不可能的假设:请求总数(地平线)是决策者事先知道的。在许多应用程序(例如收入管理和在线广告)中,由于需求或用户流量强度的波动,请求的数量可能差异很大。在这项工作中,我们开发了在线算法,这些算法对地平线不确定性是可靠的。与已知的马环境形成鲜明对比的是,我们表明没有算法可以达到与视野不确定性无关的恒定渐近竞争比率。然后,我们引入了一种新型算法,该算法将双镜下降与精心选择的目标消耗序列结合在一起,并证明其达到了有限的竞争比率。从地平线不确定性增长时,我们的竞争比达到了最佳生长速率,我们的算法几乎是最佳的。
translated by 谷歌翻译
决策者经常面对“许多匪徒”问题,其中必须同时学习相关但异构的情境匪徒实例。例如,大型零售商可能希望在许多商店中动态地学习产品需求,以解决定价或库存问题,这使得可以共同学习为服务类似客户的商店;或者,医院网络可能希望在许多提供商中动态学习患者风险以分配个性化干预措施,这使得可以为服务类似患者群体的医院共同学习。我们研究每个匪徒实例中未知参数可以分解为全局参数加上稀疏实例特定术语的设置。然后,我们提出了一种新颖的两级估计器,通过使用强大的统计数据组合(在类似的实例中学到)和套索回归(将结果进行替代),以样本有效的方式利用这种结构。我们在强盗算法中嵌入了这个估计器,并证明它在上下文维度下,它可以改善渐近遗憾界限。这种改进是数据较差的实例的指数。我们进一步展示了我们的结果如何依赖于强盗实例的基础网络结构。
translated by 谷歌翻译
富达匪徒问题是$ k $的武器问题的变体,其中每个臂的奖励通过提供额外收益的富达奖励来增强,这取决于播放器如何对该臂进行“忠诚”在过去。我们提出了两种忠诚的模型。在忠诚点模型中,额外奖励的数量取决于手臂之前播放的次数。在订阅模型中,额外的奖励取决于手臂的连续绘制的当前数量。我们考虑随机和对抗问题。由于单臂策略在随机问题中并不总是最佳,因此对抗性环境中遗憾的概念需要仔细调整。我们介绍了三个可能的遗憾和调查,这可以是偏执的偏执。我们详细介绍了增加,减少和优惠券的特殊情况(玩家在手臂的每辆M $播放后获得额外的奖励)保真奖励。对于不一定享受载体遗憾的模型,我们提供了最糟糕的下限。对于那些展示Sublinear遗憾的模型,我们提供算法并绑定他们的遗憾。
translated by 谷歌翻译
在线分配资源限制问题具有丰富的运营研究历史记录。在本文中,我们介绍了\ emph {正常的在线分配问题},该变体包括用于总资源消耗的非线性规范器。在此问题中,请求多次到达,对于每个请求,决策者需要采取生成奖励和消耗资源的操作。目的是同时最大化可分离可分离的奖励和受资源限制的不可分级规范器的值。我们的主要动机是允许决策者履行可分离目标,例如与辅助,不可分配的目标的经济效率,例如分配的公平或公平。我们设计了一种简单,快速,并且具有随机I.I.D的良好性能的算法。〜和对抗的投入。特别是,我们的算法在随机I.I.D下渐近最佳。输入模型并达到固定的竞争比率,当输入是对越野的时,取决于常规管道。此外,算法和分析不需要贡献函数和消耗函数的凸起或凹面,这允许更多的模型灵活性。数值实验证实了算法在互联网广告应用中的算法和正则化的有效性。
translated by 谷歌翻译
Large-scale online recommendation systems must facilitate the allocation of a limited number of items among competing users while learning their preferences from user feedback. As a principled way of incorporating market constraints and user incentives in the design, we consider our objectives to be two-fold: maximal social welfare with minimal instability. To maximize social welfare, our proposed framework enhances the quality of recommendations by exploring allocations that optimistically maximize the rewards. To minimize instability, a measure of users' incentives to deviate from recommended allocations, the algorithm prices the items based on a scheme derived from the Walrasian equilibria. Though it is known that these equilibria yield stable prices for markets with known user preferences, our approach accounts for the inherent uncertainty in the preferences and further ensures that the users accept their recommendations under offered prices. To the best of our knowledge, our approach is the first to integrate techniques from combinatorial bandits, optimal resource allocation, and collaborative filtering to obtain an algorithm that achieves sub-linear social welfare regret as well as sub-linear instability. Empirical studies on synthetic and real-world data also demonstrate the efficacy of our strategy compared to approaches that do not fully incorporate all these aspects.
translated by 谷歌翻译