在线广告最近已发展成为一个竞争激烈且复杂的数十亿美元行业,广告商在大型和高频上竞标广告插槽。这导致对有效的“自动招标”算法的需求日益增长,这些算法确定了传入查询的投标,以最大程度地提高广告商的目标,但受其指定的约束。这项工作探讨了在日益流行的约束下,为单个价值最大化广告商提供有效的在线算法:返回式增长(ROS)。相对于最佳算法,我们对遗憾进行了量化效率,该算法知道所有查询所有查询都是先验的。我们贡献了一种简单的在线算法,该算法在期望中实现了近乎最佳的遗憾,同时始终尊重指定的ROS约束,当查询的输入顺序为i.i.d.来自某些分布的样本。我们还将结果与Balseiro,Lu和Mirrokni [BLM20]的先前工作相结合,以实现近乎最佳的遗憾,同时尊重ROS和固定的预算限制。我们的算法遵循原始的二重式框架,并使用在线镜像下降(OMD)进行双重更新。但是,我们需要使用非典型的OMD设置,因此需要使用OMD的经典低rebret保证,该保证是用于在线学习中的对抗性环境的,不再存在。尽管如此,在我们的情况下,在更普遍的情况下,在算法设计中应用低纤维动力学的情况下,OMD遇到的梯度可能远非对抗性,但受我们的算法选择的影响。我们利用这一关键见解来显示我们的OMD设置在我们的算法领域中造成了低落的遗憾。
translated by 谷歌翻译
资源限制的在线分配问题是收入管理和在线广告中的核心问题。在这些问题中,请求在有限的地平线期间顺序到达,对于每个请求,决策者需要选择消耗一定数量资源并生成奖励的动作。目标是最大限度地提高累计奖励,这是对资源总消费的限制。在本文中,我们考虑一种数据驱动的设置,其中使用决策者未知的输入模型生成每个请求的奖励和资源消耗。我们设计了一般的算法算法,可以在各种输入模型中实现良好的性能,而不知道它们面临的类型类型。特别是,我们的算法在独立和相同的分布式输入以及各种非静止随机输入模型下是渐近的最佳选择,并且当输入是对抗性时,它们达到渐近最佳的固定竞争比率。我们的算法在Lagrangian双色空间中运行:它们为使用在线镜像血管更新的每个资源维护双倍乘数。通过相应地选择参考功能,我们恢复双梯度下降和双乘法权重更新算法。与现有的在线分配问题的现有方法相比,所产生的算法简单,快速,不需要在收入函数,消费函数和动作空间中凸起。我们将应用程序讨论到网络收入管理,在线竞标,重复拍卖,预算限制,与高熵的在线比例匹配,以及具有有限库存的个性化分类优化。
translated by 谷歌翻译
我们研究随机的在线资源分配:决策者需要分配有限的资源来为随机生成的顺序派遣请求,以最大程度地提高奖励。通过练习,我们考虑了一个数据驱动的设置,在该设置中,请求独立于决策者未知的分布。过去已经对在线资源分配及其特殊情况进行了广泛的研究,但是这些先前的结果至关重要和普遍地依赖于一个实际上不可能的假设:请求总数(地平线)是决策者事先知道的。在许多应用程序(例如收入管理和在线广告)中,由于需求或用户流量强度的波动,请求的数量可能差异很大。在这项工作中,我们开发了在线算法,这些算法对地平线不确定性是可靠的。与已知的马环境形成鲜明对比的是,我们表明没有算法可以达到与视野不确定性无关的恒定渐近竞争比率。然后,我们引入了一种新型算法,该算法将双镜下降与精心选择的目标消耗序列结合在一起,并证明其达到了有限的竞争比率。从地平线不确定性增长时,我们的竞争比达到了最佳生长速率,我们的算法几乎是最佳的。
translated by 谷歌翻译
在线分配资源限制问题具有丰富的运营研究历史记录。在本文中,我们介绍了\ emph {正常的在线分配问题},该变体包括用于总资源消耗的非线性规范器。在此问题中,请求多次到达,对于每个请求,决策者需要采取生成奖励和消耗资源的操作。目的是同时最大化可分离可分离的奖励和受资源限制的不可分级规范器的值。我们的主要动机是允许决策者履行可分离目标,例如与辅助,不可分配的目标的经济效率,例如分配的公平或公平。我们设计了一种简单,快速,并且具有随机I.I.D的良好性能的算法。〜和对抗的投入。特别是,我们的算法在随机I.I.D下渐近最佳。输入模型并达到固定的竞争比率,当输入是对越野的时,取决于常规管道。此外,算法和分析不需要贡献函数和消耗函数的凸起或凹面,这允许更多的模型灵活性。数值实验证实了算法在互联网广告应用中的算法和正则化的有效性。
translated by 谷歌翻译
本文介绍了一个基于双基的算法框架,用于求解具有累积的凸奖励,硬资源限制和不可分割的正常化程序的正规在线资源分配问题。在适应性更新资源约束的策略下,所提出的框架仅要求对经验二重性问题的近似解决方案,直到某种准确性,但在本地强烈凸出的假设下给出了最佳的对数遗憾。令人惊讶的是,对双重目标函数的微妙分析使我们能够消除遗憾的臭名昭著的日志因素。灵活的框架呈现出著名的和计算快速算法,例如双梯度下降和随机梯度下降。如果在双重优化过程中没有适应性更新,则建立了最糟糕的平方根遗憾下限,这强调了自适应双重变量更新的关键作用。全面的数值实验和实际数据应用证明了提出的算法框架的优点。
translated by 谷歌翻译
我们研究在线学习问题,决策者必须采取一系列决策,但要受到$ M $长期约束。决策者的目标是最大程度地提高其总奖励,同时达到小累积约束,在$ t $回合中违规。我们介绍了此一般类问题的第一个最佳世界类型算法,在根据未知随机模型选择奖励和约束的情况下,无需保证,在它们的情况下,在他们的情况下选择了奖励和约束。在每个回合中由对手选择。我们的算法是关于满足长期约束的最佳固定策略的第一个在对抗环境中提供保证的算法。特别是,它保证了$ \ rho/(1+ \ rho)$的最佳奖励和额定性遗憾,其中$ \ rho $是与严格可行的解决方案有关的可行性参数。我们的框架采用传统的遗憾最小化器作为黑盒组件。因此,通过使用适当的遗憾最小化器进行实例化,它可以处理全反馈以及强盗反馈设置。此外,它允许决策者通过非凸奖励和约束无缝处理场景。我们展示了如何在重复拍卖的预算管理机制的背景下应用我们的框架,以保证不包装的长期约束(例如,ROI约束)。
translated by 谷歌翻译
我们考虑带有背包的土匪(从此以后,BWK),这是一种在供应/预算限制下的多臂土匪的通用模型。特别是,强盗算法需要解决一个众所周知的背包问题:找到最佳的物品包装到有限尺寸的背包中。 BWK问题是众多激励示例的普遍概括,范围从动态定价到重复拍卖,再到动态AD分配,再到网络路由和调度。尽管BWK的先前工作集中在随机版本上,但我们开创了可以在对手身上选择结果的另一个极端。与随机版本和“经典”对抗土匪相比,这是一个更加困难的问题,因为遗憾的最小化不再可行。相反,目的是最大程度地减少竞争比率:基准奖励与算法奖励的比率。我们设计了一种具有竞争比O(log t)的算法,相对于动作的最佳固定分布,其中T是时间范围;我们还证明了一个匹配的下限。关键的概念贡献是对问题的随机版本的新观点。我们为随机版本提出了一种新的算法,该算法是基于重复游戏中遗憾最小化的框架,并且与先前的工作相比,它具有更简单的分析。然后,我们为对抗版本分析此算法,并将其用作求解后者的子例程。
translated by 谷歌翻译
在Fisher市场中,代理商(用户)花费(人造)货币预算来购买最大化其公用事业的商品,而中央规划师则将其设定为容量约束的商品,以便市场清算。但是,定价方案在Fisher市场实现平衡结果方面的功效通常取决于用户的预算和公用事业的完全了解,并且要求交易在同时存在所有用户的静态市场中发生。结果,我们研究了Fisher市场的在线变体,其中有私人公用事业和预算参数的预算受限用户,绘制了I.I.D.从分配$ \ Mathcal {d} $,顺序输入市场。在这种情况下,我们开发了一种仅根据用户消费的观察结果来调整价格的算法用户数量和良好的能力量表为$ O(n)$。在这里,我们的遗憾措施是在线算法和离线甲骨文之间的艾森伯格 - 盖尔计划目标的最佳差距,并提供有关用户预算和公用事业的完整信息。为了确定我们方法的功效,我们证明了任何统一(静态)定价算法,包括设定预期平衡价格并完全了解分销$ \ MATHCAL {D} $的算法,既无法实现遗憾和限制的违反比$ \ omega(\ sqrt {n})$。虽然我们揭示的偏好算法不需要对分布$ \ MATHCAL {d} $不了解,但我们表明,如果$ \ Mathcal {d} $是已知的,则是预期的平衡定价Achieves $ O(\ log(\ log(n))的自适应变体)$遗憾和离散分发的恒定容量违反。最后,我们提出了数值实验,以证明相对于几个基准测试的揭示偏好算法的性能。
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
节流是当今在线广告市场中最受欢迎的预算控制方法之一。当一个受预算受限的广告商雇用节流功能时,她可以在广告平台建议出价后选择是否参加拍卖。本文重点介绍了从理论观点重复的第二价格拍卖中的动态预算节流过程。潜在问题的一个重要特征是,广告商不知道进入市场时竞争最高的出价。为了模拟消除这种不确定性的困难,我们考虑了两种不同的信息结构。广告商可以通过全信息反馈获得每轮竞争最高的投标。同时,通过部分信息反馈,广告商只能在她参加的拍卖中获得最高竞争的出价。我们提出了OGD-CB算法,该算法涉及在线广告查询面临的同时分配学习和收入优化。在这两种情况下,我们都证明该算法保证了$ O(\ sqrt {t \ log t})$遗憾,概率$ 1- o(1/t)$相对于流体自适应节流基准。通过证明$ \ omega(\ sqrt {t})$的下限在最小的后悔中,即使是最佳的最佳选择,我们就建立了算法的近乎最佳性。最后,我们将节流的最佳流体最佳与起搏相提并论,这是另一种广泛采用的预算控制方法。这些基准的数值关系使我们对不同的在线算法进行预算管理的比较有了进一步的见解。
translated by 谷歌翻译
我们研究了在线凸优化,并具有由多个功能约束和相对简单的约束集组成的约束,例如欧几里得球。一般而言,由于在整个预测中执行约束在计算上都具有挑战性,因此我们允许决策违反功能约束,但旨在实现低遗憾和累积违反$ t $时间步骤的约束的侵犯。一阶方法实现$ \ MATHCAL {O}(\ sqrt {t})$遗憾和$ \ Mathcal {o}(1)$约束违规,这是最著名的界限,但不考虑问题的结构信息。此外,现有的算法和分析仅限于欧几里得空间。在本文中,我们提供了一个\ emph {实例依赖性}在线凸优化的绑定,并通过新颖的在线原始偶发镜像算法获得的复杂约束。我们与实例有关的遗憾是通过损失函数顺序中的总梯度变化$ v _*(t)$量化的。所提出的算法在\ emph {eneral} non-euclidean空间中起作用,并同时实现$ \ nathcal {o}(\ sqrt {v _*(t)})违法,这永远不会比最著名的$(\ Mathcal {o}(\ sqrt {t}),\ Mathcal {o}(1))$ result $更糟糕对于此问题,实现$ \ Mathcal {O}(T^{2/3})$遗憾和约束违规。最后,我们的算法在计算上是有效的,因为它仅在每次迭代中执行镜像下降步骤,而不是解决一般的拉格朗日最小化问题。
translated by 谷歌翻译
我们考虑一个一般的在线随机优化问题,在有限时间段的视野中具有多个预算限制。在每个时间段内,都会揭示奖励功能和多个成本功能,并且决策者需要从凸面和紧凑型措施中指定行动,以收集奖励并消耗预算。每个成本函数对应于一个预算的消费。在每个时期,奖励和成本函数都是从未知分布中得出的,该分布在整个时间内都是非平稳的。决策者的目的是最大化受预算限制的累积奖励。该配方捕获了广泛的应用程序,包括在线线性编程和网络收入管理等。在本文中,我们考虑了两个设置:(i)一个数据驱动的设置,其中真实分布未知,但可以提供先前的估计(可能不准确); (ii)一个不信息的环境,其中真实分布是完全未知的。我们提出了一项基于统一的浪费距离措施,以量化设置(i)中先验估计值的不准确性和设置(ii)中系统的非平稳性。我们表明,拟议的措施导致在两种情况下都能获得统一后悔的必要条件。对于设置(i),我们提出了一种新的算法,该算法采用了原始的偶视角,并将基础分布的先前信息集成到双重空间中的在线梯度下降过程。该算法也自然扩展到非信息设置(II)。在这两种设置下,我们显示相应的算法实现了最佳秩序的遗憾。在数值实验中,我们演示了如何将所提出的算法与重新溶解技术自然整合,以进一步提高经验性能。
translated by 谷歌翻译
我们研究了在线上下文决策问题,并具有资源约束。在每个时间段,决策者首先根据给定上下文向量预测奖励向量和资源消耗矩阵,然后解决下游优化问题以做出决策。决策者的最终目标是最大程度地利用资源消耗的奖励和效用总结,同时满足资源限制。我们提出了一种算法,该算法将基于“智能预测 - 优化(SPO)”方法的预测步骤与基于镜像下降的双重更新步骤。我们证明了遗憾的界限,并证明了我们方法的总体收敛率取决于$ \ Mathcal {o}(t^{ - 1/2})$在线镜面下降的收敛性以及使用的替代损失功能的风险范围学习预测模型。我们的算法和后悔界限适用于资源约束的一般凸的可行区域,包括硬和软资源约束案例,它们适用于广泛的预测模型,与线性上下文模型或有限策略空间的传统设置相比。我们还进行数值实验,以与传统的仅限预测方法相比,在多维背包和最长的路径实例上,与传统的仅预测方法相比,我们提出的SPO型方法的强度。
translated by 谷歌翻译
我们在非静止环境中调查在线凸优化,然后选择\ emph {动态后悔}作为性能测量,定义为在线算法产生的累积损失与任何可行比较器序列之间的差异。让$ t $是$ p_t $ be的路径长度,基本上反映了环境的非平稳性,最先进的动态遗憾是$ \ mathcal {o}(\ sqrt {t( 1 + p_t)})$。虽然这一界限被证明是凸函数最佳的最低限度,但在本文中,我们证明可以进一步提高一些简单的问题实例的保证,特别是当在线功能平滑时。具体而言,我们提出了新的在线算法,可以利用平滑度并替换动态遗憾的$ t $替换依据\ {问题依赖性}数量:损耗函数梯度的变化,比较器序列的累积损失,以及比较器序列的累积损失最低术语的最低限度。这些数量是大多数$ \ mathcal {o}(t)$,良性环境中可能更小。因此,我们的结果适应了问题的内在难度,因为边界比现有结果更严格,以便在最坏的情况下保证相同的速率。值得注意的是,我们的算法只需要\ emph {一个}渐变,这与开发的方法共享相同的渐变查询复杂性,以优化静态遗憾。作为进一步的应用,我们将来自全信息设置的结果扩展到具有两点反馈的强盗凸优化,从而达到此类强盗任务的第一个相关的动态遗憾。
translated by 谷歌翻译
在包括在线广告,合同招聘和无线调度的各种应用中,控制器受到可用资源的严格预算约束的限制,这些资源由每个动作以随机量消耗,以及可能施加的随机可行性约束关于决策的重要运作限制。在这项工作中,我们考虑一个常规模型来解决这些问题,每个行动都返回一个随机奖励,成本和罚款从未知的联合分配返回,决策者旨在最大限度地提高预算约束下的总奖励$ B $在总成本和随机限制的时间平均罚款。我们提出了一种基于Lyapunov优化方法的新型低复杂性算法,命名为$ {\ tt lyon} $,并证明它以$ k $武器实现$ o(\ sqrt {kb \ log b})$后悔和零约束 - 当$ B $足够大时。 $ {\ tt lyon} $的计算成本和尖锐性能界限表明,基于Lyapunov的算法设计方法可以有效地解决受约束的强盗优化问题。
translated by 谷歌翻译
我们开发了一个修改的在线镜下降框架,该框架适用于在无界域中构建自适应和无参数的算法。我们利用这项技术来开发第一个不受限制的在线线性优化算法,从而达到了最佳的动态遗憾,我们进一步证明,基于以下规范化领导者的自然策略无法取得相似的结果。我们还将镜像下降框架应用于构建新的无参数隐式更新,以及简化和改进的无限规模算法。
translated by 谷歌翻译
我们考虑在下一个成本和约束函数的预测存在下对在线凸优化的一般问题。通过将具有预测自适应动态步骤组合的跟随 - 正则化的引导迭代来设计一种新的原始双向算法。该算法实现$ \ mathcal o(t ^ {\ frac {3- \ beta} {4})$后悔和$ \ mathcal o(t ^ {\ frac {1+ \ beta} {2})$约束通过参数$ \ beta \!\ in \![1/2,1)$可调的违规界限,并且具有与预测质量缩小的恒定因素,实现最终$ \ mathcal o(1)$遗憾的完美预测。我们的工作扩展了这个约束OCO设置的FTRL框架,并优于基于最先进的贪婪的解决方案,而不会对预测质量,成本函数或约束的几何形状的条件突出,而不是凸出的。
translated by 谷歌翻译
带背包(BWK)的匪徒是供应/预算约束下的多武装匪徒的一般模型。虽然BWK的最坏情况遗憾的遗憾是良好的理解,但我们提出了三种结果,超出了最坏情况的观点。首先,我们提供上下界限,其数量为对数,实例相关的后悔率的完整表征。其次,我们考虑BWK中的“简单遗憾”,在给定回合追踪算法的性能,并证明它在除了几轮之外的一切。第三,我们提供从BWK到匪徒的一般“减少”,这利用了一些已知的有用结构,并将这种减少应用于组合半刺点,线性上下文匪徒和多项式登录匪徒。我们的成果从\ CiteT {AgraWaldevanur-EC14}的BWK算法构建,提供了新的分析。
translated by 谷歌翻译
这项工作考虑了最佳手臂识别的选择性采样问题。给定一组潜在选项$ \ mathcal {z} \ subset \ mathbb {r} ^ d $,学习者旨在计算概率大于1- \ delta $,$ \ arg \ max_ {z \ mathcal { z}} z ^ {\ top} \ theta _ {\ ast} $ where $ \ theta _ {\ art} $未知。在每个时间步骤中,潜在的测量$ x_t \ in \ mathcal {x} \ subset \ mathbb {r} ^ d $被绘制的iid,学习者可以选择采取测量,在这种情况下,他们观察到嘈杂的测量$ x ^ {\ top} \ theta _ {\ ast} $,或弃权采取测量并等待可能更多的信息点到达流。因此,学习者在他们采取的标签样本数量之间面临的基本折衷,并且当他们收集足够的证据来宣布最好的手臂并停止抽样时。这项工作的主要结果精确地表征了标记的样本和停止时间之间的这种权衡,并提供了一种算法,几乎最佳地实现了给出所需停止时间的最小标签复杂性。此外,我们表明最佳决策规则具有基于决定点是否处于椭圆形的简单几何形式。最后,我们的框架足以捕获先前作品的二进制分类。
translated by 谷歌翻译
我们扩展并结合了一些文献的工具,以设计快速,自适应,随时和无规模的在线学习算法。无尺寸的遗憾界限必须以最大损失线性缩放,既朝向大损失,缺乏较小亏损。自适应遗憾界限表明,算法可以利用易于数据,并且可能具有恒定的遗憾。我们寻求开发快速算法,依赖于尽可能少的参数,特别是它们应该是随时随地的,因此不依赖于时间范围。我们的第一和主要工具,IsoTuning是平衡遗憾权衡的想法的概括。我们开发了一套工具来轻松设计和分析这些学习率,并表明它们自动适应遗憾(无论是常量,$ O(\ log t)$,$ o(\ sqrt {t})$,在Hindsight的最佳学习率的因子2中,对于相同的观察量的因子2中。第二种工具是在线校正,其允许我们获得许多算法的中心界限,以防止当域太大或仅部分约束时遗憾地被空隙。最后一个工具null更新,防止算法执行过多的更大的更新,这可能导致无限的后悔,甚至无效更新。我们使用这些工具开发一般理论并将其应用于几种标准算法。特别是,我们(几乎完全)恢复对无限域的FTRL的小损失的适应性,设计和证明无镜面下降的无缝的自适应保证(至少当Bregman发散在其第二个参数中凸出),延伸Adapt-ML-PROSIA令无规模的保证,并为Prod,Adahedge,Boa和软贝内斯提供了其他几个小贡献。
translated by 谷歌翻译