We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with no further assumptions. We develop another online algorithm that achieves an improved $O(\log T)$ regret, with only a second-order growth assumption. To our knowledge, these are the first results achieving logarithmic-level regret in a continuous-distribution NRM model without further "non-degeneracy" assumptions. Our results are achieved via new techniques including: a new method of bounding myopic regret, a "semi-fluid" relaxation of the offline allocation, and an improved bound on the "dual convergence".
translated by 谷歌翻译
我们考虑一个一般的在线随机优化问题,在有限时间段的视野中具有多个预算限制。在每个时间段内,都会揭示奖励功能和多个成本功能,并且决策者需要从凸面和紧凑型措施中指定行动,以收集奖励并消耗预算。每个成本函数对应于一个预算的消费。在每个时期,奖励和成本函数都是从未知分布中得出的,该分布在整个时间内都是非平稳的。决策者的目的是最大化受预算限制的累积奖励。该配方捕获了广泛的应用程序,包括在线线性编程和网络收入管理等。在本文中,我们考虑了两个设置:(i)一个数据驱动的设置,其中真实分布未知,但可以提供先前的估计(可能不准确); (ii)一个不信息的环境,其中真实分布是完全未知的。我们提出了一项基于统一的浪费距离措施,以量化设置(i)中先验估计值的不准确性和设置(ii)中系统的非平稳性。我们表明,拟议的措施导致在两种情况下都能获得统一后悔的必要条件。对于设置(i),我们提出了一种新的算法,该算法采用了原始的偶视角,并将基础分布的先前信息集成到双重空间中的在线梯度下降过程。该算法也自然扩展到非信息设置(II)。在这两种设置下,我们显示相应的算法实现了最佳秩序的遗憾。在数值实验中,我们演示了如何将所提出的算法与重新溶解技术自然整合,以进一步提高经验性能。
translated by 谷歌翻译
本文介绍了一个基于双基的算法框架,用于求解具有累积的凸奖励,硬资源限制和不可分割的正常化程序的正规在线资源分配问题。在适应性更新资源约束的策略下,所提出的框架仅要求对经验二重性问题的近似解决方案,直到某种准确性,但在本地强烈凸出的假设下给出了最佳的对数遗憾。令人惊讶的是,对双重目标函数的微妙分析使我们能够消除遗憾的臭名昭著的日志因素。灵活的框架呈现出著名的和计算快速算法,例如双梯度下降和随机梯度下降。如果在双重优化过程中没有适应性更新,则建立了最糟糕的平方根遗憾下限,这强调了自适应双重变量更新的关键作用。全面的数值实验和实际数据应用证明了提出的算法框架的优点。
translated by 谷歌翻译
我们研究一种在线线性编程(OLP)问题,该问题通过随机输入最大化目标函数。当随机输入遵循一些I.I.D分布时,对分析此类OLP的各种算法的性能进行了充分的研究。要问的两个核心问题是:(i)算法如果随机输入不是I.I.D而是静止的,并且(ii)如果我们知道随机输入是潮流的,那么我们如何修改我们的算法,因此,该算法可以达到相同的效率。固定。我们通过分析再生类型的输入类型来回答第一个问题,并表明两种流行算法的遗憾与其I.I.D对应物相同的顺序界定。我们讨论了线性增长的输入的背景下的第二个问题,并提出了两种趋势自适应算法。我们提供数值仿真,以说明在再生和时尚输入下算法的性能。
translated by 谷歌翻译
本文在动态定价的背景下调查预先存在的离线数据对在线学习的影响。我们在$ t $期间的销售地平线上研究单一产品动态定价问题。每个时段的需求由产品价格根据具有未知参数的线性需求模型确定。我们假设在销售地平线开始之前,卖方已经有一些预先存在的离线数据。离线数据集包含$ N $示例,其中每个标准是由历史价格和相关的需求观察组成的输入输出对。卖方希望利用预先存在的离线数据和顺序在线数据来最大限度地减少在线学习过程的遗憾。我们的特征在于在线学习过程的最佳遗憾的脱机数据的大小,位置和分散的联合效果。具体而言,离线数据的大小,位置和色散由历史样本数量为$ n $,平均历史价格与最佳价格$ \ delta $之间的距离以及历史价格的标准差价Sigma $分别。我们表明最佳遗憾是$ \ widetilde \ theta \ left(\ sqrt {t} \ wedge \ frac {t} {(n \ wedge t)\ delta ^ 2 + n \ sigma ^ 2} \右)$,基于“面对不确定性”原则的“乐观主义”的学习算法,其遗憾是最佳的对数因子。我们的结果揭示了对脱机数据的大小的最佳遗憾率的惊人变换,我们称之为阶段转型。此外,我们的结果表明,离线数据的位置和分散也对最佳遗憾具有内在效果,我们通过逆平面法量化了这种效果。
translated by 谷歌翻译
资源限制的在线分配问题是收入管理和在线广告中的核心问题。在这些问题中,请求在有限的地平线期间顺序到达,对于每个请求,决策者需要选择消耗一定数量资源并生成奖励的动作。目标是最大限度地提高累计奖励,这是对资源总消费的限制。在本文中,我们考虑一种数据驱动的设置,其中使用决策者未知的输入模型生成每个请求的奖励和资源消耗。我们设计了一般的算法算法,可以在各种输入模型中实现良好的性能,而不知道它们面临的类型类型。特别是,我们的算法在独立和相同的分布式输入以及各种非静止随机输入模型下是渐近的最佳选择,并且当输入是对抗性时,它们达到渐近最佳的固定竞争比率。我们的算法在Lagrangian双色空间中运行:它们为使用在线镜像血管更新的每个资源维护双倍乘数。通过相应地选择参考功能,我们恢复双梯度下降和双乘法权重更新算法。与现有的在线分配问题的现有方法相比,所产生的算法简单,快速,不需要在收入函数,消费函数和动作空间中凸起。我们将应用程序讨论到网络收入管理,在线竞标,重复拍卖,预算限制,与高熵的在线比例匹配,以及具有有限库存的个性化分类优化。
translated by 谷歌翻译
我们考虑了一个固定的销售库存控制系统,该系统在计划中$ t $上有交货时间$ l $。供应不确定,并且是订单数量(由于随机产量/容量等)的函数。我们的目标是最大程度地减少$ t $ - 周期成本,即使在已知的需求和供应分布下,该问题也已知在计算上是棘手的。在本文中,我们假设需求和供应分布均未知并开发出一种计算高效的在线学习算法。我们表明,我们的算法在$ O(l+\ sqrt {t}} $时,我们的算法(即我们的算法成本与最佳政策的成本之间的性能差异) (t)$。我们这样做1)显示我们的算法成本最多,最多$ o(l+\ sqrt {t})$对于任何$ l \ geq 0 $,与完整信息下的最佳恒定订单策略相比以及广泛使用的算法)和2)利用其现有文献的已知绩效保证。据我们所知,有限的样本$ O(\ sqrt {t})$($ l $中的多项式)遗憾的是,在在线库存控制文献中以前不知道针对最佳策略的基准标记。这个学习问题的一个关键挑战是,可以审查需求和供应数据。因此,只能观察到截短的值。我们通过证明在订单数量$ q^2 $中生成的数据允许我们模拟全部$ q^2 $的性能,还可以模拟所有$ q^1 $,从而避免了这一挑战。 $,即使在数据审查下,也可以获取足够信息的关键观察。通过建立高概率耦合参数,我们能够在有限的时间范围内评估和比较其稳定状态下不同顺序策略的性能。由于该问题缺乏凸度,因此我们开发了一种活跃的消除方法,可以适应地排除次优的解决方案。
translated by 谷歌翻译
由于在数据稀缺的设置中,交叉验证的性能不佳,我们提出了一个新颖的估计器,以估计数据驱动的优化策略的样本外部性能。我们的方法利用优化问题的灵敏度分析来估计梯度关于数据中噪声量的最佳客观值,并利用估计的梯度将策略的样本中的表现为依据。与交叉验证技术不同,我们的方法避免了为测试集牺牲数据,在训练和因此非常适合数据稀缺的设置时使用所有数据。我们证明了我们估计量的偏见和方差范围,这些问题与不确定的线性目标优化问题,但已知的,可能是非凸的,可行的区域。对于更专业的优化问题,从某种意义上说,可行区域“弱耦合”,我们证明结果更强。具体而言,我们在估算器的错误上提供明确的高概率界限,该估计器在策略类别上均匀地保持,并取决于问题的维度和策略类的复杂性。我们的边界表明,在轻度条件下,随着优化问题的尺寸的增长,我们的估计器的误差也会消失,即使可用数据的量仍然很小且恒定。说不同的是,我们证明我们的估计量在小型数据中的大规模政权中表现良好。最后,我们通过数值将我们提出的方法与最先进的方法进行比较,通过使用真实数据调度紧急医疗响应服务的案例研究。我们的方法提供了更准确的样本外部性能估计,并学习了表现更好的政策。
translated by 谷歌翻译
带背包(BWK)的匪徒是供应/预算约束下的多武装匪徒的一般模型。虽然BWK的最坏情况遗憾的遗憾是良好的理解,但我们提出了三种结果,超出了最坏情况的观点。首先,我们提供上下界限,其数量为对数,实例相关的后悔率的完整表征。其次,我们考虑BWK中的“简单遗憾”,在给定回合追踪算法的性能,并证明它在除了几轮之外的一切。第三,我们提供从BWK到匪徒的一般“减少”,这利用了一些已知的有用结构,并将这种减少应用于组合半刺点,线性上下文匪徒和多项式登录匪徒。我们的成果从\ CiteT {AgraWaldevanur-EC14}的BWK算法构建,提供了新的分析。
translated by 谷歌翻译
我们在$ gi/gi/1 $队列中研究动态定价和容量大小问题,服务提供商的目标是获得最佳服务费$ p $ $ p $和服务能力$ \ mu $,以最大程度地提高累积预期利润(服务收入减去人员配备成本和延迟罚款)。由于排队动力学的复杂性质,这种问题没有分析解决方案,因此以前的研究经常诉诸于交通重型分析,在这种分析中,到达率和服务率都发送到无穷大。在这项工作中,我们提出了一个旨在解决此问题的在线学习框架,该框架不需要系统的规模增加。我们的框架在队列(GOLIQ)中被称为基于梯度的在线学习。 Goliq将时间范围组织为连续的操作周期,并开出了有效的程序,以使用先前的周期中收集的数据在每个周期中获得改进的定价和人员配备策略。此处的数据包括客户到达的数量,等待时间和服务器的繁忙时间。这种方法的创造力在于其在线性质,这使服务提供商可以通过与环境进行互动来更好。 GOLIQ的有效性得到了(i)理论结果的证实,包括算法收敛和遗憾分析(对数遗憾的束缚),以及(ii)通过模拟实验进行工程确认,以了解各种代表性$ GI/GI/GI/1 $ $ $ $ $。
translated by 谷歌翻译
在因果推理和强盗文献中,基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序,然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限:这些边界表明,为了获得非反应性最佳程序,应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序,并通过匹配非轴突局部局部最小值下限,在有限样品中建立了实例依赖性最优性。这些结果表明,除了取决于渐近效率方差之外,最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。
translated by 谷歌翻译
在Fisher市场中,代理商(用户)花费(人造)货币预算来购买最大化其公用事业的商品,而中央规划师则将其设定为容量约束的商品,以便市场清算。但是,定价方案在Fisher市场实现平衡结果方面的功效通常取决于用户的预算和公用事业的完全了解,并且要求交易在同时存在所有用户的静态市场中发生。结果,我们研究了Fisher市场的在线变体,其中有私人公用事业和预算参数的预算受限用户,绘制了I.I.D.从分配$ \ Mathcal {d} $,顺序输入市场。在这种情况下,我们开发了一种仅根据用户消费的观察结果来调整价格的算法用户数量和良好的能力量表为$ O(n)$。在这里,我们的遗憾措施是在线算法和离线甲骨文之间的艾森伯格 - 盖尔计划目标的最佳差距,并提供有关用户预算和公用事业的完整信息。为了确定我们方法的功效,我们证明了任何统一(静态)定价算法,包括设定预期平衡价格并完全了解分销$ \ MATHCAL {D} $的算法,既无法实现遗憾和限制的违反比$ \ omega(\ sqrt {n})$。虽然我们揭示的偏好算法不需要对分布$ \ MATHCAL {d} $不了解,但我们表明,如果$ \ Mathcal {d} $是已知的,则是预期的平衡定价Achieves $ O(\ log(\ log(n))的自适应变体)$遗憾和离散分发的恒定容量违反。最后,我们提出了数值实验,以证明相对于几个基准测试的揭示偏好算法的性能。
translated by 谷歌翻译
以下序列出售了许多产品:首先显示焦点产品,如果购买客户,则显示一种或多种辅助产品以供购买。一个突出的例子是出售航空票,首先显示航班,并在选择时出售了许多辅助机构,例如机舱或袋装选项,座位选择,保险等。该公司必须决定销售格式 - 是按串联捆绑或作为捆绑销售的形式出售 - 以及如何分别或捆绑产品为焦点和辅助产品定价。由于仅在购买焦点产品后才考虑辅助性,因此公司选择的销售策略会在产品之间创建信息和学习依赖性:例如,仅提供一套捆绑包将排除学习客户对焦点的估值和辅助产品。在本文中,我们在以下情况下研究了这种焦点和辅助项目组合的学习策略:(a)纯捆绑向所有客户捆绑,(b)个性化机制,在其中,根据客户的某些观察到的功能,这两种产品都会呈现并以捆绑包或顺序定价,(c)最初(适用于所有客户),并在地平线期间永久切换(如果更有利可图)。我们为所有三种情况设计定价和决策算法,遗憾的是由$ o(d \ sqrt {t} \ log t)$限制,以及第三种情况的最佳切换时间。
translated by 谷歌翻译
当在未知约束集中任意变化的分布中生成数据时,我们会考虑使用专家建议的预测。这种半反向的设置包括(在极端)经典的I.I.D.设置时,当未知约束集限制为单身人士时,当约束集是所有分布的集合时,不受约束的对抗设置。对冲状态中,对冲算法(长期以来已知是最佳的最佳速率(速率))最近被证明是对I.I.D.的最佳最小值。数据。在这项工作中,我们建议放松I.I.D.通过在约束集的所有自然顺序上寻求适应性来假设。我们在各个级别的Minimax遗憾中提供匹配的上限和下限,表明确定性学习率的对冲在极端之外是次优的,并证明人们可以在各个级别的各个层面上都能适应Minimax的遗憾。我们使用以下规范化领导者(FTRL)框架实现了这种最佳适应性,并采用了一种新型的自适应正则化方案,该方案隐含地缩放为当前预测分布的熵的平方根,而不是初始预测分布的熵。最后,我们提供了新的技术工具来研究FTRL沿半逆转频谱的统计性能。
translated by 谷歌翻译
作为安全加强学习的重要框架,在最近的文献中已经广泛研究了受约束的马尔可夫决策过程(CMDP)。然而,尽管在各种式学习设置下取得了丰富的结果,但就算法设计和信息理论样本复杂性下限而言,仍然缺乏对离线CMDP问题的基本理解。在本文中,我们专注于仅在脱机数据可用的情况下解决CMDP问题。通过采用单极浓缩系数$ c^*$的概念,我们建立了一个$ \ omega \ left(\ frac {\ min \ left \ left \ weft \ {| \ mathcal {s} || \ mathcal {a} a} |,, | \ Mathcal {s} |+i \ right \} c^*} {(1- \ gamma)^3 \ epsilon^2} \ right)$ sample Complacy度在离线cmdp问题上,其中$ i $架对于约束数量。通过引入一种简单但新颖的偏差控制机制,我们提出了一种称为DPDL的近乎最佳的原始二重学习算法。该算法证明,除了$ \ tilde {\ Mathcal {o}}}}(((1- \ gamma)^{ - 1})$外,该算法可确保零约束违规及其样本复杂性匹配上下界。还包括有关如何处理未知常数$ c^*$以及离线数据集中潜在的异步结构的全面讨论。
translated by 谷歌翻译
我们调查与高斯的混合的数据分享共同但未知,潜在虐待协方差矩阵的数据。我们首先考虑具有两个等级大小的组件的高斯混合,并根据最大似然估计导出最大切割整数程序。当样品的数量在维度下线性增长时,我们证明其解决方案实现了最佳的错误分类率,直到对数因子。但是,解决最大切割问题似乎是在计算上棘手的。为了克服这一点,我们开发了一种高效的频谱算法,该算法达到最佳速率,但需要一种二次样本量。虽然这种样本复杂性比最大切割问题更差,但我们猜测没有多项式方法可以更好地执行。此外,我们收集了支持统计计算差距存在的数值和理论证据。最后,我们将MAX-CUT程序概括为$ k $ -means程序,该程序处理多组分混合物的可能性不平等。它享有相似的最优性保证,用于满足运输成本不平等的分布式的混合物,包括高斯和强烈的对数的分布。
translated by 谷歌翻译
一流拍卖基本上基于Vickrey拍卖的基于程序化广告的传统竞标方法。就学习而言,首次拍卖更具挑战性,因为最佳招标策略不仅取决于物品的价值,还需要一些其他出价的知识。他们已经升级了续集学习的几种作品,其中许多人考虑以对抗方式选择买方或对手最大出价的型号。即使在最简单的设置中,这也会导致算法,其后悔在$ \ sqrt {t} $方面与时间纵横为$ t $。专注于买方对静止随机环境扮演的情况,我们展示了如何实现显着较低的遗憾:当对手的最大竞标分布是已知的,我们提供了一种遗留算法,其后悔可以低至$ \ log ^ 2(t )$;在必须顺序地学习分发的情况下,对于任何$ \ epsilon> 0 $来说,该算法的概括可以达到$ t ^ {1/3 + \ epsilon} $。为了获得这些结果,我们介绍了两种可能对自己兴趣感兴趣的新颖思想。首先,通过在发布的价格设置中获得的结果进行输,我们提供了一个条件,其中一流的挡板效用在其最佳状态下局部二次。其次,我们利用观察到,在小子间隔上,可以更准确地控制经验分布函数的变化的浓度,而不是使用经典的DVORETZKY-Kiefer-Wolfowitz不等式来控制。数值模拟确认,我们的算法比各种出价分布中提出的替代方案更快地收敛,包括在实际的程序化广告平台上收集的出价。
translated by 谷歌翻译
我们通过反馈信息研究了离线和在线上下文优化的问题,而不是观察损失,我们会在事后观察到最佳的动作,而是对目标功能充分了解的甲骨文。我们的目标是最大程度地减少遗憾,这被定义为我们的损失与全知的甲骨所产生的损失之间的区别。在离线设置中,决策者可以从过去段中获得信息,并且需要做出一个决策,而在在线环境中,决策者在每个时期内都会动态地基于一组新的可行动作和上下文功能,以动态进行决策。 。对于离线设置,我们表征了最佳的最小策略,确定可以实现的性能,这是数据引起的信息的基础几何形状的函数。在在线环境中,我们利用这种几何表征来优化累积遗憾。我们开发了一种算法,该算法在时间范围内产生了对数的第一个遗憾。
translated by 谷歌翻译
在负面的感知问题中,我们给出了$ n $数据点$({\ boldsymbol x} _i,y_i)$,其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1,-1 \} $是二进制标签。数据不是线性可分离的,因此我们满足自己的内容,以找到最大的线性分类器,具有最大的\ emph {否定}余量。换句话说,我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $,最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta},{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题(它相当于在Polytope中找到最大标准矢量),我们在两个随机模型下研究其典型属性。我们考虑比例渐近,其中$ n,d \ to \ idty $以$ n / d \ to \ delta $,并在最大边缘$ \ kappa _ {\ text {s}}(\ delta)上证明了上限和下限)$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}(\ kappa)$。换句话说,$ \ delta _ {\ text {s}}(\ kappa)$是overparametization阈值:以$ n / d \ le \ delta _ {\ text {s}}(\ kappa) - \ varepsilon $一个分类器实现了消失的训练错误,具有高概率,而以$ n / d \ ge \ delta _ {\ text {s}}(\ kappa)+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}(\ kappa)$匹配,以$ \ kappa \ to - \ idty $匹配。然后,我们分析了线性编程算法来查找解决方案,并表征相应的阈值$ \ delta _ {\ text {lin}}(\ kappa)$。我们观察插值阈值$ \ delta _ {\ text {s}}(\ kappa)$和线性编程阈值$ \ delta _ {\ text {lin {lin}}(\ kappa)$之间的差距,提出了行为的问题其他算法。
translated by 谷歌翻译
在这项工作中,我们研究了数据驱动的决策,并偏离了经典的相同和独立分布(I.I.D.)假设。我们提出了一个新的框架,其中我们将历史样本从未知和不同的分布中产生,我们将其配置为异质环境。假定这些分布位于具有已知半径的异质球中,并围绕(也是)未知的未来(样本外)分布,将评估决策的表现。我们量化了中央数据驱动的策略(例如样本平均近似值,也可以通过速率优势)来量化的渐近性最坏案例遗憾,这是异质性球半径的函数。我们的工作表明,在问题类别和异质性概念的不同组合中,可实现的性能类型的变化很大。我们通过比较广泛研究的数据驱动问题(例如定价,滑雪租赁和新闻顾问)的异质版本来证明框架的多功能性。在途中,我们在数据驱动的决策和分配强大的优化之间建立了新的联系。
translated by 谷歌翻译