我们在$ gi/gi/1 $队列中研究动态定价和容量大小问题,服务提供商的目标是获得最佳服务费$ p $ $ p $和服务能力$ \ mu $,以最大程度地提高累积预期利润(服务收入减去人员配备成本和延迟罚款)。由于排队动力学的复杂性质,这种问题没有分析解决方案,因此以前的研究经常诉诸于交通重型分析,在这种分析中,到达率和服务率都发送到无穷大。在这项工作中,我们提出了一个旨在解决此问题的在线学习框架,该框架不需要系统的规模增加。我们的框架在队列(GOLIQ)中被称为基于梯度的在线学习。 Goliq将时间范围组织为连续的操作周期,并开出了有效的程序,以使用先前的周期中收集的数据在每个周期中获得改进的定价和人员配备策略。此处的数据包括客户到达的数量,等待时间和服务器的繁忙时间。这种方法的创造力在于其在线性质,这使服务提供商可以通过与环境进行互动来更好。 GOLIQ的有效性得到了(i)理论结果的证实,包括算法收敛和遗憾分析(对数遗憾的束缚),以及(ii)通过模拟实验进行工程确认,以了解各种代表性$ GI/GI/GI/1 $ $ $ $ $。
translated by 谷歌翻译
We consider a long-term average profit maximizing admission control problem in an M/M/1 queuing system with a known arrival rate but an unknown service rate. With a fixed reward collected upon service completion and a cost per unit of time enforced on customers waiting in the queue, a dispatcher decides upon arrivals whether to admit the arriving customer or not based on the full history of observations of the queue-length of the system. \cite[Econometrica]{Naor} showed that if all the parameters of the model are known, then it is optimal to use a static threshold policy - admit if the queue-length is less than a predetermined threshold and otherwise not. We propose a learning-based dispatching algorithm and characterize its regret with respect to optimal dispatch policies for the full information model of \cite{Naor}. We show that the algorithm achieves an $O(1)$ regret when all optimal thresholds with full information are non-zero, and achieves an $O(\ln^{3+\epsilon}(N))$ regret in the case that an optimal threshold with full information is $0$ (i.e., an optimal policy is to reject all arrivals), where $N$ is the number of arrivals and $\epsilon>0$.
translated by 谷歌翻译
我们考虑具有未知实用程序参数的多项式logit模型(MNL)下的动态分类优化问题。本文研究的主要问题是$ \ varepsilon $ - 污染模型下的模型错误指定,该模型是强大统计和机器学习中的基本模型。特别是,在整个长度$ t $的销售范围内,我们假设客户根据$(1- \ varepsilon)$ - 时间段的$(1- \ varepsilon)的基础多项式logit选择模型进行购买,并进行任意购买取而代之的是在剩余的$ \ varepsilon $ - 分数中的决策。在此模型中,我们通过主动淘汰策略制定了新的强大在线分类优化政策。我们对遗憾建立上限和下界,并表明当分类能力恒定时,我们的政策是$ t $的最佳对数因素。分类能力具有恒定的上限。我们进一步制定了一种完全自适应策略,该政策不需要任何先验知识,即污染参数$ \ varepsilon $。如果存在最佳和亚最佳产品之间存在的亚临时差距,我们还建立了依赖差距的对数遗憾上限和已知的 - $ \ VAREPSILON $和UNKNOWER-$ \ \ VAREPSILON $案例。我们的仿真研究表明,我们的政策表现优于基于上置信度范围(UCB)和汤普森采样的现有政策。
translated by 谷歌翻译
由于在数据稀缺的设置中,交叉验证的性能不佳,我们提出了一个新颖的估计器,以估计数据驱动的优化策略的样本外部性能。我们的方法利用优化问题的灵敏度分析来估计梯度关于数据中噪声量的最佳客观值,并利用估计的梯度将策略的样本中的表现为依据。与交叉验证技术不同,我们的方法避免了为测试集牺牲数据,在训练和因此非常适合数据稀缺的设置时使用所有数据。我们证明了我们估计量的偏见和方差范围,这些问题与不确定的线性目标优化问题,但已知的,可能是非凸的,可行的区域。对于更专业的优化问题,从某种意义上说,可行区域“弱耦合”,我们证明结果更强。具体而言,我们在估算器的错误上提供明确的高概率界限,该估计器在策略类别上均匀地保持,并取决于问题的维度和策略类的复杂性。我们的边界表明,在轻度条件下,随着优化问题的尺寸的增长,我们的估计器的误差也会消失,即使可用数据的量仍然很小且恒定。说不同的是,我们证明我们的估计量在小型数据中的大规模政权中表现良好。最后,我们通过数值将我们提出的方法与最先进的方法进行比较,通过使用真实数据调度紧急医疗响应服务的案例研究。我们的方法提供了更准确的样本外部性能估计,并学习了表现更好的政策。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
价格歧视,这是指为不同客户群体的不同价格进行规定的策略,已广泛用于在线零售。虽然它有助于提高在线零售商的收入,但它可能会对公平产生严重关切,甚至违反了监管和法律。本文研究了公平限制下动态歧视性定价的问题。特别是,我们考虑一个有限的销售长度$ T $的单一产品,为一组客户提供两组客户。每组客户都有其未知的需求功能,需要学习。对于每个销售期间,卖方确定每组的价格并观察其购买行为。虽然现有文学主要侧重于最大化收入,但在动态定价文学中确保不同客户的公平尚未完全探索。在这项工作中,我们采用了(Cohen等人)的公平概念。对于价格公平性,我们在遗憾方面提出了最佳的动态定价政策,从而强制执行严格的价格公平制约。与标准$ \ sqrt {t} $ - 在线学习中的遗憾遗憾,我们表明我们案例中的最佳遗憾是$ \ tilde {\ theta}(t ^ {4/5})$。我们进一步将算法扩展到更普遍的公平概念,包括作为一个特例的需求公平。为了处理这一普通类,我们提出了一个柔和的公平约束,并开发了实现$ \ tilde {o}(t ^ {4/5})$后悔的动态定价政策。
translated by 谷歌翻译
本文介绍了一个基于双基的算法框架,用于求解具有累积的凸奖励,硬资源限制和不可分割的正常化程序的正规在线资源分配问题。在适应性更新资源约束的策略下,所提出的框架仅要求对经验二重性问题的近似解决方案,直到某种准确性,但在本地强烈凸出的假设下给出了最佳的对数遗憾。令人惊讶的是,对双重目标函数的微妙分析使我们能够消除遗憾的臭名昭著的日志因素。灵活的框架呈现出著名的和计算快速算法,例如双梯度下降和随机梯度下降。如果在双重优化过程中没有适应性更新,则建立了最糟糕的平方根遗憾下限,这强调了自适应双重变量更新的关键作用。全面的数值实验和实际数据应用证明了提出的算法框架的优点。
translated by 谷歌翻译
我们研究马尔可夫决策过程(MDP)框架中的离线数据驱动的顺序决策问题。为了提高学习政策的概括性和适应性,我们建议通过一套关于在政策诱导的固定分配所在的分发的一套平均奖励来评估每项政策。给定由某些行为策略生成的多个轨迹的预收集数据集,我们的目标是在预先指定的策略类中学习一个强大的策略,可以最大化此集的最小值。利用半参数统计的理论,我们开发了一种统计上有效的策略学习方法,用于估算DE NED强大的最佳政策。在数据集中的总决策点方面建立了达到对数因子的速率最佳遗憾。
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
本文在动态定价的背景下调查预先存在的离线数据对在线学习的影响。我们在$ t $期间的销售地平线上研究单一产品动态定价问题。每个时段的需求由产品价格根据具有未知参数的线性需求模型确定。我们假设在销售地平线开始之前,卖方已经有一些预先存在的离线数据。离线数据集包含$ N $示例,其中每个标准是由历史价格和相关的需求观察组成的输入输出对。卖方希望利用预先存在的离线数据和顺序在线数据来最大限度地减少在线学习过程的遗憾。我们的特征在于在线学习过程的最佳遗憾的脱机数据的大小,位置和分散的联合效果。具体而言,离线数据的大小,位置和色散由历史样本数量为$ n $,平均历史价格与最佳价格$ \ delta $之间的距离以及历史价格的标准差价Sigma $分别。我们表明最佳遗憾是$ \ widetilde \ theta \ left(\ sqrt {t} \ wedge \ frac {t} {(n \ wedge t)\ delta ^ 2 + n \ sigma ^ 2} \右)$,基于“面对不确定性”原则的“乐观主义”的学习算法,其遗憾是最佳的对数因子。我们的结果揭示了对脱机数据的大小的最佳遗憾率的惊人变换,我们称之为阶段转型。此外,我们的结果表明,离线数据的位置和分散也对最佳遗憾具有内在效果,我们通过逆平面法量化了这种效果。
translated by 谷歌翻译
我们研究一种在线线性编程(OLP)问题,该问题通过随机输入最大化目标函数。当随机输入遵循一些I.I.D分布时,对分析此类OLP的各种算法的性能进行了充分的研究。要问的两个核心问题是:(i)算法如果随机输入不是I.I.D而是静止的,并且(ii)如果我们知道随机输入是潮流的,那么我们如何修改我们的算法,因此,该算法可以达到相同的效率。固定。我们通过分析再生类型的输入类型来回答第一个问题,并表明两种流行算法的遗憾与其I.I.D对应物相同的顺序界定。我们讨论了线性增长的输入的背景下的第二个问题,并提出了两种趋势自适应算法。我们提供数值仿真,以说明在再生和时尚输入下算法的性能。
translated by 谷歌翻译
我们考虑了一个固定的销售库存控制系统,该系统在计划中$ t $上有交货时间$ l $。供应不确定,并且是订单数量(由于随机产量/容量等)的函数。我们的目标是最大程度地减少$ t $ - 周期成本,即使在已知的需求和供应分布下,该问题也已知在计算上是棘手的。在本文中,我们假设需求和供应分布均未知并开发出一种计算高效的在线学习算法。我们表明,我们的算法在$ O(l+\ sqrt {t}} $时,我们的算法(即我们的算法成本与最佳政策的成本之间的性能差异) (t)$。我们这样做1)显示我们的算法成本最多,最多$ o(l+\ sqrt {t})$对于任何$ l \ geq 0 $,与完整信息下的最佳恒定订单策略相比以及广泛使用的算法)和2)利用其现有文献的已知绩效保证。据我们所知,有限的样本$ O(\ sqrt {t})$($ l $中的多项式)遗憾的是,在在线库存控制文献中以前不知道针对最佳策略的基准标记。这个学习问题的一个关键挑战是,可以审查需求和供应数据。因此,只能观察到截短的值。我们通过证明在订单数量$ q^2 $中生成的数据允许我们模拟全部$ q^2 $的性能,还可以模拟所有$ q^1 $,从而避免了这一挑战。 $,即使在数据审查下,也可以获取足够信息的关键观察。通过建立高概率耦合参数,我们能够在有限的时间范围内评估和比较其稳定状态下不同顺序策略的性能。由于该问题缺乏凸度,因此我们开发了一种活跃的消除方法,可以适应地排除次优的解决方案。
translated by 谷歌翻译
我们研究了一个决策者的问题,即当面对参与决策(随机)取决于他们获得的激励措施的代理商时,发现最佳的货币激励计划。我们的重点是限制的政策,以实现两种公平性能,这些公平性能排除了不同的代理人平均经历不同治疗的结果。我们将问题提出为高维的随机优化问题,并通过使用紧密相关的确定性变体进行研究。我们表明,该确定性变体的最佳静态解决方案对于在公平性约束下的动态问题均非最佳。尽管解决最佳静态解决方案会引起非凸优化问题,但我们发现了一个结构性属性,该属性使我们能够设计一种可拖延,快速的启发式策略。利益相关者保留的传统计划忽略公平限制;确实,这些目的是利用差异化激励与系统的反复互动。我们的工作(i)表明,即使没有明确的歧视,动态政策也可能通过改变系统的类型组成而无意间歧视不同类型的药物,并且(ii)提出了渐近的最佳政策,以避免这种歧视性局势。
translated by 谷歌翻译
在社会背景下的算法决策,例如零售定价,贷款管理,在线平台上的建议等,通常涉及为了学习而进行决策的实验,这导致受这些决策影响的人们的不公平感知。因此,有必要在此类决策过程中嵌入适当的公平概念。本文的目的是通过一种新颖的元观念来强调公平的时间概念与在线决策之间的丰富界面,以确保在决策时确保公平。考虑到静态决策的一些任意比较公平概念(例如,学生最多应支付一般成人价格的90%),如果满足上述公平概念,则相应的在线决策算法在决策时满足公平性对于任何与过去的决定相比,收到决定的任何实体。我们表明,这一基本要求引入了在线决策中的新方法论挑战。我们说明了在随机凸优化的背景下,在比较公平的约束下,在随机凸优化的背景下解决这些挑战所必需的新方法,该方法取决于实体所收到的决策,这取决于过去每个人都收到的决策。该论文展示了由于时间公平的关注而引起的在线决策中的新研究机会。
translated by 谷歌翻译
我们为依次随机实验提出了一种新的扩散 - 反应分析,包括在解决多臂匪徒问题中出现的扩散分析。在使用$ n $时间步骤的实验中,我们让动作规模之间的平均奖励差距到$ 1/\ sqrt {n} $,以将学习任务的难度保留为$ n $的增长。在这个方案中,我们表明,一类顺序随机的马尔可夫实验的行为收敛到扩散极限,作为对随机微分方程的解决方案。因此,扩散极限使我们能够得出顺序实验的随机动力学的精致实例特异性表征。我们使用扩散极限来获得一些关于顺序实验的遗憾和信念演变的新见解,包括汤普森采样。一方面,我们表明,当奖励差距相对较大时,所有随机概率的顺序实验都具有lipchitz连续的依赖性。另一方面,我们发现,汤普森(Thompson)的样本具有渐近性的先验差异,达到了近乎特定实例的遗憾缩放,包括较大的奖励差距。但是,尽管使用非信息先验对汤普森采样产生了良好的遗憾,但我们表明,随着时间的流逝,诱发的后验信仰非常不稳定。
translated by 谷歌翻译
我们考虑一个一般的在线随机优化问题,在有限时间段的视野中具有多个预算限制。在每个时间段内,都会揭示奖励功能和多个成本功能,并且决策者需要从凸面和紧凑型措施中指定行动,以收集奖励并消耗预算。每个成本函数对应于一个预算的消费。在每个时期,奖励和成本函数都是从未知分布中得出的,该分布在整个时间内都是非平稳的。决策者的目的是最大化受预算限制的累积奖励。该配方捕获了广泛的应用程序,包括在线线性编程和网络收入管理等。在本文中,我们考虑了两个设置:(i)一个数据驱动的设置,其中真实分布未知,但可以提供先前的估计(可能不准确); (ii)一个不信息的环境,其中真实分布是完全未知的。我们提出了一项基于统一的浪费距离措施,以量化设置(i)中先验估计值的不准确性和设置(ii)中系统的非平稳性。我们表明,拟议的措施导致在两种情况下都能获得统一后悔的必要条件。对于设置(i),我们提出了一种新的算法,该算法采用了原始的偶视角,并将基础分布的先前信息集成到双重空间中的在线梯度下降过程。该算法也自然扩展到非信息设置(II)。在这两种设置下,我们显示相应的算法实现了最佳秩序的遗憾。在数值实验中,我们演示了如何将所提出的算法与重新溶解技术自然整合,以进一步提高经验性能。
translated by 谷歌翻译
我们考虑通过有限的地平线$ t $控制线性二次调节器(LQR)系统的问题,以固定和已知的成本矩阵$ q,r $但未知和非静止动力$ \ {a_t,b_t \} $。动态矩阵的序列可以是任意的,但总体变化,V_T $,假设为$ O(t)$和控制器未知。在假设所有$ $ $的稳定序列,但潜在的子最优控制器中,我们介绍了一种实现$ \ tilde {\ mathcal {o}} \ left的最佳动态遗憾的算法(v_t ^ { 2/5} t ^ {3/5} \右)$。通过分词恒定动态,我们的算法实现了$ \ tilde {\ mathcal {o}}(\ sqrt {st})$的最佳遗憾,其中$ s $是交换机的数量。我们的算法的关键是一种自适应的非平稳性检测策略,它在最近开发的用于上下文多武装匪徒问题的方法中构建。我们还争辩说,不适应忘记(例如,重新启动或使用静态窗口大小的滑动窗口学习)可能对LQR问题的后悔最佳,即使窗口大小以$ V_T $的知识最佳地调整。我们算法分析中的主要技术挑战是证明普通的最小二乘(OLS)估计器在待估计的参数是非静止的情况下具有小的偏差。我们的分析还突出了推动遗憾的关键主题是LQR问题在于LQR问题是具有线性反馈和局部二次成本的强盗问题。这个主题比LQR问题本身更普及,因此我们相信我们的结果应该找到更广泛的应用。
translated by 谷歌翻译
We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with no further assumptions. We develop another online algorithm that achieves an improved $O(\log T)$ regret, with only a second-order growth assumption. To our knowledge, these are the first results achieving logarithmic-level regret in a continuous-distribution NRM model without further "non-degeneracy" assumptions. Our results are achieved via new techniques including: a new method of bounding myopic regret, a "semi-fluid" relaxation of the offline allocation, and an improved bound on the "dual convergence".
translated by 谷歌翻译
我们考虑一个不当的强化学习设置,在该设置中,为学习者提供了$ M $的基本控制器,以进行未知的马尔可夫决策过程,并希望最佳地结合它们,以生产一个可能胜过每个基本基础的控制器。这对于在不匹配或模拟环境中学习的跨控制器进行调整可能很有用,可以为给定的目标环境获得良好的控制器,而试验相对较少。在此方面,我们提出了两种算法:(1)一种基于政策梯度的方法; (2)可以根据可用信息在基于简单的参与者(AC)方案和天然参与者(NAC)方案之间切换的算法。两种算法都在给定控制器的一类不当混合物上运行。对于第一种情况,我们得出融合率保证,假设访问梯度甲骨文。对于基于AC的方法,我们提供了基本AC案例中的固定点的收敛速率保证,并在NAC情况下为全球最优值提供了保证。 (i)稳定卡特柱的标准控制理论基准的数值结果; (ii)一个受约束的排队任务表明,即使可以使用的基本策略不稳定,我们的不当政策优化算法也可以稳定系统。
translated by 谷歌翻译
我们研究有限的时间范围连续时间线性季节增强学习问题,在情节环境中,控制器的状态和控制系数都不清楚。我们首先提出了基于连续时间观察和控件的最小二乘算法,并建立对数的对数遗憾,以$ o((\ ln m)(\ ln \ ln m))$,$ m $是数字学习情节。该分析由两个部分组成:扰动分析,这些分析利用了相关的riccati微分方程的规律性和鲁棒性;和参数估计误差,依赖于连续的最小二乘估计器的亚指数属性。我们进一步提出了一种基于离散时间观察和分段恒定控制的实际实现最小二乘算法,该算法根据算法中使用的时间步骤明确地取决于额外的术语,从而实现相似的对数后悔。
translated by 谷歌翻译