基本的多臂匪徒(mAb)问题是试图最大程度地利用从不同概率分布的土匪获得的奖励,因为只能进行有限数量的尝试。在研究市场上的交易算法时,我们正在研究mabs问题最复杂的变体之一,即非平稳连续体匪徒(NCBS)问题。布里斯托尔证券交易所(BSE)是基于通过限制订单的连续双拍卖来对电子金融交换的简单模拟。市场可以由具有不同交易算法的自动交易者填充。在其中,PRSH算法体现了解决NCBS问题的一些基本思想。但是,它面临调整超参数并适应复杂市场条件变化的困难。我们提出了一种称为PRB的新算法,该算法通过贝叶斯优化解决了连续的土匪问题,并通过一种新颖的“ Burnit-Bandit”框架解决了非平稳土匪问题。使用BSE,我们使用尽可能多的交易者代理商在两个不同的市场动态下模拟真实的市场环境。然后,我们分别在不同的市场动态下研究了PRSH算法和PRB算法的最佳超参数。最后,通过同时让交易者使用两种算法贸易,我们证明了PRB算法的性能优于两个市场动态下的PRSH算法。特别是,我们对所有实验结果进行严格的假设测试,以确保其正确性。
translated by 谷歌翻译
本文介绍了一种新型的非平稳动态定价算法设计,定价代理面临不完整的需求信息和市场环境转移。代理商进行了价格实验,以了解每种产品的需求曲线和最大化价格,同时意识到市场环境的变化,以避免提供次优价的高机会成本。拟议的酸P扩展了来自统计机器学习的信息指导的采样(IDS)算法,以包括微观经济选择理论,并采用新颖的定价策略审核程序,以避免在市场环境转移后避免次优定价。拟议的酸P在一系列市场环境变化中胜过包括上置信度结合(UCB)和汤普森采样(TS)在内的匪徒算法。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
大多数在线平台都在努力从与用户的互动中学习,许多人从事探索:为了获取新信息而做出潜在的次优选择。我们研究探索与竞争之间的相互作用:这样的平台如何平衡学习探索和用户的竞争。在这里,用户扮演三个不同的角色:他们是产生收入的客户,他们是学习的数据来源,并且是自私的代理商,可以在竞争平台中进行选择。我们考虑了一种风格化的双重垄断模型,其中两家公司面临着相同的多军强盗问题。用户一一到达,并在两家公司之间进行选择,因此,只有在选择它的情况下,每个公司都在其强盗问题上取得进展。通过理论结果和数值模拟的混合,我们研究了竞争是否会激发更好的Bandit算法的采用,以及它是否导致用户增加福利。我们发现,Stark竞争会导致公司致力于导致低福利的“贪婪”强盗算法。但是,通过向公司提供一些“免费”用户来激励更好的探索策略并增加福利来削弱竞争。我们调查了削弱竞争的两个渠道:放松用户的理性并为一家公司带来首次推广优势。我们的发现与“竞争与创新”关系密切相关,并阐明了数字经济中的第一步优势。
translated by 谷歌翻译
我们解决了在线顺序决策的问题,即在利用当前知识以最大程度地提高绩效和探索新信息以使用多武器的强盗框架获得长期利益之间的权衡平衡。汤普森采样是选择解决这一探索探索困境的动作的启发式方法之一。我们首先提出了一个通用框架,该框架可帮助启发性地调整汤普森采样中的探索与剥削权衡取舍,并使用后部分布中的多个样本进行调整。利用此框架,我们为多臂匪徒问题提出了两种算法,并为累积遗憾提供了理论界限。接下来,我们证明了拟议算法对汤普森采样的累积遗憾表现的经验改善。我们还显示了所提出的算法在现实世界数据集上的有效性。与现有方法相反,我们的框架提供了一种机制,可以根据手头的任务改变探索/开发量。为此,我们将框架扩展到两个其他问题,即,在土匪中最佳的ARM识别和时间敏感学习,并将我们的算法与现有方法进行比较。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
在潜在的强盗问题中,学习者可以访问奖励分布,并且 - 对于非平稳的变体 - 环境的过渡模型。奖励分布在手臂和未知的潜在状态下进行条件。目的是利用奖励历史来识别潜在状态,从而使未来的武器选择最佳。潜在的匪徒设置将自己适用于许多实际应用,例如推荐人和决策支持系统,其中丰富的数据允许在线学习的环境模型的离线估算仍然是关键组成部分。在这种情况下,以前的解决方案始终根据代理商对国家的信念选择最高的奖励组,而不是明确考虑信息收集臂的价值。这种信息收集的武器不一定会提供最高的奖励,因此永远不会选择始终选择最高奖励武器的代理商选择。在本文中,我们提出了一种潜在土匪信息收集的方法。鉴于特殊的奖励结构和过渡矩阵,我们表明,鉴于代理商对国家的信念,选择最好的手臂会产生更高的遗憾。此外,我们表明,通过仔细选择武器,我们可以改善对国家分布的估计,从而通过将来通过更好的手臂选择来降低累积后悔。我们在合成和现实世界数据集上评估了我们的方法,显示出对最新方法的遗憾显着改善。
translated by 谷歌翻译
我们提出了一种数据驱动的算法,广告商可以用来自动在线出版商的数字广告广告。该算法使广告客户能够跨越可用的目标受众和AD-Media搜索通过在线实验找到其广告系列的最佳组合。找到最佳受众ad AD组合的问题使许多独特的挑战变得复杂,包括(a)需要积极探索以解决先前的不确定性并加快搜索有利可图的组合,(b)许多组合可供选择,产生高维搜索公式,以及(c)成功概率非常低,通常只有百分之一。我们的算法(指定的LRDL,logistic回归与Debiased Lasso的首字母缩写)通过结合四个元素来解决这些挑战:一个用于主动探索的多层匪徒框架;套索惩罚功能以处理高维度;一个内置的偏见核,可处理套索引起的正则化偏差;以及一个半参数回归模型,用于促进跨武器交叉学习的结果。该算法是作为汤普森采样器实施的,据我们所知,这是第一个实际上可以解决以上所有挑战的方法。具有真实和合成数据的模拟表明该方法是有效的,并记录了其在最近的高维匪徒文献中的几个基准测试中的出色性能。
translated by 谷歌翻译
我们调查了多辅助多武装强盗(MA-MAB)设置来建模重复的Cournot寡头寡头寡头杆游戏,该公司作为代理的公司从代表生产量(离散值)的武器中选择。代理商与单独和独立的强盗问题交互。在这种制定中,每个代理人在武器之间进行连续选择,以最大化自己的奖励。代理商没有有关环境的任何信息;在采取行动后,他们只能看到自己的奖励。但是,市场需求是行业总产量的静止功能,不允许随机进入或从市场退出。鉴于这些假设,我们发现$ \ epsilon $ -greedy方法提供比其他传统MAB方法更加可行的学习机制,因为它不需要对系统进行任何额外的知识来运作。我们还提出了两种旨在利用订购的行动空间:$ \ epsilon $ -greedy + hl和$ \ epsilon $ -greedy + el。这些新方法通过消除较少的有利可图的选择,帮助公司专注于更有利可图的行动,从而旨在优化勘探。我们使用计算机模拟来研究结果中各种均衡的出现,并对关节累积遗憾进行实证分析。
translated by 谷歌翻译
Thompson sampling is one of oldest heuristic to address the exploration / exploitation trade-off, but it is surprisingly unpopular in the literature. We present here some empirical results using Thompson sampling on simulated and real data, and show that it is highly competitive. And since this heuristic is very easy to implement, we argue that it should be part of the standard baselines to compare against.
translated by 谷歌翻译
在建模重复的法院游戏时,许多过去的尝试都认为需求是静止的。这与现实世界的情景不一致,其中市场需求可以通过产品的一生以无数的原因来实现。在本文中,我们模拟了重复的Cournot游戏,不符合非静止需求,使得公司/代理人面临非静止多武装强盗问题的单独实例。代理可以选择的武器/行动代表离散生产量;这里,排序动作空间。代理商是独立和自主的,无法观察到环境中的任何事情;他们只能在采取行动后看到自己的奖励,只能努力最大化这些奖励。我们提出了一种新颖的算法对加权探索(AWE)$ \ EPSILON $ -GREEDY'的自适应,这些探索基于众所周知的$ \ epsilon $ -greedy方法远程。该算法检测和量化由于不同的市场需求而导致的奖励的变化,并与需求变化程度的程度不同,从而使代理能够更好地识别新的最佳动作。为了有效探索,它还部署了一种用于称重利用有序动作空间的动作的机制。我们使用模拟来研究市场上各种均衡的出现。此外,我们在系统中的总代理数量和行动空间的大小之间研究了我们的方法的可扩展性。我们在我们的模型中考虑对称和不对称的公司。我们发现,使用我们提出的方法,代理商能够根据需求的变化迅速改变他们的行动方针,并且在许多模拟中也从事契合行为。
translated by 谷歌翻译
我们将一般的多军匪徒问题视为一个相关(和简单的上下文和不安)元素,是一个放松的控制问题。通过引入熵正则化,我们获得了对值函数的平滑渐近近似。这产生了最佳决策过程的新型半指数近似。该半指数可以被解释为明确平衡探索 - 探索 - 探索权衡取舍,就像乐观的(UCB)原则中,学习溢价明确描述了环境中可用的信息的不对称性和奖励功能中的非线性。所得的渐近随机对照(ARC)算法的性能与其他相关的多臂匪徒的方法相比有利。
translated by 谷歌翻译
最近在文献中显示,在线学习实验的样本平均值在用于估计平均奖励时偏置。为了纠正偏差,违规评估方法,包括重要性采样和双倍稳健的估算,通常计算条件倾向分数,这对于UCB等非随机策略而言。本文提供了使用Bootstrap衰减样本的过程,这不需要对奖励分配的知识并应用于任何自适应策略。数值实验证明了受欢迎的多武装强盗算法产生的样本的有效偏差,例如探索 - 然后提交(ETC),UCB,Thompson采样(TS)和$ \ epsilon $ -Greedy(例如)。我们分析并提供了ETC算法下的程序的理论理由,包括真实和引导世界中偏差衰减率的渐近融合。
translated by 谷歌翻译
考虑在线学习算法同时做出决策并从反馈中学习。此类算法被广泛部署在产品和数字内容的推荐系统中。本文展示了在线学习算法偏见的偏低替代方案,以及它如何塑造建议系统的需求。首先,我们考虑$ k $武装的土匪。我们证明,$ \ varepsilon $ - 果岭选择一个无风险的手臂,而不是一个具有均等预期奖励的风险臂,概率是任意接近一个的概率。这是对不良奖励估计的武器采样的结果。通过实验,我们表明其他在线学习算法也表现出风险规避。在推荐系统环境中,我们表明,该算法对用户的嘈杂奖励减少的内容受到算法的青睐。结合使战略内容创建者朝着相似的预期质量的内容驱动战略性创建者的平衡力,对内容的优势不一定更好,挥发性较小,被夸大了。
translated by 谷歌翻译
我们考虑单个强化学习与基于事件驱动的代理商金融市场模型相互作用时学习最佳执行代理的学习动力。交易在事件时间内通过匹配引擎进行异步进行。最佳执行代理在不同级别的初始订单尺寸和不同尺寸的状态空间上进行考虑。使用校准方法考虑了对基于代理的模型和市场的影响,该方法探讨了经验性风格化事实和价格影响曲线的变化。收敛,音量轨迹和动作痕迹图用于可视化学习动力学。这表明了最佳执行代理如何在模拟的反应性市场框架内学习最佳交易决策,以及如何通过引入战略订单分类来改变模拟市场的反反应。
translated by 谷歌翻译
像汤普森采样等多武装强盗算法可用于进行自适应实验,其中最大化奖励意味着数据用于逐步为更多参与者分配更有效的武器。这些转让策略增加了统计假设试验的风险,鉴定武器之间的差异,当没有一个时,并且在真正是一个是一个时,武器的差异存在差异。我们为2臂实验仿真,探讨了两种算法,这些算法结合了统计分析的均匀随机化的益处,具有通过Thompson采样(TS)实现的奖励最大化的益处。首先,前两种汤普森采样增加了固定量的均匀随机分配(UR)随时间均匀传播。二,一种新的启发式算法,称为TS Postdiff(差异后概率)。 Ts Postdiff采用贝叶斯方法来混合TS和UR:使用UR分配分配参与者的概率是后部概率,即两个臂之间的差异是“小”(低于某个阈值),允许在存在时探索更多的探索很少或没有奖励获得。我们发现TS PostDiff方法跨多种效果大小进行良好,因此不需要根据真实效果大小的猜测进行调整。
translated by 谷歌翻译
在许多真实世界应用程序的组合匪徒如内容缓存,必须在满足最小服务要求的同时最大化奖励。此外,基本ARM可用性随着时间的推移而变化,并且采取的行动需要适应奖励最大化的情况。我们提出了一个名为Contexal Combinatial Volatile Birtits的新的强盗模型,具有组阈值来解决这些挑战。我们的模型通过考虑超级臂作为基础臂组的子集来归档组合匪徒。我们寻求最大化超级手臂奖励,同时满足构成超级臂的所有基座组的阈值。为此,我们定义了一个新的遗憾遗嘱,使超级臂奖励最大化与团体奖励满意度合并。为了便于学习,我们假设基臂的平均结果是由上下文索引的高斯过程的样本,并且预期的奖励是Lipschitz在预期的基础臂结果中连续。我们提出了一种算法,称为阈值组合高斯工艺的上置信度界限(TCGP-UCB),最大化累积奖励和满足组奖励阈值之间的余额,并证明它会导致$ \ tilde {o}(k \ sqrt {t \ overline { \ gamma} _ {t}})$后悔具有高概率,其中$ \ overline {\ gamma} _ {t} $是与第一个$ t $轮中出现的基本arm上下文相关联的最大信息增益$ k $是所有在所有轮匝上任何可行行动的超级臂基数。我们在实验中展示了我们的算法累积了与最先进的组合强盗算法相当的奖励,同时采摘群体满足其阈值的动作。
translated by 谷歌翻译
我们在这里采用贝叶斯非参数混合模型,以将多臂匪徒扩展到尤其是汤普森采样,以扩展到存在奖励模型不确定性的场景。在随机的多臂强盗中,播放臂的奖励是由未知分布产生的。奖励不确定性,即缺乏有关奖励生成分布的知识,引起了探索 - 开发权的权衡:强盗代理需要同时了解奖励分布的属性,并顺序决定下一步要采取哪种操作。在这项工作中,我们通过采用贝叶斯非参数高斯混合模型来进行奖励模型不确定性,将汤普森的抽样扩展到场景中,以进行灵活的奖励密度估计。提出的贝叶斯非参数混合物模型汤普森采样依次学习了奖励模型,该模型最能近似于真实但未知的每臂奖励分布,从而实现了成功的遗憾表现。我们基于基于后验分析的新颖的分析得出的,这是一种针对该方法的渐近遗憾。此外,我们从经验上评估了其在多样化和以前难以捉摸的匪徒环境中的性能,例如,在指数级的家族中,奖励不受异常值和不同的每臂奖励分布。我们表明,拟议的贝叶斯非参数汤普森取样优于表现,无论是平均累积的遗憾和遗憾的波动,最先进的替代方案。在存在强盗奖励模型不确定性的情况下,提出的方法很有价值,因为它避免了严格的逐案模型设计选择,但提供了重要的遗憾。
translated by 谷歌翻译
节能导航构成了电动汽车的一个重要挑战,因为其有限的电池容量。我们采用贝叶斯方法在用于高效的导航路段的能耗模型。为了学习模型参数,我们开发了一个在线学习框架,并研究了几种勘探战略,如汤普森采样和上界的信心。然后,我们我们的在线学习框架扩展到多代理设置,其中多个车辆自适应导航和学习的能量模型的参数。我们分析汤普森采样和它在单剂和多代理设置性能建立严格的遗憾界限,通过下成批反馈算法的分析。最后,我们证明我们的方法通过实验,在几个真实世界的城市道路网络的性能。
translated by 谷歌翻译
在比较多臂匪徒算法的性能时,通常会忽略缺失数据的潜在影响。实际上,这也影响了他们的实现,在克服此问题的最简单方法是继续根据原始的强盗算法进行采样,而忽略了缺失的结果。我们通过广泛的仿真研究研究了对这种方法的性能的影响,以处理几种强盗算法的缺失数据,假设奖励是随机缺失的。我们专注于具有二元结果的两臂匪徒在患者分配的背景下用于样本量相对较小的临床试验的背景下。但是,我们的结果适用于预计丢失数据的Bandit算法的其他应用。我们评估所得的运营特征,包括预期的奖励。考虑到双臂失踪的不同概率。我们工作的关键发现是,当使用忽略丢失数据的最简单策略时,对多军匪徒策略的预期性能的影响会根据这些策略平衡勘探探索折衷权衡的方式而有所不同。旨在探索的算法继续将样本分配给手臂,而响应却更多(被认为是具有较少观察到的信息的手臂,该算法比其他算法更具吸引力)。相比之下,针对剥削的算法将迅速为来自手臂的样品迅速分配高价值,而当前高平均值的算法如何,与每只手臂的水平观测无关。此外,对于算法更多地关注探索,我们说明,可以使用简单的平均插补方法来缓解缺失响应的问题。
translated by 谷歌翻译