匹配市场通常以多级和分散的方式组织。此外,现实世界匹配市场的参与者通常具有不确定的偏好。本文基于非参数统计方法和变分分析,开发了在这种环境中学习最佳策略的框架。我们提出了一种高效的算法,建立在“较低不确定性绑定”和“校准分散匹配”的概念上,以最大限度地提高参与者的预期收益。我们表明存在福利与公平性权衡,其特征在于接受的不确定性水平。参与者将战略性地提起低度不确定性水平,以减少竞争并增加预期的收益。与单阶段匹配相比,我们证明参与者可以更好地使用多级匹配。我们通过模拟和使用大学录取的真实数据的实验展示了理论预测的方面。
translated by 谷歌翻译
当代理偏好未知的先验时,我们研究了在共享资源的稀缺时决策的问题问题,并且必须从数据中学到。将双面匹配市场作为一个跑步的例子,我们专注于分散的环境,代理商不会与中央权威分享他们的学习偏好。我们的方法基于再生内核希尔伯特空间中的偏好的表示,以及偏好的学习算法,其由于市场代理商之间的竞争而占不确定性的偏好。在规律性条件下,我们表明我们的偏好估算器以极少的最佳速率收敛。考虑到这一结果,我们推出了最佳策略,最大化代理商的预期收益,我们通过考虑机会成本来校准不确定的状态。我们还获得了激励兼容性属性,并表明学习策略的结果具有稳定性。最后,我们证明了一个公平性质,称赞根据学到的策略存在没有合理的嫉妒。
translated by 谷歌翻译
在现实世界中,人/实体通常独立和自主地找到匹配,例如寻找工作,合作伙伴,室友等。这一搜索可能无法对环境的初始知识开始。我们建议使用多档强化学习(MARL)范式,以便在空间制定的分散双面匹配市场与独立和自主代理商。独立行动的自主代理使我们的环境非常动态和不确定。此外,代理商缺乏对其他代理人的偏好知识,并必须探索环境并与其他代理商互动,通过嘈杂的奖励来发现自己的偏好。我们认为这样的设置更好地近似了现实世界,我们研究了我们的Marl方法对它的有用性。除了传统的稳定匹配情况下,代理程序严格排序偏好,我们检查了我们与不完整名单和联系的稳定匹配方法的适用性。我们调查我们的稳定性,不稳定水平(不稳定的结果)和公平性。我们的Marl方法主要产生稳定和公平的结果。
translated by 谷歌翻译
公平性是在算法决策中的重要考虑因素。当具有较高优异的代理人获得比具有较低优点的试剂更差的代理人时,发生不公平。我们的中心点是,不公平的主要原因是不确定性。制定决策的主体或算法永远无法访问代理的真实优点,而是使用仅限于不完全预测优点的代理功能(例如,GPA,星形评级,推荐信)。这些都没有完全捕捉代理人的优点;然而,现有的方法主要基于观察到的特征和结果直接定义公平概念。我们的主要观点是明确地承认和模拟不确定性更为原则。观察到的特征的作用是产生代理商的优点的后部分布。我们使用这个观点来定义排名中近似公平的概念。我们称之为algorithm $ \ phi $ -fair(对于$ \ phi \ in [0,1] $)如果它具有以下所有代理商$ x $和所有$ k $:如果代理商$ x $最高$ k $代理以概率至少为$ \ rho $(根据后部优点分配),那么该算法将代理商在其排名中以概率排名,至少$ \ phi \ rho $。我们展示了如何计算最佳地互惠对校长进行近似公平性的排名。除了理论表征外,我们还提出了对模拟研究中的方法的潜在影响的实证分析。对于真实世界的验证,我们在纸质建议系统的背景下应用了这种方法,我们在KDD 2020会议上建立和界定。
translated by 谷歌翻译
大多数在线平台都在努力从与用户的互动中学习,许多人从事探索:为了获取新信息而做出潜在的次优选择。我们研究探索与竞争之间的相互作用:这样的平台如何平衡学习探索和用户的竞争。在这里,用户扮演三个不同的角色:他们是产生收入的客户,他们是学习的数据来源,并且是自私的代理商,可以在竞争平台中进行选择。我们考虑了一种风格化的双重垄断模型,其中两家公司面临着相同的多军强盗问题。用户一一到达,并在两家公司之间进行选择,因此,只有在选择它的情况下,每个公司都在其强盗问题上取得进展。通过理论结果和数值模拟的混合,我们研究了竞争是否会激发更好的Bandit算法的采用,以及它是否导致用户增加福利。我们发现,Stark竞争会导致公司致力于导致低福利的“贪婪”强盗算法。但是,通过向公司提供一些“免费”用户来激励更好的探索策略并增加福利来削弱竞争。我们调查了削弱竞争的两个渠道:放松用户的理性并为一家公司带来首次推广优势。我们的发现与“竞争与创新”关系密切相关,并阐明了数字经济中的第一步优势。
translated by 谷歌翻译
双重拍卖可以使货物在多个买卖双方之间进行分散化转移,从而支持许多在线市场的运作。买卖双方通过竞标在这些市场上竞争,但经常不知道自己的估值A-Priori。随着分配和定价通过出价进行,​​参与者的盈利能力,因此这些市场的可持续性取决于通过重复互动的各自学习估值的至关重要。我们启动对购买者和卖家方强盗反馈的双重拍卖市场的研究。我们以基于信心的基于信心的招标来展示,“平均定价”参与者之间有有效的价格发现。特别是,交换商品的买卖双方在$ t $ rounds中遗憾的是$ o(\ sqrt {t})$。不从交易所中受益的买家和卖家又只经历$ o(\ log {t}/ \ delta)$后悔的$ t $ rounds,其中$ \ delta $是最低价格差距。我们通过证明良好的固定价格(一个比双重拍卖更简单的学习问题)来增强我们的上限 - $ \ omega(\ sqrt {t})$遗憾在某些市场中是无法实现的。
translated by 谷歌翻译
在线学习通常需要探索以最大程度地提高长期奖励,但这是以短期“遗憾”为代价的。我们研究如何在多个小组之间分担这种探索成本。例如,在临床试验环境中,分配了亚最佳治疗的患者有效地产生了勘探成本。当患者根据种族或年龄与自然群体相关联时,自然要问任何单一群体所承担的探索成本是否“公平”。如此有动力,我们介绍了“分组”的强盗模型。我们利用公理讨价还价的理论,尤其是纳什议价解决方案,以形式化可能构成跨群体勘探成本的公平分裂的方式。一方面,我们表明,任何遗憾的政策都引起了最不公平的结果:此类政策将在可能的情况下传递最“处于弱势”的群体。更具建设性的方式,我们得出了最佳公平且同时享受“公平价格”的政策。我们通过对华法林剂量的上下文匪徒进行案例研究来说明我们的算法框架的相对优点,我们关注多个种族和年龄段的探索成本。
translated by 谷歌翻译
Due mostly to its application to cognitive radio networks, multiplayer bandits gained a lot of interest in the last decade. A considerable progress has been made on its theoretical aspect. However, the current algorithms are far from applicable and many obstacles remain between these theoretical results and a possible implementation of multiplayer bandits algorithms in real cognitive radio networks. This survey contextualizes and organizes the rich multiplayer bandits literature. In light of the existing works, some clear directions for future research appear. We believe that a further study of these different directions might lead to theoretical algorithms adapted to real-world situations.
translated by 谷歌翻译
我们研究了通过中等数量的成对比较查询引发决策者偏好的问题,以使它们成为特定问题的高质量推荐。我们受到高赌场域中的应用程序的推动,例如选择分配稀缺资源的政策以满足基本需求(例如,用于移植或住房的肾脏,因为那些经历无家可归者),其中需要由(部分)提出引出的偏好。我们在基于偏好的偏好中模拟不确定性,并调查两个设置:a)脱机偏出设置,其中所有查询都是一次,b)在线诱因设置,其中按时间顺序选择查询。我们提出了这些问题的强大优化制剂,这些问题集成了偏好诱导和推荐阶段,其目的是最大化最坏情况的效用或最小化最坏情况的后悔,并研究其复杂性。对于离线案例,在活动偏好诱导与决策信息发现的两个半阶段的稳健优化问题的形式中,我们提供了我们通过列解决的混合二进制线性程序的形式提供了等效的重构。 -Constraint生成。对于在线设置,主动偏好学习采用多级强大优化问题的形式与决策依赖的信息发现,我们提出了一种保守的解决方案方法。合成数据的数值研究表明,我们的方法在最坏情况级别,后悔和效用方面从文献中倾斜最先进的方法。我们展示了我们的方法论如何用于协助无家可归的服务机构选择分配不同类型的稀缺住房资源的政策,以遇到无家可归者。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
Decision makers often aim to learn a treatment assignment policy under a capacity constraint on the number of agents that they can treat. When agents can respond strategically to such policies, competition arises, complicating the estimation of the effect of the policy. In this paper, we study capacity-constrained treatment assignment in the presence of such interference. We consider a dynamic model where the decision maker allocates treatments at each time step and heterogeneous agents myopically best respond to the previous treatment assignment policy. When the number of agents is large but finite, we show that the threshold for receiving treatment under a given policy converges to the policy's mean-field equilibrium threshold. Based on this result, we develop a consistent estimator for the policy effect. In simulations and a semi-synthetic experiment with data from the National Education Longitudinal Study of 1988, we demonstrate that this estimator can be used for learning capacity-constrained policies in the presence of strategic behavior.
translated by 谷歌翻译
Decision-making problems are commonly formulated as optimization problems, which are then solved to make optimal decisions. In this work, we consider the inverse problem where we use prior decision data to uncover the underlying decision-making process in the form of a mathematical optimization model. This statistical learning problem is referred to as data-driven inverse optimization. We focus on problems where the underlying decision-making process is modeled as a convex optimization problem whose parameters are unknown. We formulate the inverse optimization problem as a bilevel program and propose an efficient block coordinate descent-based algorithm to solve large problem instances. Numerical experiments on synthetic datasets demonstrate the computational advantage of our method compared to standard commercial solvers. Moreover, the real-world utility of the proposed approach is highlighted through two realistic case studies in which we consider estimating risk preferences and learning local constraint parameters of agents in a multiplayer Nash bargaining game.
translated by 谷歌翻译
我们考虑随机多武装强盗(MAB)问题,延迟影响了行动。在我们的环境中,过去采取的行动在随后的未来影响了ARM奖励。在现实世界中,行动的这种延迟影响是普遍的。例如,为某个社会群体中的人员偿还贷款的能力可能历史上历史上批准贷款申请的频率频率。如果银行将贷款申请拒绝拒绝弱势群体,则可以创建反馈循环,进一步损害该群体中获取贷款的机会。在本文中,我们制定了在多武装匪徒的背景下的行动延迟和长期影响。由于在学习期间,我们将强盗设置概括为对这种“偏置”的依赖性进行编码。目标是随着时间的推移最大化收集的公用事业,同时考虑到历史行动延迟影响所产生的动态。我们提出了一种算法,实现了$ \ tilde {\ mathcal {o}}的遗憾,并显示$ \ omega(kt ^ {2/3})$的匹配遗憾下限,其中$ k $是武器数量,$ t $是学习地平线。我们的结果通过添加技术来补充强盗文献,以处理具有长期影响的行动,并对设计公平算法有影响。
translated by 谷歌翻译
我们将一般的多军匪徒问题视为一个相关(和简单的上下文和不安)元素,是一个放松的控制问题。通过引入熵正则化,我们获得了对值函数的平滑渐近近似。这产生了最佳决策过程的新型半指数近似。该半指数可以被解释为明确平衡探索 - 探索 - 探索权衡取舍,就像乐观的(UCB)原则中,学习溢价明确描述了环境中可用的信息的不对称性和奖励功能中的非线性。所得的渐近随机对照(ARC)算法的性能与其他相关的多臂匪徒的方法相比有利。
translated by 谷歌翻译
通常,根据某些固有的价值衡量标准,绩效是定义的。相反,我们考虑一个个人的价值为\ emph {相对}的设置:当决策者(DM)选择一组从人口中的个人来最大化预期效用时,自然考虑\ emph {预期的边际贡献}(每个人的emc)。我们表明,这个概念满足了这种环境公平性的公理定义。我们还表明,对于某些政策结构,这种公平概念与最大化的预期效用保持一致,而对于线性实用程序功能,它与Shapley值相同。但是,对于某些自然政策,例如选择具有一组特定属性的个人的政策(例如,大学入学的足够高考试成绩),精英级和公用事业最大化之间存在权衡。我们根据挪威大学的大学录取和成果,分析了限制对政策对效用和公平性的影响。
translated by 谷歌翻译
我们考虑一个完全分散的多人多手随机多武装匪盗匪徒,其中玩家不能互相通信,并且只能观察自己的行为和奖励。环境可能与不同的播放器不同,$ \ texit {i.e.} $,给定臂的奖励分布在球员之间是异构的。在碰撞的情况下(当多个玩家播放相同的手臂时),我们允许碰撞玩家接收非零奖励。播放武器的时间 - 地平线$ t $是\ emph {否}对玩家已知。在此设置中,允许玩家的数量大于武器的数量,我们展示了一项达到订单优化预期令人遗憾的政策$ O(\ log ^ {1 + delta} t)$有些$ 0 <\ delta <1 $超过时间的时间$ t $。IEEE关于信息理论的交易中接受了本文。
translated by 谷歌翻译
我们考虑一个预期值排名和选择问题,其中所有K解决方案的仿真输出都取决于常见的不确定输入模型。鉴于输入模型的不确定性是由有限支持的概率单纯捕获的,我们将最佳最佳(MPB)定义为最佳概率最大的解决方案。为了设计有效的采样算法以找到MPB,我们首先得出了一个错误选择MPB的概率的较大偏差率,然后提出最佳计算预算分配(OCBA)问题,以找到最佳的静态采样比率的最佳静态采样率所有解决方案输入模型对最大化下限。我们设计了一系列顺序算法,这些算法应用于可解释和计算有效的采样规则,并证明其采样比达到了随着仿真预算的增加而达到OCBA问题的最佳条件。该算法针对用于上下文排名和选择问题的最新顺序抽样算法进行了基准测试,并证明在查找MPB时具有出色的经验性能。
translated by 谷歌翻译
动态治疗方案(DTRS)是个性化的,适应性的,多阶段的治疗计划,可将治疗决策适应个人的初始特征,并在随后的每个阶段中的中级结果和特征,在前阶段受到决策的影响。例子包括对糖尿病,癌症和抑郁症等慢性病的个性化一线和二线治疗,这些治疗适应患者对一线治疗,疾病进展和个人特征的反应。尽管现有文献主要集中于估算离线数据(例如从依次随机试验)中的最佳DTR,但我们研究了以在线方式开发最佳DTR的问题,在线与每个人的互动都会影响我们的累积奖励和我们的数据收集,以供我们的数据收集。未来的学习。我们将其称为DTR匪徒问题。我们提出了一种新颖的算法,通过仔细平衡探索和剥削,可以保证当过渡和奖励模型是线性时,可以实现最佳的遗憾。我们证明了我们的算法及其在合成实验和使用现实世界中对重大抑郁症的适应性治疗的案例研究中的好处。
translated by 谷歌翻译
考虑在线学习算法同时做出决策并从反馈中学习。此类算法被广泛部署在产品和数字内容的推荐系统中。本文展示了在线学习算法偏见的偏低替代方案,以及它如何塑造建议系统的需求。首先,我们考虑$ k $武装的土匪。我们证明,$ \ varepsilon $ - 果岭选择一个无风险的手臂,而不是一个具有均等预期奖励的风险臂,概率是任意接近一个的概率。这是对不良奖励估计的武器采样的结果。通过实验,我们表明其他在线学习算法也表现出风险规避。在推荐系统环境中,我们表明,该算法对用户的嘈杂奖励减少的内容受到算法的青睐。结合使战略内容创建者朝着相似的预期质量的内容驱动战略性创建者的平衡力,对内容的优势不一定更好,挥发性较小,被夸大了。
translated by 谷歌翻译