在本文中,我们研究了具有国家依赖的成本和拒绝的新随机潜水柱最大化问题。我们的问题的输入是预算约束$ B $,以及一组项目(即项目的边际贡献和项目成本)的一组项目是从已知概率分布中汲取的。知道项目的实现状态的唯一方法是探测该项目。我们允许拒绝,即在探测项目并了解其实际状态后,我们必须立即决定是否将该项目添加到我们的解决方案中。我们的目标是顺序探测/选择最优秀的一组项目,以预算限制在所选项目的总成本上。我们对此问题提出了恒定的近似解决方案。我们表明我们的解决方案可以扩展到在线设置。
translated by 谷歌翻译
在本文中,我们研究了具有国家依赖的成本的受限随机潜水区最大化问题。我们的问题的输入是从已知概率分布中得出的状态(即,项目的边际贡献和项目成本)的一组项目。知道项目的实现状态的唯一方法是选择该项目。我们考虑两个约束,即,\ ich {内}和\ \ ich {super}约束。回想一下,每个项目都有一个状态相关的成本,并且内部约束指出所有所选项目的总\ emph {实现}成本不得超过预算。因此,内部约束是具有国家依赖的。另一方面,外部约束是与状态无关的。它可以表示为无论其状态如何,都可以作为一个向下封闭的选定项目系列。我们的目标是最大限度地提高内部和外部限制的目标函数。在较大的成本表明“效用”较大的假设下,我们向这个问题提出了恒定的近似解决方案。
translated by 谷歌翻译
许多顺序决策问题可以作为自适应的下管最大化问题。但是,该领域中的大多数现有研究都集中在基于池的设置上,在该设置中,人们可以按任何顺序选择项目,而对于基于流的设置,项目以任意顺序到达,并且必须立即确定是否可以立即决定在到达时选择或不选择项目。在本文中,我们介绍了一类新的实用程序功能,即半准时函数。我们开发了一系列有效的算法,以最大程度地提高基于流的设置下的半脉冲下函数。
translated by 谷歌翻译
在本文中,我们研究了经典的少量最大化问题,但在非自适应和适应性环境下都受到群体公平限制。已经表明,许多机器学习应用程序的效用函数,包括数据汇总,影响社交网络中的最大化和个性化建议,都满足了子义的属性。因此,在许多应用程序的核心中可以找到受到各种限制的最大化函数。在高水平上,少量最大化旨在选择一组大多数代表性项目(例如,数据点)。但是,大多数现有算法的设计并未包含公平的约束,从而导致某些特定组的不足或过分代表。这激发了我们研究公平的supsodular最大化问题,我们旨在选择一组项目,以最大化(可能是非单调的)suppodular效用功能,但要受群体公平约束。为此,我们为此问题开发了第一个常数因子近似算法。我们的算法的设计足够强大,可以扩展到更复杂的自适应设置下解决suppodular的最大化问题。此外,我们将研究进一步扩展到整合全球基础性约束。
translated by 谷歌翻译
典型的自适应顺序决策问题的目标是根据一些部分观察来设计一个交互策略,该策略根据一些部分观察来顺序选择一组项目,以最大化预期的实用程序。已经表明,许多实际应用的实用功能,包括基于汇集的主动学习和自适应影响最大化,满足自适应子骨科的特性。然而,大多数关于自适应子模块最大化的研究重点关注完全自适应设置,即,必须等待从\ emph {all}过去选择之前的反馈。虽然这种方法可以充分利用过去过去的反馈,但是与非自适应解决方案相比,完成选择过程可能需要更长的时间来完成选择过程,其中在任何观察发生之前发生所有选择。在本文中,我们探讨了部分自适应子模块最大化的问题,其中允许同时在批处理中进行多种选择并一起观察它们的实现。我们的方法享有适应性的好处,同时减少了从过去选择等待观察的时间。据我们所知,没有结果对于非单调自适应子膜最大化问题的部分适应性政策。我们在基数限制和背包约束下研究了这个问题,并对这两种情况制定了有效和高效的解决方案。我们还分析了批量查询复杂性,即策略所需的批量次数,以便在一些额外的假设下完成选择过程。
translated by 谷歌翻译
许多顺序决策问题,包括基于池的主动学习和自适应病毒营销,可以作为适应性的下调性最大化问题。关于自适应下调优化的大多数研究都集中在单调病例或非单调性病例上。具体而言,如果实用程序函数是单调的,并且自适应子管道,则\ cite {golovin2011Adaptive}制定了一种贪婪的策略,该策略可以达到$(1-1/e)$近似值,但要受到基数约束。如果实用程序函数是非单调性的,并且自适应子模块,则\ cite {tang2021beyond}表明,随机贪婪的策略达到了$ 1/e $ $ $的近似比,但受到基数约束。在这项工作中,我们旨在通过研究部分超声酮自适应下调最大化问题来概括上述结果。为此,我们介绍了[0,1] $中自适应单调性比率$ m \的表示法,以测量功能的单调性程度。我们的主要结果是表明,如果实用程序功能为$ M $ - 适应性单调和自适应子管道。值得注意的是,当$ m = 0 $和$ m = 1 $时,此结果将恢复上述$(1-1/e)$和$ 1/e $的近似值。我们进一步扩展了结果,以考虑背包约束。我们表明,如果实用程序功能为$ M $ $ - 适应性单调和自适应子模型,则基于抽样的策略的近似值为$(M+1)/10 $。我们结果的一个重要含义是,即使对于非马可分子实用程序函数,如果此函数与单调函数``clote'',我们仍然可以达到接近$(1-1/e)$的近似值。对于许多机器学习应用程序,其实用程序功能几乎是自适应单调的,这会改善性能界限。
translated by 谷歌翻译
顺序决策问题的目的是设计一种自适应选择一组项目的交互式策略,每个选择都是基于过去的反馈,以最大程度地提高所选项目的预期效用。已经表明,许多现实世界应用的实用程序功能都是自适应的。但是,大多数关于自适应下调优化的现有研究都集中在平均案例上。不幸的是,在最糟糕的案例实现下,具有良好平均表现的政策可能表现较差。在这项研究中,我们建议研究两种自适应下调优化问题的变体,即最坏情况下的自适应下二一个最大化和鲁棒的下二一个最大化。第一个问题旨在找到一项最大化最坏情况的政策,后者旨在找到一项政策(如果有的话),同时可以同时实现接近最佳的平均效用和最差的效用。我们引入了一类新的随机函数,称为\ emph {worst-case subsodular函数}。对于最严重的自适应性次传导性最大化问题,但要受到$ p $系统约束的约束,我们制定了一种自适应的最坏情况贪婪的贪婪政策,该政策实现了$ \ frac {1} {p+1} $近似值案例实用程序如果效用函数是最差的子模型。对于稳健的自适应下调最大化问题,但受到基数约束(分区矩阵约束),如果效用函数既是最坏情况下的casase subsodular and Adaptive subsodular,否 - \ frac {1} {2}}} $(分别$ 1/3 $)在最坏情况下和平均案例设置下同时。我们还描述了我们的理论结果的几种应用,包括池碱积极学习,随机的下套装覆盖和自适应病毒营销。
translated by 谷歌翻译
我们考虑自适应 - 调节功能的最低成本覆盖率的问题,并提供4(ln Q+1) - approximation算法,其中Q是目标值。该结合几乎是最好的,因为该问题不能接受比LN Q更好的近似值(除非p = np)。我们的结果是该问题的第一个O(LN Q) - Approximation算法。以前,o(ln q)近似算法仅假设独立项目或单位成本项目是已知的。此外,我们的结果很容易扩展到想要同时覆盖多个自适应 - 调节函数的设置:我们获得了此概括的第一个近似算法。
translated by 谷歌翻译
在大型和快速增长的数据上运行机器学习算法通常是计算昂贵的,减少数据集大小的一个常见技巧,从而降低了机器学习算法的计算成本,是\ EMPH {概率采样}。它通过从具有已知概率的原始数据集中的每个数据点包括来自原始数据的每个数据点来创建采样的数据集。虽然在减少数据集上运行机器学习算法的好处是显而易见的,但一个主要问题是,在使用完整数据集时,从样本获得的解决方案的性能可能比最佳解决方案的性能更差。在本文中,我们在自适应子骨析最大化的背景下检查由概率采样引起的性能损失。我们考虑一个简单的概率采样方法,它在[0,1] $中选择概率$ r \的每个数据点。如果我们设置采样率$ r = 1 $,我们的问题会减少基于原始完整数据集的解决方案。我们将采样间隙定义为从完整数据集获得的最佳解决方案之间的最大比率和从独立系统获得的样本获得的最佳解决方案。 %它捕获了由概率采样引起的最佳解决方案的性能损失。我们的主要贡献是表明,如果实用程序函数是policywise子模块,那么对于给定的采样率$ r $,采样差距是上限和下限的1美元/ r $。我们的结果立即含义是,如果我们可以基于采样的数据集找到$ \ alpha $-uppatimation解决方案(以$ r $以$ r $上采样),那么该解决方案实现了$ \ alpha r $近似率使用完整数据集时的最佳解决方案。
translated by 谷歌翻译
Offline reinforcement learning (RL) concerns pursuing an optimal policy for sequential decision-making from a pre-collected dataset, without further interaction with the environment. Recent theoretical progress has focused on developing sample-efficient offline RL algorithms with various relaxed assumptions on data coverage and function approximators, especially to handle the case with excessively large state-action spaces. Among them, the framework based on the linear-programming (LP) reformulation of Markov decision processes has shown promise: it enables sample-efficient offline RL with function approximation, under only partial data coverage and realizability assumptions on the function classes, with favorable computational tractability. In this work, we revisit the LP framework for offline RL, and advance the existing results in several aspects, relaxing certain assumptions and achieving optimal statistical rates in terms of sample size. Our key enabler is to introduce proper constraints in the reformulation, instead of using any regularization as in the literature, sometimes also with careful choices of the function classes and initial state distributions. We hope our insights further advocate the study of the LP framework, as well as the induced primal-dual minimax optimization, in offline RL.
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
我们考虑带有背包的土匪(从此以后,BWK),这是一种在供应/预算限制下的多臂土匪的通用模型。特别是,强盗算法需要解决一个众所周知的背包问题:找到最佳的物品包装到有限尺寸的背包中。 BWK问题是众多激励示例的普遍概括,范围从动态定价到重复拍卖,再到动态AD分配,再到网络路由和调度。尽管BWK的先前工作集中在随机版本上,但我们开创了可以在对手身上选择结果的另一个极端。与随机版本和“经典”对抗土匪相比,这是一个更加困难的问题,因为遗憾的最小化不再可行。相反,目的是最大程度地减少竞争比率:基准奖励与算法奖励的比率。我们设计了一种具有竞争比O(log t)的算法,相对于动作的最佳固定分布,其中T是时间范围;我们还证明了一个匹配的下限。关键的概念贡献是对问题的随机版本的新观点。我们为随机版本提出了一种新的算法,该算法是基于重复游戏中遗憾最小化的框架,并且与先前的工作相比,它具有更简单的分析。然后,我们为对抗版本分析此算法,并将其用作求解后者的子例程。
translated by 谷歌翻译
在招聘,晋升和大学录取等选择过程中,众所周知,候选人的种族,性别或性取向等社会质量属性的隐性偏见会造成持久的不平等,并减少决策者的总效用。已经提出了诸如鲁尼规则及其概括之类的干预措施,这些干预措施要求决策者至少选择每个受影响组的指定数量的个体,以减轻隐性偏见在选择中的不利影响。最近的工作已经确定,在每个人最多属于一个受影响的群体的情况下,这种较低的约束对于改善总效用可能非常有效。但是,在某些情况下,个人可能属于多个受影响的群体,因此,由于这种交叉性,面临更大的隐含偏见。我们考虑独立绘制的实用程序,并表明在相交的情况下,上述非交流约束只能在没有隐性偏见的情况下恢复可实现的总效用的一部分。另一方面,我们表明,如果一个人在交叉点上包含适当的下限约束,那么在没有隐式偏见的情况下,几乎所有实用程序都可以恢复。因此,相交的约束可以比减少尺寸的非相互作用方法可提供显着优势,以减少不平等。
translated by 谷歌翻译
我们研究了在$ n $均质代理之间分配$ t $依次到达项目的问题,即每个代理必须收到所有项目的预先指定的分数,目的是最大化代理商的总估值,分配给他们的项目的总估值。假定代理在每轮中对该项目的估值为I.I.D。但是它们的分布是中央计划者未知的先验。因此,中央规划师需要从观察到的价值中隐含地学习这些分布,以便选择良好的分配策略。但是,这里的另一个挑战是,代理商是战略性的,并激励他们误导其估值,以便获得更好的分配。这使我们的工作与在线拍卖设计设置不同,这些设置通常假设已知的估值分布和/或涉及付款,也可以从不考虑战略代理的在线学习环境中进行付款。为此,我们的主要贡献是一种基于在线学习的分配机制,大约是贝叶斯激励兼容的,当所有代理人都是真实的时,与最佳离线分配政策相比,在所有代理商的效用中保证了sublinear的遗憾。
translated by 谷歌翻译
Existing solutions to network scheduling typically assume that the instantaneous link rates are completely known before a scheduling decision is made or consider a bandit setting where the accurate link quality is discovered only after it has been used for data transmission. In practice, the decision maker can obtain (relatively accurate) channel information, e.g., through beamforming in mmWave networks, right before data transmission. However, frequent beamforming incurs a formidable overhead in densely deployed mmWave WLANs. In this paper, we consider the important problem of throughput optimization with joint link probing and scheduling. The problem is challenging even when the link rate distributions are pre-known (the offline setting) due to the necessity of balancing the information gains from probing and the cost of reducing the data transmission opportunity. We develop an approximation algorithm with guaranteed performance when the probing decision is non-adaptive, and a dynamic programming based solution for the more challenging adaptive setting. We further extend our solutions to the online setting with unknown link rate distributions and develop a contextual-bandit based algorithm and derive its regret bound. Numerical results using data traces collected from real-world mmWave deployments demonstrate the efficiency of our solutions.
translated by 谷歌翻译
我们考虑一个一般的在线随机优化问题,在有限时间段的视野中具有多个预算限制。在每个时间段内,都会揭示奖励功能和多个成本功能,并且决策者需要从凸面和紧凑型措施中指定行动,以收集奖励并消耗预算。每个成本函数对应于一个预算的消费。在每个时期,奖励和成本函数都是从未知分布中得出的,该分布在整个时间内都是非平稳的。决策者的目的是最大化受预算限制的累积奖励。该配方捕获了广泛的应用程序,包括在线线性编程和网络收入管理等。在本文中,我们考虑了两个设置:(i)一个数据驱动的设置,其中真实分布未知,但可以提供先前的估计(可能不准确); (ii)一个不信息的环境,其中真实分布是完全未知的。我们提出了一项基于统一的浪费距离措施,以量化设置(i)中先验估计值的不准确性和设置(ii)中系统的非平稳性。我们表明,拟议的措施导致在两种情况下都能获得统一后悔的必要条件。对于设置(i),我们提出了一种新的算法,该算法采用了原始的偶视角,并将基础分布的先前信息集成到双重空间中的在线梯度下降过程。该算法也自然扩展到非信息设置(II)。在这两种设置下,我们显示相应的算法实现了最佳秩序的遗憾。在数值实验中,我们演示了如何将所提出的算法与重新溶解技术自然整合,以进一步提高经验性能。
translated by 谷歌翻译
Online bipartite-matching platforms are ubiquitous and find applications in important areas such as crowdsourcing and ridesharing. In the most general form, the platform consists of three entities: two sides to be matched and a platform operator that decides the matching. The design of algorithms for such platforms has traditionally focused on the operator's (expected) profit. Since fairness has become an important consideration that was ignored in the existing algorithms a collection of online matching algorithms have been developed that give a fair treatment guarantee for one side of the market at the expense of a drop in the operator's profit. In this paper, we generalize the existing work to offer fair treatment guarantees to both sides of the market simultaneously, at a calculated worst case drop to operator profit. We consider group and individual Rawlsian fairness criteria. Moreover, our algorithms have theoretical guarantees and have adjustable parameters that can be tuned as desired to balance the trade-off between the utilities of the three sides. We also derive hardness results that give clear upper bounds over the performance of any algorithm.
translated by 谷歌翻译
我们研究在线交互式强盗设置中的非模块化功能。我们是受到某些元素之间自然互补性的应用程序的动机:这仅使用只能代表元素之间竞争力的下函数来表达这一点。我们通过两种方式扩展了纯粹的下二次方法。首先,我们假设该物镜可以分解为单调下模量和超模块函数的总和,称为BP物镜。在这里,互补性自然是由超模型成分建模的。我们开发了UCB风格的算法,在每一轮比赛中,在采取行动以平衡对未知目标(探索)和选择似乎有希望的行动(剥削)的行动之间揭示的嘈杂收益。根据全知识的贪婪基线来定义遗憾和超模块化曲率,我们表明该算法最多可以在$ o(\ sqrt {t})$ hore $ t $ t $ t $ the $ t $ t $ the $ t $ t $ the $ the。其次,对于那些不承认BP结构的功能,我们提供了类似的遗憾保证,从其表现比率角度来看。这适用于几乎但不完全是子模型的功能。我们在数值上研究了Movielens数据集上电影推荐的任务,并选择用于分类的培训子集。通过这些示例,我们证明了该算法的性能以及将这些问题视为单次生管的缺点。
translated by 谷歌翻译
我们研究在线学习问题,决策者必须采取一系列决策,但要受到$ M $长期约束。决策者的目标是最大程度地提高其总奖励,同时达到小累积约束,在$ t $回合中违规。我们介绍了此一般类问题的第一个最佳世界类型算法,在根据未知随机模型选择奖励和约束的情况下,无需保证,在它们的情况下,在他们的情况下选择了奖励和约束。在每个回合中由对手选择。我们的算法是关于满足长期约束的最佳固定策略的第一个在对抗环境中提供保证的算法。特别是,它保证了$ \ rho/(1+ \ rho)$的最佳奖励和额定性遗憾,其中$ \ rho $是与严格可行的解决方案有关的可行性参数。我们的框架采用传统的遗憾最小化器作为黑盒组件。因此,通过使用适当的遗憾最小化器进行实例化,它可以处理全反馈以及强盗反馈设置。此外,它允许决策者通过非凸奖励和约束无缝处理场景。我们展示了如何在重复拍卖的预算管理机制的背景下应用我们的框架,以保证不包装的长期约束(例如,ROI约束)。
translated by 谷歌翻译
在将项目分配给平台的情况下,我们在匹配中解决了组和个人公平限制。每个项目都属于某些组,并且对平台有偏好顺序。每个平台通过指定可以与每个组匹配的项目数量的上限和下限来实施组公平性。可能有多种最佳解决方案可以满足群体的公平约束。为了实现个人公平,我们介绍了“概率个人公平”,其目标是计算“集体公平”匹配的分布,以便每个项目都有合理的可能性,可以在其最佳选择中与平台匹配。如果每个项目恰好属于一个组,我们提供了一种多项式时间算法,该算法可以计算概率单独的公平分布,而在组公平匹配中。当项目可以属于多个组,并且将组公平约束指定为仅上限时,我们将相同的算法重新算法以实现三种不同的多项式时间近似算法。
translated by 谷歌翻译