为了接近不同的业务目标,在线流量塑造算法旨在改善目标项目的曝光,例如提高新商品的增长。通常,这些算法假设可以通过训练良好的转换速率预测模型访问每个用户项对的实用性。然而,对于真正的电子商务平台,有不可避免的因素阻止我们学习这种准确的模型。为了打破对实用程序的准确输入的沉重依赖,我们提出了一般的在线交通整理协议,用于在线电子商务应用程序。在我们的框架中,我们近似映射奖励得分的函数,这通常是影响排名结果的唯一方法,以对曝光和购买的数量来影响流量整形问题。具体地,我们通过在探索数据点的凸壳上构造的一类转印的线性函数近似上述功能。此外,我们将在线流量整形问题重构为线性编程,其中这些分段线性函数嵌入到目标和约束中。我们的算法可以简单地优化主要空间中的线性编程,并且其解决方案可以简单地应用于随机策略来满足所优化的目标和预期限制。最后,在线A / B测试显示我们所提出的算法稳定地优于先前的工业级流量整形算法。
translated by 谷歌翻译
在电子商务平台中,如果赞助搜索显示出意外的广告项目,则用户不太可能使用有机搜索,这将是该平台的隐藏成本。为了将隐藏成本纳入拍卖机制,这有助于为该平台创造积极的增长,我们转向储备价设计,以决定我们是否出售流量,并在收入和用户体验之间建立健康的关系。我们提出了一个动态的储备价格设计框架,以更有效地销售流量,并以最低的用户体验成本销售流量,同时向广告商保留长期激励措施,以真实地揭示其估值。还提出了分布式算法在生产环境中使用十亿个比例数据计算储备价。离线评估和在线AB测试的实验表明,这是一种简单有效的方法,可适当地用于工业生产中。它已经完全部署在Lazada赞助的搜索的生产中。
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
在将项目分配给平台的情况下,我们在匹配中解决了组和个人公平限制。每个项目都属于某些组,并且对平台有偏好顺序。每个平台通过指定可以与每个组匹配的项目数量的上限和下限来实施组公平性。可能有多种最佳解决方案可以满足群体的公平约束。为了实现个人公平,我们介绍了“概率个人公平”,其目标是计算“集体公平”匹配的分布,以便每个项目都有合理的可能性,可以在其最佳选择中与平台匹配。如果每个项目恰好属于一个组,我们提供了一种多项式时间算法,该算法可以计算概率单独的公平分布,而在组公平匹配中。当项目可以属于多个组,并且将组公平约束指定为仅上限时,我们将相同的算法重新算法以实现三种不同的多项式时间近似算法。
translated by 谷歌翻译
学习 - 排名问题旨在排名,以最大限度地曝光与用户查询相关的那些。这种排名系统的理想特性是保证指定项目组之间的一些公平概念。虽然最近在学习排名系统的背景下审议了公平性,但目前的方法无法提供拟议的排名政策的公平性的担保。本文解决了这一差距,并介绍了智能预测,并优化了公平排名(SPOFR),综合优化和学习框架,以便进行公平受限学习。端到端的SPOFR框架包括受约束的优化子模型,并产生保证的排名策略,以满足公平限制,同时允许对公平实用权概况进行精细控制。SPOFR显示出在既定的性能指标方面显着提高当前最先进的公平学习系统。
translated by 谷歌翻译
资源限制的在线分配问题是收入管理和在线广告中的核心问题。在这些问题中,请求在有限的地平线期间顺序到达,对于每个请求,决策者需要选择消耗一定数量资源并生成奖励的动作。目标是最大限度地提高累计奖励,这是对资源总消费的限制。在本文中,我们考虑一种数据驱动的设置,其中使用决策者未知的输入模型生成每个请求的奖励和资源消耗。我们设计了一般的算法算法,可以在各种输入模型中实现良好的性能,而不知道它们面临的类型类型。特别是,我们的算法在独立和相同的分布式输入以及各种非静止随机输入模型下是渐近的最佳选择,并且当输入是对抗性时,它们达到渐近最佳的固定竞争比率。我们的算法在Lagrangian双色空间中运行:它们为使用在线镜像血管更新的每个资源维护双倍乘数。通过相应地选择参考功能,我们恢复双梯度下降和双乘法权重更新算法。与现有的在线分配问题的现有方法相比,所产生的算法简单,快速,不需要在收入函数,消费函数和动作空间中凸起。我们将应用程序讨论到网络收入管理,在线竞标,重复拍卖,预算限制,与高熵的在线比例匹配,以及具有有限库存的个性化分类优化。
translated by 谷歌翻译
我们考虑带有背包的土匪(从此以后,BWK),这是一种在供应/预算限制下的多臂土匪的通用模型。特别是,强盗算法需要解决一个众所周知的背包问题:找到最佳的物品包装到有限尺寸的背包中。 BWK问题是众多激励示例的普遍概括,范围从动态定价到重复拍卖,再到动态AD分配,再到网络路由和调度。尽管BWK的先前工作集中在随机版本上,但我们开创了可以在对手身上选择结果的另一个极端。与随机版本和“经典”对抗土匪相比,这是一个更加困难的问题,因为遗憾的最小化不再可行。相反,目的是最大程度地减少竞争比率:基准奖励与算法奖励的比率。我们设计了一种具有竞争比O(log t)的算法,相对于动作的最佳固定分布,其中T是时间范围;我们还证明了一个匹配的下限。关键的概念贡献是对问题的随机版本的新观点。我们为随机版本提出了一种新的算法,该算法是基于重复游戏中遗憾最小化的框架,并且与先前的工作相比,它具有更简单的分析。然后,我们为对抗版本分析此算法,并将其用作求解后者的子例程。
translated by 谷歌翻译
我们研究在线学习问题,决策者必须采取一系列决策,但要受到$ M $长期约束。决策者的目标是最大程度地提高其总奖励,同时达到小累积约束,在$ t $回合中违规。我们介绍了此一般类问题的第一个最佳世界类型算法,在根据未知随机模型选择奖励和约束的情况下,无需保证,在它们的情况下,在他们的情况下选择了奖励和约束。在每个回合中由对手选择。我们的算法是关于满足长期约束的最佳固定策略的第一个在对抗环境中提供保证的算法。特别是,它保证了$ \ rho/(1+ \ rho)$的最佳奖励和额定性遗憾,其中$ \ rho $是与严格可行的解决方案有关的可行性参数。我们的框架采用传统的遗憾最小化器作为黑盒组件。因此,通过使用适当的遗憾最小化器进行实例化,它可以处理全反馈以及强盗反馈设置。此外,它允许决策者通过非凸奖励和约束无缝处理场景。我们展示了如何在重复拍卖的预算管理机制的背景下应用我们的框架,以保证不包装的长期约束(例如,ROI约束)。
translated by 谷歌翻译
The fair-ranking problem, which asks to rank a given set of items to maximize utility subject to group fairness constraints, has received attention in the fairness, information retrieval, and machine learning literature. Recent works, however, observe that errors in socially-salient (including protected) attributes of items can significantly undermine fairness guarantees of existing fair-ranking algorithms and raise the problem of mitigating the effect of such errors. We study the fair-ranking problem under a model where socially-salient attributes of items are randomly and independently perturbed. We present a fair-ranking framework that incorporates group fairness requirements along with probabilistic information about perturbations in socially-salient attributes. We provide provable guarantees on the fairness and utility attainable by our framework and show that it is information-theoretically impossible to significantly beat these guarantees. Our framework works for multiple non-disjoint attributes and a general class of fairness constraints that includes proportional and equal representation. Empirically, we observe that, compared to baselines, our algorithm outputs rankings with higher fairness, and has a similar or better fairness-utility trade-off compared to baselines.
translated by 谷歌翻译
As machine learning being used increasingly in making high-stakes decisions, an arising challenge is to avoid unfair AI systems that lead to discriminatory decisions for protected population. A direct approach for obtaining a fair predictive model is to train the model through optimizing its prediction performance subject to fairness constraints, which achieves Pareto efficiency when trading off performance against fairness. Among various fairness metrics, the ones based on the area under the ROC curve (AUC) are emerging recently because they are threshold-agnostic and effective for unbalanced data. In this work, we formulate the training problem of a fairness-aware machine learning model as an AUC optimization problem subject to a class of AUC-based fairness constraints. This problem can be reformulated as a min-max optimization problem with min-max constraints, which we solve by stochastic first-order methods based on a new Bregman divergence designed for the special structure of the problem. We numerically demonstrate the effectiveness of our approach on real-world data under different fairness metrics.
translated by 谷歌翻译
在Fisher市场中,代理商(用户)花费(人造)货币预算来购买最大化其公用事业的商品,而中央规划师则将其设定为容量约束的商品,以便市场清算。但是,定价方案在Fisher市场实现平衡结果方面的功效通常取决于用户的预算和公用事业的完全了解,并且要求交易在同时存在所有用户的静态市场中发生。结果,我们研究了Fisher市场的在线变体,其中有私人公用事业和预算参数的预算受限用户,绘制了I.I.D.从分配$ \ Mathcal {d} $,顺序输入市场。在这种情况下,我们开发了一种仅根据用户消费的观察结果来调整价格的算法用户数量和良好的能力量表为$ O(n)$。在这里,我们的遗憾措施是在线算法和离线甲骨文之间的艾森伯格 - 盖尔计划目标的最佳差距,并提供有关用户预算和公用事业的完整信息。为了确定我们方法的功效,我们证明了任何统一(静态)定价算法,包括设定预期平衡价格并完全了解分销$ \ MATHCAL {D} $的算法,既无法实现遗憾和限制的违反比$ \ omega(\ sqrt {n})$。虽然我们揭示的偏好算法不需要对分布$ \ MATHCAL {d} $不了解,但我们表明,如果$ \ Mathcal {d} $是已知的,则是预期的平衡定价Achieves $ O(\ log(\ log(n))的自适应变体)$遗憾和离散分发的恒定容量违反。最后,我们提出了数值实验,以证明相对于几个基准测试的揭示偏好算法的性能。
translated by 谷歌翻译
Omnipredictors(Gopalan,Kalai,Reingold,Sharan和Wieder ITCS 2021)的概念提出了一种新的损失最小化范式。与损失损失$ c $相比,无需基于已知的损失功能学习预测指标,而是可以轻松地进行后处理以最大程度地减少任何丰富的损失功能家族。已经表明,这种杂手已经存在,并暗示(对于所有凸和Lipschitz损失函数),通过算法公平文献的多核概念的概念。然而,通常情况下,所选的动作必须遵守一些其他约束(例如能力或奇偶校验约束)。总体而言,全能器的原始概念并不适用于这种良好动机和大量研究的损失最小化的背景。在本文中,我们介绍了综合器,以进行约束优化并研究其复杂性和含义。我们介绍的概念使学习者不知道后来将分配的损失函数以及后来将施加的约束,只要已知用于定义这些约束的亚群的范围。该论文显示了如何依靠适当的多核变体获得限制优化问题的全能器。对于一些有趣的约束和一般损失函数以及一般约束和一些有趣的损失函数,我们显示了如何通过多核的变体隐含的,该变体的复杂性与标准的多核电相似。我们证明,在一般情况下,标准的数学启动不足,表明全能器是通过相对于包含$ c $中所有级别假设集的类的多核算来暗示的。我们还研究了约束是群体公平概念时的含义。
translated by 谷歌翻译
我们考虑一个一般的在线随机优化问题,在有限时间段的视野中具有多个预算限制。在每个时间段内,都会揭示奖励功能和多个成本功能,并且决策者需要从凸面和紧凑型措施中指定行动,以收集奖励并消耗预算。每个成本函数对应于一个预算的消费。在每个时期,奖励和成本函数都是从未知分布中得出的,该分布在整个时间内都是非平稳的。决策者的目的是最大化受预算限制的累积奖励。该配方捕获了广泛的应用程序,包括在线线性编程和网络收入管理等。在本文中,我们考虑了两个设置:(i)一个数据驱动的设置,其中真实分布未知,但可以提供先前的估计(可能不准确); (ii)一个不信息的环境,其中真实分布是完全未知的。我们提出了一项基于统一的浪费距离措施,以量化设置(i)中先验估计值的不准确性和设置(ii)中系统的非平稳性。我们表明,拟议的措施导致在两种情况下都能获得统一后悔的必要条件。对于设置(i),我们提出了一种新的算法,该算法采用了原始的偶视角,并将基础分布的先前信息集成到双重空间中的在线梯度下降过程。该算法也自然扩展到非信息设置(II)。在这两种设置下,我们显示相应的算法实现了最佳秩序的遗憾。在数值实验中,我们演示了如何将所提出的算法与重新溶解技术自然整合,以进一步提高经验性能。
translated by 谷歌翻译
排名已成为双面在线市场的主要界面。许多人指出,排名不仅影响用户的满意度(例如,客户,听众,雇主,旅行者),而且排名中的位置将曝光率分配给排名项目(例如,例如文章,产品,歌曲,求职者,餐馆,酒店)。这已经提出了对项目的公平性问题,大多数现有作品通过将项目的暴露与项目相关性明确链接在一起,从而解决了公平性。但是,我们认为,这种链接功能的任何特定选择都可能很难捍卫,我们表明结果排名仍然不公平。为了避免这些缺点,我们开发了一种植根于公平分裂原则的新的公理方法。这不仅避免了选择链接功能的需求,而且更有意义地量化了对曝光范围之外的项目的影响。我们对统一排名的嫉妒性和主导地位的公理假设,对于公平排名政策,每个项目都应该比其他任何项目的排名分配,并且任何项目都不应受到排名的不利影响。为了计算按照这些公理的公平政策,我们提出了一个与纳什社会福利有关的新排名目标。我们表明,该解决方案已保证其嫉妒性,其对每个项目的统一排名的主导地位以及帕累托的最优性。相比之下,我们表明,基于暴露的公平性可以产生大量嫉妒,并对这些物品产生高度不同的影响。除了这些理论上的结果外,我们还从经验上说明了我们的框架如何控制基于影响的个人项目公平和用户实用程序之间的权衡。
translated by 谷歌翻译
许多实际优化问题涉及不确定的参数,这些参数具有概率分布,可以使用上下文特征信息来估算。与首先估计不确定参数的分布然后基于估计优化目标的标准方法相反,我们提出了一个\ textIt {集成条件估计 - 优化}(ICEO)框架,该框架估计了随机参数的潜在条件分布同时考虑优化问题的结构。我们将随机参数的条件分布与上下文特征之间的关系直接建模,然后以与下游优化问题对齐的目标估算概率模型。我们表明,我们的ICEO方法在适度的规律性条件下渐近一致,并以概括范围的形式提供有限的性能保证。在计算上,使用ICEO方法执行估计是一种非凸面且通常是非差异的优化问题。我们提出了一种通用方法,用于近似从估计的条件分布到通过可区分函数的最佳决策的潜在非差异映射,这极大地改善了应用于非凸问题的基于梯度的算法的性能。我们还提供了半代理案例中的多项式优化解决方案方法。还进行了数值实验,以显示我们在不同情况下的方法的经验成功,包括数据样本和模型不匹配。
translated by 谷歌翻译
价格歧视,这是指为不同客户群体的不同价格进行规定的策略,已广泛用于在线零售。虽然它有助于提高在线零售商的收入,但它可能会对公平产生严重关切,甚至违反了监管和法律。本文研究了公平限制下动态歧视性定价的问题。特别是,我们考虑一个有限的销售长度$ T $的单一产品,为一组客户提供两组客户。每组客户都有其未知的需求功能,需要学习。对于每个销售期间,卖方确定每组的价格并观察其购买行为。虽然现有文学主要侧重于最大化收入,但在动态定价文学中确保不同客户的公平尚未完全探索。在这项工作中,我们采用了(Cohen等人)的公平概念。对于价格公平性,我们在遗憾方面提出了最佳的动态定价政策,从而强制执行严格的价格公平制约。与标准$ \ sqrt {t} $ - 在线学习中的遗憾遗憾,我们表明我们案例中的最佳遗憾是$ \ tilde {\ theta}(t ^ {4/5})$。我们进一步将算法扩展到更普遍的公平概念,包括作为一个特例的需求公平。为了处理这一普通类,我们提出了一个柔和的公平约束,并开发了实现$ \ tilde {o}(t ^ {4/5})$后悔的动态定价政策。
translated by 谷歌翻译
我们考虑在线学习设置中的顺序稀疏子集选择的问题。假设集合$ [n] $由$ n $不同的元素组成。在$ t^{\ text {th}} $ round上,单调奖励函数$ f_t:2^{[n]} \ to \ m athbb {r} _+,$,为每个子集分配非阴性奖励$ [n],向学习者透露$。学习者在奖励功能$ f_t $ for $ f_t $之前(k \ leq n)$选择(也许是随机的)子集$ s_t \ subseteq [n] $ of $ k $元素。由于选择的结果,学习者在$ t^{\ text {th}} $ round上获得了$ f_t(s_t)$的奖励。学习者的目标是设计一项在线子集选择策略,以最大程度地提高其在给定时间范围内产生的预期累积奖励。在这方面,我们提出了一种称为Score的在线学习策略(带有Core的子集选择),以解决大量奖励功能的问题。拟议的分数策略基于$ \ alpha $ core的新概念,这是对合作游戏理论文献中核心概念的概括。我们根据一个名为$ \ alpha $的遗憾的新绩效指标为分数政策建立学习保证。在这个新的指标中,与在线政策相比,离线基准的功能适当增强。我们给出了几个说明性示例,以表明可以使用分数策略有效地学习包括子模型在内的广泛奖励功能。我们还概述了如何在半伴奏反馈模型下使用得分策略,并以许多开放问题的总结结束了论文。
translated by 谷歌翻译
最近有利息线性编程(LP)的一阶方法。在本文中,我们提出了一种使用差异减少的随机算法,并重新启动,用于解决LP等尖锐的原始 - 双重问题。我们表明,所提出的随机方法表现出具有高概率的尖锐实例的线性收敛速率,这提高了现有的确定性和随机算法的复杂性。此外,我们提出了一个有效的基于坐标的随机甲骨文,用于无限制的双线性问题,它具有$ \ Mathcal O(1)$彼得迭代成本并改善总牌数量达到一定的准确性。
translated by 谷歌翻译
我们介绍了$(p,q)$ - 公平集群问题。在这个问题中,我们给出了一组点数$ p $和不同重量函数的集合$ w $。我们想找到一个群集,最小化$ \ ell_q $ -norm的$ \ ell_p $-norm的$ \ ell_p $ -norms的$ p $从中心。这概括了各种聚类问题,包括社会博览会$ k $ -Median和$ k $ - emeans,并且与其他问题紧密相连,如Densest $ K $ -subgraph和Min $ K $ -Union。我们利用凸编程技术来估计$(p,q)$ - 为$ p $和$ q $的不同价值观达到公平的聚类问题。当$ p \ geq q $时,我们得到$ o(k ^ {(pq)/(2pq)})$,它几乎匹配$ k ^ {\ omega((pq)/(pq))} $低于基于Min $ K $ -Union和其他问题的猜想硬度的束缚。当$ q \ geq p $时,我们得到一个近似,它与界限$ p,q $的输入的大小无关,也与最近的$ o相匹配((\ log n /(\ log \ log n)) ^ {1 / p})$ - $(p,\ infty)$ - makarychev和vakilian(colt 2021)的公平聚类。
translated by 谷歌翻译
SemideFinite编程(SDP)是一个统一的框架,可以概括线性编程和四二次二次编程,同时在理论和实践中也产生有效的求解器。但是,当覆盖SDP的约束以在线方式到达时,存在近似最佳解决方案的已知结果。在本文中,我们研究了在线涵盖线性和半决赛程序,其中通过可能错误的预测指标的建议增强了算法。我们表明,如果预测变量是准确的,我们可以有效地绕过这些不可能的结果,并在最佳解决方案(即一致性)上实现恒定因素近似值。另一方面,如果预测变量不准确,在某些技术条件下,我们取得的结果既匹配经典的最佳上限和紧密的下限,则达到恒定因素,即稳健性。更广泛地,我们引入了一个框架,该框架既扩展了(1)由Bamas,Maggiori和Svensson(Neurips 2020)研究的机器学习预测变量增加的在线套装问题,以及(2)在线覆盖SDP问题,由SDP问题发起。 Elad,Kale和Naor(ICALP 2016)。具体而言,我们获得了一般的在线学习算法,用于涵盖具有分数建议和约束的线性程序,并启动学习启发算法以涵盖SDP问题的研究。我们的技术基于Buchbinder和NAOR的原始二次框架(操作研究的数学,34,2009),并且可以进一步调整以处理变量位于有限区域的约束,即框约束。
translated by 谷歌翻译