在本文中,我们研究了具有国家依赖的成本的受限随机潜水区最大化问题。我们的问题的输入是从已知概率分布中得出的状态(即,项目的边际贡献和项目成本)的一组项目。知道项目的实现状态的唯一方法是选择该项目。我们考虑两个约束,即,\ ich {内}和\ \ ich {super}约束。回想一下,每个项目都有一个状态相关的成本,并且内部约束指出所有所选项目的总\ emph {实现}成本不得超过预算。因此,内部约束是具有国家依赖的。另一方面,外部约束是与状态无关的。它可以表示为无论其状态如何,都可以作为一个向下封闭的选定项目系列。我们的目标是最大限度地提高内部和外部限制的目标函数。在较大的成本表明“效用”较大的假设下,我们向这个问题提出了恒定的近似解决方案。
translated by 谷歌翻译
在本文中,我们研究了具有国家依赖的成本和拒绝的新随机潜水柱最大化问题。我们的问题的输入是预算约束$ B $,以及一组项目(即项目的边际贡献和项目成本)的一组项目是从已知概率分布中汲取的。知道项目的实现状态的唯一方法是探测该项目。我们允许拒绝,即在探测项目并了解其实际状态后,我们必须立即决定是否将该项目添加到我们的解决方案中。我们的目标是顺序探测/选择最优秀的一组项目,以预算限制在所选项目的总成本上。我们对此问题提出了恒定的近似解决方案。我们表明我们的解决方案可以扩展到在线设置。
translated by 谷歌翻译
在本文中,我们研究了经典的少量最大化问题,但在非自适应和适应性环境下都受到群体公平限制。已经表明,许多机器学习应用程序的效用函数,包括数据汇总,影响社交网络中的最大化和个性化建议,都满足了子义的属性。因此,在许多应用程序的核心中可以找到受到各种限制的最大化函数。在高水平上,少量最大化旨在选择一组大多数代表性项目(例如,数据点)。但是,大多数现有算法的设计并未包含公平的约束,从而导致某些特定组的不足或过分代表。这激发了我们研究公平的supsodular最大化问题,我们旨在选择一组项目,以最大化(可能是非单调的)suppodular效用功能,但要受群体公平约束。为此,我们为此问题开发了第一个常数因子近似算法。我们的算法的设计足够强大,可以扩展到更复杂的自适应设置下解决suppodular的最大化问题。此外,我们将研究进一步扩展到整合全球基础性约束。
translated by 谷歌翻译
许多顺序决策问题可以作为自适应的下管最大化问题。但是,该领域中的大多数现有研究都集中在基于池的设置上,在该设置中,人们可以按任何顺序选择项目,而对于基于流的设置,项目以任意顺序到达,并且必须立即确定是否可以立即决定在到达时选择或不选择项目。在本文中,我们介绍了一类新的实用程序功能,即半准时函数。我们开发了一系列有效的算法,以最大程度地提高基于流的设置下的半脉冲下函数。
translated by 谷歌翻译
典型的自适应顺序决策问题的目标是根据一些部分观察来设计一个交互策略,该策略根据一些部分观察来顺序选择一组项目,以最大化预期的实用程序。已经表明,许多实际应用的实用功能,包括基于汇集的主动学习和自适应影响最大化,满足自适应子骨科的特性。然而,大多数关于自适应子模块最大化的研究重点关注完全自适应设置,即,必须等待从\ emph {all}过去选择之前的反馈。虽然这种方法可以充分利用过去过去的反馈,但是与非自适应解决方案相比,完成选择过程可能需要更长的时间来完成选择过程,其中在任何观察发生之前发生所有选择。在本文中,我们探讨了部分自适应子模块最大化的问题,其中允许同时在批处理中进行多种选择并一起观察它们的实现。我们的方法享有适应性的好处,同时减少了从过去选择等待观察的时间。据我们所知,没有结果对于非单调自适应子膜最大化问题的部分适应性政策。我们在基数限制和背包约束下研究了这个问题,并对这两种情况制定了有效和高效的解决方案。我们还分析了批量查询复杂性,即策略所需的批量次数,以便在一些额外的假设下完成选择过程。
translated by 谷歌翻译
许多顺序决策问题,包括基于池的主动学习和自适应病毒营销,可以作为适应性的下调性最大化问题。关于自适应下调优化的大多数研究都集中在单调病例或非单调性病例上。具体而言,如果实用程序函数是单调的,并且自适应子管道,则\ cite {golovin2011Adaptive}制定了一种贪婪的策略,该策略可以达到$(1-1/e)$近似值,但要受到基数约束。如果实用程序函数是非单调性的,并且自适应子模块,则\ cite {tang2021beyond}表明,随机贪婪的策略达到了$ 1/e $ $ $的近似比,但受到基数约束。在这项工作中,我们旨在通过研究部分超声酮自适应下调最大化问题来概括上述结果。为此,我们介绍了[0,1] $中自适应单调性比率$ m \的表示法,以测量功能的单调性程度。我们的主要结果是表明,如果实用程序功能为$ M $ - 适应性单调和自适应子管道。值得注意的是,当$ m = 0 $和$ m = 1 $时,此结果将恢复上述$(1-1/e)$和$ 1/e $的近似值。我们进一步扩展了结果,以考虑背包约束。我们表明,如果实用程序功能为$ M $ $ - 适应性单调和自适应子模型,则基于抽样的策略的近似值为$(M+1)/10 $。我们结果的一个重要含义是,即使对于非马可分子实用程序函数,如果此函数与单调函数``clote'',我们仍然可以达到接近$(1-1/e)$的近似值。对于许多机器学习应用程序,其实用程序功能几乎是自适应单调的,这会改善性能界限。
translated by 谷歌翻译
顺序决策问题的目的是设计一种自适应选择一组项目的交互式策略,每个选择都是基于过去的反馈,以最大程度地提高所选项目的预期效用。已经表明,许多现实世界应用的实用程序功能都是自适应的。但是,大多数关于自适应下调优化的现有研究都集中在平均案例上。不幸的是,在最糟糕的案例实现下,具有良好平均表现的政策可能表现较差。在这项研究中,我们建议研究两种自适应下调优化问题的变体,即最坏情况下的自适应下二一个最大化和鲁棒的下二一个最大化。第一个问题旨在找到一项最大化最坏情况的政策,后者旨在找到一项政策(如果有的话),同时可以同时实现接近最佳的平均效用和最差的效用。我们引入了一类新的随机函数,称为\ emph {worst-case subsodular函数}。对于最严重的自适应性次传导性最大化问题,但要受到$ p $系统约束的约束,我们制定了一种自适应的最坏情况贪婪的贪婪政策,该政策实现了$ \ frac {1} {p+1} $近似值案例实用程序如果效用函数是最差的子模型。对于稳健的自适应下调最大化问题,但受到基数约束(分区矩阵约束),如果效用函数既是最坏情况下的casase subsodular and Adaptive subsodular,否 - \ frac {1} {2}}} $(分别$ 1/3 $)在最坏情况下和平均案例设置下同时。我们还描述了我们的理论结果的几种应用,包括池碱积极学习,随机的下套装覆盖和自适应病毒营销。
translated by 谷歌翻译
在大型和快速增长的数据上运行机器学习算法通常是计算昂贵的,减少数据集大小的一个常见技巧,从而降低了机器学习算法的计算成本,是\ EMPH {概率采样}。它通过从具有已知概率的原始数据集中的每个数据点包括来自原始数据的每个数据点来创建采样的数据集。虽然在减少数据集上运行机器学习算法的好处是显而易见的,但一个主要问题是,在使用完整数据集时,从样本获得的解决方案的性能可能比最佳解决方案的性能更差。在本文中,我们在自适应子骨析最大化的背景下检查由概率采样引起的性能损失。我们考虑一个简单的概率采样方法,它在[0,1] $中选择概率$ r \的每个数据点。如果我们设置采样率$ r = 1 $,我们的问题会减少基于原始完整数据集的解决方案。我们将采样间隙定义为从完整数据集获得的最佳解决方案之间的最大比率和从独立系统获得的样本获得的最佳解决方案。 %它捕获了由概率采样引起的最佳解决方案的性能损失。我们的主要贡献是表明,如果实用程序函数是policywise子模块,那么对于给定的采样率$ r $,采样差距是上限和下限的1美元/ r $。我们的结果立即含义是,如果我们可以基于采样的数据集找到$ \ alpha $-uppatimation解决方案(以$ r $以$ r $上采样),那么该解决方案实现了$ \ alpha r $近似率使用完整数据集时的最佳解决方案。
translated by 谷歌翻译
我们考虑自适应 - 调节功能的最低成本覆盖率的问题,并提供4(ln Q+1) - approximation算法,其中Q是目标值。该结合几乎是最好的,因为该问题不能接受比LN Q更好的近似值(除非p = np)。我们的结果是该问题的第一个O(LN Q) - Approximation算法。以前,o(ln q)近似算法仅假设独立项目或单位成本项目是已知的。此外,我们的结果很容易扩展到想要同时覆盖多个自适应 - 调节函数的设置:我们获得了此概括的第一个近似算法。
translated by 谷歌翻译
在招聘,晋升和大学录取等选择过程中,众所周知,候选人的种族,性别或性取向等社会质量属性的隐性偏见会造成持久的不平等,并减少决策者的总效用。已经提出了诸如鲁尼规则及其概括之类的干预措施,这些干预措施要求决策者至少选择每个受影响组的指定数量的个体,以减轻隐性偏见在选择中的不利影响。最近的工作已经确定,在每个人最多属于一个受影响的群体的情况下,这种较低的约束对于改善总效用可能非常有效。但是,在某些情况下,个人可能属于多个受影响的群体,因此,由于这种交叉性,面临更大的隐含偏见。我们考虑独立绘制的实用程序,并表明在相交的情况下,上述非交流约束只能在没有隐性偏见的情况下恢复可实现的总效用的一部分。另一方面,我们表明,如果一个人在交叉点上包含适当的下限约束,那么在没有隐式偏见的情况下,几乎所有实用程序都可以恢复。因此,相交的约束可以比减少尺寸的非相互作用方法可提供显着优势,以减少不平等。
translated by 谷歌翻译
我们研究在线动态定价的问题,具有两种类型的公平限制:“程序公平性”,要求拟议的价格在不同群体之间的预期等同于期望,而“实质性公平”要求公认的价格要求公认的价格在预期中保持平等在不同的群体中。同时进行程序和实质性公平的政策称为“双重公平”。我们表明,双重公平的政策必须是随机的,才能获得比将相同价格分配给不同群体的最佳琐碎政策更高的收入。在两组设置中,我们为达到$ \ tilde {o}(\ sqrt {t})$遗憾的两组定价问题提供了在线学习算法,零过程不公平和$ \ tilde {o}(\ sqrt {t})$对$ t $回合学习的实质性不公平。我们还证明了两个下限,表明这些结果是遗憾和不公平性的,这两者在理论上都是最佳的,直到迭代的对数因素。据我们所知,这是第一个学会定价的动态定价算法,同时满足了两个公平的约束。
translated by 谷歌翻译
在本文中,我们研究了汤普森采样(TS)方法的应用到随机组合多臂匪徒(CMAB)框架中。当所有基本臂的结果分布都是独立的,并获得$ o(m \ log k _ {\ max} \ log t / \ delta_时,我们首先分析一般CMAB模型的标准TS算法。 {\ min})$,其中$ m $是基本武器的数量,$ k _ {\ max} $是最大的超级臂的大小,$ t $是时间范围,而$ \ delta _ {\ min} $是最佳解决方案的预期奖励与任何非最佳解决方案之间的最小差距。这种遗憾的上限比$ o(m(\ log k _ {\ max})^2 \ log t / \ delta _ {\ min})$更好。此外,我们的新颖分析技术可以帮助收紧其他基于UCB的政策(例如ESC)的遗憾界限,因为我们改善了计算累积遗憾的方法。然后,我们考虑Matroid Bandit设置(CMAB模型的特殊类别),在这里我们可以删除跨武器的独立性假设,并实现与下限匹配的遗憾上限。除了遗憾的上限外,我们还指出,一个人不能直接替换确切的离线甲骨文(将离线问题实例的参数作为输入,并在此实例下输出确切的最佳操作),用TS算法中的近似oracle替换了ts算法的近似值。甚至经典的mAb问题。最后,我们使用一些实验来显示TS遗憾与其他现有算法之间的比较,实验结果表明TS优于现有基准。
translated by 谷歌翻译
我们在禁用的对手存在下研究公平分类,允许获得$ \ eta $,选择培训样本的任意$ \ eta $ -flaction,并任意扰乱受保护的属性。由于战略误报,恶意演员或归责的错误,受保护属性可能不正确的设定。和现有的方法,使随机或独立假设对错误可能不满足其在这种对抗环境中的保证。我们的主要贡献是在这种对抗的环境中学习公平分类器的优化框架,这些普遍存在的准确性和公平性提供了可证明的保证。我们的框架适用于多个和非二进制保护属性,专为大类线性分数公平度量设计,并且还可以处理除了受保护的属性之外的扰动。我们证明了我们框架的近密性,对自然假设类别的保证:没有算法可以具有明显更好的准确性,并且任何具有更好公平性的算法必须具有较低的准确性。凭经验,我们评估了我们对统计率的统计税务统计税率为一个对手的统计税率产生的分类机。
translated by 谷歌翻译
在典型的优化问题中,任务是选择成本最低或最高价值的多个选项之一。实际上,这些成本/价值数量通常是通过诸如嘈杂的测量或机器学习等过程来实现的,具有可量化的噪声分布。要考虑到这些噪声分布,一种方法是假设值的先验,使用它来构建后部,然后应用标准随机优化来选择解决方案。但是,在许多实际应用中,此类先前的分布可能没有可用。在本文中,我们使用遗憾最小化模型研究了这种情况。在我们的模型中,任务是在$ n $值中选择最高的一个。这些值是未知的,并由对手选择,但是可以通过嘈杂的通道观察到,在噪声通道中,从已知的分布开始添加噪声。目的是最大程度地减少我们选择的遗憾,该遗憾定义为最高值选择的最高值和所选值之间的预期差异。我们表明,挑选最高观测值的na \“我的算法也对最佳级别的遗憾也后悔,即使$ n = 2 $,并且噪声是公正的。对于任何$ n $的最佳遗憾。我们的算法在概念上是简单的,计算上的效率,并且仅需要对噪声分布的最小知识。
translated by 谷歌翻译
我们考虑具有未知实用程序参数的多项式logit模型(MNL)下的动态分类优化问题。本文研究的主要问题是$ \ varepsilon $ - 污染模型下的模型错误指定,该模型是强大统计和机器学习中的基本模型。特别是,在整个长度$ t $的销售范围内,我们假设客户根据$(1- \ varepsilon)$ - 时间段的$(1- \ varepsilon)的基础多项式logit选择模型进行购买,并进行任意购买取而代之的是在剩余的$ \ varepsilon $ - 分数中的决策。在此模型中,我们通过主动淘汰策略制定了新的强大在线分类优化政策。我们对遗憾建立上限和下界,并表明当分类能力恒定时,我们的政策是$ t $的最佳对数因素。分类能力具有恒定的上限。我们进一步制定了一种完全自适应策略,该政策不需要任何先验知识,即污染参数$ \ varepsilon $。如果存在最佳和亚最佳产品之间存在的亚临时差距,我们还建立了依赖差距的对数遗憾上限和已知的 - $ \ VAREPSILON $和UNKNOWER-$ \ \ VAREPSILON $案例。我们的仿真研究表明,我们的政策表现优于基于上置信度范围(UCB)和汤普森采样的现有政策。
translated by 谷歌翻译
我们研究动态算法,以便在$ N $插入和删除流中最大化单调子模块功能的问题。我们显示任何维护$(0.5+ epsilon)$ - 在基数约束下的近似解决方案的算法,对于任何常数$ \ epsilon> 0 $,必须具有$ \ mathit {polynomial} $的摊销查询复杂性$ n $。此外,需要线性摊销查询复杂性,以维持0.584美元 - 批量的解决方案。这与近期[LMNF + 20,MON20]的最近动态算法相比,达到$(0.5- \ epsilon)$ - 近似值,与$ \ mathsf {poly} \ log(n)$摊销查询复杂性。在正面,当流是仅插入的时候,我们在基数约束下的问题和近似的Matroid约束下提供有效的算法,近似保证$ 1-1 / e-\ epsilon $和摊销查询复杂性$ \ smash {o (\ log(k / \ epsilon)/ \ epsilon ^ 2)} $和$ \ smash {k ^ {\ tilde {o}(1 / \ epsilon ^ 2)} \ log n} $,其中$ k $表示基数参数或Matroid的等级。
translated by 谷歌翻译
在机器学习中最大化的是一项基本任务,在本文中,我们研究了经典的Matroid约束下的删除功能强大版本。在这里,目标是提取数据集的小尺寸摘要,即使在对手删除了一些元素之后,该数据集包含高价值独立集。我们提出了恒定因素近似算法,其空间复杂性取决于矩阵的等级$ k $和已删除元素的数字$ d $。在集中式设置中,我们提出$(4.597+o(\ varepsilon))$ - 近似算法,带有摘要大小$ o(\ frac {k+d} {\ varepsilon^2} \ log \ log \ frac \ frac {k} })$将$(3.582 + o(\ varepsilon))$(k + \ frac {d} {\ varepsilon^2} \ log \ frac {k} {k} {\ varepsilon}) $摘要大小是单调的。在流设置中,我们提供$(9.435 + o(\ varepsilon))$ - 带有摘要大小和内存$ o的近似算法$(k + \ frac {d} {\ varepsilon^2} \ log \ log \ frac {k} {k} {k} {k} {k} {k} { \ varepsilon})$;然后,将近似因子提高到单调盒中的$(5.582+o(\ varepsilon))$。
translated by 谷歌翻译
我们研究了批量线性上下文匪徒的最佳批量遗憾权衡。对于任何批次数$ M $,操作次数$ k $,时间范围$ t $和维度$ d $,我们提供了一种算法,并证明了其遗憾的保证,这是由于技术原因,具有两阶段表达作为时间的时间$ t $ grose。我们还证明了一个令人奇迹的定理,令人惊讶地显示了在问题参数的“问题参数”中的两相遗憾(最高〜对数因子)的最优性,因此建立了确切的批量后悔权衡。与最近的工作\ citep {ruan2020linear}相比,这表明$ m = o(\ log \ log t)$批次实现无需批处理限制的渐近最佳遗憾的渐近最佳遗憾,我们的算法更简单,更易于实际实现。此外,我们的算法实现了所有$ t \ geq d $的最佳遗憾,而\ citep {ruan2020linear}要求$ t $大于$ d $的不切实际的大多项式。沿着我们的分析,我们还证明了一种新的矩阵集中不平等,依赖于他们的动态上限,这是我们的知识,这是其文学中的第一个和独立兴趣。
translated by 谷歌翻译
在线学习通常需要探索以最大程度地提高长期奖励,但这是以短期“遗憾”为代价的。我们研究如何在多个小组之间分担这种探索成本。例如,在临床试验环境中,分配了亚最佳治疗的患者有效地产生了勘探成本。当患者根据种族或年龄与自然群体相关联时,自然要问任何单一群体所承担的探索成本是否“公平”。如此有动力,我们介绍了“分组”的强盗模型。我们利用公理讨价还价的理论,尤其是纳什议价解决方案,以形式化可能构成跨群体勘探成本的公平分裂的方式。一方面,我们表明,任何遗憾的政策都引起了最不公平的结果:此类政策将在可能的情况下传递最“处于弱势”的群体。更具建设性的方式,我们得出了最佳公平且同时享受“公平价格”的政策。我们通过对华法林剂量的上下文匪徒进行案例研究来说明我们的算法框架的相对优点,我们关注多个种族和年龄段的探索成本。
translated by 谷歌翻译
我们研究奖励设计策略,用于激励加强学习代理,从一系列可接受的政策中采用政策。奖励设计师的目标是经济高效地修改底层奖励功能,同时确保在新奖励功能下的任何大约最佳的确定性政策是可允许的,并且在原始奖励功能下执行良好。这个问题可以被视为最佳奖励中毒攻击问题的双重问题:而不是强制代理商采用特定的政策,而奖励设计师则激励一个代理人以避免采取某些州不可受理的行动。也许令人惊讶的是,与最佳奖励中毒攻击的问题相比,我们首先表明可允许的政策教学的奖励设计问题是在计算上具有挑战性的,并且难以找到近似最佳的奖励修改。然后,我们通过制定最佳解决方案的代理问题,其最佳解决方案近似于我们的环境中奖励设计问题的最佳解决方案,但更适用于优化技术和分析。对于此替代问题,我们呈现了在最佳解决方案的值上提供限制的表征结果。最后,我们设计了一个本地搜索算法来解决代理问题,并使用基于模拟的实验展示其实用程序。
translated by 谷歌翻译