我们考虑了众包平台的成本优化利用问题,即给定规定的误差阈值,用于二进制,无监督分类的项目。假定众包平台上的工人根据他们的技能,经验和/或过去的表现,将其分为多个类。我们通过未知的混淆矩阵对每个工人类建模,并根据标签预测支付(已知的)价格。对于此设置,我们提出了用于从工人那里获取标签预测以及推断项目的真实标签的算法。我们证明,如果可用的(未标记)项目数量足够大,我们的算法满足规定的错误阈值,从而产生了几乎最佳的成本。最后,我们通过广泛的案例研究来验证我们的算法和一些受其启发的启发式启发。
translated by 谷歌翻译
Crowdsourcing system has emerged as an effective platform for labeling data with relatively low cost by using non-expert workers. Inferring correct labels from multiple noisy answers on data, however, has been a challenging problem, since the quality of the answers varies widely across tasks and workers. Many existing works have assumed that there is a fixed ordering of workers in terms of their skill levels, and focused on estimating worker skills to aggregate the answers from workers with different weights. In practice, however, the worker skill changes widely across tasks, especially when the tasks are heterogeneous. In this paper, we consider a new model, called $d$-type specialization model, in which each task and worker has its own (unknown) type and the reliability of each worker can vary in the type of a given task and that of a worker. We allow that the number $d$ of types can scale in the number of tasks. In this model, we characterize the optimal sample complexity to correctly infer the labels within any given accuracy, and propose label inference algorithms achieving the order-wise optimal limit even when the types of tasks or those of workers are unknown. We conduct experiments both on synthetic and real datasets, and show that our algorithm outperforms the existing algorithms developed based on more strict model assumptions.
translated by 谷歌翻译
我们考虑一个人口,分成一套社区,并研究通过顺序,随机抽样在人口中识别人群中最大的社区的问题。有多个采样域,也称为\ emph {boxes},该域也会分区群体。每个盒子都可以包括不同社区的个人,每个社区可能又可以跨多个盒子传播。学习代理可以随时使用(用替换)来自任何所选框的随机单独的单个;完成此操作后,代理学会了采样的个人所属的社区,以及此个人是否已被采样。代理的目标是通过优化采样策略以及决策规则来最大限度地减少错误识别最大社区的概率。我们提出并分析了这个问题的新算法,并且还在任何算法下建立了误差概率的信息理论下限。在几个兴趣的情况下,我们算法下误差概率的指数衰减率显示为最佳到恒定因素。所提出的算法通过实际数据集的模拟进一步验证。
translated by 谷歌翻译
积极的学习方法在减少学习所需的样本数量方面表现出了巨大的希望。随着自动化学习系统被采用到实时的现实世界决策管道中,越来越重要的是,这种算法的设计考虑到了安全性。在这项工作中,我们研究了在互动环境中学习最佳安全决定的复杂性。我们将这个问题减少到约束的线性匪徒问题,我们的目标是找到满足某些(未知)安全限制的最佳手臂。我们提出了一种基于自适应的实验性设计算法,在显示ARM的难度与次优的难度之间,我们表现出了有效的交易。据我们所知,我们的结果是具有安全限制的线性匪徒最佳武器识别。实际上,我们证明了这种方法在合成和现实世界数据集上的表现很好。
translated by 谷歌翻译
Crowdsourcing has emerged as an effective platform to label a large volume of data in a cost- and time-efficient manner. Most previous works have focused on designing an efficient algorithm to recover only the ground-truth labels of the data. In this paper, we consider multi-choice crowdsourced labeling with the goal of recovering not only the ground truth but also the most confusing answer and the confusion probability. The most confusing answer provides useful information about the task by revealing the most plausible answer other than the ground truth and how plausible it is. To theoretically analyze such scenarios, we propose a model where there are top-two plausible answers for each task, distinguished from the rest of choices. Task difficulty is quantified by the confusion probability between the top two, and worker reliability is quantified by the probability of giving an answer among the top two. Under this model, we propose a two-stage inference algorithm to infer the top-two answers as well as the confusion probability. We show that our algorithm achieves the minimax optimal convergence rate. We conduct both synthetic and real-data experiments and demonstrate that our algorithm outperforms other recent algorithms. We also show the applicability of our algorithms in inferring the difficulty of tasks and training neural networks with the soft labels composed of the top-two most plausible classes.
translated by 谷歌翻译
我们研究固定预算设置中线性匪徒中最佳手臂识别的问题。通过利用G-Optimal设计的属性并将其纳入ARM分配规则,我们设计了一种无参数算法,基于最佳设计的基于设计的线性最佳臂识别(OD-Linbai)。我们提供了OD-Linbai的失败概率的理论分析。 OD-Linbai的性能并非所有最优差距,而是取决于顶部$ d $臂的差距,其中$ d $是线性匪徒实例的有效维度。补充,我们为此问题提供了一个Minimax下限。上限和下限表明,OD-Linbai是最佳的最佳选择,直到指数中的恒定乘法因素,这是对现有方法的显着改进(例如,贝耶斯加普,和平,线性化和GSE),并解决了确定确定该问题的问题。在固定预算设置中学习最好的手臂的困难。最后,数值实验表明,对各种真实和合成数据集的现有算法进行了相当大的经验改进。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
本文研究了固定置信度设置中随机多臂匪徒中最佳的手臂识别(BAI)问题。考虑到指数匪徒的一般类。指数匪徒家族的最先进算法面临计算挑战。为了缓解这些挑战,提出了一个新颖的框架,该框架将BAI问题视为顺序假设测试,并且可以适合针对指数的土匪家族的可拖动分析。基于此框架,设计了BAI算法,以利用规范顺序概率比测试。该算法在两种设置中都具有三个功能:(1)其样本复杂性在渐近上是最佳的,(2)保证它是$ \ delta- $ pac,(3)它解决了最先进的计算挑战 - 艺术方法。具体而言,这些方法仅专注于高斯环境,需要从汤普森(Thompson)的手臂上进行采样,而这些方法被认为是最好的和挑战者的手臂。本文分析表明,识别挑战者在计算上是昂贵的,并且提出的算法对其进行了规定。最后,提供了数值实验来支持分析。
translated by 谷歌翻译
本文在动态定价的背景下调查预先存在的离线数据对在线学习的影响。我们在$ t $期间的销售地平线上研究单一产品动态定价问题。每个时段的需求由产品价格根据具有未知参数的线性需求模型确定。我们假设在销售地平线开始之前,卖方已经有一些预先存在的离线数据。离线数据集包含$ N $示例,其中每个标准是由历史价格和相关的需求观察组成的输入输出对。卖方希望利用预先存在的离线数据和顺序在线数据来最大限度地减少在线学习过程的遗憾。我们的特征在于在线学习过程的最佳遗憾的脱机数据的大小,位置和分散的联合效果。具体而言,离线数据的大小,位置和色散由历史样本数量为$ n $,平均历史价格与最佳价格$ \ delta $之间的距离以及历史价格的标准差价Sigma $分别。我们表明最佳遗憾是$ \ widetilde \ theta \ left(\ sqrt {t} \ wedge \ frac {t} {(n \ wedge t)\ delta ^ 2 + n \ sigma ^ 2} \右)$,基于“面对不确定性”原则的“乐观主义”的学习算法,其遗憾是最佳的对数因子。我们的结果揭示了对脱机数据的大小的最佳遗憾率的惊人变换,我们称之为阶段转型。此外,我们的结果表明,离线数据的位置和分散也对最佳遗憾具有内在效果,我们通过逆平面法量化了这种效果。
translated by 谷歌翻译
We investigate the sample complexity of learning the optimal arm for multi-task bandit problems. Arms consist of two components: one that is shared across tasks (that we call representation) and one that is task-specific (that we call predictor). The objective is to learn the optimal (representation, predictor)-pair for each task, under the assumption that the optimal representation is common to all tasks. Within this framework, efficient learning algorithms should transfer knowledge across tasks. We consider the best-arm identification problem for a fixed confidence, where, in each round, the learner actively selects both a task, and an arm, and observes the corresponding reward. We derive instance-specific sample complexity lower bounds satisfied by any $(\delta_G,\delta_H)$-PAC algorithm (such an algorithm identifies the best representation with probability at least $1-\delta_G$, and the best predictor for a task with probability at least $1-\delta_H$). We devise an algorithm OSRL-SC whose sample complexity approaches the lower bound, and scales at most as $H(G\log(1/\delta_G)+ X\log(1/\delta_H))$, with $X,G,H$ being, respectively, the number of tasks, representations and predictors. By comparison, this scaling is significantly better than the classical best-arm identification algorithm that scales as $HGX\log(1/\delta)$.
translated by 谷歌翻译
级别设置估计问题旨在查找域$ {\ cal x} $的所有点,其中一个未知函数$ f:{\ cal x} \ lightarrow \ mathbb {r} $超过阈值$ \ alpha $ 。估计基于可以在$ {\ cal x} $中顺序和自适应地选择的位置获取的嘈杂函数评估。阈值$ \ alpha $可以是\弹性{显式},并提供先验,或\ \ ich {隐式},相对于最佳函数值定义,即$ \ alpha =(1- \ epsilon)f(x_ \ AST)$关于给定$ \ epsilon> 0 $ why $ f(x_ \ ist)$是最大函数值,并且未知。在这项工作中,我们通过将其与最近的自适应实验设计方法相关联,为近期自适应实验设计方法提供了一种新的再现内核盗窃空间(RKHS)设置。我们假设可以通过RKHS中的函数近似于未知的拼写,并为此设置中隐含和显式案件提供新的算法,具有很强的理论保证。此外,在线性(内核)设置中,我们表明我们的界限几乎是最佳的,即,我们的上限与阈值线性匪徒的现有下限匹配。据我们所知,这项工作提供了第一个实例依赖性非渐近的上限,就匹配信息理论下限的水平设定估计的样本复杂性。
translated by 谷歌翻译
在线学习通常需要探索以最大程度地提高长期奖励,但这是以短期“遗憾”为代价的。我们研究如何在多个小组之间分担这种探索成本。例如,在临床试验环境中,分配了亚最佳治疗的患者有效地产生了勘探成本。当患者根据种族或年龄与自然群体相关联时,自然要问任何单一群体所承担的探索成本是否“公平”。如此有动力,我们介绍了“分组”的强盗模型。我们利用公理讨价还价的理论,尤其是纳什议价解决方案,以形式化可能构成跨群体勘探成本的公平分裂的方式。一方面,我们表明,任何遗憾的政策都引起了最不公平的结果:此类政策将在可能的情况下传递最“处于弱势”的群体。更具建设性的方式,我们得出了最佳公平且同时享受“公平价格”的政策。我们通过对华法林剂量的上下文匪徒进行案例研究来说明我们的算法框架的相对优点,我们关注多个种族和年龄段的探索成本。
translated by 谷歌翻译
多武装强盗环境中最好的武器识别问题是许多真实世界决策问题的一个优秀模式,但它无法捕捉到现实世界中,在学习时通常必须满足安全限制的事实。在这项工作中,我们研究了安全关键环境中最好的武器识别问题,代理的目标是找到许多人的最佳安全选项,同时以保证某些方式达到满足肯定的方式的探索,最初是未知的安全约束。我们首先在奖励和安全约束采用线性结构的情况下分析此问题,并显示近乎匹配的上限和下限。然后,我们分析了更多的常规版本,我们只假设奖励和安全约束可以通过单调函数建模,并在此设置中提出算法,保证安全地学习。我们的结论与实验结果表明我们在方案中的方法的有效性,如安全地识别许多人以便治疗疾病。
translated by 谷歌翻译
在线强化学习(RL)中的挑战之一是代理人需要促进对环境的探索和对样品的利用来优化其行为。无论我们是否优化遗憾,采样复杂性,状态空间覆盖范围或模型估计,我们都需要攻击不同的勘探开发权衡。在本文中,我们建议在分离方法组成的探索 - 剥削问题:1)“客观特定”算法(自适应)规定哪些样本以收集到哪些状态,似乎它可以访问a生成模型(即环境的模拟器); 2)负责尽可能快地生成规定样品的“客观无关的”样品收集勘探策略。建立最近在随机最短路径问题中进行探索的方法,我们首先提供一种算法,它给出了每个状态动作对所需的样本$ B(S,a)$的样本数量,需要$ \ tilde {o} (bd + d ^ {3/2} s ^ 2 a)收集$ b = \ sum_ {s,a} b(s,a)$所需样本的$时间步骤,以$ s $各国,$ a $行动和直径$ d $。然后我们展示了这种通用探索算法如何与“客观特定的”策略配对,这些策略规定了解决各种设置的样本要求 - 例如,模型估计,稀疏奖励发现,无需无成本勘探沟通MDP - 我们获得改进或新颖的样本复杂性保证。
translated by 谷歌翻译
强化学习理论集中在两个基本问题上:实现低遗憾,并确定$ \ epsilon $ - 最佳政策。虽然简单的减少允许人们应用低温算法来获得$ \ epsilon $ - 最佳政策并达到最坏的最佳速率,但尚不清楚低regret算法是否可以获得实例 - 最佳率的策略识别率。我们表明这是不可能的 - 在遗憾和确定$ \ epsilon $ - 最佳政策之间以最佳的利率确定了基本的权衡。由于我们的负面发现,我们提出了针对PAC表格增强学习实例依赖性样本复杂性的新量度,该方法明确说明了基础MDP中可达到的国家访问分布。然后,我们提出和分析一种基于计划的新型算法,该算法达到了这种样本的复杂性 - 产生的复杂性会随着次要差距和状态的“可达到性”而缩放。我们显示我们的算法几乎是最小的最佳选择,并且在一些示例中,我们实例依赖性样品复杂性比最差案例界限可显着改善。
translated by 谷歌翻译
本文介绍了信息性多臂强盗(IMAB)模型,在每个回合中,玩家选择手臂,观察符号,并以符号的自我信息形式获得未观察到的奖励。因此,手臂的预期奖励是产生其符号的源质量函数的香农熵。玩家的目标是最大程度地提高与武器的熵值相关的预期奖励。在假设字母大小是已知的假设下,为IMAB模型提出了两种基于UCB的算法,该算法考虑了插件熵估计器的偏差。第一种算法在熵估计中乐观地纠正了偏置项。第二算法依赖于数据依赖性置信区间,该置信区间适应具有较小熵值的源。性能保证是通过上限为每种算法的预期遗憾提供的。此外,在Bernoulli案例中,将这些算法的渐近行为与伪遗憾的Lai-Robbins的下限进行了比较。此外,在假设\ textit {cract}字母大小的假设下是未知的,而播放器仅知道其上方的宽度上限,提出了一种基于UCB的算法,在其中,玩家的目的是减少由该算法造成的遗憾。未知的字母尺寸在有限的时间方面。数字结果说明了论文中介绍的算法的预期遗憾。
translated by 谷歌翻译
本文调查$ \纺织品{污染} $随机多臂爆炸中最佳臂识别问题。在此设置中,从任何臂获得的奖励由来自概率$ \ varepsilon $的对抗性模型的样本所取代。考虑了固定的置信度(无限地平线)设置,其中学习者的目标是识别最大的平均值。由于奖励的对抗污染,每个ARM的平均值仅部分可识别。本文提出了两种算法,基于连续消除的基于间隙的算法和一个,以便在亚高斯匪徒中最佳臂识别。这些算法涉及平均估计,从渐近估计的估计值达到真实均值的偏差上实现最佳误差保证。此外,这些算法渐近地实现了最佳的样本复杂性。具体地,对于基于差距的算法,样本复杂性呈渐近最佳到恒定因子,而对于基于连续的基于算法,​​它是最佳的对数因子。最后,提供了数值实验以说明与现有基线相比的算法的增益。
translated by 谷歌翻译
我们介绍了一个多臂强盗模型,其中奖励是多个随机变量的总和,每个动作只会改变其中的分布。每次动作之后,代理都会观察所有变量的实现。该模型是由营销活动和推荐系统激励的,在该系统中,变量代表单个客户的结果,例如点击。我们提出了UCB风格的算法,以估计基线上的动作的提升。我们研究了问题的多种变体,包括何时未知基线和受影响的变量,并证明所有这些变量均具有sublrinear后悔界限。我们还提供了较低的界限,以证明我们的建模假设的必要性是合理的。关于合成和现实世界数据集的实验显示了估计不使用这种结构的策略的振奋方法的好处。
translated by 谷歌翻译
这项工作考虑了最佳手臂识别的选择性采样问题。给定一组潜在选项$ \ mathcal {z} \ subset \ mathbb {r} ^ d $,学习者旨在计算概率大于1- \ delta $,$ \ arg \ max_ {z \ mathcal { z}} z ^ {\ top} \ theta _ {\ ast} $ where $ \ theta _ {\ art} $未知。在每个时间步骤中,潜在的测量$ x_t \ in \ mathcal {x} \ subset \ mathbb {r} ^ d $被绘制的iid,学习者可以选择采取测量,在这种情况下,他们观察到嘈杂的测量$ x ^ {\ top} \ theta _ {\ ast} $,或弃权采取测量并等待可能更多的信息点到达流。因此,学习者在他们采取的标签样本数量之间面临的基本折衷,并且当他们收集足够的证据来宣布最好的手臂并停止抽样时。这项工作的主要结果精确地表征了标记的样本和停止时间之间的这种权衡,并提供了一种算法,几乎最佳地实现了给出所需停止时间的最小标签复杂性。此外,我们表明最佳决策规则具有基于决定点是否处于椭圆形的简单几何形式。最后,我们的框架足以捕获先前作品的二进制分类。
translated by 谷歌翻译
我们在随机匪徒上使用时(协变量)信息时,我们研究了固定信道的最佳武器识别问题。虽然我们可以在每轮中使用上下文信息,但我们对在语境分布上的边缘化平均奖励感兴趣。我们的目标是在给定值的错误率下识别最少数量的采样。我们显示出问题的特定实例的示例复杂性下限。然后,我们提出了一个“跟踪和停止”策略的上下文知识版本,其中ARM的比例绘制追踪一组最佳分配,并证明预期的ARM绘制数与渐近的下限匹配。我们证明,与Garivier&Kaufmann(2016)的结果相比,可以使用上下文信息来提高最佳边缘化平均奖励的效率。我们通过实验证实了上下文信息有助于更快的最佳武器识别。
translated by 谷歌翻译