我们考虑优化从高斯过程(GP)采样的矢量值的目标函数$ \ boldsymbol {f} $ sampled的问题,其索引集是良好的,紧凑的度量空间$({\ cal x},d)$设计。我们假设$ \ boldsymbol {f} $之前未知,并且在Design $ x $的$ \ \ boldsymbol {f} $ x $导致$ \ boldsymbol {f}(x)$。由于当$ {\ cal x} $很大的基数时,识别通过详尽搜索的帕累托最优设计是不可行的,因此我们提出了一种称为Adaptive $ \ Boldsymbol {\ epsilon} $ - PAL的算法,从而利用GP的平滑度-Ampled函数和$({\ cal x},d)$的结构快速学习。从本质上讲,Adaptive $ \ Boldsymbol {\ epsilon} $ - PAL采用基于树的自适应离散化技术,以识别$ \ Boldsymbol {\ epsilon} $ - 尽可能少的评估中的准确帕累托一组设计。我们在$ \ boldsymbol {\ epsilon} $ - 准确的Pareto Set识别上提供信息类型和度量尺寸类型界限。我们还在实验表明我们的算法在多个基准数据集上优于其他Pareto Set识别方法。
translated by 谷歌翻译
我们考虑了持续的武装匪徒问题,在汇总反馈下的固定预算范围内推荐最好的武器。这是通过精确奖励不可能或获得昂贵的应用程序的激励,而可提供聚合奖励或反馈,例如子集的平均值。我们假设它们来自高斯进程并提出高斯工艺乐观优化(GPOO)算法来限制一组奖励功能。我们自适应地构造一个树的树,作为臂空间的子集,在那里反馈是节点代表的聚合奖励。我们为建议武器的汇总反馈提出了一个新的简单遗憾概念。我们为所提出的算法提供理论分析,并将单点反馈恢复为特殊情况。我们说明了GPoo并将其与模拟数据的相关算法进行比较。
translated by 谷歌翻译
我们引入了随机匪徒反馈的矢量优化问题,这将最佳的手臂识别问题扩展到了矢量值奖励。我们考虑具有多维平均奖励向量的$ K $设计,根据多面体订购锥$ C $部分订购。这概括了多目标优化中的帕累托集合的概念,并允许通过$ c $编码的不同偏好。与先前的工作不同,我们根据无方向覆盖和间隙概念来定义帕累托集的近似值。我们研究($ \ epsilon,\ delta $) - PAC PACPARETO设定的识别问题,其中对每个设计的评估都会产生对平均奖励向量的嘈杂观察。为了表征学习帕累托集的困难,我们介绍了{\ em排序复杂性}的概念,即经验奖励向量偏离其平均值的几何条件,可以准确地近似帕累托前沿。我们展示了如何计算任何多面体排序锥的订购复杂性。我们在样品复杂性上提供了依赖性依赖性和最差的下限,并表明在最差的情况下,样品复杂性尺度具有订购复杂性的平方。此外,我们研究了Na \“ Ive Upination算法的样本复杂性,并证明它几乎与最坏的样本复杂性相匹配。最后,我们进行了实验以验证我们的理论结果并说明$ C $和采样预算如何影响Pareto设置,返回($ \ epsilon,\ delta $) - PAC PARETO SET和标识的成功。
translated by 谷歌翻译
高斯流程优化是一类成功的算法(例如GP-UCB),以通过顺序评估优化黑盒功能。然而,对于具有连续域的功能,高斯过程优化必须依赖于空间的固定离散化,或者在每个评估中解决非凸优化子问题的解决方案。第一种方法可能会对性能产生负面影响,而第二种方法则需要沉重的计算负担。第三种选项最近理论上学习,是自适应地离散功能域。尽管这种方法避免了额外的非凸优化成本,但整体计算复杂性仍然令人望而却步。诸如GP-UCB的算法具有$ O(t ^ 4)$的运行时间,其中$ t $是迭代的数量。在本文中,我们介绍了ADA-BKB(自适应预算的核化强盗),是一种无遗憾的高斯过程优化算法,用于连续域上的功能,可在$ O(t ^ 2 d_ \ text {eff} ^ 2)$ ,$ d_ \ text {eff} $是探索空间的有效维度,其通常小于$ t $。我们将我们的理论调查结果与合成非凸函数的实验以及超参数优化的真实问题进行了证实,确认了所提出的方法的良好实际表现。
translated by 谷歌翻译
级别设置估计问题旨在查找域$ {\ cal x} $的所有点,其中一个未知函数$ f:{\ cal x} \ lightarrow \ mathbb {r} $超过阈值$ \ alpha $ 。估计基于可以在$ {\ cal x} $中顺序和自适应地选择的位置获取的嘈杂函数评估。阈值$ \ alpha $可以是\弹性{显式},并提供先验,或\ \ ich {隐式},相对于最佳函数值定义,即$ \ alpha =(1- \ epsilon)f(x_ \ AST)$关于给定$ \ epsilon> 0 $ why $ f(x_ \ ist)$是最大函数值,并且未知。在这项工作中,我们通过将其与最近的自适应实验设计方法相关联,为近期自适应实验设计方法提供了一种新的再现内核盗窃空间(RKHS)设置。我们假设可以通过RKHS中的函数近似于未知的拼写,并为此设置中隐含和显式案件提供新的算法,具有很强的理论保证。此外,在线性(内核)设置中,我们表明我们的界限几乎是最佳的,即,我们的上限与阈值线性匪徒的现有下限匹配。据我们所知,这项工作提供了第一个实例依赖性非渐近的上限,就匹配信息理论下限的水平设定估计的样本复杂性。
translated by 谷歌翻译
Many applications require optimizing an unknown, noisy function that is expensive to evaluate. We formalize this task as a multiarmed bandit problem, where the payoff function is either sampled from a Gaussian process (GP) or has low RKHS norm. We resolve the important open problem of deriving regret bounds for this setting, which imply novel convergence rates for GP optimization. We analyze GP-UCB, an intuitive upper-confidence based algorithm, and bound its cumulative regret in terms of maximal information gain, establishing a novel connection between GP optimization and experimental design. Moreover, by bounding the latter in terms of operator spectra, we obtain explicit sublinear regret bounds for many commonly used covariance functions. In some important cases, our bounds have surprisingly weak dependence on the dimensionality. In our experiments on real sensor data, GP-UCB compares favorably with other heuristical GP optimization approaches.
translated by 谷歌翻译
本文重点介绍了具有高输出方差的随机模拟器的多目标优化,其中输入空间是有限的,并且目标函数的评估昂贵。我们依靠贝叶斯优化算法,这些算法使用概率模型来对要优化的功能进行预测。所提出的方法是用于估计帕累托最佳溶液的帕累托主动学习(PAL)算法的扩展,该算法使其适合随机环境。我们将其命名为随机模拟器(PAL)的Pareto主动学习。通过数值实验对一组双维,双目标测试问题进行数值实验评估了PAL的表现。与其他基于标量的和随机搜索的方法相比,PAL表现出卓越的性能。
translated by 谷歌翻译
Authors are encouraged to submit new papers to INFORMS journals by means of a style file template, which includes the journal title. However, use of a template does not certify that the paper has been accepted for publication in the named journal. INFORMS journal templates are for the exclusive purpose of submitting to an INFORMS journal and should not be used to distribute the papers in print or online or to submit the papers to another publication.
translated by 谷歌翻译
在许多真实世界应用程序的组合匪徒如内容缓存,必须在满足最小服务要求的同时最大化奖励。此外,基本ARM可用性随着时间的推移而变化,并且采取的行动需要适应奖励最大化的情况。我们提出了一个名为Contexal Combinatial Volatile Birtits的新的强盗模型,具有组阈值来解决这些挑战。我们的模型通过考虑超级臂作为基础臂组的子集来归档组合匪徒。我们寻求最大化超级手臂奖励,同时满足构成超级臂的所有基座组的阈值。为此,我们定义了一个新的遗憾遗嘱,使超级臂奖励最大化与团体奖励满意度合并。为了便于学习,我们假设基臂的平均结果是由上下文索引的高斯过程的样本,并且预期的奖励是Lipschitz在预期的基础臂结果中连续。我们提出了一种算法,称为阈值组合高斯工艺的上置信度界限(TCGP-UCB),最大化累积奖励和满足组奖励阈值之间的余额,并证明它会导致$ \ tilde {o}(k \ sqrt {t \ overline { \ gamma} _ {t}})$后悔具有高概率,其中$ \ overline {\ gamma} _ {t} $是与第一个$ t $轮中出现的基本arm上下文相关联的最大信息增益$ k $是所有在所有轮匝上任何可行行动的超级臂基数。我们在实验中展示了我们的算法累积了与最先进的组合强盗算法相当的奖励,同时采摘群体满足其阈值的动作。
translated by 谷歌翻译
基于内核的模型,例如内核脊回归和高斯工艺在机器学习应用程序中无处不在,用于回归和优化。众所周知,基于内核的模型的主要缺点是高计算成本。给定$ n $样本的数据集,成本增长为$ \ Mathcal {o}(n^3)$。在某些情况下,现有的稀疏近似方法可以大大降低计算成本,从而有效地将实际成本降低到$ \ natercal {o}(n)$。尽管取得了显着的经验成功,但由于近似值而导致的误差的分析范围的现有结果仍然存在显着差距。在这项工作中,我们为NyStr \“ Om方法和稀疏变分高斯过程近似方法提供新颖的置信区间,我们使用模型的近似(代理)后差解释来建立这些方法。我们的置信区间可改善性能。回归和优化问题的界限。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
我们提出了置信度序列 - 置信区间序列,其均匀地随时间均匀 - 用于基于I.I.D的流的完整,完全有序集中的任何分布的量级。观察。我们提供用于跟踪固定定量的方法并同时跟踪所有定量。具体而言,我们提供具有小常数的明确表达式,其宽度以尽可能快的$ \ SQRT {t} \ log \ log t} $率,以及实证分布函数的非渐近浓度不等式以相同的速率均匀地持续持续。后者加强了Smirnov迭代对数的实证过程法,延长了DVORETZKY-KIEFER-WOLFOITZ不等式以均匀地保持一段时间。我们提供了一种新的算法和样本复杂性,用于在多武装强盗框架中选择具有大约最佳定量的臂。在仿真中,我们的方法需要比现有方法更少五到五十的样品。
translated by 谷歌翻译
主动学习可以减少执行假设测试所需的样本数量并估计模型的参数。在本文中,我们重新审视Chernoff的作品,所述工作描述了用于执行假设测试的渐近最佳算法。我们获得了对Chernoff的算法的新颖性复杂性,具有非渐近术语,其在固定置信水平处具有其性能。我们还开发了Chernoff采样的延伸,可用于估计各种模型的参数,并且我们在估计误差上获得非渐近绑定。我们将延长Chernoff采样延伸,积极学习神经网络模型,并估算实际数据线性和非线性回归问题中的参数,其中我们的方法有利地对最先进的方法执行。
translated by 谷歌翻译
我们考虑激励探索:一种多臂匪徒的版本,其中武器的选择由自私者控制,而算法只能发布建议。该算法控制信息流,信息不对称可以激励代理探索。先前的工作达到了最佳的遗憾率,直到乘法因素,这些因素根据贝叶斯先验而变得很大,并在武器数量上成倍规模扩展。采样每只手臂的一个更基本的问题一旦遇到了类似的因素。我们专注于激励措施的价格:出于激励兼容的目的,绩效的损失,广泛解释为。我们证明,如果用足够多的数据点初始化,则标准的匪徒汤普森采样是激励兼容的。因此,当收集这些数据点时,由于激励措施的绩效损失仅限于初始回合。这个问题主要降低到样本复杂性的问题:需要多少个回合?我们解决了这个问题,提供了匹配的上限和下限,并在各种推论中实例化。通常,最佳样品复杂性在“信念强度”中的武器数量和指数中是多项式。
translated by 谷歌翻译
We consider the stochastic linear contextual bandit problem with high-dimensional features. We analyze the Thompson sampling (TS) algorithm, using special classes of sparsity-inducing priors (e.g. spike-and-slab) to model the unknown parameter, and provide a nearly optimal upper bound on the expected cumulative regret. To the best of our knowledge, this is the first work that provides theoretical guarantees of Thompson sampling in high dimensional and sparse contextual bandits. For faster computation, we use spike-and-slab prior to model the unknown parameter and variational inference instead of MCMC to approximate the posterior distribution. Extensive simulations demonstrate improved performance of our proposed algorithm over existing ones.
translated by 谷歌翻译
我们考虑在可实现的环境中进行交互式学习,并开发一般框架,以处理从最佳ARM识别到主动分类的问题。我们开始调查,即观察到可怕算法\ emph {无法实现可实现的设置中最佳最佳状态。因此,我们设计了新的计算有效的算法,可实现最可实现的设置,该算法与对数因子的最小限制相匹配,并且是通用的,适用于包括内核方法的各种功能类,H {\“O}偏置函数,以及凸起功能。我们的算法的样本复杂性可以在众所周知的数量中量化,如延长的教学尺寸和干草堆维度。然而,与直接基于这些组合量的算法不同,我们的算法是计算效率的。实现计算效率,我们的算法使用Monte Carlo“命令运行”算法来从版本空间中的样本,而不是明确地维护版本空间。我们的方法有两个关键优势。首先,简单,由两个统一,贪婪的算法组成。第二,我们的算法具有能够无缝地利用经常可用和在实践中有用的知识。此外为了我们的新理论结果,我们经验证明我们的算法与高斯过程UCB方法具有竞争力。
translated by 谷歌翻译
在表演性预测中,预测模型的部署触发了数据分布的变化。由于这些转变通常是未知的,因此学习者需要部署模型以获取有关其引起的分布的反馈。我们研究了在性能下发现近乎最佳模型的问题,同时保持低廉的遗憾。从表面上看,这个问题似乎等同于强盗问题。但是,它表现出一种从根本上说的反馈结构,我们将其称为表演反馈:在每次部署后,学习者都会从转移的分布中收到样本,而不仅仅是关于奖励的强盗反馈。我们的主要贡献是一种算法,该算法仅随着分配的复杂性而不是奖励功能的复杂性而实现后悔的界限。该算法仅依赖于移位的平滑度,并且不假定凸度。此外,它的最终迭代保证是近乎最佳的。关键算法的想法是对分布变化的仔细探索,该分布变化为新颖的置信范围构造了未开发模型的风险。从更广泛的角度来看,我们的工作为从土匪文献中利用工具的概念方法建立了一种概念性方法,目的是通过表演性反馈最小化后悔的目的。
translated by 谷歌翻译
我们考虑了一个批处理活动的方案,其中学习者可以适应地向标签Oracle发出批处理。由于具有标签Oracle(通常是人类)的互动次数较少,因此在批处理中的采样标签在实践中是非常可取的。但是,批处理主动学习通常会支付降低的适应性的价格,从而导致次优结果。在本文中,我们提出了一种解决方案,该解决方案需要在查询点的信息和多样性的信息之间进行仔细的权衡。我们从理论上研究了在实际相关的方案中研究批次的活动,其中未标记的数据库事先可用({\ em池基}主动学习)。我们分析了一种新颖的阶段贪婪算法,并表明,作为标签复杂性的函数,该算法的过量风险与标准统计学习环境中已知的最小值率相匹配。我们的结果还表现出对批处理大小的温和依赖。这些是在信息性和多样性之间进行仔细的交易来严格量化基于池的情况下批处理主动学习的统计表现的第一个理论结果。
translated by 谷歌翻译
我们研究了清单可解放的平均估计问题,而对手可能会破坏大多数数据集。具体来说,我们在$ \ mathbb {r} ^ $和参数$ 0 <\ alpha <\ frac 1 2 $中给出了一个$ $ n $ points的$ t $ points。$ \ alpha $ -flaction的点$ t $是iid来自乖巧的分发$ \ Mathcal {D} $的样本,剩余的$(1- \ alpha)$ - 分数是任意的。目标是输出小型的vectors列表,其中至少一个接近$ \ mathcal {d} $的均值。我们开发新的算法,用于列出可解码的平均值估计,实现几乎最佳的统计保证,运行时间$ O(n ^ {1 + \ epsilon_0} d)$,适用于任何固定$ \ epsilon_0> 0 $。所有先前的此问题算法都有额外的多项式因素在$ \ frac 1 \ alpha $。我们与额外技术一起利用此结果,以获得用于聚类混合物的第一个近几个线性时间算法,用于分开的良好表现良好的分布,几乎匹配谱方法的统计保证。先前的聚类算法本身依赖于$ k $ -pca的应用程序,从而产生$ \ omega(n d k)$的运行时。这标志着近二十年来这个基本统计问题的第一次运行时间改进。我们的方法的起点是基于单次矩阵乘法权重激发电位减少的$ \ Alpha \至1 $制度中的新颖和更简单的近线性时间较强的估计算法。在Diakonikolas等人的迭代多滤波技术的背景下,我们迫切地利用了这种新的算法框架。 '18,'20,提供一种使用一维投影的同时群集和下群点的方法 - 因此,绕过先前算法所需的$ k $ -pca子程序。
translated by 谷歌翻译
本文研究了在因果图形模型中设计最佳干预措施序列的问题,以最大程度地减少对事后最佳干预的累积后悔。自然,这是一个因果匪徒问题。重点是线性结构方程模型(SEM)和软干预措施的因果匪徒。假定该图的结构是已知的,并且具有$ n $节点。每个节点都假定使用两种线性机制,一种软干预和一种观察性,产生了$ 2^n $可能的干预措施。现有的因果匪徒算法假设,至少完全指定了奖励节点父母的介入分布。但是,有$ 2^n $这样的分布(一个与每个干预措施相对应),即使在中等尺寸的图中也变得越来越高。本文分配了知道这些分布的假设。提出了两种算法,用于常见者(基于UCB)和贝叶斯(基于汤普森采样)的设置。这些算法的关键思想是避免直接估计$ 2^n $奖励分布,而是估算完全指定SEMS($ n $线性)的参数,并使用它们来计算奖励。在这两种算法中,在噪声和参数空间的有界假设下,累积遗憾的是$ \ tilde {\ cal o}(((2d)^l l \ sqrt {t})$,其中$ d $是图的最高度和$ l $是其最长因果路径的长度。
translated by 谷歌翻译