我们考虑使用图形结构数据定义的奖励函数的强盗优化问题。这个问题在分子设计和药物发现中具有重要的应用,在图形排列中,奖励自然不变。这种设置的主要挑战是扩展到大型域,以及带有许多节点的图形。我们通过将置换不变性嵌入我们的模型来解决这些挑战。特别是,我们表明图形神经网络(GNN)可用于估计奖励函数,假设它位于置换不变的加性核的再现内核希尔伯特空间。通过在此类内核与图形神经切线内核(GNTK)之间建立新的联系,我们介绍了第一个GNN信心绑定,并使用它来设计一个带有sublinear遗憾的相位脱口算法。我们的遗憾约束取决于GNTK的最大信息增益,我们也为此提供了界限。虽然奖励功能取决于所有$ n $节点功能,但我们的保证与图形节点$ n $的数量无关。从经验上讲,我们的方法在图形结构域上表现出竞争性能,并表现得很好。
translated by 谷歌翻译
在预测功能(假设)中获得可靠的自适应置信度集是顺序决策任务的核心挑战,例如土匪和基于模型的强化学习。这些置信度集合通常依赖于对假设空间的先前假设,例如,繁殖核Hilbert Space(RKHS)的已知核。手动设计此类内核是容易发生的,错误指定可能导致性能差或不安全。在这项工作中,我们建议从离线数据(meta-kel)中进行元学习核。对于未知核是已知碱基核的组合的情况,我们基于结构化的稀疏性开发估计量。在温和的条件下,我们保证我们的估计RKHS会产生有效的置信度集,随着越来越多的离线数据的量,它变得与鉴于真正未知内核的置信度一样紧。我们展示了我们关于内核化强盗问题(又称贝叶斯优化)的方法,我们在其中建立了遗憾的界限,与鉴于真正的内核的人竞争。我们还经验评估方法对贝叶斯优化任务的有效性。
translated by 谷歌翻译
我们考虑基于嘈杂的强盗反馈优化黑盒功能的问题。内核强盗算法为此问题显示了强大的实证和理论表现。然而,它们严重依赖于模型所指定的模型,并且没有它可能会失败。相反,我们介绍了一个\ emph {isspecified}内塞的强盗设置,其中未知函数可以是$ \ epsilon $ - 在一些再现内核希尔伯特空间(RKHS)中具有界限范数的函数均匀近似。我们设计高效实用的算法,其性能在模型误操作的存在下最微小地降低。具体而言,我们提出了一种基于高斯过程(GP)方法的两种算法:一种乐观的EC-GP-UCB算法,需要了解误操作误差,并相断的GP不确定性采样,消除型算法,可以适应未知模型拼盘。我们在$ \ epsilon $,时间范围和底层内核方面提供累积遗憾的上限,我们表明我们的算法达到了$ \ epsilon $的最佳依赖性,而没有明确的误解知识。此外,在一个随机的上下文设置中,我们表明EC-GP-UCB可以有效地与遗憾的平衡策略有效地结合,尽管不知道$ \ epsilon $尽管不知道,但仍然可以获得类似的遗憾范围。
translated by 谷歌翻译
我们提出了一种非平稳核土匪的算法,该算法不需要事先了解非平稳性程度。该算法遵循通过解决平衡探索和剥削的优化问题获得的随机策略。当检测到奖励函数的更改时,它可以通过重新启动来适应非平稳性。我们的算法比以前在非平稳内核强盗设置上的工作更加动态遗憾。此外,当通过使用线性内核应用于非平稳线性匪徒设置时,我们的算法几乎是最小的最佳选择,可以解决非平稳的线性匪徒文献中的空旷问题。我们将算法扩展到使用神经网络,以动态调整特征映射到观察到的数据。我们证明了使用神经切线内核理论的延伸的动态遗憾。我们从经验上证明,我们的算法和扩展可以适应不同程度的非平稳性。
translated by 谷歌翻译
汤普森采样(TS)是解决上下文多武装强盗问题最有效的算法之一。在本文中,我们提出了一种新的算法,称为神经汤普森采样,这适应了深度神经网络,用于勘探和剥削。在我们的算法的核心是一种新的奖励的后分布,其平均值是神经网络近似器,并且其方差建立在相应神经网络的神经切线特征上。我们证明,如果底层奖励函数是有界的,则可以保证所提出的算法来实现$ \ mathcal {o}(t ^ {1/2})$的累积遗憾,它与其他上下文强盗算法的遗憾匹配总轮数量$ t $。各种数据集中其他基准强盗算法的实验比较证实了我们的理论。
translated by 谷歌翻译
Authors are encouraged to submit new papers to INFORMS journals by means of a style file template, which includes the journal title. However, use of a template does not certify that the paper has been accepted for publication in the named journal. INFORMS journal templates are for the exclusive purpose of submitting to an INFORMS journal and should not be used to distribute the papers in print or online or to submit the papers to another publication.
translated by 谷歌翻译
Many applications require optimizing an unknown, noisy function that is expensive to evaluate. We formalize this task as a multiarmed bandit problem, where the payoff function is either sampled from a Gaussian process (GP) or has low RKHS norm. We resolve the important open problem of deriving regret bounds for this setting, which imply novel convergence rates for GP optimization. We analyze GP-UCB, an intuitive upper-confidence based algorithm, and bound its cumulative regret in terms of maximal information gain, establishing a novel connection between GP optimization and experimental design. Moreover, by bounding the latter in terms of operator spectra, we obtain explicit sublinear regret bounds for many commonly used covariance functions. In some important cases, our bounds have surprisingly weak dependence on the dimensionality. In our experiments on real sensor data, GP-UCB compares favorably with other heuristical GP optimization approaches.
translated by 谷歌翻译
本文以非线性功能近似研究基于模型的匪徒和增强学​​习(RL)。我们建议研究与近似局部最大值的收敛性,因为我们表明,即使对于具有确定性奖励的一层神经网络匪徒,全球收敛在统计上也很棘手。对于非线性匪徒和RL,本文介绍了一种基于模型的算法,即具有在线模型学习者(小提琴)的虚拟攀登,该算法可证明其收敛到局部最大值,其样品复杂性仅取决于模型类的顺序Rademacher复杂性。我们的结果意味着在几种具体设置(例如有限或稀疏模型类别的线性匪徒)和两层神经净匪内的新型全球或本地遗憾界限。一个关键的算法洞察力是,即使对于两层神经净模型类别,乐观也可能导致过度探索。另一方面,为了收敛到本地最大值,如果模型还可以合理地预测真实返回的梯度和Hessian的大小,则足以最大化虚拟返回。
translated by 谷歌翻译
当动作集具有良好的曲率时,我们在任何线性匪徒算法产生的设计矩阵的特征矩阵上介绍了一个非呈现的下限。具体而言,我们表明,每当算法的预期累积后悔为$ o(\ sqrt {n})$时,预期设计矩阵的最低特征值将随着$ \ omega(\ sqrt {n})$的增长而生长为$ n $是学习范围,动作空间在最佳臂周围具有恒定的Hessian。这表明,这种作用空间在离散(即分离良好的)动作空间中迫使多项式下限而不是对数下限,如\ cite {lattimore2017end}所示。此外,虽然先前的结果仅在渐近方案(如$ n \ to \ infty $)中保留,但我们对这些``本地富裕的''动作空间的结果随时都在。此外,在温和的技术假设下,我们以高概率获得了对最小本本特征值的相似下限。我们将结果应用于两个实用的方案 - \ emph {model selection}和\ emph {clustering}在线性匪徒中。对于模型选择,我们表明了一个基于时期的线性匪徒算法适应了真实模型的复杂性,以时代数量的速率指数,借助我们的新频谱结合。对于聚类,我们考虑了一个多代理框架,我们通过利用光谱结果,该框架来证明该框架,该框架,该框架,该框架通过光谱结果,该频谱结果,该框架的结果,该频谱结果,该框架的结果,该频谱结果该框架,该框架的结果不需要强制探索 - 代理商可以运行线性匪徒算法并立即估算其基本参数,从而产生低遗憾。
translated by 谷歌翻译
基于内核的模型,例如内核脊回归和高斯工艺在机器学习应用程序中无处不在,用于回归和优化。众所周知,基于内核的模型的主要缺点是高计算成本。给定$ n $样本的数据集,成本增长为$ \ Mathcal {o}(n^3)$。在某些情况下,现有的稀疏近似方法可以大大降低计算成本,从而有效地将实际成本降低到$ \ natercal {o}(n)$。尽管取得了显着的经验成功,但由于近似值而导致的误差的分析范围的现有结果仍然存在显着差距。在这项工作中,我们为NyStr \“ Om方法和稀疏变分高斯过程近似方法提供新颖的置信区间,我们使用模型的近似(代理)后差解释来建立这些方法。我们的置信区间可改善性能。回归和优化问题的界限。
translated by 谷歌翻译
上下文匪徒旨在根据其上下文信息在一组最佳奖励的武器中识别最佳奖励。由于武器通常表现出群体行为和群体之间存在相互影响的事实,我们引入了一个新模型,ARM组图(AGG),节点代表武器组和加权边缘组成组之间的相关性。为了利用丰富的信息,我们提出了一种强盗算法,即ag-ucb,在该算法中,神经网络旨在估计奖励,我们建议利用图形神经网络(GNN)来学习具有相关性的ARM组的表示。为了解决匪徒中的剥削 - 探索困境,我们得出了建立在神经网络(剥削)探索的新的上置信度结合(UCB)。此外,我们证明了Agg-UCB可以实现与过度参数化的神经网络结合的近乎最佳的遗憾,并提供GNN的收敛分析,并具有完全连接的层,这可能具有独立的利益。最后,我们对多个公共数据集的最新基准进行了广泛的实验,显示了拟议算法的有效性。
translated by 谷歌翻译
上下文匪徒问题是一个理论上合理的框架,在各个领域都有广泛的应用程序。虽然先前关于此问题的研究通常需要噪声和上下文之间的独立性,但我们的工作考虑了一个更明智的环境,其中噪声成为影响背景和奖励的潜在混杂因素。这样的混杂设置更现实,可以扩展到更广泛的应用程序。但是,未解决的混杂因素将导致奖励功能估计的偏见,从而导致极大的遗憾。为了应对混杂因素带来的挑战,我们应用了双工具变量回归,该回归可以正确识别真正的奖励功能。我们证明,在两种广泛使用的繁殖核希尔伯特空间中,该方法的收敛速率几乎是最佳的。因此,我们可以根据混杂的匪徒问题的理论保证来设计计算高效和遗憾的算法。数值结果说明了我们提出的算法在混杂的匪徒设置中的功效。
translated by 谷歌翻译
本文研究了在因果图形模型中设计最佳干预措施序列的问题,以最大程度地减少对事后最佳干预的累积后悔。自然,这是一个因果匪徒问题。重点是线性结构方程模型(SEM)和软干预措施的因果匪徒。假定该图的结构是已知的,并且具有$ n $节点。每个节点都假定使用两种线性机制,一种软干预和一种观察性,产生了$ 2^n $可能的干预措施。现有的因果匪徒算法假设,至少完全指定了奖励节点父母的介入分布。但是,有$ 2^n $这样的分布(一个与每个干预措施相对应),即使在中等尺寸的图中也变得越来越高。本文分配了知道这些分布的假设。提出了两种算法,用于常见者(基于UCB)和贝叶斯(基于汤普森采样)的设置。这些算法的关键思想是避免直接估计$ 2^n $奖励分布,而是估算完全指定SEMS($ n $线性)的参数,并使用它们来计算奖励。在这两种算法中,在噪声和参数空间的有界假设下,累积遗憾的是$ \ tilde {\ cal o}(((2d)^l l \ sqrt {t})$,其中$ d $是图的最高度和$ l $是其最长因果路径的长度。
translated by 谷歌翻译
现代神经网络通常以强烈的过度构造状态运行:它们包含许多参数,即使实际标签被纯粹随机的标签代替,它们也可以插入训练集。尽管如此,他们在看不见的数据上达到了良好的预测错误:插值训练集并不会导致巨大的概括错误。此外,过度散色化似乎是有益的,因为它简化了优化景观。在这里,我们在神经切线(NT)制度中的两层神经网络的背景下研究这些现象。我们考虑了一个简单的数据模型,以及各向同性协变量的矢量,$ d $尺寸和$ n $隐藏的神经元。我们假设样本量$ n $和尺寸$ d $都很大,并且它们在多项式上相关。我们的第一个主要结果是对过份术的经验NT内核的特征结构的特征。这种表征意味着必然的表明,经验NT内核的最低特征值在$ ND \ gg n $后立即从零界限,因此网络可以在同一制度中精确插值任意标签。我们的第二个主要结果是对NT Ridge回归的概括误差的表征,包括特殊情况,最小值-ULL_2 $ NORD插值。我们证明,一旦$ nd \ gg n $,测试误差就会被内核岭回归之一相对于无限宽度内核而近似。多项式脊回归的误差依次近似后者,从而通过与激活函数的高度组件相关的“自我诱导的”项增加了正则化参数。多项式程度取决于样本量和尺寸(尤其是$ \ log n/\ log d $)。
translated by 谷歌翻译
我们考虑在具有非线性函数近似的两名玩家零和马尔可夫游戏中学习NASH平衡,其中动作值函数通过繁殖内核Hilbert Space(RKHS)中的函数近似。关键挑战是如何在高维函数空间中进行探索。我们提出了一种新颖的在线学习算法,以最大程度地减少双重性差距来找到NASH平衡。我们算法的核心是基于不确定性的乐观原理得出的上和下置信度界限。我们证明,在非常温和的假设上,我们的算法能够获得$ O(\ sqrt {t})$遗憾,并在对奖励功能和马尔可夫游戏的基本动态下进行多项式计算复杂性。我们还提出了我们的算法的几个扩展,包括具有伯恩斯坦型奖励的算法,可以实现更严格的遗憾,以及用于模型错误指定的另一种算法,可以应用于神经功能近似。
translated by 谷歌翻译
贝叶斯优化(BO)是一种广泛使用的顺序方法,用于对复杂和昂贵计算的黑盒功能进行零阶优化。现有的BO方法假设功能评估(反馈)可立即或固定延迟后可用。在许多现实生活中的问题(例如在线建议,临床试验和超参数调谐)中,此类假设可能不实用,在随机延迟后可以提供反馈。为了从这些问题中的实验并行化中受益,学习者需要开始新的功能评估,而无需等待延迟反馈。在本文中,我们认为BO在随机延迟反馈问题下。我们提出了带有子线性后悔的算法,可以确保有效解决选择新功能查询的困境,同时等待随机延迟的反馈。在我们的结果的基础上,我们还为批处理和上下文高斯工艺匪徒做出了新的贡献。合成和现实生活数据集的实验验证了我们的算法的性能。
translated by 谷歌翻译
脱机策略学习(OPL)利用现有数据收集了策略优化的先验,而无需任何活动探索。尽管存在普遍性和近期对此问题的兴趣,但其函数近似设置中的理论和算法基础仍然持续开发。在本文中,我们考虑了在具有神经网络的离线上下文匪徒中的分布换档,优化和泛化轴上的这个问题。特别是,我们提出了一种可从线有效的离线情境匪徒,具有神经网络函数近似,不需要对奖励的任何功能假设。我们表明,我们的方法在较温和的情况下通过不良语境提供了比现有的OPL工作的分支变换。值得注意的是,与任何其他OPL方法不同,我们的方法使用随机梯度血统以在线方式从脱机数据中学习,允许我们利用在线学习的优势进入离线设置。此外,我们表明我们的方法更加计算效率,并且更好地依赖于神经网络的有效维度而不是在线对应物。最后,我们展示了我们在一系列合成和现实世界OPL问题中的方法的实证效果。
translated by 谷歌翻译
强化学习(RL)的显着成功在很大程度上依赖于观察每个访问的州行动对的奖励。但是,在许多现实世界应用中,代理只能观察一个代表整个轨迹质量的分数,该分数称为{\ em轨迹方面的奖励}。在这种情况下,标准RL方法很难很好地利用轨迹的奖励,并且在政策评估中可能会产生巨大的偏见和方差错误。在这项工作中,我们提出了一种新颖的离线RL算法,称为悲观的价值迭代,奖励分解(分开),该算法将轨迹返回分解为每个步骤代理奖励,通过基于最小二乘的奖励重新分配,然后执行基于基于基于基于基于的价值迭代的迭代价值迭代的迭代迭代率关于博学的代理奖励。为了确保由分开构建的价值功能对最佳函数始终是悲观的,我们设计了一个新的罚款术语来抵消代理奖励的不确定性。对于具有较大状态空间的一般情节MDP,我们表明与过度参数化的神经网络函数近似近似能够实现$ \ tilde {\ Mathcal {o}}}(d _ {\ text {eff}}} h^2/\ sqrt {n}) $ suboftimality,其中$ h $是情节的长度,$ n $是样本总数,而$ d _ {\ text {eff}} $是神经切线核矩阵的有效维度。为了进一步说明结果,我们表明分开实现了$ \ tilde {\ mathcal {o}}}(dh^3/\ sqrt {n})$ subiptimation fi linearem mdps,其中$ d $是特征尺寸,匹配功能维度使用神经网络功能近似,当$ d _ {\ text {eff}} = dh $时。据我们所知,分开是第一种离线RL算法,在MDP总体上,轨迹奖励的效率非常有效。
translated by 谷歌翻译
我们考虑使用个性化的联合学习,除了全球目标外,每个客户还对最大化个性化的本地目标感兴趣。我们认为,在一般连续的动作空间设置下,目标函数属于繁殖的内核希尔伯特空间。我们提出了基于替代高斯工艺(GP)模型的算法,该算法达到了最佳的遗憾顺序(要归结为各种因素)。此外,我们表明,GP模型的稀疏近似显着降低了客户之间的沟通成本。
translated by 谷歌翻译
随机通用的线性匪徒是针对顺序决策问题的一个很好理解的模型,许多算法在立即反馈下实现了近乎最佳的遗憾。但是,在许多现实世界中,立即观察奖励的要求不适用。在这种情况下,不再理解标准算法。我们通过在选择动作和获得奖励之间引入延迟,以理论方式研究延迟奖励的现象。随后,我们表明,基于乐观原则的算法通过消除对决策集和延迟的延迟分布和放松假设的需要,从而改善了本设置的现有方法。这也导致从$ \ widetilde o(\ sqrt {dt} \ sqrt {d + \ mathbb {e} [\ tau]})$改善遗憾保证。 ^{3/2} \ mathbb {e} [\ tau])$,其中$ \ mathbb {e} [\ tau] $表示预期的延迟,$ d $是尺寸,$ t $ t $ the Time Horizo​​n,我们我们抑制了对数术语。我们通过对模拟数据进行实验来验证我们的理论结果。
translated by 谷歌翻译