在本说明书中,我们介绍了众所周知的椭圆形潜在的引理的一般版本,这是一种广泛使用的技术在分析顺序学习和决策问题中的算法中。我们考虑一个随机线性匪徒设置,其中决策者在一组给定的行动中顺序选择,观察他们的嘈杂奖励,并旨在通过决策地平线最大化她的累积预期奖励。椭圆潜力引理是一种用于量化奖励功能参数的不确定性的关键工具,但它需要噪声和现有的分布成为高斯。我们的一般椭圆潜力引理放松了这种高斯要求,这是一种非常非琐碎的延伸,原因如上所述;与高斯案例不同,对后部分布的协方差矩阵没有闭合形式解决方案,协方差矩阵不是动作的确定性函数,并且协方差矩阵对于SEMIDEFINITE不等式而不是降低。虽然这一结果具有广泛的兴趣,但我们展示了它的应用,以证明具有在随机线性匪徒中的众所周知的汤普森采样算法的改进的贝叶斯遗憾,其中具有先前和噪声分布的改变动作集。这界限最多是常量的最佳状态。
translated by 谷歌翻译
元,多任务和联合学习可以全部被视为解决类似的任务,从反映任务相似之处的未知分发中汲取类似的任务。在这项工作中,我们提供了所有这些问题的统一视图,因为在分层贝叶斯匪徒中采取行动。我们分析了一种自然的分层汤普森采样算法(HIERTS),可以应用于此类中的任何问题。我们的遗憾界限在此类问题的许多情况下持有,包括当任务顺序或并行解决时;并捕获问题的结构,使得遗憾地随着任务的宽度而减少。我们的证据依赖于新的总方差分解,可以应用于其他图形模型结构。最后,我们的理论是由实验补充的,表明层次结构有助于任务之间的知识共享。这证实了分层贝叶斯匪徒是一种普遍和统计学的工具,用于学习与类似的匪徒任务进行行动。
translated by 谷歌翻译
我们为线性上下文匪徒提出了一种新颖的算法(\ sqrt {dt \ log t})$遗憾,其中$ d $是上下文的尺寸,$ t $是时间范围。我们提出的算法配备了一种新型估计量,其中探索通过显式随机化嵌入。根据随机化的不同,我们提出的估计器从所有武器的上下文或选定的上下文中都取得了贡献。我们为我们的估计器建立了一个自称的绑定,这使累积遗憾的新颖分解为依赖添加剂的术语而不是乘法术语。在我们的问题设置下,我们还证明了$ \ omega(\ sqrt {dt})$的新颖下限。因此,我们提出的算法的遗憾与对数因素的下限相匹配。数值实验支持理论保证,并表明我们所提出的方法的表现优于现有的线性匪徒算法。
translated by 谷歌翻译
我们在对数损失下引入条件密度估计的过程,我们调用SMP(样本Minmax预测器)。该估算器最大限度地减少了统计学习的新一般过度风险。在标准示例中,此绑定量表为$ d / n $,$ d $ d $模型维度和$ n $ sample大小,并在模型拼写条目下批判性仍然有效。作为一个不当(超出型号)的程序,SMP在模型内估算器(如最大似然估计)的内部估算器上,其风险过高的风险降低。相比,与顺序问题的方法相比,我们的界限删除了SubOltimal $ \ log n $因子,可以处理无限的类。对于高斯线性模型,SMP的预测和风险受到协变量的杠杆分数,几乎匹配了在没有条件的线性模型的噪声方差或近似误差的条件下匹配的最佳风险。对于Logistic回归,SMP提供了一种非贝叶斯方法来校准依赖于虚拟样本的概率预测,并且可以通过解决两个逻辑回归来计算。它达到了$ O的非渐近风险((d + b ^ 2r ^ 2)/ n)$,其中$ r $绑定了特征的规范和比较参数的$ B $。相比之下,在模型内估计器内没有比$ \ min达到更好的速率({b r} / {\ sqrt {n}},{d e ^ {br} / {n})$。这为贝叶斯方法提供了更实用的替代方法,这需要近似的后部采样,从而部分地解决了Foster等人提出的问题。 (2018)。
translated by 谷歌翻译
随机通用的线性匪徒是针对顺序决策问题的一个很好理解的模型,许多算法在立即反馈下实现了近乎最佳的遗憾。但是,在许多现实世界中,立即观察奖励的要求不适用。在这种情况下,不再理解标准算法。我们通过在选择动作和获得奖励之间引入延迟,以理论方式研究延迟奖励的现象。随后,我们表明,基于乐观原则的算法通过消除对决策集和延迟的延迟分布和放松假设的需要,从而改善了本设置的现有方法。这也导致从$ \ widetilde o(\ sqrt {dt} \ sqrt {d + \ mathbb {e} [\ tau]})$改善遗憾保证。 ^{3/2} \ mathbb {e} [\ tau])$,其中$ \ mathbb {e} [\ tau] $表示预期的延迟,$ d $是尺寸,$ t $ t $ the Time Horizo​​n,我们我们抑制了对数术语。我们通过对模拟数据进行实验来验证我们的理论结果。
translated by 谷歌翻译
在线性回归中,我们希望根据少量样本估算超过$ d $维的输入点和实价响应的最佳最小二乘预测。根据标准随机设计分析,其中绘制样品i.i.d。从输入分布中,该样品的最小二乘解决方案可以看作是最佳的自然估计器。不幸的是,该估计器几乎总是产生来自输入点的随机性的不良偏置,这在模型平均中是一个重要的瓶颈。在本文中,我们表明可以绘制非i.i.d。输入点的样本,无论响应模型如何,最小二乘解决方案都是最佳的无偏估计器。此外,可以通过增强先前绘制的I.I.D。可以有效地生产该样本。带有额外的$ d $点的样品,根据点由点跨越的平方量重新缩放的输入分布构建的一定确定点过程,共同绘制。在此激励的基础上,我们开发了一个理论框架来研究体积响应的采样,并在此过程中证明了许多新的矩阵期望身份。我们使用它们来表明,对于任何输入分布和$ \ epsilon> 0 $,有一个随机设计由$ o(d \ log d+ d+ d+ d/\ epsilon)$点,从中可以从中构造出无偏见的估计器,其预期的是正方形损耗在整个发行版中,$ 1+\ epsilon $ times最佳损失。我们提供有效的算法来在许多实际设置中生成这种无偏估计量,并在实验中支持我们的主张。
translated by 谷歌翻译
神经网络模型的最新成功揭示了一种令人惊讶的统计现象:完全拟合噪声数据的统计模型可以很好地推广到看不见的测试数据。了解$ \ textit {良性过拟合} $的这种现象吸引了强烈的理论和经验研究。在本文中,我们考虑插值两层线性神经网络在平方损失上梯度流训练,当协变量满足亚高斯和抗浓度的特性时,在平方损耗上训练,并在多余的风险上获得界限,并且噪声是独立和次级高斯的。。通过利用最新的结果来表征该估计器的隐性偏见,我们的边界强调了初始化质量的作用以及数据协方差矩阵在实现低过量风险中的特性。
translated by 谷歌翻译
我们重新审视汤普森采样算法以控制Ouyang等人最近提出的未知线性二次(LQ)系统(Arxiv:1709.04047)。该算法的遗憾是根据封闭环系统的诱导规范的技术假设得出的。在此技术说明中,我们表明,通过在算法中进行较小的修改(特别是确保发作不会太早结束),可以根据光谱来代替诱发规范的技术假设。闭环系统的半径。修改后的算法与$ \ tilde {\ Mathcal {o}}(\ sqrt {t})$具有相同的贝叶斯遗憾,其中$ t $是Time-Horizon和$ \ tilde {\ tilde {\ Mathcal {o}}(O}}(O}}(O}}(O}}(O}))(\ cdot)$ note法将对数术语隐藏在〜$ t $中。
translated by 谷歌翻译
Authors are encouraged to submit new papers to INFORMS journals by means of a style file template, which includes the journal title. However, use of a template does not certify that the paper has been accepted for publication in the named journal. INFORMS journal templates are for the exclusive purpose of submitting to an INFORMS journal and should not be used to distribute the papers in print or online or to submit the papers to another publication.
translated by 谷歌翻译
我们考虑与高斯数据的高维线性回归中的插值学习,并在类高斯宽度方面证明了任意假设类别中的内插器的泛化误差。将通用绑定到欧几里德常规球恢复了Bartlett等人的一致性结果。(2020)对于最小规范内插器,并确认周等人的预测。(2020)在高斯数据的特殊情况下,对于近乎最小常态的内插器。我们通过将其应用于单位来证明所界限的一般性,从而获得最小L1-NORM Interpoolator(基础追踪)的新型一致性结果。我们的结果表明,基于规范的泛化界限如何解释并用于分析良性过度装备,至少在某些设置中。
translated by 谷歌翻译
我们研究了批量线性上下文匪徒的最佳批量遗憾权衡。对于任何批次数$ M $,操作次数$ k $,时间范围$ t $和维度$ d $,我们提供了一种算法,并证明了其遗憾的保证,这是由于技术原因,具有两阶段表达作为时间的时间$ t $ grose。我们还证明了一个令人奇迹的定理,令人惊讶地显示了在问题参数的“问题参数”中的两相遗憾(最高〜对数因子)的最优性,因此建立了确切的批量后悔权衡。与最近的工作\ citep {ruan2020linear}相比,这表明$ m = o(\ log \ log t)$批次实现无需批处理限制的渐近最佳遗憾的渐近最佳遗憾,我们的算法更简单,更易于实际实现。此外,我们的算法实现了所有$ t \ geq d $的最佳遗憾,而\ citep {ruan2020linear}要求$ t $大于$ d $的不切实际的大多项式。沿着我们的分析,我们还证明了一种新的矩阵集中不平等,依赖于他们的动态上限,这是我们的知识,这是其文学中的第一个和独立兴趣。
translated by 谷歌翻译
我们在假设目标函数的先前和EIGENExpansion系数的假定下,我们将高斯进程回归(GPR)的幂律渐近学习曲线的幂律渐近学呈现出高斯过程回归(GPR)。在类似的假设下,我们利用GPR和内核RIDGE回归(KRR)之间的等价性来显示KRR的泛化误差。无限宽的神经网络可以与GPR相对于神经网络GP内核和神经切线内核有关,其中已知在几个情况下具有幂律谱。因此,我们的方法可以应用于研究无限宽神经网络的泛化误差。我们提出了展示理论的玩具实验。
translated by 谷歌翻译
In this paper, we study the trace regression when a matrix of parameters B* is estimated via the convex relaxation of a rank-regularized regression or via regularized non-convex optimization. It is known that these estimators satisfy near-optimal error bounds under assumptions on the rank, coherence, and spikiness of B*. We start by introducing a general notion of spikiness for B* that provides a generic recipe to prove the restricted strong convexity of the sampling operator of the trace regression and obtain near-optimal and non-asymptotic error bounds for the estimation error. Similar to the existing literature, these results require the regularization parameter to be above a certain theory-inspired threshold that depends on observation noise that may be unknown in practice. Next, we extend the error bounds to cases where the regularization parameter is chosen via cross-validation. This result is significant in that existing theoretical results on cross-validated estimators (Kale et al., 2011; Kumar et al., 2013; Abou-Moustafa and Szepesvari, 2017) do not apply to our setting since the estimators we study are not known to satisfy their required notion of stability. Finally, using simulations on synthetic and real data, we show that the cross-validated estimator selects a near-optimal penalty parameter and outperforms the theory-inspired approach of selecting the parameter.
translated by 谷歌翻译
在线学习算法广泛用于网络上的搜索和内容优化,必须平衡探索和开发,可能牺牲当前用户的经验,以获得将来会导致未来更好决策的信息。虽然在最坏的情况下,与贪婪算法相比,显式探索具有许多缺点,其通过选择当前看起来最佳的动作始终“利用”。我们在数据中固有的多样性的情况下提出了明确的探索不必要。我们在最近的一系列工作中进行了线性上下围匪盗模型中贪婪算法的平滑分析。我们提高了先前的结果,表明,只要多样性条件保持,贪婪的方法几乎符合任何其他算法的最佳可能性贝叶斯遗憾率,并且这种遗憾是最多的$ \ tilde o(t ^ {1/ 3})$。
translated by 谷歌翻译
我们建议使用$ \ tilde {o}(\ sqrt {\ kappa^{ - 1} \ phi t} \ phi t})$ hears $ t $ the $ \ phi $ phi $是$ \ phi $是最olutimut,$ \ phi $是$ \ phi $,我们提出了一种用于广义线性奖励的新颖的上下文强盗算法。上下文协方差和$ \ kappa $的特征值是奖励差异的下限。在几种实际情况下,$ \ phi = o(d)$,我们的结果是带有$ \ sqrt {d} $的广义线性模型(GLM)土匪的第一个遗憾,而无需依赖Auer [2002]的方法。我们使用一个称为双重运动估计器的新型估计器(Doubly-bobust(DR)估计器的子类,但误差较紧,我们就实现了这种结合。 Auer [2002]的方法通过丢弃观察到的奖励来实现独立性,而我们的算法则在使用我们的DDR估计器的所有情况下实现了独立性。我们还提供了一个$ o(\ kappa^{ - 1} \ phi \ log(nt)\ log t)$遗憾在概率的边缘条件下以$ n $武器约束。 Bastani和Bayati [2020]和Bastani等人给出了遗憾的界限。 [2021]在环境中,所有臂都是共同的,但系数是特定的。当所有臂的上下文都不同,但系数很常见时,我们的第一个遗憾是在线性模型或GLM的边缘条件下绑定的。我们使用合成数据和真实示例进行实证研究,证明了我们的算法的有效性。
translated by 谷歌翻译
我们在存在对抗性腐败的情况下研究线性上下文的强盗问题,在场,每回合的奖励都被对手损坏,腐败级别(即,地平线上的腐败总数)为$ c \ geq 0 $。在这种情况下,最著名的算法受到限制,因为它们要么在计算效率低下,要么需要对腐败做出强烈的假设,或者他们的遗憾至少比没有腐败的遗憾差的$ C $倍。在本文中,为了克服这些局限性,我们提出了一种基于不确定性的乐观原则的新算法。我们算法的核心是加权山脊回归,每个选择动作的重量都取决于其置信度,直到一定的阈值。 We show that for both known $C$ and unknown $C$ cases, our algorithm with proper choice of hyperparameter achieves a regret that nearly matches the lower bounds.因此,我们的算法几乎是两种情况的对数因素的最佳选择。值得注意的是,我们的算法同时对腐败和未腐败的案件($ c = 0 $)实现了近乎最理想的遗憾。
translated by 谷歌翻译
在决策问题(例如多臂强盗)中,代理商通过优化某些反馈来顺序学习。尽管对平均奖励标准进行了广泛的研究,但其他反映对不利结果的措施,例如均值变化或有条件的危险价值(CVAR),对关键应用程序(医疗保健,农业)可能会引起人们的关注。在没有上下文信息的情况下,已经提出了在强盗反馈下采取此类风险感知措施的算法。在这项工作中,我们研究了上下文匪徒,通过最小化凸丢失,可以将这种风险度量作为上下文的线性函数引起。适合此框架的一个典型示例是预期度量,它作为不对称最小二乘问题的解决方案获得。使用超级马特林加尔的混合物方法,我们得出置信序列以估计此类风险度量。然后,我们提出一种乐观的UCB算法来学习最佳的风险感知动作,后悔的保证与广义线性匪徒相似。这种方法需要在每一轮算法上解决凸问题,我们可以通过仅允许通过在线梯度下降获得的近似解决方案来放松,以稍高的遗憾。我们通过评估数值实验的所得算法来结束。
translated by 谷歌翻译
We provide results that exactly quantify how data augmentation affects the convergence rate and variance of estimates. They lead to some unexpected findings: Contrary to common intuition, data augmentation may increase rather than decrease the uncertainty of estimates, such as the empirical prediction risk. Our main theoretical tool is a limit theorem for functions of randomly transformed, high-dimensional random vectors. The proof draws on work in probability on noise stability of functions of many variables. The pathological behavior we identify is not a consequence of complex models, but can occur even in the simplest settings -- one of our examples is a ridge regressor with two parameters. On the other hand, our results also show that data augmentation can have real, quantifiable benefits.
translated by 谷歌翻译
假设发行版是高斯通常促进别侵害的计算。我们考虑一个旨在实现与具有高斯的先前分配和高斯似然函数的强盗环境获得低信息比的代理,但是在应用于伯努利强盗时研究代理的性能。当代理商与Bernoulli强盗互动时,我们建立了贝叶斯遗憾的增加,相对于对高斯匪徒的信息定理束缚。如果高斯的现有分配和似然函数足够弥散,则随着时间的平方根,这种增加的增加,因此每次时间增长都会增加消失。我们的结果正式化了所谓的贝叶斯代理在漫反射错过分布的差异时所谓的贝叶斯代理人仍然有效。
translated by 谷歌翻译
对于由缺陷线性回归中的标签噪声引起的预期平均平方概率,我们证明了无渐近分布的下限。我们的下部结合概括了过度公共数据(内插)制度的类似已知结果。与最先前的作品相比,我们的分析适用于广泛的输入分布,几乎肯定的全排列功能矩阵,允许我们涵盖各种类型的确定性或随机特征映射。我们的下限是渐近的锐利,暗示在存在标签噪声时,缺陷的线性回归不会在任何这些特征映射中围绕内插阈值进行良好的。我们详细分析了强加的假设,并为分析(随机)特征映射提供了理论。使用此理论,我们可以表明我们的假设对于具有(Lebesgue)密度的输入分布以及随机深神经网络给出的特征映射,具有Sigmoid,Tanh,SoftPlus或Gelu等分析激活功能。作为进一步的例子,我们示出了来自随机傅里叶特征和多项式内核的特征映射也满足我们的假设。通过进一步的实验和分析结果,我们补充了我们的理论。
translated by 谷歌翻译