在因果推理和强盗文献中,基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序,然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限:这些边界表明,为了获得非反应性最佳程序,应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序,并通过匹配非轴突局部局部最小值下限,在有限样品中建立了实例依赖性最优性。这些结果表明,除了取决于渐近效率方差之外,最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。
translated by 谷歌翻译
强化学习(RL)的经典理论主要集中在单个任务设置上,在该设备设置中,代理商学会通过反复试验的经验来解决任务,仅从该任务中访问数据。但是,许多最近的经验工作表明,利用跨多个相关任务训练的联合代表的实践好处。在这项工作中,我们从理论上分析了这样的设置,将与任务相关性的概念形式化为共享的状态行动表示,该表示在所有任务中都接受线性动态。我们介绍了用于Multitask MatrixRl的共享matrixrl算法。在$ p $ dimension $ d $共享联合$ r \ ll d $低维表示的情况下,我们向$ o o提高了对$ p $任务的遗憾(phd \ sqrt { nh})$ to $ o(((HD \ sqrt {rp} + hp \ sqrt {rd})\ sqrt {nh})$ bo $ n $ n $ n $ episodes of horizo​​n $ h $。这些收益与上下文匪徒和RL中其他线性模型中观察到的收益一致。与以前研究过其他函数近似模型中多任务RL的工作相反,我们表明,在具有双线性优化的Oracle和有限状态作用空间的存在下,多任务矩阵的计算有效算法通过减少到Quadratic编程。我们还开发了一种简单的技术,可以从某些情节线性问题的遗憾上限中刮除$ \ sqrt {h} $ factor。
translated by 谷歌翻译
数据驱动的算法可以通过从输入的训练样本中学习,可以使其内部结构或参数适应来自未知应用程序特定分布的输入。最近的一些作品将这种方法应用于数值线性代数中的问题,获得了绩效的显着经验增长。然而,尚无理论上的成功解释。在这项工作中,我们证明了这些算法的概括范围,在Gupta和Roughgarden提出的数据驱动算法选择的PAC学习框架内(Sicomp 2017)。我们的主要结果与Indyk等人的基于学习的低级近似算法的脂肪破碎维度紧密匹配(Neurips 2019)。我们的技术是一般的,并为数值线性代数中的许多其他最近提出的数据驱动算法提供了概括,涵盖了基于草图的基于草图的方法和基于多机的方法。这大大扩展了可用的PAC学习分析的数据驱动算法类别。
translated by 谷歌翻译
Offline policy evaluation is a fundamental statistical problem in reinforcement learning that involves estimating the value function of some decision-making policy given data collected by a potentially different policy. In order to tackle problems with complex, high-dimensional observations, there has been significant interest from theoreticians and practitioners alike in understanding the possibility of function approximation in reinforcement learning. Despite significant study, a sharp characterization of when we might expect offline policy evaluation to be tractable, even in the simplest setting of linear function approximation, has so far remained elusive, with a surprising number of strong negative results recently appearing in the literature. In this work, we identify simple control-theoretic and linear-algebraic conditions that are necessary and sufficient for classical methods, in particular Fitted Q-iteration (FQI) and least squares temporal difference learning (LSTD), to succeed at offline policy evaluation. Using this characterization, we establish a precise hierarchy of regimes under which these estimators succeed. We prove that LSTD works under strictly weaker conditions than FQI. Furthermore, we establish that if a problem is not solvable via LSTD, then it cannot be solved by a broad class of linear estimators, even in the limit of infinite data. Taken together, our results provide a complete picture of the behavior of linear estimators for offline policy evaluation, unify previously disparate analyses of canonical algorithms, and provide significantly sharper notions of the underlying statistical complexity of offline policy evaluation.
translated by 谷歌翻译
在这项工作中,我们在两层relu网络中提供了特征学习过程的表征,这些网络在随机初始化后通过梯度下降对逻辑损失进行了训练。我们考虑使用输入功能的XOR样函数生成的二进制标签的数据。我们允许不断的培训标签被对手破坏。我们表明,尽管线性分类器并不比随机猜测我们考虑的分布更好,但通过梯度下降训练的两层relu网络达到了接近标签噪声速率的概括误差。我们开发了一种新颖的证明技术,该技术表明,在初始化时,绝大多数神经元充当随机特征,仅与有用特征无关紧要,而梯度下降动力学则“放大”这些弱,随机的特征到强,有用的特征。
translated by 谷歌翻译
良性过度拟合,即插值模型在存在嘈杂数据的情况下很好地推广的现象,首先是在接受梯度下降训练的神经网络模型中观察到的。为了更好地理解这一经验观察,我们考虑了通过梯度下降训练的两层神经网络的概括误差,后者是随机初始化后的逻辑损失。我们假设数据来自分离良好的集体条件对数符合分布,并允许训练标签的持续部分被对手损坏。我们表明,在这种情况下,神经网络表现出良性过度拟合:它们可以驱动到零训练错误,完美拟合所有嘈杂的训练标签,并同时达到最小值最佳测试错误。与以前需要线性或基于内核预测的良性过度拟合的工作相反,我们的分析在模型和学习动力学基本上是非线性的环境中。
translated by 谷歌翻译
We study the problem of estimating the fixed point of a contractive operator defined on a separable Banach space. Focusing on a stochastic query model that provides noisy evaluations of the operator, we analyze a variance-reduced stochastic approximation scheme, and establish non-asymptotic bounds for both the operator defect and the estimation error, measured in an arbitrary semi-norm. In contrast to worst-case guarantees, our bounds are instance-dependent, and achieve the local asymptotic minimax risk non-asymptotically. For linear operators, contractivity can be relaxed to multi-step contractivity, so that the theory can be applied to problems like average reward policy evaluation problem in reinforcement learning. We illustrate the theory via applications to stochastic shortest path problems, two-player zero-sum Markov games, as well as policy evaluation and $Q$-learning for tabular Markov decision processes.
translated by 谷歌翻译
我们研究了随机近似程序,以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后,我们证明了一种在适当平均迭代序列上的非渐近实例依赖性,具有匹配局部渐近最小的限制的领先术语,包括对参数$的敏锐依赖(d,t _ {\ mathrm {mix}}) $以高阶术语。我们将这些上限与非渐近Minimax的下限补充,该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD($ \ lambda $)算法,以便[0,1)$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门(例如,在运行TD($ \ Lambda $)算法时选择$ \ lambda $的值)。
translated by 谷歌翻译
我们研究了多人多武装匪徒的信息共享与合作问题。我们提出了第一个算法,实现了这个问题的对数遗憾。我们的结果基于两项创新。首先,我们表明对连续消除策略的简单修改可用于允许玩家在没有碰撞的情况下估计它们的子项货间隙,直到恒定因素。其次,我们利用第一个结果来设计一种成功使用碰撞的小额奖励来协调玩家之间的通信协议,同时保留有意义的实例依赖性对数后悔保证。
translated by 谷歌翻译
神经网络模型的最新成功揭示了一种令人惊讶的统计现象:完全拟合噪声数据的统计模型可以很好地推广到看不见的测试数据。了解$ \ textit {良性过拟合} $的这种现象吸引了强烈的理论和经验研究。在本文中,我们考虑插值两层线性神经网络在平方损失上梯度流训练,当协变量满足亚高斯和抗浓度的特性时,在平方损耗上训练,并在多余的风险上获得界限,并且噪声是独立和次级高斯的。。通过利用最新的结果来表征该估计器的隐性偏见,我们的边界强调了初始化质量的作用以及数据协方差矩阵在实现低过量风险中的特性。
translated by 谷歌翻译