随机近似算法是迭代过程,用于在目标未知且直接观察结果被噪声损坏的环境中近似目标值。例如,当目标函数或模型不直接知道时,这些算法对于根找到和最小化是有用的。最初是在Robbins和Monro的1951年论文中引入的,随机近似领域已大大增长,并影响了从自适应信号处理到人工智能的应用领域。例如,在机器学习的各个子域中无处不在的随机梯度下降算法是基于随机近似理论。在本文中,我们为由于Aryeh dvoretzky的一般融合定理提供了正式的证明(在COQ证明助手中),这意味着重要的经典方法(例如Robbins-Monro和Kiefer-Wolfowitz算法)的收敛性。在此过程中,我们构建了一个综合的量子库库理论概率理论和随机过程。
translated by 谷歌翻译
我们在Isabelle定理箴言中展示了有限马尔可夫决定流程的正式化。我们专注于动态编程和使用加固学习代理所需的基础。特别是,我们从第一个原则(在标量和向量形式中)导出Bellman方程,导出产生任何策略P的预期值的向量计算,并继续证明存在一个普遍的最佳政策的存在折扣因子不到一个。最后,我们证明了价值迭代和策略迭代算法在有限的时间内工作,分别产生ePsilon - 最佳和完全最佳的政策。
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
In this paper we develop a theoretical analysis of the performance of sampling-based fitted value iteration (FVI) to solve infinite state-space, discounted-reward Markovian decision processes (MDPs) under the assumption that a generative model of the environment is available. Our main results come in the form of finite-time bounds on the performance of two versions of sampling-based FVI. The convergence rate results obtained allow us to show that both versions of FVI are well behaving in the sense that by using a sufficiently large number of samples for a large class of MDPs, arbitrary good performance can be achieved with high probability. An important feature of our proof technique is that it permits the study of weighted L p -norm performance bounds. As a result, our technique applies to a large class of function-approximation methods (e.g., neural networks, adaptive regression trees, kernel machines, locally weighted learning), and our bounds scale well with the effective horizon of the MDP. The bounds show a dependence on the stochastic stability properties of the MDP: they scale with the discounted-average concentrability of the future-state distributions. They also depend on a new measure of the approximation power of the function space, the inherent Bellman residual, which reflects how well the function space is "aligned" with the dynamics and rewards of the MDP. The conditions of the main result, as well as the concepts introduced in the analysis, are extensively discussed and compared to previous theoretical results. Numerical experiments are used to substantiate the theoretical findings.
translated by 谷歌翻译
We study the problem of estimating the fixed point of a contractive operator defined on a separable Banach space. Focusing on a stochastic query model that provides noisy evaluations of the operator, we analyze a variance-reduced stochastic approximation scheme, and establish non-asymptotic bounds for both the operator defect and the estimation error, measured in an arbitrary semi-norm. In contrast to worst-case guarantees, our bounds are instance-dependent, and achieve the local asymptotic minimax risk non-asymptotically. For linear operators, contractivity can be relaxed to multi-step contractivity, so that the theory can be applied to problems like average reward policy evaluation problem in reinforcement learning. We illustrate the theory via applications to stochastic shortest path problems, two-player zero-sum Markov games, as well as policy evaluation and $Q$-learning for tabular Markov decision processes.
translated by 谷歌翻译
我们提出了一种统一的技术,用于顺序估计分布之间的凸面分歧,包括内核最大差异等积分概率度量,$ \ varphi $ - 像Kullback-Leibler发散,以及最佳运输成本,例如Wassersein距离的权力。这是通过观察到经验凸起分歧(部分有序)反向半角分离的实现来实现的,而可交换过滤耦合,其具有这些方法的最大不等式。这些技术似乎是对置信度序列和凸分流的现有文献的互补和强大的补充。我们构建一个离线到顺序设备,将各种现有的离线浓度不等式转换为可以连续监测的时间均匀置信序列,在任意停止时间提供有效的测试或置信区间。得到的顺序边界仅在相应的固定时间范围内支付迭代对数价格,保留对问题参数的相同依赖性(如适用的尺寸或字母大小)。这些结果也适用于更一般的凸起功能,如负差分熵,实证过程的高度和V型统计。
translated by 谷歌翻译
随机近似算法是一种广泛使用的概率方法,用于查找矢量值构造的零,仅当函数的嘈杂测量值可用时。在迄今为止的文献中,可以区分“同步”更新,从而每次更新当前猜测的每个组件,以及'“同步”更新,从而更新一个组件。原则上,也可以在每次瞬间更新一些但不是全部的$ \ theta_t $的组件,这些组件可能被称为“批处理异步随机近似”(BASA)。另外,还可以在使用“本地”时钟与“全局”时钟之间有所区别。在本文中,我们提出了一种统一的配方异步随机近似(BASA)算法,并开发了一种通用方法,以证明这种算法会融合,而与使用是否使用了全球或本地时钟。这些融合证明利用了比现有结果较弱的假设。例如:当使用本地时钟时,现有的收敛证明要求测量噪声是I.I.D序列。在这里,假定测量误差形成了martingale差异序列。同样,迄今为止的所有结果都假设随机步骤大小满足了罗宾斯 - 单月条件的概率类似物。我们通过基础马尔可夫流程的不可约性的纯粹确定性条件代替了这一点。作为加固学习的特定应用,我们介绍了时间差算法$ td(0)$的``批次''版本,以进行价值迭代,以及$ q $ - 学习算法,以查找最佳操作值函数,还允许使用本地时钟而不是全局时钟。在所有情况下,我们在温和的条件下都比现有文献建立了这些算法的融合。
translated by 谷歌翻译
我们研究了随机近似程序,以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后,我们证明了一种在适当平均迭代序列上的非渐近实例依赖性,具有匹配局部渐近最小的限制的领先术语,包括对参数$的敏锐依赖(d,t _ {\ mathrm {mix}}) $以高阶术语。我们将这些上限与非渐近Minimax的下限补充,该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD($ \ lambda $)算法,以便[0,1)$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门(例如,在运行TD($ \ Lambda $)算法时选择$ \ lambda $的值)。
translated by 谷歌翻译
我们建议和分析一个强化学习原理,该原理仅在测试功能的用户定义空间沿使用它们的有效性来近似钟声方程。我们专注于使用功能近似的无模型离线RL应用程序,我们利用这一原理来得出置信区间以进行非政策评估,并在规定的策略类别中优化了对策略的优化。我们证明了关于我们的政策优化程序的甲骨文不平等,就任意比较策略的价值和不确定性之间的权衡而言。测试功能空间的不同选择使我们能够解决共同框架中的不同问题。我们表征了使用我们的程序从政策转移到政策数据的效率的丧失,并建立了与过去工作中研究的浓缩性系数的连接。我们深入研究了具有线性函数近似的方法的实施,即使贝尔曼关闭不结束,也可以通过多项式时间实现提供理论保证。
translated by 谷歌翻译
我们研究了对识别的非唯一麻烦的线性功能的通用推断,该功能定义为未识别条件矩限制的解决方案。这个问题出现在各种应用中,包括非参数仪器变量模型,未衡量的混杂性下的近端因果推断以及带有阴影变量的丢失 - 与随机数据。尽管感兴趣的线性功能(例如平均治疗效应)在适当的条件下是可以识别出的,但令人讨厌的非独家性对统计推断构成了严重的挑战,因为在这种情况下,常见的滋扰估计器可能是不稳定的,并且缺乏固定限制。在本文中,我们提出了对滋扰功能的受惩罚的最小估计器,并表明它们在这种挑战性的环境中有效推断。提出的滋扰估计器可以适应灵活的功能类别,重要的是,无论滋扰是否是唯一的,它们都可以融合到由惩罚确定的固定限制。我们使用受惩罚的滋扰估计器来形成有关感兴趣的线性功能的依据估计量,并在通用高级条件下证明其渐近正态性,这提供了渐近有效的置信区间。
translated by 谷歌翻译
We consider stochastic gradient descents on the space of large symmetric matrices of suitable functions that are invariant under permuting the rows and columns using the same permutation. We establish deterministic limits of these random curves as the dimensions of the matrices go to infinity while the entries remain bounded. Under a "small noise" assumption the limit is shown to be the gradient flow of functions on graphons whose existence was established in arXiv:2111.09459. We also consider limits of stochastic gradient descents with added properly scaled reflected Brownian noise. The limiting curve of graphons is characterized by a family of stochastic differential equations with reflections and can be thought of as an extension of the classical McKean-Vlasov limit for interacting diffusions. The proofs introduce a family of infinite-dimensional exchangeable arrays of reflected diffusions and a novel notion of propagation of chaos for large matrices of interacting diffusions.
translated by 谷歌翻译
我们研究了有限空间中值的静止随机过程的最佳运输。为了反映潜在流程的实向性,我们限制了对固定联轴器的关注,也称为联系。由此产生的最佳连接问题捕获感兴趣过程的长期平均行为的差异。我们介绍了最优联接的估算和最佳的加入成本,我们建立了温和条件下估算器的一致性。此外,在更强的混合假设下,我们为估计的最佳连接成本建立有限样本误差速率,其延伸了IID案件中的最佳已知结果。最后,我们将一致性和速率分析扩展到最佳加入问题的熵惩罚版本。
translated by 谷歌翻译
基于内核的测试提供了一个简单而有效的框架,该框架使用繁殖内核希尔伯特空间的理论设计非参数测试程序。在本文中,我们提出了新的理论工具,可用于在几种数据方案以及许多不同的测试问题中研究基于内核测试的渐近行为。与当前的方法不同,我们的方法避免使用冗长的$ u $和$ v $统计信息扩展并限制定理,该定理通常出现在文献中,并直接与希尔伯特空格上的随机功能合作。因此,我们的框架会导致对内核测试的简单明了的分析,只需要轻度的规律条件。此外,我们表明,通常可以通过证明我们方法所需的规律条件既足够又需要进行必要的规律条件来改进我们的分析。为了说明我们的方法的有效性,我们为有条件的独立性测试问题提供了一项新的内核测试,以及针对已知的基于内核测试的新分析。
translated by 谷歌翻译
We consider autocovariance operators of a stationary stochastic process on a Polish space that is embedded into a reproducing kernel Hilbert space. We investigate how empirical estimates of these operators converge along realizations of the process under various conditions. In particular, we examine ergodic and strongly mixing processes and obtain several asymptotic results as well as finite sample error bounds. We provide applications of our theory in terms of consistency results for kernel PCA with dependent data and the conditional mean embedding of transition probabilities. Finally, we use our approach to examine the nonparametric estimation of Markov transition operators and highlight how our theory can give a consistency analysis for a large family of spectral analysis methods including kernel-based dynamic mode decomposition.
translated by 谷歌翻译
We study non-parametric estimation of the value function of an infinite-horizon $\gamma$-discounted Markov reward process (MRP) using observations from a single trajectory. We provide non-asymptotic guarantees for a general family of kernel-based multi-step temporal difference (TD) estimates, including canonical $K$-step look-ahead TD for $K = 1, 2, \ldots$ and the TD$(\lambda)$ family for $\lambda \in [0,1)$ as special cases. Our bounds capture its dependence on Bellman fluctuations, mixing time of the Markov chain, any mis-specification in the model, as well as the choice of weight function defining the estimator itself, and reveal some delicate interactions between mixing time and model mis-specification. For a given TD method applied to a well-specified model, its statistical error under trajectory data is similar to that of i.i.d. sample transition pairs, whereas under mis-specification, temporal dependence in data inflates the statistical error. However, any such deterioration can be mitigated by increased look-ahead. We complement our upper bounds by proving minimax lower bounds that establish optimality of TD-based methods with appropriately chosen look-ahead and weighting, and reveal some fundamental differences between value function estimation and ordinary non-parametric regression.
translated by 谷歌翻译
本文衍生了置信区间(CI)和时间统一的置信序列(CS),用于从有限观测值中估算未知平均值的经典问题。我们提出了一种衍生浓度界限的一般方法,可以看作是著名的切尔诺夫方法的概括(和改进)。它的核心是基于推导一类新的复合非负胸腔,通过投注和混合方法与测试的连接很强。我们展示了如何将这些想法扩展到无需更换的情况下,这是另一个经过深入研究的问题。在所有情况下,我们的界限都适应未知的差异,并且基于Hoeffding或经验的Bernstein不平等及其最近的Supermartingale概括,经验上大大优于现有方法。简而言之,我们为四个基本问题建立了一个新的最先进的问题:在有或没有替换的情况下进行采样时,CS和CI进行有限的手段。
translated by 谷歌翻译
我们提供了静态分析,用于发现给定概率程序的可区分或更普遍的平滑部分,并展示如何使用分析来改善路径梯度估计器,这是后验推理和模型学习的最流行方法之一。我们的改进将估计器的范围从可区分模型到非差异性模型的范围,而无需用户手动干预;改进的估计器会使用我们的静态分析自动识别给定概率程序的可区分部分,并将路径梯度估计器应用于已识别的零件,同时使用程序的其余部分使用更通用但效率较低的估计器(称为得分估计器)。我们的分析具有令人惊讶的微妙的声音论点,部分原因是从程序分析设计师的角度看待某些目标平滑性属性的不当行为。例如,某些平滑度属性不能通过函数组成保留,这使得在不牺牲精度的情况下很难分析顺序组成。我们在目标平滑度属性上制定了五个假设,证明了我们在这些假设下的分析的健全性,并表明我们的主要示例满足了这些假设。我们还表明,通过使用分析中的信息,我们的改进梯度估计器满足了重要的可不同性要求,因此,在轻度的规律性条件下,平均计算正确的估计值,即,它返回无偏见的估计值。我们在Pyro语言中使用代表性概率程序进行的实验表明,我们的静态分析能够准确地识别这些程序的平滑部分,并使我们改进的路径梯度估计器利用这些程序中的所有高性能机会。
translated by 谷歌翻译
我们研究了线性函数近似的政策评估问题,并且目前具有强烈的最优性保证的高效实用算法。我们首先通过证明在这个问题中建立基线的下限来建立基线和随机错误。特别是,我们在与转换内核的静止分布相关联的实例相关规范中证明了Oracle复杂性下限,并使用本地渐近最低限度机械在随机误差中证明依赖于随机误差的实例相关的下限IID观察模型。现有算法未能匹配这些下限中的至少一个:为了说明,我们分析了时间差异学习的方差减少变体,特别是它未能实现Oracle复杂性下限。为了解决这个问题,我们开发了加速,方差减少的快速时间差算法(VRFTD),其同时匹配两个下限,并达到实例 - 最优性的强烈概念。最后,我们将VRFTD算法扩展到Markovian观察的设置,并提供与I.I.D中的实例相关的收敛结果。设置到与链条的混合时间成比例的乘法因子。我们的理论保证最佳的最佳保证是通过数值实验证实的。
translated by 谷歌翻译
显示了最佳的收敛速率,显示了对保守随机偏微分方程的平均场限制对解决方案解决方案解决方案解决方案的收敛。作为第二个主要结果,该SPDE的定量中心极限定理再次得出,并以最佳的收敛速率得出。该结果尤其适用于在过叠层化的,浅的神经网络中与SPDES溶液中随机梯度下降动力学的平均场缩放率的收敛性。结果表明,在限制SPDE中包含波动可以提高收敛速度,并保留有关随机梯度下降的波动的信息。
translated by 谷歌翻译
在因果推理和强盗文献中,基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序,然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限:这些边界表明,为了获得非反应性最佳程序,应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序,并通过匹配非轴突局部局部最小值下限,在有限样品中建立了实例依赖性最优性。这些结果表明,除了取决于渐近效率方差之外,最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。
translated by 谷歌翻译