智能论文笔记

On Mixing Times of Metropolized Algorithm With Optimization Step (MAO) : A New Framework

EL Mahdi Khribch , George Deligiannidis , Daniel Paulin

分类： (统计)机器学习 | 机器学习

2021-12-01

在本文中，我们考虑从一类具有薄尾部的分布式采样，支持$ \ mathbb {r} ^ d $，并制作两个主要贡献。首先，我们提出了一种具有优化步骤（MAO）的新的大都市算法，其非常适合这种目标。我们的算法能够从分布中采样，其中Metropolic调整的Langevin算法（MALA）不收敛或缺乏理论保证。其次，我们在毛泽东混合时间上获得上限。我们的结果是通过模拟多目标分布的支持。

translated by 谷歌翻译

Bounding the error of discretized Langevin algorithms for non-strongly log-concave targets

Arnak S. Dalalyan , Avetik Karagulyan , Lionel Riou-Durand

分类：机器学习

2019-06-20

在本文中，我们在使用离散的Langevin扩散的三个方案中从目标密度采样的误差提供非渐近上限。第一个方案是Langevin Monte Carlo（LMC）算法，歌曲的欧拉分散化的歌曲扩散。第二个和第三种方案分别是用于可微分电位和动力学Langevin Monte Carlo的动力学Langevin Monte Carlo（KLMC），用于两次可分视电位（KLMC2）。主要焦点是在$ \ mathbb r ^ p $的目标密度上，但不一定强烈地抖动。在两种类型的平滑假设下获得计算复杂度的界限：电位具有嘴唇连续梯度，并且电位具有嘴角连续的Hessian基质。采样误差由Wassersein-$ Q $距离测量。我们倡导在计算复杂性定义中使用新的维度适应缩放，当考虑Wasserstein-$ Q $距离时。所获得的结果表明，实现小于规定值的缩放误差的迭代次数仅取决于多项尺寸。

translated by 谷歌翻译

Efficient MCMC Sampling with Dimension-Free Convergence Rate using ADMM-type Splitting

Maxime Vono , Daniel Paulin , Arnaud Doucet

分类： (统计)机器学习

2019-05-23

对复杂模型执行精确的贝叶斯推理是计算的难治性的。马尔可夫链蒙特卡罗（MCMC）算法可以提供后部分布的可靠近似，但对于大型数据集和高维模型昂贵。减轻这种复杂性的标准方法包括使用子采样技术或在群集中分发数据。然而，这些方法通常在高维方案中不可靠。我们在此处专注于最近的替代类别的MCMC方案，利用类似于乘客（ADMM）优化算法的庆祝交替方向使用的分裂策略。这些方法似乎提供了凭经验最先进的性能，但其高维层的理论行为目前未知。在本文中，我们提出了一个详细的理论研究，该算法之一称为分裂Gibbs采样器。在规律条件下，我们使用RICCI曲率和耦合思路为此方案建立了明确的收敛速率。我们以数字插图支持我们的理论。

translated by 谷歌翻译

Concentration analysis of multivariate elliptic diffusion processes

Cathrine Aeckerle-Willems , Claudia Strauch , Lukas Trottner

分类： (统计)机器学习

2022-06-07

我们证明了连续和离散时间添加功能的浓度不平等和相关的PAC界限，用于可能是多元，不可逆扩散过程的无界函数。我们的分析依赖于通过泊松方程的方法，使我们能够考虑一系列非常广泛的指数性千古过程。这些结果增加了现有的浓度不平等，用于扩散过程的加性功能，这些功能仅适用于有界函数或从明显较小的类别中的过程的无限函数。我们通过两个截然不同的区域的例子来证明这些指数不平等的力量。考虑到在稀疏性约束下可能具有高维参数非线性漂移模型，我们应用连续的时间浓度结果来验证套索估计的受限特征值条件，这对于甲骨文不平等的推导至关重要。离散添加功能的结果用于研究未经调整的Langevin MCMC算法，用于采样中等重尾密度$ \ pi $。特别是，我们为多项式增长功能$ f $的样品蒙特卡洛估计量$ \ pi（f）提供PAC边界，以量化足够的样本和阶梯尺寸，以在规定的边距内近似具有很高的可能性。

translated by 谷歌翻译

Penalized Langevin and Hamiltonian Monte Carlo Algorithms for Constrained Sampling

Mert Gürbüzbalaban , Yuanhan Hu , Lingjiong Zhu

分类： (统计)机器学习 | 机器学习

2022-11-29

We consider the constrained sampling problem where the goal is to sample from a distribution $\pi(x)\propto e^{-f(x)}$ and $x$ is constrained on a convex body $\mathcal{C}\subset \mathbb{R}^d$. Motivated by penalty methods from optimization, we propose penalized Langevin Dynamics (PLD) and penalized Hamiltonian Monte Carlo (PHMC) that convert the constrained sampling problem into an unconstrained one by introducing a penalty function for constraint violations. When $f$ is smooth and the gradient is available, we show $\tilde{\mathcal{O}}(d/\varepsilon^{10})$ iteration complexity for PLD to sample the target up to an $\varepsilon$-error where the error is measured in terms of the total variation distance and $\tilde{\mathcal{O}}(\cdot)$ hides some logarithmic factors. For PHMC, we improve this result to $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ when the Hessian of $f$ is Lipschitz and the boundary of $\mathcal{C}$ is sufficiently smooth. To our knowledge, these are the first convergence rate results for Hamiltonian Monte Carlo methods in the constrained sampling setting that can handle non-convex $f$ and can provide guarantees with the best dimension dependency among existing methods with deterministic gradients. We then consider the setting where unbiased stochastic gradients are available. We propose PSGLD and PSGHMC that can handle stochastic gradients without Metropolis-Hasting correction steps. When $f$ is strongly convex and smooth, we obtain an iteration complexity of $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ and $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ respectively in the 2-Wasserstein distance. For the more general case, when $f$ is smooth and non-convex, we also provide finite-time performance bounds and iteration complexity results. Finally, we test our algorithms on Bayesian LASSO regression and Bayesian constrained deep learning problems.

translated by 谷歌翻译

Hamiltonian Monte Carlo for efficient Gaussian sampling: long and random steps

Simon Apers , Sander Gribling , Dániel Szilágyi

分类： (统计)机器学习 | 机器学习

2022-09-26

Hamiltonian Monte Carlo（HMC）是Markov链算法，用于从具有密度$ e^{ - f（x）} $的高维分布中进行采样，可访问$ f $的梯度。一种特殊的感兴趣的情况是带有协方差矩阵$ \ sigma $的$ d $二维高斯分布，在这种情况下$ f（x）= x^\ top \ top \ sigma^{ - 1} x $。我们表明，HMC可以使用$ \ wideTilde {o}（\ sqrt {\ kappa} d^{1/4} \ log（1/\ varepsilon），使用$ \ varepsilon $ -close在总变化距离中取样。）$渐变查询，其中$ \ kappa $是$ \ sigma $的条件号。我们的算法对哈密顿动力学使用了长时间和随机的整合时间。这与最近的结果（并受到了）的形成对比，该结果给出了$ \ widetilde \ omega（\ kappa d^{1/2}）$查询的HMC较低限制，即使是高斯案例，也有固定的集成时间。

translated by 谷歌翻译

Stochastic optimization under distributional drift

Joshua Cutler , Dmitriy Drusvyatskiy , Zaid Harchaoui

分类：机器学习

2021-08-16

我们考虑最小化根据未知和可能随机动态发展的凸起功能的问题，这可以按时和在决策变量上共同依赖。在机器学习和信号处理文献中比比皆是，在概念漂移，随机跟踪和执行预测的名称下取比。我们为随机算法提供了新的非渐近融合保障，其具有迭代平均值，专注于期望和高概率有效。我们获得的效率估计明确地解除了优化误差，梯度噪声和时间漂移的贡献。值得注意的是，我们表明近端随机梯度方法的跟踪效率仅取决于配备步骤衰减计划时的初始化质量上的对数。数值实验说明了我们的结果。

translated by 谷歌翻译

Optimal design of the Barker proposal and other locally-balanced Metropolis-Hastings algorithms

Jure Vogrinc , Samuel Livingstone , Giacomo Zanella

分类： (统计)机器学习

2022-01-04

我们研究Livingstone＆Zanella（2021）中引入的一阶级本地平衡的大都市 - 黑斯廷斯算法（2021）。要在类中选择特定算法，用户必须选择平衡函数$ g：\ mathbb {r} \ to \ mathbb {r} $满足$ g（t）= tg（1 / t）$，以及噪声分布提案增量。课程中的流行选择是Metropolis调整的Langevin算法，最近推出的Barker提案。我们首先建立一个普遍限制的最佳验收率为57％，并为N $ N $的缩放，因为维度在$ G $的温和平滑假设下的所有成员之间的无限程度倾向于无限算法的目标分布是产品形式。特别地，我们通过预期的平方跳跃距离来获得类中任意算法的渐近效率的显式表达式。然后，我们考虑如何在各种约束下优化此表达式。我们为Barker提案提供了最佳的噪声分布选择，在高斯噪声分布下的平衡功能的最佳选择，以及整个类中的一阶本地平衡算法的最佳选择，结果取决于特定的目标分布。数值模拟确认了我们的理论发现，特别表明，Barker提案中的双模噪声分布选择产生了比原始高斯版本始终如一的效率的实用算法。

translated by 谷歌翻译

On free energy barriers in Gaussian priors and failure of MCMC for high-dimensional unimodal distributions

Afonso S. Bandeira , Antoine Maillard , Richard Nickl , Sven Wang

分类： (统计)机器学习

2022-09-05

我们展示了具有高斯流程先验的非线性回归模型中产生的高维单模式后分布的示例后措施浓缩。基于梯度或随机步行步骤，对一般MCMC方案的反示例持有，该理论用于大都市 - 危机调整后的方法，例如PCN和MALA。

translated by 谷歌翻译

Finite Sample Complexity of Sequential Monte Carlo Estimators on Multimodal Target Distributions

Joseph Mathews , Scott C. Schmidler

分类： (统计)机器学习

2022-08-13

我们证明了顺序蒙特卡洛（SMC）算法的有限样品复杂性，该算法仅需要相关的马尔可夫核的局部混合时间。当目标分布是多模式的，而马尔可夫内核的全局混合速度很慢时，我们的边界特别有用。在这种情况下，我们的方法确定了SMC比相应的Markov链蒙特卡洛（MCMC）估计量的好处。通过依次控制SMC重采样程序引入的偏差来解决全局混合。我们将这些结果应用于对数凸出分布的混合物下的近似期望获得复杂性界限，并表明SMC为某些困难的多模式问题提供了完全多项式时间随机近似方案，而相应的Markov链采样器的指数呈呈呈速度速度。最后，我们比较了通过我们在相同问题上使用钢结战的马尔可夫链的现有界限获得的界限。

translated by 谷歌翻译

Mean field Variational Inference via Wasserstein Gradient Flow

Rentian Yao , Yun Yang

分类： (统计)机器学习

2022-07-17

变性推理（VI）为基于传统的采样方法提供了一种吸引人的替代方法，用于实施贝叶斯推断，因为其概念性的简单性，统计准确性和计算可扩展性。然而，常见的变分近似方案（例如平均场（MF）近似）需要某些共轭结构以促进有效的计算，这可能会增加不必要的限制对可行的先验分布家族，并对变异近似族对差异进行进一步的限制。在这项工作中，我们开发了一个通用计算框架，用于实施MF-VI VIA WASSERSTEIN梯度流（WGF），这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时，我们将分析基于时间消化的WGF交替最小化方案的算法收敛，用于实现MF近似。特别是，所提出的算法类似于EM算法的分布版本，包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性，以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型，即高斯混合模型和回归模型的混合物。还进行了数值实验，以补充这两个模型下的理论发现。

translated by 谷歌翻译

Comparison of Markov chains via weak Poincaré inequalities with application to pseudo-marginal MCMC

Christophe Andrieu , Anthony Lee , Sam Power , Andi Q. Wang

分类：机器学习

2021-12-10

我们调查了一定类别的功能不等式，称为弱Poincar的不等式，以使Markov链的收敛性与均衡相结合。我们表明，这使得SubGoom测量收敛界的直接和透明的推导出用于独立的Metropolis - Hastings采样器和用于棘手似然性的伪边缘方法，后者在许多实际设置中是子表芯。这些结果依赖于马尔可夫链之间的新量化比较定理。相关证据比依赖于漂移/较小化条件的证据更简单，并且所开发的工具允许我们恢复并进一步延长特定情况的已知结果。我们能够为伪边缘算法的实际使用提供新的见解，分析平均近似贝叶斯计算（ABC）的效果以及独立平均值的产品，以及研究与之相关的逻辑重量的情况粒子边缘大都市 - 黑斯廷斯（PMMH）。

translated by 谷歌翻译

Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector Problems

Chris Junchi Li , Michael I. Jordan

分类： (统计)机器学习 | 机器学习

2021-12-29

通过在线规范相关性分析的问题，我们提出了\ emph {随机缩放梯度下降}（SSGD）算法，以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想，允许使用缩放的随机梯度而不是随机梯度。在特殊情况下，球形约束的特殊情况，在广义特征向量问题中产生的，我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本，并表明该速率最佳最佳，直至具有积极的积极因素相关参数。在渐近方面，一种新的轨迹平均争论使我们能够实现局部渐近常态，其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析，从事文献中的第一次获得了最佳的一次性尺度算法，其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。

translated by 谷歌翻译

Analysis of Langevin Monte Carlo from Poincaré to Log-Sobolev

Sinho Chewi , Murat A. Erdogdu , Mufan Bill Li , Ruoqi Shen , Matthew Zhang

分类： (统计)机器学习

2021-12-23

经典地，连续时间兰富文队扩散在唯一的假设下迅速迅速迅速迅速迅速，以至于$ \ PI $满足POINCAR的不平等。使用这一事实来为离散时间Langevin Monte Carlo（LMC）算法提供保证，因此由于需要与Chi Squared或R \'enyi分歧的需要，并且在很大程度上主要重点关注日志凹形目标。在这项工作中，我们为LMC提供了第一个收敛保证，假设$ \ PI $满足Lata {\ l} a - oleszkiewicz或修改的log-sobolev不等式，它在Poincar \ e和log-sobolev设置之间插值。与现有作品不同，我们的结果允许弱滑性，并且不需要凸起或耗散条件。

translated by 谷歌翻译

Bayesian imaging using Plug & Play priors: when Langevin meets Tweedie

Rémi Laumont , Valentin de Bortoli , Andrés Almansa , Julie Delon , Alain Durmus , Marcelo Pereyra

分类：计算机视觉 | (统计)机器学习

2021-03-08

自Venkatakrishnan等人的开创性工作以来。 2013年，即插即用（PNP）方法在贝叶斯成像中变得普遍存在。这些方法通过将显式似然函数与预定由图像去噪算法隐式定义的明确定义，导出用于成像中的逆问题的最小均方误差（MMSE）或最大后验误差（MAP）估计器。文献中提出的PNP算法主要不同于他们用于优化或采样的迭代方案。在优化方案的情况下，一些最近的作品能够保证收敛到一个定点，尽管不一定是地图估计。在采样方案的情况下，据我们所知，没有已知的收敛证明。关于潜在的贝叶斯模型和估算器是否具有明确定义，良好的良好，并且具有支持这些数值方案所需的基本规律性属性，还存在重要的开放性问题。为了解决这些限制，本文开发了用于对PNP前锋进行贝叶斯推断的理论，方法和可忽略的会聚算法。我们介绍了两个算法：1）PNP-ULA（未调整的Langevin算法），用于蒙特卡罗采样和MMSE推断; 2）PNP-SGD（随机梯度下降）用于MAP推理。利用Markov链的定量融合的最新结果，我们为这两种算法建立了详细的收敛保证，在现实假设下，在去噪运营商使用的现实假设下，特别注意基于深神经网络的遣散者。我们还表明这些算法大致瞄准了良好的决策理论上最佳的贝叶斯模型。所提出的算法在几种规范问题上证明了诸如图像去纹，染色和去噪，其中它们用于点估计以及不确定的可视化和量化。

translated by 谷歌翻译

Optimal and instance-dependent guarantees for Markovian linear stochastic approximation

Wenlong Mou , Ashwin Pananjady , Martin J. Wainwright , Peter L. Bartlett

分类：机器学习 | (统计)机器学习

2021-12-23

我们研究了随机近似程序，以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后，我们证明了一种在适当平均迭代序列上的非渐近实例依赖性，具有匹配局部渐近最小的限制的领先术语，包括对参数$的敏锐依赖（d，t _ {\ mathrm {mix}}） $以高阶术语。我们将这些上限与非渐近Minimax的下限补充，该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD（$ \ lambda $）算法，以便[0,1）$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门（例如，在运行TD（$ \ Lambda $）算法时选择$ \ lambda $的值）。

translated by 谷歌翻译

Three rates of convergence or separation via U-statistics in a dependent framework

Quentin Duchemin , Yohann De Castro , Claire Lacour

分类： (统计)机器学习

2021-06-24

尽管U统计量在现代概率和统计学中存在着无处不在的，但其在依赖框架中的非反应分析可能被忽略了。在最近的一项工作中，已经证明了对统一的马尔可夫链的U级统计数据的新浓度不平等。在本文中，我们通过在三个不同的研究领域中进一步推动了当前知识状态，将这一理论突破付诸实践。首先，我们为使用MCMC方法估算痕量类积分运算符光谱的新指数不平等。新颖的是，这种结果适用于具有正征和负征值的内核，据我们所知，这是新的。此外，我们研究了使用成对损失函数和马尔可夫链样品的在线算法的概括性能。我们通过展示如何从任何在线学习者产生的假设序列中提取低风险假设来提供在线到批量转换结果。我们最终对马尔可夫链的不变度度量的密度进行了拟合优度测试的非反应分析。我们确定了一些类别的替代方案，基于$ L_2 $距离的测试具有规定的功率。

translated by 谷歌翻译

Triangular Flows for Generative Modeling: Statistical Consistency, Smoothness Classes, and Fast Rates

Nicholas J. Irons , Meyer Scetbon , Soumik Pal , Zaid Harchaoui

分类： (统计)机器学习 | 机器学习

2021-12-31

三角形流量，也称为kn \“{o}的Rosenblatt测量耦合，包括用于生成建模和密度估计的归一化流模型的重要构建块，包括诸如实值的非体积保存变换模型的流行自回归流模型（真实的NVP）。我们提出了三角形流量统计模型的统计保证和样本复杂性界限。特别是，我们建立了KN的统计一致性和kullback-leibler估算器的rospblatt的kullback-leibler估计的有限样本会聚率使用实证过程理论的工具测量耦合。我们的结果突出了三角形流动下播放功能类的各向异性几何形状，优化坐标排序，并导致雅各比比流动的统计保证。我们对合成数据进行数值实验，以说明我们理论发现的实际意义。

translated by 谷歌翻译

Policy evaluation from a single path: Multi-step methods, mixing and mis-specification

Yaqi Duan , Martin J. Wainwright

分类： (统计)机器学习 | 机器学习

2022-11-07

We study non-parametric estimation of the value function of an infinite-horizon $\gamma$-discounted Markov reward process (MRP) using observations from a single trajectory. We provide non-asymptotic guarantees for a general family of kernel-based multi-step temporal difference (TD) estimates, including canonical $K$-step look-ahead TD for $K = 1, 2, \ldots$ and the TD$(\lambda)$ family for $\lambda \in [0,1)$ as special cases. Our bounds capture its dependence on Bellman fluctuations, mixing time of the Markov chain, any mis-specification in the model, as well as the choice of weight function defining the estimator itself, and reveal some delicate interactions between mixing time and model mis-specification. For a given TD method applied to a well-specified model, its statistical error under trajectory data is similar to that of i.i.d. sample transition pairs, whereas under mis-specification, temporal dependence in data inflates the statistical error. However, any such deterioration can be mitigated by increased look-ahead. We complement our upper bounds by proving minimax lower bounds that establish optimality of TD-based methods with appropriately chosen look-ahead and weighting, and reveal some fundamental differences between value function estimation and ordinary non-parametric regression.

translated by 谷歌翻译

A Non-Asymptotic Framework for Approximate Message Passing in Spiked Models

Gen Li , Yuting Wei

分类：机器学习 | (统计)机器学习

2022-08-05

近似消息传递（AMP）是解决高维统计问题的有效迭代范式。但是，当迭代次数超过$ o \ big（\ frac {\ log n} {\ log log \ log \ log n} \时big）$（带有$ n $问题维度）。为了解决这一不足，本文开发了一个非吸附框架，用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项，我们布置了一个分析配方，以表征在存在独立初始化的情况下AMP的有限样本行为，该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果：（i）求解$ \ mathbb {z} _2 $同步时，我们预测了频谱初始化AMP的行为，最高为$ o \ big（\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big）$迭代，表明该算法成功而无需随后的细化阶段（如最近由\ citet {celentano2021local}推测）; （ii）我们表征了稀疏PCA中AMP的非反应性行为（在尖刺的Wigner模型中），以广泛的信噪比。

translated by 谷歌翻译