智能论文笔记

On free energy barriers in Gaussian priors and failure of MCMC for high-dimensional unimodal distributions

Afonso S. Bandeira , Antoine Maillard , Richard Nickl , Sven Wang

分类： (统计)机器学习

2022-09-05

我们展示了具有高斯流程先验的非线性回归模型中产生的高维单模式后分布的示例后措施浓缩。基于梯度或随机步行步骤，对一般MCMC方案的反示例持有，该理论用于大都市 - 危机调整后的方法，例如PCN和MALA。

translated by 谷歌翻译

Concentration analysis of multivariate elliptic diffusion processes

Cathrine Aeckerle-Willems , Claudia Strauch , Lukas Trottner

分类： (统计)机器学习

2022-06-07

我们证明了连续和离散时间添加功能的浓度不平等和相关的PAC界限，用于可能是多元，不可逆扩散过程的无界函数。我们的分析依赖于通过泊松方程的方法，使我们能够考虑一系列非常广泛的指数性千古过程。这些结果增加了现有的浓度不平等，用于扩散过程的加性功能，这些功能仅适用于有界函数或从明显较小的类别中的过程的无限函数。我们通过两个截然不同的区域的例子来证明这些指数不平等的力量。考虑到在稀疏性约束下可能具有高维参数非线性漂移模型，我们应用连续的时间浓度结果来验证套索估计的受限特征值条件，这对于甲骨文不平等的推导至关重要。离散添加功能的结果用于研究未经调整的Langevin MCMC算法，用于采样中等重尾密度$ \ pi $。特别是，我们为多项式增长功能$ f $的样品蒙特卡洛估计量$ \ pi（f）提供PAC边界，以量化足够的样本和阶梯尺寸，以在规定的边距内近似具有很高的可能性。

translated by 谷歌翻译

Tractability from overparametrization: The example of the negative perceptron

Andrea Montanari , Yiqiao Zhong , Kangjie Zhou

分类：机器学习

2021-10-28

在负面的感知问题中，我们给出了$ n $数据点$（{\ boldsymbol x} _i，y_i）$，其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1，-1 \} $是二进制标签。数据不是线性可分离的，因此我们满足自己的内容，以找到最大的线性分类器，具有最大的\ emph {否定}余量。换句话说，我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $，最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta}，{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题（它相当于在Polytope中找到最大标准矢量），我们在两个随机模型下研究其典型属性。我们考虑比例渐近，其中$ n，d \ to \ idty $以$ n / d \ to \ delta $，并在最大边缘$ \ kappa _ {\ text {s}}（\ delta）上证明了上限和下限）$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}（\ kappa）$。换句话说，$ \ delta _ {\ text {s}}（\ kappa）$是overparametization阈值：以$ n / d \ le \ delta _ {\ text {s}}（\ kappa） - \ varepsilon $一个分类器实现了消失的训练错误，具有高概率，而以$ n / d \ ge \ delta _ {\ text {s}}（\ kappa）+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}（\ kappa）$匹配，以$ \ kappa \ to - \ idty $匹配。然后，我们分析了线性编程算法来查找解决方案，并表征相应的阈值$ \ delta _ {\ text {lin}}（\ kappa）$。我们观察插值阈值$ \ delta _ {\ text {s}}（\ kappa）$和线性编程阈值$ \ delta _ {\ text {lin {lin}}（\ kappa）$之间的差距，提出了行为的问题其他算法。

translated by 谷歌翻译

Statistical and Computational Phase Transitions in Group Testing

Amin Coja-Oghlan , Oliver Gebhard , Max Hahn-Klimroth , Alexander S. Wein , Ilias Zadik

分类： (统计)机器学习 | 机器学习

2022-06-15

我们研究了小组测试问题，其目标是根据合并测试的结果，确定一组k感染的人，这些k含有稀有疾病，这些人在经过测试中至少有一个受感染的个体时返回阳性的结果。团体。我们考虑将个人分配给测试的两个不同的简单随机过程：恒定柱设计和伯努利设计。我们的第一组结果涉及基本统计限制。对于恒定柱设计，我们给出了一个新的信息理论下限，这意味着正确识别的感染者的比例在测试数量越过特定阈值时会经历急剧的“全或全或无所不包”的相变。对于Bernoulli设计，我们确定解决相关检测问题所需的确切测试数量（目的是区分小组测试实例和纯噪声），改善Truong，Aldridge和Scarlett的上限和下限（2020）。对于两个小组测试模型，我们还研究了计算有效（多项式时间）推理程序的能力。我们确定了解决检测问题的低度多项式算法所需的精确测试数量。这为在少量稀疏度的检测和恢复问题中都存在固有的计算统计差距提供了证据。值得注意的是，我们的证据与Iliopoulos和Zadik（2021）相反，后者预测了Bernoulli设计中没有计算统计差距。

translated by 谷歌翻译

Mean field Variational Inference via Wasserstein Gradient Flow

Rentian Yao , Yun Yang

分类： (统计)机器学习

2022-07-17

变性推理（VI）为基于传统的采样方法提供了一种吸引人的替代方法，用于实施贝叶斯推断，因为其概念性的简单性，统计准确性和计算可扩展性。然而，常见的变分近似方案（例如平均场（MF）近似）需要某些共轭结构以促进有效的计算，这可能会增加不必要的限制对可行的先验分布家族，并对变异近似族对差异进行进一步的限制。在这项工作中，我们开发了一个通用计算框架，用于实施MF-VI VIA WASSERSTEIN梯度流（WGF），这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时，我们将分析基于时间消化的WGF交替最小化方案的算法收敛，用于实现MF近似。特别是，所提出的算法类似于EM算法的分布版本，包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性，以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型，即高斯混合模型和回归模型的混合物。还进行了数值实验，以补充这两个模型下的理论发现。

translated by 谷歌翻译

Robust Generalised Bayesian Inference for Intractable Likelihoods

Takuo Matsubara , Jeremias Knoblauch , François-Xavier Briol , Chris. J. Oates

分类： (统计)机器学习

2021-04-15

广义贝叶斯推理使用损失函数而不是可能性的先前信仰更新，因此可以用于赋予鲁棒性，以防止可能的错误规范的可能性。在这里，我们认为广泛化的贝叶斯推论斯坦坦差异作为损失函数的损失，由应用程序的可能性含有难治性归一化常数。在这种情况下，斯坦因差异来避免归一化恒定的评估，并产生封闭形式或使用标准马尔可夫链蒙特卡罗的通用后出版物。在理论层面上，我们显示了一致性，渐近的正常性和偏见 - 稳健性，突出了这些物业如何受到斯坦因差异的选择。然后，我们提供关于一系列棘手分布的数值实验，包括基于内核的指数家庭模型和非高斯图形模型的应用。

translated by 谷歌翻译

Comparison of Markov chains via weak Poincaré inequalities with application to pseudo-marginal MCMC

Christophe Andrieu , Anthony Lee , Sam Power , Andi Q. Wang

分类：机器学习

2021-12-10

我们调查了一定类别的功能不等式，称为弱Poincar的不等式，以使Markov链的收敛性与均衡相结合。我们表明，这使得SubGoom测量收敛界的直接和透明的推导出用于独立的Metropolis - Hastings采样器和用于棘手似然性的伪边缘方法，后者在许多实际设置中是子表芯。这些结果依赖于马尔可夫链之间的新量化比较定理。相关证据比依赖于漂移/较小化条件的证据更简单，并且所开发的工具允许我们恢复并进一步延长特定情况的已知结果。我们能够为伪边缘算法的实际使用提供新的见解，分析平均近似贝叶斯计算（ABC）的效果以及独立平均值的产品，以及研究与之相关的逻辑重量的情况粒子边缘大都市 - 黑斯廷斯（PMMH）。

translated by 谷歌翻译

Bounding the error of discretized Langevin algorithms for non-strongly log-concave targets

Arnak S. Dalalyan , Avetik Karagulyan , Lionel Riou-Durand

分类：机器学习

2019-06-20

在本文中，我们在使用离散的Langevin扩散的三个方案中从目标密度采样的误差提供非渐近上限。第一个方案是Langevin Monte Carlo（LMC）算法，歌曲的欧拉分散化的歌曲扩散。第二个和第三种方案分别是用于可微分电位和动力学Langevin Monte Carlo的动力学Langevin Monte Carlo（KLMC），用于两次可分视电位（KLMC2）。主要焦点是在$ \ mathbb r ^ p $的目标密度上，但不一定强烈地抖动。在两种类型的平滑假设下获得计算复杂度的界限：电位具有嘴唇连续梯度，并且电位具有嘴角连续的Hessian基质。采样误差由Wassersein-$ Q $距离测量。我们倡导在计算复杂性定义中使用新的维度适应缩放，当考虑Wasserstein-$ Q $距离时。所获得的结果表明，实现小于规定值的缩放误差的迭代次数仅取决于多项尺寸。

translated by 谷歌翻译

Oracle Complexity in Nonsmooth Nonconvex Optimization

Guy Kornowski , Ohad Shamir

分类：机器学习

2021-04-14

众所周知，给定顺滑，界限 - 下面，并且可能的非透露函数，标准梯度的方法可以找到$ \ epsilon $ -stationary积分（渐变范围小于$ \ epsilon $）$ \ mathcal {O}（1 / \ epsilon ^ 2）$迭代。然而，许多重要的非渗透优化问题，例如与培训现代神经网络相关的问题，本质上是不平衡的，使这些结果不适用。在本文中，我们研究了来自Oracle复杂性视点的非透射性优化，其中假设算法仅向各个点处的函数提供访问。我们提供两个主要结果：首先，我们考虑越近$ \ epsilon $ -storationary积分的问题。这也许是找到$ \ epsilon $ -storationary积分的最自然的放松，这在非对象案例中是不可能的。我们证明，对于任何距离和epsilon $小于某些常数，无法有效地实现这种轻松的目标。我们的第二次结果涉及通过减少到平滑的优化来解决非光度非渗透优化的可能性：即，在光滑的近似值对目标函数的平滑近似下应用平滑的优化方法。对于这种方法，我们在温和的假设下证明了oracle复杂性和平滑度之间的固有权衡：一方面，可以非常有效地平滑非光滑非凸函数（例如，通过随机平滑），但具有尺寸依赖性因子在平滑度参数中，在插入标准平滑优化方法时，这会强烈影响迭代复杂性。另一方面，可以用合适的平滑方法消除这些尺寸因子，而是仅通过使平滑过程的Oracle复杂性呈指数大。

translated by 谷歌翻译

Strong identifiability and parameter learning in regression with heterogeneous response

Dat Do , Linh Do , XuanLong Nguyen

分类： (统计)机器学习

2022-12-08

Mixtures of regression are a powerful class of models for regression learning with respect to a highly uncertain and heterogeneous response variable of interest. In addition to being a rich predictive model for the response given some covariates, the parameters in this model class provide useful information about the heterogeneity in the data population, which is represented by the conditional distributions for the response given the covariates associated with a number of distinct but latent subpopulations. In this paper, we investigate conditions of strong identifiability, rates of convergence for conditional density and parameter estimation, and the Bayesian posterior contraction behavior arising in finite mixture of regression models, under exact-fitted and over-fitted settings and when the number of components is unknown. This theory is applicable to common choices of link functions and families of conditional distributions employed by practitioners. We provide simulation studies and data illustrations, which shed some light on the parameter learning behavior found in several popular regression mixture models reported in the literature.

translated by 谷歌翻译

The Lasso with general Gaussian designs with applications to hypothesis testing

Michael Celentano , Andrea Montanari , Yuting Wei

分类：机器学习 | (统计)机器学习

2020-07-27

套索是一种高维回归的方法，当时，当协变量$ p $的订单数量或大于观测值$ n $时，通常使用它。由于两个基本原因，经典的渐近态性理论不适用于该模型：$（1）$正规风险是非平滑的； $（2）$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果，标准的扰动论点是渐近正态性的传统基础。另一方面，套索估计器可以精确地以$ n $和$ p $大，$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量：在这里，我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限，它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序，我们研究了借助拉索的分布，并表明需要校正程度对于计算有效的置信区间是必要的。

translated by 谷歌翻译

Uniform Convergence of Interpolators: Gaussian Width, Norm Bounds, and Benign Overfitting

Frederic Koehler , Lijia Zhou , Danica J. Sutherland , Nathan Srebro

分类： (统计)机器学习 | 机器学习

2021-06-17

我们考虑与高斯数据的高维线性回归中的插值学习，并在类高斯宽度方面证明了任意假设类别中的内插器的泛化误差。将通用绑定到欧几里德常规球恢复了Bartlett等人的一致性结果。（2020）对于最小规范内插器，并确认周等人的预测。（2020）在高斯数据的特殊情况下，对于近乎最小常态的内插器。我们通过将其应用于单位来证明所界限的一般性，从而获得最小L1-NORM Interpoolator（基础追踪）的新型一致性结果。我们的结果表明，基于规范的泛化界限如何解释并用于分析良性过度装备，至少在某些设置中。

translated by 谷歌翻译

Statistical Inference with Stochastic Gradient Algorithms

Jeffrey Negrea , Jun Yang , Haoyue Feng , Daniel M. Roy , Jonathan H. Huggins

分类：机器学习 | (统计)机器学习

2022-07-25

随机梯度算法在大规模学习和推理问题中广泛用于优化和采样。但是，实际上，调整这些算法通常是使用启发式和反复试验而不是严格的，可概括的理论来完成的。为了解决理论和实践之间的这一差距，我们通过表征具有固定步长的非常通用的预处理随机梯度算法的迭代术的大样本行为来对调整参数的效果进行新的见解。在优化设置中，我们的结果表明，具有较大固定步长的迭代平均值可能会导致（局部）M-静态器的统计效率近似。在抽样环境中，我们的结果表明，通过适当的调整参数选择，限制固定协方差可以与Bernstein匹配 - 后验的von Mises限制，对模型错误指定后验的调整或MLE的渐近分布；而幼稚的调整极限与这些都不相对应。此外，我们认为可以在数据集对固定数量的通行证后获得基本独立的样本。我们使用模拟和真实数据通过多个实验来验证渐近样结果。总体而言，我们证明具有恒定步长的正确调整的随机梯度算法为获得点估计或后部样品提供了计算上有效且统计上健壮的方法。

translated by 谷歌翻译

Quasi-Bayesian Dual Instrumental Variable Regression

Ziyu Wang , Yuhao Zhou , Tongzheng Ren , Jun Zhu

分类： (统计)机器学习 | 机器学习

2021-06-16

近年来目睹了采用灵活的机械学习模型进行乐器变量（IV）回归的兴趣，但仍然缺乏不确定性量化方法的发展。在这项工作中，我们为IV次数回归提出了一种新的Quasi-Bayesian程序，建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率，并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法，可以扩展到与宽神经网络模型一起工作。实证评价表明，我们的方法对复杂的高维问题产生了丰富的不确定性估计。

translated by 谷歌翻译

Three rates of convergence or separation via U-statistics in a dependent framework

Quentin Duchemin , Yohann De Castro , Claire Lacour

分类： (统计)机器学习

2021-06-24

尽管U统计量在现代概率和统计学中存在着无处不在的，但其在依赖框架中的非反应分析可能被忽略了。在最近的一项工作中，已经证明了对统一的马尔可夫链的U级统计数据的新浓度不平等。在本文中，我们通过在三个不同的研究领域中进一步推动了当前知识状态，将这一理论突破付诸实践。首先，我们为使用MCMC方法估算痕量类积分运算符光谱的新指数不平等。新颖的是，这种结果适用于具有正征和负征值的内核，据我们所知，这是新的。此外，我们研究了使用成对损失函数和马尔可夫链样品的在线算法的概括性能。我们通过展示如何从任何在线学习者产生的假设序列中提取低风险假设来提供在线到批量转换结果。我们最终对马尔可夫链的不变度度量的密度进行了拟合优度测试的非反应分析。我们确定了一些类别的替代方案，基于$ L_2 $距离的测试具有规定的功率。

translated by 谷歌翻译

On minimax density estimation via measure transport

Sven Wang , Youssef Marzouk

分类： (统计)机器学习

2022-07-20

我们研究基于度量传输的非参数密度估计器的收敛性和相关距离。这些估计量代表了利息的度量，作为传输图下选择的参考分布的推动力，其中地图是通过最大似然目标选择（等效地，将经验性的kullback-leibler损失）或其受惩罚版本选择。我们通过将M估计的技术与基于运输的密度表示的分析性能相结合，为一般惩罚措施估计量的一般类别的措施运输估计器建立了浓度不平等。然后，我们证明了我们的理论对三角形knothe-rosenblatt（kr）在$ d $维单元方面的运输的含义，并表明该估计器的惩罚和未化的版本都达到了Minimax最佳收敛速率，超过了H \ \ \'“较旧的密度类别。具体来说，我们建立了在有限的h \“较旧型球上，未确定的非参数最大似然估计，然后在某些sobolev-penalate的估计器和筛分的小波估计器中建立了最佳速率。

translated by 谷歌翻译

On the Statistical Complexity of Sample Amplification

Brian Axelrod , Shivam Garg , Yanjun Han , Vatsal Sharan , Gregory Valiant

分类：机器学习

2022-01-12

鉴于$ n $ i.i.d.从未知的分发$ P $绘制的样本，何时可以生成更大的$ n + m $ samples，这些标题不能与$ n + m $ i.i.d区别区别。从$ p $绘制的样品？（AXELROD等人2019）将该问题正式化为样本放大问题，并为离散分布和高斯位置模型提供了最佳放大程序。然而，这些程序和相关的下限定制到特定分布类，对样本扩增的一般统计理解仍然很大程度上。在这项工作中，我们通过推出通常适用的放大程序，下限技术和与现有统计概念的联系来放置对公司统计基础的样本放大问题。我们的技术适用于一大类分布，包括指数家庭，并在样本放大和分配学习之间建立严格的联系。

translated by 谷歌翻译

A Non-Asymptotic Framework for Approximate Message Passing in Spiked Models

Gen Li , Yuting Wei

分类：机器学习 | (统计)机器学习

2022-08-05

近似消息传递（AMP）是解决高维统计问题的有效迭代范式。但是，当迭代次数超过$ o \ big（\ frac {\ log n} {\ log log \ log \ log n} \时big）$（带有$ n $问题维度）。为了解决这一不足，本文开发了一个非吸附框架，用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项，我们布置了一个分析配方，以表征在存在独立初始化的情况下AMP的有限样本行为，该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果：（i）求解$ \ mathbb {z} _2 $同步时，我们预测了频谱初始化AMP的行为，最高为$ o \ big（\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big）$迭代，表明该算法成功而无需随后的细化阶段（如最近由\ citet {celentano2021local}推测）; （ii）我们表征了稀疏PCA中AMP的非反应性行为（在尖刺的Wigner模型中），以广泛的信噪比。

translated by 谷歌翻译

On lower bounds for the bias-variance trade-off

Alexis Derumigny , Johannes Schmidt-Hieber

分类： (统计)机器学习

2020-05-30

对于高维和非参数统计模型，速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到，但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略，以获得对任何估计方差的下限，偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的，并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限，用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中，将抽象的下限应用于几种统计模型，包括高斯白噪声模型，边界估计问题，高斯序列模型和高维线性回归模型。对于这些特定的统计应用，发生不同类型的偏差差异发生，其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡，我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动，以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中，发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用，但是平方偏差的速率和方差不必平衡以实现最小估计速率。

translated by 谷歌翻译

Convergence and Complexity of Stochastic Block Majorization-Minimization

Hanbaek Lyu

分类：机器学习 | (统计)机器学习

2022-01-05

随机多变最小化 - 最小化（SMM）是大多数变化最小化的经典原则的在线延伸，这包括采样I.I.D。来自固定数据分布的数据点，并最小化递归定义的主函数的主要替代。在本文中，我们引入了随机块大大化 - 最小化，其中替代品现在只能块多凸，在半径递减内的时间优化单个块。在SMM中的代理人放松标准的强大凸起要求，我们的框架在内提供了更广泛的适用性，包括在线CANDECOMP / PARAFAC（CP）字典学习，并且尤其是当问题尺寸大时产生更大的计算效率。我们对所提出的算法提供广泛的收敛性分析，我们在可能的数据流下派生，放松标准i.i.d。对数据样本的假设。我们表明，所提出的算法几乎肯定会收敛于速率$ O（（\ log n）^ {1+ \ eps} / n ^ {1/2}）$的约束下的非凸起物镜的静止点集合。实证丢失函数和$ O（（\ log n）^ {1+ \ eps} / n ^ {1/4}）$的预期丢失函数，其中$ n $表示处理的数据样本数。在一些额外的假设下，后一趋同率可以提高到$ o（（\ log n）^ {1+ \ eps} / n ^ {1/2}）$。我们的结果为一般马尔维亚数据设置提供了各种在线矩阵和张量分解算法的第一融合率界限。

translated by 谷歌翻译