智能论文笔记

RIGID: Robust Linear Regression with Missing Data

Alireza Aghasi , MohammadJavad Feizollahi , Saeed Ghadimi

分类：机器学习

2022-05-26

我们提出了一个强大的框架，以执行线性回归，而功能中缺少条目。通过考虑椭圆形数据分布，特别是多元正常模型，我们能够为缺失条目制定分布并提出一个强大的框架，这最大程度地减少了由于缺失数据的不确定性而造成的最严重的情况。我们表明，所提出的公式自然考虑了不同变量之间的依赖性，最终减少了凸面程序，可以为其提供自定义和可扩展的求解器。除了提供此类求解器的详细分析外，我们还渐近地分析了所提出的框架的行为，并进行了技术讨论以估算所需的输入参数。我们通过对合成，半合成和真实数据进行的实验进行补充，并展示提出的配方如何提高预测准确性和鲁棒性，并优于竞争技术。

translated by 谷歌翻译

The Lasso with general Gaussian designs with applications to hypothesis testing

Michael Celentano , Andrea Montanari , Yuting Wei

分类：机器学习 | (统计)机器学习

2020-07-27

套索是一种高维回归的方法，当时，当协变量$ p $的订单数量或大于观测值$ n $时，通常使用它。由于两个基本原因，经典的渐近态性理论不适用于该模型：$（1）$正规风险是非平滑的； $（2）$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果，标准的扰动论点是渐近正态性的传统基础。另一方面，套索估计器可以精确地以$ n $和$ p $大，$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量：在这里，我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限，它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序，我们研究了借助拉索的分布，并表明需要校正程度对于计算有效的置信区间是必要的。

translated by 谷歌翻译

The curse of overparametrization in adversarial training: Precise analysis of robust generalization for random features regression

Hamed Hassani , Adel Javanmard

分类：机器学习 | (统计)机器学习

2022-01-13

成功的深度学习模型往往涉及培训具有比训练样本数量更多的参数的神经网络架构。近年来已经广泛研究了这种超分子化的模型，并且通过双下降现象和通过优化景观的结构特性，从统计的角度和计算视角都建立了过分统计化的优点。尽管在过上分层的制度中深入学习架构的显着成功，但也众所周知，这些模型对其投入中的小对抗扰动感到高度脆弱。即使在普遍培训的情况下，它们在扰动输入（鲁棒泛化）上的性能也会比良性输入（标准概括）的最佳可达到的性能更糟糕。因此，必须了解如何从根本上影响稳健性的情况下如何影响鲁棒性。在本文中，我们将通过专注于随机特征回归模型（具有随机第一层权重的两层神经网络）来提供超分度化对鲁棒性的作用的精确表征。我们考虑一个制度，其中样本量，输入维度和参数的数量彼此成比例地生长，并且当模型发生前列地训练时，可以为鲁棒泛化误差导出渐近精确的公式。我们的发达理论揭示了过分统计化对鲁棒性的非竞争效果，表明对于普遍训练的随机特征模型，高度公正化可能会损害鲁棒泛化。

translated by 谷歌翻译

FuDGE: A Method to Estimate a Functional Differential Graph in a High-Dimensional Setting

Boxin Zhao , Y. Samuel Wang , Mladen Kolar

分类： (统计)机器学习 | 机器学习

2020-03-11

我们考虑使用共享结构估算两个功能无向图形模型之间的差异的问题。在许多应用中，数据自然被认为是随机函数的向量而不是标量的矢量。例如，脑电图（EEG）数据更适当地被视为时间函数。在这样的问题中，不仅可以每个样本测量的函数数量大，而且每个功能都是自身是无限尺寸对象，使估计模型参数具有挑战性。这进一步复杂于曲线通常仅在离散时间点观察到。我们首先定义一个功能差异图，捕获两个功能图形模型之间的差异，并在功能性差分图定义良好时正式表征。然后，我们提出了一种方法，软件，直接估计功能差异图，而不首先估计每个图形。这在各个图形是密集的情况下，这是特别有益的，但差分图是稀疏的。我们表明，融合始终估计功能差图，即使在全面观察和离散的功能路径的高维设置中也是如此。我们通过仿真研究说明了我们方法的有限样本性质。我们还提出了一种竞争方法，该方法是关节功能图形套索，它概括了关节图形套索到功能设置。最后，我们将我们的方法应用于EEG数据，以揭示一群含有酒精使用障碍和对照组的个体之间的功能性脑连接的差异。

translated by 谷歌翻译

Clustering a Mixture of Gaussians with Unknown Covariance

Damek Davis , Mateo Díaz , Kaizheng Wang

分类： (统计)机器学习 | 机器学习

2021-10-04

我们调查与高斯的混合的数据分享共同但未知，潜在虐待协方差矩阵的数据。我们首先考虑具有两个等级大小的组件的高斯混合，并根据最大似然估计导出最大切割整数程序。当样品的数量在维度下线性增长时，我们证明其解决方案实现了最佳的错误分类率，直到对数因子。但是，解决最大切割问题似乎是在计算上棘手的。为了克服这一点，我们开发了一种高效的频谱算法，该算法达到最佳速率，但需要一种二次样本量。虽然这种样本复杂性比最大切割问题更差，但我们猜测没有多项式方法可以更好地执行。此外，我们收集了支持统计计算差距存在的数值和理论证据。最后，我们将MAX-CUT程序概括为$ k $ -means程序，该程序处理多组分混合物的可能性不平等。它享有相似的最优性保证，用于满足运输成本不平等的分布式的混合物，包括高斯和强烈的对数的分布。

translated by 谷歌翻译

Asymptotics of Network Embeddings Learned via Subsampling

Andrew Davison , Morgane Austern

分类： (统计)机器学习 | 机器学习

2021-07-06

Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.

translated by 谷歌翻译

Modelling High-Dimensional Categorical Data Using Nonconvex Fusion Penalties

Benjamin G. Stokell , Rajen D. Shah , Ryan J. Tibshirani

分类： (统计)机器学习

2020-02-28

我们提出了一种估计具有标称分类数据的高维线性模型的方法。我们的估算器，称为范围，通过使其相应的系数完全相等来融合水平。这是通过对分类变量的系数的阶数统计之间的差异之间的差异来实现这一点，从而聚类系数。我们提供了一种算法，用于精确和有效地计算在具有潜在许多级别的单个变量的情况下的总体上的最小值的全局最小值，并且在多变量情况下在块坐标血管下降过程中使用它。我们表明，利用未知级别融合的Oracle最小二乘解决方案是具有高概率的坐标血缘的极限点，只要真正的级别具有一定的最小分离;已知这些条件在单变量案例中最小。我们展示了在一系列实际和模拟数据集中的范围的有利性能。 R包的R包Catreg实现线性模型的范围，也可以在CRAN上提供逻辑回归的版本。

translated by 谷歌翻译

High Dimensional Statistical Estimation under Uniformly Dithered One-bit Quantization

Junren Chen , Cheng-Long Wang , Michael K. Ng , Di Wang

分类： (统计)机器学习 | 机器学习

2022-02-26

在本文中，我们提出了一种均匀抖动的一位量化方案，以进行高维统计估计。该方案包含截断，抖动和量化，作为典型步骤。作为规范示例，量化方案应用于三个估计问题：稀疏协方差矩阵估计，稀疏线性回归和矩阵完成。我们研究了高斯和重尾政权，假定重尾数据的基本分布具有有限的第二或第四刻。对于每个模型，我们根据一位量化的数据提出新的估计器。在高斯次级政权中，我们的估计器达到了对数因素的最佳最小速率，这表明我们的量化方案几乎没有额外的成本。在重尾状态下，虽然我们的估计量基本上变慢，但这些结果是在这种单位量化和重型尾部设置中的第一个结果，或者比现有可比结果表现出显着改善。此外，我们为一位压缩传感和一位矩阵完成的问题做出了巨大贡献。具体而言，我们通过凸面编程将一位压缩感传感扩展到次高斯甚至是重尾传感向量。对于一位矩阵完成，我们的方法与标准似然方法基本不同，并且可以处理具有未知分布的预量化随机噪声。提出了有关合成数据的实验结果，以支持我们的理论分析。

translated by 谷歌翻译

Tight bounds for minimum l1-norm interpolation of noisy data

Guillaume Wang , Konstantin Donhauser , Fanny Yang

分类：机器学习 | (统计)机器学习

2021-11-10

我们提供匹配的Under $ \ sigma ^ 2 / \ log（d / n）$的匹配的上下界限为最低$ \ ell_1 $ -norm插值器，a.k.a.基础追踪。我们的结果紧紧达到可忽略的术语，而且是第一个暗示噪声最小范围内插值的渐近一致性，因为各向同性特征和稀疏的地面真理。我们的工作对最低$ \ ell_2 $ -norm插值的“良性接收”进行了补充文献，其中才能在特征有效地低维时实现渐近一致性。

translated by 谷歌翻译

Noise Covariance Estimation in Multi-Task High-dimensional Linear Models

Kai Tan , Gabriel Romon , Pierre C Bellec

分类： (统计)机器学习

2022-06-15

本文研究了多任务高维线性回归模型，其中不同任务之间的噪声是相关的，在中等高的维度状态下，样本量$ n $和dimension $ p $是相同的订单。我们的目标是估计噪声随机向量的协方差矩阵，或等效地在任何两个任务上的噪声变量的相关性。将回归系数视为滋扰参数，我们利用多任务弹性网络和多任务套索估计器来估计滋扰。通过准确理解平方残留矩阵的偏置并纠正这种偏见，我们开发了一个新颖的噪声协方差估计器，该噪声协方差以frobenius norm的收敛，以$ n^{ - 1/2} $为$ n^{ - 1/2} $。这个新颖的估计器是有效的计算。在适当的条件下，提出的噪声协方差估计器的收敛速率与事先知道多任务模型回归系数的“甲骨文”估计器相同。本文获得的FROBENIUS误差界限还说明了该新估计量的优势，而不是试图估计滋扰的方法估计器。作为我们技术的副产品，我们获得了多任务弹性NET和多任务套索估计器的概括误差的估计。进行了广泛的仿真研究，以说明该方法的数值性能。

translated by 谷歌翻译

Dimension-agnostic inference using cross U-statistics

Ilmun Kim , Aaditya Ramdas

分类： (统计)机器学习

2020-11-10

Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.

translated by 谷歌翻译

A Non-Asymptotic Framework for Approximate Message Passing in Spiked Models

Gen Li , Yuting Wei

分类：机器学习 | (统计)机器学习

2022-08-05

近似消息传递（AMP）是解决高维统计问题的有效迭代范式。但是，当迭代次数超过$ o \ big（\ frac {\ log n} {\ log log \ log \ log n} \时big）$（带有$ n $问题维度）。为了解决这一不足，本文开发了一个非吸附框架，用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项，我们布置了一个分析配方，以表征在存在独立初始化的情况下AMP的有限样本行为，该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果：（i）求解$ \ mathbb {z} _2 $同步时，我们预测了频谱初始化AMP的行为，最高为$ o \ big（\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big）$迭代，表明该算法成功而无需随后的细化阶段（如最近由\ citet {celentano2021local}推测）; （ii）我们表征了稀疏PCA中AMP的非反应性行为（在尖刺的Wigner模型中），以广泛的信噪比。

translated by 谷歌翻译

Meta Learning for High-dimensional Ising Model Selection Using $\ell_1$-regularized Logistic Regression

Huiming Xie , Jean Honorio

分类：机器学习

2022-08-19

在本文中，我们考虑了使用$ \ ell_1 $ regularized logistic回归的方法来估算与高维iSing模型相关的图形的元学习问题，用于每个节点的邻域选择。我们的目标是在学习新任务中使用从辅助任务中学到的信息来降低其足够的样本复杂性。为此，我们提出了一种新颖的生成模型以及不当的估计方法。在我们的设置中，所有任务均为\ emph {相似}在其\ emph {Random}模型参数和支持中。通过将所有样品从辅助任务汇总到\ emph {不正确}估计一个参数向量，我们可以恢复假定的尺寸很小的真实支持联合，具有很高的概率，具有足够的样品复杂性为$ \ omega（1） $每任务，对于$ k = \ omega（d^3 \ log P）$具有$ p $节点和最大邻域大小$ d $的ISING型号的任务。然后，在对新任务的支持仅限于估计的支持联盟的支持下，我们证明，可以通过降低$ \ omega（d^3 \ log d）$的足够样品复杂性来获得新任务的一致邻居选择。

translated by 谷歌翻译

Exact Matrix Completion via Convex Optimization

Emmanuel J. Candes , Benjamin Recht

分类：

2008-05-29

We consider a problem of considerable practical interest: the recovery of a data matrix from a sampling of its entries. Suppose that we observe m entries selected uniformly at random from a matrix M . Can we complete the matrix and recover the entries that we have not seen?We show that one can perfectly recover most low-rank matrices from what appears to be an incomplete set of entries. We prove that if the number m of sampled entries obeys m ≥ C n 1.2 r log n for some positive numerical constant C, then with very high probability, most n × n matrices of rank r can be perfectly recovered by solving a simple convex optimization program. This program finds the matrix with minimum nuclear norm that fits the data. The condition above assumes that the rank is not too large. However, if one replaces the 1.2 exponent with 1.25, then the result holds for all values of the rank. Similar results hold for arbitrary rectangular matrices as well. Our results are connected with the recent literature on compressed sensing, and show that objects other than signals and images can be perfectly reconstructed from very limited information.

translated by 谷歌翻译

Gaining Outlier Resistance with Progressive Quantiles: Fast Algorithms and Theoretical Studies

Yiyuan She , Zhifeng Wang , Jiahui Shen

分类： (统计)机器学习

2021-12-15

异常值广泛发生在大数据应用中，可能严重影响统计估计和推理。在本文中，引入了抗强估计的框架，以强制任意给出的损耗函数。它与修剪方法密切连接，并且包括所有样本的显式外围参数，这反过来促进计算，理论和参数调整。为了解决非凸起和非体性的问题，我们开发可扩展的算法，以实现轻松和保证快速收敛。特别地，提出了一种新的技术来缓解对起始点的要求，使得在常规数据集上，可以大大减少数据重采样的数量。基于组合的统计和计算处理，我们能够超越M估计来执行非因思分析。所获得的抗性估算器虽然不一定全局甚至是局部最佳的，但在低维度和高维度中享有最小的速率最优性。回归，分类和神经网络的实验表明，在总异常值发生的情况下提出了拟议方法的优异性能。

translated by 谷歌翻译

Retire: Robust Expectile Regression in High Dimensions

Rebeka Man , Kean Ming Tan , Zian Wang , Wen-Xin Zhou

分类： (统计)机器学习

2022-12-11

High-dimensional data can often display heterogeneity due to heteroscedastic variance or inhomogeneous covariate effects. Penalized quantile and expectile regression methods offer useful tools to detect heteroscedasticity in high-dimensional data. The former is computationally challenging due to the non-smooth nature of the check loss, and the latter is sensitive to heavy-tailed error distributions. In this paper, we propose and study (penalized) robust expectile regression (retire), with a focus on iteratively reweighted $\ell_1$-penalization which reduces the estimation bias from $\ell_1$-penalization and leads to oracle properties. Theoretically, we establish the statistical properties of the retire estimator under two regimes: (i) low-dimensional regime in which $d \ll n$; (ii) high-dimensional regime in which $s\ll n\ll d$ with $s$ denoting the number of significant predictors. In the high-dimensional setting, we carefully characterize the solution path of the iteratively reweighted $\ell_1$-penalized retire estimation, adapted from the local linear approximation algorithm for folded-concave regularization. Under a mild minimum signal strength condition, we show that after as many as $\log(\log d)$ iterations the final iterate enjoys the oracle convergence rate. At each iteration, the weighted $\ell_1$-penalized convex program can be efficiently solved by a semismooth Newton coordinate descent algorithm. Numerical studies demonstrate the competitive performance of the proposed procedure compared with either non-robust or quantile regression based alternatives.

translated by 谷歌翻译

Learning curves of generic features maps for realistic datasets with a teacher-student model

Bruno Loureiro , Cédric Gerbelot , Hugo Cui , Sebastian Goldt , Florent Krzakala , Marc Mézard , Lenka Zdeborová

分类： (统计)机器学习 | 机器学习

2021-02-16

教师 - 学生模型提供了一个框架，其中可以以封闭形式描述高维监督学习的典型情况。高斯I.I.D的假设然而，可以认为典型教师 - 学生模型的输入数据可以被认为过于限制，以捕获现实数据集的行为。在本文中，我们介绍了教师和学生可以在不同的空格上行动的模型的高斯协变态概括，以固定的，而是通用的特征映射。虽然仍处于封闭形式的仍然可解决，但这种概括能够捕获广泛的现实数据集的学习曲线，从而兑现师生框架的潜力。我们的贡献是两倍：首先，我们证明了渐近培训损失和泛化误差的严格公式。其次，我们呈现了许多情况，其中模型的学习曲线捕获了使用内核回归和分类学习的现实数据集之一，其中盒出开箱特征映射，例如随机投影或散射变换，或者与散射变换预先学习的 - 例如通过培训多层神经网络学到的特征。我们讨论了框架的权力和局限性。

translated by 谷歌翻译

Optimistic Rates: A Unifying Theory for Interpolation Learning and Regularization in Linear Regression

Lijia Zhou , Frederic Koehler , Danica J. Sutherland , Nathan Srebro

分类： (统计)机器学习 | 机器学习

2021-12-08

我们研究了称为“乐观速率”（Panchenko 2002; Srebro等，2010）的统一收敛概念，用于与高斯数据的线性回归。我们的精致分析避免了现有结果中的隐藏常量和对数因子，这已知在高维设置中至关重要，特别是用于了解插值学习。作为一个特殊情况，我们的分析恢复了Koehler等人的保证。（2021年），在良性过度的过度条件下，严格地表征了低规范内插器的人口风险。但是，我们的乐观速度绑定还分析了具有任意训练错误的预测因子。这使我们能够在随机设计下恢复脊和套索回归的一些经典统计保障，并有助于我们在过度参数化制度中获得精确了解近端器的过度风险。

translated by 谷歌翻译

The Performance of Wasserstein Distributionally Robust M-Estimators in High Dimensions

Liviu Aolaritei , Soroosh Shafieezadeh-Abadeh , Florian Dörfler

分类： (统计)机器学习 | 机器学习

2022-06-27

Wasserstein的分布在强大的优化方面已成为强大估计的有力框架，享受良好的样本外部性能保证，良好的正则化效果以及计算上可易处理的双重重新纠正。在这样的框架中，通过将最接近经验分布的所有概率分布中最接近的所有概率分布中最小化的最差预期损失来最大程度地减少估计量。在本文中，我们提出了一个在噪声线性测量中估算未知参数的Wasserstein分布稳定的M估计框架，我们专注于分析此类估计器的平方误差性能的重要且具有挑战性的任务。我们的研究是在现代的高维比例状态下进行的，在该状态下，环境维度和样品数量都以相对的速度进行编码，该速率以编码问题的下/过度参数化的比例。在各向同性高斯特征假设下，我们表明可以恢复平方误差作为凸 - 串联优化问题的解，令人惊讶的是，它在最多四个标量变量中都涉及。据我们所知，这是在Wasserstein分布强劲的M估计背景下研究此问题的第一项工作。

translated by 谷歌翻译

Online Statistical Inference for Stochastic Optimization via Gradient-free Kiefer-Wolfowitz Methods

Xi Chen , Zehua Lai , He Li , Yichen Zhang

分类： (统计)机器学习

2021-02-05

在本文中，我们通过随机搜索方向的Kiefer-Wolfowitz算法调查了随机优化问题模型参数的统计参数问题。我们首先介绍了Polyak-ruppert-veriving型Kiefer-Wolfowitz（AKW）估计器的渐近分布，其渐近协方差矩阵取决于函数查询复杂性和搜索方向的分布。分布结果反映了统计效率与函数查询复杂性之间的权衡。我们进一步分析了随机搜索方向的选择来最小化渐变协方差矩阵，并得出结论，最佳搜索方向取决于相对于Fisher信息矩阵的不同摘要统计的最优标准。根据渐近分布结果，我们通过提供两个有效置信区间的结构进行一次通过统计推理。我们提供了验证我们的理论结果的数值实验，并通过程序的实际效果。

translated by 谷歌翻译