智能论文笔记

Improving Group Lasso for high-dimensional categorical data

Szymon Nowakowski , Piotr Pokarowski , Wojciech Rejchel , Agnieszka Sołtys

分类： (统计)机器学习

2022-10-25

Sparse modelling or model selection with categorical data is challenging even for a moderate number of variables, because one parameter is roughly needed to encode one category or level. The Group Lasso is a well known efficient algorithm for selection continuous or categorical variables, but all estimates related to a selected factor usually differ. Therefore, a fitted model may not be sparse, which makes the model interpretation difficult. To obtain a sparse solution of the Group Lasso we propose the following two-step procedure: first, we reduce data dimensionality using the Group Lasso; then to choose the final model we use an information criterion on a small family of models prepared by clustering levels of individual factors. We investigate selection correctness of the algorithm in a sparse high-dimensional scenario. We also test our method on synthetic as well as real datasets and show that it performs better than the state of the art algorithms with respect to the prediction accuracy or model dimension.

translated by 谷歌翻译

Modelling High-Dimensional Categorical Data Using Nonconvex Fusion Penalties

Benjamin G. Stokell , Rajen D. Shah , Ryan J. Tibshirani

分类： (统计)机器学习

2020-02-28

我们提出了一种估计具有标称分类数据的高维线性模型的方法。我们的估算器，称为范围，通过使其相应的系数完全相等来融合水平。这是通过对分类变量的系数的阶数统计之间的差异之间的差异来实现这一点，从而聚类系数。我们提供了一种算法，用于精确和有效地计算在具有潜在许多级别的单个变量的情况下的总体上的最小值的全局最小值，并且在多变量情况下在块坐标血管下降过程中使用它。我们表明，利用未知级别融合的Oracle最小二乘解决方案是具有高概率的坐标血缘的极限点，只要真正的级别具有一定的最小分离;已知这些条件在单变量案例中最小。我们展示了在一系列实际和模拟数据集中的范围的有利性能。 R包的R包Catreg实现线性模型的范围，也可以在CRAN上提供逻辑回归的版本。

translated by 谷歌翻译

Supervised Multivariate Learning with Simultaneous Feature Auto-grouping and Dimension Reduction

Yiyuan She , Jiahui Shen , Chao Zhang

分类： (统计)机器学习 | 机器学习

2021-12-17

现代高维方法经常采用“休稀稀物”的原则，而在监督多元学习统计学中可能面临着大量非零系数的“密集”问题。本文提出了一种新的聚类减少秩（CRL）框架，其施加了两个联合矩阵规范化，以自动分组构建预测因素的特征。 CRL比低级别建模更具可解释，并放松变量选择中的严格稀疏假设。在本文中，提出了新的信息 - 理论限制，揭示了寻求集群的内在成本，以及多元学习中的维度的祝福。此外，开发了一种有效的优化算法，其执行子空间学习和具有保证融合的聚类。所获得的定点估计器虽然不一定是全局最佳的，但在某些规则条件下享有超出标准似然设置的所需的统计准确性。此外，提出了一种新的信息标准，以及其无垢形式，用于集群和秩选择，并且具有严格的理论支持，而不假设无限的样本大小。广泛的模拟和实数据实验证明了所提出的方法的统计准确性和可解释性。

translated by 谷歌翻译

On LASSO for High Dimensional Predictive Regression

Ziwei Mei , Zhentao Shi

分类： (统计)机器学习

2022-12-14

In a high dimensional linear predictive regression where the number of potential predictors can be larger than the sample size, we consider using LASSO, a popular L1-penalized regression method, to estimate the sparse coefficients when many unit root regressors are present. Consistency of LASSO relies on two building blocks: the deviation bound of the cross product of the regressors and the error term, and the restricted eigenvalue of the Gram matrix of the regressors. In our setting where unit root regressors are driven by temporal dependent non-Gaussian innovations, we establish original probabilistic bounds for these two building blocks. The bounds imply that the rates of convergence of LASSO are different from those in the familiar cross sectional case. In practical applications given a mixture of stationary and nonstationary predictors, asymptotic guarantee of LASSO is preserved if all predictors are scale-standardized. In an empirical example of forecasting the unemployment rate with many macroeconomic time series, strong performance is delivered by LASSO when the initial specification is guided by macroeconomic domain expertise.

translated by 谷歌翻译

Cluster Stability Selection

Gregory Faletto , Jacob Bien

分类： (统计)机器学习

2022-01-03

稳定性选择（Meinshausen和Buhlmann，2010）通过返回许多副页面一致选择的功能来使任何特征选择方法更稳定。我们证明（在我们的知识中，它的知识，它的第一个结果），对于包含重要潜在变量的高度相关代理的数据，套索通常选择一个代理，但与套索的稳定性选择不能选择任何代理，导致比单独的套索更糟糕的预测性能。我们介绍集群稳定性选择，这利用了从业者的知识，即数据中存在高度相关的集群，从而产生比此设置中的稳定性选择更好的特征排名。我们考虑了几种特征组合方法，包括在每个重要集群中占据各个重要集群中的特征的加权平均值，其中重量由选择集群成员的频率决定，我们显示的是比以前的提案更好地导致更好的预测模型。我们呈现来自Meinshausen和Buhlmann（2010）和Shah和Samworth（2012）的理论担保的概括，以表明集群稳定选择保留相同的保证。总之，集群稳定性选择享有两个世界的最佳选择，产生既稳定的稀疏选择集，具有良好的预测性能。

translated by 谷歌翻译

A Cross Validation framework for Signal Denoising with Applications to Trend Filtering, Dyadic CART and Beyond

Anamitra Chaudhuri , Sabyasachi Chatterjee

分类： (统计)机器学习

2022-01-07

本文为信号去噪提供了一般交叉验证框架。然后将一般框架应用于非参数回归方法，例如趋势过滤和二元推车。然后显示所得到的交叉验证版本以获得最佳调谐的类似物所熟知的几乎相同的收敛速度。没有任何先前的趋势过滤或二元推车的理论分析。为了说明框架的一般性，我们还提出并研究了两个基本估算器的交叉验证版本;套索用于高维线性回归和矩阵估计的奇异值阈值阈值。我们的一般框架是由Chatterjee和Jafarov（2015）的想法的启发，并且可能适用于使用调整参数的广泛估算方法。

translated by 谷歌翻译

Group selection and shrinkage: Structured sparsity for semiparametric models

Ryan Thompson , Farshid Vahid

分类： (统计)机器学习

2021-05-25

从多任务学习到稀疏的加性建模到分层选择，尊重群体结构的稀疏回归和分类估计器将其应用于各种统计和机器学习问题。这项工作引入了结构化稀疏估计器，将小组子集选择与收缩结合在一起。为了适应复杂的结构，我们的估计器允许组之间任意重叠。我们开发了一个优化框架，用于拟合非凸正则化表面并呈现有限样本误差界，以估计回归函数。作为一个需要结构的应用程序，我们研究了稀疏的半参数建模，该过程允许每个预测器的效果为零，线性或非线性。对于此任务，与替代方案相比，新的估计器对合成数据的几个指标有所改善。最后，我们证明了它们在使用许多预测因素的超市人流交通和经济衰退中建模的功效。这些演示表明，使用新估计量拟合的稀疏半参数模型是完全线性和完全非参数替代方案之间的出色折衷。我们所有的算法都可以在可扩展的实现GRPSEL中提供。

translated by 谷歌翻译

A Splicing Approach to Best Subset of Groups Selection

Yanhang Zhang , Junxian Zhu , Jin Zhu , Xueqin Wang

分类：机器学习 | (统计)机器学习

2021-04-23

组选择的最佳子集（BSG）是选择一小部分非重叠组以在响应变量上获得最佳解释性的过程。它吸引了越来越多的关注，并且在实践中具有深远的应用。但是，由于BSG在高维环境中的计算棘手性，开发用于解决BSGS的有效算法仍然是研究热点。在本文中，我们提出了一种划分的算法，该算法迭代地检测相关组并排除了无关的组。此外，再加上新的组信息标准，我们开发了一种自适应算法来确定最佳模型大小。在轻度条件下，我们的算法可以在多项式时间内以高概率确定组的最佳子集是可以证明的。最后，我们通过将它们与合成数据集和现实世界中的几种最新算法进行比较来证明我们的方法的效率和准确性。

translated by 谷歌翻译

High-Dimensional $L_2$Boosting: Rate of Convergence

Ye Luo , Martin Spindler , Jannis Kück

分类： (统计)机器学习 | 机器学习

2016-02-29

提升是机器学习中最重要的发展之一。本文研究了在高维环境中量身定制的$ l_2 $增强的收敛速度。此外，我们介绍了所谓的\ textquotedblleft后升后\ textquotedblright。这是一个选择后的估计器，将普通最小二乘适用于在第一阶段选择的变量，以$ l_2 $增强。另一个变体是\ textquotedblleft正交增强\ texquotedblright \，在每个步骤之后，进行正交投影。我们表明，$ L_2 $的提升和正交增强都在稀疏，高维的环境中达到与Lasso相同的收敛速度。我们表明，经典$ L_2 $增强的收敛速率取决于稀疏特征值常数所描述的设计矩阵。为了显示后者的结果，我们基于分析$ L_2 $增强的重新审视行为，为纯贪婪算法得出了新的近似结果。我们还引入了可行的早期停止规则，可以轻松地实施和使用应用程序。我们的结果还允许在文献中缺少Lasso和Boosting之间进行直接比较。最后，我们介绍了模拟研究和应用，以说明我们的理论结果的相关性，并提供对增强的实际方面的见解。在这些模拟研究中，$ L_2 $提升明显优于套索。

translated by 谷歌翻译

Subset Selection with Shrinkage: Sparse Linear Modeling when the SNR is low

Rahul Mazumder , Peter Radchenko , Antoine Dedieu

分类： (统计)机器学习

2017-08-10

在稀疏线性建模 - 最佳子集选择中，研究了一个看似意外的，相对不太理解的基本工具的过度选择，这最小化了对非零系数的约束的限制的剩余平方和。虽然当信噪比（SNR）高时，最佳子集选择过程通常被视为稀疏学习中的“黄金标准”，但是当SNR低时，其预测性能会恶化。特别是，它通过连续收缩方法而言，例如脊回归和套索。我们研究了高噪声制度中最佳子集选择的行为，并提出了一种基于最小二乘标准的正则化版本的替代方法。我们提出的估算员（a）在很大程度上减轻了高噪声制度的最佳次集选择的可预测性能差。（b）相对于通过脊回归和套索的最佳预测模型，通常递送大幅稀疏模型的同时表现出有利的。我们对所提出的方法的预测性质进行广泛的理论分析，并在噪声水平高时提供相对于最佳子集选择的优越预测性能的理由。我们的估算器可以表达为混合整数二阶圆锥优化问题的解决方案，因此，来自数学优化的现代计算工具可供使用。

translated by 谷歌翻译

Best Subset Selection in Reduced Rank Regression

Canhong Wen , Ruipeng Dong , Xueqin Wang , Weiyu Li , Heping Zhang

分类：机器学习

2022-11-29

Sparse reduced rank regression is an essential statistical learning method. In the contemporary literature, estimation is typically formulated as a nonconvex optimization that often yields to a local optimum in numerical computation. Yet, their theoretical analysis is always centered on the global optimum, resulting in a discrepancy between the statistical guarantee and the numerical computation. In this research, we offer a new algorithm to address the problem and establish an almost optimal rate for the algorithmic solution. We also demonstrate that the algorithm achieves the estimation with a polynomial number of iterations. In addition, we present a generalized information criterion to simultaneously ensure the consistency of support set recovery and rank estimation. Under the proposed criterion, we show that our algorithm can achieve the oracle reduced rank estimation with a significant probability. The numerical studies and an application in the ovarian cancer genetic data demonstrate the effectiveness and scalability of our approach.

translated by 谷歌翻译

Group structure estimation for panel data -- a general approach

Lu Yu , Jiaying Gu , Stanislav Volgushev

分类： (统计)机器学习

2022-01-05

考虑一个面板数据设置，其中可获得对个人的重复观察。通常可以合理地假设存在共享观察特征的类似效果的个体组，但是分组通常提前未知。我们提出了一种新颖的方法来估计普通面板数据模型的这种未观察到的分组。我们的方法明确地估计各个参数估计中的不确定性，并且在每个人上具有大量的个体和/或重复测量的计算可行。即使在单个数据不可用的情况下，也可以应用开发的想法，并且仅向研究人员提供参数估计与某种量化的不确定性。

translated by 谷歌翻译

Balancing Statistical and Computational Precision: A General Theory and Applications to Sparse Regression

Mahsa Taheri , Néhémy Lim , Johannes Lederer

分类： (统计)机器学习

2016-09-23

现代技术正在生成越来越多的数据。利用这些数据需要既有统计学上的声音又有效率的方法。通常，统计和计算方面会分别处理。在本文中，我们提出了一种在正规化估计的背景下纠缠这两个方面的方法。将我们的方法应用于稀疏和小组的回归，我们表明它可以在统计和计算上对标准管道进行改进。

translated by 谷歌翻译

Gaining Outlier Resistance with Progressive Quantiles: Fast Algorithms and Theoretical Studies

Yiyuan She , Zhifeng Wang , Jiahui Shen

分类： (统计)机器学习

2021-12-15

异常值广泛发生在大数据应用中，可能严重影响统计估计和推理。在本文中，引入了抗强估计的框架，以强制任意给出的损耗函数。它与修剪方法密切连接，并且包括所有样本的显式外围参数，这反过来促进计算，理论和参数调整。为了解决非凸起和非体性的问题，我们开发可扩展的算法，以实现轻松和保证快速收敛。特别地，提出了一种新的技术来缓解对起始点的要求，使得在常规数据集上，可以大大减少数据重采样的数量。基于组合的统计和计算处理，我们能够超越M估计来执行非因思分析。所获得的抗性估算器虽然不一定全局甚至是局部最佳的，但在低维度和高维度中享有最小的速率最优性。回归，分类和神经网络的实验表明，在总异常值发生的情况下提出了拟议方法的优异性能。

translated by 谷歌翻译

Variable Selection and Regularization via Arbitrary Rectangle-range Generalized Elastic Net

Yujia Ding , Qidi Peng , Zhengming Song , Hansen Chen

分类： (统计)机器学习 | 机器学习

2021-12-14

我们介绍了缩写为Argen的任意矩形范围广义弹性净罚分法，用于在高维稀疏线性模型中执行约束变量选择和正则化。作为非负弹性净惩罚方法的自然延伸，证明了在某些条件下具有可变选择一致性和估计一致性。研究了Argen估计器分布的渐近行为。我们还提出了一种称为MU-QP-RR-W-$ L_1 $的算法，以有效解决ARGEN。通过进行仿真研究，我们表明Argen在许多设置中优于弹性网。最后，执行S＆P 500 500指数跟踪对库存分配的限制的应用，以提供适应argen解决现实问题的一般指导。

translated by 谷歌翻译

A non-asymptotic approach for model selection via penalization in high-dimensional mixture of experts models

TrungTin Nguyen , Hien Duy Nguyen , Faicel Chamroukhi , Florence Forbes

分类：人工智能 | 机器学习 | (统计)机器学习

2021-04-06

专家（MOE）的混合是一种流行的统计和机器学习模型，由于其灵活性和效率，多年来一直引起关注。在这项工作中，我们将高斯门控的局部MOE（GLOME）和块对基因协方差局部MOE（Blome）回归模型在异质数据中呈现非线性关系，并在高维预测变量之间具有潜在的隐藏图形结构相互作用。这些模型从计算和理论角度提出了困难的统计估计和模型选择问题。本文致力于研究以混合成分数量，高斯平均专家的复杂性以及协方差矩阵的隐藏块 - 基因结构为特征的Glome或Blome模型集合中的模型选择问题。惩罚最大似然估计框架。特别是，我们建立了以弱甲骨文不平等的形式的非反应风险界限，但前提是罚款的下限。然后，在合成和真实数据集上证明了我们的模型的良好经验行为。

translated by 谷歌翻译

High-dimensional Inference for Dynamic Treatment Effects

Jelena Bradic , Weijie Ji , Yuqian Zhang

分类：机器学习 | (统计)机器学习

2021-10-10

本文提出了在多阶段实验的背景下的异质治疗效应的置信区间结构，以$ N $样品和高维，$ D $，混淆。我们的重点是$ d \ gg n $的情况，但获得的结果也适用于低维病例。我们展示了正则化估计的偏差，在高维变焦空间中不可避免，具有简单的双重稳固分数。通过这种方式，不需要额外的偏差，并且我们获得root $ N $推理结果，同时允许治疗和协变量的多级相互依赖性。记忆财产也没有假设;治疗可能取决于所有先前的治疗作业以及以前的所有多阶段混淆。我们的结果依赖于潜在依赖的某些稀疏假设。我们发现具有动态处理的强大推理所需的新产品率条件。

translated by 谷歌翻译

Sparse Generalized Yule-Walker Estimation for Large Spatio-temporal Autoregressions with an Application to NO2 Satellite Data

Hanno Reuvers , Etienne Wijler

分类： (统计)机器学习

2021-08-05

我们考虑一个高维模型，其中观察到时间和空间的变量。该模型由包含时间滞后的时空回归和因变量的空间滞后组成。与古典空间自回归模型不同，我们不依赖于预定的空间交互矩阵，但从数据中推断所有空间交互。假设稀疏性，我们通过惩罚一组Yule-Walker方程来估计完全数据驱动的空间和时间依赖。这种正则化可以留下非结构化，但我们还提出了当观察结果源自空间网格（例如卫星图像）时定制的收缩程序。推导有限的样本误差界限，并且在渐近框架中建立估计一致性，其中样本大小和空间单元的数量共同偏离。外源性变量也可以包括在内。与竞争程序相比，仿真练习表现出强大的有限样本性能。作为一个实证应用，我们模型卫星测量了伦敦的No2浓度。我们的方法通过竞争力的基准提供预测，我们发现了强烈的空间互动的证据。

translated by 谷歌翻译

The Lasso with general Gaussian designs with applications to hypothesis testing

Michael Celentano , Andrea Montanari , Yuting Wei

分类：机器学习 | (统计)机器学习

2020-07-27

套索是一种高维回归的方法，当时，当协变量$ p $的订单数量或大于观测值$ n $时，通常使用它。由于两个基本原因，经典的渐近态性理论不适用于该模型：$（1）$正规风险是非平滑的； $（2）$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果，标准的扰动论点是渐近正态性的传统基础。另一方面，套索估计器可以精确地以$ n $和$ p $大，$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量：在这里，我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限，它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序，我们研究了借助拉索的分布，并表明需要校正程度对于计算有效的置信区间是必要的。

translated by 谷歌翻译

Retire: Robust Expectile Regression in High Dimensions

Rebeka Man , Kean Ming Tan , Zian Wang , Wen-Xin Zhou

分类： (统计)机器学习

2022-12-11

High-dimensional data can often display heterogeneity due to heteroscedastic variance or inhomogeneous covariate effects. Penalized quantile and expectile regression methods offer useful tools to detect heteroscedasticity in high-dimensional data. The former is computationally challenging due to the non-smooth nature of the check loss, and the latter is sensitive to heavy-tailed error distributions. In this paper, we propose and study (penalized) robust expectile regression (retire), with a focus on iteratively reweighted $\ell_1$-penalization which reduces the estimation bias from $\ell_1$-penalization and leads to oracle properties. Theoretically, we establish the statistical properties of the retire estimator under two regimes: (i) low-dimensional regime in which $d \ll n$; (ii) high-dimensional regime in which $s\ll n\ll d$ with $s$ denoting the number of significant predictors. In the high-dimensional setting, we carefully characterize the solution path of the iteratively reweighted $\ell_1$-penalized retire estimation, adapted from the local linear approximation algorithm for folded-concave regularization. Under a mild minimum signal strength condition, we show that after as many as $\log(\log d)$ iterations the final iterate enjoys the oracle convergence rate. At each iteration, the weighted $\ell_1$-penalized convex program can be efficiently solved by a semismooth Newton coordinate descent algorithm. Numerical studies demonstrate the competitive performance of the proposed procedure compared with either non-robust or quantile regression based alternatives.

translated by 谷歌翻译