智能论文笔记

Multi-task Learning of Order-Consistent Causal Graphs

Xinshi Chen , Haoran Sun , Caleb Ellington , Eric Xing , Le Song

分类：机器学习 | (统计)机器学习

2021-11-03

我们考虑发现$ k $相关的高斯定向的非循环图（DAG）的问题，其中涉及的图形结构共享一致的因果秩序和支持的支持。在多任务学习设置下，我们提出了$ L_1 / L_2 $ -Regularized最大似然估计器（MLE），用于学习$ K $线性结构方程模型。理论上我们表明，通过利用相关任务利用数据来实现联合估算器可以实现比单独的估计更好的采样复杂性来恢复因果秩序（或拓扑阶）。此外，联合估计器能够通过与一些可识别的DAG一起估计它们来恢复不可识别的DAG。最后，我们的分析还显示了联盟支持恢复的协会的一致性。为了允许实际实现，我们设计了一种连续的优化问题，其优化器与联合估计器相同，并且可以通过迭代算法有效地近似。我们验证了实验中联合估计器的理论分析和有效性。

translated by 谷歌翻译

Meta Learning for High-dimensional Ising Model Selection Using $\ell_1$-regularized Logistic Regression

Huiming Xie , Jean Honorio

分类：机器学习

2022-08-19

在本文中，我们考虑了使用$ \ ell_1 $ regularized logistic回归的方法来估算与高维iSing模型相关的图形的元学习问题，用于每个节点的邻域选择。我们的目标是在学习新任务中使用从辅助任务中学到的信息来降低其足够的样本复杂性。为此，我们提出了一种新颖的生成模型以及不当的估计方法。在我们的设置中，所有任务均为\ emph {相似}在其\ emph {Random}模型参数和支持中。通过将所有样品从辅助任务汇总到\ emph {不正确}估计一个参数向量，我们可以恢复假定的尺寸很小的真实支持联合，具有很高的概率，具有足够的样品复杂性为$ \ omega（1） $每任务，对于$ k = \ omega（d^3 \ log P）$具有$ p $节点和最大邻域大小$ d $的ISING型号的任务。然后，在对新任务的支持仅限于估计的支持联盟的支持下，我们证明，可以通过降低$ \ omega（d^3 \ log d）$的足够样品复杂性来获得新任务的一致邻居选择。

translated by 谷歌翻译

Distributed Sparse Regression via Penalization

Yao Ji , Gesualdo Scutari , Ying Sun , Harsha Honnappa

分类：机器学习

2021-11-12

我们研究稀疏的线性回归在一个代理网络上，建模为无向图（没有集中式节点）。估计问题被制定为当地套索损失函数的最小化，加上共识约束的二次惩罚 - 后者是获取分布式解决方案方法的工具。虽然在优化文献中广泛研究了基于惩罚的共识方法，但其高维设置中的统计和计算保证仍不清楚。这项工作提供了对此公开问题的答案。我们的贡献是两倍。 First, we establish statistical consistency of the estimator: under a suitable choice of the penalty parameter, the optimal solution of the penalized problem achieves near optimal minimax rate $\mathcal{O}(s \log d/N)$ in $\ell_2 $ -loss，$ s $是稀疏性值，$ d $是环境维度，$ n $是网络中的总示例大小 - 这与集中式采样率相匹配。其次，我们表明，应用于惩罚问题的近端梯度算法，它自然导致分布式实现，线性地收敛到集中统计误差的顺序的公差 - 速率比例为$ \ mathcal {o}（ d）$，揭示不可避免的速度准确性困境。数值结果证明了衍生的采样率和收敛速率缩放的紧张性。

translated by 谷歌翻译

A Theoretical Study of The Effects of Adversarial Attacks on Sparse Regression

Deepak Maurya , Jean Honorio

分类：机器学习 | (统计)机器学习

2022-12-21

This paper analyzes $\ell_1$ regularized linear regression under the challenging scenario of having only adversarially corrupted data for training. We use the primal-dual witness paradigm to provide provable performance guarantees for the support of the estimated regression parameter vector to match the actual parameter. Our theoretical analysis shows the counter-intuitive result that an adversary can influence sample complexity by corrupting the irrelevant features, i.e., those corresponding to zero coefficients of the regression parameter vector, which, consequently, do not affect the dependent variable. As any adversarially robust algorithm has its limitations, our theoretical analysis identifies the regimes under which the learning algorithm and adversary can dominate over each other. It helps us to analyze these fundamental limits and address critical scientific questions of which parameters (like mutual incoherence, the maximum and minimum eigenvalue of the covariance matrix, and the budget of adversarial perturbation) play a role in the high or low probability of success of the LASSO algorithm. Also, the derived sample complexity is logarithmic with respect to the size of the regression parameter vector, and our theoretical claims are validated by empirical analysis on synthetic and real-world datasets.

translated by 谷歌翻译

Learning the Structure of Large Networked Systems Obeying Conservation Laws

Anirudh Rayas , Rajasekhar Anguluri , Gautam Dasarathy

分类： (统计)机器学习 | 机器学习

2022-06-14

众所周知，许多网络系统，例如电网，大脑和舆论动态社交网络，都可以遵守保护法。这种现象的例子包括电网中的基尔乔夫法律和社交网络中的意见共识。网络系统中的保护定律可以建模为$ x = b^{*} y $的平衡方程，其中$ b^{*} $的稀疏模式捕获了网络的连接，$ y，x \在\ mathbb {r}^p $中分别是节点上“电势”和“注入流”的向量。节点电位$ y $会导致跨边缘的流量，并且在节点上注入的流量$ x $是网络动力学的无关紧要的。在几个实用的系统中，网络结构通常是未知的，需要从数据估算。为此，可以访问节点电位$ y $的样本，但只有节点注射$ x $的统计信息。在这个重要问题的激励下，我们研究了$ n $ y $ y $ y $ y $ y $ y $ y $ y $ b^{*} $稀疏结构的估计，假设节点注射$ x $遵循高斯分布，并带有已知的发行协方差$ \ sigma_x $。我们建议在高维度中为此问题的新$ \ ell_ {1} $ - 正则最大似然估计器，网络的大小$ p $大于样本量$ n $。我们表明，此优化问题是目标中的凸，并接受了独特的解决方案。在新的相互不一致的条件下，我们在三重$（n，p，d）$上建立了足够的条件，对于$ b^{*} $的精确稀疏恢复是可能的； $ d $是图的程度。我们还建立了在元素最大，Frobenius和运营商规范中回收$ b^{*} $的保证。最后，我们通过对拟议估计量对合成和现实世界数据的性能进行实验验证来补充这些理论结果。

translated by 谷歌翻译

Fast Projected Newton-like Method for Precision Matrix Estimation with Nonnegative Partial Correlations

Jiaxi Ying , José Vinícius de M. Cardoso , Jian-Feng Cai , Daniel P. Palomar

分类：机器学习

2021-12-03

我们研究了估计多元高斯分布中的精度矩阵的问题，其中所有部分相关性都是非负面的，也称为多变量完全阳性的顺序阳性（$ \ mathrm {mtp} _2 $）。近年来，这种模型得到了重大关注，主要是由于有趣的性质，例如，无论底层尺寸如何，最大似然估计值都存在于两个观察。我们将此问题作为加权$ \ ell_1 $ -norm正常化高斯的最大似然估计下$ \ mathrm {mtp} _2 $约束。在此方向上，我们提出了一种新颖的预计牛顿样算法，该算法包含精心设计的近似牛顿方向，这导致我们具有与一阶方法相同的计算和内存成本的算法。我们证明提出的预计牛顿样算法会聚到问题的最小值。从理论和实验中，我们进一步展示了我们使用加权$ \ ell_1 $ -norm的制剂的最小化器能够正确地恢复基础精密矩阵的支持，而无需在$ \ ell_1 $ -norm中存在不连贯状态方法。涉及合成和实世界数据的实验表明，我们所提出的算法从计算时间透视比最先进的方法显着更有效。最后，我们在金融时序数据中应用我们的方法，这些数据对于显示积极依赖性，在那里我们在学习金融网络上的模块间值方面观察到显着性能。

translated by 谷歌翻译

Consistent Estimation for PCA and Sparse Regression with Oblivious Outliers

Tommaso d'Orsi , Chih-Hung Liu , Rajai Nasser , Gleb Novikov , David Steurer , Stefan Tiegel

分类：机器学习 | (统计)机器学习

2021-11-04

我们开发机器以设计有效的可计算和一致的估计，随着观察人数而达到零的估计误差，因为观察的次数增长，当面对可能损坏的答复，除了样本的所有品，除了每种量之外的ALL。作为具体示例，我们调查了两个问题：稀疏回归和主成分分析（PCA）。对于稀疏回归，我们实现了最佳样本大小的一致性$ n \ gtrsim（k \ log d）/ \ alpha ^ $和最佳错误率$ o（\ sqrt {（k \ log d）/（n \ cdot \ alpha ^ 2））$ N $是观察人数，$ D $是尺寸的数量，$ k $是参数矢量的稀疏性，允许在数量的数量中为逆多项式进行逆多项式样品。在此工作之前，已知估计是一致的，当Inliers $ \ Alpha $ IS $ O（1 / \ log \ log n）$，即使是（非球面）高斯设计矩阵时也是一致的。结果在弱设计假设下持有，并且在这种一般噪声存在下仅被D'Orsi等人最近以密集的设置（即一般线性回归）显示。 [DNS21]。在PCA的上下文中，我们在参数矩阵上的广泛尖端假设下获得最佳错误保证（通常用于矩阵完成）。以前的作品可以仅在假设下获得非琐碎的保证，即与最基于的测量噪声以$ n $（例如，具有方差1 / n ^ 2 $的高斯高斯）。为了设计我们的估算，我们用非平滑的普通方（如$ \ ell_1 $ norm或核规范）装备Huber丢失，并以一种新的方法来分析损失的新方法[DNS21]的方法[DNS21]。功能。我们的机器似乎很容易适用于各种估计问题。

translated by 谷歌翻译

Learning Sparse Fixed-Structure Gaussian Bayesian Networks

Arnab Bhattacharyya , Davin Choo , Rishikesh Gajjala , Sutanu Gayen , Yuhao Wang

分类：机器学习 | (统计)机器学习

2021-07-22

高斯贝叶斯网络（又称线性高斯结构方程模型）广泛用于建模连续变量之间的因果相互作用。在这项工作中，我们研究了学习固定结构高斯贝叶斯网络的问题，直到总变化距离有界误差。我们分析了常用的节点最小二乘回归（最小值），并证明其具有近乎最佳的样品复杂性。我们还研究了一些问题的新算法： - batchavgleastsquares平均在每个节点处采用最小二乘解决方案的几批批次，因此可以在批次大小和批次数量之间插入。我们表明，batchavgleastsquares也具有接近最佳的样品复杂性。 -Cauchyest将解决方案的中位数带到每个节点处的几批线性系统。我们表明，专门针对Polytrees的算法Cauchyesttree具有接近最佳的样品复杂性。在实验上，我们表明，对于未经污染的，可实现的数据，最小值的算法表现最好，但是在存在污染或dag sillsperification的情况下，cauchyest/cauchyesttree和batchavgleastsquares的性能更好。

translated by 谷歌翻译

FuDGE: A Method to Estimate a Functional Differential Graph in a High-Dimensional Setting

Boxin Zhao , Y. Samuel Wang , Mladen Kolar

分类： (统计)机器学习 | 机器学习

2020-03-11

我们考虑使用共享结构估算两个功能无向图形模型之间的差异的问题。在许多应用中，数据自然被认为是随机函数的向量而不是标量的矢量。例如，脑电图（EEG）数据更适当地被视为时间函数。在这样的问题中，不仅可以每个样本测量的函数数量大，而且每个功能都是自身是无限尺寸对象，使估计模型参数具有挑战性。这进一步复杂于曲线通常仅在离散时间点观察到。我们首先定义一个功能差异图，捕获两个功能图形模型之间的差异，并在功能性差分图定义良好时正式表征。然后，我们提出了一种方法，软件，直接估计功能差异图，而不首先估计每个图形。这在各个图形是密集的情况下，这是特别有益的，但差分图是稀疏的。我们表明，融合始终估计功能差图，即使在全面观察和离散的功能路径的高维设置中也是如此。我们通过仿真研究说明了我们方法的有限样本性质。我们还提出了一种竞争方法，该方法是关节功能图形套索，它概括了关节图形套索到功能设置。最后，我们将我们的方法应用于EEG数据，以揭示一群含有酒精使用障碍和对照组的个体之间的功能性脑连接的差异。

translated by 谷歌翻译

Partial Separability and Functional Graphical Models for Multivariate Gaussian Processes

Javier Zapata , Sang-Yun Oh , Alexander Petersen

分类： (统计)机器学习

2019-10-07

多变量功能数据的协方差结构可以高度复杂，特别是如果多变量维度大，则使标准多变量数据的统计方法的扩展到功能数据设置具有挑战性。例如，通过将多变量方法应用于截断的基础扩展系数，最近已经扩展到高斯图形模型。然而，与多变量数据相比的关键难度是协方差操作员紧凑，因此不可逆转。本文中的方法论地解决了多元函数数据的协方差建模的一般问题，特别是特定功能性高斯图形模型。作为第一步，提出了多变量功能数据的协方差运算符的可分离性的新概念，称为部分可分离性，导致这种数据的新型Karhunen-Lo \“Eve型扩展。接下来，示出部分可分离结构是特别有用的，以提供可以用一系列有限维图形模型，每个相同的固定尺寸识别的明确定义的功能高斯图形模型。这通过应用联合图形套索来激发一个简单有效的估计过程。通过在电机任务期间的模拟和分析功能性脑连接的仿真和分析来评估图形模型估计方法的经验性能。通过在电机任务期间的仿真和分析来评估图形模型估计方法的百分比实证性能。

translated by 谷歌翻译

A Splicing Approach to Best Subset of Groups Selection

Yanhang Zhang , Junxian Zhu , Jin Zhu , Xueqin Wang

分类：机器学习 | (统计)机器学习

2021-04-23

组选择的最佳子集（BSG）是选择一小部分非重叠组以在响应变量上获得最佳解释性的过程。它吸引了越来越多的关注，并且在实践中具有深远的应用。但是，由于BSG在高维环境中的计算棘手性，开发用于解决BSGS的有效算法仍然是研究热点。在本文中，我们提出了一种划分的算法，该算法迭代地检测相关组并排除了无关的组。此外，再加上新的组信息标准，我们开发了一种自适应算法来确定最佳模型大小。在轻度条件下，我们的算法可以在多项式时间内以高概率确定组的最佳子集是可以证明的。最后，我们通过将它们与合成数据集和现实世界中的几种最新算法进行比较来证明我们的方法的效率和准确性。

translated by 谷歌翻译

Support Recovery in Mixture Models with Sparse Parameters

Arya Mazumdar , Soumyabrata Pal

分类：机器学习 | (统计)机器学习

2022-02-24

混合模型被广泛用于拟合复杂和多模式数据集。在本文中，我们研究了具有高维稀疏潜在参数矢量的混合物，并考虑了支持这些向量的恢复的问题。尽管对混合模型中的参数学习进行了充分研究，但稀疏性约束仍然相对尚未探索。参数向量的稀疏性是各种设置的自然约束，支持恢复是参数估计的主要步骤。我们为支持恢复提供有效的算法，该算法具有对数样品的复杂性依赖于潜在空间的维度。我们的算法非常笼统，即它们适用于1）许多不同规范分布的混合物，包括统一，泊松，拉普拉斯，高斯人等。2）在统一参数的不同假设下，线性回归和线性分类器与高斯协变量的混合物与高斯协变量的混合物。在大多数这些设置中，我们的结果是对问题的首先保证，而在其余部分中，我们的结果为现有作品提供了改进。

translated by 谷歌翻译

A Worker-Task Specialization Model for Crowdsourcing: Efficient Inference and Fundamental Limits

Doyeon Kim , Jeonghwan Lee , Hye Won Chung

分类：机器学习 | (统计)机器学习

2021-11-19

Crowdsourcing system has emerged as an effective platform for labeling data with relatively low cost by using non-expert workers. Inferring correct labels from multiple noisy answers on data, however, has been a challenging problem, since the quality of the answers varies widely across tasks and workers. Many existing works have assumed that there is a fixed ordering of workers in terms of their skill levels, and focused on estimating worker skills to aggregate the answers from workers with different weights. In practice, however, the worker skill changes widely across tasks, especially when the tasks are heterogeneous. In this paper, we consider a new model, called $d$-type specialization model, in which each task and worker has its own (unknown) type and the reliability of each worker can vary in the type of a given task and that of a worker. We allow that the number $d$ of types can scale in the number of tasks. In this model, we characterize the optimal sample complexity to correctly infer the labels within any given accuracy, and propose label inference algorithms achieving the order-wise optimal limit even when the types of tasks or those of workers are unknown. We conduct experiments both on synthetic and real datasets, and show that our algorithm outperforms the existing algorithms developed based on more strict model assumptions.

translated by 谷歌翻译

Perturbation Analysis of Randomized SVD and its Applications to High-dimensional Statistics

Yichi Zhang , Minh Tang

分类： (统计)机器学习

2022-03-19

随机奇异值分解（RSVD）是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $，原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数，$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中，我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性，即，观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $（频谱规范）和$ \ ell_ {2 \ to \ infty} $（最大行行列$ \ ell_2 $ norm）$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比（SNR）和功率迭代$ g $的数量。观察到一个相变现象，其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明，每当噪声矩阵满足一定的痕量生长条件时，这些相变发生的$ g $的阈值都会很清晰。最后，我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下，即社区检测，矩阵完成和主要的组件分析，并使用缺失的数据来说明我们的理论结果。

translated by 谷歌翻译

Efficient Inference of Spatially-varying Gaussian Markov Random Fields with Applications in Gene Regulatory Networks

Visweswaran Ravikumar , Tong Xu , Wajd N. Al-Holou , Salar Fattahi , Arvind Rao

分类： (统计)机器学习

2022-06-21

在本文中，我们研究了推断空间变化的高斯马尔可夫随机场（SV-GMRF）的问题，其中的目标是学习代表基因之间网络关系的稀疏，特定于上下文的GMRF网络。 SV-GMRF的一个重要应用是推断来自空间分辨转录组学数据集的基因调节网络。当前有关SV-GMRF推断的工作基于正则最大似然估计（MLE），并且由于其高度非线性的性质而受到压倒性的计算成本。为了减轻这一挑战，我们提出了一个简单有效的优化问题，代替了配备强大的统计和计算保证的MLE。我们提出的优化问题在实践中非常有效：我们可以在不到2分钟的时间内解决具有超过200万变量的SV-GMRF的实例。我们将开发的框架应用于研究胶质母细胞瘤中的基因调节网络如何在组织内部空间重新连接，并确定转录因子Hes4和核糖体蛋白的显着活性是表征肿瘤血管周期壁iche中基因表达网络的特征抗性干细胞。

translated by 谷歌翻译

A Cross Validation framework for Signal Denoising with Applications to Trend Filtering, Dyadic CART and Beyond

Anamitra Chaudhuri , Sabyasachi Chatterjee

分类： (统计)机器学习

2022-01-07

本文为信号去噪提供了一般交叉验证框架。然后将一般框架应用于非参数回归方法，例如趋势过滤和二元推车。然后显示所得到的交叉验证版本以获得最佳调谐的类似物所熟知的几乎相同的收敛速度。没有任何先前的趋势过滤或二元推车的理论分析。为了说明框架的一般性，我们还提出并研究了两个基本估算器的交叉验证版本;套索用于高维线性回归和矩阵估计的奇异值阈值阈值。我们的一般框架是由Chatterjee和Jafarov（2015）的想法的启发，并且可能适用于使用调整参数的广泛估算方法。

translated by 谷歌翻译

High Dimensional Statistical Estimation under Uniformly Dithered One-bit Quantization

Junren Chen , Cheng-Long Wang , Michael K. Ng , Di Wang

分类： (统计)机器学习 | 机器学习

2022-02-26

在本文中，我们提出了一种均匀抖动的一位量化方案，以进行高维统计估计。该方案包含截断，抖动和量化，作为典型步骤。作为规范示例，量化方案应用于三个估计问题：稀疏协方差矩阵估计，稀疏线性回归和矩阵完成。我们研究了高斯和重尾政权，假定重尾数据的基本分布具有有限的第二或第四刻。对于每个模型，我们根据一位量化的数据提出新的估计器。在高斯次级政权中，我们的估计器达到了对数因素的最佳最小速率，这表明我们的量化方案几乎没有额外的成本。在重尾状态下，虽然我们的估计量基本上变慢，但这些结果是在这种单位量化和重型尾部设置中的第一个结果，或者比现有可比结果表现出显着改善。此外，我们为一位压缩传感和一位矩阵完成的问题做出了巨大贡献。具体而言，我们通过凸面编程将一位压缩感传感扩展到次高斯甚至是重尾传感向量。对于一位矩阵完成，我们的方法与标准似然方法基本不同，并且可以处理具有未知分布的预量化随机噪声。提出了有关合成数据的实验结果，以支持我们的理论分析。

translated by 谷歌翻译

The Lasso with general Gaussian designs with applications to hypothesis testing

Michael Celentano , Andrea Montanari , Yuting Wei

分类：机器学习 | (统计)机器学习

2020-07-27

套索是一种高维回归的方法，当时，当协变量$ p $的订单数量或大于观测值$ n $时，通常使用它。由于两个基本原因，经典的渐近态性理论不适用于该模型：$（1）$正规风险是非平滑的； $（2）$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果，标准的扰动论点是渐近正态性的传统基础。另一方面，套索估计器可以精确地以$ n $和$ p $大，$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量：在这里，我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限，它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序，我们研究了借助拉索的分布，并表明需要校正程度对于计算有效的置信区间是必要的。

translated by 谷歌翻译

Community Detection in the Hypergraph SBM: Optimal Recovery Given the Similarity Matrix

Julia Gaudio , Nirmit Joshi

分类：机器学习

2022-08-23

社区检测是网络科学中的一个基本问题。在本文中，我们考虑了从$ HyperGraph $ $ $ $ $ $ $ $ $ $ $ $ $ $ $（HSBM）中绘制的HyperGraphs中的社区检测，重点是精确的社区恢复。在整个超图未知的情况下，我们研究了多项式时间算法以进行社区检测的性能。取而代之的是，我们获得了$相似性$ $ $ $ $ $ $ w $，其中$ w_ {ij} $报告包含$ i $和$ j $的超补品的数量。在此信息模型下，Kim，Bandeira和Goemans [KBG18]确定了信息理论阈值，以进行精确恢复，并提出了他们认为是最佳的半决赛编程松弛。在本文中，我们确认了这个猜想。我们还表明，一种简单，高效的光谱算法是最佳的，将光谱算法作为选择方法。我们对光谱算法的分析至关重要地依赖于$ w $的特征向量上的强$ entrywise $界限。我们的边界灵感来自Abbe，Fan，Wang和Zhong [AFWZ20]的工作，他们开发了具有独立条目的对称矩阵的特征向量的进入界。尽管相似性矩阵的依赖性结构复杂，但我们证明了相似的入口保证。

translated by 谷歌翻译

On Low-rank Trace Regression under General Sampling Distribution

Nima Hamidi , Mohsen Bayati

分类：机器学习 | (统计)机器学习

2019-04-18

In this paper, we study the trace regression when a matrix of parameters B* is estimated via the convex relaxation of a rank-regularized regression or via regularized non-convex optimization. It is known that these estimators satisfy near-optimal error bounds under assumptions on the rank, coherence, and spikiness of B*. We start by introducing a general notion of spikiness for B* that provides a generic recipe to prove the restricted strong convexity of the sampling operator of the trace regression and obtain near-optimal and non-asymptotic error bounds for the estimation error. Similar to the existing literature, these results require the regularization parameter to be above a certain theory-inspired threshold that depends on observation noise that may be unknown in practice. Next, we extend the error bounds to cases where the regularization parameter is chosen via cross-validation. This result is significant in that existing theoretical results on cross-validated estimators (Kale et al., 2011; Kumar et al., 2013; Abou-Moustafa and Szepesvari, 2017) do not apply to our setting since the estimators we study are not known to satisfy their required notion of stability. Finally, using simulations on synthetic and real data, we show that the cross-validated estimator selects a near-optimal penalty parameter and outperforms the theory-inspired approach of selecting the parameter.

translated by 谷歌翻译