智能论文笔记

A Unified Framework for Estimation of High-dimensional Conditional Factor Models

Qihui Chen

分类： (统计)机器学习

2022-09-01

本文开发了一个通用框架，用于通过核规范正则化估计高维条件因子模型。我们建立了估计器的较大样本属性，并提供了用于查找估计器的有效计算算法以及选择正则化参数的交叉验证程序。一般框架使我们能够以统一的方式估算各种条件因素模型，并迅速提供新的渐近结果。我们采用该方法来分析单个美国股票收益的横截面，并发现施加同质性可以改善模型的样本外可预测性。

translated by 谷歌翻译

Modelling matrix time series via a tensor CP-decomposition

Jinyuan Chang , Jing He , Lin Yang , Qiwei Yao

分类： (统计)机器学习

2021-12-31

我们建议基于张量CP分解模拟矩阵时间序列。而不是使用作为估计CP分解的标准做法的迭代算法，我们提出了一种基于由底层过程的串行依赖结构构成的广义特征分析的新的和单遍估计过程。新程序的一个关键思想是将在具有全排序矩阵的秩减少矩阵方面将概要的矩阵预定为下方，以避免以前的前者的复杂性可以为零，有限和无限。在没有实践性的情况下，在一般环境下建立了渐近理论。例如，图2示出了CP - 分解中的所有组件系数矢量，根据时间序列尺寸与样本大小之间的相对大小一致地估计CP分解中的所有组件系数矢量。建议的模型和估计方法进一步用模拟和真实数据说明;显示有效维度降低模型和预测矩阵时间序列。

translated by 谷歌翻译

Invariant Inference via Residual Randomization

Panos Toulis

分类： (统计)机器学习

2019-08-12

统计推断中的主要范式取决于I.I.D.的结构。来自假设的无限人群的数据。尽管它取得了成功，但在复杂的数据结构下，即使在清楚无限人口所代表的内容的情况下，该框架在复杂的数据结构下仍然不灵活。在本文中，我们探讨了一个替代框架，在该框架中，推断只是对模型误差的不变性假设，例如交换性或符号对称性。作为解决这个不变推理问题的一般方法，我们提出了一个基于随机的过程。我们证明了该过程的渐近有效性的一般条件，并在许多数据结构中说明了，包括单向和双向布局中的群集误差。我们发现，通过残差随机化的不变推断具有三个吸引人的属性：（1）在弱且可解释的条件下是有效的，可以解决重型数据，有限聚类甚至一些高维设置的问题。（2）它在有限样品中是可靠的，因为它不依赖经典渐近学所需的规律性条件。（3）它以适应数据结构的统一方式解决了推断问题。另一方面，诸如OLS或Bootstrap之类的经典程序以I.I.D.为前提。结构，只要实际问题结构不同，就需要修改。经典框架中的这种不匹配导致了多种可靠的误差技术和自举变体，这些变体经常混淆应用研究。我们通过广泛的经验评估证实了这些发现。残留随机化对许多替代方案的表现有利，包括可靠的误差方法，自举变体和分层模型。

translated by 谷歌翻译

Mining the Factor Zoo: Estimation of Latent Factor Models with Sufficient Proxies

Runzhe Wan , Yingying Li , Wenbin Lu , Rui Song

分类：机器学习

2022-12-25

Latent factor model estimation typically relies on either using domain knowledge to manually pick several observed covariates as factor proxies, or purely conducting multivariate analysis such as principal component analysis. However, the former approach may suffer from the bias while the latter can not incorporate additional information. We propose to bridge these two approaches while allowing the number of factor proxies to diverge, and hence make the latent factor model estimation robust, flexible, and statistically more accurate. As a bonus, the number of factors is also allowed to grow. At the heart of our method is a penalized reduced rank regression to combine information. To further deal with heavy-tailed data, a computationally attractive penalized robust reduced rank regression method is proposed. We establish faster rates of convergence compared with the benchmark. Extensive simulations and real examples are used to illustrate the advantages.

translated by 谷歌翻译

Minimax Estimation of Linear Functions of Eigenvectors in the Face of Small Eigen-Gaps

Gen Li , Changxiao Cai , H. Vincent Poor , Yuxin Chen

分类：机器学习 | (统计)机器学习

2021-04-07

特征向量扰动分析在各种数据科学应用中起着至关重要的作用。然而，大量的先前作品着重于建立$ \ ell_ {2} $ eigenVector扰动边界，这些范围通常在解决依赖特征向量的细粒度行为的任务方面非常不足。本文通过研究未知特征向量的线性函数的扰动来取得进展。在存在高斯噪声的情况下，着重于两个基本问题 - 矩阵denoising和主成分分析 - 我们开发了一个统计理论的套件，该理论表征了未知特征向量的任意线性函数的扰动。为了减轻自然``插件''估计器固有的不可忽略的偏见问题，我们开发了偏低的估计器，即（1）（1）为场景家庭实现最小的下限（模仿某些对数因素），并且（2）可以以数据驱动的方式计算，而无需样品分裂。值得注意的是，即使相关的特征间隙{\ em少于先前的统计理论所要求的，提出的估计器几乎是最佳的最佳选择。

translated by 谷歌翻译

Causal Inference with Corrupted Data: Measurement Error, Missing Values, Discretization, and Differential Privacy

Anish Agarwal , Rahul Singh

分类：机器学习 | (统计)机器学习

2021-07-06

即使是最精确的经济数据集也具有嘈杂，丢失，离散化或私有化的变量。实证研究的标准工作流程涉及数据清理，然后是数据分析，通常忽略数据清洁的偏差和方差后果。我们制定了具有损坏数据的因果推理的半造型模型，以包括数据清洁和数据分析。我们提出了一种新的数据清洁，估计和推理的新的端到端程序，以及数据清洁调整的置信区间。通过有限的示例参数，我们证明了因果关系参数的估算器的一致性，高斯近似和半游戏效率。 Gaussian近似的速率为N ^ { - 1/2} $，如平均治疗效果，如平均治疗效果，并且优雅地为当地参数劣化，例如特定人口统计的异构治疗效果。我们的关键假设是真正的协变量是较低的等级。在我们的分析中，我们为矩阵完成，统计学习和半统计统计提供了非对症的理论贡献。我们验证了数据清洁调整的置信区间隔的覆盖范围校准，以类似于2020年美国人口普查中实施的差异隐私。

translated by 谷歌翻译

Estimation and Inference on Heterogeneous Treatment Effects in High-Dimensional Dynamic Panels under Weak Dependence

Vira Semenova , Matt Goldman , Victor Chernozhukov , Matt Taddy

分类： (统计)机器学习

2017-12-28

This paper provides estimation and inference methods for a conditional average treatment effects (CATE) characterized by a high-dimensional parameter in both homogeneous cross-sectional and unit-heterogeneous dynamic panel data settings. In our leading example, we model CATE by interacting the base treatment variable with explanatory variables. The first step of our procedure is orthogonalization, where we partial out the controls and unit effects from the outcome and the base treatment and take the cross-fitted residuals. This step uses a novel generic cross-fitting method we design for weakly dependent time series and panel data. This method "leaves out the neighbors" when fitting nuisance components, and we theoretically power it by using Strassen's coupling. As a result, we can rely on any modern machine learning method in the first step, provided it learns the residuals well enough. Second, we construct an orthogonal (or residual) learner of CATE -- the Lasso CATE -- that regresses the outcome residual on the vector of interactions of the residualized treatment with explanatory variables. If the complexity of CATE function is simpler than that of the first-stage regression, the orthogonal learner converges faster than the single-stage regression-based learner. Third, we perform simultaneous inference on parameters of the CATE function using debiasing. We also can use ordinary least squares in the last two steps when CATE is low-dimensional. In heterogeneous panel data settings, we model the unobserved unit heterogeneity as a weakly sparse deviation from Mundlak (1978)'s model of correlated unit effects as a linear function of time-invariant covariates and make use of L1-penalization to estimate these models. We demonstrate our methods by estimating price elasticities of groceries based on scanner data. We note that our results are new even for the cross-sectional (i.i.d) case.

translated by 谷歌翻译

On Model Identification and Out-of-Sample Prediction of Principal Component Regression: Applications to Synthetic Controls

Anish Agarwal , Devavrat Shah , Dennis Shen

分类：机器学习 | (统计)机器学习

2020-10-27

我们在具有固定设计的高维错误设置中分析主组件回归（PCR）。在适当的条件下，我们表明PCR始终以最小$ \ ell_2 $ -norm识别唯一模型，并且是最小的最佳模型。这些结果使我们能够建立非质子化的样本外预测，以确保提高最著名的速率。在我们的分析中，我们在样本外协变量之间引入了天然的线性代数条件，这使我们能够避免分布假设。我们的模拟说明了即使在协变量转移的情况下，这种条件对于概括的重要性。作为副产品，我们的结果还导致了合成控制文献的新结果，这是政策评估的主要方法。特别是，我们的minimax结果表明，在众多变体中，基于PCR的方法具有吸引力。据我们所知，我们对固定设计设置的预测保证在高维错误和合成控制文献中都是难以捉摸的。

translated by 谷歌翻译

Robust Matrix Completion with Heavy-tailed Noise

Bingyan Wang , Jianqing Fan

分类：机器学习 | (统计)机器学习

2022-06-09

本文研究了在存在重尾且可能是不对称噪声的情况下，低级矩阵的完成，我们旨在估计一组高度不完整的噪声条目，以估算一个基础的低级矩阵。尽管在过去的十年中，矩阵的完成问题吸引了很多关注，但是当观察结果被重尾噪音污染时，仍然缺乏理论上的理解。先前的理论缺乏解释经验结果，无法捕获估计误差对噪声水平的最佳依赖性。在本文中，我们采用自适应的Huber损失来容纳重尾噪声，当损失函数中的参数经过精心设计以平衡异常值的大偏差和稳健性时，这是对大型且可能不对称的误差的鲁棒性。然后，我们通过平衡的低级数burer-monteiro矩阵分解和梯度不错，并具有稳健的光谱初始化，提出了有效的非凸算法。我们证明，在仅在误差分布上的第二刻条件下，而不是次高斯的假设下，由提议的算法生成的迭代元素的欧几里得误差会快速减少几何，直到达到最小值 - 最佳统计估计误差，这具有相同的相同在次级案件中订购。这一重大进步背后的关键技术是一个强大的一对一分析框架。我们的模拟研究证实了理论结果。

translated by 谷歌翻译

A Non-Asymptotic Framework for Approximate Message Passing in Spiked Models

Gen Li , Yuting Wei

分类：机器学习 | (统计)机器学习

2022-08-05

近似消息传递（AMP）是解决高维统计问题的有效迭代范式。但是，当迭代次数超过$ o \ big（\ frac {\ log n} {\ log log \ log \ log n} \时big）$（带有$ n $问题维度）。为了解决这一不足，本文开发了一个非吸附框架，用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项，我们布置了一个分析配方，以表征在存在独立初始化的情况下AMP的有限样本行为，该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果：（i）求解$ \ mathbb {z} _2 $同步时，我们预测了频谱初始化AMP的行为，最高为$ o \ big（\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big）$迭代，表明该算法成功而无需随后的细化阶段（如最近由\ citet {celentano2021local}推测）; （ii）我们表征了稀疏PCA中AMP的非反应性行为（在尖刺的Wigner模型中），以广泛的信噪比。

translated by 谷歌翻译

Smooth Nested Simulation: Bridging Cubic and Square Root Convergence Rates in High Dimensions

Wenjia Wang , Yanyuan Wang , Xiaowei Zhang

分类： (统计)机器学习

2022-01-09

嵌套模拟涉及通过模拟估算条件期望的功能。在本文中，我们提出了一种基于内核RIDGE回归的新方法，利用作为多维调节变量的函数的条件期望的平滑度。渐近分析表明，随着仿真预算的增加，所提出的方法可以有效地减轻了对收敛速度的维度诅咒，只要条件期望足够平滑。平滑度桥接立方根收敛速度之间的间隙（即标准嵌套模拟的最佳速率）和平方根收敛速率（即标准蒙特卡罗模拟的规范率）。我们通过来自投资组合风险管理和输入不确定性量化的数值例子来证明所提出的方法的性能。

translated by 谷歌翻译

Perturbation Analysis of Randomized SVD and its Applications to High-dimensional Statistics

Yichi Zhang , Minh Tang

分类： (统计)机器学习

2022-03-19

随机奇异值分解（RSVD）是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $，原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数，$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中，我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性，即，观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $（频谱规范）和$ \ ell_ {2 \ to \ infty} $（最大行行列$ \ ell_2 $ norm）$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比（SNR）和功率迭代$ g $的数量。观察到一个相变现象，其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明，每当噪声矩阵满足一定的痕量生长条件时，这些相变发生的$ g $的阈值都会很清晰。最后，我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下，即社区检测，矩阵完成和主要的组件分析，并使用缺失的数据来说明我们的理论结果。

translated by 谷歌翻译

Group structure estimation for panel data -- a general approach

Lu Yu , Jiaying Gu , Stanislav Volgushev

分类： (统计)机器学习

2022-01-05

考虑一个面板数据设置，其中可获得对个人的重复观察。通常可以合理地假设存在共享观察特征的类似效果的个体组，但是分组通常提前未知。我们提出了一种新颖的方法来估计普通面板数据模型的这种未观察到的分组。我们的方法明确地估计各个参数估计中的不确定性，并且在每个人上具有大量的个体和/或重复测量的计算可行。即使在单个数据不可用的情况下，也可以应用开发的想法，并且仅向研究人员提供参数估计与某种量化的不确定性。

translated by 谷歌翻译

On Low-rank Trace Regression under General Sampling Distribution

Nima Hamidi , Mohsen Bayati

分类：机器学习 | (统计)机器学习

2019-04-18

In this paper, we study the trace regression when a matrix of parameters B* is estimated via the convex relaxation of a rank-regularized regression or via regularized non-convex optimization. It is known that these estimators satisfy near-optimal error bounds under assumptions on the rank, coherence, and spikiness of B*. We start by introducing a general notion of spikiness for B* that provides a generic recipe to prove the restricted strong convexity of the sampling operator of the trace regression and obtain near-optimal and non-asymptotic error bounds for the estimation error. Similar to the existing literature, these results require the regularization parameter to be above a certain theory-inspired threshold that depends on observation noise that may be unknown in practice. Next, we extend the error bounds to cases where the regularization parameter is chosen via cross-validation. This result is significant in that existing theoretical results on cross-validated estimators (Kale et al., 2011; Kumar et al., 2013; Abou-Moustafa and Szepesvari, 2017) do not apply to our setting since the estimators we study are not known to satisfy their required notion of stability. Finally, using simulations on synthetic and real data, we show that the cross-validated estimator selects a near-optimal penalty parameter and outperforms the theory-inspired approach of selecting the parameter.

translated by 谷歌翻译

Understanding Implicit Regularization in Over-Parameterized Single Index Model

Jianqing Fan , Zhuoran Yang , Mengxin Yu

分类： (统计)机器学习 | 机器学习

2020-07-16

在本文中，我们利用过度参数化来设计高维单索索引模型的无规矩算法，并为诱导的隐式正则化现象提供理论保证。具体而言，我们研究了链路功能是非线性且未知的矢量和矩阵单索引模型，信号参数是稀疏向量或低秩对称矩阵，并且响应变量可以是重尾的。为了更好地理解隐含正规化的角色而没有过度的技术性，我们假设协变量的分布是先验的。对于载体和矩阵设置，我们通过采用分数函数变换和专为重尾数据的强大截断步骤来构造过度参数化最小二乘损耗功能。我们建议通过将无规则化的梯度下降应用于损耗函数来估计真实参数。当初始化接近原点并且步骤中足够小时，我们证明了所获得的解决方案在载体和矩阵案件中实现了最小的收敛统计速率。此外，我们的实验结果支持我们的理论调查结果，并表明我们的方法在$ \ ell_2 $ -staticatisticated率和变量选择一致性方面具有明确的正则化的经验卓越。

translated by 谷歌翻译

Sparse Generalized Yule-Walker Estimation for Large Spatio-temporal Autoregressions with an Application to NO2 Satellite Data

Hanno Reuvers , Etienne Wijler

分类： (统计)机器学习

2021-08-05

我们考虑一个高维模型，其中观察到时间和空间的变量。该模型由包含时间滞后的时空回归和因变量的空间滞后组成。与古典空间自回归模型不同，我们不依赖于预定的空间交互矩阵，但从数据中推断所有空间交互。假设稀疏性，我们通过惩罚一组Yule-Walker方程来估计完全数据驱动的空间和时间依赖。这种正则化可以留下非结构化，但我们还提出了当观察结果源自空间网格（例如卫星图像）时定制的收缩程序。推导有限的样本误差界限，并且在渐近框架中建立估计一致性，其中样本大小和空间单元的数量共同偏离。外源性变量也可以包括在内。与竞争程序相比，仿真练习表现出强大的有限样本性能。作为一个实证应用，我们模型卫星测量了伦敦的No2浓度。我们的方法通过竞争力的基准提供预测，我们发现了强烈的空间互动的证据。

translated by 谷歌翻译

Deep Learning with Non-Linear Factor Models: Adaptability and Avoidance of Curse of Dimensionality

Mehmet Caner Maurizio Daniele

分类： (统计)机器学习 | 机器学习

2022-09-09

在本文中，我们将深度学习文献与非线性因素模型联系起来，并表明深度学习估计可以大大改善非线性加性因子模型文献。我们通过扩展Schmidt-Hieber（2020）定理来提供预期风险的界限，并表明这些上限在一组多个响应变量上是均匀的。我们表明，我们的风险界限并不取决于因素的数量。为了构建资产回报的协方差矩阵估计器，我们开发了深层神经网络中误差协方差矩阵的新型数据依赖性估计器。估算器是指灵活的自适应阈值技术，对创新中的异常值很强。我们证明估计量在光谱规范中是一致的。然后使用该结果，我们显示了协方差矩阵的一致性和收敛速率和资产回报的精确矩阵估计器。两种结果中的收敛速度并不取决于因素的数量，因此我们的收敛性是因子模型文献中的一个新结果，因为这一事实是因素的数量妨碍了更好的估计和预测。除了精确矩阵结果外，即使资产数量大于时间跨度，我们也可以获得我们所有的结果，并且两个数量都在增长。各种蒙特卡洛模拟证实了我们的大型样本发现，并揭示了DNN-FM的卓越精确度，以估计连接因子和可观察变量的真实潜在功能形式，以及与竞争方法相比的协方差和精确矩阵。此外，在大多数情况下，就样本外投资组合策略而言，在样本外预测应用程序中，就样本外投资组合标准偏差和Sharpe比率而言，它的表现优于其他投资组合策略。

translated by 谷歌翻译

Projected State-action Balancing Weights for Offline Reinforcement Learning

Jiayi Wang , Zhengling Qi , Raymond K. W. Wong

分类：机器学习

2021-09-10

离线政策评估（OPE）被认为是强化学习（RL）的基本且具有挑战性的问题。本文重点介绍了基于从无限 - 马尔可夫决策过程的框架下从可能不同策略生成的预收集的数据的目标策略的价值估计。由RL最近开发的边际重要性采样方法和因果推理中的协变量平衡思想的动机，我们提出了一个新颖的估计器，具有大约投影的国家行动平衡权重，以进行策略价值估计。我们获得了这些权重的收敛速率，并表明拟议的值估计量在技术条件下是半参数有效的。就渐近学而言，我们的结果比例均以每个轨迹的轨迹数量和决策点的数量进行扩展。因此，当决策点数量分歧时，仍然可以使用有限的受试者实现一致性。此外，我们开发了一个必要且充分的条件，以建立贝尔曼操作员在政策环境中的适当性，这表征了OPE的困难，并且可能具有独立的利益。数值实验证明了我们提出的估计量的有希望的性能。

translated by 谷歌翻译

On the instrumental variable estimation with many weak and invalid instruments

Yiqi Lin , Frank Windmeijer , Xinyuan Song , Qingliang Fan

分类： (统计)机器学习

2022-07-07

我们讨论了具有未知IV有效性的线性仪器变量（IV）模型中识别的基本问题。我们重新审视了流行的多数和多元化规则，并表明通常没有识别条件是“且仅在总体上”。假设“最稀少的规则”，该规则等同于多数规则，但在计算算法中变得运作，我们研究并证明了基于两步选择的其他IV估计器的非convex惩罚方法的优势，就两步选择而言选择一致性和单独弱IV的适应性。此外，我们提出了一种与识别条件保持一致的替代较低的惩罚，并同时提供甲骨文稀疏结构。与先前的文献相比，针对静脉强度较弱的估计仪得出了理想的理论特性。使用模拟证明了有限样本特性，并且选择和估计方法应用于有关贸易对经济增长的影响的经验研究。

translated by 谷歌翻译

Robustifying Markowitz

Wolfgang Karl Härdle , Yegor Klochkov , Alla Petukhina , Nikita Zhivotovskiy

分类：机器学习

2022-12-28

Markowitz mean-variance portfolios with sample mean and covariance as input parameters feature numerous issues in practice. They perform poorly out of sample due to estimation error, they experience extreme weights together with high sensitivity to change in input parameters. The heavy-tail characteristics of financial time series are in fact the cause for these erratic fluctuations of weights that consequently create substantial transaction costs. In robustifying the weights we present a toolbox for stabilizing costs and weights for global minimum Markowitz portfolios. Utilizing a projected gradient descent (PGD) technique, we avoid the estimation and inversion of the covariance operator as a whole and concentrate on robust estimation of the gradient descent increment. Using modern tools of robust statistics we construct a computationally efficient estimator with almost Gaussian properties based on median-of-means uniformly over weights. This robustified Markowitz approach is confirmed by empirical studies on equity markets. We demonstrate that robustified portfolios reach the lowest turnover compared to shrinkage-based and constrained portfolios while preserving or slightly improving out-of-sample performance.

translated by 谷歌翻译