智能论文笔记

Selecting time-series hyperparameters with the artificial jackknife

Filippo Pellegrino

分类： (统计)机器学习

2020-02-11

本文提出了删除 - $ D $ jackknife的概括，以解决时间序列的HyperParameter选择问题。我称之为人工删除 - $ D $ jackknife强调，这种方法用虚拟删除替代经典的去除步骤，其中观察到的数据点被人工缺失值替换。这样做保留了数据订单完好无损，并允许与时间序列的简单兼容性。此稿件显示了一种简单的例证，其中应用于调节高维弹性净矢量自动增加移动平均（Varma）模型。

translated by 谷歌翻译

Factor-augmented tree ensembles

Filippo Pellegrino

分类： (统计)机器学习 | 机器学习

2021-11-27

本文提出了标准时间序列回归树建模的扩展，以处理呈现缺失观察，季节性和周期形式的缺失的违规行为的预测因子，以及非静止趋势。在这样做时，这种方法还允许通过未观察的组件来丰富基于树的自动推送中使用的信息集。此外，该稿件还示出了基于集合学习和千克文学中的最新发展来控制过度拟合的相关方法。与基准重采样方法相比，当观察时间段的数量小而有利时，这是强有力的。经验结果表明，通过因子增强树集合的函数预测股票平方返回的好处，通过因子增强树集合，关于更简单的基准。作为副产品，这种方法允许研究经济新闻对股权波动的实时重要性。

translated by 谷歌翻译

Forecast Evaluation in Large Cross-Sections of Realized Volatility

Christis Katsouris

分类： (统计)机器学习 | 机器学习

2021-12-09

在本文中，我们考虑了使用相同的预测精度测试程序在横截面依赖下实现了实现波动率测量的预测评估。在预测实现挥发性时，我们根据增强横截面评估模型的预测精度。在相等预测精度的零假设下，所采用的基准模型是标准的HAR模型，而在非相同的预测精度的替代方案下，预测模型是通过套索缩收估计的增强的HAR模型。我们通过结合测量误差校正以及横截面跳转分量测量来研究预报对模型规范的敏感性。使用数值实现评估模型的样本外预测评估。

translated by 谷歌翻译

On LASSO for High Dimensional Predictive Regression

Ziwei Mei , Zhentao Shi

分类： (统计)机器学习

2022-12-14

In a high dimensional linear predictive regression where the number of potential predictors can be larger than the sample size, we consider using LASSO, a popular L1-penalized regression method, to estimate the sparse coefficients when many unit root regressors are present. Consistency of LASSO relies on two building blocks: the deviation bound of the cross product of the regressors and the error term, and the restricted eigenvalue of the Gram matrix of the regressors. In our setting where unit root regressors are driven by temporal dependent non-Gaussian innovations, we establish original probabilistic bounds for these two building blocks. The bounds imply that the rates of convergence of LASSO are different from those in the familiar cross sectional case. In practical applications given a mixture of stationary and nonstationary predictors, asymptotic guarantee of LASSO is preserved if all predictors are scale-standardized. In an empirical example of forecasting the unemployment rate with many macroeconomic time series, strong performance is delivered by LASSO when the initial specification is guided by macroeconomic domain expertise.

translated by 谷歌翻译

Maximum Likelihood from Incomplete Data Via the EM Algorithm

分类：

JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact

translated by 谷歌翻译

The Projected Covariance Measure for assumption-lean variable significance testing

Anton Rask Lundborg , Ilmun Kim , Rajen D. Shah , Richard J. Samworth

分类： (统计)机器学习

2022-11-03

Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.

translated by 谷歌翻译

Sparse Generalized Yule-Walker Estimation for Large Spatio-temporal Autoregressions with an Application to NO2 Satellite Data

Hanno Reuvers , Etienne Wijler

分类： (统计)机器学习

2021-08-05

我们考虑一个高维模型，其中观察到时间和空间的变量。该模型由包含时间滞后的时空回归和因变量的空间滞后组成。与古典空间自回归模型不同，我们不依赖于预定的空间交互矩阵，但从数据中推断所有空间交互。假设稀疏性，我们通过惩罚一组Yule-Walker方程来估计完全数据驱动的空间和时间依赖。这种正则化可以留下非结构化，但我们还提出了当观察结果源自空间网格（例如卫星图像）时定制的收缩程序。推导有限的样本误差界限，并且在渐近框架中建立估计一致性，其中样本大小和空间单元的数量共同偏离。外源性变量也可以包括在内。与竞争程序相比，仿真练习表现出强大的有限样本性能。作为一个实证应用，我们模型卫星测量了伦敦的No2浓度。我们的方法通过竞争力的基准提供预测，我们发现了强烈的空间互动的证据。

translated by 谷歌翻译

Competing Models

Jose Luis Montiel Olea , Pietro Ortoleva , Mallesh M Pai , Andrea Prat

分类：机器学习

2019-07-08

不同的代理需要进行预测。他们观察到相同的数据，但有不同的模型：他们预测使用不同的解释变量。我们研究哪个代理商认为它们具有最佳的预测能力 - 通过最小的主观后均匀平均平方预测误差来衡量 - 并且显示它如何取决于样本大小。使用小样品，我们呈现结果表明它是使用低维模型的代理。对于大型样品，通常是具有高维模型的代理，可能包括无关的变量，但从未排除相关的变量。我们将结果应用于拍卖生产资产拍卖中的获胜模型，以争辩于企业家和具有简单模型的投资者将在新部门过度代表，并了解解释横断面变异的“因素”的扩散资产定价文学中的预期股票回报。

translated by 谷歌翻译

Synthetic learner: model-free inference on treatments over time

Davide Viviano , Jelena Bradic

分类：机器学习 | (统计)机器学习

2019-04-02

了解特定待遇或政策与许多感兴趣领域有关的影响，从政治经济学，营销到医疗保健。在本文中，我们开发了一种非参数算法，用于在合成控制的背景下检测随着时间的流逝的治疗作用。该方法基于许多算法的反事实预测，而不必假设该算法正确捕获模型。我们介绍了一种推论程序来检测治疗效果，并表明测试程序对于固定，β混合过程渐近有效，而无需对所考虑的一组基础算法施加任何限制。我们讨论了平均治疗效果估计的一致性保证，并为提出的方法提供了遗憾的界限。算法类别可能包括随机森林，套索或任何其他机器学习估计器。数值研究和应用说明了该方法的优势。

translated by 谷歌翻译

Forecast combinations: an over 50-year review

Xiaoqian Wang , Rob J Hyndman , Feng Li , Yanfei Kang

分类： (统计)机器学习

2022-05-09

预测组合在预测社区中蓬勃发展，近年来，已经成为预测研究和活动主流的一部分。现在，由单个（目标）系列产生的多个预测组合通过整合来自不同来源收集的信息，从而提高准确性，从而减轻了识别单个“最佳”预测的风险。组合方案已从没有估计的简单组合方法演变为涉及时间变化的权重，非线性组合，组件之间的相关性和交叉学习的复杂方法。它们包括结合点预测和结合概率预测。本文提供了有关预测组合的广泛文献的最新评论，并参考可用的开源软件实施。我们讨论了各种方法的潜在和局限性，并突出了这些思想如何随着时间的推移而发展。还调查了有关预测组合实用性的一些重要问题。最后，我们以当前的研究差距和未来研究的潜在见解得出结论。

translated by 谷歌翻译

Conformal Prediction Bands for Two-Dimensional Functional Time Series

Niccolò Ajroldi , Jacopo Diquigiovanni , Matteo Fontana , Simone Vantini

分类： (统计)机器学习

2022-07-27

共形预测（CP）是一种多功能的非参数框架，用于量化预测问题中的不确定性。在这项工作中，我们通过首次提出可以应用于时间不断发展的表面，将这种方法扩展到在双变量域上定义的时间序列函数的情况。为了获得有意义有效的预测区域，CP必须与准确的预测算法结合使用，因此，我们扩展了希尔伯特空间中自回旋过程的理论理论，以允许具有双变量域的功能。考虑到该主题的新颖性，我们提出了功能自回旋模型（FAR）的估计技术。实施了仿真研究，以研究不同的点预测因子如何影响所得的预测频段。最后，我们探索了真正数据集中拟议方法的利益和限制，在过去的二十年中，每天都会观察到黑海的海平面异常。

translated by 谷歌翻译

Supervised Multivariate Learning with Simultaneous Feature Auto-grouping and Dimension Reduction

Yiyuan She , Jiahui Shen , Chao Zhang

分类： (统计)机器学习 | 机器学习

2021-12-17

现代高维方法经常采用“休稀稀物”的原则，而在监督多元学习统计学中可能面临着大量非零系数的“密集”问题。本文提出了一种新的聚类减少秩（CRL）框架，其施加了两个联合矩阵规范化，以自动分组构建预测因素的特征。 CRL比低级别建模更具可解释，并放松变量选择中的严格稀疏假设。在本文中，提出了新的信息 - 理论限制，揭示了寻求集群的内在成本，以及多元学习中的维度的祝福。此外，开发了一种有效的优化算法，其执行子空间学习和具有保证融合的聚类。所获得的定点估计器虽然不一定是全局最佳的，但在某些规则条件下享有超出标准似然设置的所需的统计准确性。此外，提出了一种新的信息标准，以及其无垢形式，用于集群和秩选择，并且具有严格的理论支持，而不假设无限的样本大小。广泛的模拟和实数据实验证明了所提出的方法的统计准确性和可解释性。

translated by 谷歌翻译

On the instrumental variable estimation with many weak and invalid instruments

Yiqi Lin , Frank Windmeijer , Xinyuan Song , Qingliang Fan

分类： (统计)机器学习

2022-07-07

我们讨论了具有未知IV有效性的线性仪器变量（IV）模型中识别的基本问题。我们重新审视了流行的多数和多元化规则，并表明通常没有识别条件是“且仅在总体上”。假设“最稀少的规则”，该规则等同于多数规则，但在计算算法中变得运作，我们研究并证明了基于两步选择的其他IV估计器的非convex惩罚方法的优势，就两步选择而言选择一致性和单独弱IV的适应性。此外，我们提出了一种与识别条件保持一致的替代较低的惩罚，并同时提供甲骨文稀疏结构。与先前的文献相比，针对静脉强度较弱的估计仪得出了理想的理论特性。使用模拟证明了有限样本特性，并且选择和估计方法应用于有关贸易对经济增长的影响的经验研究。

translated by 谷歌翻译

On Multivariate Singular Spectrum Analysis and its Variants

Anish Agarwal , Abdullah Alomar , Devavrat Shah

分类：机器学习 | (统计)机器学习

2020-06-24

我们介绍和分析了多元奇异频谱分析（MSSA）的变体，这是一种流行的时间序列方法，用于启用和预测多元时间序列。在我们介绍的时空因素模型下，给定$ n $时间序列和$ t $观测时间序列，我们为插补和样本外预测均有效地扩展为$ 1 / \ sqrt，为预测和样本预测有效地缩放均值{\ min（n，t）t} $。这是一个改进：（i）$ 1 /\ sqrt {t} $ SSA的错误缩放，MSSA限制对单变量时间序列；（ii）$ 1/\ min（n，t）$对于不利用数据中时间结构的矩阵估计方法的错误缩放。我们引入的时空模型包括：谐波，多项式，可区分的周期函数和持有人连续函数的任何有限总和和产物。在时空因素模型下，我们的样本外预测结果可能对在线学习具有独立的兴趣。从经验上讲，在基准数据集上，我们的MSSA变体通过最先进的神经网络时间序列方法（例如，DEEPAR，LSTM）竞争性能，并且明显优于诸如矢量自动化（VAR）之类的经典方法。最后，我们提出了MSSA的扩展：（i）估计时间序列的时变差异的变体；（ii）一种张量变体，对于$ n $和$ t $的某些制度具有更好的样本复杂性。

translated by 谷歌翻译

Causal Forecasting:Generalization Bounds for Autoregressive Models

Leena Chennuru Vankadara , Philipp Michael Faller , Lenon Minorics , Debarghya Ghoshdastidar , Dominik Janzing

分类： (统计)机器学习 | 机器学习

2021-11-18

尽管预测方法的相关性越来越高，但这些算法的因果影响仍然很大程度上是未开发的。这与考虑到，即使在简化因果充足之类的假设下，模型的统计风险也可能与其\ Textit {因果风险}有显着差异。在这里，我们研究了*因果概括* - 从观察到介入分布的概括 - 预测。我们的目标是找到问题的答案：自回归（var）模型在预测统计协会方面的疗效如何与其在干预措施下预测的能力相比？为此，我们介绍了*因果学习理论*预测的框架。使用此框架，我们获得了统计和因果风险之间差异的表征，这有助于识别它们之间的分歧源。在因果充足之下，因果概括的因果概括金额与额外的结构（限制介入介入分配）。该结构允许我们获得统一的收敛界面对VAR模型类的因果概括性。据我们所知，这是第一个为时序设置中因果概念提供理论保障的工作。

translated by 谷歌翻译

Modelling High-Dimensional Categorical Data Using Nonconvex Fusion Penalties

Benjamin G. Stokell , Rajen D. Shah , Ryan J. Tibshirani

分类： (统计)机器学习

2020-02-28

我们提出了一种估计具有标称分类数据的高维线性模型的方法。我们的估算器，称为范围，通过使其相应的系数完全相等来融合水平。这是通过对分类变量的系数的阶数统计之间的差异之间的差异来实现这一点，从而聚类系数。我们提供了一种算法，用于精确和有效地计算在具有潜在许多级别的单个变量的情况下的总体上的最小值的全局最小值，并且在多变量情况下在块坐标血管下降过程中使用它。我们表明，利用未知级别融合的Oracle最小二乘解决方案是具有高概率的坐标血缘的极限点，只要真正的级别具有一定的最小分离;已知这些条件在单变量案例中最小。我们展示了在一系列实际和模拟数据集中的范围的有利性能。 R包的R包Catreg实现线性模型的范围，也可以在CRAN上提供逻辑回归的版本。

translated by 谷歌翻译

An Interpretable and Efficient Infinite-Order Vector Autoregressive Model for High-Dimensional Time Series

Yao Zheng , Shibo Li

分类： (统计)机器学习

2022-09-02

作为一种特殊的无限级矢量自回旋（VAR）模型，矢量自回归移动平均值（VARMA）模型比广泛使用的有限级var模型可以捕获更丰富的时间模式。然而，长期以来，其实用性一直受到其不可识别性，计算疾病性和解释相对难度的阻碍。本文介绍了一种新颖的无限级VAR模型，该模型不仅避免了VARMA模型的缺点，而且继承了其有利的时间模式。作为另一个有吸引力的特征，可以单独解释该模型的时间和横截面依赖性结构，因为它们的特征是不同的参数集。对于高维时间序列，这种分离激发了我们对确定横截面依赖性的参数施加稀疏性。结果，可以在不牺牲任何时间信息的情况下实现更高的统计效率和可解释性。我们为提出的模型引入了一个$ \ ell_1 $调查估计量，并得出相应的非反应误差边界。开发了有效的块坐标下降算法和一致的模型顺序选择方法。拟议方法的优点得到了模拟研究和现实世界的宏观经济数据分析的支持。

translated by 谷歌翻译

Dimension-agnostic inference using cross U-statistics

Ilmun Kim , Aaditya Ramdas

分类： (统计)机器学习

2020-11-10

Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.

translated by 谷歌翻译

CovNet: Covariance Networks for Functional Data on Multidimensional Domains

Soham Sarkar , Victor M. Panaretos

分类： (统计)机器学习

2021-04-11

协方差估计在功能数据分析中普遍存在。然而，对多维域的功能观测的情况引入了计算和统计挑战，使标准方法有效地不适用。为了解决这个问题，我们将“协方差网络”（CoVNet）介绍为建模和估算工具。 Covnet模型是“Universal” - 它可用于近似于达到所需精度的任何协方差。此外，该模型可以有效地拟合到数据，其神经网络架构允许我们在实现中采用现代计算工具。 Covnet模型还承认了一个封闭形式的实体分解，可以有效地计算，而不构建协方差本身。这有助于在CoVnet的背景下轻松存储和随后操纵协方差。我们建立了拟议估计者的一致性，得出了汇合速度。通过广泛的仿真研究和休息状态FMRI数据的应用，证明了所提出的方法的有用性。

translated by 谷歌翻译

An Introduction to Modern Statistical Learning

Joseph G. Makin

分类：机器学习

2022-07-20

这项正在进行的工作旨在为统计学习提供统一的介绍，从诸如GMM和HMM等经典模型到现代神经网络（如VAE和扩散模型）缓慢地构建。如今，有许多互联网资源可以孤立地解释这一点或新的机器学习算法，但是它们并没有（也不能在如此简短的空间中）将这些算法彼此连接起来，或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统，尽管对那些已经熟悉材料的人（如这些帖子的作者）不满意，但对新手的入境造成了重大障碍。同样，我的目的是将各种模型（尽可能）吸收到一个用于推理和学习的框架上，表明（以及为什么）如何以最小的变化将一个模型更改为另一个模型（其中一些是新颖的，另一些是文献中的）。某些背景当然是必要的。我以为读者熟悉基本的多变量计算，概率和统计以及线性代数。这本书的目标当然不是完整性，而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后，目标是补充而不是替换，诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本，该文本现在已经15岁了。

translated by 谷歌翻译