我们考虑在离散观察点上测量的功能数据。通常通过额外的噪声测量这种数据。我们在本文中探讨了这种类型数据的因子结构。我们表明潜伏信号可以归因于相应因子模型的公共组件,并且可以通过来自因子模型文献的方法借用方法来估计。我们还表明,在采取这种多变量而不是“功能”的角度之后,可以准确地估计在功能数据分析中发挥关键作用的主成分。除了估计问题之外,我们还解决了对IID噪声的零假设的测试。虽然这个假设在很大程度上在文献中主要是普遍存在的,但我们认为它通常不切实际,并且不受残留分析的支持。
translated by 谷歌翻译
Latent factor model estimation typically relies on either using domain knowledge to manually pick several observed covariates as factor proxies, or purely conducting multivariate analysis such as principal component analysis. However, the former approach may suffer from the bias while the latter can not incorporate additional information. We propose to bridge these two approaches while allowing the number of factor proxies to diverge, and hence make the latent factor model estimation robust, flexible, and statistically more accurate. As a bonus, the number of factors is also allowed to grow. At the heart of our method is a penalized reduced rank regression to combine information. To further deal with heavy-tailed data, a computationally attractive penalized robust reduced rank regression method is proposed. We establish faster rates of convergence compared with the benchmark. Extensive simulations and real examples are used to illustrate the advantages.
translated by 谷歌翻译
Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
协方差估计在功能数据分析中普遍存在。然而,对多维域的功能观测的情况引入了计算和统计挑战,使标准方法有效地不适用。为了解决这个问题,我们将“协方差网络”(CoVNet)介绍为建模和估算工具。 Covnet模型是“Universal” - 它可用于近似于达到所需精度的任何协方差。此外,该模型可以有效地拟合到数据,其神经网络架构允许我们在实现中采用现代计算工具。 Covnet模型还承认了一个封闭形式的实体分解,可以有效地计算,而不构建协方差本身。这有助于在CoVnet的背景下轻松存储和随后操纵协方差。我们建立了拟议估计者的一致性,得出了汇合速度。通过广泛的仿真研究和休息状态FMRI数据的应用,证明了所提出的方法的有用性。
translated by 谷歌翻译
许多现代数据集,从神经影像和地统计数据等领域都以张量数据的随机样本的形式来说,这可以被理解为对光滑的多维随机功能的嘈杂观察。来自功能数据分析的大多数传统技术被维度的诅咒困扰,并且随着域的尺寸增加而迅速变得棘手。在本文中,我们提出了一种学习从多维功能数据样本的持续陈述的框架,这些功能是免受诅咒的几种表现形式的。这些表示由一组可分离的基函数构造,该函数被定义为最佳地适应数据。我们表明,通过仔细定义的数据的仔细定义的减少转换的张测仪分解可以有效地解决所得到的估计问题。使用基于差分运算符的惩罚,并入粗糙的正则化。也建立了相关的理论性质。在模拟研究中证明了我们对竞争方法的方法的优点。我们在神经影像动物中得出真正的数据应用。
translated by 谷歌翻译
JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact
translated by 谷歌翻译
考虑一个面板数据设置,其中可获得对个人的重复观察。通常可以合理地假设存在共享观察特征的类似效果的个体组,但是分组通常提前未知。我们提出了一种新颖的方法来估计普通面板数据模型的这种未观察到的分组。我们的方法明确地估计各个参数估计中的不确定性,并且在每个人上具有大量的个体和/或重复测量的计算可行。即使在单个数据不可用的情况下,也可以应用开发的想法,并且仅向研究人员提供参数估计与某种量化的不确定性。
translated by 谷歌翻译
基于A/B测试的政策评估引起了人们对数字营销的极大兴趣,但是在乘车平台(例如Uber和Didi)中的这种评估主要是由于其时间和/或空间依赖性实验的复杂结构而被很好地研究。 。本文的目的是在乘车平台中的政策评估中进行,目的是在平台的政策和换回设计下的感兴趣结果之间建立因果关系。我们提出了一个基于时间变化系数决策过程(VCDP)模型的新型潜在结果框架,以捕获时间依赖性实验中的动态治疗效果。我们通过将其分解为直接效应总和(DE)和间接效应(IE)来进一步表征平均治疗效应。我们为DE和IE制定了估计和推理程序。此外,我们提出了一个时空VCDP来处理时空依赖性实验。对于这两个VCDP模型,我们都建立了估计和推理程序的统计特性(例如弱收敛和渐近力)。我们进行广泛的模拟,以研究拟议估计和推理程序的有限样本性能。我们研究了VCDP模型如何帮助改善DIDI中各种派遣和处置政策的政策评估。
translated by 谷歌翻译
本文研究了基于Laplacian Eigenmaps(Le)的基于Laplacian EIGENMAPS(PCR-LE)的主要成分回归的统计性质,这是基于Laplacian Eigenmaps(Le)的非参数回归的方法。 PCR-LE通过投影观察到的响应的向量$ {\ bf y} =(y_1,\ ldots,y_n)$ to to changbood图表拉普拉斯的某些特征向量跨越的子空间。我们表明PCR-Le通过SoboLev空格实现了随机设计回归的最小收敛速率。在设计密度$ P $的足够平滑条件下,PCR-le达到估计的最佳速率(其中已知平方$ l ^ 2 $ norm的最佳速率为$ n ^ { - 2s /(2s + d) )} $)和健美的测试($ n ^ { - 4s /(4s + d)$)。我们还表明PCR-LE是\ EMPH {歧管Adaptive}:即,我们考虑在小型内在维度$ M $的歧管上支持设计的情况,并为PCR-LE提供更快的界限Minimax估计($ n ^ { - 2s /(2s + m)$)和测试($ n ^ { - 4s /(4s + m)$)收敛率。有趣的是,这些利率几乎总是比图形拉普拉斯特征向量的已知收敛率更快;换句话说,对于这个问题的回归估计的特征似乎更容易,统计上讲,而不是估计特征本身。我们通过经验证据支持这些理论结果。
translated by 谷歌翻译
Network-based analyses of dynamical systems have become increasingly popular in climate science. Here we address network construction from a statistical perspective and highlight the often ignored fact that the calculated correlation values are only empirical estimates. To measure spurious behaviour as deviation from a ground truth network, we simulate time-dependent isotropic random fields on the sphere and apply common network construction techniques. We find several ways in which the uncertainty stemming from the estimation procedure has major impact on network characteristics. When the data has locally coherent correlation structure, spurious link bundle teleconnections and spurious high-degree clusters have to be expected. Anisotropic estimation variance can also induce severe biases into empirical networks. We validate our findings with ERA5 reanalysis data. Moreover we explain why commonly applied resampling procedures are inappropriate for significance evaluation and propose a statistically more meaningful ensemble construction framework. By communicating which difficulties arise in estimation from scarce data and by presenting which design decisions increase robustness, we hope to contribute to more reliable climate network construction in the future.
translated by 谷歌翻译
由于其出色的经验表现,随机森林是过去十年中使用的机器学习方法之一。然而,由于其黑框的性质,在许多大数据应用中很难解释随机森林的结果。量化各个特征在随机森林中的实用性可以大大增强其解释性。现有的研究表明,一些普遍使用的特征对随机森林的重要性措施遭受了偏见问题。此外,对于大多数现有方法,缺乏全面的规模和功率分析。在本文中,我们通过假设检验解决了问题,并提出了一个自由化特征 - 弥散性相关测试(事实)的框架,以评估具有偏见性属性的随机森林模型中给定特征的重要性,我们零假设涉及该特征是否与所有其他特征有条件地独立于响应。关于高维随机森林一致性的一些最新发展,对随机森林推断的这种努力得到了赋予的能力。在存在功能依赖性的情况下,我们的事实测试的香草版可能会遇到偏见问题。我们利用偏置校正的不平衡和调节技术。我们通过增强功率的功能转换将合奏的想法进一步纳入事实统计范围。在相当普遍的具有依赖特征的高维非参数模型设置下,我们正式确定事实可以提供理论上合理的随机森林具有P值,并通过非催化分析享受吸引人的力量。新建议的方法的理论结果和有限样本优势通过几个模拟示例和与Covid-19的经济预测应用进行了说明。
translated by 谷歌翻译
全球金融危机和共同衰退已重新讨论有关宏观经济数据中趋势周期发现的讨论,而Boosting最近将流行的HP过滤器升级为适合数据丰富和快速计算环境的现代机器学习设备。本文阐明了其在趋势周期测定中的多功能性,以简单的方式解释了HP滤波器平滑性和通过增强一般趋势检测而提供的一致性。应用于FRED数据库中的时间序列的宇宙,在及时捕获随后的危机和恢复局的衰退中提高其他方法的表现。凭借其广泛的适用性,增强的HP过滤器是宏观经济学工具包的有用的自动化机器学习。
translated by 谷歌翻译
现代生物医学研究通常收集多视图数据,即在同一组对象上测量的多种类型的数据。高维多视图数据分析中的流行模型是将每个视图的数据矩阵分解为跨所有数据视图常见的潜在因子生成的低级常见源矩阵,对应于每个视图的低级别源矩阵和添加剂噪声矩阵。我们提出了一种用于该模型的新型分解方法,称为基于分解的广义规范相关分析(D-GCCA)。与大多数现有方法使用的欧几里德点产品空间相比,D-GCCA严格地定义了随机变量的L2空间的分解,从而能够为低秩矩阵恢复提供估计一致性。此外,为了良好校准共同的潜在因子,我们对独特的潜在因子施加了理想的正交性限制。然而,现有方法不充分考虑这种正交性,因此可能遭受未检测到的共同源变异的大量损失。我们的D-GCCA通过分离规范变量中的共同和独特的组分,同时从主成分分析的角度享受吸引人的解释,进一步逐步进行一步。此外,我们建议使用常见的或独特潜在因子解释的信号方差的可变级别比例,以选择最受影响的变量。我们的D-GCCA方法的一致估计是通过良好的有限样本数性能建立的,并且具有封闭式表达式,导致有效计算,特别是对于大规模数据。 D-GCCA在最先进的方法上的优越性也在模拟和现实世界数据示例中得到证实。
translated by 谷歌翻译
我们提出了对学度校正随机块模型(DCSBM)的合适性测试。该测试基于调整后的卡方统计量,用于测量$ n $多项式分布的组之间的平等性,该分布具有$ d_1,\ dots,d_n $观测值。在网络模型的背景下,多项式的数量($ n $)的数量比观测值数量($ d_i $)快得多,与节点$ i $的度相对应,因此设置偏离了经典的渐近学。我们表明,只要$ \ {d_i \} $的谐波平均值生长到无穷大,就可以使统计量在NULL下分配。顺序应用时,该测试也可以用于确定社区数量。该测试在邻接矩阵的压缩版本上进行操作,因此在学位上有条件,因此对大型稀疏网络具有高度可扩展性。我们结合了一个新颖的想法,即在测试$ K $社区时根据$(k+1)$ - 社区分配来压缩行。这种方法在不牺牲计算效率的情况下增加了顺序应用中的力量,我们证明了它在恢复社区数量方面的一致性。由于测试统计量不依赖于特定的替代方案,因此其效用超出了顺序测试,可用于同时测试DCSBM家族以外的各种替代方案。特别是,我们证明该测试与具有社区结构的潜在可变性网络模型的一般家庭一致。
translated by 谷歌翻译
重要的加权是调整蒙特卡洛集成以说明错误分布中抽取的一种一般方法,但是当重要性比的右尾巴较重时,最终的估计值可能是高度可变的。当目标分布的某些方面无法通过近似分布捕获,在这种情况下,可以通过修改极端重要性比率来获得更稳定的估计。我们提出了一种新的方法,该方法使用拟合模拟重要性比率的上尾的广义帕累托分布来稳定重要性权重。该方法在经验上的性能要比现有方法稳定重要性采样估计值更好,包括稳定的有效样本量估计,蒙特卡洛误差估计和收敛诊断。提出的帕累托$ \ hat {k} $有限样本收敛率诊断对任何蒙特卡洛估计器都有用。
translated by 谷歌翻译
统计推断中的主要范式取决于I.I.D.的结构。来自假设的无限人群的数据。尽管它取得了成功,但在复杂的数据结构下,即使在清楚无限人口所代表的内容的情况下,该框架在复杂的数据结构下仍然不灵活。在本文中,我们探讨了一个替代框架,在该框架中,推断只是对模型误差的不变性假设,例如交换性或符号对称性。作为解决这个不变推理问题的一般方法,我们提出了一个基于随机的过程。我们证明了该过程的渐近有效性的一般条件,并在许多数据结构中说明了,包括单向和双向布局中的群集误差。我们发现,通过残差随机化的不变推断具有三个吸引人的属性:(1)在弱且可解释的条件下是有效的,可以解决重型数据,有限聚类甚至一些高维设置的问题。 (2)它在有限样品中是可靠的,因为它不依赖经典渐近学所需的规律性条件。 (3)它以适应数据结构的统一方式解决了推断问题。另一方面,诸如OLS或Bootstrap之类的经典程序以I.I.D.为前提。结构,只要实际问题结构不同,就需要修改。经典框架中的这种不匹配导致了多种可靠的误差技术和自举变体,这些变体经常混淆应用研究。我们通过广泛的经验评估证实了这些发现。残留随机化对许多替代方案的表现有利,包括可靠的误差方法,自举变体和分层模型。
translated by 谷歌翻译
多变量功能数据的协方差结构可以高度复杂,特别是如果多变量维度大,则使标准多变量数据的统计方法的扩展到功能数据设置具有挑战性。例如,通过将多变量方法应用于截断的基础扩展系数,最近已经扩展到高斯图形模型。然而,与多变量数据相比的关键难度是协方差操作员紧凑,因此不可逆转。本文中的方法论地解决了多元函数数据的协方差建模的一般问题,特别是特定功能性高斯图形模型。作为第一步,提出了多变量功能数据的协方差运算符的可分离性的新概念,称为部分可分离性,导致这种数据的新型Karhunen-Lo \“Eve型扩展。接下来,示出部分可分离结构是特别有用的,以提供可以用一系列有限维图形模型,每个相同的固定尺寸识别的明确定义的功能高斯图形模型。这通过应用联合图形套索来激发一个简单有效的估计过程。通过在电机任务期间的模拟和分析功能性脑连接的仿真和分析来评估图形模型估计方法的经验性能。通过在电机任务期间的仿真和分析来评估图形模型估计方法的百分比实证性能。
translated by 谷歌翻译
Experimental sciences have come to depend heavily on our ability to organize, interpret and analyze high-dimensional datasets produced from observations of a large number of variables governed by natural processes. Natural laws, conservation principles, and dynamical structure introduce intricate inter-dependencies among these observed variables, which in turn yield geometric structure, with fewer degrees of freedom, on the dataset. We show how fine-scale features of this structure in data can be extracted from \emph{discrete} approximations to quantum mechanical processes given by data-driven graph Laplacians and localized wavepackets. This data-driven quantization procedure leads to a novel, yet natural uncertainty principle for data analysis induced by limited data. We illustrate the new approach with algorithms and several applications to real-world data, including the learning of patterns and anomalies in social distancing and mobility behavior during the COVID-19 pandemic.
translated by 谷歌翻译
我们根据功能性隐藏动态地理模型(F-HDGM)的惩罚最大似然估计器(PMLE)提出了一种新型的模型选择算法。这些模型采用经典的混合效应回归结构,该结构具有嵌入式时空动力学,以模拟在功能域中观察到的地理参考数据。因此,感兴趣的参数是该域之间的函数。该算法同时选择了相关的样条基函数和回归变量,这些函数和回归变量用于对响应变量与协变量之间的固定效应关系进行建模。这样,它会自动收缩到功能系数的零部分或无关回归器的全部效果。该算法基于迭代优化,并使用自适应的绝对收缩和选择器操作员(LASSO)惩罚函数,其中未含量的F-HDGM最大likikelihood估计器获得了其中的权重。最大化的计算负担大大减少了可能性的局部二次近似。通过蒙特卡洛模拟研究,我们分析了在不同情况下算法的性能,包括回归器之间的强相关性。我们表明,在我们考虑的所有情况下,受罚的估计器的表现都优于未确定的估计器。我们将该算法应用于一个真实案例研究,其中将意大利伦巴第地区的小时二氧化氮浓度记录记录为具有多种天气和土地覆盖协变量的功能过程。
translated by 谷歌翻译