具有许多多变量反应和协变量的拟合回归模型可能具有挑战性,但这种反应和协变量有时会具有张于变化的结构。我们扩展了经典多元回归模型以以两种方式利用此类结构:首先,我们对回归系数施加四种类型的低级张量格式。其次,我们使用Tensor-Variate正常分布模拟错误,该误差在协方差矩阵上强加了Kronecker可分离格式。我们通过块放松算法获得最大似然估计,并得出其计算复杂性和渐近分布。我们的回归框架使我们能够制定句子 - 变异的方差(Tanova)方法。当以单向Tanova布局应用时,使我们能够识别与功能磁共振成像研究中的自杀企图或非追求竞技器的相互作用显着相关的脑区。另一个应用程序在野生图像数据集中标记的面孔上使用三向Tanova,以区分与族裔血统,年龄组和性别相关的面部特征。 R包$ Totr $实施方法。
translated by 谷歌翻译
许多现代数据集,从神经影像和地统计数据等领域都以张量数据的随机样本的形式来说,这可以被理解为对光滑的多维随机功能的嘈杂观察。来自功能数据分析的大多数传统技术被维度的诅咒困扰,并且随着域的尺寸增加而迅速变得棘手。在本文中,我们提出了一种学习从多维功能数据样本的持续陈述的框架,这些功能是免受诅咒的几种表现形式的。这些表示由一组可分离的基函数构造,该函数被定义为最佳地适应数据。我们表明,通过仔细定义的数据的仔细定义的减少转换的张测仪分解可以有效地解决所得到的估计问题。使用基于差分运算符的惩罚,并入粗糙的正则化。也建立了相关的理论性质。在模拟研究中证明了我们对竞争方法的方法的优点。我们在神经影像动物中得出真正的数据应用。
translated by 谷歌翻译
This survey provides an overview of higher-order tensor decompositions, their applications, and available software. A tensor is a multidimensional or N -way array. Decompositions of higher-order tensors (i.e., N -way arrays with N ≥ 3) have applications in psychometrics, chemometrics, signal processing, numerical linear algebra, computer vision, numerical analysis, data mining, neuroscience, graph analysis, and elsewhere. Two particular tensor decompositions can be considered to be higher-order extensions of the matrix singular value decomposition: CANDECOMP/PARAFAC (CP) decomposes a tensor as a sum of rank-one tensors, and the Tucker decomposition is a higher-order form of principal component analysis. There are many other tensor decompositions, including INDSCAL, PARAFAC2, CANDELINC, DEDICOM, and PARATUCK2 as well as nonnegative variants of all of the above. The N-way Toolbox, Tensor Toolbox, and Multilinear Engine are examples of software packages for working with tensors.
translated by 谷歌翻译
高维领域的数据经常在许多学科中自然地或由于初步处理而产生并且可以具有需要理解的复杂依赖结构。我们开发了对预计的正态分布的探索性因子分析,以解释使用少数容易解释的潜在因子来解释这些数据的可变性。我们的方法通过新颖的快速交替期望简档条件最大化算法提供了最大似然估计。结果仿真实验在各种环境中均匀优异。我们的方法在2018年12月初使用$ \#Metoo $哈希特方式时,提供可解释和富有洞察力的结果,以时间课程的平均青少年大脑的时间函数磁共振图像在休息,表征手写的数字和基因来自癌症基因组地图集中癌细胞的表达数据。
translated by 谷歌翻译
我们研究了用$ q $ modes $ a \ in \ mathbb {r}^{n \ times \ ldots \ times n} $的近似给定张量的问题。图$ g =(v,e)$,其中$ | v | = q $,以及张张量的集合$ \ {u_v \ mid v \ in v \} $,以$ g $指定的方式收缩以获取张量$ t $。对于$ u_v $的每种模式,对应于$ v $的边缘事件,尺寸为$ k $,我们希望找到$ u_v $,以便最小化$ t $和$ a $之间的frobenius norm距离。这概括了许多众所周知的张量网络分解,例如张量列,张量环,塔克和PEPS分解。我们大约是二进制树网络$ t'$带有$ o(q)$核的大约$ a $,因此该网络的每个边缘上的尺寸最多是$ \ widetilde {o}(k^{o(dt) } \ cdot q/\ varepsilon)$,其中$ d $是$ g $的最大度,$ t $是其树宽,因此$ \ | a -t'-t'\ | _f^2 \ leq(1 + \ Varepsilon)\ | a -t \ | _f^2 $。我们算法的运行时间为$ o(q \ cdot \ text {nnz}(a)) + n \ cdot \ text {poly}(k^{dt} q/\ varepsilon)$,其中$ \ text {nnz }(a)$是$ a $的非零条目的数量。我们的算法基于一种可能具有独立感兴趣的张量分解的新维度降低技术。我们还开发了固定参数可处理的$(1 + \ varepsilon)$ - 用于张量火车和塔克分解的近似算法,改善了歌曲的运行时间,Woodruff和Zhong(Soda,2019),并避免使用通用多项式系统求解器。我们表明,我们的算法对$ 1/\ varepsilon $具有几乎最佳的依赖性,假设没有$ O(1)$ - 近似算法的$ 2 \至4 $ norm,并且运行时间比蛮力更好。最后,我们通过可靠的损失函数和固定参数可拖动CP分解给出了塔克分解的其他结果。
translated by 谷歌翻译
统计推断中的主要范式取决于I.I.D.的结构。来自假设的无限人群的数据。尽管它取得了成功,但在复杂的数据结构下,即使在清楚无限人口所代表的内容的情况下,该框架在复杂的数据结构下仍然不灵活。在本文中,我们探讨了一个替代框架,在该框架中,推断只是对模型误差的不变性假设,例如交换性或符号对称性。作为解决这个不变推理问题的一般方法,我们提出了一个基于随机的过程。我们证明了该过程的渐近有效性的一般条件,并在许多数据结构中说明了,包括单向和双向布局中的群集误差。我们发现,通过残差随机化的不变推断具有三个吸引人的属性:(1)在弱且可解释的条件下是有效的,可以解决重型数据,有限聚类甚至一些高维设置的问题。 (2)它在有限样品中是可靠的,因为它不依赖经典渐近学所需的规律性条件。 (3)它以适应数据结构的统一方式解决了推断问题。另一方面,诸如OLS或Bootstrap之类的经典程序以I.I.D.为前提。结构,只要实际问题结构不同,就需要修改。经典框架中的这种不匹配导致了多种可靠的误差技术和自举变体,这些变体经常混淆应用研究。我们通过广泛的经验评估证实了这些发现。残留随机化对许多替代方案的表现有利,包括可靠的误差方法,自举变体和分层模型。
translated by 谷歌翻译
本文研究了多任务高维线性回归模型,其中不同任务之间的噪声是相关的,在中等高的维度状态下,样本量$ n $和dimension $ p $是相同的订单。我们的目标是估计噪声随机向量的协方差矩阵,或等效地在任何两个任务上的噪声变量的相关性。将回归系数视为滋扰参数,我们利用多任务弹性网络和多任务套索估计器来估计滋扰。通过准确理解平方残留矩阵的偏置并纠正这种偏见,我们开发了一个新颖的噪声协方差估计器,该噪声协方差以frobenius norm的收敛,以$ n^{ - 1/2} $为$ n^{ - 1/2} $。这个新颖的估计器是有效的计算。在适当的条件下,提出的噪声协方差估计器的收敛速率与事先知道多任务模型回归系数的“甲骨文”估计器相同。本文获得的FROBENIUS误差界限还说明了该新估计量的优势,而不是试图估计滋扰的方法估计器。作为我们技术的副产品,我们获得了多任务弹性NET和多任务套索估计器的概括误差的估计。进行了广泛的仿真研究,以说明该方法的数值性能。
translated by 谷歌翻译
网络数据通常在各种应用程序中收集,代表感兴趣的功能之间直接测量或统计上推断的连接。在越来越多的域中,这些网络会随着时间的流逝而收集,例如不同日子或多个主题之间的社交媒体平台用户之间的交互,例如在大脑连接性的多主体研究中。在分析多个大型网络时,降低降低技术通常用于将网络嵌入更易于处理的低维空间中。为此,我们通过专门的张量分解来开发用于网络集合的主组件分析(PCA)的框架,我们将半对称性张量PCA或SS-TPCA术语。我们得出计算有效的算法来计算我们提出的SS-TPCA分解,并在标准的低级别信号加噪声模型下建立方法的统计效率。值得注意的是,我们表明SS-TPCA具有与经典矩阵PCA相同的估计精度,并且与网络中顶点数的平方根成正比,而不是预期的边缘数。我们的框架继承了古典PCA的许多优势,适用于广泛的无监督学习任务,包括识别主要网络,隔离有意义的更改点或外出观察,以及表征最不同边缘的“可变性网络”。最后,我们证明了我们的提案对模拟数据的有效性以及经验法律研究的示例。用于建立我们主要一致性结果的技术令人惊讶地简单明了,可能会在其他各种网络分析问题中找到使用。
translated by 谷歌翻译
我们的目标是在沿着张量模式的协变量信息存在中可获得稀疏和高度缺失的张量。我们的动机来自在线广告,在各种设备上的广告上的用户点击率(CTR)形成了大约96%缺失条目的CTR张量,并且在非缺失条目上有许多零,这使得独立的张量完井方法不满意。除了CTR张量旁边,额外的广告功能或用户特性通常可用。在本文中,我们提出了协助协助的稀疏张力完成(Costco),以合并复苏恢复稀疏张量的协变量信息。关键思想是共同提取来自张量和协变矩阵的潜伏组分以学习合成表示。从理论上讲,我们导出了恢复的张量组件的错误绑定,并明确地量化了由于协变量引起的显露概率条件和张量恢复精度的改进。最后,我们将Costco应用于由CTR张量和广告协变矩阵组成的广告数据集,从而通过基线的23%的准确性改进。重要的副产品是来自Costco的广告潜在组件显示有趣的广告集群,这对于更好的广告目标是有用的。
translated by 谷歌翻译
In this paper, we develop new methods for analyzing high-dimensional tensor datasets. A tensor factor model describes a high-dimensional dataset as a sum of a low-rank component and an idiosyncratic noise, generalizing traditional factor models for panel data. We propose an estimation algorithm, called tensor principal component analysis (PCA), which generalizes the traditional PCA applicable to panel data. The algorithm involves unfolding the tensor into a sequence of matrices along different dimensions and applying PCA to the unfolded matrices. We provide theoretical results on the consistency and asymptotic distribution for tensor PCA estimator of loadings and factors. The algorithm demonstrates good performance in Mote Carlo experiments and is applied to sorted portfolios.
translated by 谷歌翻译
这项调查旨在提供线性模型及其背后的理论的介绍。我们的目标是对读者进行严格的介绍,并事先接触普通最小二乘。在机器学习中,输出通常是输入的非线性函数。深度学习甚至旨在找到需要大量计算的许多层的非线性依赖性。但是,这些算法中的大多数都基于简单的线性模型。然后,我们从不同视图中描述线性模型,并找到模型背后的属性和理论。线性模型是回归问题中的主要技术,其主要工具是最小平方近似,可最大程度地减少平方误差之和。当我们有兴趣找到回归函数时,这是一个自然的选择,该回归函数可以最大程度地减少相应的预期平方误差。这项调查主要是目的的摘要,即线性模型背后的重要理论的重要性,例如分布理论,最小方差估计器。我们首先从三种不同的角度描述了普通的最小二乘,我们会以随机噪声和高斯噪声干扰模型。通过高斯噪声,该模型产生了可能性,因此我们引入了最大似然估计器。它还通过这种高斯干扰发展了一些分布理论。最小二乘的分布理论将帮助我们回答各种问题并引入相关应用。然后,我们证明最小二乘是均值误差的最佳无偏线性模型,最重要的是,它实际上接近了理论上的极限。我们最终以贝叶斯方法及以后的线性模型结束。
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
我们考虑使用共享结构估算两个功能无向图形模型之间的差异的问题。在许多应用中,数据自然被认为是随机函数的向量而不是标量的矢量。例如,脑电图(EEG)数据更适当地被视为时间函数。在这样的问题中,不仅可以每个样本测量的函数数量大,而且每个功能都是自身是无限尺寸对象,使估计模型参数具有挑战性。这进一步复杂于曲线通常仅在离散时间点观察到。我们首先定义一个功能差异图,捕获两个功能图形模型之间的差异,并在功能性差分图定义良好时正式表征。然后,我们提出了一种方法,软件,直接估计功能差异图,而不首先估计每个图形。这在各个图形是密集的情况下,这是特别有益的,但差分图是稀疏的。我们表明,融合始终估计功能差图,即使在全面观察和离散的功能路径的高维设置中也是如此。我们通过仿真研究说明了我们方法的有限样本性质。我们还提出了一种竞争方法,该方法是关节功能图形套索,它概括了关节图形套索到功能设置。最后,我们将我们的方法应用于EEG数据,以揭示一群含有酒精使用障碍和对照组的个体之间的功能性脑连接的差异。
translated by 谷歌翻译
本文研究了三个或多个维度的多维面板数据的线性和可分离模型,具有未观察到的交互式固定效果。当在观察到的协变量上估计系数时,两种方法被认为是这些未观察到的交互式固定效应。首先,该模型嵌入了标准二维面板框架中,并且在Bai(2009)中的因子结构方法导致模型参数的一致估计中得出了限制。第二种方法考虑了组固定效应和内核方法,这些方法对问题的多维性质更强大。理论结果和仿真显示了当已知交互式固定效应项的结构时,标准二维方法的好处,但也突出显示了组固定效应和内核方法在不了解这种结构的情况下如何表现良好。实施了这些方法来估计少数型号的需求模型下的啤酒需求弹性。
translated by 谷歌翻译
kronecker回归是一个高度结构的最小二乘问题$ \ min _ {\ mathbf {x}}} \ lvert \ mathbf {k} \ mathbf {x} - \ mathbf {b} \ rvert_ \ rvert_ {2}^2 $矩阵$ \ mathbf {k} = \ mathbf {a}^{(1)} \ otimes \ cdots \ cdots \ otimes \ mathbf {a}^{(n)} $是因子矩阵的Kronecker产品。这种回归问题是在广泛使用的最小二乘(ALS)算法的每个步骤中都出现的,用于计算张量的塔克分解。我们介绍了第一个用于求解Kronecker回归的子次数算法,以避免在运行时间中避免指数项$ o(\ varepsilon^{ - n})$的$(1+ \ varepsilon)$。我们的技术结合了利用分数抽样和迭代方法。通过扩展我们对一个块是Kronecker产品的块设计矩阵的方法,我们还实现了(1)Kronecker Ridge回归的亚次级时间算法,并且(2)更新ALS中Tucker分解的因子矩阵,这不是一个不是一个纯Kronecker回归问题,从而改善了Tucker ALS的所有步骤的运行时间。我们证明了该Kronecker回归算法在合成数据和现实世界图像张量上的速度和准确性。
translated by 谷歌翻译
现代高维方法经常采用“休稀稀物”的原则,而在监督多元学习统计学中可能面临着大量非零系数的“密集”问题。本文提出了一种新的聚类减少秩(CRL)框架,其施加了两个联合矩阵规范化,以自动分组构建预测因素的特征。 CRL比低级别建模更具可解释,并放松变量选择中的严格稀疏假设。在本文中,提出了新的信息 - 理论限制,揭示了寻求集群的内在成本,以及多元学习中的维度的祝福。此外,开发了一种有效的优化算法,其执行子空间学习和具有保证融合的聚类。所获得的定点估计器虽然不一定是全局最佳的,但在某些规则条件下享有超出标准似然设置的所需的统计准确性。此外,提出了一种新的信息标准,以及其无垢形式,用于集群和秩选择,并且具有严格的理论支持,而不假设无限的样本大小。广泛的模拟和实数据实验证明了所提出的方法的统计准确性和可解释性。
translated by 谷歌翻译
在本文中,我们研究了在一组单位上进行的设计实验的问题,例如在线市场中的用户或用户组,以多个时间段,例如数周或数月。这些实验特别有助于研究对当前和未来结果具有因果影响的治疗(瞬时和滞后的影响)。设计问题涉及在实验之前或期间选择每个单元的治疗时间,以便最精确地估计瞬间和滞后的效果,实验后。这种治疗决策的优化可以通过降低其样本尺寸要求,直接最小化实验的机会成本。优化是我们提供近最优解的NP-Hard整数程序,当时在开始时进行设计决策(固定样本大小设计)。接下来,我们研究允许在实验期间进行适应性决策的顺序实验,并且还可能早期停止实验,进一步降低其成本。然而,这些实验的顺序性质使设计阶段和估计阶段复杂化。我们提出了一种新的算法,PGAE,通过自适应地制造治疗决策,估算治疗效果和绘制有效的实验后推理来解决这些挑战。 PGAE将来自贝叶斯统计,动态编程和样品分裂的思想结合起来。使用来自多个域的真实数据集的合成实验,我们证明了与基准相比,我们的固定样本尺寸和顺序实验的提出解决方案将实验的机会成本降低了50%和70%。
translated by 谷歌翻译
矩阵值数据在许多应用中越来越普遍。这种类型数据的大多数现有的聚类方法都是针对均值模型定制的,并且不考虑特征的依赖结构,这可能非常有信息,尤其是在高维设置中。要从群集结构中提取信息以进行群集,我们提出了一种以矩阵形式排列的特征的新潜在变量模型,其中一些未知的隶属矩阵表示行和列的群集。在该模型下,我们进一步提出了一类使用加权协方差矩阵的差异作为异化测量的分层聚类算法。从理论上讲,我们表明,在温和条件下,我们的算法在高维设置中达到聚类一致性。虽然这种一致性结果为我们的算法具有广泛的加权协方差矩阵,但该结果的条件取决于重量的选择。为了调查重量如何影响我们算法的理论性能,我们在我们的潜在变量模型下建立了群集的最小限制。鉴于这些结果,我们在使用此权重的意义上识别最佳权重,保证我们的算法在某些集群分离度量的大小方面是最佳的最佳速率。还讨论了我们具有最佳权重的算法的实际实现。最后,我们进行仿真研究以评估我们算法的有限样本性能,并将该方法应用于基因组数据集。
translated by 谷歌翻译
多变量功能数据的协方差结构可以高度复杂,特别是如果多变量维度大,则使标准多变量数据的统计方法的扩展到功能数据设置具有挑战性。例如,通过将多变量方法应用于截断的基础扩展系数,最近已经扩展到高斯图形模型。然而,与多变量数据相比的关键难度是协方差操作员紧凑,因此不可逆转。本文中的方法论地解决了多元函数数据的协方差建模的一般问题,特别是特定功能性高斯图形模型。作为第一步,提出了多变量功能数据的协方差运算符的可分离性的新概念,称为部分可分离性,导致这种数据的新型Karhunen-Lo \“Eve型扩展。接下来,示出部分可分离结构是特别有用的,以提供可以用一系列有限维图形模型,每个相同的固定尺寸识别的明确定义的功能高斯图形模型。这通过应用联合图形套索来激发一个简单有效的估计过程。通过在电机任务期间的模拟和分析功能性脑连接的仿真和分析来评估图形模型估计方法的经验性能。通过在电机任务期间的仿真和分析来评估图形模型估计方法的百分比实证性能。
translated by 谷歌翻译
矩阵正常模型,高斯矩阵变化分布的系列,其协方差矩阵是两个较低尺寸因子的Kronecker乘积,经常用于模拟矩阵变化数据。张量正常模型将该家庭推广到三个或更多因素的Kronecker产品。我们研究了矩阵和张量模型中协方差矩阵的Kronecker因子的估计。我们向几个自然度量中的最大似然估计器(MLE)实现的误差显示了非因素界限。与现有范围相比,我们的结果不依赖于条件良好或稀疏的因素。对于矩阵正常模型,我们所有的所有界限都是最佳的对数因子最佳,对于张量正常模型,我们对最大因数和整体协方差矩阵的绑定是最佳的,所以提供足够的样品以获得足够的样品以获得足够的样品常量Frobenius错误。在与我们的样本复杂性范围相同的制度中,我们表明迭代程序计算称为触发器算法称为触发器算法的MLE的线性地收敛,具有高概率。我们的主要工具是Fisher信息度量诱导的正面矩阵的几何中的测地强凸性。这种强大的凸起由某些随机量子通道的扩展来决定。我们还提供了数值证据,使得将触发器算法与简单的收缩估计器组合可以提高缺乏采样制度的性能。
translated by 谷歌翻译