我们考虑使用共享结构估算两个功能无向图形模型之间的差异的问题。在许多应用中,数据自然被认为是随机函数的向量而不是标量的矢量。例如,脑电图(EEG)数据更适当地被视为时间函数。在这样的问题中,不仅可以每个样本测量的函数数量大,而且每个功能都是自身是无限尺寸对象,使估计模型参数具有挑战性。这进一步复杂于曲线通常仅在离散时间点观察到。我们首先定义一个功能差异图,捕获两个功能图形模型之间的差异,并在功能性差分图定义良好时正式表征。然后,我们提出了一种方法,软件,直接估计功能差异图,而不首先估计每个图形。这在各个图形是密集的情况下,这是特别有益的,但差分图是稀疏的。我们表明,融合始终估计功能差图,即使在全面观察和离散的功能路径的高维设置中也是如此。我们通过仿真研究说明了我们方法的有限样本性质。我们还提出了一种竞争方法,该方法是关节功能图形套索,它概括了关节图形套索到功能设置。最后,我们将我们的方法应用于EEG数据,以揭示一群含有酒精使用障碍和对照组的个体之间的功能性脑连接的差异。
translated by 谷歌翻译
多变量功能数据的协方差结构可以高度复杂,特别是如果多变量维度大,则使标准多变量数据的统计方法的扩展到功能数据设置具有挑战性。例如,通过将多变量方法应用于截断的基础扩展系数,最近已经扩展到高斯图形模型。然而,与多变量数据相比的关键难度是协方差操作员紧凑,因此不可逆转。本文中的方法论地解决了多元函数数据的协方差建模的一般问题,特别是特定功能性高斯图形模型。作为第一步,提出了多变量功能数据的协方差运算符的可分离性的新概念,称为部分可分离性,导致这种数据的新型Karhunen-Lo \“Eve型扩展。接下来,示出部分可分离结构是特别有用的,以提供可以用一系列有限维图形模型,每个相同的固定尺寸识别的明确定义的功能高斯图形模型。这通过应用联合图形套索来激发一个简单有效的估计过程。通过在电机任务期间的模拟和分析功能性脑连接的仿真和分析来评估图形模型估计方法的经验性能。通过在电机任务期间的仿真和分析来评估图形模型估计方法的百分比实证性能。
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
在许多情况下,例如全基因组关联研究,通常存在变量之间的依赖性,通常可以推断模型中的相互作用效应。但是,在复杂和高维数据中数百万变量之间的成对相互作用受到低统计功率和巨大的计算成本的影响。为了应对这些挑战,我们提出了一个具有错误发现率(FDR)控制的两阶段测试程序,该程序被称为不太保守的多次测试校正。从理论上讲,FDR控制会费在两个阶段的数据依赖性方面的难度以及第二阶段进行的假设检验的数量取决于第一阶段的筛选结果。通过使用CRAM \'ER类型中度偏差技术,我们表明我们的过程在普遍的线性模型(GLM)中渐近地控制FDR,其中允许模型被误认为。另外,严格确定了FDR控制程序的渐近力。我们通过全面的仿真研究证明,我们的两阶段程序在计算上比经典BH程序具有可比或改进的统计能力更有效。最后,我们将提出的方法应用于DBGAP的膀胱癌数据,科学目标是鉴定膀胱癌的遗传易感性基因座。
translated by 谷歌翻译
基于添加条件独立性,我们为离散节点变量引入非参数图形模型。添加剂条件独立性是一种三种方式统计关系,其通过满足半石灰阳极公理来利用有条件独立性与有条件的独立性共享类似的性质。基于该关系,我们构建了一种用于离散变量的加性图形模型,其不受诸如诸如Ising模型的参数模型的限制。我们通过惩罚添加精度运算符的离散版本的惩罚估算来开发新的图形模型的估计,并在超高维设置下建立估计器的一致性。随着这些方法的发展,我们还利用离散随机变量的性质来揭示添加剂条件独立性与条件独立性之间的更深层次关系。新的图形模型在某些稀疏条件下减少了条件独立性图形模型。我们进行仿真实验和对HIV抗逆转录病毒治疗数据集的分析,以比较现有的新方法。
translated by 谷歌翻译
套索是一种高维回归的方法,当时,当协变量$ p $的订单数量或大于观测值$ n $时,通常使用它。由于两个基本原因,经典的渐近态性理论不适用于该模型:$(1)$正规风险是非平滑的; $(2)$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果,标准的扰动论点是渐近正态性的传统基础。另一方面,套索估计器可以精确地以$ n $和$ p $大,$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量:在这里,我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限,它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序,我们研究了借助拉索的分布,并表明需要校正程度对于计算有效的置信区间是必要的。
translated by 谷歌翻译
本文研究了多任务高维线性回归模型,其中不同任务之间的噪声是相关的,在中等高的维度状态下,样本量$ n $和dimension $ p $是相同的订单。我们的目标是估计噪声随机向量的协方差矩阵,或等效地在任何两个任务上的噪声变量的相关性。将回归系数视为滋扰参数,我们利用多任务弹性网络和多任务套索估计器来估计滋扰。通过准确理解平方残留矩阵的偏置并纠正这种偏见,我们开发了一个新颖的噪声协方差估计器,该噪声协方差以frobenius norm的收敛,以$ n^{ - 1/2} $为$ n^{ - 1/2} $。这个新颖的估计器是有效的计算。在适当的条件下,提出的噪声协方差估计器的收敛速率与事先知道多任务模型回归系数的“甲骨文”估计器相同。本文获得的FROBENIUS误差界限还说明了该新估计量的优势,而不是试图估计滋扰的方法估计器。作为我们技术的副产品,我们获得了多任务弹性NET和多任务套索估计器的概括误差的估计。进行了广泛的仿真研究,以说明该方法的数值性能。
translated by 谷歌翻译
Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.
translated by 谷歌翻译
许多现代数据集,从神经影像和地统计数据等领域都以张量数据的随机样本的形式来说,这可以被理解为对光滑的多维随机功能的嘈杂观察。来自功能数据分析的大多数传统技术被维度的诅咒困扰,并且随着域的尺寸增加而迅速变得棘手。在本文中,我们提出了一种学习从多维功能数据样本的持续陈述的框架,这些功能是免受诅咒的几种表现形式的。这些表示由一组可分离的基函数构造,该函数被定义为最佳地适应数据。我们表明,通过仔细定义的数据的仔细定义的减少转换的张测仪分解可以有效地解决所得到的估计问题。使用基于差分运算符的惩罚,并入粗糙的正则化。也建立了相关的理论性质。在模拟研究中证明了我们对竞争方法的方法的优点。我们在神经影像动物中得出真正的数据应用。
translated by 谷歌翻译
We consider the problem of estimating a multivariate function $f_0$ of bounded variation (BV), from noisy observations $y_i = f_0(x_i) + z_i$ made at random design points $x_i \in \mathbb{R}^d$, $i=1,\ldots,n$. We study an estimator that forms the Voronoi diagram of the design points, and then solves an optimization problem that regularizes according to a certain discrete notion of total variation (TV): the sum of weighted absolute differences of parameters $\theta_i,\theta_j$ (which estimate the function values $f_0(x_i),f_0(x_j)$) at all neighboring cells $i,j$ in the Voronoi diagram. This is seen to be equivalent to a variational optimization problem that regularizes according to the usual continuum (measure-theoretic) notion of TV, once we restrict the domain to functions that are piecewise constant over the Voronoi diagram. The regression estimator under consideration hence performs (shrunken) local averaging over adaptively formed unions of Voronoi cells, and we refer to it as the Voronoigram, following the ideas in Koenker (2005), and drawing inspiration from Tukey's regressogram (Tukey, 1961). Our contributions in this paper span both the conceptual and theoretical frontiers: we discuss some of the unique properties of the Voronoigram in comparison to TV-regularized estimators that use other graph-based discretizations; we derive the asymptotic limit of the Voronoi TV functional; and we prove that the Voronoigram is minimax rate optimal (up to log factors) for estimating BV functions that are essentially bounded.
translated by 谷歌翻译
这项调查旨在提供线性模型及其背后的理论的介绍。我们的目标是对读者进行严格的介绍,并事先接触普通最小二乘。在机器学习中,输出通常是输入的非线性函数。深度学习甚至旨在找到需要大量计算的许多层的非线性依赖性。但是,这些算法中的大多数都基于简单的线性模型。然后,我们从不同视图中描述线性模型,并找到模型背后的属性和理论。线性模型是回归问题中的主要技术,其主要工具是最小平方近似,可最大程度地减少平方误差之和。当我们有兴趣找到回归函数时,这是一个自然的选择,该回归函数可以最大程度地减少相应的预期平方误差。这项调查主要是目的的摘要,即线性模型背后的重要理论的重要性,例如分布理论,最小方差估计器。我们首先从三种不同的角度描述了普通的最小二乘,我们会以随机噪声和高斯噪声干扰模型。通过高斯噪声,该模型产生了可能性,因此我们引入了最大似然估计器。它还通过这种高斯干扰发展了一些分布理论。最小二乘的分布理论将帮助我们回答各种问题并引入相关应用。然后,我们证明最小二乘是均值误差的最佳无偏线性模型,最重要的是,它实际上接近了理论上的极限。我们最终以贝叶斯方法及以后的线性模型结束。
translated by 谷歌翻译
We provide results that exactly quantify how data augmentation affects the convergence rate and variance of estimates. They lead to some unexpected findings: Contrary to common intuition, data augmentation may increase rather than decrease the uncertainty of estimates, such as the empirical prediction risk. Our main theoretical tool is a limit theorem for functions of randomly transformed, high-dimensional random vectors. The proof draws on work in probability on noise stability of functions of many variables. The pathological behavior we identify is not a consequence of complex models, but can occur even in the simplest settings -- one of our examples is a ridge regressor with two parameters. On the other hand, our results also show that data augmentation can have real, quantifiable benefits.
translated by 谷歌翻译
协方差估计在功能数据分析中普遍存在。然而,对多维域的功能观测的情况引入了计算和统计挑战,使标准方法有效地不适用。为了解决这个问题,我们将“协方差网络”(CoVNet)介绍为建模和估算工具。 Covnet模型是“Universal” - 它可用于近似于达到所需精度的任何协方差。此外,该模型可以有效地拟合到数据,其神经网络架构允许我们在实现中采用现代计算工具。 Covnet模型还承认了一个封闭形式的实体分解,可以有效地计算,而不构建协方差本身。这有助于在CoVnet的背景下轻松存储和随后操纵协方差。我们建立了拟议估计者的一致性,得出了汇合速度。通过广泛的仿真研究和休息状态FMRI数据的应用,证明了所提出的方法的有用性。
translated by 谷歌翻译
在分布式机器学习实践中越来越受欢迎,在分布式机器学习实践中越来越受欢迎,在不共享本地数据的情况下,对算法进行了算法培训的联合学习。通常,图形结构$ g $存在于本地设备以进行通信。在这项工作中,我们考虑使用数据分布和通信异质性以及本地设备的计算能力有限的联合学习中的参数估计。我们通过在本地设备上参数化分布来编码分布异质性,并具有一组不同的$ p $维矢量。然后,我们建议在$ m $估算框架下与融合套索正则化的所有设备共同估计所有设备的参数,从而鼓励对$ g $中连接的设备上的参数进行平等估计。根据$ G $,我们可以为估计器提供一般结果,可以进一步校准以获得各种特定问题设置的收敛率。令人惊讶的是,我们的估计器在$ g $上的某些图保真度条件下达到了最佳率,就好像我们可以汇总所有共享相同分布的样本一样。如果未满足图形保真度条件,我们通过多次测试提出一个边缘选择过程,以确保最佳性。为了减轻本地计算的负担,提供了一个分散的随机版本的ADMM,收敛速率$ o(t^{ - 1} \ log t)$,其中$ t $表示迭代的数量。我们强调,我们的算法在每次迭代时仅沿$ g $的边缘传输参数,而无需保留隐私的中央机器。我们将其进一步扩展到在训练过程中随机无法接近设备的情况,并具有类似的算法收敛保证。模拟实验和2020年美国总统选举数据集证明了我们方法的计算和统计效率。
translated by 谷歌翻译
作为估计高维网络的工具,图形模型通常应用于钙成像数据以估计功能性神经元连接,即神经元活动之间的关系。但是,在许多钙成像数据集中,没有同时记录整个神经元的人群,而是部分重叠的块。如(Vinci等人2019年)最初引入的,这导致了图形缝问题,在该问题中,目的是在仅观察到功能的子集时推断完整图的结构。在本文中,我们研究了一种新颖的两步方法来绘制缝的方法,该方法首先使用低级协方差完成技术在估计图结构之前使用低级协方差完成技术划分完整的协方差矩阵。我们介绍了三种解决此问题的方法:阻止奇异价值分解,核标准惩罚和非凸低级别分解。尽管先前的工作已经研究了低级别矩阵的完成,但我们解决了阻碍遗失的挑战,并且是第一个在图形学习背景下研究问题的挑战。我们讨论了两步过程的理论特性,通过证明新颖的l无限 - 基 - 误差界的矩阵完成,以块错失性证明了一种提出的方​​法的图选择一致性。然后,我们研究了所提出的方法在模拟和现实世界数据示例上的经验性能,通过该方法,我们显示了这些方法从钙成像数据中估算功能连通性的功效。
translated by 谷歌翻译
矩阵值数据在许多应用中越来越普遍。这种类型数据的大多数现有的聚类方法都是针对均值模型定制的,并且不考虑特征的依赖结构,这可能非常有信息,尤其是在高维设置中。要从群集结构中提取信息以进行群集,我们提出了一种以矩阵形式排列的特征的新潜在变量模型,其中一些未知的隶属矩阵表示行和列的群集。在该模型下,我们进一步提出了一类使用加权协方差矩阵的差异作为异化测量的分层聚类算法。从理论上讲,我们表明,在温和条件下,我们的算法在高维设置中达到聚类一致性。虽然这种一致性结果为我们的算法具有广泛的加权协方差矩阵,但该结果的条件取决于重量的选择。为了调查重量如何影响我们算法的理论性能,我们在我们的潜在变量模型下建立了群集的最小限制。鉴于这些结果,我们在使用此权重的意义上识别最佳权重,保证我们的算法在某些集群分离度量的大小方面是最佳的最佳速率。还讨论了我们具有最佳权重的算法的实际实现。最后,我们进行仿真研究以评估我们算法的有限样本性能,并将该方法应用于基因组数据集。
translated by 谷歌翻译
我们提出了一个强大的框架,以执行线性回归,而功能中缺少条目。通过考虑椭圆形数据分布,特别是多元正常模型,我们能够为缺失条目制定分布并提出一个强大的框架,这最大程度地减少了由于缺失数据的不确定性而造成的最严重的情况。我们表明,所提出的公式自然考虑了不同变量之间的依赖性,最终减少了凸面程序,可以为其提供自定义和可扩展的求解器。除了提供此类求解器的详细分析外,我们还渐近地分析了所提出的框架的行为,并进行了技术讨论以估算所需的输入参数。我们通过对合成,半合成和真实数据进行的实验进行补充,并展示提出的配方如何提高预测准确性和鲁棒性,并优于竞争技术。
translated by 谷歌翻译
我们调查与高斯的混合的数据分享共同但未知,潜在虐待协方差矩阵的数据。我们首先考虑具有两个等级大小的组件的高斯混合,并根据最大似然估计导出最大切割整数程序。当样品的数量在维度下线性增长时,我们证明其解决方案实现了最佳的错误分类率,直到对数因子。但是,解决最大切割问题似乎是在计算上棘手的。为了克服这一点,我们开发了一种高效的频谱算法,该算法达到最佳速率,但需要一种二次样本量。虽然这种样本复杂性比最大切割问题更差,但我们猜测没有多项式方法可以更好地执行。此外,我们收集了支持统计计算差距存在的数值和理论证据。最后,我们将MAX-CUT程序概括为$ k $ -means程序,该程序处理多组分混合物的可能性不平等。它享有相似的最优性保证,用于满足运输成本不平等的分布式的混合物,包括高斯和强烈的对数的分布。
translated by 谷歌翻译
Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.
translated by 谷歌翻译
即使是最精确的经济数据集也具有嘈杂,丢失,离散化或私有化的变量。实证研究的标准工作流程涉及数据清理,然后是数据分析,通常忽略数据清洁的偏差和方差后果。我们制定了具有损坏数据的因果推理的半造型模型,以包括数据清洁和数据分析。我们提出了一种新的数据清洁,估计和推理的新的端到端程序,以及数据清洁调整的置信区间。通过有限的示例参数,我们证明了因果关系参数的估算器的一致性,高斯近似和半游戏效率。 Gaussian近似的速率为N ^ { - 1/2} $,如平均治疗效果,如平均治疗效果,并且优雅地为当地参数劣化,例如特定人口统计的异构治疗效果。我们的关键假设是真正的协变量是较低的等级。在我们的分析中,我们为矩阵完成,统计学习和半统计统计提供了非对症的理论贡献。我们验证了数据清洁调整的置信区间隔的覆盖范围校准,以类似于2020年美国人口普查中实施的差异隐私。
translated by 谷歌翻译