具有有限培训数据的多个类协方差矩阵的估计是一个难题。已知样品协方差矩阵(SCM)在与可用的样本数量相比大的变量大量时执行差。为了减少SCM的平均平方误差(MSE),通常使用正则化(收缩)SCM估计器。在这项工作中,我们考虑正规化的SCM(RSCM)估算器,用于将两个不同的目标矩阵结合在一起进行正则化:类的汇总(平均)和缩放标识矩阵。当人口协方差相似时,朝向汇集的SCM正规化是有益的,而对身份矩阵的正规化保证估算者是积极的。我们推导了估算器的MSE最佳调整参数,并提出了一种在课程中遵循(未指定)椭圆分布的假设下进行估计的方法,其中包括有限的第四阶矩。建议耦合RSCMS的MSE性能被仿真评估,并在真实数据上进行正则化判别分析(RDA)分类设置。基于三个不同的真实数据集的结果表示交叉验证的可比性,但在计算时间中具有显着的加速。
translated by 谷歌翻译
群集分析需要许多决定:聚类方法和隐含的参考模型,群集数,通常,几个超参数和算法调整。在实践中,一个分区产生多个分区,基于验证或选择标准选择最终的分区。存在丰富的验证方法,即隐式或明确地假设某个聚类概念。此外,它们通常仅限于从特定方法获得的分区上操作。在本文中,我们专注于可以通过二次或线性边界分开的群体。参考集群概念通过二次判别符号函数和描述集群大小,中心和分散的参数定义。我们开发了两个名为二次分数的群集质量标准。我们表明这些标准与从一般类椭圆对称分布产生的组一致。对这种类型的组追求在应用程序中是常见的。研究了与混合模型和模型的聚类的似然理论的连接。基于Bootstrap重新采样的二次分数,我们提出了一个选择规则,允许在许多聚类解决方案中选择。所提出的方法具有独特的优点,即它可以比较不能与其他最先进的方法进行比较的分区。广泛的数值实验和实际数据的分析表明,即使某些竞争方法在某些设置中出现优越,所提出的方法也实现了更好的整体性能。
translated by 谷歌翻译
We consider estimation under model misspecification where there is a model mismatch between the underlying system, which generates the data, and the model used during estimation. We propose a model misspecification framework which enables a joint treatment of the model misspecification types of having fake features as well as incorrect covariance assumptions on the unknowns and the noise. We present a decomposition of the output error into components that relate to different subsets of the model parameters corresponding to underlying, fake and missing features. Here, fake features are features which are included in the model but are not present in the underlying system. Under this framework, we characterize the estimation performance and reveal trade-offs between the number of samples, number of fake features, and the possibly incorrect noise level assumption. In contrast to existing work focusing on incorrect covariance assumptions or missing features, fake features is a central component of our framework. Our results show that fake features can significantly improve the estimation performance, even though they are not correlated with the features in the underlying system. In particular, we show that the estimation error can be decreased by including more fake features in the model, even to the point where the model is overparametrized, i.e., the model contains more unknowns than observations.
translated by 谷歌翻译
我们开发了一个计算程序,以估计具有附加噪声的半摩托车高斯过程回归模型的协方差超参数。也就是说,提出的方法可用于有效估计相关误差的方差,以及基于最大化边际似然函数的噪声方差。我们的方法涉及适当地降低超参数空间的维度,以简化单变量的根发现问题的估计过程。此外,我们得出了边际似然函数及其衍生物的边界和渐近线,这对于缩小高参数搜索的初始范围很有用。使用数值示例,我们证明了与传统参数优化相比,提出方法的计算优势和鲁棒性。
translated by 谷歌翻译
嵌套模拟涉及通过模拟估算条件期望的功能。在本文中,我们提出了一种基于内核RIDGE回归的新方法,利用作为多维调节变量的函数的条件期望的平滑度。渐近分析表明,随着仿真预算的增加,所提出的方法可以有效地减轻了对收敛速度的维度诅咒,只要条件期望足够平滑。平滑度桥接立方根收敛速度之间的间隙(即标准嵌套模拟的最佳速率)和平方根收敛速率(即标准蒙特卡罗模拟的规范率)。我们通过来自投资组合风险管理和输入不确定性量化的数值例子来证明所提出的方法的性能。
translated by 谷歌翻译
Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.
translated by 谷歌翻译
许多现代数据集,从神经影像和地统计数据等领域都以张量数据的随机样本的形式来说,这可以被理解为对光滑的多维随机功能的嘈杂观察。来自功能数据分析的大多数传统技术被维度的诅咒困扰,并且随着域的尺寸增加而迅速变得棘手。在本文中,我们提出了一种学习从多维功能数据样本的持续陈述的框架,这些功能是免受诅咒的几种表现形式的。这些表示由一组可分离的基函数构造,该函数被定义为最佳地适应数据。我们表明,通过仔细定义的数据的仔细定义的减少转换的张测仪分解可以有效地解决所得到的估计问题。使用基于差分运算符的惩罚,并入粗糙的正则化。也建立了相关的理论性质。在模拟研究中证明了我们对竞争方法的方法的优点。我们在神经影像动物中得出真正的数据应用。
translated by 谷歌翻译
我们研究了估计回归函数的导数的问题,该函数的衍生物具有广泛的应用,作为未知函数的关键非参数功能。标准分析可以定制为特定的衍生订单,参数调整仍然是一个艰巨的挑战,尤其是对于高阶导数。在本文中,我们提出了一个简单的插入式内核脊回归(KRR)估计器,其非参数回归中具有随机设计,该设计广泛适用于多维支持和任意混合派生衍生物。我们提供了非反应分析,以统一的方式研究提出的估计量的行为,该估计量涵盖回归函数及其衍生物,从而在强$ l_ \ infty $ norm中导致一般核类中的一般内核的两个误差范围。在专门针对多个多项式衰减特征值核的具体示例中,提出的估计器将最小值的最佳速率恢复到估计H \ h \ offormions ofergarithmic因子的最佳速率。因此,在任何衍生词的顺序中都选择了调整参数。因此,提出的估计器享受\ textIt {插件属性}的衍生物,因为它会自动适应要估计的衍生物顺序,从而可以轻松地在实践中调整。我们的仿真研究表明,相对于几种现有方法蓝色的几种现有方法的有限样本性能有限,并证实了其最小值最优性的理论发现。
translated by 谷歌翻译
教师 - 学生模型提供了一个框架,其中可以以封闭形式描述高维监督学习的典型情况。高斯I.I.D的假设然而,可以认为典型教师 - 学生模型的输入数据可以被认为过于限制,以捕获现实数据集的行为。在本文中,我们介绍了教师和学生可以在不同的空格上行动的模型的高斯协变态概括,以固定的,而是通用的特征映射。虽然仍处于封闭形式的仍然可解决,但这种概括能够捕获广泛的现实数据集的学习曲线,从而兑现师生框架的潜力。我们的贡献是两倍:首先,我们证明了渐近培训损失和泛化误差的严格公式。其次,我们呈现了许多情况,其中模型的学习曲线捕获了使用内​​核回归和分类学习的现实数据集之一,其中盒出开箱特征映射,例如随机投影或散射变换,或者与散射变换预先学习的 - 例如通过培训多层神经网络学到的特征。我们讨论了框架的权力和局限性。
translated by 谷歌翻译
我们考虑一个高维模型,其中观察到时间和空间的变量。该模型由包含时间滞后的时空回归和因变量的空间滞后组成。与古典空间自回归模型不同,我们不依赖于预定的空间交互矩阵,但从数据中推断所有空间交互。假设稀疏性,我们通过惩罚一组Yule-Walker方程来估计完全数据驱动的空间和时间依赖。这种正则化可以留下非结构化,但我们还提出了当观察结果源自空间网格(例如卫星图像)时定制的收缩程序。推导有限的样本误差界限,并且在渐近框架中建立估计一致性,其中样本大小和空间单元的数量共同偏离。外源性变量也可以包括在内。与竞争程序相比,仿真练习表现出强大的有限样本性能。作为一个实证应用,我们模型卫星测量了伦敦的No2浓度。我们的方法通过竞争力的基准提供预测,我们发现了强烈的空间互动的证据。
translated by 谷歌翻译
我们解决了如何在没有严格缩放条件的情况下实现分布式分数回归中最佳推断的问题。由于分位数回归(QR)损失函数的非平滑性质,这是具有挑战性的,这使现有方法的使用无效。难度通过应用于本地(每个数据源)和全局目标函数的双光滑方法解决。尽管依赖局部和全球平滑参数的精致组合,但分位数回归模型是完全参数的,从而促进了解释。在低维度中,我们为顺序定义的分布式QR估计器建立了有限样本的理论框架。这揭示了通信成本和统计错误之间的权衡。我们进一步讨论并比较了基于WALD和得分型测试和重采样技术的反转的几种替代置信集结构,并详细介绍了对更极端分数系数有效的改进。在高维度中,采用了一个稀疏的框架,其中提出的双滑目标功能与$ \ ell_1 $ -penalty相辅相成。我们表明,相应的分布式QR估计器在近乎恒定的通信回合之后达到了全球收敛率。一项彻底的模拟研究进一步阐明了我们的发现。
translated by 谷歌翻译
重要的加权是调整蒙特卡洛集成以说明错误分布中抽取的一种一般方法,但是当重要性比的右尾巴较重时,最终的估计值可能是高度可变的。当目标分布的某些方面无法通过近似分布捕获,在这种情况下,可以通过修改极端重要性比率来获得更稳定的估计。我们提出了一种新的方法,该方法使用拟合模拟重要性比率的上尾的广义帕累托分布来稳定重要性权重。该方法在经验上的性能要比现有方法稳定重要性采样估计值更好,包括稳定的有效样本量估计,蒙特卡洛误差估计和收敛诊断。提出的帕累托$ \ hat {k} $有限样本收敛率诊断对任何蒙特卡洛估计器都有用。
translated by 谷歌翻译
本文为信号去噪提供了一般交叉验证框架。然后将一般框架应用于非参数回归方法,例如趋势过滤和二元推车。然后显示所得到的交叉验证版本以获得最佳调谐的类似物所熟知的几乎相同的收敛速度。没有任何先前的趋势过滤或二元推车的理论分析。为了说明框架的一般性,我们还提出并研究了两个基本估算器的交叉验证版本;套索用于高维线性回归和矩阵估计的奇异值阈值阈值。我们的一般框架是由Chatterjee和Jafarov(2015)的想法的启发,并且可能适用于使用调整参数的广泛估算方法。
translated by 谷歌翻译
人工神经网络(ANNS)可以被视为非线性筛子,其可以比线性筛更有效地近似高维变量的复杂功能。我们调查与经验经济学相关的中等高维协变量的非参数仪器变量(NPIV)模型的各种ANN的计算性能。我们在加权平均衍生物(WAD)上介绍了两个有效的估计和推断方法:具有最佳加权筛分最小距离(OP-OSMD)程序的正交化插件和筛分有效评分。 WAD的两个估计器都使用ANN筛来近似未知的NPIV功能,并且是根 - N渐近正常和一流的等价物。我们提供详细的从业者的配方,以实现有效的程序。这涉及选择未知NPIV的调整参数,包括在两个过程中存在的条件期望和最佳加权函数,而且还可以选择ES过程中未知RIESZ代表的调谐参数。我们比较各种仿真设计的有限样本性能,涉及涉及最多13个连续协变量,不同的非线性和协变量相关的NPIV功能。一些蒙特卡罗调查结果包括:1)调谐和优化在ANN估计中更精细; 2)给定适当调整,有各种架构的ANN估计都可以表现良好; 3)更容易调整ANN-OSMD估计比ANN EAN估算值; 4)用ANN(比样条曲线)估计变得稳定的推论更难以实现; 5)当前实现和近似理论之间存在间隙。最后,我们应用ANN NPIV以多变量协变者在两个经验需求示例中估算平均部分衍生物。
translated by 谷歌翻译
交叉验证是一种广泛使用的技术来估计预测误差,但其行为很复杂且不完全理解。理想情况下,人们想认为,交叉验证估计手头模型的预测错误,适合训练数据。我们证明,普通最小二乘拟合的线性模型并非如此。相反,它估计模型的平均预测误差适合于同一人群提取的其他看不见的训练集。我们进一步表明,这种现象发生在大多数流行的预测误差估计中,包括数据拆分,自举和锦葵的CP。接下来,从交叉验证得出的预测误差的标准置信区间可能的覆盖范围远低于所需水平。由于每个数据点都用于训练和测试,因此每个折叠的测量精度之间存在相关性,因此方差的通常估计值太小。我们引入了嵌套的交叉验证方案,以更准确地估计该方差,并从经验上表明,在传统的交叉验证间隔失败的许多示例中,这种修改导致间隔大致正确覆盖。
translated by 谷歌翻译
截断的线性回归是统计学中的一个经典挑战,其中$ y = w^t x + \ varepsilon $及其相应的功能向量,$ x \ in \ mathbb {r}^k $,仅在当时才观察到标签属于某些子集$ s \ subseteq \ mathbb {r} $;否则,对$(x,y)$的存在被隐藏在观察中。以截断的观察结果的线性回归一直是其一般形式的挑战,因为〜\ citet {tobin1958估计,amemiya1973 reflecression}的早期作品。当误差的分布与已知方差正常时,〜\ citet {daskalakis2019 truncatedRegerse}的最新工作在线性模型$ w $上提供了计算和统计上有效的估计器。在本文中,当噪声方差未知时,我们为截断的线性回归提供了第一个计算和统计上有效的估计器,同时估计了噪声的线性模型和方差。我们的估计器基于对截短样品的负模样中的预测随机梯度下降的有效实施。重要的是,我们表明我们的估计错误是渐近正常的,我们使用它来为我们的估计提供明确的置信区域。
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
我们引入了一种新的经验贝叶斯方法,用于大规模多线性回归。我们的方法结合了两个关键思想:(i)使用灵活的“自适应收缩”先验,该先验近似于正常分布的有限混合物,近似于正常分布的非参数家族; (ii)使用变分近似来有效估计先前的超参数并计算近似后期。将这两个想法结合起来,将快速,灵活的方法与计算速度相当,可与快速惩罚的回归方法(例如Lasso)相当,并在各种场景中具有出色的预测准确性。此外,我们表明,我们方法中的后验平均值可以解释为解决惩罚性回归问题,并通过直接解决优化问题(而不是通过交叉验证来调整)从数据中学到的惩罚函数的精确形式。 。我们的方法是在r https://github.com/stephenslab/mr.ash.ash.alpha的r软件包中实现的
translated by 谷歌翻译
许多领域经常遇到包含分类和连续变量的数据集,并且随着现代测量技术的快速发展,这些变量的尺寸可以非常高。尽管最近在为连续变量进行建模高维数据方面取得了进展,但缺乏可以处理混合变量的方法稀缺。为了填补这一差距,本文开发了一种用混合变量对高维观察进行分类的新方法。我们的框架在一个位置模型上构建,其中假设高斯的连续变量条件的连续变量的分布。我们克服了必须将数据分成指数最多的细胞的挑战,或者通过内核平滑来分类变量的组合,并为其带宽选择提供新的视角,以确保Bochner的引理程序的类似物,这与通常的偏差方差不同权衡。我们表明我们模型中的两组参数可以单独估计,并为其估算提供惩罚可能性。结果估计准确度和错误分类率建立,并且通过广泛的模拟和实际数据研究说明了所提出的分类器的竞争性能。
translated by 谷歌翻译
信息技术的进步导致了非常大的数据集,通常保存在不同的存储中心。必须适于现有的统计方法来克服所产生的计算障碍,同时保持统计有效性和效率。分裂和征服方法已应用于许多领域,包括分位式流程,回归分析,主偶数和指数家庭。我们研究了有限高斯混合的分布式学习的分裂和征服方法。我们建议减少策略并开发一种有效的MM算法。新估计器显示在某些一般条件下保持一致并保留根 - N一致性。基于模拟和现实世界数据的实验表明,如果后者是可行的,所提出的分离和征管方法具有基于完整数据集的全球估计的统计性能。如果模型假设与真实数据不匹配,甚至可以略高于全局估算器。它还具有比某些现有方法更好的统计和计算性能。
translated by 谷歌翻译