模型拼盘可以为实现概率模型创造重大挑战,这导致了一系列推理方法,直接占此问题。但是,是否需要这些更多涉及的方法将取决于模型是否真正遗漏,并且缺乏普遍适用的方法来回答这个问题。一组可以帮助的工具是健美的测试,在那里我们测试数据集是否可以通过固定分发生成。基于内核的测试已经开发出这个问题,由于它们的灵活性,强烈的理论担保和在各种情况下实现的易于实现,因此这些是流行的。在本文中,我们将这一阶段的工作延伸到更具挑战性的综合性良好问题,在那里,我们就是对某些参数家族中的任何分布感兴趣。这相当于测试是否为数据指定了参数模型。
translated by 谷歌翻译
我们提出和分析了一种新颖的统计程序,即创建的Agrasst,以评估可能以明确形式可用的图形生成器的质量。特别是,Agrasst可用于确定学习的图生成过程是否能够生成类似给定输入图的图。受到随机图的Stein运算符的启发,Agrasst的关键思想是基于从图生成器获得的操作员的内核差异的构建。Agrasst可以为图形生成器培训程序提供可解释的批评,并帮助确定可靠的下游任务样品批次。使用Stein的方法,我们为广泛的随机图模型提供了理论保证。我们在两个合成输入图上提供了经验结果,并具有已知的图生成过程,以及对图形最新的(深)生成模型进行训练的现实输入图。
translated by 谷歌翻译
我们研究了基于内核Stein差异(KSD)的合适性测试的特性。我们介绍了一种构建一个名为KSDAGG的测试的策略,该测试与不同的核聚集了多个测试。 KSDAGG避免将数据分开以执行内核选择(这会导致测试能力损失),并最大程度地提高了核集合的测试功率。我们提供有关KSDAGG的力量的理论保证:我们证明它达到了收集最小的分离率,直到对数期限。可以在实践中准确计算KSDAGG,因为它依赖于参数bootstrap或野生引导程序来估计分位数和级别校正。特别是,对于固定核的带宽至关重要的选择,它避免了诉诸于任意启发式方法(例如中位数或标准偏差)或数据拆分。我们在合成数据和现实世界中发现KSDAGG优于其他基于自适应KSD的拟合优度测试程序。
translated by 谷歌翻译
我们使用最大平均差异(MMD),Hilbert Schmidt独立标准(HSIC)和内核Stein差异(KSD),,提出了一系列针对两样本,独立性和合适性问题的计算效率,非参数测试,用于两样本,独立性和合适性问题。分别。我们的测试统计数据是不完整的$ u $统计信息,其计算成本与与经典$ u $ u $统计测试相关的样本数量和二次时间之间的线性时间之间的插值。这三个提出的测试在几个内核带宽上汇总,以检测各种尺度的零件:我们称之为结果测试mmdagginc,hsicagginc和ksdagginc。对于测试阈值,我们得出了一个针对野生引导不完整的$ U $ - 统计数据的分位数,该统计是独立的。我们得出了MMDagginc和Hsicagginc的均匀分离率,并准确量化了计算效率和可实现速率之间的权衡:据我们所知,该结果是基于不完整的$ U $统计学的测试新颖的。我们进一步表明,在二次时间案例中,野生引导程序不会对基于更广泛的基于置换的方法进行测试功率,因为​​两者都达到了相同的最小最佳速率(这反过来又与使用Oracle分位数的速率相匹配)。我们通过数值实验对计算效率和测试能力之间的权衡进行数字实验来支持我们的主张。在三个测试框架中,我们观察到我们提出的线性时间聚合测试获得的功率高于当前最新线性时间内核测试。
translated by 谷歌翻译
我们提出了一种基于最大平均差异(MMD)的新型非参数两样本测试,该测试是通过具有不同核带宽的聚合测试来构建的。这种称为MMDAGG的聚合过程可确保对所使用的内核的收集最大化测试能力,而无需持有核心选择的数据(这会导致测试能力损失)或任意内核选择,例如中位数启发式。我们在非反应框架中工作,并证明我们的聚集测试对Sobolev球具有最小自适应性。我们的保证不仅限于特定的内核,而是符合绝对可集成的一维翻译不变特性内核的任何产品。此外,我们的结果适用于流行的数值程序来确定测试阈值,即排列和野生引导程序。通过对合成数据集和现实世界数据集的数值实验,我们证明了MMDAGG优于MMD内核适应的替代方法,用于两样本测试。
translated by 谷歌翻译
Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.
translated by 谷歌翻译
学习将模型分布与观察到的数据区分开来是统计和机器学习中的一个基本问题,而高维数据仍然是这些问题的挑战性环境。量化概率分布差异的指标(例如Stein差异)在高维度的统计测试中起重要作用。在本文中,我们考虑了一个希望区分未知概率分布和名义模型分布的数据的设置。虽然最近的研究表明,最佳$ l^2 $ regularized Stein评论家等于两个概率分布的分数函数的差异,最多是乘法常数,但我们研究了$ l^2 $正则化的作用,训练神经网络时差异评论家功能。由训练神经网络的神经切线内核理论的激励,我们开发了一种新的分期程序,用于训练时间的正则化重量。这利用了早期培训的优势,同时还可以延迟过度拟合。从理论上讲,我们将训练动态与大的正则重量与在早期培训时间的“懒惰训练”制度的内核回归优化相关联。在模拟的高维分布漂移数据和评估图像数据的生成模型的应用中,证明了分期$ l^2 $正则化的好处。
translated by 谷歌翻译
广义贝叶斯推理使用损失函数而不是可能性的先前信仰更新,因此可以用于赋予鲁棒性,以防止可能的错误规范的可能性。在这里,我们认为广泛化的贝叶斯推论斯坦坦差异作为损失函数的损失,由应用程序的可能性含有难治性归一化常数。在这种情况下,斯坦因差异来避免归一化恒定的评估,并产生封闭形式或使用标准马尔可夫链蒙特卡罗的通用后出版物。在理论层面上,我们显示了一致性,渐近的正常性和偏见 - 稳健性,突出了这些物业如何受到斯坦因差异的选择。然后,我们提供关于一系列棘手分布的数值实验,包括基于内核的指数家庭模型和非高斯图形模型的应用。
translated by 谷歌翻译
我们在右审查的生存时间和协变量之间介绍一般的非参数独立测试,这可能是多变量的。我们的测试统计数据具有双重解释,首先是潜在无限的重量索引日志秩检验的超级索引,具有属于函数的再现内核HILBERT空间(RKHS)的重量函数;其次,作为某些有限措施的嵌入差异的规范,与Hilbert-Schmidt独立性标准(HSIC)测试统计类似。我们研究了测试的渐近性质,找到了足够的条件,以确保我们的测试在任何替代方案下正确拒绝零假设。可以直截了当地计算测试统计,并且通过渐近总体的野外自注程序进行拒绝阈值。对模拟和实际数据的广泛调查表明,我们的测试程序通常比检测复杂的非线性依赖的竞争方法更好。
translated by 谷歌翻译
我们提出了一项新的条件依赖度量和有条件独立性的统计检验。该度量基于在有限位置评估的两个合理分布的分析内嵌入之间的差异。我们在条件独立性的无效假设下获得其渐近分布,并从中设计一致的统计检验。我们进行了一系列实验,表明我们的新测试在I型和类型II误差方面都超过了最先进的方法,即使在高维设置中也是如此。
translated by 谷歌翻译
基于内核的测试提供了一个简单而有效的框架,该框架使用繁殖内核希尔伯特空间的理论设计非参数测试程序。在本文中,我们提出了新的理论工具,可用于在几种数据方案以及许多不同的测试问题中研究基于内核测试的渐近行为。与当前的方法不同,我们的方法避免使用冗长的$ u $和$ v $统计信息扩展并限制定理,该定理通常出现在文献中,并直接与希尔伯特空格上的随机功能合作。因此,我们的框架会导致对内核测试的简单明了的分析,只需要轻度的规律条件。此外,我们表明,通常可以通过证明我们方法所需的规律条件既足够又需要进行必要的规律条件来改进我们的分析。为了说明我们的方法的有效性,我们为有条件的独立性测试问题提供了一项新的内核测试,以及针对已知的基于内核测试的新分析。
translated by 谷歌翻译
形状约束在完全非参数和完全参数的方法之间产生灵活的中间地,以建模数据分布。对数凹陷的具体假设是经济学,生存建模和可靠性理论的应用程序的激励。但是,目前没有对给定数据的底层密度是对数凹的有效测试。最近的普遍似然比测试提供了有效的测试。通用测试依赖于最大似然估计(MLE),并且已经存在有效的方法来查找日志凹形MLE。这产生了在任何维度的有限样本中过度有效的对数凹面的第一次测试,我们还建立了渐近一致性结果。经验上,我们发现通过使用随机投影来获得最高功率以将D维测试问题转换为许多一维问题,导致统计上和计算效率的简单过程。
translated by 谷歌翻译
在本文中,我们提出了一种多个内核测试程序,以推断几个因素(例如不同的治疗组,性别,病史)及其相互作用同时引起了人们的兴趣。我们的方法能够处理复杂的数据,并且当假设诸如相称性不能合理时,可以看作是无所不在的COX模型的替代方法。我们的方法结合了来自生存分析,机器学习和多次测试的众所周知的概念:加权的对数秩检验,内核方法和多个对比度测试。这样,可以检测到超出经典比例危害设置以外的复杂危险替代方案。此外,通过充分利用单个测试程序的依赖性结构以避免功率损失来进行多个比较。总的来说,这为阶乘生存设计提供了灵活而强大的程序,其理论有效性通过Martingale论证和$ v $统计的理论证明。我们在广泛的仿真研究中评估了方法的性能,并通过真实的数据分析对其进行了说明。
translated by 谷歌翻译
We propose a framework for analyzing and comparing distributions, which we use to construct statistical tests to determine if two samples are drawn from different distributions. Our test statistic is the largest difference in expectations over functions in the unit ball of a reproducing kernel Hilbert space (RKHS), and is called the maximum mean discrepancy (MMD). We present two distributionfree tests based on large deviation bounds for the MMD, and a third test based on the asymptotic distribution of this statistic. The MMD can be computed in quadratic time, although efficient linear time approximations are available. Our statistic is an instance of an integral probability metric, and various classical metrics on distributions are obtained when alternative function classes are used in place of an RKHS. We apply our two-sample tests to a variety of problems, including attribute matching for databases using the Hungarian marriage method, where they perform strongly. Excellent performance is also obtained when comparing distributions over graphs, for which these are the first such tests.
translated by 谷歌翻译
有条件的随机测试(CRTS)评估了一个变量$ x $是否可以预测另一个变量$ y $,因为观察到了协变量$ z $。 CRT需要拟合大量的预测模型,这通常在计算上是棘手的。降低CRT成本的现有解决方案通常将数据集分为火车和测试部分,或者依靠启发式方法进行互动,这两者都会导致权力损失。我们提出了脱钩的独立性测试(饮食),该算法通过利用边际独立性统计数据来测试条件独立关系来避免这两个问题。饮食测试两个随机变量的边际独立性:$ f(x \ hid z)$和$ f(y \ mid z)$,其中$ f(\ cdot \ mid z)$是有条件的累积分配功能(CDF)。这些变量称为“信息残差”。我们为饮食提供足够的条件,以实现有限的样本类型误差控制和大于1型错误率的功率。然后,我们证明,在使用信息残差之间的相互信息作为测试统计数据时,饮食会产生最强大的有条件测试。最后,我们显示出比几个合成和真实基准测试的其他可处理的CRT的饮食能力更高。
translated by 谷歌翻译
We develop an online kernel Cumulative Sum (CUSUM) procedure, which consists of a parallel set of kernel statistics with different window sizes to account for the unknown change-point location. Compared with many existing sliding window-based kernel change-point detection procedures, which correspond to the Shewhart chart-type procedure, the proposed procedure is more sensitive to small changes. We further present a recursive computation of detection statistics, which is crucial for online procedures to achieve a constant computational and memory complexity, such that we do not need to calculate and remember the entire Gram matrix, which can be a computational bottleneck otherwise. We obtain precise analytic approximations of the two fundamental performance metrics, the Average Run Length (ARL) and Expected Detection Delay (EDD). Furthermore, we establish the optimal window size on the order of $\log ({\rm ARL})$ such that there is nearly no power loss compared with an oracle procedure, which is analogous to the classic result for window-limited Generalized Likelihood Ratio (GLR) procedure. We present extensive numerical experiments to validate our theoretical results and the competitive performance of the proposed method.
translated by 谷歌翻译
随着混凝剂的数量增加,因果推理越来越复杂。给定护理$ x $,混淆器$ z $和结果$ y $,我们开发一个非参数方法来测试\ texit {do-null}假设$ h_0:\; p(y | \ text {\它do}(x = x))= p(y)$违反替代方案。在Hilbert Schmidt独立性标准(HSIC)上进行边缘独立性测试,我们提出了后门 - HSIC(BD-HSIC)并证明它被校准,并且在大量混淆下具有二元和连续治疗的力量。此外,我们建立了BD-HSIC中使用的协方差运算符的估计的收敛性质。我们研究了BD-HSIC对参数测试的优点和缺点以及与边缘独立测试或有条件独立测试相比使用DO-NULL测试的重要性。可以在\超链接{https:/github.com/mrhuff/kgformula} {\ texttt {https://github.com/mrhuff/kgformula}}完整的实现。
translated by 谷歌翻译
离散状态空间代表了对统计推断的主要计算挑战,因为归一化常数的计算需要在大型或可能的无限集中进行求和,这可能是不切实际的。本文通过开发适合离散可怜的可能性的新型贝叶斯推理程序来解决这一计算挑战。受到连续数据的最新方法学进步的启发,主要思想是使用离散的Fisher Divergence更新有关模型参数的信念,以代替有问题的棘手的可能性。结果是可以使用标准计算工具(例如Markov Chain Monte Carlo)进行采样的广义后部,从而规避了棘手的归一化常数。分析了广义后验的统计特性,并具有足够的后验一致性和渐近正态性的条件。此外,提出了一种新颖的通用后代校准方法。应用程序在离散空间数据的晶格模型和计数数据的多元模型上介绍,在每种情况下,方法论都以低计算成本促进通用的贝叶斯推断。
translated by 谷歌翻译
经典的错误发现率(FDR)控制程序提供了强大而可解释的保证,而它们通常缺乏灵活性。另一方面,最近的机器学习分类算法是基于随机森林(RF)或神经网络(NN)的算法,具有出色的实践表现,但缺乏解释和理论保证。在本文中,我们通过引入新的自适应新颖性检测程序(称为Adadetect)来使这两个相遇。它将多个测试文献的最新作品范围扩展到高维度的范围,尤其是Yang等人的范围。 (2021)。显示AD​​ADETECT既可以强烈控制FDR,又具有在特定意义上模仿甲骨文之一的力量。理论结果,几个基准数据集上的数值实验以及对天体物理数据的应用,我们的方法的兴趣和有效性得到了证明。特别是,虽然可以将AdadEtect与任何分类器结合使用,但它在带有RF的现实世界数据集以及带有NN的图像上特别有效。
translated by 谷歌翻译
The kernel Maximum Mean Discrepancy~(MMD) is a popular multivariate distance metric between distributions that has found utility in two-sample testing. The usual kernel-MMD test statistic is a degenerate U-statistic under the null, and thus it has an intractable limiting distribution. Hence, to design a level-$\alpha$ test, one usually selects the rejection threshold as the $(1-\alpha)$-quantile of the permutation distribution. The resulting nonparametric test has finite-sample validity but suffers from large computational cost, since every permutation takes quadratic time. We propose the cross-MMD, a new quadratic-time MMD test statistic based on sample-splitting and studentization. We prove that under mild assumptions, the cross-MMD has a limiting standard Gaussian distribution under the null. Importantly, we also show that the resulting test is consistent against any fixed alternative, and when using the Gaussian kernel, it has minimax rate-optimal power against local alternatives. For large sample sizes, our new cross-MMD provides a significant speedup over the MMD, for only a slight loss in power.
translated by 谷歌翻译