Sequential testing, always-valid $p$-values, and confidence sequences promise flexible statistical inference and on-the-fly decision making. However, unlike fixed-$n$ inference based on asymptotic normality, existing sequential tests either make parametric assumptions and end up under-covering/over-rejecting when these fail or use non-parametric but conservative concentration inequalities and end up over-covering/under-rejecting. To circumvent these issues, we sidestep exact at-least-$\alpha$ coverage and focus on asymptotically exact coverage and asymptotic optimality. That is, we seek sequential tests whose probability of ever rejecting a true hypothesis asymptotically approaches $\alpha$ and whose expected time to reject a false hypothesis approaches a lower bound on all tests with asymptotic coverage at least $\alpha$, both under an appropriate asymptotic regime. We permit observations to be both non-parametric and dependent and focus on testing whether the observations form a martingale difference sequence. We propose the universal sequential probability ratio test (uSPRT), a slight modification to the normal-mixture sequential probability ratio test, where we add a burn-in period and adjust thresholds accordingly. We show that even in this very general setting, the uSPRT is asymptotically optimal under mild generic conditions. We apply the results to stabilized estimating equations to test means, treatment effects, etc. Our results also provide corresponding guarantees for the implied confidence sequences. Numerical simulations verify our guarantees and the benefits of the uSPRT over alternatives.
translated by 谷歌翻译
我们基于电子价值开发假设检测理论,这是一种与p值不同的证据,允许毫不费力地结合来自常见场景中的几项研究的结果,其中决定执行新研究可能取决于以前的结果。基于E-V值的测试是安全的,即它们在此类可选的延续下保留I型错误保证。我们将增长速率最优性(GRO)定义为可选的连续上下文中的电力模拟,并且我们展示了如何构建GRO E-VARIABLE,以便为复合空缺和替代,强调模型的常规测试问题,并强调具有滋扰参数的模型。 GRO E值采取具有特殊前瞻的贝叶斯因子的形式。我们使用几种经典示例说明了该理论,包括一个样本安全T检验(其中右哈尔前方的右手前锋为GE)和2x2差价表(其中GRE之前与标准前沿不同)。分享渔业,奈曼和杰弗里斯·贝叶斯解释,电子价值观和相应的测试可以提供所有三所学校的追随者可接受的方法。
translated by 谷歌翻译
本文衍生了置信区间(CI)和时间统一的置信序列(CS),用于从有限观测值中估算未知平均值的经典问题。我们提出了一种衍生浓度界限的一般方法,可以看作是著名的切尔诺夫方法的概括(和改进)。它的核心是基于推导一类新的复合非负胸腔,通过投注和混合方法与测试的连接很强。我们展示了如何将这些想法扩展到无需更换的情况下,这是另一个经过深入研究的问题。在所有情况下,我们的界限都适应未知的差异,并且基于Hoeffding或经验的Bernstein不平等及其最近的Supermartingale概括,经验上大大优于现有方法。简而言之,我们为四个基本问题建立了一个新的最先进的问题:在有或没有替换的情况下进行采样时,CS和CI进行有限的手段。
translated by 谷歌翻译
基于中央限制定理(CLT)的置信区间是经典统计的基石。尽管仅渐近地有效,但它们是无处不在的,因为它们允许在非常弱的假设下进行统计推断,即使不可能进行非反应性推断,通常也可以应用于问题。本文引入了这种渐近置信区间的时间均匀类似物。为了详细说明,我们的方法采用置信序列(CS)的形式 - 随着时间的推移均匀有效的置信区间序列。 CSS在任意停止时间时提供有效的推断,与需要预先确定样本量的经典置信区间不同,因此没有受到“窥视”数据的惩罚。文献中现有的CSS是非肿瘤的,因此不享受上述渐近置信区间的广泛适用性。我们的工作通过给出“渐近CSS”的定义来弥合差距,并得出仅需要类似CLT的假设的通用渐近CS。虽然CLT在固定样本量下近似于高斯的样本平均值的分布,但我们使用强大的不变性原理(来自Komlos,Major和Tusnady的1970年代的开创性工作),按照整个样品平均过程均匀地近似于整个样品平均过程。隐性的高斯过程。我们通过在观察性研究中基于双重稳健的估计量来得出非参数渐近级别的CSS来证明它们的实用性,即使在固定的时间方案中,也可能不存在非催化方法(由于混淆偏见)。这些使双重强大的因果推断可以连续监测并自适应地停止。
translated by 谷歌翻译
Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.
translated by 谷歌翻译
我们提出了置信度序列 - 置信区间序列,其均匀地随时间均匀 - 用于基于I.I.D的流的完整,完全有序集中的任何分布的量级。观察。我们提供用于跟踪固定定量的方法并同时跟踪所有定量。具体而言,我们提供具有小常数的明确表达式,其宽度以尽可能快的$ \ SQRT {t} \ log \ log t} $率,以及实证分布函数的非渐近浓度不等式以相同的速率均匀地持续持续。后者加强了Smirnov迭代对数的实证过程法,延长了DVORETZKY-KIEFER-WOLFOITZ不等式以均匀地保持一段时间。我们提供了一种新的算法和样本复杂性,用于在多武装强盗框架中选择具有大约最佳定量的臂。在仿真中,我们的方法需要比现有方法更少五到五十的样品。
translated by 谷歌翻译
考虑两个或更多的预测员,每个预测员都会随着时间的推移为不同的事件进行一系列预测。我们问一个相对基本的问题:我们如何将这些预测员进行比较,无论是在线还是Hoc,同时避免了对如何生成预测或结果的无可助消的假设?这项工作提出了对这个问题的新颖答案。我们设计了一种顺序推理过程,用于估计预测质量的时变差异,通过相对大类的适当评分规则(具有线性等同物的有界分数)来衡量的。得到的置信区间是非溶解有效的,并且可以连续地监测以在任意数据相关的停止时间(“随时有效”)来产生统计上有效的比较;这是通过调整方差 - 自适应Supermartingales,置信度序列和电子过程来实现这一点。由于Shafer和Vovk的游戏理论概率,我们的覆盖担保也是无意义的,因此它们没有对预测或结果的分布假设。与Henzi和Ziegel最近的工作形成鲜明对比,我们的工具可以顺序地测试一个弱null假设关于一个预测器是否平均过度地越过另一个。我们通过比较主要联赛棒球(MLB)游戏和统计后处理方法的预测来展示其有效性。
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
我们开发用于测试两个或多个数据流是否来自同一源的电子变量,更普遍地说,源之间的差异是否大于某些最小效应大小。这些电子变量导致精确的非肌电测试,这些测试仍然是安全的,即在柔性采样场景(例如可选的停止和延续)下,保持其类型错误保证。在特殊情况下,我们的电子变量在替代方面也具有最佳的“增长”特性。虽然构造是通用的,但我们通过K x 2应急表的特殊情况进行了说明,我们还允许在复合替代方案上纳入不同的限制。与模拟中的p值分析和现实世界中的p值分析进行比较,表明电子变量通过其灵活性,通常允许早日停止数据收集,从而保留与经典方法相似的功率,同时还保留了扩展或结合的选项之后数据。
translated by 谷歌翻译
我们为依次随机实验提出了一种新的扩散 - 反应分析,包括在解决多臂匪徒问题中出现的扩散分析。在使用$ n $时间步骤的实验中,我们让动作规模之间的平均奖励差距到$ 1/\ sqrt {n} $,以将学习任务的难度保留为$ n $的增长。在这个方案中,我们表明,一类顺序随机的马尔可夫实验的行为收敛到扩散极限,作为对随机微分方程的解决方案。因此,扩散极限使我们能够得出顺序实验的随机动力学的精致实例特异性表征。我们使用扩散极限来获得一些关于顺序实验的遗憾和信念演变的新见解,包括汤普森采样。一方面,我们表明,当奖励差距相对较大时,所有随机概率的顺序实验都具有lipchitz连续的依赖性。另一方面,我们发现,汤普森(Thompson)的样本具有渐近性的先验差异,达到了近乎特定实例的遗憾缩放,包括较大的奖励差距。但是,尽管使用非信息先验对汤普森采样产生了良好的遗憾,但我们表明,随着时间的流逝,诱发的后验信仰非常不稳定。
translated by 谷歌翻译
我们在随机多臂匪徒问题中使用固定预算和上下文(协变)信息研究最佳武器识别。在观察上下文信息之后,在每一轮中,我们使用过去的观察和当前上下文选择一个治疗臂。我们的目标是确定最好的治疗组,这是一个在上下文分布中被边缘化的最大预期奖励的治疗组,而错误识别的可能性最小。首先,我们为此问题得出半参数的下限,在这里我们将最佳和次优的治疗臂的预期奖励之间的差距视为感兴趣的参数,以及所有其他参数,例如在上下文中的预期奖励,作为滋扰参数。然后,我们开发“上下文RS-AIPW策略”,该策略由随机采样(RS)规则组成,跟踪目标分配比和使用增强反向概率加权(AIPW)估算器的建议规则。我们提出的上下文RS-AIPW策略是最佳的,因为错误识别概率的上限与预算到Infinity时的半参数下限相匹配,并且差距趋于零。
translated by 谷歌翻译
本文提出了新的偏差不等式,其在多武装强盗模型中的自适应采样下均匀地均匀。使用给定的一维指数家庭中的kullback-leibler发散来测量偏差,并且可以一次考虑几个臂。它们是通过基于分层的每个臂鞅构造而构建的,并通过将那些鞅乘以来获得。我们的偏差不平等允许我们根据广义概率比来分析一大类连续识别问题的概要概率比,并且为臂的装置的某些功能构造紧密的置信区间。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
在因果推理和强盗文献中,基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序,然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限:这些边界表明,为了获得非反应性最佳程序,应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序,并通过匹配非轴突局部局部最小值下限,在有限样品中建立了实例依赖性最优性。这些结果表明,除了取决于渐近效率方差之外,最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。
translated by 谷歌翻译
套索是一种高维回归的方法,当时,当协变量$ p $的订单数量或大于观测值$ n $时,通常使用它。由于两个基本原因,经典的渐近态性理论不适用于该模型:$(1)$正规风险是非平滑的; $(2)$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果,标准的扰动论点是渐近正态性的传统基础。另一方面,套索估计器可以精确地以$ n $和$ p $大,$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量:在这里,我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限,它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序,我们研究了借助拉索的分布,并表明需要校正程度对于计算有效的置信区间是必要的。
translated by 谷歌翻译
我们考虑使用未知差异的双臂高斯匪徒的固定预算最佳臂识别问题。当差异未知时,性能保证与下限的性能保证匹配的算法最紧密的下限和算法的算法很长。当算法不可知到ARM的最佳比例算法。在本文中,我们提出了一种策略,该策略包括在估计的ARM绘制的目标分配概率之后具有随机采样(RS)的采样规则,并且使用增强的反概率加权(AIPW)估计器通常用于因果推断文学。我们将我们的战略称为RS-AIPW战略。在理论分析中,我们首先推导出鞅的大偏差原理,当第二次孵化的均值时,可以使用,并将其应用于我们提出的策略。然后,我们表明,拟议的策略在错误识别的可能性达到了Kaufmann等人的意义上是渐近最佳的。 (2016)当样品尺寸无限大而双臂之间的间隙变为零。
translated by 谷歌翻译
我们提出了一种统一的技术,用于顺序估计分布之间的凸面分歧,包括内核最大差异等积分概率度量,$ \ varphi $ - 像Kullback-Leibler发散,以及最佳运输成本,例如Wassersein距离的权力。这是通过观察到经验凸起分歧(部分有序)反向半角分离的实现来实现的,而可交换过滤耦合,其具有这些方法的最大不等式。这些技术似乎是对置信度序列和凸分流的现有文献的互补和强大的补充。我们构建一个离线到顺序设备,将各种现有的离线浓度不等式转换为可以连续监测的时间均匀置信序列,在任意停止时间提供有效的测试或置信区间。得到的顺序边界仅在相应的固定时间范围内支付迭代对数价格,保留对问题参数的相同依赖性(如适用的尺寸或字母大小)。这些结果也适用于更一般的凸起功能,如负差分熵,实证过程的高度和V型统计。
translated by 谷歌翻译
In high dimensional variable selection problems, statisticians often seek to design multiple testing procedures controlling the false discovery rate (FDR) and simultaneously discovering more relevant variables. Model-X methods, such as Knockoffs and conditional randomization tests, achieve the first goal of finite-sample FDR control under the assumption of known covariates distribution. However, it is not clear whether these methods can concurrently achieve the second goal of maximizing the number of discoveries. In fact, designing procedures to discover more relevant variables with finite-sample FDR control is a largely open question, even in the arguably simplest linear models. In this paper, we derive near-optimal testing procedures in high dimensional Bayesian linear models with isotropic covariates. We propose a Model-X multiple testing procedure, PoEdCe, which provably controls the frequentist FDR from finite samples even under model misspecification, and conjecturally achieves near-optimal power when the data follow the Bayesian linear model with a known prior. PoEdCe has three important ingredients: Posterior Expectation, distilled Conditional randomization test (dCRT), and the Benjamini-Hochberg procedure with e-values (eBH). The optimality conjecture of PoEdCe is based on a heuristic calculation of its asymptotic true positive proportion (TPP) and false discovery proportion (FDP), which is supported by methods from statistical physics as well as extensive numerical simulations. Furthermore, when the prior is unknown, we show that an empirical Bayes variant of PoEdCe still has finite-sample FDR control and achieves near-optimal power.
translated by 谷歌翻译
我们研究了对识别的非唯一麻烦的线性功能的通用推断,该功能定义为未识别条件矩限制的解决方案。这个问题出现在各种应用中,包括非参数仪器变量模型,未衡量的混杂性下的近端因果推断以及带有阴影变量的丢失 - 与随机数据。尽管感兴趣的线性功能(例如平均治疗效应)在适当的条件下是可以识别出的,但令人讨厌的非独家性对统计推断构成了严重的挑战,因为在这种情况下,常见的滋扰估计器可能是不稳定的,并且缺乏固定限制。在本文中,我们提出了对滋扰功能的受惩罚的最小估计器,并表明它们在这种挑战性的环境中有效推断。提出的滋扰估计器可以适应灵活的功能类别,重要的是,无论滋扰是否是唯一的,它们都可以融合到由惩罚确定的固定限制。我们使用受惩罚的滋扰估计器来形成有关感兴趣的线性功能的依据估计量,并在通用高级条件下证明其渐近正态性,这提供了渐近有效的置信区间。
translated by 谷歌翻译
在强盗多个假设测试中,每个ARM对应于我们希望测试的不同NULL假设,并且目标是设计正确识别大型有趣的武器(真正发现)的自适应算法,同时仅错误地识别少数不感兴趣的武器(虚假的发现)。非强盗多测试中的一个常见度量是错误的发现速率(FDR)。我们为强盗FDR控制提出了一个统一的模块化框架,强调了探索和证据总结的解耦。我们利用了强大的鞅的“e-processage”概念,以确保在通用问题设置中进行任意复合空无效,探索规则和停止时间的FDR控制。特别地,即使臂的奖励分布可能是相关的,有效的FDR控制也可以依赖,可以同时查询多个臂,并且多个(协作或竞争)代理可以是查询臂,也可以是覆盖组合半强盗类型设置。在每次步骤中,每次ARM奖励分配是独立的,并且在每个步骤都会审议了每个ARM奖励分配的环境。我们的框架在这​​个特殊情况下恢复了匹配的样本复杂性保证,在实践中表现相对或更好。对于其他设置,示例复杂性将取决于问题的更精细的细节(正在测试的复合空,探索算法,数据依赖结构,停止规则),我们不会探索这些;我们的贡献是表明FDR保证对这些细节进行了干净,完全不可知。
translated by 谷歌翻译