智能论文笔记

Catoni-style Confidence Sequences under Infinite Variance

Sujay Bhatt , Guanhua Fang , Ping Li , Gennady Samorodnitsky

分类：机器学习 | (统计)机器学习

2022-08-05

在本文中，我们为不存在或无限的数据的方差提供了置信序列的扩展。置信序列提供的置信区间在任意数据依赖性停止时间时有效，自然具有广泛的应用。我们首先为有限方差案例的CATONI风格置信序列的宽度建立了一个下限，以突出现有结果的松动性。接下来，我们为数据分布提供了紧密的catoni风格的置信序列，该数据分布有一个放松的〜$ p^{th} - $ arment，其中〜$ p \ in（1,2] $，并加强了有限差异案例的结果〜$ p = 2 $。显示出比使用dubins-savage不等式获得的置信序列更好。

translated by 谷歌翻译

Sequential Estimation of Convex Functionals and Divergences

Tudor Manole , Aaditya Ramdas

分类： (统计)机器学习

2021-03-16

我们提出了一种统一的技术，用于顺序估计分布之间的凸面分歧，包括内核最大差异等积分概率度量，$ \ varphi $ - 像Kullback-Leibler发散，以及最佳运输成本，例如Wassersein距离的权力。这是通过观察到经验凸起分歧（部分有序）反向半角分离的实现来实现的，而可交换过滤耦合，其具有这些方法的最大不等式。这些技术似乎是对置信度序列和凸分流的现有文献的互补和强大的补充。我们构建一个离线到顺序设备，将各种现有的离线浓度不等式转换为可以连续监测的时间均匀置信序列，在任意停止时间提供有效的测试或置信区间。得到的顺序边界仅在相应的固定时间范围内支付迭代对数价格，保留对问题参数的相同依赖性（如适用的尺寸或字母大小）。这些结果也适用于更一般的凸起功能，如负差分熵，实证过程的高度和V型统计。

translated by 谷歌翻译

Estimating means of bounded random variables by betting

Ian Waudby-Smith , Aaditya Ramdas

分类： (统计)机器学习

2020-10-19

本文衍生了置信区间（CI）和时间统一的置信序列（CS），用于从有限观测值中估算未知平均值的经典问题。我们提出了一种衍生浓度界限的一般方法，可以看作是著名的切尔诺夫方法的概括（和改进）。它的核心是基于推导一类新的复合非负胸腔，通过投注和混合方法与测试的连接很强。我们展示了如何将这些想法扩展到无需更换的情况下，这是另一个经过深入研究的问题。在所有情况下，我们的界限都适应未知的差异，并且基于Hoeffding或经验的Bernstein不平等及其最近的Supermartingale概括，经验上大大优于现有方法。简而言之，我们为四个基本问题建立了一个新的最先进的问题：在有或没有替换的情况下进行采样时，CS和CI进行有限的手段。

translated by 谷歌翻译

Sequential estimation of quantiles with applications to A/B-testing and best-arm identification

Steven R. Howard , Aaditya Ramdas

分类： (统计)机器学习

2019-06-24

我们提出了置信度序列 - 置信区间序列，其均匀地随时间均匀 - 用于基于I.I.D的流的完整，完全有序集中的任何分布的量级。观察。我们提供用于跟踪固定定量的方法并同时跟踪所有定量。具体而言，我们提供具有小常数的明确表达式，其宽度以尽可能快的$ \ SQRT {t} \ log \ log t} $率，以及实证分布函数的非渐近浓度不等式以相同的速率均匀地持续持续。后者加强了Smirnov迭代对数的实证过程法，延长了DVORETZKY-KIEFER-WOLFOITZ不等式以均匀地保持一段时间。我们提供了一种新的算法和样本复杂性，用于在多武装强盗框架中选择具有大约最佳定量的臂。在仿真中，我们的方法需要比现有方法更少五到五十的样品。

translated by 谷歌翻译

On lower bounds for the bias-variance trade-off

Alexis Derumigny , Johannes Schmidt-Hieber

分类： (统计)机器学习

2020-05-30

对于高维和非参数统计模型，速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到，但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略，以获得对任何估计方差的下限，偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的，并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限，用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中，将抽象的下限应用于几种统计模型，包括高斯白噪声模型，边界估计问题，高斯序列模型和高维线性回归模型。对于这些特定的统计应用，发生不同类型的偏差差异发生，其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡，我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动，以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中，发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用，但是平方偏差的速率和方差不必平衡以实现最小估计速率。

translated by 谷歌翻译

Time-uniform central limit theory, asymptotic confidence sequences, and anytime-valid causal inference

Ian Waudby-Smith , David Arbour , Ritwik Sinha , Edward H. Kennedy , Aaditya Ramdas

分类： (统计)机器学习

2021-03-11

基于中央限制定理（CLT）的置信区间是经典统计的基石。尽管仅渐近地有效，但它们是无处不在的，因为它们允许在非常弱的假设下进行统计推断，即使不可能进行非反应性推断，通常也可以应用于问题。本文引入了这种渐近置信区间的时间均匀类似物。为了详细说明，我们的方法采用置信序列（CS）的形式 - 随着时间的推移均匀有效的置信区间序列。 CSS在任意停止时间时提供有效的推断，与需要预先确定样本量的经典置信区间不同，因此没有受到“窥视”数据的惩罚。文献中现有的CSS是非肿瘤的，因此不享受上述渐近置信区间的广泛适用性。我们的工作通过给出“渐近CSS”的定义来弥合差距，并得出仅需要类似CLT的假设的通用渐近CS。虽然CLT在固定样本量下近似于高斯的样本平均值的分布，但我们使用强大的不变性原理（来自Komlos，Major和Tusnady的1970年代的开创性工作），按照整个样品平均过程均匀地近似于整个样品平均过程。隐性的高斯过程。我们通过在观察性研究中基于双重稳健的估计量来得出非参数渐近级别的CSS来证明它们的实用性，即使在固定的时间方案中，也可能不存在非催化方法（由于混淆偏见）。这些使双重强大的因果推断可以连续监测并自适应地停止。

translated by 谷歌翻译

Optimal Fixed-Budget Best Arm Identification using the Augmented Inverse Probability Estimator in Two-Armed Gaussian Bandits with Unknown Variances

Masahiro Kato , Kaito Ariu , Masaaki Imaizumi , Masatoshi Uehara , Masahiro Nomura , Chao Qin

分类： (统计)机器学习 | 机器学习

2022-01-12

我们考虑使用未知差异的双臂高斯匪徒的固定预算最佳臂识别问题。当差异未知时，性能保证与下限的性能保证匹配的算法最紧密的下限和算法的算法很长。当算法不可知到ARM的最佳比例算法。在本文中，我们提出了一种策略，该策略包括在估计的ARM绘制的目标分配概率之后具有随机采样（RS）的采样规则，并且使用增强的反概率加权（AIPW）估计器通常用于因果推断文学。我们将我们的战略称为RS-AIPW战略。在理论分析中，我们首先推导出鞅的大偏差原理，当第二次孵化的均值时，可以使用，并将其应用于我们提出的策略。然后，我们表明，拟议的策略在错误识别的可能性达到了Kaufmann等人的意义上是渐近最佳的。（2016）当样品尺寸无限大而双臂之间的间隙变为零。

translated by 谷歌翻译

Sharp Concentration Results for Heavy-Tailed Distributions

Milad Bakhshizadeh , Arian Maleki , Victor H. de la Pena

分类：机器学习 | (统计)机器学习

2020-03-30

我们获得了具有重尾分布的独立和相同分布的随机变量的总和。我们的浓度结果与随机变量有关，其分布满足$ \ mathbb {p}（x> t）\ leq {\ rm e}^{ - i（t）} $，其中$ i：\ mathbb {r} \ rightarrow\ mathbb {r} $是一个增加的功能，$ i（t）/t \ rightArrow \ alpha \ in [0，\ infty）$ as $ t \ rightArrow \ rightArrow \ infty $。我们的主要定理不仅可以恢复一些现有结果，例如亚韦伯随机变量的总和的浓度，而且还可以为带有较重尾巴的随机变量的总和产生新的结果。我们表明，我们获得的浓度不平等足以为独立随机变量的总和提供较大的偏差结果。我们的基于标准截断参数的分析简化，统一和推广有关重尾随机变量的浓度和较大偏差的现有结果。

translated by 谷歌翻译

Semiparametric Best Arm Identification with Contextual Information

Masahiro Kato , Masaaki Imaizumi , Takuya Ishihara , Toru Kitagawa

分类：机器学习 | (统计)机器学习

2022-09-15

我们在随机多臂匪徒问题中使用固定预算和上下文（协变）信息研究最佳武器识别。在观察上下文信息之后，在每一轮中，我们使用过去的观察和当前上下文选择一个治疗臂。我们的目标是确定最好的治疗组，这是一个在上下文分布中被边缘化的最大预期奖励的治疗组，而错误识别的可能性最小。首先，我们为此问题得出半参数的下限，在这里我们将最佳和次优的治疗臂的预期奖励之间的差距视为感兴趣的参数，以及所有其他参数，例如在上下文中的预期奖励，作为滋扰参数。然后，我们开发“上下文RS-AIPW策略”，该策略由随机采样（RS）规则组成，跟踪目标分配比和使用增强反向概率加权（AIPW）估算器的建议规则。我们提出的上下文RS-AIPW策略是最佳的，因为错误识别概率的上限与预算到Infinity时的半参数下限相匹配，并且差距趋于零。

translated by 谷歌翻译

Sharper Sub-Weibull Concentrations

Huiming Zhang , Haoyu Wei

分类： (统计)机器学习

2021-02-04

在机器学习和高维统计领域的有限样本理论中，恒定指定的浓度不平等至关重要。我们获得了独立亚网络随机变量总和的更清晰和常数的浓度不平等，这导致了两个尾巴的混合物：尺寸的小偏差和较大偏差的小偏差。这些界限是新的，并通过更清晰的常数改善了现有的界限。另外，如果应保留斜体，则新的子韦布尔参数。请检查整个文本。还提出了提出的，它可以为随机变量（向量）恢复紧密浓度不平等。对于统计应用，我们给出了$ \ ell_2 $ - 估计系数在负二项式回归中的估计系数时，当重尾协变量是稀疏结构分布的亚weibull时，这是负二项式回归的新结果。在应用随机矩阵时，我们得出了Bai-Yin定理的非反应版本，用于具有指数尾巴边界的亚weibull条目。最后，通过为没有第二瞬间条件的对数截断的Z-测验器演示一个子静电区域，我们讨论并定义了独立观测值的sub-weibull类型稳健估计器$ \ {x_i \} _ {i = 1 }^{n} $没有指数矩条件。

translated by 谷歌翻译

Learning-Based Adaptive Control for Stochastic Linear Systems with Input Constraints

Seth Siriya , Jingge Zhu , Dragan Nešić , Ye Pu

分类：机器学习

2022-09-15

我们提出了一种确定性等效方案，以自适应控制标量线性系统，约为I.I.D.高斯干扰和有限的控制输入约束，而无需先验系统参数的界限，也不需要控制方向。假设该系统处于偏差稳定的范围内，则证明了闭环系统状态的均方根界。最后，提出了数值示例，以说明我们的结果。

translated by 谷歌翻译

Off-policy estimation of linear functionals: Non-asymptotic theory for semi-parametric efficiency

Wenlong Mou , Martin J. Wainwright , Peter L. Bartlett

分类： (统计)机器学习

2022-09-26

在因果推理和强盗文献中，基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序，然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限：这些边界表明，为了获得非反应性最佳程序，应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序，并通过匹配非轴突局部局部最小值下限，在有限样品中建立了实例依赖性最优性。这些结果表明，除了取决于渐近效率方差之外，最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。

translated by 谷歌翻译

Finite-Sample Guarantees for High-Dimensional DML

Victor Quintas-Martinez

分类：机器学习 | (统计)机器学习

2022-06-15

DECIASED机器学习（DML）提供了一种有吸引力的方法来估计观察环境中的治疗效果，在这种情况下，因果参数的识别需要有条件的独立性或不符的假设，因为它可以灵活地控制大量的协变量。本文提供了新的有限样本保证，可保证对高维DML的关节推断，从而界定了估计量的有限样本分布与其渐近高斯近似相距多远。这些保证对应用研究人员很有用，因为它们可以提供距离标称级别的联合置信带覆盖范围的距离。在许多情况下，高维因果参数可能引起人们的关注，例如许多治疗概况的吃量，或者在许多结果上进行治疗的食品。我们还涵盖了无限维度参数，例如对潜在结果的整个边际分布的影响。本文中的有限样本保证补充了DML估计量的一致性和渐近正态性的现有结果，DML估计量是渐近的，或仅处理一维情况。

translated by 谷歌翻译

Asymptotic Distributions and Rates of Convergence for Random Forests via Generalized U-statistics

Wei Peng , Tim Coleman , Lucas Mentch

分类： (统计)机器学习 | 机器学习

2019-05-25

随机森林仍然是最受欢迎的现成监督学习算法之一。尽管他们记录了良好的经验成功，但直到最近，很少有很少的理论结果来描述他们的表现和行为。在这项工作中，我们通过建立随机森林和其他受监督学习集合的融合率来推动最近的一致性和渐近正常的工作。我们培养了广义U形统计的概念，并显示在此框架内，随机森林预测可能对比以前建立的较大的子样本尺寸可能保持渐近正常。我们还提供Berry-esseen的界限，以量化这种收敛的速度，使得分列大小的角色和确定随机森林预测分布的树木的角色。

translated by 谷歌翻译

The Projected Covariance Measure for assumption-lean variable significance testing

Anton Rask Lundborg , Ilmun Kim , Rajen D. Shah , Richard J. Samworth

分类： (统计)机器学习

2022-11-03

Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.

translated by 谷歌翻译

Bregman Deviations of Generic Exponential Families

Sayak Ray Chowdhury , Patrick Saux , Odalric-Ambrym Maillard , Aditya Gopalan

分类：机器学习

2022-01-18

我们重新审视混合技术的方法，也称为拉普拉斯法，以研究通用指数家族中的浓度现象。将与家族的对数分区功能相关的Bregman差异的性质与超级木制混合物的方法相关联，我们建立了一个通用的结合，以控制家族参数与参数的有限样本估算之间的Bregman差异。我们的界限是时间均匀的，并且看起来很大，将经典信息增益扩展到指数式家庭，我们称之为Bregman信息收益。对于从业者而言，我们实例化了这本小说绑定到几个古典家庭，例如高斯，伯努利，指数，威布尔，帕雷托，帕尔托，泊松和卡方和卡方，从而产生了置信度的明确形式和布雷格曼信息的收益。我们从数值上进一步将所得的置信度界限与最先进的替代方案进行比较，以使其均匀浓度，并表明这种新颖的方法会产生竞争结果。最后，我们强调了集中界对某些说明性应用的好处。

translated by 谷歌翻译

Tractability from overparametrization: The example of the negative perceptron

Andrea Montanari , Yiqiao Zhong , Kangjie Zhou

分类：机器学习

2021-10-28

在负面的感知问题中，我们给出了$ n $数据点$（{\ boldsymbol x} _i，y_i）$，其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1，-1 \} $是二进制标签。数据不是线性可分离的，因此我们满足自己的内容，以找到最大的线性分类器，具有最大的\ emph {否定}余量。换句话说，我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $，最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta}，{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题（它相当于在Polytope中找到最大标准矢量），我们在两个随机模型下研究其典型属性。我们考虑比例渐近，其中$ n，d \ to \ idty $以$ n / d \ to \ delta $，并在最大边缘$ \ kappa _ {\ text {s}}（\ delta）上证明了上限和下限）$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}（\ kappa）$。换句话说，$ \ delta _ {\ text {s}}（\ kappa）$是overparametization阈值：以$ n / d \ le \ delta _ {\ text {s}}（\ kappa） - \ varepsilon $一个分类器实现了消失的训练错误，具有高概率，而以$ n / d \ ge \ delta _ {\ text {s}}（\ kappa）+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}（\ kappa）$匹配，以$ \ kappa \ to - \ idty $匹配。然后，我们分析了线性编程算法来查找解决方案，并表征相应的阈值$ \ delta _ {\ text {lin}}（\ kappa）$。我们观察插值阈值$ \ delta _ {\ text {s}}（\ kappa）$和线性编程阈值$ \ delta _ {\ text {lin {lin}}（\ kappa）$之间的差距，提出了行为的问题其他算法。

translated by 谷歌翻译

On the Statistical Complexity of Sample Amplification

Brian Axelrod , Shivam Garg , Yanjun Han , Vatsal Sharan , Gregory Valiant

分类：机器学习

2022-01-12

鉴于$ n $ i.i.d.从未知的分发$ P $绘制的样本，何时可以生成更大的$ n + m $ samples，这些标题不能与$ n + m $ i.i.d区别区别。从$ p $绘制的样品？（AXELROD等人2019）将该问题正式化为样本放大问题，并为离散分布和高斯位置模型提供了最佳放大程序。然而，这些程序和相关的下限定制到特定分布类，对样本扩增的一般统计理解仍然很大程度上。在这项工作中，我们通过推出通常适用的放大程序，下限技术和与现有统计概念的联系来放置对公司统计基础的样本放大问题。我们的技术适用于一大类分布，包括指数家庭，并在样本放大和分配学习之间建立严格的联系。

translated by 谷歌翻译

Relaxing the I.I.D. Assumption: Adaptively Minimax Optimal Regret via Root-Entropic Regularization

Blair Bilodeau , Jeffrey Negrea , Daniel M. Roy

分类： (统计)机器学习 | 机器学习

2020-07-13

当在未知约束集中任意变化的分布中生成数据时，我们会考虑使用专家建议的预测。这种半反向的设置包括（在极端）经典的I.I.D.设置时，当未知约束集限制为单身人士时，当约束集是所有分布的集合时，不受约束的对抗设置。对冲状态中，对冲算法（长期以来已知是最佳的最佳速率（速率））最近被证明是对I.I.D.的最佳最小值。数据。在这项工作中，我们建议放松I.I.D.通过在约束集的所有自然顺序上寻求适应性来假设。我们在各个级别的Minimax遗憾中提供匹配的上限和下限，表明确定性学习率的对冲在极端之外是次优的，并证明人们可以在各个级别的各个层面上都能适应Minimax的遗憾。我们使用以下规范化领导者（FTRL）框架实现了这种最佳适应性，并采用了一种新型的自适应正则化方案，该方案隐含地缩放为当前预测分布的熵的平方根，而不是初始预测分布的熵。最后，我们提供了新的技术工具来研究FTRL沿半逆转频谱的统计性能。

translated by 谷歌翻译

Counterfactual inference for sequential experiments

Raaz Dwivedi , Katherine Tian , Sabina Tomkins , Predrag Klasnja , Susan Murphy , Devavrat Shah

分类： (统计)机器学习 | 机器学习

2022-02-14

We consider after-study statistical inference for sequentially designed experiments wherein multiple units are assigned treatments for multiple time points using treatment policies that adapt over time. Our goal is to provide inference guarantees for the counterfactual mean at the smallest possible scale -- mean outcome under different treatments for each unit and each time -- with minimal assumptions on the adaptive treatment policy. Without any structural assumptions on the counterfactual means, this challenging task is infeasible due to more unknowns than observed data points. To make progress, we introduce a latent factor model over the counterfactual means that serves as a non-parametric generalization of the non-linear mixed effects model and the bilinear latent factor model considered in prior works. For estimation, we use a non-parametric method, namely a variant of nearest neighbors, and establish a non-asymptotic high probability error bound for the counterfactual mean for each unit and each time. Under regularity conditions, this bound leads to asymptotically valid confidence intervals for the counterfactual mean as the number of units and time points grows to $\infty$.

translated by 谷歌翻译