智能论文笔记

Orthogonalized Kernel Debiased Machine Learning for Multimodal Data Analysis

Xiaowu Dai , Lexin Li

分类： (统计)机器学习

2021-03-12

多式联运成像已转化神经科学研究。虽然它提出了前所未有的机会，但它也会冒着严峻的挑战。特别地，难以将归因于简单关联模型的解释性的优点与通过高度自适应非线性模型实现的灵活性组合。在本文中，我们提出了一个正交化的内核脱叠机器学习方法，该方法建立在奈曼正交性和一种分解正交性的形式，用于多模式数据分析。我们针对几乎所有多式化研究中自然出现的环境，其中有一个主要的兴趣模式，以及额外的辅助方式。我们建立了估计主要参数，半参数估计效率和预测的主要模型效应的置信带的渐近有效性的root-$ n $和渐近常态。我们的建议在很大程度上享有模型可解释性和模型灵活性。它与现有的多式联数据集成统计方法以及基于正交性的高维推论的方法也很大。我们通过模拟和应用于阿尔茨海默病的多模峰神经影像研究的应用，证明了我们的方法的功效。

translated by 谷歌翻译

Localized Debiased Machine Learning: Efficient Inference on Quantile Treatment Effects and Beyond

Nathan Kallus , Xiaojie Mao , Masatoshi Uehara

分类： (统计)机器学习 | 机器学习

2019-12-30

我们考虑在估计涉及依赖参数的高维滋扰的估计方程中估计一个低维参数。一个中心示例是因果推理中（局部）分位数处理效应（（L）QTE）的有效估计方程，涉及在分位数以估计的分位数评估的协方差累积分布函数。借记机学习（DML）是一种使用灵活的机器学习方法估算高维滋扰的数据分解方法，但是将其应用于参数依赖性滋扰的问题是不切实际的。对于（L）QTE，DML要求我们学习整个协变量累积分布函数。相反，我们提出了局部偏见的机器学习（LDML），该学习避免了这一繁重的步骤，并且只需要对参数进行一次初始粗糙猜测而估算烦恼。对于（L）QTE，LDML仅涉及学习两个回归功能，这是机器学习方法的标准任务。我们证明，在松弛速率条件下，我们的估计量与使用未知的真实滋扰的不可行的估计器具有相同的有利渐近行为。因此，LDML值得注意的是，当我们必须控制许多协变量和/或灵活的关系时，如（l）QTES在（（l）QTES）中，实际上可以有效地估算重要数量，例如（l）QTES。

translated by 谷歌翻译

The Projected Covariance Measure for assumption-lean variable significance testing

Anton Rask Lundborg , Ilmun Kim , Rajen D. Shah , Richard J. Samworth

分类： (统计)机器学习

2022-11-03

Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.

translated by 谷歌翻译

A General Framework for Treatment Effect Estimation in Semi-Supervised and High Dimensional Settings

Abhishek Chakrabortty , Guorong Dai , Eric Tchetgen Tchetgen

分类： (统计)机器学习

2022-01-03

在本文中，我们的目标是提供对半监督（SS）因果推理的一般性和完全理解治疗效果。具体而言，我们考虑两个这样的估计值：（a）平均治疗效果和（b）定量处理效果，作为原型案例，在SS设置中，其特征在于两个可用的数据集：（i）标记的数据集大小$ N $，为响应和一组高维协变量以及二元治疗指标提供观察。（ii）一个未标记的数据集，大小超过$ n $，但未观察到的响应。使用这两个数据集，我们开发了一个SS估计系列，该系列是：（1）更强大，并且（2）比其监督对应力更高的基于标记的数据集。除了通过监督方法可以实现的“标准”双重稳健结果（在一致性方面），我们还在正确指定模型中的倾向得分，我们进一步建立了我们SS估计的根本-N一致性和渐近常态。没有需要涉及的特定形式的滋扰职能。这种改善的鲁棒性来自使用大规模未标记的数据，因此通常不能在纯粹监督的环境中获得。此外，只要正确指定所有滋扰函数，我们的估计值都显示为半参数效率。此外，作为滋扰估计器的说明，我们考虑逆概率加权型核平滑估计，涉及未知的协变量转换机制，并在高维情景新颖的情况下建立其统一的收敛速率，这应该是独立的兴趣。两种模拟和实际数据的数值结果验证了我们对其监督对应物的优势，了解鲁棒性和效率。

translated by 谷歌翻译

Double Generative Adversarial Networks for Conditional Independence Testing

Chengchun Shi , Tianlin Xu , Wicher Bergsma , Lexin Li

分类： (统计)机器学习 | 机器学习

2020-06-03

在本文中，我们研究了高维条件独立测试，统计和机器学习中的关键构建块问题。我们提出了一种基于双生成对抗性网络（GANS）的推理程序。具体来说，我们首先介绍双GANS框架来学习两个发电机的条件分布。然后，我们将这两个生成器集成到构造测试统计，这采用多个转换函数的广义协方差措施的最大形式。我们还采用了数据分割和交叉拟合来最小化发电机上的条件，以实现所需的渐近属性，并采用乘法器引导来获得相应的$ P $ -Value。我们表明，构造的测试统计数据是双重稳健的，并且由此产生的测试既逆向I误差，并具有渐近的电源。同样的是，与现有测试相比，我们建立了较弱和实际上更可行的条件下的理论保障，我们的提案提供了如何利用某些最先进的深层学习工具（如GAN）的具体示例帮助解决古典但具有挑战性的统计问题。我们通过模拟和应用于抗癌药物数据集来证明我们的测试的疗效。在https://github.com/tianlinxu312/dgcit上提供了所提出的程序的Python实现。

translated by 谷歌翻译

Quasi-Bayesian Dual Instrumental Variable Regression

Ziyu Wang , Yuhao Zhou , Tongzheng Ren , Jun Zhu

分类： (统计)机器学习 | 机器学习

2021-06-16

近年来目睹了采用灵活的机械学习模型进行乐器变量（IV）回归的兴趣，但仍然缺乏不确定性量化方法的发展。在这项工作中，我们为IV次数回归提出了一种新的Quasi-Bayesian程序，建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率，并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法，可以扩展到与宽神经网络模型一起工作。实证评价表明，我们的方法对复杂的高维问题产生了丰富的不确定性估计。

translated by 谷歌翻译

Jump Interval-Learning for Individualized Decision Making

Hengrui Cai , Chengchun Shi , Rui Song , Wenbin Lu

分类：机器学习 | (统计)机器学习

2021-11-17

个性化决定规则（IDR）是一个决定函数，可根据他/她观察到的特征分配给定的治疗。文献中的大多数现有工作考虑使用二进制或有限的许多治疗方案的设置。在本文中，我们专注于连续治疗设定，并提出跳跃间隔 - 学习，开发一个最大化预期结果的个性化间隔值决定规则（I2DR）。与推荐单一治疗的IDRS不同，所提出的I2DR为每个人产生了一系列治疗方案，使其在实践中实施更加灵活。为了获得最佳I2DR，我们的跳跃间隔学习方法估计通过跳转惩罚回归给予治疗和协变量的结果的条件平均值，并基于估计的结果回归函数来衍生相应的最佳I2DR。允许回归线是用于清晰的解释或深神经网络的线性，以模拟复杂的处理 - 协调会相互作用。为了实现跳跃间隔学习，我们开发了一种基于动态编程的搜索算法，其有效计算结果回归函数。当结果回归函数是处理空间的分段或连续功能时，建立所得I2DR的统计特性。我们进一步制定了一个程序，以推断（估计）最佳政策下的平均结果。进行广泛的模拟和对华法林研究的真实数据应用，以证明所提出的I2DR的经验有效性。

translated by 谷歌翻译

Adversarial Estimators

Jonas Metzger

分类：机器学习 | (统计)机器学习

2022-04-22

我们开发了对对抗估计量（“ A-估计器”）的渐近理论。它们将最大样品型估计量（“ M-估计器”）推广为平均目标，以通过某些参数最大化，而其他参数则最小化。该课程涵盖了瞬间的瞬间通用方法，生成的对抗网络以及机器学习和计量经济学方面的最新建议。在这些示例中，研究人员指出，原则上可以使用哪些方面进行估计，并且对手学习如何最佳地强调它们。我们在重点和部分识别下得出A估计剂的收敛速率，以及其参数功能的正态性。未知功能可以通过筛子（例如深神经网络）近似，我们为此提供简化的低级条件。作为推论，我们获得了神经网络估计剂的正态性，克服了文献先前确定的技术问题。我们的理论产生了有关各种A估计器的新成果，为它们在最近的应用中的成功提供了直觉和正式的理由。

translated by 谷歌翻译

Smooth Nested Simulation: Bridging Cubic and Square Root Convergence Rates in High Dimensions

Wenjia Wang , Yanyuan Wang , Xiaowei Zhang

分类： (统计)机器学习

2022-01-09

嵌套模拟涉及通过模拟估算条件期望的功能。在本文中，我们提出了一种基于内核RIDGE回归的新方法，利用作为多维调节变量的函数的条件期望的平滑度。渐近分析表明，随着仿真预算的增加，所提出的方法可以有效地减轻了对收敛速度的维度诅咒，只要条件期望足够平滑。平滑度桥接立方根收敛速度之间的间隙（即标准嵌套模拟的最佳速率）和平方根收敛速率（即标准蒙特卡罗模拟的规范率）。我们通过来自投资组合风险管理和输入不确定性量化的数值例子来证明所提出的方法的性能。

translated by 谷歌翻译

Debiased Inference on Identified Linear Functionals of Underidentified Nuisances via Penalized Minimax Estimation

Nathan Kallus , Xiaojie Mao

分类： (统计)机器学习

2022-08-17

我们研究了对识别的非唯一麻烦的线性功能的通用推断，该功能定义为未识别条件矩限制的解决方案。这个问题出现在各种应用中，包括非参数仪器变量模型，未衡量的混杂性下的近端因果推断以及带有阴影变量的丢失 - 与随机数据。尽管感兴趣的线性功能（例如平均治疗效应）在适当的条件下是可以识别出的，但令人讨厌的非独家性对统计推断构成了严重的挑战，因为在这种情况下，常见的滋扰估计器可能是不稳定的，并且缺乏固定限制。在本文中，我们提出了对滋扰功能的受惩罚的最小估计器，并表明它们在这种挑战性的环境中有效推断。提出的滋扰估计器可以适应灵活的功能类别，重要的是，无论滋扰是否是唯一的，它们都可以融合到由惩罚确定的固定限制。我们使用受惩罚的滋扰估计器来形成有关感兴趣的线性功能的依据估计量，并在通用高级条件下证明其渐近正态性，这提供了渐近有效的置信区间。

translated by 谷歌翻译

Off-policy estimation of linear functionals: Non-asymptotic theory for semi-parametric efficiency

Wenlong Mou , Martin J. Wainwright , Peter L. Bartlett

分类： (统计)机器学习

2022-09-26

在因果推理和强盗文献中，基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序，然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限：这些边界表明，为了获得非反应性最佳程序，应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序，并通过匹配非轴突局部局部最小值下限，在有限样品中建立了实例依赖性最优性。这些结果表明，除了取决于渐近效率方差之外，最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。

translated by 谷歌翻译

Distribution-free Prediction Sets Adaptive to Unknown Covariate Shift

Hongxiang Qiu , Edgar Dobriban , Eric Tchetgen Tchetgen

分类： (统计)机器学习

2022-03-11

预测一组结果 - 而不是独特的结果 - 是统计学习中不确定性定量的有前途的解决方案。尽管有关于构建具有统计保证的预测集的丰富文献，但适应未知的协变量转变（实践中普遍存在的问题）还是一个严重的未解决的挑战。在本文中，我们表明具有有限样本覆盖范围保证的预测集是非信息性的，并提出了一种新型的无灵活分配方法PredSet-1Step，以有效地构建了在未知协方差转移下具有渐近覆盖范围保证的预测集。我们正式表明我们的方法是\ textIt {渐近上可能是近似正确}，对大型样本的置信度有很好的覆盖误差。我们说明，在南非队列研究中，它在许多实验和有关HIV风险预测的数据集中实现了名义覆盖范围。我们的理论取决于基于一般渐近线性估计器的WALD置信区间覆盖范围的融合率的新结合。

translated by 谷歌翻译

Causal Inference Under Unmeasured Confounding With Negative Controls: A Minimax Learning Approach

Nathan Kallus , Xiaojie Mao , Masatoshi Uehara

分类： (统计)机器学习 | 机器学习

2021-03-25

当并非观察到所有混杂因子并获得负面对照时，我们研究因果参数的估计。最近的工作表明，这些方法如何通过两个所谓的桥梁函数来实现识别和有效估计。在本文中，我们使用阴性对照来应对因果推断的主要挑战：这些桥梁功能的识别和估计。先前的工作依赖于这些功能的完整性条件，以识别因果参数并在估计中需要进行独特性假设，并且还集中于桥梁函数的参数估计。相反，我们提供了一种新的识别策略，以避免完整性条件。而且，我们根据最小学习公式为这些功能提供新的估计量。这些估计值适合通用功能类别，例如重现Hilbert空间和神经网络。我们研究了有限样本收敛的结果，既可以估计桥梁功能本身，又要在各种假设组合下对因果参数进行最终估计。我们尽可能避免桥梁上的独特条件。

translated by 谷歌翻译

On the role of surrogates in the efficient estimation of treatment effects with limited outcome data

Nathan Kallus , Xiaojie Mao

分类： (统计)机器学习 | 机器学习

2020-03-27

In many investigations, the primary outcome of interest is difficult or expensive to collect. Examples include long-term health effects of medical interventions, measurements requiring expensive testing or follow-up, and outcomes only measurable on small panels as in marketing. This reduces effective sample sizes for estimating the average treatment effect (ATE). However, there is often an abundance of observations on surrogate outcomes not of primary interest, such as short-term health effects or online-ad click-through. We study the role of such surrogate observations in the efficient estimation of treatment effects. To quantify their value, we derive the semiparametric efficiency bounds on ATE estimation with and without the presence of surrogates and several intermediary settings. The difference between these characterizes the efficiency gains from optimally leveraging surrogates. We study two regimes: when the number of surrogate observations is comparable to primary-outcome observations and when the former dominates the latter. We take an agnostic missing-data approach circumventing strong surrogate conditions previously assumed. To leverage surrogates' efficiency gains, we develop efficient ATE estimation and inference based on flexible machine-learning estimates of nuisance functions appearing in the influence functions we derive. We empirically demonstrate the gains by studying the long-term earnings effect of job training.

translated by 谷歌翻译

Optimal Nonparametric Inference with Two-Scale Distributional Nearest Neighbors

Emre Demirkaya , Yingying Fan , Lan Gao , Jinchi Lv , Patrick Vossler , Jingbo Wang

分类： (统计)机器学习 | 机器学习

2018-08-25

加权最近的邻居（WNN）估计量通常用作平均回归估计的灵活且易于实现的非参数工具。袋装技术是一种优雅的方式，可以自动生成最近邻居的重量的WNN估计器；我们将最终的估计量命名为分布最近的邻居（DNN），以便于参考。然而，这种估计器缺乏分布结果，从而将其应用于统计推断。此外，当平均回归函数具有高阶平滑度时，DNN无法达到最佳的非参数收敛率，这主要是由于偏差问题。在这项工作中，我们对DNN提供了深入的技术分析，我们建议通过线性将两个DNN估计量与不同的子采样量表进行线性相结合，从而提出了DNN估计量的偏差方法，从而导致新型的两尺度DNN（TDNN（TDNN））估计器。两尺度的DNN估计量具有等效的WNN表示，重量承认明确形式，有些则是负面的。我们证明，由于使用负权重，两尺度DNN估计器在四阶平滑度条件下估算回归函数时享有最佳的非参数收敛速率。我们进一步超出了估计，并确定DNN和两个规模的DNN均无渐进地正常，因为亚次采样量表和样本量差异到无穷大。对于实际实施，我们还使用二尺度DNN的Jacknife和Bootstrap技术提供方差估计器和分配估计器。可以利用这些估计器来构建有效的置信区间，以用于回归函数的非参数推断。建议的两尺度DNN方法的理论结果和吸引人的有限样本性能用几个数值示例说明了。

translated by 谷歌翻译

Causal Inference with Corrupted Data: Measurement Error, Missing Values, Discretization, and Differential Privacy

Anish Agarwal , Rahul Singh

分类：机器学习 | (统计)机器学习

2021-07-06

即使是最精确的经济数据集也具有嘈杂，丢失，离散化或私有化的变量。实证研究的标准工作流程涉及数据清理，然后是数据分析，通常忽略数据清洁的偏差和方差后果。我们制定了具有损坏数据的因果推理的半造型模型，以包括数据清洁和数据分析。我们提出了一种新的数据清洁，估计和推理的新的端到端程序，以及数据清洁调整的置信区间。通过有限的示例参数，我们证明了因果关系参数的估算器的一致性，高斯近似和半游戏效率。 Gaussian近似的速率为N ^ { - 1/2} $，如平均治疗效果，如平均治疗效果，并且优雅地为当地参数劣化，例如特定人口统计的异构治疗效果。我们的关键假设是真正的协变量是较低的等级。在我们的分析中，我们为矩阵完成，统计学习和半统计统计提供了非对症的理论贡献。我们验证了数据清洁调整的置信区间隔的覆盖范围校准，以类似于2020年美国人口普查中实施的差异隐私。

translated by 谷歌翻译

Off-Policy Confidence Interval Estimation with Confounded Markov Decision Process

Chengchun Shi , Jin Zhu , Ye Shen , Shikai Luo , Hongtu Zhu , Rui Song

分类： (统计)机器学习 | 机器学习

2022-02-22

本文关注的是，基于无限视野设置中预采用的观察数据，为目标策略的价值离线构建置信区间。大多数现有作品都假定不存在混淆观察到的动作的未测量变量。但是，在医疗保健和技术行业等实际应用中，这种假设可能会违反。在本文中，我们表明，使用一些辅助变量介导动作对系统动态的影响，目标策略的价值在混杂的马尔可夫决策过程中可以识别。基于此结果，我们开发了一个有效的非政策值估计器，该估计值可用于潜在模型错误指定并提供严格的不确定性定量。我们的方法是通过理论结果，从乘车共享公司获得的模拟和真实数据集证明的。python实施了建议的过程，请访问https://github.com/mamba413/cope。

translated by 谷歌翻译

Dimension-agnostic inference using cross U-statistics

Ilmun Kim , Aaditya Ramdas

分类： (统计)机器学习

2020-11-10

Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.

translated by 谷歌翻译

Distribution-Free Predictive Inference For Regression

Jing Lei , Max G'Sell , Alessandro Rinaldo , Ryan J. Tibshirani , Larry Wasserman

分类：

2016-04-14

We develop a general framework for distribution-free predictive inference in regression, using conformal inference. The proposed methodology allows for the construction of a prediction band for the response variable using any estimator of the regression function. The resulting prediction band preserves the consistency properties of the original estimator under standard assumptions, while guaranteeing finite-sample marginal coverage even when these assumptions do not hold. We analyze and compare, both empirically and theoretically, the two major variants of our conformal framework: full conformal inference and split conformal inference, along with a related jackknife method. These methods offer different tradeoffs between statistical accuracy (length of resulting prediction intervals) and computational efficiency. As extensions, we develop a method for constructing valid in-sample prediction intervals called rank-one-out conformal inference, which has essentially the same computational efficiency as split conformal inference. We also describe an extension of our procedures for producing prediction bands with locally varying length, in order to adapt to heteroskedascity in the data. Finally, we propose a model-free notion of variable importance, called leave-one-covariate-out or LOCO inference. Accompanying this paper is an R package conformalInference that implements all of the proposals we have introduced. In the spirit of reproducibility, all of our empirical results can also be easily (re)generated using this package.

translated by 谷歌翻译

Finite-Sample Guarantees for High-Dimensional DML

Victor Quintas-Martinez

分类：机器学习 | (统计)机器学习

2022-06-15

DECIASED机器学习（DML）提供了一种有吸引力的方法来估计观察环境中的治疗效果，在这种情况下，因果参数的识别需要有条件的独立性或不符的假设，因为它可以灵活地控制大量的协变量。本文提供了新的有限样本保证，可保证对高维DML的关节推断，从而界定了估计量的有限样本分布与其渐近高斯近似相距多远。这些保证对应用研究人员很有用，因为它们可以提供距离标称级别的联合置信带覆盖范围的距离。在许多情况下，高维因果参数可能引起人们的关注，例如许多治疗概况的吃量，或者在许多结果上进行治疗的食品。我们还涵盖了无限维度参数，例如对潜在结果的整个边际分布的影响。本文中的有限样本保证补充了DML估计量的一致性和渐近正态性的现有结果，DML估计量是渐近的，或仅处理一维情况。

translated by 谷歌翻译