智能论文笔记

Proximal Causal Learning with Kernels: Two-Stage Estimation and Moment Restriction

Afsaneh Mastouri , Yuchen Zhu , Limor Gultchin , Anna Korba , Ricardo Silva , Matt J. Kusner , Arthur Gretton , Krikamol Muandet

分类：机器学习

2021-05-10

我们解决了在没有观察到的混杂的存在下的因果效应估计的问题，但是观察到潜在混杂因素的代理。在这种情况下，我们提出了两种基于内核的方法，用于非线性因果效应估计：（a）两阶段回归方法，以及（b）最大矩限制方法。我们专注于近端因果学习设置，但是我们的方法可以用来解决以弗雷霍尔姆积分方程为特征的更广泛的逆问题。特别是，我们提供了在非线性环境中解决此问题的两阶段和矩限制方法的统一视图。我们为每种算法提供一致性保证，并证明这些方法在合成数据和模拟现实世界任务的数据上获得竞争结果。特别是，我们的方法优于不适合利用代理变量的早期方法。

translated by 谷歌翻译

Kernel Methods for Unobserved Confounding: Negative Controls, Proxies, and Instruments

Rahul Singh

分类： (统计)机器学习 | 机器学习

2020-12-18

负面对照是在存在未衡量混杂的情况下学习治疗与结果之间因果关系的策略。但是，如果有两个辅助变量可用：阴性对照治疗（对实际结果没有影响），并且可以确定治疗效果，并且可以识别出负面对照的结果（不受实际治疗的影响）。这些辅助变量也可以看作是一组传统控制变量的代理，并且与仪器变量相似。我提出了一种基于内核脊回归的算法系列，用于学习非参数治疗效果，并具有阴性对照。例子包括剂量反应曲线，具有分布转移的剂量反应曲线以及异质治疗效果。数据可能是离散的或连续的，并且低，高或无限的尺寸。我证明一致性均匀，并提供有限的收敛速率。我使用宾夕法尼亚州1989年至1991年之间在宾夕法尼亚州的单身人士出生的数据集对婴儿的出生体重进行了吸烟的剂量反应曲线，以调整未观察到的混杂因素。

translated by 谷歌翻译

Generalized Kernel Ridge Regression for Nonparametric Structural Functions and Semiparametric Treatment Effects

Rahul Singh , Liyuan Xu , Arthur Gretton

分类：机器学习 | (统计)机器学习

2020-10-10

我们提出了基于内核Ridge回归的估计估算师，用于非参数结构功能（也称为剂量响应曲线）和半甲酰胺处理效果。治疗和协变量可以是离散的或连续的，低，高或无限的尺寸。与其他机器学习范例不同，降低了具有闭合形式解决方案的内核脊回归组合的因果估计和推理，这些ridge回归的组合，并通过矩阵操作轻松计算。这种计算简单允许我们在两个方向上扩展框架：从意味着增加和分布反事实结果;从完整人口参数到群体和替代人口的参数。对于结构函数，我们证明了具有有限样本速率的均匀一致性。对于治疗效果，我们通过新的双光谱鲁棒性属性证明$ \ sqrt {n} $一致性，高斯近似和半甲效率。我们对美国职能培训计划进行仿真和估计平均，异构和增量结构职能。

translated by 谷歌翻译

Debiased Inference on Identified Linear Functionals of Underidentified Nuisances via Penalized Minimax Estimation

Nathan Kallus , Xiaojie Mao

分类： (统计)机器学习

2022-08-17

我们研究了对识别的非唯一麻烦的线性功能的通用推断，该功能定义为未识别条件矩限制的解决方案。这个问题出现在各种应用中，包括非参数仪器变量模型，未衡量的混杂性下的近端因果推断以及带有阴影变量的丢失 - 与随机数据。尽管感兴趣的线性功能（例如平均治疗效应）在适当的条件下是可以识别出的，但令人讨厌的非独家性对统计推断构成了严重的挑战，因为在这种情况下，常见的滋扰估计器可能是不稳定的，并且缺乏固定限制。在本文中，我们提出了对滋扰功能的受惩罚的最小估计器，并表明它们在这种挑战性的环境中有效推断。提出的滋扰估计器可以适应灵活的功能类别，重要的是，无论滋扰是否是唯一的，它们都可以融合到由惩罚确定的固定限制。我们使用受惩罚的滋扰估计器来形成有关感兴趣的线性功能的依据估计量，并在通用高级条件下证明其渐近正态性，这提供了渐近有效的置信区间。

translated by 谷歌翻译

Deep Proxy Causal Learning and its Application to Confounded Bandit Policy Evaluation

Liyuan Xu , Heishiro Kanagawa , Arthur Gretton

分类：机器学习 | (统计)机器学习

2021-06-07

代理因果学习（PCL）是一种使用代理（结构侧信息）对杂交剂的不观察到的混杂性在存在的情况下估算治疗的原因效果的方法。这是通过两阶段回归实现的：在第一阶段，我们模拟治疗和代理之间的关系;在第二阶段，考虑到代理提供的上下文，我们使用该模型来学习治疗对结果的影响。 PCL保证恢复真正的因果效果，但受到可识别条件。我们提出了一种新颖的PCL方法，深度特征代理可变方法（DFPV），用于解决代理，处理和结果是高维度的，并且具有非线性复杂关系，如深神经网络特征所示。我们展示了DFPV在挑战合成基准上的最近最先进的PCL方法，包括涉及高维图像数据的设置。此外，我们表明PCL可以应用于混淆强盗问题的违规策略评估，其中DFPV也表现出具有竞争性的表现。

translated by 谷歌翻译

Spectral Representation Learning for Conditional Moment Models

Ziyu Wang , Yucen Luo , Yueru Li , Jun Zhu , Bernhard Schölkopf

分类： (统计)机器学习 | 机器学习

2022-10-29

Many problems in causal inference and economics can be formulated in the framework of conditional moment models, which characterize the target function through a collection of conditional moment restrictions. For nonparametric conditional moment models, efficient estimation often relies on preimposed conditions on various measures of ill-posedness of the hypothesis space, which are hard to validate when flexible models are used. In this work, we address this issue by proposing a procedure that automatically learns representations with controlled measures of ill-posedness. Our method approximates a linear representation defined by the spectral decomposition of a conditional expectation operator, which can be used for kernelized estimators and is known to facilitate minimax optimal estimation in certain settings. We show this representation can be efficiently estimated from data, and establish L2 consistency for the resulting estimator. We evaluate the proposed method on proximal causal inference tasks, exhibiting promising performance on high-dimensional, semi-synthetic data.

translated by 谷歌翻译

Kernel Methods for Multistage Causal Inference: Mediation Analysis and Dynamic Treatment Effects

Rahul Singh , Liyuan Xu , Arthur Gretton

分类：机器学习 | (统计)机器学习

2021-11-06

我们提出了用于中介分析和动态治疗效果的内核脊回归估计。我们允许治疗，协变量和介质是离散或连续的，低，高或无限的尺寸。我们在内核矩阵操作方面提出了具有封闭式解决方案的依据，增量和分布的估算者。对于连续治疗案例，我们证明了具有有限样本速率的均匀一致性。对于离散处理案例，我们证明了根 - N一致性，高斯近似和半占用效率。我们进行仿真，然后估计美国职务团计划的介导和动态治疗效果，弱势青少年。

translated by 谷歌翻译

Optimal Rates for Regularized Conditional Mean Embedding Learning

Zhu Li , Dimitri Meunier , Mattes Mollenhauer , Arthur Gretton

分类： (统计)机器学习 | 机器学习

2022-08-02

我们解决了条件平均嵌入（CME）的内核脊回归估算的一致性，这是给定$ y $ x $的条件分布的嵌入到目标重现内核hilbert space $ hilbert space $ hilbert Space $ \ Mathcal {H} _y $ $ $ $ 。 CME允许我们对目标RKHS功能的有条件期望，并已在非参数因果和贝叶斯推论中使用。我们解决了错误指定的设置，其中目标CME位于Hilbert-Schmidt操作员的空间中，该操作员从$ \ Mathcal {H} _X _x $和$ L_2 $和$ \ MATHCAL {H} _Y $ $之间的输入插值空间起作用。该操作员的空间被证明是新定义的矢量值插值空间的同构。使用这种同构，我们在未指定的设置下为经验CME估计量提供了一种新颖的自适应统计学习率。我们的分析表明，我们的费率与最佳$ o（\ log n / n）$速率匹配，而无需假设$ \ Mathcal {h} _y $是有限维度。我们进一步建立了学习率的下限，这表明所获得的上限是最佳的。

translated by 谷歌翻译

Generalized Kernel Ridge Regression for Long Term Causal Inference: Treatment Effects, Dose Responses, and Counterfactual Distributions

Rahul Singh

分类：机器学习 | (统计)机器学习

2022-01-13

我提出了长期因果推断的内核脊回归估计，其中包含随机治疗和短期替代品的短期实验数据集与包含短期替代和长期结果的长期观测数据集融合。在核矩阵操作方面，我提出了治疗效果，剂量反应和反事实分布的估算方法。我允许协变量，治疗和替代品是离散的或连续的，低，高或无限的尺寸。对于长期治疗效果，我证明$ \ sqrt {n} $一致性，高斯近似和半占用效率。对于长期剂量反应，我证明了具有有限样品速率的均匀稠度。对于长期反事实分布，我证明了分布的收敛性。

translated by 谷歌翻译

Deep Learning Methods for Proximal Inference via Maximum Moment Restriction

Benjamin Kompa , David R. Bellamy , Thomas Kolokotrones , James M. Robins , Andrew L. Beam

分类： (统计)机器学习 | 机器学习

2022-05-19

未经测量的混杂假设被广泛用于鉴定观察性研究中的因果效应。关于近端推理的最新工作提供了替代性识别结果，即使在没有观察到的混杂因子的存在下，也可以成功，但前提是人们测量了一组足够丰富的代理变量，并满足了特定的结构条件。但是，近端推断需要解决一个不适合的积分方程。先前的方法使用了各种机器学习技术来估计该积分方程的解决方案，通常称为桥梁函数。但是，通常通过依靠预指定的内核函数来限制先前的工作，这些函数不是数据适应性的，并且难以扩展到大型数据集。在这项工作中，我们基于深度神经网络引入了一种灵活且可扩展的方法，以估计存在使用近端推理的混淆的存在。我们的方法在两个公认的近端推理基准上实现了最先进的性能。最后，我们为我们的方法提供理论一致性保证。

translated by 谷歌翻译

Quasi-Bayesian Dual Instrumental Variable Regression

Ziyu Wang , Yuhao Zhou , Tongzheng Ren , Jun Zhu

分类： (统计)机器学习 | 机器学习

2021-06-16

近年来目睹了采用灵活的机械学习模型进行乐器变量（IV）回归的兴趣，但仍然缺乏不确定性量化方法的发展。在这项工作中，我们为IV次数回归提出了一种新的Quasi-Bayesian程序，建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率，并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法，可以扩展到与宽神经网络模型一起工作。实证评价表明，我们的方法对复杂的高维问题产生了丰富的不确定性估计。

translated by 谷歌翻译

Generalized Kernel Ridge Regression for Causal Inference with Missing-at-Random Sample Selection

Rahul Singh

分类：机器学习 | (统计)机器学习

2021-11-09

我提出了用于非参数剂量响应曲线和半造型处理效果的内核脊回归估计，在分析师可以访问所选样品而不是随机样品的情况下;仅供选择观察，观察结果。我假设选择与治疗的随机条件一样好，并且具有足够丰富的观察协变量，其中允许协变量引起治疗或由治疗引起的 - 失踪 - 随机（MAR）的延伸。我提出了在核矩阵操作方面具有封闭形式解决方案的手段，增量和分布的估算，允许治疗和协调因子是离散的或连续的，低，高或无限尺寸。对于连续处理箱，我证明了具有有限样本速率的均匀一致性。对于离散处理案例，我证明了根 - N一致性，高斯近似和半占效率。

translated by 谷歌翻译

Causal Inference Under Unmeasured Confounding With Negative Controls: A Minimax Learning Approach

Nathan Kallus , Xiaojie Mao , Masatoshi Uehara

分类： (统计)机器学习 | 机器学习

2021-03-25

当并非观察到所有混杂因子并获得负面对照时，我们研究因果参数的估计。最近的工作表明，这些方法如何通过两个所谓的桥梁函数来实现识别和有效估计。在本文中，我们使用阴性对照来应对因果推断的主要挑战：这些桥梁功能的识别和估计。先前的工作依赖于这些功能的完整性条件，以识别因果参数并在估计中需要进行独特性假设，并且还集中于桥梁函数的参数估计。相反，我们提供了一种新的识别策略，以避免完整性条件。而且，我们根据最小学习公式为这些功能提供新的估计量。这些估计值适合通用功能类别，例如重现Hilbert空间和神经网络。我们研究了有限样本收敛的结果，既可以估计桥梁功能本身，又要在各种假设组合下对因果参数进行最终估计。我们尽可能避免桥梁上的独特条件。

translated by 谷歌翻译

Causal Inference with Treatment Measurement Error: A Nonparametric Instrumental Variable Approach

Yuchen Zhu , Limor Gultchin , Arthur Gretton , Matt Kusner , Ricardo Silva

分类：机器学习

2022-06-18

当原因因错误破坏时，我们提出了基于内核的非参数估计量。我们通过在仪器变量设置中概括估计来做到这一点。尽管在测量误差和测量误差方面进行了重大研究，但在连续环境中处理未观察的混杂件是不平凡的：我们几乎看不到先前的工作。作为我们调查的副产品，我们阐明了平均嵌入和特征功能之间的联系，以及如何同时学习一个人学习另一个人。这为内核方法研究开辟了道路，以利用特征功能估计的现有结果。最后，我们从经验上表明，我们提出的方法MEKIV在测量误差的强度和误差分布的类型上的变化下改善了基线，并且在变化下是可靠的。

translated by 谷歌翻译

Functional Generalized Empirical Likelihood Estimation for Conditional Moment Restrictions

Heiner Kremer , Jia-Jie Zhu , Krikamol Muandet , Bernhard Schölkopf

分类：机器学习 | (统计)机器学习

2022-07-11

因果推理，经济学以及更普遍的一般机器学习中的重要问题可以表示为条件力矩限制，但是估计变得具有挑战性，因为它需要解决无条件的力矩限制的连续性。以前的工作通过将广义的矩（GMM）方法扩展到连续矩限制来解决此问题。相比之下，广义经验可能性（GEL）提供了一个更通用的框架，并且与基于GMM的估计器相比，已显示出具有优惠的小样本特性。为了从机器学习的最新发展中受益，我们提供了可以利用任意模型的凝胶的功能重新重新制定。通过对所得无限尺寸优化问题的双重配方的激励，我们设计了一种实用方法并探索其渐近性能。最后，我们提供基于内核和基于神经网络的估计器实现，这些实现在两个条件矩限制问题上实现了最先进的经验绩效。

translated by 谷歌翻译

Coefficient-based Regularized Distribution Regression

Yuan Mao , Lei Shi , Zheng-Chu Guo

分类： (统计)机器学习 | 机器学习

2022-08-26

在本文中，我们考虑了基于系数的正则分布回归，该回归旨在从概率措施中回归到复制的内核希尔伯特空间（RKHS）的实现响应（RKHS），该响应将正则化放在系数上，而内核被假定为无限期的。。该算法涉及两个采样阶段，第一阶段样本由分布组成，第二阶段样品是从这些分布中获得的。全面研究了回归函数的不同规律性范围内算法的渐近行为，并通过整体操作员技术得出学习率。我们在某些温和条件下获得最佳速率，这与单级采样的最小最佳速率相匹配。与文献中分布回归的内核方法相比，所考虑的算法不需要内核是对称的和阳性的半明确仪，因此为设计不确定的内核方法提供了一个简单的范式，从而丰富了分布回归的主题。据我们所知，这是使用不确定核进行分配回归的第一个结果，我们的算法可以改善饱和效果。

translated by 谷歌翻译

HTML版本

Learning the optimal Tikhonov regularizer for inverse problems

Giovanni S. Alberti , Ernesto De Vito , Matti Lassas , Luca Ratti , Matteo Santacesaria

分类： (统计)机器学习 | 机器学习

2021-06-11

在这项工作中，我们考虑线性逆问题$ y = ax + \ epsilon $，其中$ a \ colon x \ to y $是可分离的hilbert spaces $ x $和$ y $之间的已知线性运算符，$ x $。 $ x $和$ \ epsilon $中的随机变量是$ y $的零平均随机过程。该设置涵盖成像中的几个逆问题，包括去噪，去束和X射线层析造影。在古典正规框架内，我们专注于正则化功能的情况下未能先验，而是从数据中学习。我们的第一个结果是关于均方误差的最佳广义Tikhonov规则器的表征。我们发现它完全独立于前向操作员$ a $，并仅取决于$ x $的平均值和协方差。然后，我们考虑从两个不同框架中设置的有限训练中学习常规程序的问题：一个监督，根据$ x $和$ y $的样本，只有一个无人监督，只基于$ x $的样本。在这两种情况下，我们证明了泛化界限，在X $和$ \ epsilon $的分发的一些弱假设下，包括子高斯变量的情况。我们的界限保持在无限尺寸的空间中，从而表明更精细和更细的离散化不会使这个学习问题更加困难。结果通过数值模拟验证。

translated by 谷歌翻译

Kernel Autocovariance Operators of Stationary Processes: Estimation and Convergence

Mattes Mollenhauer , Stefan Klus , Christof Schütte , Péter Koltai

分类：机器学习 | (统计)机器学习

2020-04-02

We consider autocovariance operators of a stationary stochastic process on a Polish space that is embedded into a reproducing kernel Hilbert space. We investigate how empirical estimates of these operators converge along realizations of the process under various conditions. In particular, we examine ergodic and strongly mixing processes and obtain several asymptotic results as well as finite sample error bounds. We provide applications of our theory in terms of consistency results for kernel PCA with dependent data and the conditional mean embedding of transition probabilities. Finally, we use our approach to examine the nonparametric estimation of Markov transition operators and highlight how our theory can give a consistency analysis for a large family of spectral analysis methods including kernel-based dynamic mode decomposition.

translated by 谷歌翻译

The Projected Covariance Measure for assumption-lean variable significance testing

Anton Rask Lundborg , Ilmun Kim , Rajen D. Shah , Richard J. Samworth

分类： (统计)机器学习

2022-11-03

Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.

translated by 谷歌翻译

Kernel Conjugate Gradient Methods with Random Projections

Junhong Lin , Volkan Cevher

分类： (统计)机器学习 | 机器学习

2018-11-05

我们提出和研究内核偶联梯度方法（KCGM），并在可分离的希尔伯特空间上进行最小二乘回归的随机投影。考虑两种类型的随机草图和nyStr \“ {o} m子采样产生的随机投影，我们在适当的停止规则下证明了有关算法的规范变体的最佳统计结果。尤其是我们的结果表明，如果投影维度显示了投影维度与问题的有效维度成正比，带有随机草图的KCGM可以最佳地概括，同时获得计算优势。作为推论，我们在良好条件方面的经典KCGM得出了最佳的经典KCGM，因为目标函数可能不会不会在假设空间中。

translated by 谷歌翻译