Missing data are ubiquitous in real world applications and, if not adequately handled, may lead to the loss of information and biased findings in downstream analysis. Particularly, high-dimensional incomplete data with a moderate sample size, such as analysis of multi-omics data, present daunting challenges. Imputation is arguably the most popular method for handling missing data, though existing imputation methods have a number of limitations. Single imputation methods such as matrix completion methods do not adequately account for imputation uncertainty and hence would yield improper statistical inference. In contrast, multiple imputation (MI) methods allow for proper inference but existing methods do not perform well in high-dimensional settings. Our work aims to address these significant methodological gaps, leveraging recent advances in neural network Gaussian process (NNGP) from a Bayesian viewpoint. We propose two NNGP-based MI methods, namely MI-NNGP, that can apply multiple imputations for missing values from a joint (posterior predictive) distribution. The MI-NNGP methods are shown to significantly outperform existing state-of-the-art methods on synthetic and real datasets, in terms of imputation error, statistical inference, robustness to missing rates, and computation costs, under three missing data mechanisms, MCAR, MAR, and MNAR.
translated by 谷歌翻译
在大多数现实世界问题中存在缺失数据,需要仔细处理,以保留下游分析中的预测精度和统计一致性。作为处理缺失数据的金标准,提出了多个归纳(MI)方法来解释归纳不确定性并提供适当的统计推断。在这项工作中,我们通过生成的对抗网络(MI-GAN)提出多种归责,基于深度学习(基于GAN的)多重归名方法,可以在具有理论支持的随机(MAR)机制下缺失工作。Mi-GaN利用最近在有条件的生成对抗性神经作业中的进展,并在归责误差方面表现出对高维数据集的现有最先进的估算方法的强大性能。特别是,MI-GaN在统计推理和计算速度的意义上显着优于其他估算方法。
translated by 谷歌翻译
尽管电子健康记录是生物医学研究的丰富数据来源,但这些系统并未在医疗环境中统一地实施,并且由于医疗保健碎片化和孤立的电子健康记录之间缺乏互操作性,可能缺少大量数据。考虑到缺少数据的案例的删除可能会在随后的分析中引起严重的偏见,因此,一些作者更喜欢采用多重插补策略来恢复缺失的信息。不幸的是,尽管几项文献作品已经通过使用现在可以自由研究的任何不同的多个归档算法记录了有希望的结果,但尚无共识,MI算法效果最好。除了选择MI策略之外,归纳算法及其应用程序设置的选择也至关重要且具有挑战性。在本文中,受鲁宾和范布伦的开创性作品的启发,我们提出了一个方法学框架,可以应用于评估和比较多种多个插补技术,旨在选择用于计算临床研究工作中最有效的推断。我们的框架已被应用于验证和扩展较大的队列,这是我们在先前的文献研究中提出的结果,我们在其中评估了关键患者的描述符和Covid-19的影响在2型糖尿病患者中的影响,其数据为2型糖尿病,其数据为2型糖尿病由国家共同队列合作飞地提供。
translated by 谷歌翻译
近年来,深度学习(DL)方法的流行程度大大增加。尽管在图像数据的分类和操纵中证明了其最初的成功,但DL方法应用于生物医学科学中的问题的应用已显着增长。但是,生物医学数据集中缺失数据的较高流行率和复杂性对DL方法提出了重大挑战。在这里,我们在变化自动编码器(VAE)的背景下提供了对缺失数据的正式处理,这是一种普遍用于缩小尺寸,插补和学习复杂数据的潜在表示的流行无监督的DL体系结构。我们提出了一种新的VAE架构Nimiwae,这是第一个在训练时在输入功能中灵活解释可忽视和不可忽视的缺失模式之一。训练后,可以从缺失数据的后验分布中得出样本,可用于多个插补,从而促进高维不完整数据集的下游分析。我们通过统计模拟证明,我们的方法优于无监督的学习任务和插定精度的现有方法。我们以与12,000名ICU患者有关的EHR数据集的案例研究结束,该数据集具有大量诊断测量和临床结果,其中仅观察到许多特征。
translated by 谷歌翻译
近年来,深度学习(DL)方法的流行程度急剧增加,并且在生物医学科学中的监督学习问题中的应用显着增长。但是,现代生物医学数据集中缺失数据的较高流行率和复杂性对DL方法提出了重大挑战。在这里,我们在深入学习的广义线性模型的背景下,对缺失数据进行了正式处理,这是一种监督的DL架构,用于回归和分类问题。我们提出了一种新的体系结构,即\ textit {dlglm},这是第一个能够在训练时在输入功能和响应中灵活地说明忽略和不可忽视的缺失模式之一。我们通过统计模拟证明,我们的方法在没有随机(MNAR)缺失的情况下胜过现有的监督学习任务方法。我们从UCI机器学习存储库中对银行营销数据集进行了案例研究,在该数据集中我们预测客户是否基于电话调查数据订阅了产品。
translated by 谷歌翻译
在机器学习的许多应用中,不可避免的值是不可避免的,并且在培训和测试时都提出了挑战。当反复出现的模式中缺少变量时,已经提出了单独的图案子模型作为解决方案。但是,独立模型并不能有效利用所有可用数据。相反,将共享模型拟合到完整数据集通常取决于插补,而当丢失度取决于未观察到的因素时,这可能是次优的。我们提出了一种替代方法,称为共享模式子模型,该方法做出了a)在测试时对缺失值的强大预测,b)维持或提高模式子模型的预测能力,c)有一个简短的描述,可改善可解释性。我们确定共享是最佳的情况,即使缺失本身具有预测性以及预测目标取决于未观察到的变量。关于合成数据和两个医疗保健数据集的分类和回归实验表明,我们的模型在模式专业化和信息共享之间实现了良好的权衡。
translated by 谷歌翻译
统计模型是机器学习的核心,具有广泛适用性,跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是,当面对现实世界数据集时,许多模型运行到一个关键问题:它们是在完全观察到的数据方面配制的,而在实践中,数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计,其中存在强大的工具,例如变分推理(VI)。然而,与标准潜在变量模型相比,具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布,因此使标准的VI方法是棘手的。通过引入变分Gibbs推理(VGI),是一种新的通用方法来解决这个差距,以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI,从不完整的数据中估算重要的机器学习模型,VAE和标准化流程。拟议的方法,同时通用,实现比现有的特定模型特定估计方法竞争或更好的性能。
translated by 谷歌翻译
缺少数据是机器学习实践中的一个重要问题。从估算方法应保留数据的因果结构的前提下,我们开发了一个正则化方案,鼓励任何基线估算方法与底层数据产生机制发生因果关系。我们的提议是一个因果感知估算算法(奇迹)。奇迹通过同时建模缺失产生机制,令人振奋的归咎与数据的因果结构一致,迭代地改进基线的归纳。我们对综合和各种公开可用数据集进行了广泛的实验,以表明奇迹能够在所有三个缺失场景中始终如一地改善对各种基准方法的归力:随机,完全随意,而不是随机。
translated by 谷歌翻译
缺少价值估算对于现实世界数据科学工作流程至关重要。在线设置中的估算更加困难,因为它需要归纳方法本身能够随着时间的推移而发展。对于实际应用,估算算法应产生符合真实数据分布的避免,处理混合类型的数据,包括序数,布尔和连续变量,并缩放到大型数据集。在这项工作中,我们使用高斯Copula开发了一种新的在线估算算法,用于混合数据。在线高斯Copula模型符合所有Desiderata:其避免符合混合数据的数据分布,当流数据具有变化的分布时的准确性,以及速度(最多级)的精度上的离线对应物匹配。特别是在大规模的数据集上。通过将Copula模型拟合到在线数据,我们还提供了一种新方法,可以使用缺失值检测多变量依赖结构中的变化点。合成和现实世界数据的实验结果验证了所提出的方法的性能。
translated by 谷歌翻译
我们提出了一种基于生成的对冲网络(GANS)的扩展缺失数据载体方法的条件载荷GaN。激励用例是学习 - 排名,现代搜索,推荐系统和信息检索应用的基石。经验排名数据集并不总是遵循标准高斯分布或完全缺少随机(MCAR)机制,这是经典缺失数据载销方法的标准假设。我们的方法提供了一种简单的解决方案,可提供兼容的估算保证,同时放松缺失机制的假设和近似顽固的分布以提高估算质量。我们证明,对于随机(EMAR)的延伸缺失,实现了最佳的GaN载荷,并且在无随机(OAMAR)机制之外,延伸总是缺少的,超出天真MCAR。我们的方法展示了与最先进的基准和各种特征分布相比的开源Microsoft研究排名(MSR)数据集和合成排名数据集的最高估算质量。使用专有的Amazon搜索排名数据集,我们还展示了与地面真实数据相比训练的对GaN illuted数据训练的排名模型的可比排名质量指标。
translated by 谷歌翻译
考虑在数据集中插入缺失值的问题。一方面,使用迭代插补的一方面,传统的方法可以直接从学习条件分布的简单性和可定制性中受益,但遭受了对每个变量的适当模型规范的实际要求。另一方面,使用深层生成建模的最新方法受益于神经网络功能近似器的学习能力和效率,但通常很难优化和依赖更强大的数据假设。在这项工作中,我们研究了一种嫁给两者优势的方法:我们提出了 *Hyperibute *,这是一种适应性和自动配置列型模型及其超级参数的广义迭代插补框架。实际上,我们为开箱即用的学习者,优化者,模拟器和可扩展的接口提供具体的实现。从经验上讲,我们通过在各种公共数据集上通过全面的实验和敏感性调查了该框架,并证明了其相对于强大基准测试套件而产生准确的归精的能力。与最近的工作相反,我们认为我们的发现构成了对迭代归档范式的强烈辩护。
translated by 谷歌翻译
State-of-the-art causal discovery methods usually assume that the observational data is complete. However, the missing data problem is pervasive in many practical scenarios such as clinical trials, economics, and biology. One straightforward way to address the missing data problem is first to impute the data using off-the-shelf imputation methods and then apply existing causal discovery methods. However, such a two-step method may suffer from suboptimality, as the imputation algorithm may introduce bias for modeling the underlying data distribution. In this paper, we develop a general method, which we call MissDAG, to perform causal discovery from data with incomplete observations. Focusing mainly on the assumptions of ignorable missingness and the identifiable additive noise models (ANMs), MissDAG maximizes the expected likelihood of the visible part of observations under the expectation-maximization (EM) framework. In the E-step, in cases where computing the posterior distributions of parameters in closed-form is not feasible, Monte Carlo EM is leveraged to approximate the likelihood. In the M-step, MissDAG leverages the density transformation to model the noise distributions with simpler and specific formulations by virtue of the ANMs and uses a likelihood-based causal discovery algorithm with directed acyclic graph constraint. We demonstrate the flexibility of MissDAG for incorporating various causal discovery algorithms and its efficacy through extensive simulations and real data experiments.
translated by 谷歌翻译
本文提出了一种有效的变分推导框架,用于导出结构化高斯进程回归网络(SGPRN)模型的系列。关键的想法是将辅助诱导变量合并到潜在函数中,并共同处理诱导变量和超参数的分布作为变分参数。然后,我们提出了结构化可变分布和边缘化潜变量,这使得可分解的变分性下限并导致随机优化。我们推断方法能够建模数据,其中输出不共享具有与输入和输出大小无关的计算复杂性的公共输入集,因此容易处理具有缺失值的数据集。我们说明了我们对合成数据和真实数据集的方法的性能,并显示我们的模型通常提供比最先进的数据缺失数据的更好的估算结果。我们还提供了一种可视化方法,用于电职业学数据的输出中的输出的时变相关性,并且这些估计提供了了解神经群体动态的洞察力。
translated by 谷歌翻译
多维时空数据的概率建模对于许多现实世界应用至关重要。然而,现实世界时空数据通常表现出非平稳性的复杂依赖性,即相关结构随位置/时间而变化,并且在空间和时间之间存在不可分割的依赖性,即依赖关系。开发有效和计算有效的统计模型,以适应包含远程和短期变化的非平稳/不可分割的过程,成为一项艰巨的任务,尤其是对于具有各种腐败/缺失结构的大规模数据集。在本文中,我们提出了一个新的统计框架 - 贝叶斯互补内核学习(BCKL),以实现多维时空数据的可扩展概率建模。为了有效地描述复杂的依赖性,BCKL与短距离时空高斯过程(GP)相结合的内核低级分解(GP),其中两个组件相互补充。具体而言,我们使用多线性低级分组组件来捕获数据中的全局/远程相关性,并基于紧凑的核心函数引入加法短尺度GP,以表征其余的局部变异性。我们为模型推断开发了有效的马尔可夫链蒙特卡洛(MCMC)算法,并在合成和现实世界时空数据集上评估了所提出的BCKL框架。我们的结果证实了BCKL在提供准确的后均值和高质量不确定性估计方面的出色表现。
translated by 谷歌翻译
现实世界中的电子健康记录(EHR)通常会受到高丢失数据率的困扰。例如,在我们的EHR中,对于某些功能,缺失率可能高达90%,所有功能的平均缺失率约为70%。我们提出了一种时间感知的双交叉访问的缺失价值插补方法,称为ta-dualCV,该方法自发利用跨特征和纵向依赖性的多元依赖性在EHRS中从有限的可观察记录中提取的信息。具体而言,ta-dualCV捕获了不同特征测量值的缺失模式的潜在结构,它还考虑了时间连续性,并根据时间步长和不规则的时间间隔捕获了潜在的时间缺失模式。使用三种类型的任务使用三个大型现实世界EHR评估TA-DUALCV:无监督的选级任务,通过更改掩盖率高达90%的掩码率和使用长期短期记忆(LSTM)进行监督的24小时早期预测对化粪池休克的早期预测(LSTM) 。我们的结果表明,TA-DUALCV在两种任务上的所有现有最先进的归纳基线(例如底特律和驯服)的表现明显好。
translated by 谷歌翻译
随机过程提供了数学上优雅的方式模型复杂数据。从理论上讲,它们为可以编码广泛有趣的假设的功能类提供了灵活的先验。但是,实际上,难以通过优化或边缘化来有效推断,这一问题进一步加剧了大数据和高维输入空间。我们提出了一种新颖的变性自动编码器(VAE),称为先前的编码变量自动编码器($ \ pi $ vae)。 $ \ pi $ vae是有限的交换且Kolmogorov一致的,因此是一个连续的随机过程。我们使用$ \ pi $ vae学习功能类的低维嵌入。我们表明,我们的框架可以准确地学习表达功能类,例如高斯流程,也可以学习函数的属性以启用统计推断(例如log高斯过程的积分)。对于流行的任务,例如空间插值,$ \ pi $ vae在准确性和计算效率方面都达到了最先进的性能。也许最有用的是,我们证明了所学的低维独立分布的潜在空间表示提供了一种优雅,可扩展的方法,可以在概率编程语言(例如Stan)中对随机过程进行贝叶斯推断。
translated by 谷歌翻译
对于许多应用科学来说,高维数据中缺少值的存在是无处不在的问题。许多可用的数据挖掘和机器学习方法的严重限制是它们无法处理部分缺失的值,因此结合插补和模型估计的集成方法对于下游分析至关重要。引入了一种称为EMFLOW的计算快速算法,该算法通过使用归一化流量(NF)模型,通过在线版本的期望最大化(EM)算法在潜在空间中执行插补,该模型将数据空间映射到潜在空间。提出的EMFLOW算法是迭代的,涉及更新在线EM和NF的参数。就算法收敛的预测准确性和速度而言,提供了高维多元和图像数据集的广泛实验结果,以说明EMFLOW的出色性能。我们为所有实验提供代码。
translated by 谷歌翻译
It has long been known that a single-layer fully-connected neural network with an i.i.d. prior over its parameters is equivalent to a Gaussian process (GP), in the limit of infinite network width. This correspondence enables exact Bayesian inference for infinite width neural networks on regression tasks by means of evaluating the corresponding GP. Recently, kernel functions which mimic multi-layer random neural networks have been developed, but only outside of a Bayesian framework. As such, previous work has not identified that these kernels can be used as covariance functions for GPs and allow fully Bayesian prediction with a deep neural network. In this work, we derive the exact equivalence between infinitely wide deep networks and GPs. We further develop a computationally efficient pipeline to compute the covariance function for these GPs. We then use the resulting GPs to perform Bayesian inference for wide deep neural networks on MNIST and CIFAR-10. We observe that trained neural network accuracy approaches that of the corresponding GP with increasing layer width, and that the GP uncertainty is strongly correlated with trained network prediction error. We further find that test performance increases as finite-width trained networks are made wider and more similar to a GP, and thus that GP predictions typically outperform those of finite-width networks. Finally we connect the performance of these GPs to the recent theory of signal propagation in random neural networks. * Both authors contributed equally to this work. † Work done as a member of the Google AI Residency program (g.co/airesidency). 1 Throughout this paper, we assume the conditions on the parameter distributions and nonlinearities are such that the Central Limit Theorem will hold; for instance, that the weight variance is scaled inversely proportional to the layer width.
translated by 谷歌翻译
在过去几十年中,已经提出了各种方法,用于估计回归设置中的预测间隔,包括贝叶斯方法,集合方法,直接间隔估计方法和保形预测方法。重要问题是这些方法的校准:生成的预测间隔应该具有预定义的覆盖水平,而不会过于保守。在这项工作中,我们从概念和实验的角度审查上述四类方法。结果来自各个域的基准数据集突出显示从一个数据集中的性能的大波动。这些观察可能归因于违反某些类别的某些方法所固有的某些假设。我们说明了如何将共形预测用作提供不具有校准步骤的方法的方法的一般校准程序。
translated by 谷歌翻译
缺失数据的归责是在许多工程和科学应用中发挥着重要作用的任务。通常,这种缺失的数据来自传感器的限制或后处理转换误差的实验观察中。其他时间从计算机模拟中的数值和算法约束产生。本文的一个这样的实例和应用重点是风暴浪涌的数值模拟。模拟数据对应于感兴趣的地理领域内的多个保存点的时间序列浪涌预测,创建了浪涌点在空间且时间上大量相关的时空呈现问题,并且缺失的值区域在结构上分布随机的。最近,已经开发了机器学习技术,例如神经网络方法,并用于缺少数据归档任务。生成的对抗网(GAN)和基于GAN的技术是特别引起了无监督机器学习方法的关注。在这项研究中,通过应用卷积神经网络而不是完全连接的层来改善生成的对抗性归纳网(增益)性能,以更好地捕获数据的相关性并从相邻的浪涌点促进学习。对所研究的数据所需的方法的另一调整是考虑点作为附加特征的点的坐标,以通过卷积层提供更多信息。我们将所提出的方法称为卷积生成的对抗性普通网(CONV-GAIL)。通过考虑风暴浪涌数据所需的改进和适应来评估和与原始增益和其他一些技术进行评估,提出的方法的表现。结果表明,CONV增益比研究数据上的替代方法具有更好的性能。
translated by 谷歌翻译