在大多数现实世界问题中存在缺失数据,需要仔细处理,以保留下游分析中的预测精度和统计一致性。作为处理缺失数据的金标准,提出了多个归纳(MI)方法来解释归纳不确定性并提供适当的统计推断。在这项工作中,我们通过生成的对抗网络(MI-GAN)提出多种归责,基于深度学习(基于GAN的)多重归名方法,可以在具有理论支持的随机(MAR)机制下缺失工作。Mi-GaN利用最近在有条件的生成对抗性神经作业中的进展,并在归责误差方面表现出对高维数据集的现有最先进的估算方法的强大性能。特别是,MI-GaN在统计推理和计算速度的意义上显着优于其他估算方法。
translated by 谷歌翻译
Missing data are ubiquitous in real world applications and, if not adequately handled, may lead to the loss of information and biased findings in downstream analysis. Particularly, high-dimensional incomplete data with a moderate sample size, such as analysis of multi-omics data, present daunting challenges. Imputation is arguably the most popular method for handling missing data, though existing imputation methods have a number of limitations. Single imputation methods such as matrix completion methods do not adequately account for imputation uncertainty and hence would yield improper statistical inference. In contrast, multiple imputation (MI) methods allow for proper inference but existing methods do not perform well in high-dimensional settings. Our work aims to address these significant methodological gaps, leveraging recent advances in neural network Gaussian process (NNGP) from a Bayesian viewpoint. We propose two NNGP-based MI methods, namely MI-NNGP, that can apply multiple imputations for missing values from a joint (posterior predictive) distribution. The MI-NNGP methods are shown to significantly outperform existing state-of-the-art methods on synthetic and real datasets, in terms of imputation error, statistical inference, robustness to missing rates, and computation costs, under three missing data mechanisms, MCAR, MAR, and MNAR.
translated by 谷歌翻译
我们提出了一种基于生成的对冲网络(GANS)的扩展缺失数据载体方法的条件载荷GaN。激励用例是学习 - 排名,现代搜索,推荐系统和信息检索应用的基石。经验排名数据集并不总是遵循标准高斯分布或完全缺少随机(MCAR)机制,这是经典缺失数据载销方法的标准假设。我们的方法提供了一种简单的解决方案,可提供兼容的估算保证,同时放松缺失机制的假设和近似顽固的分布以提高估算质量。我们证明,对于随机(EMAR)的延伸缺失,实现了最佳的GaN载荷,并且在无随机(OAMAR)机制之外,延伸总是缺少的,超出天真MCAR。我们的方法展示了与最先进的基准和各种特征分布相比的开源Microsoft研究排名(MSR)数据集和合成排名数据集的最高估算质量。使用专有的Amazon搜索排名数据集,我们还展示了与地面真实数据相比训练的对GaN illuted数据训练的排名模型的可比排名质量指标。
translated by 谷歌翻译
数据估算已被广泛探索以解决缺失的数据问题。显着增加的不完整数据量使得归纳模型在许多现实生活中的计算上不可行。在本文中,我们提出了一个名为SCI的有效可扩展的估算系统,以显着加速在大规模不完整数据的准确性保证下进行可分解的生成对抗性归档模型的培训。 SCI包括两个模块,可差异的拒绝建模(DIM)和样本量估计(SSE)。 Dim利用新的遮蔽沉降角分歧功能,使任意生成的逆势归零模型可微分,而对于这种可分辨动的载体模型,SSE可以估计适当的样本大小,以确保用户指定的最终模型的借调准确性。在几个现实生活中的大规模数据集上进行了广泛的实验证明,我们的提出系统可以通过7.1倍加速生成的对抗性模型培训。使用大约7.6%的样本,SCIS在计算时间较短的情况下,使用最先进的估算方法产生竞争精度。
translated by 谷歌翻译
尽管电子健康记录是生物医学研究的丰富数据来源,但这些系统并未在医疗环境中统一地实施,并且由于医疗保健碎片化和孤立的电子健康记录之间缺乏互操作性,可能缺少大量数据。考虑到缺少数据的案例的删除可能会在随后的分析中引起严重的偏见,因此,一些作者更喜欢采用多重插补策略来恢复缺失的信息。不幸的是,尽管几项文献作品已经通过使用现在可以自由研究的任何不同的多个归档算法记录了有希望的结果,但尚无共识,MI算法效果最好。除了选择MI策略之外,归纳算法及其应用程序设置的选择也至关重要且具有挑战性。在本文中,受鲁宾和范布伦的开创性作品的启发,我们提出了一个方法学框架,可以应用于评估和比较多种多个插补技术,旨在选择用于计算临床研究工作中最有效的推断。我们的框架已被应用于验证和扩展较大的队列,这是我们在先前的文献研究中提出的结果,我们在其中评估了关键患者的描述符和Covid-19的影响在2型糖尿病患者中的影响,其数据为2型糖尿病,其数据为2型糖尿病由国家共同队列合作飞地提供。
translated by 谷歌翻译
时间序列数据在现实世界应用中无处不在。但是,最常见的问题之一是,时间序列数据可能会通过数据收集过程的固有性质丢失值。因此,必须从多元(相关)时间序列数据中推出缺失值,这对于改善预测性能的同时做出准确的数据驱动决策至关重要。插补的常规工作简单地删除缺失值或基于平均/零填充它们。尽管基于深层神经网络的最新作品显示出了显着的结果,但它们仍然有一个限制来捕获多元时间序列的复杂生成过程。在本文中,我们提出了一种用于多变量时间序列数据的新型插补方法,称为sting(使用GAN基于自我注意的时间序列插补网络)。我们利用生成的对抗网络和双向复发性神经网络来学习时间序列的潜在表示。此外,我们引入了一种新型的注意机制,以捕获整个序列的加权相关性,并避免无关序列带来的潜在偏见。三个现实世界数据集的实验结果表明,刺痛在插补精度以及具有估算值的下游任务方面优于现有的最新方法。
translated by 谷歌翻译
考虑在数据集中插入缺失值的问题。一方面,使用迭代插补的一方面,传统的方法可以直接从学习条件分布的简单性和可定制性中受益,但遭受了对每个变量的适当模型规范的实际要求。另一方面,使用深层生成建模的最新方法受益于神经网络功能近似器的学习能力和效率,但通常很难优化和依赖更强大的数据假设。在这项工作中,我们研究了一种嫁给两者优势的方法:我们提出了 *Hyperibute *,这是一种适应性和自动配置列型模型及其超级参数的广义迭代插补框架。实际上,我们为开箱即用的学习者,优化者,模拟器和可扩展的接口提供具体的实现。从经验上讲,我们通过在各种公共数据集上通过全面的实验和敏感性调查了该框架,并证明了其相对于强大基准测试套件而产生准确的归精的能力。与最近的工作相反,我们认为我们的发现构成了对迭代归档范式的强烈辩护。
translated by 谷歌翻译
对于许多应用科学来说,高维数据中缺少值的存在是无处不在的问题。许多可用的数据挖掘和机器学习方法的严重限制是它们无法处理部分缺失的值,因此结合插补和模型估计的集成方法对于下游分析至关重要。引入了一种称为EMFLOW的计算快速算法,该算法通过使用归一化流量(NF)模型,通过在线版本的期望最大化(EM)算法在潜在空间中执行插补,该模型将数据空间映射到潜在空间。提出的EMFLOW算法是迭代的,涉及更新在线EM和NF的参数。就算法收敛的预测准确性和速度而言,提供了高维多元和图像数据集的广泛实验结果,以说明EMFLOW的出色性能。我们为所有实验提供代码。
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
缺少数据是机器学习实践中的一个重要问题。从估算方法应保留数据的因果结构的前提下,我们开发了一个正则化方案,鼓励任何基线估算方法与底层数据产生机制发生因果关系。我们的提议是一个因果感知估算算法(奇迹)。奇迹通过同时建模缺失产生机制,令人振奋的归咎与数据的因果结构一致,迭代地改进基线的归纳。我们对综合和各种公开可用数据集进行了广泛的实验,以表明奇迹能够在所有三个缺失场景中始终如一地改善对各种基准方法的归力:随机,完全随意,而不是随机。
translated by 谷歌翻译
在不完整的数据集中对样本进行分类是机器学习从业人员的普遍目的,但并非平凡。在大多数现实世界数据集中发现缺失的数据,这些缺失值通常是使用已建立的方法估算的,然后进行分类现在完成,估算的样本。然后,机器学习研究人员的重点是优化下游分类性能。在这项研究中,我们强调必须考虑插补的质量。我们展示了如何评估质量的常用措施有缺陷,并提出了一类新的差异评分,这些分数着重于该方法重新创建数据的整体分布的程度。总而言之,我们强调了使用不良数据训练的分类器模型的可解释性损害。
translated by 谷歌翻译
在机器学习的许多应用中,不可避免的值是不可避免的,并且在培训和测试时都提出了挑战。当反复出现的模式中缺少变量时,已经提出了单独的图案子模型作为解决方案。但是,独立模型并不能有效利用所有可用数据。相反,将共享模型拟合到完整数据集通常取决于插补,而当丢失度取决于未观察到的因素时,这可能是次优的。我们提出了一种替代方法,称为共享模式子模型,该方法做出了a)在测试时对缺失值的强大预测,b)维持或提高模式子模型的预测能力,c)有一个简短的描述,可改善可解释性。我们确定共享是最佳的情况,即使缺失本身具有预测性以及预测目标取决于未观察到的变量。关于合成数据和两个医疗保健数据集的分类和回归实验表明,我们的模型在模式专业化和信息共享之间实现了良好的权衡。
translated by 谷歌翻译
缺少价值估算对于现实世界数据科学工作流程至关重要。在线设置中的估算更加困难,因为它需要归纳方法本身能够随着时间的推移而发展。对于实际应用,估算算法应产生符合真实数据分布的避免,处理混合类型的数据,包括序数,布尔和连续变量,并缩放到大型数据集。在这项工作中,我们使用高斯Copula开发了一种新的在线估算算法,用于混合数据。在线高斯Copula模型符合所有Desiderata:其避免符合混合数据的数据分布,当流数据具有变化的分布时的准确性,以及速度(最多级)的精度上的离线对应物匹配。特别是在大规模的数据集上。通过将Copula模型拟合到在线数据,我们还提供了一种新方法,可以使用缺失值检测多变量依赖结构中的变化点。合成和现实世界数据的实验结果验证了所提出的方法的性能。
translated by 谷歌翻译
统计模型是机器学习的核心,具有广泛适用性,跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是,当面对现实世界数据集时,许多模型运行到一个关键问题:它们是在完全观察到的数据方面配制的,而在实践中,数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计,其中存在强大的工具,例如变分推理(VI)。然而,与标准潜在变量模型相比,具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布,因此使标准的VI方法是棘手的。通过引入变分Gibbs推理(VGI),是一种新的通用方法来解决这个差距,以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI,从不完整的数据中估算重要的机器学习模型,VAE和标准化流程。拟议的方法,同时通用,实现比现有的特定模型特定估计方法竞争或更好的性能。
translated by 谷歌翻译
在没有明确或易于处理的可能性的情况下,贝叶斯人经常诉诸于贝叶斯计算(ABC)进行推理。我们的工作基于生成的对抗网络(GAN)和对抗性变分贝叶斯(GAN),为ABC桥接了ABC。 ABC和GAN都比较了观察到的数据和假数据的各个方面,分别从后代和似然模拟。我们开发了一个贝叶斯gan(B-GAN)采样器,该采样器通过解决对抗性优化问题直接靶向后部。 B-GAN是由有条件gan在ABC参考上学习的确定性映射驱动的。一旦训练了映射,就可以通过以可忽略的额外费用过滤噪声来获得IID后样品。我们建议使用(1)数据驱动的提案和(2)变化贝叶斯提出两项后处理的本地改进。我们通过常见的bayesian结果支持我们的发现,表明对于某些神经网络发生器和歧视器,真实和近似后骨之间的典型总变化距离收敛到零。我们对模拟数据的发现相对于一些最新的无可能后验模拟器显示出竞争激烈的性能。
translated by 谷歌翻译
We introduce a new algorithm named WGAN, an alternative to traditional GAN training. In this new model, we show that we can improve the stability of learning, get rid of problems like mode collapse, and provide meaningful learning curves useful for debugging and hyperparameter searches. Furthermore, we show that the corresponding optimization problem is sound, and provide extensive theoretical work highlighting the deep connections to different distances between distributions.
translated by 谷歌翻译
State-of-the-art causal discovery methods usually assume that the observational data is complete. However, the missing data problem is pervasive in many practical scenarios such as clinical trials, economics, and biology. One straightforward way to address the missing data problem is first to impute the data using off-the-shelf imputation methods and then apply existing causal discovery methods. However, such a two-step method may suffer from suboptimality, as the imputation algorithm may introduce bias for modeling the underlying data distribution. In this paper, we develop a general method, which we call MissDAG, to perform causal discovery from data with incomplete observations. Focusing mainly on the assumptions of ignorable missingness and the identifiable additive noise models (ANMs), MissDAG maximizes the expected likelihood of the visible part of observations under the expectation-maximization (EM) framework. In the E-step, in cases where computing the posterior distributions of parameters in closed-form is not feasible, Monte Carlo EM is leveraged to approximate the likelihood. In the M-step, MissDAG leverages the density transformation to model the noise distributions with simpler and specific formulations by virtue of the ANMs and uses a likelihood-based causal discovery algorithm with directed acyclic graph constraint. We demonstrate the flexibility of MissDAG for incorporating various causal discovery algorithms and its efficacy through extensive simulations and real data experiments.
translated by 谷歌翻译
缺失数据的归责是在许多工程和科学应用中发挥着重要作用的任务。通常,这种缺失的数据来自传感器的限制或后处理转换误差的实验观察中。其他时间从计算机模拟中的数值和算法约束产生。本文的一个这样的实例和应用重点是风暴浪涌的数值模拟。模拟数据对应于感兴趣的地理领域内的多个保存点的时间序列浪涌预测,创建了浪涌点在空间且时间上大量相关的时空呈现问题,并且缺失的值区域在结构上分布随机的。最近,已经开发了机器学习技术,例如神经网络方法,并用于缺少数据归档任务。生成的对抗网(GAN)和基于GAN的技术是特别引起了无监督机器学习方法的关注。在这项研究中,通过应用卷积神经网络而不是完全连接的层来改善生成的对抗性归纳网(增益)性能,以更好地捕获数据的相关性并从相邻的浪涌点促进学习。对所研究的数据所需的方法的另一调整是考虑点作为附加特征的点的坐标,以通过卷积层提供更多信息。我们将所提出的方法称为卷积生成的对抗性普通网(CONV-GAIL)。通过考虑风暴浪涌数据所需的改进和适应来评估和与原始增益和其他一些技术进行评估,提出的方法的表现。结果表明,CONV增益比研究数据上的替代方法具有更好的性能。
translated by 谷歌翻译
Although understanding and characterizing causal effects have become essential in observational studies, it is challenging when the confounders are high-dimensional. In this article, we develop a general framework $\textit{CausalEGM}$ for estimating causal effects by encoding generative modeling, which can be applied in both binary and continuous treatment settings. Under the potential outcome framework with unconfoundedness, we establish a bidirectional transformation between the high-dimensional confounders space and a low-dimensional latent space where the density is known (e.g., multivariate normal distribution). Through this, CausalEGM simultaneously decouples the dependencies of confounders on both treatment and outcome and maps the confounders to the low-dimensional latent space. By conditioning on the low-dimensional latent features, CausalEGM can estimate the causal effect for each individual or the average causal effect within a population. Our theoretical analysis shows that the excess risk for CausalEGM can be bounded through empirical process theory. Under an assumption on encoder-decoder networks, the consistency of the estimate can be guaranteed. In a series of experiments, CausalEGM demonstrates superior performance over existing methods for both binary and continuous treatments. Specifically, we find CausalEGM to be substantially more powerful than competing methods in the presence of large sample sizes and high dimensional confounders. The software of CausalEGM is freely available at https://github.com/SUwonglab/CausalEGM.
translated by 谷歌翻译
在实践中,缺少数据是一个通常发生的问题。已经开发了许多插补方法来填写缺失的条目。但是,并非所有这些都可以扩展到高维数据,尤其是多个插补技术。同时,如今的数据趋于高维。因此,在这项工作中,我们提出了主要成分分析插补(PCAI),这是一个基于主成分分析(PCA)的简单但多才多艺的框架,以加快插补过程并减轻许多可用的插补技术的记忆问题,而无需牺牲插补质量质量在MSE任期。此外,即使某些或全部缺少的功能是分类的,或者缺少功能的数量很大,框架也可以使用。接下来,我们介绍PCA插补 - 分类(PIC),这是PCAI在分类问题中的应用,并进行了一些调整。我们通过对各种情况进行实验来验证我们的方法,这表明PCAI和PIC可以使用各种插入算法(包括最先进的算法),并显着提高插补速度,同时在获得竞争性的均方误差/分类精度相比,指导插补(即直接将其插入丢失的数据)。
translated by 谷歌翻译