医疗数据集通常由噪声和缺失数据损坏。这些缺失的模式通常被认为是完全随机的,而是在医学场景中,现实是,这些模式由于在一些时间或数据被收集的不alaled的不均匀方式中被收集的传感器而发生突发。本文建议使用异构数据类型和使用顺序变化自动码器(VAES)来模拟医疗数据记录和突发的缺失数据。特别是,我们提出了一种新的方法,SHI-VAE,其扩展了VAE的能力,使VAE的顺序数据流缺失了观察。我们将我们的模型与精密护理单元数据库(ICU)中的最先进的解决方案进行比较和被动人类监测的数据集。此外,我们发现诸如RMSE的标准错误指标不能得出足够的决定性,以评估时间模型,并包括在我们分析地面真理和算中信号之间的互相关。我们表明Shi-VAE在使用两个指标方面实现了最佳性能,而不是GP-VAE模型的计算复杂性较低,这是用于医疗记录的最先进的方法。
translated by 谷歌翻译
时间序列数据生成近年来越来越受到关注。已经提出了几种生成的对抗网络(GaN)的方法通常是假设目标时间序列数据良好格式化并完成的假设来解决问题。然而,现实世界时间序列(RTS)数据远离该乌托邦,例如,具有可变长度的长序列和信息缺失数据,用于设计强大的发电算法的棘手挑战。在本文中,我们向RTS数据提出了一种新的生成框架 - RTSGAN来解决上述挑战。 RTSGAN首先学习编码器 - 解码器模块,该模块提供时间序列实例和固定维度潜在载体之间的映射,然后学习生成模块以在同一潜在空间中生成vectors。通过组合发电机和解码器,RTSGAN能够生成尊重原始特征分布和时间动态的RTS。为了生成具有缺失值的时间序列,我们进一步用观察嵌入层和决定和生成解码器装备了RTSGAN,以更好地利用信息缺失模式。四个RTS数据集上的实验表明,该框架在用于下游分类和预测任务的合成数据实用程序方面优于前一代方法。
translated by 谷歌翻译
现实世界中的电子健康记录(EHR)通常会受到高丢失数据率的困扰。例如,在我们的EHR中,对于某些功能,缺失率可能高达90%,所有功能的平均缺失率约为70%。我们提出了一种时间感知的双交叉访问的缺失价值插补方法,称为ta-dualCV,该方法自发利用跨特征和纵向依赖性的多元依赖性在EHRS中从有限的可观察记录中提取的信息。具体而言,ta-dualCV捕获了不同特征测量值的缺失模式的潜在结构,它还考虑了时间连续性,并根据时间步长和不规则的时间间隔捕获了潜在的时间缺失模式。使用三种类型的任务使用三个大型现实世界EHR评估TA-DUALCV:无监督的选级任务,通过更改掩盖率高达90%的掩码率和使用长期短期记忆(LSTM)进行监督的24小时早期预测对化粪池休克的早期预测(LSTM) 。我们的结果表明,TA-DUALCV在两种任务上的所有现有最先进的归纳基线(例如底特律和驯服)的表现明显好。
translated by 谷歌翻译
时间序列数据在现实世界应用中无处不在。但是,最常见的问题之一是,时间序列数据可能会通过数据收集过程的固有性质丢失值。因此,必须从多元(相关)时间序列数据中推出缺失值,这对于改善预测性能的同时做出准确的数据驱动决策至关重要。插补的常规工作简单地删除缺失值或基于平均/零填充它们。尽管基于深层神经网络的最新作品显示出了显着的结果,但它们仍然有一个限制来捕获多元时间序列的复杂生成过程。在本文中,我们提出了一种用于多变量时间序列数据的新型插补方法,称为sting(使用GAN基于自我注意的时间序列插补网络)。我们利用生成的对抗网络和双向复发性神经网络来学习时间序列的潜在表示。此外,我们引入了一种新型的注意机制,以捕获整个序列的加权相关性,并避免无关序列带来的潜在偏见。三个现实世界数据集的实验结果表明,刺痛在插补精度以及具有估算值的下游任务方面优于现有的最新方法。
translated by 谷歌翻译
缺失值的插补代表了许多现实世界数据分析管道的重要障碍。在这里,我们专注于时间序列数据,并提出SSSD,这是一个依赖两种新兴技术的插图模型,(条件)扩散模型是最先进的生成模型,结构化状态空间模型作为内部模型体系结构,是特别适合捕获时间序列数据中的长期依赖性。我们证明,在广泛的数据集和不同的丢失方案(包括具有挑战性的停电失误的情况)上,SSSD匹配甚至超过了最先进的概率插补和预测性能,在这些情况下,先前的方法未能提供有意义的结果。
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
最近出现了许多变异自动编码器(VAE),目的是建模多模式数据,例如,共同建模图像及其相应的标题。尽管如此,多模式的VAE倾向于仅通过在忽略标题的同时拟合图像来关注模式的子集。我们将此限制称为模态崩溃。在这项工作中,我们认为这种效果是多模式VAE训练中梯度冲突的结果。我们展示了如何检测梯度冲突(公正性块)的计算图中的子图形,以及如何利用从多任务学习到减轻模态崩溃的现有梯度冲突解决方案。也就是说,确保跨模式的公正优化。我们将培训框架应用于文献中的几种多模式VAE模型,损失和数据集,并从经验上表明,我们的框架显着改善了跨模态的潜在空间的重建性能,有条件的产生和连贯性。
translated by 谷歌翻译
在能源系统的数字化中,传感器和智能电表越来越多地用于监视生产,运行和需求。基于智能电表数据的异常检测对于在早期阶段识别潜在的风险和异常事件至关重要,这可以作为及时启动适当动作和改善管理的参考。但是,来自能源系统的智能电表数据通常缺乏标签,并且包含噪声和各种模式,而没有明显的周期性。同时,在不同的能量场景中对异常的模糊定义和高度复杂的时间相关性对异常检测构成了巨大的挑战。许多传统的无监督异常检测算法(例如基于群集或基于距离的模型)对噪声不强大,也不完全利用时间序列中的时间依赖性以及在多个变量(传感器)中的其他依赖关系。本文提出了一种基于带有注意机制的变异复发自动编码器的无监督异常检测方法。凭借来自智能电表的“肮脏”数据,我们的方法预示了缺失的值和全球异常,以在训练中缩小其贡献。本文与基于VAE的基线方法和其他四种无监督的学习方法进行了定量比较,证明了其有效性和优势。本文通过一项实际案例研究进一步验证了所提出的方法,该研究方法是检测工业加热厂的供水温度异常。
translated by 谷歌翻译
现实世界数据库很复杂,它们通常会呈现冗余,并在同一数据的异质和多个表示之间共享相关性。因此,在视图之间利用和解开共享信息至关重要。为此,最近的研究经常将所有观点融合到共享的非线性复杂潜在空间中,但它们失去了解释性。为了克服这一局限性,我们在这里提出了一种新的方法,将多个变异自动编码器(VAE)结构与因子分析潜在空间(FA-VAE)相结合。具体而言,我们使用VAE在连续的潜在空间中学习每个异质观点的私人表示。然后,我们通过使用线性投影矩阵将每个私有变量投影到低维的潜在空间来对共享潜在空间进行建模。因此,我们在私人信息和共享信息之间创建了可解释的层次依赖性。这样,新型模型可以同时:(i)从多种异质观点中学习,(ii)获得可解释的层次共享空间,以及(iii)在生成模型之间执行传输学习。
translated by 谷歌翻译
变异自动编码器(VAE)最近在归类和获取异质缺失数据方面非常成功。但是,在此特定应用程序域中,仅使用一层潜在变量和严格的高斯后近似值来限制现有的VAE方法。为了解决这些局限性,我们提出了HH-VAEM,这是一种用于混合型不完整数据的层次VAE模型,该模型使用Hamiltonian Monte Carlo和自动超参数调谐,以改善近似推断。我们的实验表明,HH-VAEM在缺少数据插补和有缺少功能的监督学习的任务中优于现有基线。最后,我们还提出了一种基于抽样的方法,用于在使用HH-VAEM获取缺失功能时有效地计算信息增益。我们的实验表明,基于抽样的方法优于基于高斯近似值的替代方法。
translated by 谷歌翻译
数据质量是发展医疗保健中值得信赖的AI的关键因素。大量具有控制混杂因素的策划数据集可以帮助提高下游AI算法的准确性,鲁棒性和隐私性。但是,访问高质量的数据集受数据获取的技术难度的限制,并且严格的道德限制阻碍了医疗保健数据的大规模共享。数据合成算法生成具有与真实临床数据相似的分布的数据,可以作为解决可信度AI的发展过程中缺乏优质数据的潜在解决方案。然而,最新的数据合成算法,尤其是深度学习算法,更多地集中于成像数据,同时忽略了非成像医疗保健数据的综合,包括临床测量,医疗信号和波形以及电子保健记录(EHRS)(EHRS) 。因此,在本文中,我们将回顾合成算法,尤其是对于非成像医学数据,目的是在该领域提供可信赖的AI。本教程风格的审查论文将对包括算法,评估,局限性和未来研究方向在内的各个方面进行全面描述。
translated by 谷歌翻译
项目反应理论(IRT)是一个无处不在的模型,可以根据他们对问题的回答理解人类行为和态度。大型现代数据集为捕捉人类行为的更多细微差别提供了机会,从而有可能改善心理测量模型,从而改善科学理解和公共政策。但是,尽管较大的数据集允许采用更灵活的方法,但许多用于拟合IRT模型的当代算法也可能具有禁止现实世界应用的巨大计算需求。为了解决这种瓶颈,我们引入了IRT的变异贝叶斯推理算法,并表明它在不牺牲准确性的情况下快速可扩展。将此方法应用于认知科学和教育的五个大规模项目响应数据集中,比替代推理算法更高的对数可能性和更高的准确性。然后,使用这种新的推论方法,我们将IRT概括为具有表现力的贝叶斯响应模型,利用深度学习的最新进展来捕获具有神经网络的非线性项目特征曲线(ICC)。使用TIMSS的特定级数学测试,我们显示我们的非线性IRT模型可以捕获有趣的不对称ICC。该算法实现是开源的,易于使用。
translated by 谷歌翻译
Temporal data like time series are often observed at irregular intervals which is a challenging setting for existing machine learning methods. To tackle this problem, we view such data as samples from some underlying continuous function. We then define a diffusion-based generative model that adds noise from a predefined stochastic process while preserving the continuity of the resulting underlying function. A neural network is trained to reverse this process which allows us to sample new realizations from the learned distribution. We define suitable stochastic processes as noise sources and introduce novel denoising and score-matching models on processes. Further, we show how to apply this approach to the multivariate probabilistic forecasting and imputation tasks. Through our extensive experiments, we demonstrate that our method outperforms previous models on synthetic and real-world datasets.
translated by 谷歌翻译
准确可靠的流行病预测是对公共卫生规划和疾病缓解影响的重要问题。大多数现有的疫情预测模型无视不确定性量化,导致错误校准的预测。近期神经模型的作品,用于不确定感知的时序预测也有几个限制;例如很难在贝叶斯NNS中指定有意义的前瞻,而Deep Leaseming的方法在实践中是计算昂贵的。在本文中,我们填补了这个重要的差距。我们将预测任务模拟为概率生成过程,并提出了一种名为EPIFNP的功能神经过程模型,其直接模拟预测值的概率密度。 EPIFNP利用动态随机相关图来模拟非参数方式之间序列之间的相关性,并设计不同的随机潜变量以捕获不同视角的功能不确定性。我们在实时流感预测环境中的广泛实验表明,EPIFNP在准确性和校准度量中显着优于先前的最先进模型,精度高达2.5倍,校准2.4倍。此外,由于其生成过程的性质,EPIFNP了解当前季节与历史季节类似模式之间的关系,从而实现可解释的预测。超越疫情预测,EPIFNP可以是独立的利益,以便在深度顺序模型中推进预测性分析的深度顺序模型
translated by 谷歌翻译
从电子健康记录(EHR)数据中进行有效学习来预测临床结果,这通常是具有挑战性的,因为在不规则的时间段记录的特征和随访的损失以及竞争性事件(例如死亡或疾病进展)。为此,我们提出了一种生成的事实模型,即Survlatent Ode,该模型采用了基于基于微分方程的复发性神经网络(ODE-RNN)作为编码器,以有效地对不规则采样的输入数据进行潜在状态的动力学有效地参数化。然后,我们的模型利用所得的潜在嵌入来灵活地估计多个竞争事件的生存时间,而无需指定事件特定危害功能的形状。我们展示了我们在Mimic-III上的竞争性能,这是一种从重症监护病房收集的自由纵向数据集,预测医院死亡率以及DANA-FARBER癌症研究所(DFCI)的数据,以预测静脉血栓症(静脉血栓症(DFCI)(DFCI)( VTE),是癌症患者的生命并发症,死亡作为竞争事件。幸存ODE优于分层VTE风险组的当前临床标准Khorana风险评分,同时提供临床上有意义且可解释的潜在表示。
translated by 谷歌翻译
纵向生物医学数据通常是稀疏时间网格和个体特定发展模式的特征。具体而言,在流行病学队列研究和临床登记处,我们面临的问题是在研究早期阶段中可以从数据中学到的问题,只有基线表征和一个后续测量。灵感来自最近的进步,允许将深度学习与动态建模相结合,我们调查这些方法是否可用于揭示复杂结构,特别是对于每个单独的两个观察时间点的极端小数据设置。然后,通过利用个体的相似性,可以使用不规则间距来获得有关个体动态的更多信息。我们简要概述了变形的自动化器(VAES)如何作为深度学习方法,可以与普通微分方程(ODES)相关联用于动态建模,然后具体研究这种方法的可行性,即提供个人特定的潜在轨迹的方法通过包括规律性假设和个人的相似性。我们还提供了对这种深度学习方法的描述作为过滤任务,以提供统计的视角。使用模拟数据,我们展示了方法可以在多大程度上从多大程度上恢复具有两个和四个未知参数的颂歌系统的单个轨迹,以及使用具有类似轨迹的个体群体,以及其崩溃的地方。结果表明,即使在极端的小数据设置中,这种动态深度学习方法也可能是有用的,但需要仔细调整。
translated by 谷歌翻译
我们为身体和生存期的个体老化轨迹建立了一个计算模型,其中包含物理,功能和生物变量,并在人口统计学,生活方式和医学背景信息上进行调节。我们将现代机器学习技术与可解释的交互网络相结合,其中健康变量通过随机动力系统内的显式配对交互来耦合。我们的动态联合可解释网络(DJIN)模型可扩展到大型纵向数据集,是从基线健康状态的个体高维氏体健康轨迹和生存的预测性,并且在卫生变量之间的可解释网络的可解释网络。该网络识别健康变量之间的合理生理连接以及强烈连接的健康变量的集群。我们使用对老化(ELSA)数据的英语纵向研究培训我们的模型,并表明它比多个专用线性模型更好地进行健康结果和生存。我们将模型与灵活的低维潜空间模型进行比较,探讨准确模拟老化健康结果所需的维度。我们的Djin模型可用于生成易于历史的合成人员,以赋予缺失数据,并模拟未来的老化结果给出任意初始健康状态。
translated by 谷歌翻译
最近在时间序列域中的合成数据生成的工作集中在使用生成的对抗网络。我们提出了一种用于综合生成时间序列数据的新型架构,使用变分自动编码器(VAES)。拟议的架构具有多种不同的特性:可解释性,编码域知识的能力,以及减少培训时间。我们通过对四个多变量数据集的相似性和可预测性评估数据生成质量。我们试验不同尺寸的培训数据,以测量数据可用性对我们VAE方法的产生质量的影响以及几种最先进的数据生成方法。我们对相似​​性测试的结果表明,VAE方法能够准确地代表原始数据的时间属性。在使用生成数据的下一步预测任务上,所提出的VAE架构一致地满足或超过最先进的数据生成方法的性能。虽然降噪可能导致所生成的数据偏离原始数据,但是我们演示了所产生的去噪数据可以使用生成的数据显着提高下一步预测的性能。最后,所提出的架构可以包含域特定的时间模式,例如多项式趋势和季节性,以提供可解释的输出。这种解释性在需要模型输出的透明度的应用中可以是非常有利的,或者用户希望将时间序列模式的先验知识注入到生成模型中。
translated by 谷歌翻译
本文提出了一种有效的变分推导框架,用于导出结构化高斯进程回归网络(SGPRN)模型的系列。关键的想法是将辅助诱导变量合并到潜在函数中,并共同处理诱导变量和超参数的分布作为变分参数。然后,我们提出了结构化可变分布和边缘化潜变量,这使得可分解的变分性下限并导致随机优化。我们推断方法能够建模数据,其中输出不共享具有与输入和输出大小无关的计算复杂性的公共输入集,因此容易处理具有缺失值的数据集。我们说明了我们对合成数据和真实数据集的方法的性能,并显示我们的模型通常提供比最先进的数据缺失数据的更好的估算结果。我们还提供了一种可视化方法,用于电职业学数据的输出中的输出的时变相关性,并且这些估计提供了了解神经群体动态的洞察力。
translated by 谷歌翻译