高水平的缺失数据和强大的类别不平衡是普遍存在的挑战,这些挑战通常在真实世界序列数据中同时呈现。现有方法分别接近这些问题,经常对底层数据生成过程进行显着假设,以减少缺失信息的影响。在这项工作中,我们可以利用展示如何普遍的自我监督训练方法,即自动评论预测编码(APC),以克服同时缺失的数据和类不平衡而没有强烈的假设。具体地,在合成数据集上,我们表明,通过使用APC,标准基线基本上得到改善,在高缺失和严重的阶级不平衡中产生最大的收益。我们进一步应用于两个现实世界医疗时间系列数据集的APC,并表明APC在所有设置中提高了分类性能,最终实现了最先进的AUPRC结果在物理体基准上。
translated by 谷歌翻译
Multivariate time series data in practical applications, such as health care, geoscience, and biology, are characterized by a variety of missing values. In time series prediction and other related tasks, it has been noted that missing values and their missing patterns are often correlated with the target labels, a.k.a., informative missingness. There is very limited work on exploiting the missing patterns for effective imputation and improving prediction performance. In this paper, we develop novel deep learning models, namely GRU-D, as one of the early attempts. GRU-D is based on Gated Recurrent Unit (GRU), a state-of-the-art recurrent neural network. It takes two representations of missing patterns, i.e., masking and time interval, and effectively incorporates them into a deep model architecture so that it not only captures the long-term temporal dependencies in time series, but also utilizes the missing patterns to achieve better prediction results. Experiments of time series classification tasks on real-world clinical datasets (MIMIC-III, PhysioNet) and synthetic datasets demonstrate that our models achieve state-of-the-art performance and provides useful insights for better understanding and utilization of missing values in time series analysis.
translated by 谷歌翻译
异步时间序列是一个多元时间序列,在该时间序列中,所有通道都被观察到异步独立的,使得时间序列在对齐时极为稀疏。我们经常在具有复杂的观察过程(例如医疗保健,气候科学和天文学)的应用中观察到这种影响,仅举几例。由于异步性质,它们对深度学习体系结构构成了重大挑战,假定给他们的时间序列定期采样,完全观察并与时间对齐。本文提出了一个新颖的框架,我们称深卷积集功能(DCSF),该功能高度可扩展且有效,对于异步时间序列分类任务。随着深度学习体系结构的最新进展,我们引入了一个模型,该模型不变了,在此订单中呈现了时间序列的频道。我们探索卷积神经网络,该网络对定期采样和完全观察到的时间序列的紧密相关的问题分类进行了很好的研究,以编码设置元素。我们评估DCSF的ASTS分类和在线(每个时间点)ASTS分类。我们在多个现实世界和合成数据集上进行的广泛实验验证了建议的模型在准确性和运行时间方面的表现优于一系列最新模型。
translated by 谷歌翻译
可以提前以低虚假警报率预测不良事件的模型对于接受医学界的决策支持系统至关重要。这项具有挑战性的机器学习任务通常仍被视为简单的二进制分类,并提出了一些定制方法来利用样本之间的时间依赖性。我们提出了时间标签平滑(TLS),这是一种新颖的学习策略,可调节平滑强度,这是与感兴趣的事件接近的函数。这种正则化技术降低了在类边界上的模型置信度,在该阶级边界中,信号通常是嘈杂或不信息的,因此训练可以集中在远离该边界区域的临床信息丰富的数据点上。从理论的角度来看,我们还表明,我们的方法可以作为多屈曲预测的扩展,这是在其他早期预测工作中提出的学习启发式词。 TLS从经验上匹配或跑赢大盘,考虑了各种早期预测基准任务的竞争方法。特别是,我们的方法可显着提高与临床相关的指标的性能,例如以低弹药率以较低的事件召回。
translated by 谷歌翻译
预训练在机器学习的不同领域表现出成功,例如计算机视觉,自然语言处理(NLP)和医学成像。但是,尚未完全探索用于临床数据分析。记录了大量的临床记录,但是对于在小型医院收集的数据或处理罕见疾病的数据仍可能稀缺数据和标签。在这种情况下,对较大的未标记临床数据进行预训练可以提高性能。在本文中,我们提出了专为异质的多模式临床数据设计的新型无监督的预训练技术,用于通过蒙版语言建模(MLM)启发的患者预测,通过利用对人群图的深度学习来启发。为此,我们进一步提出了一个基于图形转换器的网络,该网络旨在处理异质临床数据。通过将基于掩盖的预训练与基于变压器的网络相结合,我们将基于掩盖的其他域中训练的成功转化为异质临床数据。我们使用三个医学数据集Tadpole,Mimic-III和一个败血症预测数据集,在自我监督和转移学习设置中展示了我们的预训练方法的好处。我们发现,我们提出的培训方法有助于对患者和人群水平的数据进行建模,并提高所有数据集中不同微调任务的性能。
translated by 谷歌翻译
由于大多数入院的患者生存,因此感兴趣的医疗事件(例如死亡率)通常以较低的速度发生。具有这种不平衡率(类密度差异)的训练模型可能会导致次优预测。传统上,这个问题是通过临时方法(例如重新采样或重新加权)来解决的,但在许多情况下的性能仍然有限。我们为此不平衡问题提出了一个培训模型的框架:1)我们首先将特征提取和分类过程分离,分别调整每个组件的训练批次,以减轻由类密度差异引起的偏差;2)我们既有密度感知的损失,又是错误分类的可学习成本矩阵。我们证明了模型在现实世界医学数据集(TOPCAT和MIMIC-III)中的改进性能,以显示与域中的基线相比,AUC-ROC,AUC-PRC,BRIER技能得分的改进。
translated by 谷歌翻译
最近应用于从密集护理单位收集的时间序列的机器学习方法的成功暴露了缺乏标准化的机器学习基准,用于开发和比较这些方法。虽然原始数据集(例如MIMIC-IV或EICU)可以在物理体上自由访问,但是选择任务和预处理的选择通常是针对每个出版物的ad-hoc,限制出版物的可比性。在这项工作中,我们的目标是通过提供覆盖大型ICU相关任务的基准来改善这种情况。使用HirID数据集,我们定义与临床医生合作开发的多个临床相关任务。此外,我们提供可重复的端到端管道,以构建数据和标签。最后,我们提供了对当前最先进的序列建模方法的深入分析,突出了这种类型数据的深度学习方法的一些限制。通过这款基准,我们希望为研究界提供合理比较的可能性。
translated by 谷歌翻译
时间序列数据生成近年来越来越受到关注。已经提出了几种生成的对抗网络(GaN)的方法通常是假设目标时间序列数据良好格式化并完成的假设来解决问题。然而,现实世界时间序列(RTS)数据远离该乌托邦,例如,具有可变长度的长序列和信息缺失数据,用于设计强大的发电算法的棘手挑战。在本文中,我们向RTS数据提出了一种新的生成框架 - RTSGAN来解决上述挑战。 RTSGAN首先学习编码器 - 解码器模块,该模块提供时间序列实例和固定维度潜在载体之间的映射,然后学习生成模块以在同一潜在空间中生成vectors。通过组合发电机和解码器,RTSGAN能够生成尊重原始特征分布和时间动态的RTS。为了生成具有缺失值的时间序列,我们进一步用观察嵌入层和决定和生成解码器装备了RTSGAN,以更好地利用信息缺失模式。四个RTS数据集上的实验表明,该框架在用于下游分类和预测任务的合成数据实用程序方面优于前一代方法。
translated by 谷歌翻译
我们提出了一种使用流生理时间序列的端到端模型,以准确预测低氧血症的近期风险,低氧血症是一种罕见但威胁生命的疾病,已知在手术期间造成严重的患者伤害。受到以下事实的启发:低氧血症事件是根据未来观察到的低spo2(即血氧饱和度)实例定义的,我们提出的模型使对未来的低spo2实例和低氧血症结果的混合推断,并由关节序列启用同时优化标签预测的判别解码器的自动编码器,以及对数据重建和预测进行了培训的两个辅助解码器,它们无缝地学习上下文的潜在表示,这些表示捕获了当前状态之间的过渡到未来状态。所有解码器都共享一个基于内存的编码器,有助于捕获患者测量的全局动态。对于一个主要的学术医学中心进行了72,081次手术的大型手术队列,我们​​的模型优于所有基础,包括最先进的低氧预测系统使用的模型。能够以临床上可接受的警报对近期低氧事件的警报进行分辨率的实时预测,尤其是更关键的持续性低氧血症,我们提出的模型在改善临床决策和减轻围手术期的减轻负担方面有希望。
translated by 谷歌翻译
一般的ML应用程序中缺少数据方案非常常见,时间序列/序列应用也不例外。本文涉及基于新的复发神经网络(RNN)解决方案,用于丢失数据下的序列预测。我们的方法与所有现有方法不同。它试图直接编码数据中的丢失模式,而无需在模型构建之前或期间尝试将数据归为数据。我们的编码是无损的,并实现了压缩。它可以用于序列分类和预测。在存在可能的外源输入的情况下,我们将重点放在多步预测的一般背景下进行预测。特别是,我们为此提出了编码器码头(SEQ2SEQ)RNN的新型变体。这里的编码器采用上述模式编码,而在具有不同结构的解码器中,多个变体是可行的。我们通过对单个和多个序列(实际)数据集的多个实验来证明我们提出的体系结构的实用性。我们考虑两种情况,其中(i)数据自然缺少,并且(ii)数据被合成掩盖。
translated by 谷歌翻译
Ordinary Differential Equations (ODE)-based models have become popular foundation models to solve many time-series problems. Combining neural ODEs with traditional RNN models has provided the best representation for irregular time series. However, ODE-based models require the trajectory of hidden states to be defined based on the initial observed value or the last available observation. This fact raises questions about how long the generated hidden state is sufficient and whether it is effective when long sequences are used instead of the typically used shorter sequences. In this article, we introduce CrossPyramid, a novel ODE-based model that aims to enhance the generalizability of sequences representation. CrossPyramid does not rely only on the hidden state from the last observed value; it also considers ODE latent representations learned from other samples. The main idea of our proposed model is to define the hidden state for the unobserved values based on the non-linear correlation between samples. Accordingly, CrossPyramid is built with three distinctive parts: (1) ODE Auto-Encoder to learn the best data representation. (2) Pyramidal attention method to categorize the learned representations (hidden state) based on the relationship characteristics between samples. (3) Cross-level ODE-RNN to integrate the previously learned information and provide the final latent state for each sample. Through extensive experiments on partially-observed synthetic and real-world datasets, we show that the proposed architecture can effectively model the long gaps in intermittent series and outperforms state-of-the-art approaches. The results show an average improvement of 10\% on univariate and multivariate datasets for both forecasting and classification tasks.
translated by 谷歌翻译
Predicting the health risks of patients using Electronic Health Records (EHR) has attracted considerable attention in recent years, especially with the development of deep learning techniques. Health risk refers to the probability of the occurrence of a specific health outcome for a specific patient. The predicted risks can be used to support decision-making by healthcare professionals. EHRs are structured patient journey data. Each patient journey contains a chronological set of clinical events, and within each clinical event, there is a set of clinical/medical activities. Due to variations of patient conditions and treatment needs, EHR patient journey data has an inherently high degree of missingness that contains important information affecting relationships among variables, including time. Existing deep learning-based models generate imputed values for missing values when learning the relationships. However, imputed data in EHR patient journey data may distort the clinical meaning of the original EHR patient journey data, resulting in classification bias. This paper proposes a novel end-to-end approach to modeling EHR patient journey data with Integrated Convolutional and Recurrent Neural Networks. Our model can capture both long- and short-term temporal patterns within each patient journey and effectively handle the high degree of missingness in EHR data without any imputation data generation. Extensive experimental results using the proposed model on two real-world datasets demonstrate robust performance as well as superior prediction accuracy compared to existing state-of-the-art imputation-based prediction methods.
translated by 谷歌翻译
传统机器学习方法面临两种主要挑战,在处理医疗保健预测分析任务方面。首先,医疗保健数据的高维性质需要劳动密集型和耗时的过程,为每项新任务选择适当的功能集。其次,这些方法依赖于特征工程来捕获患者数据的顺序性,这可能无法充分利用医疗事件的时间模式及其依赖性。最近的深度学习方法通​​过解决医疗数据的高维和时间挑战,对各种医疗保健预测任务显示了有希望的性能。这些方法可以学习关键因素(例如,医学概念或患者)的有用表示及其与高维原始或最低处理的医疗保健数据的相互作用。在本文中,我们系统地审查了专注于推进和使用深神经网络的研究,以利用患者结构化时间序列数据进行医疗保健预测任务。为了识别相关研究,搜索MEDLINE,IEEE,SCOPUS和ACM数字图书馆于2021年2月7日出版的研究。我们发现研究人员在十个研究流中为深度时间序列预测文献做出了贡献:深入学习模型,缺少价值处理,不规则处理,患者表示,静态数据包容,关注机制,解释,纳入医疗本体,学习策略和可扩展性。本研究总结了这些文献流的研究见解,确定了几个关键研究差距,并提出了未来的患者时间序列数据深入学习的研究机会。
translated by 谷歌翻译
时间序列数据在现实世界应用中无处不在。但是,最常见的问题之一是,时间序列数据可能会通过数据收集过程的固有性质丢失值。因此,必须从多元(相关)时间序列数据中推出缺失值,这对于改善预测性能的同时做出准确的数据驱动决策至关重要。插补的常规工作简单地删除缺失值或基于平均/零填充它们。尽管基于深层神经网络的最新作品显示出了显着的结果,但它们仍然有一个限制来捕获多元时间序列的复杂生成过程。在本文中,我们提出了一种用于多变量时间序列数据的新型插补方法,称为sting(使用GAN基于自我注意的时间序列插补网络)。我们利用生成的对抗网络和双向复发性神经网络来学习时间序列的潜在表示。此外,我们引入了一种新型的注意机制,以捕获整个序列的加权相关性,并避免无关序列带来的潜在偏见。三个现实世界数据集的实验结果表明,刺痛在插补精度以及具有估算值的下游任务方面优于现有的最新方法。
translated by 谷歌翻译
从自然语言嵌入中汲取灵感,我们提出了Astromer,这是一种基于变压器的模型,以创建光曲线的表示。Astromer接受了数以百万计的Macho R波段样品的培训,并且很容易对其进行微调以匹配与下游任务相关的特定域。例如,本文显示了使用预训练的表示形式对变量恒星进行分类的好处。此外,我们还提供了一个Python库,其中包括这项工作中使用的所有功能。我们的图书馆包括预先培训的模型,可用于增强深度学习模型的性能,减少计算资源,同时获得最新的结果。
translated by 谷歌翻译
最近在无监督学习框架中为多元时间表制定代表性的努力。这种表示可以证明在活动识别,健康监测和异常检测等任务中有益。在本文中,我们考虑了一个设置,在该设置中,我们在动态图中观察到每个节点处的时间序列。我们提出了一个名为GraphTNC的框架,用于无监督的图表和时间序列的联合表示。我们的方法采用了对比度学习策略。基于一个假设,即时间序和图演进动力学是平滑的,我们确定了信号表现出近似平稳性的本地时间窗口。然后,我们训练一个编码,该编码允许在社区内分布非邻居信号的分布。我们首先使用合成数据证明了我们提出的框架的性能,随后我们证明它可以证明对使用现实世界数据集的分类任务有益。
translated by 谷歌翻译
疾病预测是医学应用中的知名分类问题。 GCNS提供了一个强大的工具,用于分析患者相对于彼此的特征。这可以通过将问题建模作为图形节点分类任务来实现,其中每个节点是患者。由于这种医学数据集的性质,类别不平衡是疾病预测领域的普遍存在问题,其中类的分布是歪曲的。当数据中存在类别不平衡时,现有的基于图形的分类器倾向于偏向于主要类别并忽略小类中的样本。另一方面,所有患者中罕见阳性病例的正确诊断在医疗保健系统中至关重要。在传统方法中,通过将适当的权重分配给丢失函数中的类别来解决这种不平衡,这仍然依赖于对异常值敏感的权重的相对值,并且在某些情况下偏向于小类(ES)。在本文中,我们提出了一种重加权的对抗性图形卷积网络(RA-GCN),以防止基于图形的分类器强调任何特定类的样本。这是通过将基于图形的神经网络与每个类相关联来完成的,这负责加权类样本并改变分类器的每个样本的重要性。因此,分类器自身调节并确定类之间的边界,更加关注重要样本。分类器和加权网络的参数受到侵犯方法训练。我们在合成和三个公共医疗数据集上显示实验。与最近的方法相比,ra-gcn展示了与最近的方法在所有三个数据集上识别患者状态的方法相比。详细分析作为合成数据集的定量和定性实验提供。
translated by 谷歌翻译
Future surveys such as the Legacy Survey of Space and Time (LSST) of the Vera C. Rubin Observatory will observe an order of magnitude more astrophysical transient events than any previous survey before. With this deluge of photometric data, it will be impossible for all such events to be classified by humans alone. Recent efforts have sought to leverage machine learning methods to tackle the challenge of astronomical transient classification, with ever improving success. Transformers are a recently developed deep learning architecture, first proposed for natural language processing, that have shown a great deal of recent success. In this work we develop a new transformer architecture, which uses multi-head self attention at its core, for general multi-variate time-series data. Furthermore, the proposed time-series transformer architecture supports the inclusion of an arbitrary number of additional features, while also offering interpretability. We apply the time-series transformer to the task of photometric classification, minimising the reliance of expert domain knowledge for feature selection, while achieving results comparable to state-of-the-art photometric classification methods. We achieve a logarithmic-loss of 0.507 on imbalanced data in a representative setting using data from the Photometric LSST Astronomical Time-Series Classification Challenge (PLAsTiCC). Moreover, we achieve a micro-averaged receiver operating characteristic area under curve of 0.98 and micro-averaged precision-recall area under curve of 0.87.
translated by 谷歌翻译
由于患者状况和治疗需求的变化,电子健康记录(EHR)表现出大量缺失数据。缺失价值的插补被认为是应对这一挑战的有效方法。现有的工作将插补方法和预测模型分为基于EHR的机器学习系统的两个独立部分。我们通过利用复合密度网络(CDNET)提出了一种集成的端对端方法,该方法允许插入方法和预测模型在单个框架中调整在一起。 CDNET由一个封闭式复发单元(GRU),混合物密度网络(MDN)和正则注意网络(RAN)组成。 GRU用作对EHR数据进行建模的潜在变量模型。 MDN旨在采样GRU生成的潜在变量。该运行是适用于较不可靠的估算值的正规器。 CDNET的结构使GRU和MDN迭代地利用彼此的输出来估算缺失值,从而导致更准确,更健壮的预测。我们验证cdnet关于模拟III数据集的死亡率预测任务。我们的模型以大幅度的利润率优于最先进的模型。我们还从经验上表明,正规化值是出色预测性能的关键因素。对预测不确定性的分析表明,我们的模型可以同时捕获核心和认知不确定性,从而使模型用户更好地了解模型结果。
translated by 谷歌翻译
数据通常以表格格式存储。几个研究领域(例如,生物医学,断层/欺诈检测),容易出现不平衡的表格数据。由于阶级失衡,对此类数据的监督机器学习通常很困难,从而进一步增加了挑战。合成数据生成,即过采样是一种用于提高分类器性能的常见补救措施。最先进的线性插值方法,例如洛拉斯和普罗拉斯,可用于从少数族裔类的凸空间中生成合成样本,以在这种情况下提高分类器的性能。生成的对抗网络(GAN)是合成样本生成的常见深度学习方法。尽管GAN被广泛用于合成图像生成,但在不平衡分类的情况下,它们在表格数据上的范围没有充分探索。在本文中,我们表明,与线性插值方法相比,现有的深层生成模型的性能较差,该方法从少数族裔类的凸空间中生成合成样本,对于小规模的表格数据集中的分类问题不平衡。我们提出了一个深厚的生成模型,将凸出空间学习和深层生成模型的思想结合在一起。 Convgen了解了少数族类样品的凸组合的系数,因此合成数据与多数类的不同。我们证明,与现有的深层生成模型相比,我们提出的模型Convgen在与现有的线性插值方法相当的同时,改善了此类小数据集的不平衡分类。此外,我们讨论了如何将模型用于一般的综合表格数据生成,甚至超出了数据不平衡的范围,从而提高了凸空间学习的整体适用性。
translated by 谷歌翻译