电子健康记录数据模型的开发是一个积极研究的领域,其中包含少数公共基准数据集。研究人员通常编写自定义数据处理代码,但这会阻碍可重复性并引入错误。Python软件包TORCHTIME提供了常用Physionet和UEA和UCR时间序列分类存储库数据集的可重复实现。提供了用于处理不规则的不规则时间序列的不规则抽样的特征。它旨在简化对生理学数据的访问,并在这一令人兴奋的研究领域中对模型进行公平的比较。
translated by 谷歌翻译
最近应用于从密集护理单位收集的时间序列的机器学习方法的成功暴露了缺乏标准化的机器学习基准,用于开发和比较这些方法。虽然原始数据集(例如MIMIC-IV或EICU)可以在物理体上自由访问,但是选择任务和预处理的选择通常是针对每个出版物的ad-hoc,限制出版物的可比性。在这项工作中,我们的目标是通过提供覆盖大型ICU相关任务的基准来改善这种情况。使用HirID数据集,我们定义与临床医生合作开发的多个临床相关任务。此外,我们提供可重复的端到端管道,以构建数据和标签。最后,我们提供了对当前最先进的序列建模方法的深入分析,突出了这种类型数据的深度学习方法的一些限制。通过这款基准,我们希望为研究界提供合理比较的可能性。
translated by 谷歌翻译
我们使用由与Pharma信息科学相关的23个新闻类别组成的文本数据集,以便在分类任务中比较多变压器模型的微调性能。使用具有多个自回归和自动调制变换模型的平衡数据集,我们比较了它们的微调性能。为了验证获胜方法,我们在错误预测的情况下执行模型行为的诊断,包括检测类别明智的指标,评估预测确定性和潜在空间表示的评估。最后,我们提出了一个由执行个人预测器的顶部组成的集合模型,并证明这种方法在F1度量中提供了适度的改进。
translated by 谷歌翻译
缺失值的插补代表了许多现实世界数据分析管道的重要障碍。在这里,我们专注于时间序列数据,并提出SSSD,这是一个依赖两种新兴技术的插图模型,(条件)扩散模型是最先进的生成模型,结构化状态空间模型作为内部模型体系结构,是特别适合捕获时间序列数据中的长期依赖性。我们证明,在广泛的数据集和不同的丢失方案(包括具有挑战性的停电失误的情况)上,SSSD匹配甚至超过了最先进的概率插补和预测性能,在这些情况下,先前的方法未能提供有意义的结果。
translated by 谷歌翻译
时间序列数据生成近年来越来越受到关注。已经提出了几种生成的对抗网络(GaN)的方法通常是假设目标时间序列数据良好格式化并完成的假设来解决问题。然而,现实世界时间序列(RTS)数据远离该乌托邦,例如,具有可变长度的长序列和信息缺失数据,用于设计强大的发电算法的棘手挑战。在本文中,我们向RTS数据提出了一种新的生成框架 - RTSGAN来解决上述挑战。 RTSGAN首先学习编码器 - 解码器模块,该模块提供时间序列实例和固定维度潜在载体之间的映射,然后学习生成模块以在同一潜在空间中生成vectors。通过组合发电机和解码器,RTSGAN能够生成尊重原始特征分布和时间动态的RTS。为了生成具有缺失值的时间序列,我们进一步用观察嵌入层和决定和生成解码器装备了RTSGAN,以更好地利用信息缺失模式。四个RTS数据集上的实验表明,该框架在用于下游分类和预测任务的合成数据实用程序方面优于前一代方法。
translated by 谷歌翻译
Multivariate time series data in practical applications, such as health care, geoscience, and biology, are characterized by a variety of missing values. In time series prediction and other related tasks, it has been noted that missing values and their missing patterns are often correlated with the target labels, a.k.a., informative missingness. There is very limited work on exploiting the missing patterns for effective imputation and improving prediction performance. In this paper, we develop novel deep learning models, namely GRU-D, as one of the early attempts. GRU-D is based on Gated Recurrent Unit (GRU), a state-of-the-art recurrent neural network. It takes two representations of missing patterns, i.e., masking and time interval, and effectively incorporates them into a deep model architecture so that it not only captures the long-term temporal dependencies in time series, but also utilizes the missing patterns to achieve better prediction results. Experiments of time series classification tasks on real-world clinical datasets (MIMIC-III, PhysioNet) and synthetic datasets demonstrate that our models achieve state-of-the-art performance and provides useful insights for better understanding and utilization of missing values in time series analysis.
translated by 谷歌翻译
TorchXrayVision是一个开源软件库,用于使用胸部X射线数据集和深度学习模型。它为广泛的公共可公共胸部X射线数据集提供了一个通用的接口和通用预处理链。此外,通过库培训具有不同架构的许多分类和表示模型,通过库可获得不同的数据组合,以用作基线或特征提取器。
translated by 谷歌翻译
众所周知,将高斯噪声注射到训练特征中具有正则化特性。本文认为将噪声注射到数字或分类表格特征中,这将转化为推理,这将推断转化为非确定性结果,并可能与公平考虑,对抗性示例保护或其他受益于非确定性的用例有关。我们提供用于表格预处理的汽车库作为该实践的资源,其中包括将随机抽样或熵播种的选项与量子电路的支持,代表一种将量子算法传播到经典学习的新方法。
translated by 谷歌翻译
异步时间序列是一个多元时间序列,在该时间序列中,所有通道都被观察到异步独立的,使得时间序列在对齐时极为稀疏。我们经常在具有复杂的观察过程(例如医疗保健,气候科学和天文学)的应用中观察到这种影响,仅举几例。由于异步性质,它们对深度学习体系结构构成了重大挑战,假定给他们的时间序列定期采样,完全观察并与时间对齐。本文提出了一个新颖的框架,我们称深卷积集功能(DCSF),该功能高度可扩展且有效,对于异步时间序列分类任务。随着深度学习体系结构的最新进展,我们引入了一个模型,该模型不变了,在此订单中呈现了时间序列的频道。我们探索卷积神经网络,该网络对定期采样和完全观察到的时间序列的紧密相关的问题分类进行了很好的研究,以编码设置元素。我们评估DCSF的ASTS分类和在线(每个时间点)ASTS分类。我们在多个现实世界和合成数据集上进行的广泛实验验证了建议的模型在准确性和运行时间方面的表现优于一系列最新模型。
translated by 谷歌翻译
多年来,大多数针对防御机器学习模型的防御攻击的研究都在图像识别领域中。尽管其重要性,但恶意软件检测域仍受到了较少的关注。此外,大多数探索这些防御的工作都集中在几种方法上,但是在应用它们时没有策略。在本文中,我们介绍了Stratdef,这是一种基于移动目标防御方法的恶意软件检测域而定制的战略防御系统。我们克服了与系统构建,选择和战略使用模型有关的挑战,以最大程度地提高对抗性鲁棒性。 Stratdef动态和战略性地选择了最佳模型,以增加攻击者的不确定性,同时最大程度地减少对抗性ML域(如攻击转移性)的关键方面。我们对针对恶意软件检测机器学习的对抗性攻击进行了首次全面评估,我们的威胁模型探索了不同级别的威胁,攻击者知识,能力和攻击强度。我们表明,即使面对对抗性威胁,StratDEF的表现也比其他防御能力更好。我们还表明,从现有的防御措施中,只有少数几个受对抗训练的模型比使用香草型号提供了更好的保护,但仍然胜过Stratdef。
translated by 谷歌翻译
网络在许多现实世界应用程序中无处不在(例如,编码信任/不信任关系的社交网络,由时间序列数据引起的相关网络)。尽管许多网络都是签名或指示的,或者两者都在图形神经网络(GNN)上缺少统一的软件包,专门为签名和定向网络设计。在本文中,我们提出了Pytorch几何签名的指示,这是一个填补此空白的软件包。在此过程中,我们还提供了简短的审查调查,以分析签名和定向网络的分析,讨论相关实验中使用的数据,提供提出的方法概述,并通过实验评估实施方法。深度学习框架包括易于使用的GNN模型,合成和现实世界数据,以及针对签名和定向网络的特定任务评估指标和损失功能。作为Pytorch几何形状的扩展库,我们提出的软件由开源版本,详细文档,连续集成,单位测试和代码覆盖范围检查维护。我们的代码可在\ url {https://github.com/sherylhyx/pytorch_geometric_signed_directed}上公开获得。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
时间序列数据在现实世界应用中无处不在。但是,最常见的问题之一是,时间序列数据可能会通过数据收集过程的固有性质丢失值。因此,必须从多元(相关)时间序列数据中推出缺失值,这对于改善预测性能的同时做出准确的数据驱动决策至关重要。插补的常规工作简单地删除缺失值或基于平均/零填充它们。尽管基于深层神经网络的最新作品显示出了显着的结果,但它们仍然有一个限制来捕获多元时间序列的复杂生成过程。在本文中,我们提出了一种用于多变量时间序列数据的新型插补方法,称为sting(使用GAN基于自我注意的时间序列插补网络)。我们利用生成的对抗网络和双向复发性神经网络来学习时间序列的潜在表示。此外,我们引入了一种新型的注意机制,以捕获整个序列的加权相关性,并避免无关序列带来的潜在偏见。三个现实世界数据集的实验结果表明,刺痛在插补精度以及具有估算值的下游任务方面优于现有的最新方法。
translated by 谷歌翻译
医疗数据集通常由噪声和缺失数据损坏。这些缺失的模式通常被认为是完全随机的,而是在医学场景中,现实是,这些模式由于在一些时间或数据被收集的不alaled的不均匀方式中被收集的传感器而发生突发。本文建议使用异构数据类型和使用顺序变化自动码器(VAES)来模拟医疗数据记录和突发的缺失数据。特别是,我们提出了一种新的方法,SHI-VAE,其扩展了VAE的能力,使VAE的顺序数据流缺失了观察。我们将我们的模型与精密护理单元数据库(ICU)中的最先进的解决方案进行比较和被动人类监测的数据集。此外,我们发现诸如RMSE的标准错误指标不能得出足够的决定性,以评估时间模型,并包括在我们分析地面真理和算中信号之间的互相关。我们表明Shi-VAE在使用两个指标方面实现了最佳性能,而不是GP-VAE模型的计算复杂性较低,这是用于医疗记录的最先进的方法。
translated by 谷歌翻译
我们提出了TABPFN,这是一种与小型表格数据集上的最新技术竞争性的自动化方法,而更快的速度超过1,000美元。我们的方法非常简单:它完全符合单个神经网络的权重,而单个正向通行证直接产生了对新数据集的预测。我们的AutoML方法是使用基于变压器的先验数据拟合网络(PFN)体系结构进行元学习的,并近似贝叶斯推断,其先验是基于简单性和因果结构的假设。先验包含庞大的结构性因果模型和贝叶斯神经网络,其偏见是小体系结构,因此复杂性较低。此外,我们扩展了PFN方法以在实际数据上校准Prior的超参数。通过这样做,我们将抽象先前的假设与对真实数据的启发式校准分开。之后,修复了校准的超参数,并在按钮按钮时可以将TABPFN应用于任何新的表格数据集。最后,在OpenML-CC18套件的30个数据集上,我们表明我们的方法优于树木,并与复杂的最新Automl系统相同,并且在不到一秒钟内产生的预测。我们在补充材料中提供所有代码和最终训练的TABPFN。
translated by 谷歌翻译
卷积和复发性神经网络的结合是一个有希望的框架,它允许提取高质量时空特征以及其时间依赖性,这是时间序列预测问题(例如预测,分类或异常检测)的关键。在本文中,引入了TSFEDL库。它通过使用卷积和经常性的深神经网络来编译20种时间序列提取和预测的最先进方法,用于在多个数据挖掘任务中使用。该库是建立在AGPLV3许可下的一组TensorFlow+Keras和Pytorch模块上的。本提案中包含的架构的性能验证证实了此Python软件包的有用性。
translated by 谷歌翻译
SchNetPack is a versatile neural networks toolbox that addresses both the requirements of method development and application of atomistic machine learning. Version 2.0 comes with an improved data pipeline, modules for equivariant neural networks as well as a PyTorch implementation of molecular dynamics. An optional integration with PyTorch Lightning and the Hydra configuration framework powers a flexible command-line interface. This makes SchNetPack 2.0 easily extendable with custom code and ready for complex training task such as generation of 3d molecular structures.
translated by 谷歌翻译
Artificial Intelligence (AI) is having a tremendous impact across most areas of science. Applications of AI in healthcare have the potential to improve our ability to detect, diagnose, prognose, and intervene on human disease. For AI models to be used clinically, they need to be made safe, reproducible and robust, and the underlying software framework must be aware of the particularities (e.g. geometry, physiology, physics) of medical data being processed. This work introduces MONAI, a freely available, community-supported, and consortium-led PyTorch-based framework for deep learning in healthcare. MONAI extends PyTorch to support medical data, with a particular focus on imaging, and provide purpose-specific AI model architectures, transformations and utilities that streamline the development and deployment of medical AI models. MONAI follows best practices for software-development, providing an easy-to-use, robust, well-documented, and well-tested software framework. MONAI preserves the simple, additive, and compositional approach of its underlying PyTorch libraries. MONAI is being used by and receiving contributions from research, clinical and industrial teams from around the world, who are pursuing applications spanning nearly every aspect of healthcare.
translated by 谷歌翻译
最近的研究表明,诸如RNN和Transformers之类的深度学习模型为长期预测时间序列带来了显着的性能增长,因为它们有效地利用了历史信息。但是,我们发现,如何在神经网络中保存历史信息,同时避免过度适应历史上的噪音,这仍然有很大的改进空间。解决此问题可以更好地利用深度学习模型的功能。为此,我们设计了一个\ textbf {f}要求\ textbf {i} mpraved \ textbf {l} egendre \ textbf {m} emory模型,或{\ bf film}:它应用了legendre promotions topimate legendre provientions近似历史信息,近似历史信息,使用傅立叶投影来消除噪声,并添加低级近似值以加快计算。我们的实证研究表明,所提出的膜显着提高了由(\ textbf {20.3 \%},\ textbf {22.6 \%})的多变量和单变量长期预测中最新模型的准确性。我们还证明,这项工作中开发的表示模块可以用作一般插件,以提高其他深度学习模块的长期预测性能。代码可从https://github.com/tianzhou2011/film/获得。
translated by 谷歌翻译
传统机器学习方法面临两种主要挑战,在处理医疗保健预测分析任务方面。首先,医疗保健数据的高维性质需要劳动密集型和耗时的过程,为每项新任务选择适当的功能集。其次,这些方法依赖于特征工程来捕获患者数据的顺序性,这可能无法充分利用医疗事件的时间模式及其依赖性。最近的深度学习方法通​​过解决医疗数据的高维和时间挑战,对各种医疗保健预测任务显示了有希望的性能。这些方法可以学习关键因素(例如,医学概念或患者)的有用表示及其与高维原始或最低处理的医疗保健数据的相互作用。在本文中,我们系统地审查了专注于推进和使用深神经网络的研究,以利用患者结构化时间序列数据进行医疗保健预测任务。为了识别相关研究,搜索MEDLINE,IEEE,SCOPUS和ACM数字图书馆于2021年2月7日出版的研究。我们发现研究人员在十个研究流中为深度时间序列预测文献做出了贡献:深入学习模型,缺少价值处理,不规则处理,患者表示,静态数据包容,关注机制,解释,纳入医疗本体,学习策略和可扩展性。本研究总结了这些文献流的研究见解,确定了几个关键研究差距,并提出了未来的患者时间序列数据深入学习的研究机会。
translated by 谷歌翻译