嵌入或可视化临床患者数据的主要挑战是可变类型的异质性,包括连续实验室值,分类诊断代码以及缺失或不完整的数据。特别地,在EHR数据中,一些变量是{\ EM缺失而不是随机(MNAR)}但故意没有收集,因此是信息来源。例如,在疑似诊断的基础上,某些患者可能认为实验室测试是必要的,但不适用于其他患者。在这里,我们呈现壁画林 - 一个无监督的随机森林,用于代表具有不同变量类型的数据(例如,分类,连续,mnar)。壁画森林由一组决策树组成,其中随机选择节点分裂变量,使得所有其他变量的边缘熵由分裂最小化。这允许我们在与连续变量一致的方式中也拆分在Mnar变量和离散变量上。最终目标是学习使用这些患者之间的平均树距离的患者的壁画嵌入。这些距离可以馈送到非线性维度减少方法,如phate,以获得可视化的嵌入。虽然这种方法在连续值的数据集中普遍存在(如单细胞RNA测序)中,但它们尚未在混合可变数据中广泛使用。我们展示在一个人工和两个临床数据集上使用我们的方法。我们表明,使用我们的方法,我们可以比竞争方法更准确地对数据进行可视化和分类数据。最后,我们表明壁画也可用于通过最近提出的树木切片的Wassersein距离比较患者的群组。
translated by 谷歌翻译
在不完整的数据集中对样本进行分类是机器学习从业人员的普遍目的,但并非平凡。在大多数现实世界数据集中发现缺失的数据,这些缺失值通常是使用已建立的方法估算的,然后进行分类现在完成,估算的样本。然后,机器学习研究人员的重点是优化下游分类性能。在这项研究中,我们强调必须考虑插补的质量。我们展示了如何评估质量的常用措施有缺陷,并提出了一类新的差异评分,这些分数着重于该方法重新创建数据的整体分布的程度。总而言之,我们强调了使用不良数据训练的分类器模型的可解释性损害。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
异常和异常值检测是机器学习中的长期问题。在某些情况下,异常检测容易,例如当从诸如高斯的良好特征的分布中抽出数据时。但是,当数据占据高维空间时,异常检测变得更加困难。我们呈现蛤蜊(聚类学习近似歧管),是任何度量空间中的歧管映射技术。 CLAM以快速分层聚类技术开始,然后根据使用多个几何和拓扑功能所选择的重叠群集,从群集树中引导图表。使用这些图形,我们实现了Chaoda(群集分层异常和异常值检测算法),探索了图形的各种属性及其组成集群以查找异常值。 Chaoda采用了一种基于培训数据集的转移学习形式,并将这些知识应用于不同基数,维度和域的单独测试集。在24个公开可用的数据集上,我们将Chaoda(按衡量ROC AUC)与各种最先进的无监督异常检测算法进行比较。六个数据集用于培训。 Chaoda优于16个剩余的18个数据集的其他方法。 CLAM和Chaoda规模大,高维“大数据”异常检测问题,并贯穿数据集和距离函数。克拉姆和Chaoda的源代码在github上自由地提供https://github.com/uri-abd/clam。
translated by 谷歌翻译
谵妄是急性急性发病脑功能障碍,在紧急情况下,与较高的死亡率有关。由于其演示和风险因素难以检测和监测,这取决于患者的潜在病情。在我们的研究中,我们旨在识别谵妄人口中的亚型,并建立使用医疗信息MART进行密集护理IV(MIMIC-IV)数据来检测谵妄的亚组特定的预测模型。我们表明谵妄存在于谵妄中。对于特定于组的预测模型,还观察到特征重要性的差异。我们的工作可以重新校准每个谵妄亚组的现有谵妄预测模型,并提高ICU或急诊部门患者的谵妄检测和监测的精度。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
我们提出了一种称为集成扩散的方法,用于组合多模式数据集,或通过同一系统上的几个不同测量收集的数据,以创建联合数据扩散操作员。随着现实世界的数据遭受本地和全局噪声,我们引入了最佳地计算了反映了两种方式的扩散操作者的机制。我们在数据去噪,可视化和聚类中显示了该联合操作员的实用程序,比其他方法更好地集成和分析多模式数据。我们将方法应用于从血细胞产生的多个OMIC数据,测量基因表达和染色质可接近性。我们的方法更好地可视化了联合数据的几何形状,捕获已知的跨模块关联,并识别已知的蜂窝群体。更一般地,集成扩散广泛适用于许多医学和生物系统中产生的多模式数据集。
translated by 谷歌翻译
科学数据集通常具有层次结构:例如,在调查中,个人参与者(样本)可能会分为更高级别(单位),例如其地理区域。在这些设置中,兴趣通常是在探索单位级别而不是样本级别上的结构。可以根据其平均值之间的距离进行比较,但是这忽略了样本的单位内分布。在这里,我们使用Wasserstein距离度量标准开发了一种对层次数据集进行探索性分析的方法,该指标考虑了单位内分布的形状。我们使用T-SNE构建单元的2D嵌入,基于它们之间的成对瓦斯汀距离的矩阵。距离矩阵可以通过使用高斯分布近似于每个单元来有效计算,但是我们还提供了一种可扩展的方法来计算精确的Wasserstein距离。我们使用合成数据来证明我们的Wasserstein T-SNE的有效性,并将其应用于2017年德国议会选举的数据,将投票站视为样本和投票区。结果嵌入发现数据中有意义的结构。
translated by 谷歌翻译
In this paper, we propose Wasserstein Isometric Mapping (Wassmap), a nonlinear dimensionality reduction technique that provides solutions to some drawbacks in existing global nonlinear dimensionality reduction algorithms in imaging applications. Wassmap represents images via probability measures in Wasserstein space, then uses pairwise Wasserstein distances between the associated measures to produce a low-dimensional, approximately isometric embedding. We show that the algorithm is able to exactly recover parameters of some image manifolds including those generated by translations or dilations of a fixed generating measure. Additionally, we show that a discrete version of the algorithm retrieves parameters from manifolds generated from discrete measures by providing a theoretical bridge to transfer recovery results from functional data to discrete data. Testing of the proposed algorithms on various image data manifolds show that Wassmap yields good embeddings compared with other global and local techniques.
translated by 谷歌翻译
无监督的学习通常用于揭示数据中的群集。然而,不同类型的噪声可能会妨碍来自真实世界的时间序列数据的有用模式的发现。在这项工作中,我们专注于减轻疾病表型群体任务中的间隔审查的干扰。我们开发了一个深入的生成,连续时间模型,时间序列数据串联时间系列,同时纠正审查时间。我们提供了在无噪声模型下的数据中识别群集和延迟条目的条件。
translated by 谷歌翻译
We present a new technique called "t-SNE" that visualizes high-dimensional data by giving each datapoint a location in a two or three-dimensional map. The technique is a variation of Stochastic Neighbor Embedding (Hinton and Roweis, 2002) that is much easier to optimize, and produces significantly better visualizations by reducing the tendency to crowd points together in the center of the map. t-SNE is better than existing techniques at creating a single map that reveals structure at many different scales. This is particularly important for high-dimensional data that lie on several different, but related, low-dimensional manifolds, such as images of objects from multiple classes seen from multiple viewpoints. For visualizing the structure of very large data sets, we show how t-SNE can use random walks on neighborhood graphs to allow the implicit structure of all of the data to influence the way in which a subset of the data is displayed. We illustrate the performance of t-SNE on a wide variety of data sets and compare it with many other non-parametric visualization techniques, including Sammon mapping, Isomap, and Locally Linear Embedding. The visualizations produced by t-SNE are significantly better than those produced by the other techniques on almost all of the data sets.
translated by 谷歌翻译
痴呆症是一种神经精神脑障碍,通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明,机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积(NWBV)和地图集缩放系数(ASF)收集的收集数据类型,这些数据通常测量并从磁共振成像(MRIS)中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症,但我们无法就这些方法的稳定性得出结论,而这些方法在不同的实验条件下更准确。因此,本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此,使用7种机器学习算法和两种功能还原算法,即信息增益(IG)和主成分分析(PCA)进行大量实验。为了检查这些算法的稳定性,IG的特征选择阈值从20%更改为100%,PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中,都记录了各种分类评估数据。获得的结果表明,在七种算法中,支持向量机和天真的贝叶斯是最稳定的算法,同时更改选择阈值。同样,发现使用IG似乎比使用PCA预测痴呆症更有效。
translated by 谷歌翻译
通过图形结构表示数据标识在多个数据分析应用中提取信息的最有效方法之一。当调查多模式数据集时,这尤其如此,因为通过各种传感策略收集的记录被考虑并探索。然而,经典曲线图信号处理基于根据热扩散机构配置的信息传播的模型。该系统提供了对多模式数据分析不适用于多模式数据分析的数据属性的若干约束和假设,特别是当考虑从异构源收集的大规模数据集,因此结果的准确性和稳健性可能会受到严重危害。在本文中,我们介绍了一种基于流体扩散的图表定义模型。该方法提高了基于图形的数据分析的能力,以考虑运行方案中现代数据分析的几个问题,从而为对考试记录的记录底层的现象提供了一种精确,多才多艺的,有效地理解平台,以及完全利用记录的多样性提供的潜力,以获得数据的彻底表征及其意义。在这项工作中,我们专注于使用这种流体扩散模型来驱动社区检测方案,即根据节点中的节点中的相似性将多模式数据集分为多个组中。在不同应用场景中测试真正的多模式数据集实现的实验结果表明,我们的方法能够强烈优先于多媒体数据分析中的社区检测的最先进方案。
translated by 谷歌翻译
决策森林(森林),尤其是随机森林和梯度促进树木,与许多监督学习场景中的其他方法相比,已经证明了最先进的准确性。尤其是,森林在表格数据中占主导地位,即当特征空间非结构化时,因此信号是特征指数置换的不变性。然而,在存在于多种多样(例如图像,文本和语音)深网(网络)(特别是卷积深网(Convnets))上的结构化数据中,倾向于优于森林。我们猜想至少部分原因是网络的输入不仅仅是特征幅度,也是其索引。相反,天真的森林实施未能明确考虑特征指数。最近提出的森林方法表明,对于每个节点,森林从某些特定分布中隐式采样一个随机矩阵。这些森林像某些类别的网络一样,通过将特征空间划分为对应于线性函数的凸多物体来学习。我们以这种方法为基础,并表明人们可以以多种感知方式选择分布来纳入特征区域。我们在数据上活在三个不同的流形上的数据上证明了经验性能:圆环,图像和时间序列。此外,我们证明了其在多元模拟环境中的强度,并且在预测癫痫患者的手术结果方面也表现出了优越性,并从非运动脑区域的原始立体定向EEG数据中预测运动方向。在所有模拟和真实数据中,歧管随机森林(MORF)算法的表现优于忽略特征空间结构并挑战Convnets的性能。此外,MORF运行迅速,并保持解释性和理论上的理由。
translated by 谷歌翻译
Continuous, automated surveillance systems that incorporate machine learning models are becoming increasingly common in healthcare environments. These models can capture temporally dependent changes across multiple patient variables and can enhance a clinician's situational awareness by providing an early warning alarm of an impending adverse event such as sepsis. However, most commonly used methods, e.g., XGBoost, fail to provide an interpretable mechanism for understanding why a model produced a sepsis alarm at a given time. The ``black box'' nature of many models is a severe limitation as it prevents clinicians from independently corroborating those physiologic features that have contributed to the sepsis alarm. To overcome this limitation, we propose a generalized linear model (GLM) approach to fit a Granger causal graph based on the physiology of several major sepsis-associated derangements (SADs). We adopt a recently developed stochastic monotone variational inequality (VI)-based estimator coupled with forwarding feature selection to learn the graph structure from both continuous and discrete-valued as well as regularly and irregularly sampled time series. Theoretically, we develop a non-asymptotic upper bound on the estimation error for any monotone link function in the GLM. Using synthetic and real-data examples, we demonstrate that the proposed method enjoys result interpretability while achieving comparable performance to popular methods such as XGBoost.
translated by 谷歌翻译
在现实世界数据集中,结果标记歧义和主观性是无处不在的。尽管从业者通常以临时方式将所有数据点(实例)的模棱两可的结果标签结合在一起,以提高多级分类的准确性,但缺乏通过任何最佳标准来指导所有数据点标签组合的原则方法。为了解决这个问题,我们提出了信息理论分类准确性(ITCA),该标准可以在预测准确性(预测标签与实际标签一致)和分类分辨率(可预测的标签)(可预测的标签)之间进行平衡,这是平衡的。指导从业者如何结合模棱两可的结果标签。为了找到ITCA指示的最佳标签组合,我们提出了两种搜索策略:贪婪的搜索和广度优先搜索。值得注意的是,ITCA和两种搜索策略适应所有机器学习分类算法。再加上分类算法和搜索策略,ITCA有两个用途:提高预测准确性并识别模棱两可的标签。我们首先通过两种搜索策略来找到合成和真实数据的正确标签组合,首先验证ITCA是否可以实现高精度。然后,我们证明了ITCA在各种应用中的有效性,包括医学预后,癌症存活预测,用户人口统计预测和细胞类型分类。我们还通过研究Oracle和线性判别分析分类算法来提供对ITCA的理论见解。 Python软件包ITCA(可在https://github.com/jsb-ucla/itca上找到)ITCA和搜索策略。
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
Precision Medicine根据患者的特征为患者提供定制的治疗方法,是提高治疗效率的一种有希望的方法。大规模的OMICS数据对于患者表征很有用,但是它们的测量经常会随着时间而变化,从而导致纵向数据。随机森林是用于构建预测模型的最先进的机器学习方法之一,并且可以在精密医学中发挥关键作用。在本文中,我们回顾了标准随机森林方法的扩展,以进行纵向数据分析。扩展方法根据其设计的数据结构进行分类。我们考虑单变量和多变量响应,并根据时间效应是否相关,进一步对重复测量进行分类。还提供了审查扩展程序的可用软件实现信息。最后,我们讨论了我们审查的局限性和一些未来的研究指示。
translated by 谷歌翻译
临床记录经常包括对患者特征的评估,其中可能包括完成各种问卷。这些问卷提供了有关患者当前健康状况的各种观点。捕获这些观点给出的异质性不仅至关重要,而且对开发具有成本效益的技术的临床表型技术的需求增长。填写许多问卷可能是患者的压力,因此昂贵。在这项工作中,我们提出了钴 - 一种基于成本的层选择器模型,用于使用社区检测方法检测表型。我们的目标是最大程度地减少用于构建这些表型的功能的数量,同时保持其质量。我们使用来自慢性耳鸣患者的问卷数据测试我们的模型,并在多层网络结构中代表数据。然后,通过使用基线特征(年龄,性别和治疗前数据)以及确定的表型作为特征来评估该模型。对于某些治疗后变量,使用来自钴的表型作为特征的预测因素优于使用传统聚类方法检测到的表型的预测因素。此外,与仅接受基线特征训练的预测因子相比,使用表型数据预测治疗后数据被证明是有益的。
translated by 谷歌翻译