计算表型可以无监督发现患者的亚组以及电子健康记录(EHR)的相应同时发生的医疗状况。通常,EHR数据包含人口统计信息,诊断和实验室结果。发现(新颖的)表型具有预后和治疗价值的潜力。为医生提供透明且可解释的结果是一项重要要求,也是推进精确医学的重要组成部分。低级别数据近似方法,例如矩阵(例如,非负矩阵分解)和张量分解(例如,candecomp/parafac),已经证明它们可以提供这种透明且可解释的见解。最近的发展通过合并不同的限制和正规化来促进可解释性,从而适应了低级数据近似方法。此外,它们还为EHR数据中的共同挑战提供解决方案,例如高维度,数据稀疏性和不完整性。尤其是从纵向EHR中提取时间表型,近年来引起了很多关注。在本文中,我们对计算表型的低级别近似方法进行了全面的综述。现有文献根据矩阵与张量分解归类为时间与静态表型方法。此外,我们概述了验证表型的不同方法,即评估临床意义。
translated by 谷歌翻译
张量分解因其在多维数据中捕获潜在因素的固有能力而获得了越来越多的兴趣,该数据具有许多应用程序,例如推荐系统和电子健康记录(EHR)挖掘。已经提出了Parafac2及其变体来解决不规则的张量,其中一种张量模式不对齐,例如,EHR中推荐系统或患者的不同用户可能具有不同的记录。 PARAFAC2已成功应用于EHRS,用于提取有意义的医学概念(表型)。尽管有最近的进步,但当前模型的可预测性和可解释性并不令人满意,这限制了其用于下游分析的效用。在本文中,我们提出了多个多任务学习的多个监督不规则张量分解。多个多个可以灵活地包含静态(例如,院内死亡率预测)和连续或动态(例如,通风的需求)任务。通过通过下游预测任务监督张量分解并利用来自多个相关预测任务的信息,Multipar不仅可以产生更有意义的表型,而且可以为下游任务提供更好的预测性能。我们在两个现实世界中的EHR数据集上进行了广泛的实验,以证明Multipar是可扩展的,并且与现有的最新方法相比,具有更有意义的亚组和更强的预测性能,可以更好地张紧张量。
translated by 谷歌翻译
This survey provides an overview of higher-order tensor decompositions, their applications, and available software. A tensor is a multidimensional or N -way array. Decompositions of higher-order tensors (i.e., N -way arrays with N ≥ 3) have applications in psychometrics, chemometrics, signal processing, numerical linear algebra, computer vision, numerical analysis, data mining, neuroscience, graph analysis, and elsewhere. Two particular tensor decompositions can be considered to be higher-order extensions of the matrix singular value decomposition: CANDECOMP/PARAFAC (CP) decomposes a tensor as a sum of rank-one tensors, and the Tucker decomposition is a higher-order form of principal component analysis. There are many other tensor decompositions, including INDSCAL, PARAFAC2, CANDELINC, DEDICOM, and PARATUCK2 as well as nonnegative variants of all of the above. The N-way Toolbox, Tensor Toolbox, and Multilinear Engine are examples of software packages for working with tensors.
translated by 谷歌翻译
传统机器学习方法面临两种主要挑战,在处理医疗保健预测分析任务方面。首先,医疗保健数据的高维性质需要劳动密集型和耗时的过程,为每项新任务选择适当的功能集。其次,这些方法依赖于特征工程来捕获患者数据的顺序性,这可能无法充分利用医疗事件的时间模式及其依赖性。最近的深度学习方法通​​过解决医疗数据的高维和时间挑战,对各种医疗保健预测任务显示了有希望的性能。这些方法可以学习关键因素(例如,医学概念或患者)的有用表示及其与高维原始或最低处理的医疗保健数据的相互作用。在本文中,我们系统地审查了专注于推进和使用深神经网络的研究,以利用患者结构化时间序列数据进行医疗保健预测任务。为了识别相关研究,搜索MEDLINE,IEEE,SCOPUS和ACM数字图书馆于2021年2月7日出版的研究。我们发现研究人员在十个研究流中为深度时间序列预测文献做出了贡献:深入学习模型,缺少价值处理,不规则处理,患者表示,静态数据包容,关注机制,解释,纳入医疗本体,学习策略和可扩展性。本研究总结了这些文献流的研究见解,确定了几个关键研究差距,并提出了未来的患者时间序列数据深入学习的研究机会。
translated by 谷歌翻译
大型和深度电子医疗保健记录(EHR)数据集的可用性有可能更好地了解现实世界中的患者旅行,并鉴定出新的患者亚组。基于ML的EHR数据集合主要是工具驱动的,即基于可用或新开发的方法的构建。但是,这些方法,它们的输入要求以及最重要的是,通常难以解释产量,尤其是没有深入的数据科学或统计培训。这危害了需要进行可行且具有临床意义的解释的最后一步。这项研究研究了使用大型EHR数据集和多种聚类方法进行临床研究的方法进行大规模进行患者分层分析的方法。我们已经开发了几种工具来促进无监督的患者分层结果的临床评估和解释,即模式筛查,元聚类,替代建模和策展。这些工具可以在分析中的不同阶段使用。与标准分析方法相比,我们证明了凝结结果并优化分析时间的能力。在元聚类的情况下,我们证明了患者簇的数量可以从72减少到3。在另一个分层的结果中,通过使用替代模型,我们可以迅速确定如果有血液钠测量值可用,则可以对心力衰竭患者进行分层。由于这是对所有心力衰竭患者进行的常规测量,因此表明数据偏差。通过使用进一步的队列和特征策展,可以去除这些患者和其他无关的特征以提高临床意义。这些示例显示了拟议方法的有效性,我们希望鼓励在该领域的进一步研究。
translated by 谷歌翻译
在数据挖掘,神经科学和化学计量学在内的各个领域,分析各种数据集中的多路测量结果是一个挑战。例如,测量可能会随着时间的流逝而发展或具有不一致的时间曲线。 PARAFAC2模型已成功地用于分析此类数据,通过在一种模式(即演变模式)下允许基础因子矩阵跨切片进行更改。拟合PARAFAC2模型的传统方法是使用基于最小二乘的交替算法,该算法通过隐式估计不断发展的因子矩阵来处理Parafac2模型的恒定交叉产生约束。这种方法使对这些因素矩阵充满挑战。目前尚无算法可以灵活地将这种正规化施加,并具有一般的惩罚功能和硬性约束。为了应对这一挑战并避免隐性估计,在本文中,我们提出了一种算法,用于拟合PARAFAC2基于与乘数交替方向方法(AO-ADMM)的交替优化拟合parafac2。通过在模拟数据上进行数值实验,我们表明所提出的PARAFAC2 AO-ADMM方法允许灵活约束,准确地恢复了基础模式,并且与先进的ART相比,计算有效。我们还将模型应用于神经科学和化学计量学的两个现实世界数据集,并表明限制发展模式可改善提取模式的解释性。
translated by 谷歌翻译
背景:在美国的电子健康记录(EHR)的日益越来越多的采用创造了可计算数据的Trovers,已经应用了机器学习方法来提取有用的见解。表示为矩阵(张量)的三维类似物的EHR数据被分解成可以被解释为计算表型的二维因子。方法:我们将受限的张量分解施加到2015年至2015年西北医学企业数据仓库中患有乳腺,前列腺,结直肠癌或肺癌患者群组中的增殖和预测死亡率。在我们的实验中,我们使用监督期检查在分解算法中,通过医学指示过滤张量相同,并在分解过程中纳入额外的健康(SDOH)协变量的社会决定因素。我们定性地评估了所产生的计算表型,并通过评估它们在曲线(AUC)统计下的区域预测五年死亡率的能力。结果:医疗指示过滤导致更简洁和可解释的表型。死亡预测性能(AUC)在不同的实验条件下变化,癌症类型(乳腺:0.623-0.694,前列腺:0.603 - 0.750,结直肠:0.523-0.641和Lung:0.517 - 0.623)。通常,利用监督期的使用和SDOH协变量的结合改善了预测性能。结论:约束张量分解,适用于癌症患者的稀疏EHR数据,可以发现预测五年死亡率的计算表型。将SDOH变量的结合到分解算法是一种易于实现和有效的方法来提高预测性能。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
COVID-19的大流行提出了对多个领域决策者的流行预测的重要性,从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测,但是它具有一些关键的差异,并且仍然是一项非平凡的任务。疾病的传播受到人类行为,病原体动态,天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议,捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作,这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步,并介绍了一个概念框架来导航它们。首先,我们列举了与流行病预测相关的大量流行病学数据集和新的数据流,捕获了各种因素,例如有症状的在线调查,零售和商业,流动性,基因组学数据等。接下来,我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式,以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战,包括预测信息。最后,我们重点介绍了整个预测管道中发现的一些挑战和开放问题。
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
在过去二十年中,识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员,我们总结了文献关于纵向聚类的指导。此外,我们提供了一种纵向聚类方法,包括基于基团的轨迹建模(GBTM),生长混合模拟(GMM)和纵向K平均值(KML)。该方法在基本级别引入,并列出了强度,限制和模型扩展。在最近数据收集的发展之后,将注意这些方法的适用性赋予密集的纵向数据(ILD)。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。
translated by 谷歌翻译
精密医学是疾病预防,检测和治疗的临床方法,旨在考虑每个人的遗传背景,环境和生活方式。这种量身定制的大道的发展是由常规方法的可用性,大群体样本的增加以及与临床数据的集成而导致的。尽管进展巨大,但数据分析的现有计算方法无法为该复合体,高维和纵向数据提供适当的解决方案。在这项工作中,我们开发了一种称为TCAM的新方法,这是用于多向数据的维度减少技术,克服纵向常规数据的轨迹分析时克服了主要限制。使用现实世界数据,我们表明TCAM优于传统方法,以及最先进的基于卷起的纵向微生物组数据分析方法。此外,我们通过将其应用于几个不同的OMIC数据集来证明TCAM的多功能性,以及它在直接的ML任务中的替换中的适用性。
translated by 谷歌翻译
生物医学网络是与疾病网络的蛋白质相互作用的普遍描述符,从蛋白质相互作用,一直到医疗保健系统和科学知识。随着代表学习提供强大的预测和洞察的显着成功,我们目睹了表现形式学习技术的快速扩展,进入了这些网络的建模,分析和学习。在这篇综述中,我们提出了一个观察到生物学和医学中的网络长期原则 - 而在机器学习研究中经常出口 - 可以为代表学习提供概念基础,解释其当前的成功和限制,并告知未来进步。我们综合了一系列算法方法,即在其核心利用图形拓扑到将网络嵌入到紧凑的向量空间中,并捕获表示陈述学习证明有用的方式的广度。深远的影响包括鉴定复杂性状的变异性,单细胞的异心行为及其对健康的影响,协助患者的诊断和治疗以及制定安全有效的药物。
translated by 谷歌翻译
无监督的学习通常用于揭示数据中的群集。然而,不同类型的噪声可能会妨碍来自真实世界的时间序列数据的有用模式的发现。在这项工作中,我们专注于减轻疾病表型群体任务中的间隔审查的干扰。我们开发了一个深入的生成,连续时间模型,时间序列数据串联时间系列,同时纠正审查时间。我们提供了在无噪声模型下的数据中识别群集和延迟条目的条件。
translated by 谷歌翻译
越来越多的电子健康记录(EHR)数据和深度学习技术进步的越来越多的可用性(DL)已经引发了在开发基于DL的诊断,预后和治疗的DL临床决策支持系统中的研究兴趣激增。尽管承认医疗保健的深度学习的价值,但由于DL的黑匣子性质,实际医疗环境中进一步采用的障碍障碍仍然存在。因此,有一个可解释的DL的新兴需求,它允许最终用户评估模型决策,以便在采用行动之前知道是否接受或拒绝预测和建议。在这篇综述中,我们专注于DL模型在医疗保健中的可解释性。我们首先引入深入解释性的方法,并作为该领域的未来研究人员或临床从业者的方法参考。除了这些方法的细节之外,我们还包括对这些方法的优缺点以及它们中的每个场景都适合的讨论,因此感兴趣的读者可以知道如何比较和选择它们供使用。此外,我们讨论了这些方法,最初用于解决一般域问题,已经适应并应用于医疗保健问题以及如何帮助医生更好地理解这些数据驱动技术。总的来说,我们希望这项调查可以帮助研究人员和从业者在人工智能(AI)和临床领域了解我们为提高其DL模型的可解释性并相应地选择最佳方法。
translated by 谷歌翻译
网络分析一直是揭示大量对象之间关系和交互的强大工具。然而,它在准确识别重要节点节点相互作用的有效性受到快速增长的网络规模的挑战,数据以空前的粒度和规模收集。克服这种高维度的共同智慧是将节点崩溃成较小的群体,并在小组级别进行连通性分析。将努力分为两个阶段不可避免地打开了一致性的差距,并降低了效率。共识学习是通用知识发现的新常态,并具有多个可用的数据源。为此,本文以组合多个数据源来开发同时分组和连接分析的统一框架。该算法还保证了统计上最佳的估计器。
translated by 谷歌翻译
深度学习属于人工智能领域,机器执行通常需要某种人类智能的任务。类似于大脑的基本结构,深度学习算法包括一种人工神经网络,其类似于生物脑结构。利用他们的感官模仿人类的学习过程,深入学习网络被送入(感官)数据,如文本,图像,视频或声音。这些网络在不同的任务中优于最先进的方法,因此,整个领域在过去几年中看到了指数增长。这种增长在过去几年中每年超过10,000多种出版物。例如,只有在医疗领域中的所有出版物中覆盖的搜索引擎只能在Q3 2020中覆盖所有出版物的子集,用于搜索术语“深度学习”,其中大约90%来自过去三年。因此,对深度学习领域的完全概述已经不可能在不久的将来获得,并且在不久的将来可能会难以获得难以获得子场的概要。但是,有几个关于深度学习的综述文章,这些文章专注于特定的科学领域或应用程序,例如计算机愿景的深度学习进步或在物体检测等特定任务中进行。随着这些调查作为基础,这一贡献的目的是提供对不同科学学科的深度学习的第一个高级,分类的元调查。根据底层数据来源(图像,语言,医疗,混合)选择了类别(计算机愿景,语言处理,医疗信息和其他工程)。此外,我们还审查了每个子类别的常见架构,方法,专业,利弊,评估,挑战和未来方向。
translated by 谷歌翻译
Nonnegative Tucker Factorization (NTF) minimizes the euclidean distance or Kullback-Leibler divergence between the original data and its low-rank approximation which often suffers from grossly corruptions or outliers and the neglect of manifold structures of data. In particular, NTF suffers from rotational ambiguity, whose solutions with and without rotation transformations are equally in the sense of yielding the maximum likelihood. In this paper, we propose three Robust Manifold NTF algorithms to handle outliers by incorporating structural knowledge about the outliers. They first applies a half-quadratic optimization algorithm to transform the problem into a general weighted NTF where the weights are influenced by the outliers. Then, we introduce the correntropy induced metric, Huber function and Cauchy function for weights respectively, to handle the outliers. Finally, we introduce a manifold regularization to overcome the rotational ambiguity of NTF. We have compared the proposed method with a number of representative references covering major branches of NTF on a variety of real-world image databases. Experimental results illustrate the effectiveness of the proposed method under two evaluation metrics (accuracy and nmi).
translated by 谷歌翻译
我们的目标是在沿着张量模式的协变量信息存在中可获得稀疏和高度缺失的张量。我们的动机来自在线广告,在各种设备上的广告上的用户点击率(CTR)形成了大约96%缺失条目的CTR张量,并且在非缺失条目上有许多零,这使得独立的张量完井方法不满意。除了CTR张量旁边,额外的广告功能或用户特性通常可用。在本文中,我们提出了协助协助的稀疏张力完成(Costco),以合并复苏恢复稀疏张量的协变量信息。关键思想是共同提取来自张量和协变矩阵的潜伏组分以学习合成表示。从理论上讲,我们导出了恢复的张量组件的错误绑定,并明确地量化了由于协变量引起的显露概率条件和张量恢复精度的改进。最后,我们将Costco应用于由CTR张量和广告协变矩阵组成的广告数据集,从而通过基线的23%的准确性改进。重要的副产品是来自Costco的广告潜在组件显示有趣的广告集群,这对于更好的广告目标是有用的。
translated by 谷歌翻译
网络数据通常在各种应用程序中收集,代表感兴趣的功能之间直接测量或统计上推断的连接。在越来越多的域中,这些网络会随着时间的流逝而收集,例如不同日子或多个主题之间的社交媒体平台用户之间的交互,例如在大脑连接性的多主体研究中。在分析多个大型网络时,降低降低技术通常用于将网络嵌入更易于处理的低维空间中。为此,我们通过专门的张量分解来开发用于网络集合的主组件分析(PCA)的框架,我们将半对称性张量PCA或SS-TPCA术语。我们得出计算有效的算法来计算我们提出的SS-TPCA分解,并在标准的低级别信号加噪声模型下建立方法的统计效率。值得注意的是,我们表明SS-TPCA具有与经典矩阵PCA相同的估计精度,并且与网络中顶点数的平方根成正比,而不是预期的边缘数。我们的框架继承了古典PCA的许多优势,适用于广泛的无监督学习任务,包括识别主要网络,隔离有意义的更改点或外出观察,以及表征最不同边缘的“可变性网络”。最后,我们证明了我们的提案对模拟数据的有效性以及经验法律研究的示例。用于建立我们主要一致性结果的技术令人惊讶地简单明了,可能会在其他各种网络分析问题中找到使用。
translated by 谷歌翻译