COX比例危害模型是用于预测给定临床或遗传协变量患者的预期寿命的生存分析的规范方法 - 它是其原始形式的线性模型。近年来,已经提出了几种将COX模型推广到神经网络的方法,但是这些方法在数字上都不是正确的,并且在计算上都没有。我们提出了FastCPH,这是一种以线性时间运行的新方法,并支持绑扎事件的标准Breslow和EFRON方法。我们还证明了FastCPH与Lassonet的性能,Lassonet是一种神经网络,可通过特征稀疏性(生存数据集)提供解释性。最终过程是有效的,选择有用的协变量,并优于现有的Coxph方法。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
可变选择是统计和机器学习中的重要问题。Copula熵(CE)是用于测量统计独立性的数学概念,最近已应用于变量选择。在本文中,我们建议将基于CE的方法应用于可变选择来生存分析。这个想法是测量变量与事件与CE的时间之间的相关性,然后根据其CE值选择变量。进行了模拟数据和两个实际癌症数据的实验,以将所提出的方法与两种相关方法进行比较:随机生存森林和套索cox。实验结果表明,所提出的方法可以选择更容易解释的“右”变量,并带来更好的预测性能。
translated by 谷歌翻译
Prognostication for lung cancer, a leading cause of mortality, remains a complex task, as it needs to quantify the associations of risk factors and health events spanning a patient's entire life. One challenge is that an individual's disease course involves non-terminal (e.g., disease progression) and terminal (e.g., death) events, which form semi-competing relationships. Our motivation comes from the Boston Lung Cancer Study, a large lung cancer survival cohort, which investigates how risk factors influence a patient's disease trajectory. Following developments in the prediction of time-to-event outcomes with neural networks, deep learning has become a focal area for the development of risk prediction methods in survival analysis. However, limited work has been done to predict multi-state or semi-competing risk outcomes, where a patient may experience adverse events such as disease progression prior to death. We propose a novel neural expectation-maximization algorithm to bridge the gap between classical statistical approaches and machine learning. Our algorithm enables estimation of the non-parametric baseline hazards of each state transition, risk functions of predictors, and the degree of dependence among different transitions, via a multi-task deep neural network with transition-specific sub-architectures. We apply our method to the Boston Lung Cancer Study and investigate the impact of clinical and genetic predictors on disease progression and mortality.
translated by 谷歌翻译
神经网络中的大多数工作都集中在给定一组协变量的情况下估计连续响应变量的条件平均值。在本文中,我们考虑使用神经网络估算有条件的分布函数,以审查和未经审查的数据。该算法建立在与时间依赖性协变量有关COX回归的数据结构上。在不施加任何模型假设的情况下,我们考虑了基于条件危险函数是唯一未知的非参数参数的损失函数,可以应用不明显的优化方法。通过仿真研究,我们显示了所提出的方法具有理想的性能,而部分可能性方法和传统的神经网络具有$ l_2 $损失产量的偏向估计,当模型假设违反。我们进一步用几个现实世界数据集说明了提出的方法。提出的方法的实现可在https://github.com/bingqing0729/nncde上获得。
translated by 谷歌翻译
神经网络(深度学习)是人工智能中的现代模型,并且在生存分析中已被利用。尽管以前的作品已经显示出一些改进,但培训出色的深度学习模型需要大量数据,这在实践中可能不存在。为了应对这一挑战,我们开发了一个基于Kullback-Leibler(KL)深度学习程序,以将外部生存预测模型与新收集的活动时间数据整合在一起。时间依赖性的KL歧视信息用于衡量外部数据和内部数据之间的差异。这是考虑使用先前信息来处理深度学习生存分析中的简短数据问题的第一项工作。仿真和实际数据结果表明,与以前的工作相比,所提出的模型可实现更好的性能和更高的鲁棒性。
translated by 谷歌翻译
组织病理学图像提供了癌症诊断的明确来源,其中包含病理学家用来识别和分类恶性疾病的信息,并指导治疗选择。这些图像包含大量信息,其中大部分目前不可用人类的解释。有监督的深度学习方法对于分类任务非常有力,但它们本质上受注释的成本和质量限制。因此,我们开发了组织形态表型学习,这是一种无监督的方法,它不需要注释,并且通过小图像瓷砖中的歧视性图像特征的自我发现进行操作。瓷砖分为形态上相似的簇,这些簇似乎代表了自然选择下出现的肿瘤生长的复发模式。这些簇具有不同的特征,可以使用正交方法识别。应用于肺癌组织,我们表明它们与患者的结局紧密保持一致,组织病理学识别的肿瘤类型和生长模式以及免疫表型的转录组度量。
translated by 谷歌翻译
机器学习在医疗保健中的应用通常需要处理时间到事实的预测任务,包括不良事件的预测,重新住院或死亡。由于失去随访,此类结果通常受到审查。标准的机器学习方法不能直接地应用于具有审查结果的数据集。在本文中,我们提出了Auton-Survival,这是一个开源存储库,用于简化审查的活动时间或生存数据的工具。Auton Survival包括用于生存回归的工具,存在域移位,反事实估计,风险分层的表型,评估以及治疗效果的估计。通过采用大量SEER肿瘤学发病率数据的现实世界案例研究,我们证明了Auton Survival迅速支持数据科学家在回答复杂健康和流行病学问题方面的能力。
translated by 谷歌翻译
我们提出了一种变分贝叶斯比例危险模型,用于预测和可变选择的关于高维存活数据。我们的方法基于平均场变分近似,克服了MCMC的高计算成本,而保留有用的特征,提供优异的点估计,并通过后夹层概念提供可变选择的自然机制。我们提出的方法的性能通过广泛的仿真进行评估,并与其他最先进的贝叶斯变量选择方法进行比较,展示了可比或更好的性能。最后,我们展示了如何在两个转录组数据集上使用所提出的方法进行审查的生存结果,其中我们识别具有预先存在的生物解释的基因。
translated by 谷歌翻译
癌症存活预测对于开发个性化治疗和诱导疾病的机制很重要。多词数据的数据整合吸引了人们对癌症研究的广泛兴趣,以提供了解多个遗传水平的癌症进展的信息。然而,由于多派数据的高维和异质性,许多作品受到限制。在本文中,我们提出了一种新的方法,以整合癌症生存预测的多摩学数据,称为堆叠自动编码器的生存预测神经网络(SAESURV-NET)。在TCGA病例的癌症存活预测中,SaesURV-NET通过两阶段的降低策略来解决维数的诅咒,并使用堆叠的自动编码器模型处理多摩斯的异质性。两阶段的降低策略在计算复杂性和信息开发之间取得了平衡。堆叠的自动编码器模型删除了大多数异质性,例如第一组自动编码器中的数据类型和大小,并将多个OMICS数据集成在第二个自动编码器中。该实验表明,SAESURV-NET优于基于单一类型数据以及其他最先进方法的模型。
translated by 谷歌翻译
生存分析是事实建模的艺术,在临床治疗决策中起着重要作用。最近,已经提出了由神经ODE建立的连续时间模型进行生存分析。然而,由于神经ODE求解器的计算复杂性很高,神经ODE的训练很慢。在这里,我们提出了一种有效的替代方案,用于柔性连续时间模型,称为生存混合物密度网络(生存MDN)。生存MDN适用于混合密度网络(MDN)的输出的可逆阳性功能。尽管MDN产生灵活的实价分布,但可逆正函数将模型映射到时间域,同时保留可拖动密度。使用四个数据集,我们表明生存MDN的性能优于或类似于一致性的连续和离散时间基准,集成的brier得分和集成的二项式对数可能性。同时,生存MDN的速度也比基于ODE的模型和离散模型中规避的分类问题快。
translated by 谷歌翻译
1972年出现了经典的COX模型,促进了如何使用生物医学中的事实分析来量化患者预后的突破。该模型最有用的特征之一是分析中变量的解释性。但是,这是以引入有关回归模型功能形式的强有力的假设的代价。为了打破这一差距,本文旨在利用新的套索神经网络在间隔进行审查的设置中利用经典COX模型的解释性优势,该网络同时选择最相关的变量,同时量化预测因子和生存时间之间的非线性关系。在广泛的模拟研究中,新方法的增益在经验上进行了说明,其中涉及线性和非线性地面依赖性的示例。我们还证明了我们在NHANES 2003-2006波的生理,临床和加速度计分析中的策略表现,以预测体育活动对患者存活的影响。我们的方法的表现优于使用传统Cox模型的文献中的先前结果。
translated by 谷歌翻译
Survival analysis is the branch of statistics that studies the relation between the characteristics of living entities and their respective survival times, taking into account the partial information held by censored cases. A good analysis can, for example, determine whether one medical treatment for a group of patients is better than another. With the rise of machine learning, survival analysis can be modeled as learning a function that maps studied patients to their survival times. To succeed with that, there are three crucial issues to be tackled. First, some patient data is censored: we do not know the true survival times for all patients. Second, data is scarce, which led past research to treat different illness types as domains in a multi-task setup. Third, there is the need for adaptation to new or extremely rare illness types, where little or no labels are available. In contrast to previous multi-task setups, we want to investigate how to efficiently adapt to a new survival target domain from multiple survival source domains. For this, we introduce a new survival metric and the corresponding discrepancy measure between survival distributions. These allow us to define domain adaptation for survival analysis while incorporating censored data, which would otherwise have to be dropped. Our experiments on two cancer data sets reveal a superb performance on target domains, a better treatment recommendation, and a weight matrix with a plausible explanation.
translated by 谷歌翻译
This paper focuses on the task of survival time analysis for lung cancer. Although much progress has been made in this problem in recent years, the performance of existing methods is still far from satisfactory. Traditional and some deep learning-based survival time analyses for lung cancer are mostly based on textual clinical information such as staging, age, histology, etc. Unlike existing methods that predicting on the single modality, we observe that a human clinician usually takes multimodal data such as text clinical data and visual scans to estimate survival time. Motivated by this, in this work, we contribute a smart cross-modality network for survival analysis network named Lite-ProSENet that simulates a human's manner of decision making. Extensive experiments were conducted using data from 422 NSCLC patients from The Cancer Imaging Archive (TCIA). The results show that our Lite-ProSENet outperforms favorably again all comparison methods and achieves the new state of the art with the 89.3% on concordance. The code will be made publicly available.
translated by 谷歌翻译
在本文中,我们提出了一种使用神经网络的生存分析模型,以及可伸缩优化算法。直接应用最大似然估计(MLE)缩短数据的一个关键技术挑战是评估目标函数及其梯度相对于模型参数需要计算积分。为了解决这一挑战,我们认识到,可以将用于审查数据的MEE视为差分方程约束优化问题,这是一种新颖的视角。在此连接之后,我们通过普通微分方程模拟事件时间的分布,并利用有效的颂歌求解器并伴随敏感性分析来数值评估可能性和梯度。使用这种方法,我们能够1)提供广泛的连续时间存活分布,无需强大的结构假设,2)使用神经网络获得强大的特征表示,3)允许在大规模应用中使用模型估计模型随机梯度下降。通过仿真研究和现实世界数据示例,我们展示了所提出的方法与现有的最先进的深度学习生存分析模型相比的有效性。已在HTTPS://github.com/Jiaqima/soden公开提供拟议的SODEN方法。
translated by 谷歌翻译
Attention-based multiple instance learning (AMIL) algorithms have proven to be successful in utilizing gigapixel whole-slide images (WSIs) for a variety of different computational pathology tasks such as outcome prediction and cancer subtyping problems. We extended an AMIL approach to the task of survival prediction by utilizing the classical Cox partial likelihood as a loss function, converting the AMIL model into a nonlinear proportional hazards model. We applied the model to tissue microarray (TMA) slides of 330 lung cancer patients. The results show that AMIL approaches can handle very small amounts of tissue from a TMA and reach similar C-index performance compared to established survival prediction methods trained with highly discriminative clinical factors such as age, cancer grade, and cancer stage
translated by 谷歌翻译
倾斜的随机生存森林(RSF)是一种用于右翼结果的合奏监督学习方法。斜RSF中的树是使用预测变量的线性组合生长的,以创建分支,而在标准RSF中,使用单个预测变量。倾斜的RSF集合通常比标准RSF合奏具有更高的预测准确性。但是,评估预测变量的所有可能的线性组合会诱导大量的计算开销,从而将应用限制为大规模数据集。此外,几乎没有开发用于解释斜RSF合奏的方法,与基于轴的对应物相比,它们仍然难以解释。我们介绍了一种提高斜力RSF计算效率的方法,以及一种用斜RSF估计单个预测变量重要性的方法。我们减少计算开销的策略是利用牛顿 - 拉夫森评分(Newton-Raphson)评分,这是一种经典的优化技术,我们适用于决策树的每个非叶子节点内的COX部分似然函数。我们通过在线性组合中否定了用于给定预测指标的每个系数,然后计算出降低的降低准确性,从而估计单个预测因子对斜RSF的重要性。通常,在基准测试实验中,我们发现,与现有的斜RSF相比,与现有软件相比,我们对斜RSF的实现速度约为450倍,而较高的Brier得分则要高450倍。我们在模拟研究中发现,“否定重要性”比置换重要性,莎普利添加性解释和先前引入的技术更可靠地区分相关和无关的预测因子,以基于方差分析来衡量斜RSF的可变重要性。当前研究中引入的方法可在AORSF R软件包中获得。
translated by 谷歌翻译
最近的研究表明,神经网络有可能改善经典生存模型,例如COX模型,Cox模型广泛用于临床实践。但是,神经网络通常依赖于中心可用的数据,而医疗保健数据经常在安全筒仓中保存。我们提出了一个联合的COX模型,该模型可容纳此数据设置并放松比例危害假设,从而允许时间变化的协变量效应。在后一方面,我们的模型不需要明确的时间变化效果,而与以前的工作相比降低了前期组织成本。我们尝试使用公开可用的临床数据集,并证明联合模型能够像标准模型一样执行。
translated by 谷歌翻译
用于生存预测的深层神经网络在歧视方面超过了经典方法,这是患者根据事件的秩序。相反,诸如COX比例危害模型之类的经典方法显示出更好的校准,即对基础分布事件的正确时间预测。特别是在医学领域,预测单个患者的存活至关重要,歧视和校准都是重要的绩效指标。在这里,我们提出了离散的校准生存(DC),这是一个新型的深层神经网络,用于歧视和校准的生存预测,在三个医疗数据集的歧视中优于竞争生存模型,同时在所有离散时间模型中实现最佳校准。 DC的增强性能可以归因于两个新型功能,即可变的时间输出节点间距和新颖的损耗项,可优化未经审查和审查的患者数据的使用。我们认为,DCS是临床应用基于深度学习的生存预测和良好校准的重要一步。
translated by 谷歌翻译
估算干预措施对患者结果的影响是个性化医学的关键方面之一。他们的推断经常受到训练数据仅包括给药治疗的结果,而不是用于替代治疗(所谓的反事实结果)。基于观察数据的这种情况,即〜对于连续和二进制结果变量,不适用干预的数据,建议了几种方法。然而,患者结果通常以时间对次的数据记录,如果在观察期内未发生事件,则包括右审查的事件时间。尽管他们的重要性巨大,时间令人难度的数据很少用于治疗优化。我们建议一种名为Bites的方法(用于存活数据的平衡个体治疗效果),其将特定的半导体Cox损耗与治疗平衡的深神经网络相结合;即,我们使用积分概率度量(IPM)正常化治疗和未治疗的患者之间的差异。我们在仿真研究中展示了这种方法优于现有技术。此外,我们在应用于乳腺癌患者队列的应用中证明可以基于六个常规参数进行激素治疗。我们成功验证了独立的队列中的这一发现。提供叮咬作为易于使用的Python实现。
translated by 谷歌翻译