医疗保健数据集对机器学习和统计数据都带来了许多挑战,因为它们的数据通常是异质的,审查的,高维的,并且缺少信息。特征选择通常用于识别重要功能,但是当应用于高维数据时,可以产生不稳定的结果,从而在每次迭代中选择一组不同的功能。通过使用特征选择合奏,可以改善特征选择的稳定性,该合奏汇总了多个基本特征选择器的结果。必须将阈值应用于最终的聚合功能集,以将相关功能与冗余功能分开。通常应用的固定阈值不保证最终选定功能仅包含相关功能。这项工作开发了几个数据驱动的阈值,以自动识别集合功能选择器中的相关特征,并评估其预测精度和稳定性。为了证明这些方法对临床数据的适用性,它们被应用于来自两个现实世界中阿尔茨海默氏病(AD)研究的数据。 AD是一种没有已知治愈方法的进行性神经退行性疾病,至少在明显症状出现之前的2-3年开始,为研究人员提供了一个机会,可以鉴定出可能识别有患AD风险的患者的早期生物标志物。通过将这些方法应用于两个数据集来标识的功能反映了广告文献中的当前发现。
translated by 谷歌翻译
医疗保健数据集通常包含一组高度相关的特征,例如来自同一生物系统的特征。当将功能选择应用于这些数据集以识别最重要的功能时,由于相关功能,由于相关特征而引起的某些多变量特征选择器固有的偏差使这些方法难以区分重要的和无关的特征,并且功能选择过程的结果CAN可以解决。不稳定。已经研究了特征选择合奏,该合奏汇总了多个单个基础特征选择器的结果,已被研究为稳定特征选择结果的一种手段,但不能解决相关特征的问题。我们提出了一个新颖的框架,可以从多元特征选择器中创建特征选择集合,同时考虑了相关特征组产生的偏差,并在预处理步骤中使用团聚层次聚类。这些方法从阿尔茨海默氏病(AD)的研究中应用于两个现实世界数据集,这是一种尚未治愈且尚未完全了解的进行性神经退行性疾病。我们的结果表明,在没有聚类的情况下选择在模型中选择的功能的稳定性有明显的改善,并且这些模型选择的功能与广告文献中的发现保持一致。
translated by 谷歌翻译
提出了一个新的框架,用于处理纵向,多元,异质临床数据的建模和分析的复杂任务。该方法使用时间抽象将数据转换为更合适的形式,用于建模,时间模式挖掘,以发现复杂,纵向数据和生存分析的机器学习模型中的模式,以选择发现的模式。该方法应用于阿尔茨海默氏病(AD)的现实世界研究,这是一种无法治愈的进行性神经退行性疾病。在生存分析模型中,发现的模式可预测AD的一致性指数高达0.8。这是使用AD的时间数据收集对AD数据进行生存分析的第一项工作。可视化模块还清楚地描绘了发现的模式,以易于解释。
translated by 谷歌翻译
痴呆症是一种神经精神脑障碍,通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明,机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积(NWBV)和地图集缩放系数(ASF)收集的收集数据类型,这些数据通常测量并从磁共振成像(MRIS)中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症,但我们无法就这些方法的稳定性得出结论,而这些方法在不同的实验条件下更准确。因此,本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此,使用7种机器学习算法和两种功能还原算法,即信息增益(IG)和主成分分析(PCA)进行大量实验。为了检查这些算法的稳定性,IG的特征选择阈值从20%更改为100%,PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中,都记录了各种分类评估数据。获得的结果表明,在七种算法中,支持向量机和天真的贝叶斯是最稳定的算法,同时更改选择阈值。同样,发现使用IG似乎比使用PCA预测痴呆症更有效。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
大型和深度电子医疗保健记录(EHR)数据集的可用性有可能更好地了解现实世界中的患者旅行,并鉴定出新的患者亚组。基于ML的EHR数据集合主要是工具驱动的,即基于可用或新开发的方法的构建。但是,这些方法,它们的输入要求以及最重要的是,通常难以解释产量,尤其是没有深入的数据科学或统计培训。这危害了需要进行可行且具有临床意义的解释的最后一步。这项研究研究了使用大型EHR数据集和多种聚类方法进行临床研究的方法进行大规模进行患者分层分析的方法。我们已经开发了几种工具来促进无监督的患者分层结果的临床评估和解释,即模式筛查,元聚类,替代建模和策展。这些工具可以在分析中的不同阶段使用。与标准分析方法相比,我们证明了凝结结果并优化分析时间的能力。在元聚类的情况下,我们证明了患者簇的数量可以从72减少到3。在另一个分层的结果中,通过使用替代模型,我们可以迅速确定如果有血液钠测量值可用,则可以对心力衰竭患者进行分层。由于这是对所有心力衰竭患者进行的常规测量,因此表明数据偏差。通过使用进一步的队列和特征策展,可以去除这些患者和其他无关的特征以提高临床意义。这些示例显示了拟议方法的有效性,我们希望鼓励在该领域的进一步研究。
translated by 谷歌翻译
机器学习方法利用多参数生物标志物,特别是基于神经影像动物,具有改善痴呆早期诊断的巨大潜力,并预测哪些个体存在发展痴呆的风险。对于机器学习领域的基准算法和痴呆症中的神经影像症,并评估他们在临床实践中使用的潜力和临床试验,七年的大挑战已经在过去十年中组织:Miriad,Alzheimer的疾病大数据梦,Caddementia,机器学习挑战,MCI神经影像动物,蝌蚪和预测分析竞争。基于两个挑战评估框架,我们分析了这些大挑战如何互相补充研究问题,数据集,验证方法,结果和影响。七个大挑战解决了与(临床前)痴呆症(临床)痴呆症的筛查,诊断,预测和监测有关的问题。临床问题,任务和性能指标几乎没有重叠。然而,这具有提供对广泛问题的洞察力的优势,它也会限制对挑战的结果的验证。通常,获胜算法执行严格的数据预处理并组合了广泛的输入特征。尽管最先进的表演,但临床上没有挑战评估的大部分方法。为了增加影响,未来的挑战可以更加关注统计分析,对其与高于阿尔茨海默病的临床问题,以及使用超越阿尔茨海默病神经影像疾病的临床问题,以及超越阿尔茨海默病的临床问题。鉴于过去十年中汲取的潜力和经验教训,我们在未来十年及其超越的机器学习和神经影像中的大挑战前景兴奋。
translated by 谷歌翻译
分类器的合奏结合了几个单个分类器,以提供最终的预测或分类决策。一个越来越令人发指的问题是,此类系统是否可以胜过单个最佳分类器。如果是这样,哪种形式的分类器合奏(也称为多个分类器学习系统或多个分类器)在合奏本身的规模或多样性中产生最重要的好处?鉴于用于检测自闭症特征的测试是耗时且昂贵的,因此开发了一种将提供最佳结果和测量自闭症谱系障碍(ASD)的系统。在本文中,评估了几个单一和后来的多个分类器学习系统,以预测和确定影响或有助于ASD的因素出于早期筛查目的的能力。行为数据和机器人增强疗法的3,000次课程和300小时的数据集,该疗法被记录为61名儿童。仿真结果表明,与单个分类器相比,多个分类器学习系统(尤其是每个集合具有三个分类器的人)的优越预测性能,可以通过装袋和增强获得出色的结果。看来,社会交流手势仍然是儿童ASD问题的关键因素。
translated by 谷歌翻译
计算机辅助方法为诊断和预测脑疾病显示了附加的价值,因此可以支持临床护理和治疗计划中的决策。本章将洞悉方法的类型,其工作,输入数据(例如认知测试,成像和遗传数据)及其提供的输出类型。我们将专注于诊断的特定用例,即估计患者的当前“状况”,例如痴呆症的早期检测和诊断,对脑肿瘤的鉴别诊断以及中风的决策。关于预测,即对患者的未来“状况”的估计,我们将缩小用例,例如预测多发性硬化症中的疾病病程,并预测脑癌治疗后患者的结局。此外,根据这些用例,我们将评估当前的最新方法,并强调当前对这些方法进行基准测试的努力以及其中的开放科学的重要性。最后,我们评估了计算机辅助方法的当前临床影响,并讨论了增加临床影响所需的下一步。
translated by 谷歌翻译
机器学习(ML)应用程序的数据量不断增长。不仅是观察的数量,特别是测量变量的数量(特征)增加了持续的数字化。选择最适合预测建模的功能是ML在商业和研究中取得成功的重要杠杆。特征选择方法(FSM)独立于某种ML算法 - 所谓的过滤方法 - 已毫无意义地建议,但研究人员和定量建模的指导很少,以选择典型ML问题的适当方法。本次审查在特征选择基准上综合了大量文献,并评估了58种方法在广泛使用的R环境中的性能。对于具体的指导,我们考虑了四种典型的数据集方案,这些情况挑战ML模型(嘈杂,冗余,不平衡数据和具有比观察特征更多的案例)。绘制早期基准的经验,该基准测试较少的FSMS,我们根据四个标准进行比较方法的性能(预测性能,所选的相关功能数,功能集和运行时的稳定性)。我们发现依赖于随机森林方法的方法,双输入对称相关滤波器(浪费)和联合杂质滤波器(Jim)是给定的数据集方案的良好性候选方法。
translated by 谷歌翻译
与大脑变化相关的阿尔茨海默氏病(AD)和轻度认知障碍(MCI)的评估仍然是一项艰巨的任务。最近的研究表明,多模式成像技术的组合可以更好地反映病理特征,并有助于更准确地诊断AD和MCI。在本文中,我们提出了一种新型的基于张量的多模式特征选择和回归方法,用于诊断和生物标志物对正常对照组的AD和MCI鉴定。具体而言,我们利用张量结构来利用多模式数据中固有的高级相关信息,并研究多线性回归模型中的张量级稀疏性。我们使用三种成像方式(VBM- MRI,FDG-PET和AV45-PET)具有疾病严重程度和认知评分的临床参数来分析ADNI数据的方法的实际优势。实验结果表明,我们提出的方法与疾病诊断的最新方法的优越性能以及疾病特异性区域和与模态相关的差异的鉴定。这项工作的代码可在https://github.com/junfish/bios22上公开获得。
translated by 谷歌翻译
本文提出了第二版的头部和颈部肿瘤(Hecktor)挑战的概述,作为第24届医学图像计算和计算机辅助干预(Miccai)2021的卫星活动。挑战由三个任务组成与患有头颈癌(H&N)的患者的PET / CT图像的自动分析有关,专注于oropharynx地区。任务1是FDG-PET / CT图像中H&N主肿瘤肿瘤体积(GTVT)的自动分割。任务2是来自同一FDG-PET / CT的进展自由生存(PFS)的自动预测。最后,任务3与任务2的任务2与参与者提供的地面真理GTVT注释相同。这些数据从六个中心收集,总共325个图像,分为224个培训和101个测试用例。通过103个注册团队和448个结果提交的重要参与,突出了对挑战的兴趣。在第一任务中获得0.7591的骰子相似度系数(DSC),分别在任务2和3中的0.7196和0.6978的一致性指数(C-Index)。在所有任务中,发现这种方法的简单性是确保泛化性能的关键。 PFS预测性能在任务2和3中的比较表明,提供GTVT轮廓对于实现最佳结果,这表明可以使用完全自动方法。这可能避免了对GTVT轮廓的需求,用于可重复和大规模的辐射瘤研究的开头途径,包括千元潜在的受试者。
translated by 谷歌翻译
机器学习技术通常应用于痴呆症预测缺乏其能力,共同学习多个任务,处理时间相关的异构数据和缺失值。在本文中,我们建议使用最近呈现的SShiba模型提出了一个框架,用于在缺失值的纵向数据上联合学习不同的任务。该方法使用贝叶斯变分推理来赋予缺失值并组合多个视图的信息。这样,我们可以将不同的数据视图与共同的潜在空间中的不同时间点相结合,并在同时建模和预测若干输出变量的同时学习每个时间点之间的关系。我们应用此模型以预测痴呆症中的诊断,心室体积和临床评分。结果表明,SSHIBA能够学习缺失值的良好归因,同时预测三个不同任务的同时表现出基线。
translated by 谷歌翻译
本文介绍了一种使用旨在解决现实世界应用中CDSS的低适用性和可扩展性问题的数据驱动的预测模型来构建一致和适用的临床决策支持系统(CDSS)的方法。该方法基于域特定和数据驱动的支持程序的三种特定于域和数据驱动的支持程序,该程序将被纳入临床业务流程,具有更高的信任和预测结果和建议的解释性。在考虑的三个阶段,监管策略,数据驱动模式和解释程序被集成,以实现与决策者的自然域特定的互动,具有智能决策支持焦点的连续缩小。该提出的方法能够实现更高水平的自动化,可扩展性和CDSS的语义解释性。该方法是在软件解决方案中实现的,并在T2DM预测中进行了测试,使我们能够改善已知的临床尺度(例如FindRisk),同时保持与现有应用程序类似的特定问题的推理界面。这种继承与三分阶段的方法一起提供了更高的解决方案兼容性,并导致数据驱动的解决方案在现实案件中的信任,有效和解释应用。
translated by 谷歌翻译
Over the years, Machine Learning models have been successfully employed on neuroimaging data for accurately predicting brain age. Deviations from the healthy brain aging pattern are associated to the accelerated brain aging and brain abnormalities. Hence, efficient and accurate diagnosis techniques are required for eliciting accurate brain age estimations. Several contributions have been reported in the past for this purpose, resorting to different data-driven modeling methods. Recently, deep neural networks (also referred to as deep learning) have become prevalent in manifold neuroimaging studies, including brain age estimation. In this review, we offer a comprehensive analysis of the literature related to the adoption of deep learning for brain age estimation with neuroimaging data. We detail and analyze different deep learning architectures used for this application, pausing at research works published to date quantitatively exploring their application. We also examine different brain age estimation frameworks, comparatively exposing their advantages and weaknesses. Finally, the review concludes with an outlook towards future directions that should be followed by prospective studies. The ultimate goal of this paper is to establish a common and informed reference for newcomers and experienced researchers willing to approach brain age estimation by using deep learning models
translated by 谷歌翻译
快速准确地检测该疾病可以大大帮助减少任何国家医疗机构对任何大流行期间死亡率降低死亡率的压力。这项工作的目的是使用新型的机器学习框架创建多模式系统,该框架同时使用胸部X射线(CXR)图像和临床数据来预测COVID-19患者的严重程度。此外,该研究还提出了一种基于nom图的评分技术,用于预测高危患者死亡的可能性。这项研究使用了25种生物标志物和CXR图像,以预测意大利第一波Covid-19(3月至6月2020年3月至6月)在930名Covid-19患者中的风险。提出的多模式堆叠技术分别产生了89.03%,90.44%和89.03%的精度,灵敏度和F1分数,以识别低风险或高危患者。与CXR图像或临床数据相比,这种多模式方法可提高准确性6%。最后,使用多元逻辑回归的列线图评分系统 - 用于对第一阶段确定的高风险患者的死亡风险进行分层。使用随机森林特征选择模型将乳酸脱氢酶(LDH),O2百分比,白细胞(WBC)计数,年龄和C反应蛋白(CRP)鉴定为有用的预测指标。开发了五个预测因素参数和基于CXR图像的列函数评分,以量化死亡的概率并将其分为两个风险组:分别存活(<50%)和死亡(> = 50%)。多模式技术能够预测F1评分为92.88%的高危患者的死亡概率。开发和验证队列曲线下的面积分别为0.981和0.939。
translated by 谷歌翻译
Purpose: Hard-to-interpret Black-box Machine Learning (ML) were often used for early Alzheimer's Disease (AD) detection. Methods: To interpret eXtreme Gradient Boosting (XGBoost), Random Forest (RF), and Support Vector Machine (SVM) black-box models a workflow based on Shapley values was developed. All models were trained on the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset and evaluated for an independent ADNI test set, as well as the external Australian Imaging and Lifestyle flagship study of Ageing (AIBL), and Open Access Series of Imaging Studies (OASIS) datasets. Shapley values were compared to intuitively interpretable Decision Trees (DTs), and Logistic Regression (LR), as well as natural and permutation feature importances. To avoid the reduction of the explanation validity caused by correlated features, forward selection and aspect consolidation were implemented. Results: Some black-box models outperformed DTs and LR. The forward-selected features correspond to brain areas previously associated with AD. Shapley values identified biologically plausible associations with moderate to strong correlations with feature importances. The most important RF features to predict AD conversion were the volume of the amygdalae, and a cognitive test score. Good cognitive test performances and large brain volumes decreased the AD risk. The models trained using cognitive test scores significantly outperformed brain volumetric models ($p<0.05$). Cognitive Normal (CN) vs. AD models were successfully transferred to external datasets. Conclusion: In comparison to previous work, improved performances for ADNI and AIBL were achieved for CN vs. Mild Cognitive Impairment (MCI) classification using brain volumes. The Shapley values and the feature importances showed moderate to strong correlations.
translated by 谷歌翻译
我们介绍了数据科学预测生命周期中各个阶段开发和采用自动化的技术和文化挑战的说明概述,从而将重点限制为使用结构化数据集的监督学习。此外,我们回顾了流行的开源Python工具,这些工具实施了针对自动化挑战的通用解决方案模式,并突出了我们认为进步仍然需要的差距。
translated by 谷歌翻译
基于有效干预措施的早期疾病检测和预防方法正在引起人们的注意。机器学习技术通过捕获多元数据中的个体差异来实现精确的疾病预测。精确医学的进展表明,在个人层面的健康数据中存在实质性异质性,并且复杂的健康因素与慢性疾病的发展有关。但是,由于多种生物标志物之间的复杂关系,确定跨疾病发作过程中的个体生理状态变化仍然是一个挑战。在这里,我们介绍了健康疾病阶段图(HDPD),它通过可视化在疾病进展过程早期波动的多种生物标志物的边界值来代表个人健康状态。在HDPD中,未来的发作预测是通过扰动多个生物标志物值的情况来表示的,同时考虑变量之间的依赖性。我们从3,238个个体的纵向健康检查队列中构建了11种非传染性疾病(NCD)的HDPD,其中包括3,215个测量项目和遗传数据。 HDPD中非发病区域的生物标志物值的改善显着阻止了11个NCD中的7个未来的疾病发作。我们的结果表明,HDPD可以在发作过程中代表单个生理状态,并用作预防疾病的干预目标。
translated by 谷歌翻译