医疗保健数据集通常包含一组高度相关的特征,例如来自同一生物系统的特征。当将功能选择应用于这些数据集以识别最重要的功能时,由于相关功能,由于相关特征而引起的某些多变量特征选择器固有的偏差使这些方法难以区分重要的和无关的特征,并且功能选择过程的结果CAN可以解决。不稳定。已经研究了特征选择合奏,该合奏汇总了多个单个基础特征选择器的结果,已被研究为稳定特征选择结果的一种手段,但不能解决相关特征的问题。我们提出了一个新颖的框架,可以从多元特征选择器中创建特征选择集合,同时考虑了相关特征组产生的偏差,并在预处理步骤中使用团聚层次聚类。这些方法从阿尔茨海默氏病(AD)的研究中应用于两个现实世界数据集,这是一种尚未治愈且尚未完全了解的进行性神经退行性疾病。我们的结果表明,在没有聚类的情况下选择在模型中选择的功能的稳定性有明显的改善,并且这些模型选择的功能与广告文献中的发现保持一致。
translated by 谷歌翻译
医疗保健数据集对机器学习和统计数据都带来了许多挑战,因为它们的数据通常是异质的,审查的,高维的,并且缺少信息。特征选择通常用于识别重要功能,但是当应用于高维数据时,可以产生不稳定的结果,从而在每次迭代中选择一组不同的功能。通过使用特征选择合奏,可以改善特征选择的稳定性,该合奏汇总了多个基本特征选择器的结果。必须将阈值应用于最终的聚合功能集,以将相关功能与冗余功能分开。通常应用的固定阈值不保证最终选定功能仅包含相关功能。这项工作开发了几个数据驱动的阈值,以自动识别集合功能选择器中的相关特征,并评估其预测精度和稳定性。为了证明这些方法对临床数据的适用性,它们被应用于来自两个现实世界中阿尔茨海默氏病(AD)研究的数据。 AD是一种没有已知治愈方法的进行性神经退行性疾病,至少在明显症状出现之前的2-3年开始,为研究人员提供了一个机会,可以鉴定出可能识别有患AD风险的患者的早期生物标志物。通过将这些方法应用于两个数据集来标识的功能反映了广告文献中的当前发现。
translated by 谷歌翻译
提出了一个新的框架,用于处理纵向,多元,异质临床数据的建模和分析的复杂任务。该方法使用时间抽象将数据转换为更合适的形式,用于建模,时间模式挖掘,以发现复杂,纵向数据和生存分析的机器学习模型中的模式,以选择发现的模式。该方法应用于阿尔茨海默氏病(AD)的现实世界研究,这是一种无法治愈的进行性神经退行性疾病。在生存分析模型中,发现的模式可预测AD的一致性指数高达0.8。这是使用AD的时间数据收集对AD数据进行生存分析的第一项工作。可视化模块还清楚地描绘了发现的模式,以易于解释。
translated by 谷歌翻译
痴呆症是一种神经精神脑障碍,通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明,机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积(NWBV)和地图集缩放系数(ASF)收集的收集数据类型,这些数据通常测量并从磁共振成像(MRIS)中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症,但我们无法就这些方法的稳定性得出结论,而这些方法在不同的实验条件下更准确。因此,本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此,使用7种机器学习算法和两种功能还原算法,即信息增益(IG)和主成分分析(PCA)进行大量实验。为了检查这些算法的稳定性,IG的特征选择阈值从20%更改为100%,PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中,都记录了各种分类评估数据。获得的结果表明,在七种算法中,支持向量机和天真的贝叶斯是最稳定的算法,同时更改选择阈值。同样,发现使用IG似乎比使用PCA预测痴呆症更有效。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
Purpose: Hard-to-interpret Black-box Machine Learning (ML) were often used for early Alzheimer's Disease (AD) detection. Methods: To interpret eXtreme Gradient Boosting (XGBoost), Random Forest (RF), and Support Vector Machine (SVM) black-box models a workflow based on Shapley values was developed. All models were trained on the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset and evaluated for an independent ADNI test set, as well as the external Australian Imaging and Lifestyle flagship study of Ageing (AIBL), and Open Access Series of Imaging Studies (OASIS) datasets. Shapley values were compared to intuitively interpretable Decision Trees (DTs), and Logistic Regression (LR), as well as natural and permutation feature importances. To avoid the reduction of the explanation validity caused by correlated features, forward selection and aspect consolidation were implemented. Results: Some black-box models outperformed DTs and LR. The forward-selected features correspond to brain areas previously associated with AD. Shapley values identified biologically plausible associations with moderate to strong correlations with feature importances. The most important RF features to predict AD conversion were the volume of the amygdalae, and a cognitive test score. Good cognitive test performances and large brain volumes decreased the AD risk. The models trained using cognitive test scores significantly outperformed brain volumetric models ($p<0.05$). Cognitive Normal (CN) vs. AD models were successfully transferred to external datasets. Conclusion: In comparison to previous work, improved performances for ADNI and AIBL were achieved for CN vs. Mild Cognitive Impairment (MCI) classification using brain volumes. The Shapley values and the feature importances showed moderate to strong correlations.
translated by 谷歌翻译
大型和深度电子医疗保健记录(EHR)数据集的可用性有可能更好地了解现实世界中的患者旅行,并鉴定出新的患者亚组。基于ML的EHR数据集合主要是工具驱动的,即基于可用或新开发的方法的构建。但是,这些方法,它们的输入要求以及最重要的是,通常难以解释产量,尤其是没有深入的数据科学或统计培训。这危害了需要进行可行且具有临床意义的解释的最后一步。这项研究研究了使用大型EHR数据集和多种聚类方法进行临床研究的方法进行大规模进行患者分层分析的方法。我们已经开发了几种工具来促进无监督的患者分层结果的临床评估和解释,即模式筛查,元聚类,替代建模和策展。这些工具可以在分析中的不同阶段使用。与标准分析方法相比,我们证明了凝结结果并优化分析时间的能力。在元聚类的情况下,我们证明了患者簇的数量可以从72减少到3。在另一个分层的结果中,通过使用替代模型,我们可以迅速确定如果有血液钠测量值可用,则可以对心力衰竭患者进行分层。由于这是对所有心力衰竭患者进行的常规测量,因此表明数据偏差。通过使用进一步的队列和特征策展,可以去除这些患者和其他无关的特征以提高临床意义。这些示例显示了拟议方法的有效性,我们希望鼓励在该领域的进一步研究。
translated by 谷歌翻译
我们介绍了数据科学预测生命周期中各个阶段开发和采用自动化的技术和文化挑战的说明概述,从而将重点限制为使用结构化数据集的监督学习。此外,我们回顾了流行的开源Python工具,这些工具实施了针对自动化挑战的通用解决方案模式,并突出了我们认为进步仍然需要的差距。
translated by 谷歌翻译
特征选择是数据科学流水线的重要步骤,以减少与大型数据集相关的复杂性。虽然对本主题的研究侧重于优化预测性能,但很少研究在特征选择过程的上下文中调查稳定性。在这项研究中,我们介绍了重复的弹性网技术(租金)进行特色选择。租金使用具有弹性净正常化的广义线性模型的集合,每个训练都培训了训练数据的不同子集。该特征选择基于三个标准评估所有基本模型的重量分布。这一事实导致选择具有高稳定性的特征,从而提高最终模型的稳健性。此外,与已建立的特征选择器不同,租金提供了有关在训练期间难以预测的数据中难以预测的对象的模型解释的有价值信息。在我们的实验中,我们在八个多变量数据集中对六个已建立的特征选择器进行基准测试,用于二进制分类和回归。在实验比较中,租金在预测性能和稳定之间展示了均衡的权衡。最后,我们强调了租金的额外解释价值与医疗保健数据集的探索性后HOC分析。
translated by 谷歌翻译
心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中,它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害,准确地诊断为心脏病是一个重要因素。最近,我们看到了非侵入性医学程序的用法,例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术,这些算法和技术被广泛使用,并且在较少的时间以诊断心脏病的准确诊断非常有用。但是,对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加,使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此,这项研究的目的是从高度维数据集中确定最重要的风险因素,这有助于对心脏病的准确分类,并减少并发症。为了进行更广泛的分析,我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明,相关特征对分类精度产生了很大的影响。即使功能减少,与在全功能集中训练的模型相比,分类模型的性能随着训练时间的减少而显着提高。
translated by 谷歌翻译
分类器的合奏结合了几个单个分类器,以提供最终的预测或分类决策。一个越来越令人发指的问题是,此类系统是否可以胜过单个最佳分类器。如果是这样,哪种形式的分类器合奏(也称为多个分类器学习系统或多个分类器)在合奏本身的规模或多样性中产生最重要的好处?鉴于用于检测自闭症特征的测试是耗时且昂贵的,因此开发了一种将提供最佳结果和测量自闭症谱系障碍(ASD)的系统。在本文中,评估了几个单一和后来的多个分类器学习系统,以预测和确定影响或有助于ASD的因素出于早期筛查目的的能力。行为数据和机器人增强疗法的3,000次课程和300小时的数据集,该疗法被记录为61名儿童。仿真结果表明,与单个分类器相比,多个分类器学习系统(尤其是每个集合具有三个分类器的人)的优越预测性能,可以通过装袋和增强获得出色的结果。看来,社会交流手势仍然是儿童ASD问题的关键因素。
translated by 谷歌翻译
包括机器学习在内的计算分析方法对基因组学和医学领域具有重大影响。高通量基因表达分析方法,例如微阵列技术和RNA测序产生大量数据。传统上,统计方法用于基因表达数据的比较分析。但是,针对样品观察分类或发现特征基因的分类的更复杂的分析需要复杂的计算方法。在这篇综述中,我们编译了用于分析表达微阵列数据的各种统计和计算工具。即使在表达微阵列的背景下讨论了这些方法,也可以将它们应用于RNA测序和定量蛋白质组学数据集的分析。我们讨论缺失价值的类型以及其插补中通常采用的方法和方法。我们还讨论了数据归一化,特征选择和特征提取的方法。最后,详细描述了分类和类发现方法及其评估参数。我们认为,这项详细的审查将帮助用户根据预期结果选择适当的方法来预处理和分析其数据。
translated by 谷歌翻译
机器学习(ML)应用程序的数据量不断增长。不仅是观察的数量,特别是测量变量的数量(特征)增加了持续的数字化。选择最适合预测建模的功能是ML在商业和研究中取得成功的重要杠杆。特征选择方法(FSM)独立于某种ML算法 - 所谓的过滤方法 - 已毫无意义地建议,但研究人员和定量建模的指导很少,以选择典型ML问题的适当方法。本次审查在特征选择基准上综合了大量文献,并评估了58种方法在广泛使用的R环境中的性能。对于具体的指导,我们考虑了四种典型的数据集方案,这些情况挑战ML模型(嘈杂,冗余,不平衡数据和具有比观察特征更多的案例)。绘制早期基准的经验,该基准测试较少的FSMS,我们根据四个标准进行比较方法的性能(预测性能,所选的相关功能数,功能集和运行时的稳定性)。我们发现依赖于随机森林方法的方法,双输入对称相关滤波器(浪费)和联合杂质滤波器(Jim)是给定的数据集方案的良好性候选方法。
translated by 谷歌翻译
机器学习方法利用多参数生物标志物,特别是基于神经影像动物,具有改善痴呆早期诊断的巨大潜力,并预测哪些个体存在发展痴呆的风险。对于机器学习领域的基准算法和痴呆症中的神经影像症,并评估他们在临床实践中使用的潜力和临床试验,七年的大挑战已经在过去十年中组织:Miriad,Alzheimer的疾病大数据梦,Caddementia,机器学习挑战,MCI神经影像动物,蝌蚪和预测分析竞争。基于两个挑战评估框架,我们分析了这些大挑战如何互相补充研究问题,数据集,验证方法,结果和影响。七个大挑战解决了与(临床前)痴呆症(临床)痴呆症的筛查,诊断,预测和监测有关的问题。临床问题,任务和性能指标几乎没有重叠。然而,这具有提供对广泛问题的洞察力的优势,它也会限制对挑战的结果的验证。通常,获胜算法执行严格的数据预处理并组合了广泛的输入特征。尽管最先进的表演,但临床上没有挑战评估的大部分方法。为了增加影响,未来的挑战可以更加关注统计分析,对其与高于阿尔茨海默病的临床问题,以及使用超越阿尔茨海默病神经影像疾病的临床问题,以及超越阿尔茨海默病的临床问题。鉴于过去十年中汲取的潜力和经验教训,我们在未来十年及其超越的机器学习和神经影像中的大挑战前景兴奋。
translated by 谷歌翻译
快速准确地检测该疾病可以大大帮助减少任何国家医疗机构对任何大流行期间死亡率降低死亡率的压力。这项工作的目的是使用新型的机器学习框架创建多模式系统,该框架同时使用胸部X射线(CXR)图像和临床数据来预测COVID-19患者的严重程度。此外,该研究还提出了一种基于nom图的评分技术,用于预测高危患者死亡的可能性。这项研究使用了25种生物标志物和CXR图像,以预测意大利第一波Covid-19(3月至6月2020年3月至6月)在930名Covid-19患者中的风险。提出的多模式堆叠技术分别产生了89.03%,90.44%和89.03%的精度,灵敏度和F1分数,以识别低风险或高危患者。与CXR图像或临床数据相比,这种多模式方法可提高准确性6%。最后,使用多元逻辑回归的列线图评分系统 - 用于对第一阶段确定的高风险患者的死亡风险进行分层。使用随机森林特征选择模型将乳酸脱氢酶(LDH),O2百分比,白细胞(WBC)计数,年龄和C反应蛋白(CRP)鉴定为有用的预测指标。开发了五个预测因素参数和基于CXR图像的列函数评分,以量化死亡的概率并将其分为两个风险组:分别存活(<50%)和死亡(> = 50%)。多模式技术能够预测F1评分为92.88%的高危患者的死亡概率。开发和验证队列曲线下的面积分别为0.981和0.939。
translated by 谷歌翻译
特征选择表示降低高维数据集的复杂性的度量,并在数据的系统变化中获得深度洞察。这方面在依赖于模型可解释性的域中具有特异性,例如生命科学。我们提出Ubayfs,一个嵌入在贝叶斯统计框架中的集合特征选择技术。我们的方法考虑了两个信息来源:数据和域知识。我们从基本特征选择器的集合构建一个元模型,并在多项可能性中聚合这些信息。用户通过加权特征和惩罚特定特征块或组合来引导UBayFS,通过Dirichlet-Type和正则化术语实现。在定量评估中,我们证明我们的框架(a)允许用户知识和数据观察之间的平衡权衡,并且(b)通过最先进的方法实现竞争性能。
translated by 谷歌翻译
与大脑变化相关的阿尔茨海默氏病(AD)和轻度认知障碍(MCI)的评估仍然是一项艰巨的任务。最近的研究表明,多模式成像技术的组合可以更好地反映病理特征,并有助于更准确地诊断AD和MCI。在本文中,我们提出了一种新型的基于张量的多模式特征选择和回归方法,用于诊断和生物标志物对正常对照组的AD和MCI鉴定。具体而言,我们利用张量结构来利用多模式数据中固有的高级相关信息,并研究多线性回归模型中的张量级稀疏性。我们使用三种成像方式(VBM- MRI,FDG-PET和AV45-PET)具有疾病严重程度和认知评分的临床参数来分析ADNI数据的方法的实际优势。实验结果表明,我们提出的方法与疾病诊断的最新方法的优越性能以及疾病特异性区域和与模态相关的差异的鉴定。这项工作的代码可在https://github.com/junfish/bios22上公开获得。
translated by 谷歌翻译
机器学习技术通常应用于痴呆症预测缺乏其能力,共同学习多个任务,处理时间相关的异构数据和缺失值。在本文中,我们建议使用最近呈现的SShiba模型提出了一个框架,用于在缺失值的纵向数据上联合学习不同的任务。该方法使用贝叶斯变分推理来赋予缺失值并组合多个视图的信息。这样,我们可以将不同的数据视图与共同的潜在空间中的不同时间点相结合,并在同时建模和预测若干输出变量的同时学习每个时间点之间的关系。我们应用此模型以预测痴呆症中的诊断,心室体积和临床评分。结果表明,SSHIBA能够学习缺失值的良好归因,同时预测三个不同任务的同时表现出基线。
translated by 谷歌翻译
我们在人类演变的历史上是一个独特的时间表,在那里我们可能能够发现我们的太阳系外的星星周围的地球行星,条件可以支持生活,甚至在那些行星上找到生命的证据。通过NASA,ESA和其他主要空间机构近年来推出了几个卫星,可以使用充足的数据集,可以使用,可用于培训机器学习模型,可以自动化Exoplanet检测的艰巨任务,其识别和居住地确定。自动化这些任务可以节省相当大的时间并导致人工错误最小化由于手动干预。为了实现这一目标,我们首先分析开孔望远镜捕获的恒星的光强度曲线,以检测表现出可能的行星系统存在特性的潜在曲线。对于该检测,以及培训常规模型,我们提出了一种堆叠的GBDT模型,可以同时在光信号的多个表示上培训。随后,我们通过利用几种最先进的机器学习和集合方法来解决EXOPLANET识别和居住地确定的自动化。外产的鉴定旨在将假阳性实例与外产的实际情况区分开,而居住地评估基于其可居住的特征,将外产行动的情况群体分组到不同的集群中。此外,我们提出了一种称为充足的热量充足(ATA)得分的新度量,以建立可居住和不可居住的情况之间的潜在线性关系。实验结果表明,所提出的堆叠GBDT模型优于检测过渡外出的常规模型。此外,在适当的分类中纳入ATA分数增强了模型的性能。
translated by 谷歌翻译