颠覆性技术提供无与伦比的机会,为普遍存在医疗保健的许多方面的标识,从通过内容到机器学习(ML)技术来促进普及医疗保健的识别。作为一个强大的工具,ML已被广泛应用于以患者为中心的医疗保健解决方案。为了进一步提高患者护理的质量,在医疗保健设施中通常采用电子健康记录(EHRS)进行分析。由于它们高度非结构化,不平衡,不完整和高维性质,应用AI和ML将AI和ML应用AI和ML分析那些EHRS的重要任务。减少维度是一种常见的数据预处理技术,用于应对高维EHR数据,旨在减少EHR表示的特征的数量,同时提高随后的数据分析的性能,例如,分类。在这项工作中,提出了一种高效的基于滤波器的特征选择方法,即基于曲率的特征选择(CFS)。所提出的CFS应用了Menger曲率的概念,以对给定数据集中的所有功能的重量进行排名。已经在四种众所周知的EHR数据集中评估了所提出的CFS的性能,包括宫颈癌危险因素(CCRFD),乳腺癌助生(BCCDS),乳腺组织(BTDS)和糖尿病视网膜病变(DRDDD)。实验结果表明,所提出的CFS在上述数据集上实现了最先进的性能,而不是传统的PCA和其他最新方法。所提出的方法的源代码在https://github.com/zhemingzuo/cfs上公开提供。
translated by 谷歌翻译
痴呆症是一种神经精神脑障碍,通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明,机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积(NWBV)和地图集缩放系数(ASF)收集的收集数据类型,这些数据通常测量并从磁共振成像(MRIS)中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症,但我们无法就这些方法的稳定性得出结论,而这些方法在不同的实验条件下更准确。因此,本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此,使用7种机器学习算法和两种功能还原算法,即信息增益(IG)和主成分分析(PCA)进行大量实验。为了检查这些算法的稳定性,IG的特征选择阈值从20%更改为100%,PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中,都记录了各种分类评估数据。获得的结果表明,在七种算法中,支持向量机和天真的贝叶斯是最稳定的算法,同时更改选择阈值。同样,发现使用IG似乎比使用PCA预测痴呆症更有效。
translated by 谷歌翻译
包括机器学习在内的计算分析方法对基因组学和医学领域具有重大影响。高通量基因表达分析方法,例如微阵列技术和RNA测序产生大量数据。传统上,统计方法用于基因表达数据的比较分析。但是,针对样品观察分类或发现特征基因的分类的更复杂的分析需要复杂的计算方法。在这篇综述中,我们编译了用于分析表达微阵列数据的各种统计和计算工具。即使在表达微阵列的背景下讨论了这些方法,也可以将它们应用于RNA测序和定量蛋白质组学数据集的分析。我们讨论缺失价值的类型以及其插补中通常采用的方法和方法。我们还讨论了数据归一化,特征选择和特征提取的方法。最后,详细描述了分类和类发现方法及其评估参数。我们认为,这项详细的审查将帮助用户根据预期结果选择适当的方法来预处理和分析其数据。
translated by 谷歌翻译
在人工智能(AI),机器学习(ML)以及更具体地说,深度学习(DL)的核心已经取得了巨大的成功。但是,由于缺少培训ML或DL模型中缺少类是看不见的,看不见的类标签预测的探索程度要小得多。在这项工作中,我们提出了一个模糊的推理系统,通过与基于曲率的特征选择(CFS)方法结合使用TSK+模糊推理引擎来应对这一挑战。通过预测物联网(IoT)领域内的网络设备的定位标签,已经评估了我们系统的实际可行性。竞争性预测性能证实了我们系统的效率和功效,尤其是在模型训练阶段看不见的大量连续类标签时。
translated by 谷歌翻译
我们在人类演变的历史上是一个独特的时间表,在那里我们可能能够发现我们的太阳系外的星星周围的地球行星,条件可以支持生活,甚至在那些行星上找到生命的证据。通过NASA,ESA和其他主要空间机构近年来推出了几个卫星,可以使用充足的数据集,可以使用,可用于培训机器学习模型,可以自动化Exoplanet检测的艰巨任务,其识别和居住地确定。自动化这些任务可以节省相当大的时间并导致人工错误最小化由于手动干预。为了实现这一目标,我们首先分析开孔望远镜捕获的恒星的光强度曲线,以检测表现出可能的行星系统存在特性的潜在曲线。对于该检测,以及培训常规模型,我们提出了一种堆叠的GBDT模型,可以同时在光信号的多个表示上培训。随后,我们通过利用几种最先进的机器学习和集合方法来解决EXOPLANET识别和居住地确定的自动化。外产的鉴定旨在将假阳性实例与外产的实际情况区分开,而居住地评估基于其可居住的特征,将外产行动的情况群体分组到不同的集群中。此外,我们提出了一种称为充足的热量充足(ATA)得分的新度量,以建立可居住和不可居住的情况之间的潜在线性关系。实验结果表明,所提出的堆叠GBDT模型优于检测过渡外出的常规模型。此外,在适当的分类中纳入ATA分数增强了模型的性能。
translated by 谷歌翻译
肾脏是人体的重要器官。它保持体内平衡并通过尿液去除有害物质。肾细胞癌(RCC)是肾癌最常见的形式。大约90%的肾脏癌归因于RCC。最有害的RCC类型是清晰的细胞肾细胞癌(CCRCC),占所有RCC病例的80%。需要早期和准确的CCRCC检测,以防止其他器官进一步扩散该疾病。在本文中,进行了详细的实验,以确定可以在不同阶段诊断CCRCC的重要特征。 CCRCC数据集从癌症基因组图集(TCGA)获得。考虑了从8种流行特征选择方法获得的特征顺序的新型相互信息和集合的特征排名方法。通过使用2个不同的分类器(ANN和SVM)获得的总体分类精度来评估所提出方法的性能。实验结果表明,所提出的特征排名方法能够获得更高的精度(分别使用SVM和NN分别使用SVM和NN),与现有工作相比,使用SVM和NN分别使用SVM和NN进行分类。还要注意的是,在现有TNM系统(由AJCC和UICC提出的)提到的3个区分特征中,我们提出的方法能够选择其中两个(肿瘤的大小,转移状态)作为顶部 - 大多数。这确立了我们提出的方法的功效。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
机器学习对图像和视频数据的应用通常会产生高维特征空间。有效的功能选择技术确定了一个判别特征子空间,该子空间可降低计算和建模成本,而绩效很少。提出了一种新颖的监督功能选择方法,用于这项工作中的机器学习决策。所得测试分别称为分类和回归问题的判别功能测试(DFT)和相关特征测试(RFT)。 DFT和RFT程序进行了详细描述。此外,我们将DFT和RFT的有效性与几种经典特征选择方法进行了比较。为此,我们使用LENET-5为MNIST和时尚流行数据集获得的深度功能作为说明性示例。其他具有手工制作和基因表达功能的数据集也包括用于性能评估。实验结果表明,DFT和RFT可以在保持较高的决策绩效的同时明确,稳健地选择较低的尺寸特征子空间。
translated by 谷歌翻译
在医疗保健系统中,需要患者使用可穿戴设备进行远程数据收集和对健康数据的实时监控以及健康状况的状态。可穿戴设备的这种采用导致收集和传输的数据量显着增加。由于设备由较小的电池电源运行,因此由于设备的高处理要求以进行数据收集和传输,因此可以快速减少它们。鉴于医疗数据的重要性,必须所有传输数据遵守严格的完整性和可用性要求。减少医疗保健数据的量和传输频率将通过使用推理算法改善设备电池寿命。有一个以准确性和效率改善传输指标的问题,彼此之间的权衡,例如提高准确性会降低效率。本文表明,机器学习可用于分析复杂的健康数据指标,例如数据传输的准确性和效率,以使用Levenberg-Marquardt算法来克服权衡问题,从而增强这两个指标,从而通过少较少的样本来传输,同时保持维护准确性。使用标准心率数据集测试该算法以比较指标。结果表明,LMA最好以3.33倍的效率进行样本数据尺寸和79.17%的精度,在7种不同的采样案例中具有相似的准确性,用于测试,但表明效率提高。与具有高效率的现有方法相比,这些提出的方法使用机器学习可以显着改善两个指标,而无需牺牲其他指标。
translated by 谷歌翻译
基因表达数据集通常具有高维度,因此需要有效且有效的方法来识别其属性的相对重要性。由于可能的解决方案的搜索空间的大小,属性子集评估特征选择方法往往不适用,因此在这些方案中使用特征对方法。文献中描述的大多数特征排名方法是单变量的方法,因此它们不会检测因子之间的相互作用。在本文中,我们提出了基于成对相关性和成对一致性的两种新的多变量特征排名方法,我们应用于三种基因表达分类问题。我们在统计上证明所提出的方法优于现有技术的状态,特征对方法进行分类方法聚类变化,CHI平方,相关性,信息增益,相关性和意义,以及基于与多目标的相关性和一致性的属性子集评估的特征选择方法进化搜索策略。
translated by 谷歌翻译
机器学习(ML)应用程序的数据量不断增长。不仅是观察的数量,特别是测量变量的数量(特征)增加了持续的数字化。选择最适合预测建模的功能是ML在商业和研究中取得成功的重要杠杆。特征选择方法(FSM)独立于某种ML算法 - 所谓的过滤方法 - 已毫无意义地建议,但研究人员和定量建模的指导很少,以选择典型ML问题的适当方法。本次审查在特征选择基准上综合了大量文献,并评估了58种方法在广泛使用的R环境中的性能。对于具体的指导,我们考虑了四种典型的数据集方案,这些情况挑战ML模型(嘈杂,冗余,不平衡数据和具有比观察特征更多的案例)。绘制早期基准的经验,该基准测试较少的FSMS,我们根据四个标准进行比较方法的性能(预测性能,所选的相关功能数,功能集和运行时的稳定性)。我们发现依赖于随机森林方法的方法,双输入对称相关滤波器(浪费)和联合杂质滤波器(Jim)是给定的数据集方案的良好性候选方法。
translated by 谷歌翻译
研究表明,心血管疾病(CVD)对人类健康是恶性的研究。因此,重要的是具有有效的CVD预后方法。为此,医疗保健行业采用了基于机器学习的智能解决方案,以减轻CVD预后的手动过程。因此,这项工作提出了一种信息融合技术,该技术通过分析方差(ANOVA)和域专家的知识结合了人的关键属性。它还引入了新的CVD数据样本集,用于新兴研究。进行了三十八个实验,以验证四个公开可用基准数据集中提出的框架的性能以及在这项工作中新创建的数据集。消融研究表明,所提出的方法可以达到竞争平均平均准确性(MAA)为99.2%,平均AUC平均AUC为97.9%。
translated by 谷歌翻译
在处理小型数据集上的临床文本分类时,最近的研究证实,经过调整的多层感知器的表现优于其他生成分类器,包括深度学习。为了提高神经网络分类器的性能,可以有效地使用学习表示的功能选择。但是,大多数特征选择方法仅估计变量之间的线性依赖性程度,并根据单变量统计测试选择最佳特征。此外,学习表示所涉及的特征空间的稀疏性被忽略了。目标:因此,我们的目标是通过压缩临床代表性空间来访问一种替代方法来解决稀疏性,在这种情况下,法国临床笔记也可以有效地处理有限的法国临床笔记。方法:本研究提出了一种自动编码器学习算法来利用临床注释表示的稀疏性。动机是通过降低临床音符表示特征空间的维度来确定如何压缩稀疏的高维数据。然后在受过训练和压缩的特征空间中评估分类器的分类性能。结果:建议的方法为每种评估提供了高达3%的总体绩效增长。最后,分类器在检测患者病情时达到了92%的准确性,91%的召回,91%的精度和91%的F1得分。此外,通过应用理论信息瓶颈框架来证明压缩工作机制和自动编码器预测过程。
translated by 谷歌翻译
Landslides在人为全球变暖时代的人类生活和财产的常规发生和令人震惊的威胁。利用数据驱动方法早日预测利用数据驱动方法是时间的要求。在这项研究中,我们探讨了最能描述Landslide易感性与最先进的机器学习方法的雄辩功能。在我们的研究中,我们采用了最先进的机器学习算法,包括XGBoost,LR,KNN,SVM,Adaboost用于滑坡敏感性预测。要查找每个单独分类器的最佳超级参数以优化性能,我们已纳入网格搜索方法,交叉验证10倍。在这种情况下,XGBoost的优化版本优先于所有其他分类器,交叉验证加权F1得分为94.62%。其次是通过合并Treeshap并识别斜坡,高度,TWI等雄辩的特征来探索XGBoost分类器,这些特征在于,XGBoost分类器的性能大多是Landuse,NDVI,SPI等功能,这对模型性能较小。 。根据Treeshap的特征说明,我们选择了15个最重要的滑坡因果因素。显然,XGBoost的优化版本随着特征减少40%,在具有十字架的流行评估度量方面表现优于所有其他分类器。 - 在培训和AUC分数的加权F1得分为95.01%,AUC得分为97%。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
我们介绍了数据科学预测生命周期中各个阶段开发和采用自动化的技术和文化挑战的说明概述,从而将重点限制为使用结构化数据集的监督学习。此外,我们回顾了流行的开源Python工具,这些工具实施了针对自动化挑战的通用解决方案模式,并突出了我们认为进步仍然需要的差距。
translated by 谷歌翻译
心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中,它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害,准确地诊断为心脏病是一个重要因素。最近,我们看到了非侵入性医学程序的用法,例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术,这些算法和技术被广泛使用,并且在较少的时间以诊断心脏病的准确诊断非常有用。但是,对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加,使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此,这项研究的目的是从高度维数据集中确定最重要的风险因素,这有助于对心脏病的准确分类,并减少并发症。为了进行更广泛的分析,我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明,相关特征对分类精度产生了很大的影响。即使功能减少,与在全功能集中训练的模型相比,分类模型的性能随着训练时间的减少而显着提高。
translated by 谷歌翻译
在本文中,正在研究精神任务 - 根脑 - 计算机接口(BCI)的分类,因为这些系统是BCI中的主要调查领域,因为这些系统可以增强具有严重残疾人的人们的生命。 BCI模型的性能主要取决于通过多个通道获得的特征向量的大小。在心理任务分类的情况下,培训样本的可用性最小。通常,特征选择用于通过摆脱无关紧要和多余的功能来增加心理任务分类的比率。本文提出了一种为精神任务分类选择相关和非冗余频谱特征的方法。这可以通过使用四个非常已知的多变量特征选择方法VIZ,BHATTACHARYA的距离,散射矩阵的比率,线性回归和最小冗余和最大相关性。这项工作还涉及对心理任务分类的多元和单变量特征选择的比较分析。在应用上述方法后,研究结果表明了精神任务分类的学习模型的性能的大量改进。此外,通过执行稳健的排名算法和弗里德曼的统计测试来认识所提出的方法的功效,以找到最佳组合并比较功率谱密度和特征选择方法的不同组合。
translated by 谷歌翻译
癫痫发作是最重要的神经障碍之一,其早期诊断将有助于临床医生为患者提供准确的治疗方法。脑电图(EEG)信号广泛用于癫痫癫痫发作检测,其提供了关于大脑功能的实质性信息的专家。本文介绍了采用模糊理论和深层学习技术的新型诊断程序。所提出的方法在Bonn大学数据集上进行了评估,具有六个分类组合以及弗赖堡数据集。可以使用可调谐Q小波变换(TQWT)来将EEG信号分解为不同的子带。在特征提取步骤中,从TQWT的不同子带计算了13个不同的模糊熵,并且计算它们的计算复杂性以帮助研究人员选择各种任务的最佳集合。在下文中,采用具有六层的AutoEncoder(AE)用于减少维数。最后,标准自适应神经模糊推理系统(ANFIS)以及其具有蚱蜢优化算法(ANFIS-GOA),粒子群优化(ANFIS-PSO)和育种群优化(ANFIS-BS)方法的变体分类。使用我们所提出的方法,ANFIS-BS方法在弗赖堡数据集上分为两类分为两类和准确度,在两类分类中获得99.46%的准确性,以及弗赖堡数据集的99.28%,达到最先进的两个人的表演。
translated by 谷歌翻译