Patient triage at emergency departments (EDs) is necessary to prioritize care for patients with critical and time-sensitive conditions. Different tools are used for patient triage and one of the most common ones is the emergency severity index (ESI), which has a scale of five levels, where level 1 is the most urgent and level 5 is the least urgent. This paper proposes a framework for utilizing machine learning to develop an e-triage tool that can be used at EDs. A large retrospective dataset of ED patient visits is obtained from the electronic health record of a healthcare provider in the Midwest of the US for three years. However, the main challenge of using machine learning algorithms is that most of them have many parameters and without optimizing these parameters, developing a high-performance model is not possible. This paper proposes an approach to optimize the hyperparameters of machine learning. The metaheuristic optimization algorithms simulated annealing (SA) and adaptive simulated annealing (ASA) are proposed to optimize the parameters of extreme gradient boosting (XGB) and categorical boosting (CaB). The newly proposed algorithms are SA-XGB, ASA-XGB, SA-CaB, ASA-CaB. Grid search (GS), which is a traditional approach used for machine learning fine-tunning is also used to fine-tune the parameters of XGB and CaB, which are named GS-XGB and GS-CaB. The six algorithms are trained and tested using eight data groups obtained from the feature selection phase. The results show ASA-CaB outperformed all the proposed algorithms with accuracy, precision, recall, and f1 of 83.3%, 83.2%, 83.3%, 83.2%, respectively.
translated by 谷歌翻译
The issue of left before treatment complete (LBTC) patients is common in emergency departments (EDs). This issue represents a medico-legal risk and may cause a revenue loss. Thus, understanding the factors that cause patients to leave before treatment is complete is vital to mitigate and potentially eliminate these adverse effects. This paper proposes a framework for studying the factors that affect LBTC outcomes in EDs. The framework integrates machine learning, metaheuristic optimization, and model interpretation techniques. Metaheuristic optimization is used for hyperparameter optimization--one of the main challenges of machine learning model development. Three metaheuristic optimization algorithms are employed for optimizing the parameters of extreme gradient boosting (XGB), which are simulated annealing (SA), adaptive simulated annealing (ASA), and adaptive tabu simulated annealing (ATSA). The optimized XGB models are used to predict the LBTC outcomes for the patients under treatment in ED. The designed algorithms are trained and tested using four data groups resulting from the feature selection phase. The model with the best predictive performance is interpreted using SHaply Additive exPlanations (SHAP) method. The findings show that ATSA-XGB outperformed other mode configurations with an accuracy, area under the curve (AUC), sensitivity, specificity, and F1-score of 86.61%, 87.50%, 85.71%, 87.51%, and 86.60%, respectively. The degree and the direction of effects of each feature were determined and explained using the SHAP method.
translated by 谷歌翻译
痴呆症是一种神经精神脑障碍,通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明,机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积(NWBV)和地图集缩放系数(ASF)收集的收集数据类型,这些数据通常测量并从磁共振成像(MRIS)中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症,但我们无法就这些方法的稳定性得出结论,而这些方法在不同的实验条件下更准确。因此,本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此,使用7种机器学习算法和两种功能还原算法,即信息增益(IG)和主成分分析(PCA)进行大量实验。为了检查这些算法的稳定性,IG的特征选择阈值从20%更改为100%,PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中,都记录了各种分类评估数据。获得的结果表明,在七种算法中,支持向量机和天真的贝叶斯是最稳定的算法,同时更改选择阈值。同样,发现使用IG似乎比使用PCA预测痴呆症更有效。
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中,它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害,准确地诊断为心脏病是一个重要因素。最近,我们看到了非侵入性医学程序的用法,例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术,这些算法和技术被广泛使用,并且在较少的时间以诊断心脏病的准确诊断非常有用。但是,对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加,使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此,这项研究的目的是从高度维数据集中确定最重要的风险因素,这有助于对心脏病的准确分类,并减少并发症。为了进行更广泛的分析,我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明,相关特征对分类精度产生了很大的影响。即使功能减少,与在全功能集中训练的模型相比,分类模型的性能随着训练时间的减少而显着提高。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
急诊科(EDS)的表现对于任何医疗保健系统都非常重要,因为它们是许多患者的入口处。但是,除其他因素外,患者敏锐度水平和访问患者的相应治疗要求的变异性对决策者构成了重大挑战。平衡患者的等待时间首先是由医生与所有敏锐度水平的总长度相处的,对于维持所有患者的可接受的操作表现至关重要。为了解决这些要求在为患者分配空闲资源时,过去提出了几种方法,包括累积的优先排队(APQ)方法。 APQ方法在系统和敏锐度水平方面将优先评分线性分配给患者。因此,选择决策基于一个简单的系统表示,该表示作为选择功能的输入。本文研究了基于机器学习(ML)的患者选择方法的潜力。它假设对于大量的培训数据,包括多种不同的系统状态,(接近)最佳分配可以通过(启发式)优化器计算出关于所选的性能指标,并旨在模仿此类最佳行为。应用于新情况。因此,它结合了系统的全面状态表示和复杂的非线性选择函数。拟议方法的动机是,高质量的选择决策可能取决于描述ED当前状态的各种因素,而不仅限于等待时间,而这些因素可以由ML模型捕获和利用。结果表明,所提出的方法显着优于大多数评估设置的APQ方法
translated by 谷歌翻译
快速准确地检测该疾病可以大大帮助减少任何国家医疗机构对任何大流行期间死亡率降低死亡率的压力。这项工作的目的是使用新型的机器学习框架创建多模式系统,该框架同时使用胸部X射线(CXR)图像和临床数据来预测COVID-19患者的严重程度。此外,该研究还提出了一种基于nom图的评分技术,用于预测高危患者死亡的可能性。这项研究使用了25种生物标志物和CXR图像,以预测意大利第一波Covid-19(3月至6月2020年3月至6月)在930名Covid-19患者中的风险。提出的多模式堆叠技术分别产生了89.03%,90.44%和89.03%的精度,灵敏度和F1分数,以识别低风险或高危患者。与CXR图像或临床数据相比,这种多模式方法可提高准确性6%。最后,使用多元逻辑回归的列线图评分系统 - 用于对第一阶段确定的高风险患者的死亡风险进行分层。使用随机森林特征选择模型将乳酸脱氢酶(LDH),O2百分比,白细胞(WBC)计数,年龄和C反应蛋白(CRP)鉴定为有用的预测指标。开发了五个预测因素参数和基于CXR图像的列函数评分,以量化死亡的概率并将其分为两个风险组:分别存活(<50%)和死亡(> = 50%)。多模式技术能够预测F1评分为92.88%的高危患者的死亡概率。开发和验证队列曲线下的面积分别为0.981和0.939。
translated by 谷歌翻译
在全球范围内,有实质性的未满足需要有效地诊断各种疾病。不同疾病机制的复杂性和患者人群的潜在症状具有巨大挑战,以发展早期诊断工具和有效治疗。机器学习(ML),人工智能(AI)区域,使研究人员,医师和患者能够解决这些问题的一些问题。基于相关研究,本综述解释了如何使用机器学习(ML)和深度学习(DL)来帮助早期识别许多疾病。首先,使用来自Scopus和Science(WOS)数据库的数据来给予所述出版物的生物计量研究。对1216个出版物的生物计量研究进行了确定,以确定最多产的作者,国家,组织和最引用的文章。此次审查总结了基于机器学习的疾病诊断(MLBDD)的最新趋势和方法,考虑到以下因素:算法,疾病类型,数据类型,应用和评估指标。最后,该文件突出了关键结果,并向未来的未来趋势和机遇提供了解。
translated by 谷歌翻译
口服食物挑战(OFC)对于准确诊断患者的食物过敏至关重要。但是,患者不愿接受OFC,对于那些这样做的患者,在农村/社区医疗保健环境中,对过敏症患者的使用率有限。通过机器学习方法对OFC结果的预测可以促进在家中食品过敏原的删除,在OFC中改善患者和医师的舒适度,并通过最大程度地减少执行的OFC的数量来节省医疗资源。临床数据是从共同接受1,284个OFC的1,12例患者那里收集的,包括临床因素,包括血清特异性IgE,总IgE,皮肤刺测试(SPTS),症状,性别和年龄。使用这些临床特征,构建了机器学习模型,以预测花生,鸡蛋和牛奶挑战的结果。每种过敏原的最佳性能模型是使用凹入和凸内核(LUCCK)方法创建的,该方法在曲线(AUC)(AUC)下分别用于花生,鸡蛋和牛奶OFC预测为0.76、0.68和0.70, 。通过Shapley添加说明(SHAP)的模型解释表明,特定的IgE以及SPTS的Wheal和Flare值高度预测了OFC结果。该分析的结果表明,机器学习有可能预测OFC结果,并揭示了相关的临床因素进行进一步研究。
translated by 谷歌翻译
Landslides在人为全球变暖时代的人类生活和财产的常规发生和令人震惊的威胁。利用数据驱动方法早日预测利用数据驱动方法是时间的要求。在这项研究中,我们探讨了最能描述Landslide易感性与最先进的机器学习方法的雄辩功能。在我们的研究中,我们采用了最先进的机器学习算法,包括XGBoost,LR,KNN,SVM,Adaboost用于滑坡敏感性预测。要查找每个单独分类器的最佳超级参数以优化性能,我们已纳入网格搜索方法,交叉验证10倍。在这种情况下,XGBoost的优化版本优先于所有其他分类器,交叉验证加权F1得分为94.62%。其次是通过合并Treeshap并识别斜坡,高度,TWI等雄辩的特征来探索XGBoost分类器,这些特征在于,XGBoost分类器的性能大多是Landuse,NDVI,SPI等功能,这对模型性能较小。 。根据Treeshap的特征说明,我们选择了15个最重要的滑坡因果因素。显然,XGBoost的优化版本随着特征减少40%,在具有十字架的流行评估度量方面表现优于所有其他分类器。 - 在培训和AUC分数的加权F1得分为95.01%,AUC得分为97%。
translated by 谷歌翻译
这项研究提出了机器学习模型,这些模型使用大型钻探数据集预测和分类循环严重性损失。我们展示了利用易于解释的机器学习方法来应对大型钻井工程挑战的可再现核心技术。我们利用了来自伊朗Azadegan油田组的65,000多个记录数据,其中具有类不平衡问题。数据集的十七个参数中有11个参数用于五个丢失的循环事件的分类。为了生成分类模型,我们使用了六种基本的机器学习算法和四种合奏学习方法。线性判别分析(LDA),逻辑回归(LR),支持向量机(SVM),分类和回归树(CART),K-Nearest Neighbors(KNN)和Gaussian Naive Bayes(GNB)是六个基本技术。我们还在调查解决方案中使用包装和增强集合学习技术,以改善预测性能。这些算法的性能是使用四个指标测量的:精度,精度,回忆和F1得分。选择表示数据不平衡的F1得分作为首选评估标准。发现CART模型是识别钻孔流体循环损失事件的最佳选择,平均加权F1分数为0.9904,标准偏差为0.0015。在应用合奏学习技术后,决策树的随机森林合奏表现出最佳的预测性能。它以1.0的完美加权F1分数确定并分类丢失的循环事件。使用置换功能重要性(PFI),发现测得的深度是准确识别钻孔时丢失的循环事件的最具影响力因素。
translated by 谷歌翻译
包括机器学习在内的计算分析方法对基因组学和医学领域具有重大影响。高通量基因表达分析方法,例如微阵列技术和RNA测序产生大量数据。传统上,统计方法用于基因表达数据的比较分析。但是,针对样品观察分类或发现特征基因的分类的更复杂的分析需要复杂的计算方法。在这篇综述中,我们编译了用于分析表达微阵列数据的各种统计和计算工具。即使在表达微阵列的背景下讨论了这些方法,也可以将它们应用于RNA测序和定量蛋白质组学数据集的分析。我们讨论缺失价值的类型以及其插补中通常采用的方法和方法。我们还讨论了数据归一化,特征选择和特征提取的方法。最后,详细描述了分类和类发现方法及其评估参数。我们认为,这项详细的审查将帮助用户根据预期结果选择适当的方法来预处理和分析其数据。
translated by 谷歌翻译
如今,乳腺癌已成为近年来最突出的死亡原因之一。在所有恶性肿瘤中,这是全球妇女最常见和主要的死亡原因。手动诊断这种疾病需要大量的时间和专业知识。乳腺癌的检测是耗时的,并且可以通过开发基于机器的乳腺癌预测来减少疾病的传播。在机器学习中,系统可以从先前的实例中学习,并使用各种统计,概率和优化方法从嘈杂或复杂的数据集中找到难以检测的模式。这项工作比较了几种机器学习算法的分类准确性,精度,灵敏度和新近收集的数据集的特异性。在这种工作决策树,随机森林,逻辑回归,天真的贝叶斯和XGBoost中,已经实施了这五种机器学习方法,以在我们的数据集中获得最佳性能。这项研究的重点是找到最佳的算法,该算法可以预测乳腺癌,以最高的准确性。这项工作在效率和有效性方面评估了每种算法数据分类的质量。并与该领域的其他已发表工作相比。实施模型后,本研究达到了最佳模型准确性,在随机森林和XGBoost上达到94%。
translated by 谷歌翻译
控制传染病是一个主要的健康优先事项,因为它们可以传播和感染人类,从而演变为流行病或流行病。因此,早期发现传染病是一种重要需求,许多研究人员已经开发出在早期诊断它们的模型。本文审查了用于传染病诊断的最新机器学习(ML)算法的研究文章。我们从2015年至2022年搜索了科学,ScienceDirect,PubMed,Springer和IEEE数据库,确定了审查的ML模型的优缺点,并讨论了推进该领域研究的可能建议。我们发现大多数文章都使用了小型数据集,其中很少有实时数据。我们的结果表明,合适的ML技术取决于数据集的性质和所需的目标。
translated by 谷歌翻译
放射线学使用定量医学成像特征来预测临床结果。目前,在新的临床应用中,必须通过启发式试验和纠正过程手动完成各种可用选项的最佳放射组方法。在这项研究中,我们提出了一个框架,以自动优化每个应用程序的放射线工作流程的构建。为此,我们将放射线学作为模块化工作流程,并为每个组件包含大量的常见算法。为了优化每个应用程序的工作流程,我们使用随机搜索和结合使用自动化机器学习。我们在十二个不同的临床应用中评估我们的方法,从而在曲线下导致以下区域:1)脂肪肉瘤(0.83); 2)脱粘型纤维瘤病(0.82); 3)原发性肝肿瘤(0.80); 4)胃肠道肿瘤(0.77); 5)结直肠肝转移(0.61); 6)黑色素瘤转移(0.45); 7)肝细胞癌(0.75); 8)肠系膜纤维化(0.80); 9)前列腺癌(0.72); 10)神经胶质瘤(0.71); 11)阿尔茨海默氏病(0.87);和12)头颈癌(0.84)。我们表明,我们的框架具有比较人类专家的竞争性能,优于放射线基线,并且表现相似或优于贝叶斯优化和更高级的合奏方法。最后,我们的方法完全自动优化了放射线工作流的构建,从而简化了在新应用程序中对放射线生物标志物的搜索。为了促进可重复性和未来的研究,我们公开发布了六个数据集,框架的软件实施以及重现这项研究的代码。
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
由于医疗保健是关键方面,健康保险已成为最大程度地减少医疗费用的重要计划。此后,由于保险的增加,医疗保健行业的欺诈活动大幅增加,欺诈行业已成为医疗费用上升的重要贡献者,尽管可以使用欺诈检测技术来减轻其影响。为了检测欺诈,使用机器学习技术。美国联邦政府的医疗补助和医疗保险服务中心(CMS)在本研究中使用“医疗保险D部分”保险索赔来开发欺诈检测系统。在类不平衡且高维的Medicare数据集中使用机器学习算法是一项艰巨的任务。为了紧凑此类挑战,目前的工作旨在在数据采样之后执行功能提取,然后应用各种分类算法,以获得更好的性能。特征提取是一种降低降低方法,该方法将属性转换为实际属性的线性或非线性组合,生成较小,更多样化的属性集,从而降低了尺寸。数据采样通常用于通过扩大少数族裔类的频率或降低多数类的频率以获得两种类别的出现数量大约相等的频率来解决类不平衡。通过标准性能指标评估所提出的方法。因此,为了有效地检测欺诈,本研究将自动编码器作为特征提取技术,合成少数族裔过采样技术(SMOTE)作为数据采样技术,以及各种基于决策树的分类器作为分类算法。实验结果表明,自动编码器的结合,然后在LightGBM分类器上获得SMOTE,取得了最佳的结果。
translated by 谷歌翻译