一个躺在胸腔里的心脏的四个基本腔腔对一个人的生存至关重要,但讽刺地证明是最脆弱的。心血管疾病(CVD)也通常被称为心脏病,在过去几十年中,人类在人类死亡原因中稳步发展。考虑到这一点统计,很明显,患有CVDS的患者需要快速且正确的诊断,以便于早期治疗来减少死亡的机会。本文试图利用提供的数据,以培训分类模型,如逻辑回归,k最近邻居,支持向量机,决策树,高斯天真贝叶斯,随机森林和多层感知(人工神经网络),最终使用柔软投票合奏技术,以便尽可能多地诊断。
translated by 谷歌翻译
在这个时代,作为医疗的主要重点,这一时刻已经到来了。尽管令人印象深刻,但已经开发出来检测疾病的多种技术。此时,有一些类型的疾病COVID-19,正常烟,偏头痛,肺病,心脏病,肾脏疾病,糖尿病,胃病,胃病,胃病,骨骼疾病,自闭症是非常常见的疾病。在此分析中,我们根据疾病的症状进行了分析疾病症状的预测。我们研究了一系列症状,并接受了人们的调查以完成任务。已经采用了几种分类算法来训练模型。此外,使用性能评估矩阵来衡量模型的性能。最后,我们发现零件分类器超过了其他分类器。
translated by 谷歌翻译
冠心病,是一种心血管疾病(CVD)的形式,是全世界死亡的主要原因。如果在早期发现或诊断,存活的几率很好。目前的报告讨论了使用机器学习(ML)算法进行冠心病数据集分类的比较方法。目前的研究创建并测试了几种基于机器学习的分类模型。对数据集进行扫描以处理不平衡的类和特征选择技术,以评估对两个不同性能度量的影响。结果表明,与采用的其他算法相比,逻辑回归在原始数据集中产生了最高的性能分数。总之,本研究表明,加工良好和标准化的数据集上的LR可以预测冠心病,比其他算法更高。
translated by 谷歌翻译
在全球范围内,有实质性的未满足需要有效地诊断各种疾病。不同疾病机制的复杂性和患者人群的潜在症状具有巨大挑战,以发展早期诊断工具和有效治疗。机器学习(ML),人工智能(AI)区域,使研究人员,医师和患者能够解决这些问题的一些问题。基于相关研究,本综述解释了如何使用机器学习(ML)和深度学习(DL)来帮助早期识别许多疾病。首先,使用来自Scopus和Science(WOS)数据库的数据来给予所述出版物的生物计量研究。对1216个出版物的生物计量研究进行了确定,以确定最多产的作者,国家,组织和最引用的文章。此次审查总结了基于机器学习的疾病诊断(MLBDD)的最新趋势和方法,考虑到以下因素:算法,疾病类型,数据类型,应用和评估指标。最后,该文件突出了关键结果,并向未来的未来趋势和机遇提供了解。
translated by 谷歌翻译
痴呆症是一种神经精神脑障碍,通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明,机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积(NWBV)和地图集缩放系数(ASF)收集的收集数据类型,这些数据通常测量并从磁共振成像(MRIS)中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症,但我们无法就这些方法的稳定性得出结论,而这些方法在不同的实验条件下更准确。因此,本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此,使用7种机器学习算法和两种功能还原算法,即信息增益(IG)和主成分分析(PCA)进行大量实验。为了检查这些算法的稳定性,IG的特征选择阈值从20%更改为100%,PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中,都记录了各种分类评估数据。获得的结果表明,在七种算法中,支持向量机和天真的贝叶斯是最稳定的算法,同时更改选择阈值。同样,发现使用IG似乎比使用PCA预测痴呆症更有效。
translated by 谷歌翻译
研究表明,心血管疾病(CVD)对人类健康是恶性的研究。因此,重要的是具有有效的CVD预后方法。为此,医疗保健行业采用了基于机器学习的智能解决方案,以减轻CVD预后的手动过程。因此,这项工作提出了一种信息融合技术,该技术通过分析方差(ANOVA)和域专家的知识结合了人的关键属性。它还引入了新的CVD数据样本集,用于新兴研究。进行了三十八个实验,以验证四个公开可用基准数据集中提出的框架的性能以及在这项工作中新创建的数据集。消融研究表明,所提出的方法可以达到竞争平均平均准确性(MAA)为99.2%,平均AUC平均AUC为97.9%。
translated by 谷歌翻译
Machine learning is the study of computer algorithms that can automatically improve based on data and experience. Machine learning algorithms build a model from sample data, called training data, to make predictions or judgments without being explicitly programmed to do so. A variety of wellknown machine learning algorithms have been developed for use in the field of computer science to analyze data. This paper introduced a new machine learning algorithm called impact learning. Impact learning is a supervised learning algorithm that can be consolidated in both classification and regression problems. It can furthermore manifest its superiority in analyzing competitive data. This algorithm is remarkable for learning from the competitive situation and the competition comes from the effects of autonomous features. It is prepared by the impacts of the highlights from the intrinsic rate of natural increase (RNI). We, moreover, manifest the prevalence of the impact learning over the conventional machine learning algorithm.
translated by 谷歌翻译
心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中,它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害,准确地诊断为心脏病是一个重要因素。最近,我们看到了非侵入性医学程序的用法,例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术,这些算法和技术被广泛使用,并且在较少的时间以诊断心脏病的准确诊断非常有用。但是,对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加,使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此,这项研究的目的是从高度维数据集中确定最重要的风险因素,这有助于对心脏病的准确分类,并减少并发症。为了进行更广泛的分析,我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明,相关特征对分类精度产生了很大的影响。即使功能减少,与在全功能集中训练的模型相比,分类模型的性能随着训练时间的减少而显着提高。
translated by 谷歌翻译
医疗保健是人类生活中最重要的方面之一。众所周知,心脏病是最致命的疾病之一,这些疾病是阻碍了世界各地许多人的生命。必须提前检测心脏病,因此可以防止丧生生命。用于医学诊断的大规模数据的可用性有助于开发复杂的机器学习和基于深度学习的模型,用于自动化早期诊断心脏病。古典方法在没有概括到训练集中没有看到的新数据的概括。这在训练和测试精度方面的差距是巨大的差距。本文提出了一种新的深度学习架构,使用1D卷积神经网络进行健康和非健康人员之间的分类,以克服古典方法的局限性。各种临床参数用于评估有助于早期诊断的患者的风险概况。使用各种技术来避免在所提出的网络中过度装备。该网络在数据集中实现了超过97%的训练精度和96%的测试准确性。使用各种性能参数的其他分类算法详细比较了模型的准确性,这些算法证明了所提出的架构的有效性。
translated by 谷歌翻译
这项研究提出了机器学习模型,这些模型使用大型钻探数据集预测和分类循环严重性损失。我们展示了利用易于解释的机器学习方法来应对大型钻井工程挑战的可再现核心技术。我们利用了来自伊朗Azadegan油田组的65,000多个记录数据,其中具有类不平衡问题。数据集的十七个参数中有11个参数用于五个丢失的循环事件的分类。为了生成分类模型,我们使用了六种基本的机器学习算法和四种合奏学习方法。线性判别分析(LDA),逻辑回归(LR),支持向量机(SVM),分类和回归树(CART),K-Nearest Neighbors(KNN)和Gaussian Naive Bayes(GNB)是六个基本技术。我们还在调查解决方案中使用包装和增强集合学习技术,以改善预测性能。这些算法的性能是使用四个指标测量的:精度,精度,回忆和F1得分。选择表示数据不平衡的F1得分作为首选评估标准。发现CART模型是识别钻孔流体循环损失事件的最佳选择,平均加权F1分数为0.9904,标准偏差为0.0015。在应用合奏学习技术后,决策树的随机森林合奏表现出最佳的预测性能。它以1.0的完美加权F1分数确定并分类丢失的循环事件。使用置换功能重要性(PFI),发现测得的深度是准确识别钻孔时丢失的循环事件的最具影响力因素。
translated by 谷歌翻译
机器学习和人工智能可广泛用于诊断慢性疾病,以便可以在关键时间内进行必要的预防治疗。糖尿病是由几种机器学习算法容易诊断的主要疾病之一。早期诊断至关重要,以防止危险后果。在本文中,我们对多种机器学习算法的比较分析了。随机森林,决策树,人工神经网络,K最近邻居,支持向量机和XGBoost以及使用Shav的特征归因,以确定预测从Sylhet医院收集的数据集上的糖尿病的最重要特征。根据所获得的实验结果,随机森林算法表现优于所有其他算法,在该特定数据集中的精度为99%。
translated by 谷歌翻译
在医疗保健系统中,需要患者使用可穿戴设备进行远程数据收集和对健康数据的实时监控以及健康状况的状态。可穿戴设备的这种采用导致收集和传输的数据量显着增加。由于设备由较小的电池电源运行,因此由于设备的高处理要求以进行数据收集和传输,因此可以快速减少它们。鉴于医疗数据的重要性,必须所有传输数据遵守严格的完整性和可用性要求。减少医疗保健数据的量和传输频率将通过使用推理算法改善设备电池寿命。有一个以准确性和效率改善传输指标的问题,彼此之间的权衡,例如提高准确性会降低效率。本文表明,机器学习可用于分析复杂的健康数据指标,例如数据传输的准确性和效率,以使用Levenberg-Marquardt算法来克服权衡问题,从而增强这两个指标,从而通过少较少的样本来传输,同时保持维护准确性。使用标准心率数据集测试该算法以比较指标。结果表明,LMA最好以3.33倍的效率进行样本数据尺寸和79.17%的精度,在7种不同的采样案例中具有相似的准确性,用于测试,但表明效率提高。与具有高效率的现有方法相比,这些提出的方法使用机器学习可以显着改善两个指标,而无需牺牲其他指标。
translated by 谷歌翻译
2019年12月底,首先在武汉中国首次确定了新型冠状病毒(SARS-COV-2)和所得疾病Covid-19。该疾病通过遏制措施滑落,其中一个已知的案例在美国在2020年1月20日被确定。在本文中,我们利用来自大学间财团的调查数据进行政治和社会研究,并应用几种统计和机器学习模型和技术,如决策树,多项式物流回归,天真贝叶斯,k-intele邻居,支持向量机,神经网络,随机森林,梯度树提升,Xgboost,Catboost,LightGBM,合成少数群体过采样和Chi-Squared测试分析Covid-19大流行对美国前线工人心理健康的影响。通过对适用于心理健康调查数据的许多模型的解释,我们已经得出结论,预测前线工人心理健康衰退的最重要因素是个人所在的医疗保健角色(护士,急诊室工作人员,外科医生, ),其次是个人在上周睡眠量,Covid-19相关新闻的数量在一天,工人的年龄和酒精和大麻的使用量平均消耗。
translated by 谷歌翻译
控制传染病是一个主要的健康优先事项,因为它们可以传播和感染人类,从而演变为流行病或流行病。因此,早期发现传染病是一种重要需求,许多研究人员已经开发出在早期诊断它们的模型。本文审查了用于传染病诊断的最新机器学习(ML)算法的研究文章。我们从2015年至2022年搜索了科学,ScienceDirect,PubMed,Springer和IEEE数据库,确定了审查的ML模型的优缺点,并讨论了推进该领域研究的可能建议。我们发现大多数文章都使用了小型数据集,其中很少有实时数据。我们的结果表明,合适的ML技术取决于数据集的性质和所需的目标。
translated by 谷歌翻译
如今,乳腺癌已成为近年来最突出的死亡原因之一。在所有恶性肿瘤中,这是全球妇女最常见和主要的死亡原因。手动诊断这种疾病需要大量的时间和专业知识。乳腺癌的检测是耗时的,并且可以通过开发基于机器的乳腺癌预测来减少疾病的传播。在机器学习中,系统可以从先前的实例中学习,并使用各种统计,概率和优化方法从嘈杂或复杂的数据集中找到难以检测的模式。这项工作比较了几种机器学习算法的分类准确性,精度,灵敏度和新近收集的数据集的特异性。在这种工作决策树,随机森林,逻辑回归,天真的贝叶斯和XGBoost中,已经实施了这五种机器学习方法,以在我们的数据集中获得最佳性能。这项研究的重点是找到最佳的算法,该算法可以预测乳腺癌,以最高的准确性。这项工作在效率和有效性方面评估了每种算法数据分类的质量。并与该领域的其他已发表工作相比。实施模型后,本研究达到了最佳模型准确性,在随机森林和XGBoost上达到94%。
translated by 谷歌翻译
In this paper we i n vestigate the use of receiver operating characteristic (ROC) curve f o r the evaluation of machine learning algorithms. In particular, we i n vestigate the use of the area under the ROC curve ( A UC) as a measure of classi er performance. The machine learning algorithms used are chosen to be representative of those in common use: two decision trees (C4.5 and Multiscale Classi er) two n e u r a l n e t works (Perceptron and Multi-layer Perceptron) and two statistical methods (K-Nearest Neighbours and a Quadratic Discriminant F unction).The evaluation is done using six, \real world," medical diagnostics data sets that contain a varying numbers of inputs and samples, but are primarily continuous input, binary classi cation problems. We i d e n tify three forms of bias that can a ect comparisons of this type (estimation, selection, and expert bias) and detail the methods used to avoid them. We compare and discuss the use of AUC with the conventional measure of classi er performance, overall accuracy (the probability of a correct response). It is found that AUC exhibits a number of desirable properties when compared to overall accuracy: increased sensitivity in Analysis of Variance (ANOVA) tests a standard error that decreased as both AUC and the number of test samples increased decision threshold independent invariant t o a priori class probabilities and it gives an indication of the amount o f \ w ork done" by a classi cation scheme, giving low scores to both random and \one class only" classi ers.It has been known for some time that AUC actually represents the probability that a randomly chosen positive example is correctly rated (ranked) with greater suspicion than a randomly chosen negative example. Moreover, this probability of correct ranking is the same quantity estimated by the non-parametric Wilcoxon statistic. We use this equivalence to show that the standard deviation of AUC, estimated using 10 fold cross validation, is a reliable estimator of the standard error estimated using the Wilcoxon test. The paper concludes with the recommendation that AUC be used in preference to overall accuracy when \single number" evaluation of machine learning algorithms is required.
translated by 谷歌翻译
由于欺诈模式随着时间的流逝而变化,并且欺诈示例的可用性有限,以学习这种复杂的模式,因此欺诈检测是一项具有挑战性的任务。因此,借助智能版本的机器学习(ML)工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务;但是,相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外,在不平衡类中的分类非常具有挑战性,因为它在少数群体中导致绩效差,大多数ML分类技术都忽略了。因此,我们研究了四种最先进的ML技术,即逻辑回归,决策树,随机森林和极端梯度提升,它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先,这些分类器经过两个原始基准测试不平衡检测数据集的培训,即网站网站URL和欺诈性信用卡交易。然后,通过实现采样框架,即RandomundSampler,Smote和Smoteenn,为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性,即接收器操作特性(AUC ROC)和精度和召回曲线下的面积(AUC PR)(AUC PR)。对于网络钓鱼网站URL和信用卡欺诈事务数据集,结果表明,对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能,并以AUC ROC和AUC PR来超越其他三种方法。
translated by 谷歌翻译
在医学科学中,在不同疾病上收集多个数据非常重要,并且数据最重要的目标是调查疾病。心肌梗死是死亡率的严重危险因素,并且在以往的研究中,主要重点是通过人口统计学特征,超声心动图和心电图测量心肌梗死的可能性。相反,本研究的目的是利用数据分析算法,并比较他们的心脏病发作患者的准确性,以便通过考虑到应急行动并因此预测心肌梗死期间心肌梗死期间的心肌强度。为此目的,通过数据分析的分类技术收集和研究,包括随机的分类技术,包括随机的分类技术来收集和研究,包括年龄,紧急操作时间,肌酸磷酸氨基酶(CPK)试验,心率,血糖和静脉的105名心肌梗死患者。决策林,决策树,支持向量机(SVM),k离邻居和序数逻辑回归。最后,在平均评估指标方面,选择了精度为76%的随机决定林的模型作为最佳模型。此外,肌酸磷酸氨基酶试验,尿素,白色和红细胞计数,血糖,时间和血红蛋白的七种特征被鉴定为喷射分数变量的最有效特征。
translated by 谷歌翻译
Dataset scaling, also known as normalization, is an essential preprocessing step in a machine learning pipeline. It is aimed at adjusting attributes scales in a way that they all vary within the same range. This transformation is known to improve the performance of classification models, but there are several scaling techniques to choose from, and this choice is not generally done carefully. In this paper, we execute a broad experiment comparing the impact of 5 scaling techniques on the performances of 20 classification algorithms among monolithic and ensemble models, applying them to 82 publicly available datasets with varying imbalance ratios. Results show that the choice of scaling technique matters for classification performance, and the performance difference between the best and the worst scaling technique is relevant and statistically significant in most cases. They also indicate that choosing an inadequate technique can be more detrimental to classification performance than not scaling the data at all. We also show how the performance variation of an ensemble model, considering different scaling techniques, tends to be dictated by that of its base model. Finally, we discuss the relationship between a model's sensitivity to the choice of scaling technique and its performance and provide insights into its applicability on different model deployment scenarios. Full results and source code for the experiments in this paper are available in a GitHub repository.\footnote{https://github.com/amorimlb/scaling\_matters}
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译