智能论文笔记

Clinical Deterioration Prediction in Brazilian Hospitals Based on Artificial Neural Networks and Tree Decision Models

Hamed Yazdanpanah , Augusto C. M. Silva , Murilo Guedes , Hugo M. P. Morales , Leandro dos S. Coelho , Fernando G. Moro

分类：机器学习

2022-12-17

Early recognition of clinical deterioration (CD) has vital importance in patients' survival from exacerbation or death. Electronic health records (EHRs) data have been widely employed in Early Warning Scores (EWS) to measure CD risk in hospitalized patients. Recently, EHRs data have been utilized in Machine Learning (ML) models to predict mortality and CD. The ML models have shown superior performance in CD prediction compared to EWS. Since EHRs data are structured and tabular, conventional ML models are generally applied to them, and less effort is put into evaluating the artificial neural network's performance on EHRs data. Thus, in this article, an extremely boosted neural network (XBNet) is used to predict CD, and its performance is compared to eXtreme Gradient Boosting (XGBoost) and random forest (RF) models. For this purpose, 103,105 samples from thirteen Brazilian hospitals are used to generate the models. Moreover, the principal component analysis (PCA) is employed to verify whether it can improve the adopted models' performance. The performance of ML models and Modified Early Warning Score (MEWS), an EWS candidate, are evaluated in CD prediction regarding the accuracy, precision, recall, F1-score, and geometric mean (G-mean) metrics in a 10-fold cross-validation approach. According to the experiments, the XGBoost model obtained the best results in predicting CD among Brazilian hospitals' data.

translated by 谷歌翻译

BIO-CXRNET: A Robust Multimodal Stacking Machine Learning Technique for Mortality Risk Prediction of COVID-19 Patients using Chest X-Ray Images and Clinical Data

Tawsifur Rahman , Muhammad E. H. Chowdhury , Amith Khandakar , Zaid Bin Mahbub , Md Sakib Abrar Hossain , Abraham Alhatou , Eynas Abdalla , Sreekumar Muthiyal , Khandaker Farzana Islam , Saad Bin Abul Kashem

分类：计算机视觉 | 机器学习

2022-06-15

快速准确地检测该疾病可以大大帮助减少任何国家医疗机构对任何大流行期间死亡率降低死亡率的压力。这项工作的目的是使用新型的机器学习框架创建多模式系统，该框架同时使用胸部X射线（CXR）图像和临床数据来预测COVID-19患者的严重程度。此外，该研究还提出了一种基于nom图的评分技术，用于预测高危患者死亡的可能性。这项研究使用了25种生物标志物和CXR图像，以预测意大利第一波Covid-19（3月至6月2020年3月至6月）在930名Covid-19患者中的风险。提出的多模式堆叠技术分别产生了89.03％，90.44％和89.03％的精度，灵敏度和F1分数，以识别低风险或高危患者。与CXR图像或临床数据相比，这种多模式方法可提高准确性6％。最后，使用多元逻辑回归的列线图评分系统 - 用于对第一阶段确定的高风险患者的死亡风险进行分层。使用随机森林特征选择模型将乳酸脱氢酶（LDH），O2百分比，白细胞（WBC）计数，年龄和C反应蛋白（CRP）鉴定为有用的预测指标。开发了五个预测因素参数和基于CXR图像的列函数评分，以量化死亡的概率并将其分为两个风险组：分别存活（<50％）和死亡（> = 50％）。多模式技术能够预测F1评分为92.88％的高危患者的死亡概率。开发和验证队列曲线下的面积分别为0.981和0.939。

translated by 谷歌翻译

Early prediction of the risk of ICU mortality with Deep Federated Learning

Korbinian Rand , Núria Lladós Armengol , Lena Mondrejevski , Ioanna Miliou

分类：机器学习 | 人工智能

2022-12-01

Intensive Care Units usually carry patients with a serious risk of mortality. Recent research has shown the ability of Machine Learning to indicate the patients' mortality risk and point physicians toward individuals with a heightened need for care. Nevertheless, healthcare data is often subject to privacy regulations and can therefore not be easily shared in order to build Centralized Machine Learning models that use the combined data of multiple hospitals. Federated Learning is a Machine Learning framework designed for data privacy that can be used to circumvent this problem. In this study, we evaluate the ability of deep Federated Learning to predict the risk of Intensive Care Unit mortality at an early stage. We compare the predictive performance of Federated, Centralized, and Local Machine Learning in terms of AUPRC, F1-score, and AUROC. Our results show that Federated Learning performs equally well as the centralized approach and is substantially better than the local approach, thus providing a viable solution for early Intensive Care Unit mortality prediction. In addition, we show that the prediction performance is higher when the patient history window is closer to discharge or death. Finally, we show that using the F1-score as an early stopping metric can stabilize and increase the performance of our approach for the task at hand.

translated by 谷歌翻译

IoT Data Analytics in Dynamic Environments: From An Automated Machine Learning Perspective

Li Yang , Abdallah Shami

分类：机器学习

2022-09-16

近年来，随着传感器和智能设备的广泛传播，物联网（IoT）系统的数据生成速度已大大增加。在物联网系统中，必须经常处理，转换和分析大量数据，以实现各种物联网服务和功能。机器学习（ML）方法已显示出其物联网数据分析的能力。但是，将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战，特别是有效的模型选择，设计/调整和更新，这给经验丰富的数据科学家带来了巨大的需求。此外，物联网数据的动态性质可能引入概念漂移问题，从而导致模型性能降解。为了减少人类的努力，自动化机器学习（AUTOML）已成为一个流行的领域，旨在自动选择，构建，调整和更新机器学习模型，以在指定任务上实现最佳性能。在本文中，我们对Automl区域中模型选择，调整和更新过程中的现有方法进行了审查，以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法，在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后，我们讨论并分类了该领域的挑战和研究方向。

translated by 谷歌翻译

Modern Machine-Learning Predictive Models for Diagnosing Infectious Diseases

Eman Yahia Alqaissi , Fahd Saleh Alotaibi , Muhammad Sher Ramzan

分类：机器学习 | 人工智能

2022-06-15

控制传染病是一个主要的健康优先事项，因为它们可以传播和感染人类，从而演变为流行病或流行病。因此，早期发现传染病是一种重要需求，许多研究人员已经开发出在早期诊断它们的模型。本文审查了用于传染病诊断的最新机器学习（ML）算法的研究文章。我们从2015年至2022年搜索了科学，ScienceDirect，PubMed，Springer和IEEE数据库，确定了审查的ML模型的优缺点，并讨论了推进该领域研究的可能建议。我们发现大多数文章都使用了小型数据集，其中很少有实时数据。我们的结果表明，合适的ML技术取决于数据集的性质和所需的目标。

translated by 谷歌翻译

A Comprehensive Benchmark for COVID-19 Predictive Modeling Using Electronic Health Records in Intensive Care: Choosing the Best Model for COVID-19 Prognosis

Junyi Gao , Yinghao Zhu , Wenqing Wang , Yasha Wang , Wen Tang , Liantao Ma

分类：机器学习

2022-09-16

COVID-19大流行对全球医疗保健系统造成了沉重的负担，并造成了巨大的社会破坏和经济损失。已经提出了许多深度学习模型来执行临床预测任务，例如使用电子健康记录（EHR）数据在重症监护病房中为Covid-19患者的死亡率预测。尽管在某些临床应用中取得了最初的成功，但目前缺乏基准测试结果来获得公平的比较，因此我们可以选择最佳模型以供临床使用。此外，传统预测任务的制定与重症监护现实世界的临床实践之间存在差异。为了填补这些空白，我们提出了两项临床预测任务，特定于结局的预测和重症监护病房中的COVID-19患者的早期死亡率预测。这两个任务是根据幼稚的停车时间和死亡率预测任务的改编，以适应COVID-19患者的临床实践。我们提出了公平，详细的开源数据预处管道，并评估了两项任务的17个最先进的预测模型，包括5个机器学习模型，6种基本的深度学习模型和6种专门为EHR设计的深度学习预测模型数据。我们使用来自两个现实世界Covid-19 EHR数据集的数据提供基准测试结果。这两个数据集都可以公开可用，而无需任何查询，并且可以根据要求访问一个数据集。我们为两项任务提供公平，可重复的基准测试结果。我们在在线平台上部署所有实验结果和模型。我们还允许临床医生和研究人员将其数据上传到平台上，并使用训练有素的模型快速获得预测结果。我们希望我们的努力能够进一步促进Covid-19预测建模的深度学习和机器学习研究。

translated by 谷歌翻译

Risk markers by sex for in-hospital mortality in patients with acute coronary syndrome: a machine learning approach

Blanca Vazquez , Gibran Fuentes-Pineda , Fabian Garcia , Gabriela Borrayo , Juan Prohias

分类：机器学习

2021-01-06

背景：几项研究突出了考虑急性冠状动脉综合征（ACS）诊断和治疗性差异的重要性。然而，几乎已经研究了ACS子群中的性别特异性风险标志物。本研究旨在探索机器学习（ML）模型，以识别从电子健康记录（EHR）的公共数据库中的ACS子群体中的妇女和男性的住院死亡率标志。方法：从医疗信息MART中提取1,299名患有的ST升高的心肌梗死（Stemi）和2,820名非St-Expation心肌梗死患者进行重症监护（MIMIC）-III数据库。我们培训和验证了死亡率预测模型，并使用了可解释性技术来识别每个子群体的性别特异性标记。结果：基于极端梯度升压的模型（XGBoost）实现了最高性能：STEMI和AUC = 0.94（95 \％CI：0.80- 0.90）为nstemi。对于STEMI，女性的顶部标记是慢性肾功能衰竭，心率高，年龄超过70岁。对于男性来说，顶部标记是急性肾功能衰竭，高肌钙蛋白T水平，年龄超过75岁。然而，对于NStemi，女性的顶部标记较低，肌钙蛋白水平低，尿素水平高，80多年。对于男性来说，顶部标记是高心率，肌酐水平，年龄超过70岁。结论：我们的结果表明，通过解释ehrs培训的ML死亡率模型，通过解释ML死亡率模型显示不同ACS子群的可能的显着和相干的性别特异性风险标记。在妇女与男性的确定风险标志中观察到差异，突出了考虑性别特异性标记在实施更适当的治疗策略和更好的临床结果方面的重要性。

translated by 谷歌翻译

Predicting Antimicrobial Resistance in the Intensive Care Unit

Taiyao Wang , Kyle R. Hansen , Joshua Loving , Ioannis Ch. Paschalidis , Helen van Aggelen , Eran Simhon

分类： (统计)机器学习

2021-11-05

抗微生物抗性（AMR）是患者的风险和医疗保健系统的负担。但是，AMR测定通常需要几天。本研究为基于易于使用的临床和微生物预测因子，包括患者人口统计，医院住宿数据，诊断，临床特征以及微生物/抗微生物特征，以及仅使用微生物/抗微生物特征将这些模型与微生物/抗微生物特性进行基于幼稚抗体模型的模型的预测模型。在培养之前准确地预测阻力的能力可以向临床决策提供通知临床决策并缩短行动时间。这里采用的机器学习算法显示出改进的分类性能（接收器操作特性曲线0.88-0.89的区域）与使用飞利浦EICU研究所的6个生物和10个抗生素的接收器操作特征曲线0.86下的接收器下的面积为0.88-0.89）（ERI ）数据库。该方法可以帮助指导抗菌治疗，目的是改善患者结果并减少不必要或无效抗生素的使用。

translated by 谷歌翻译

Time Series Prediction using Deep Learning Methods in Healthcare

Mohammad Amin Morid , Olivia R. Liu Sheng , Joseph Dunbar

分类：机器学习

2021-08-30

传统机器学习方法面临两种主要挑战，在处理医疗保健预测分析任务方面。首先，医疗保健数据的高维性质需要劳动密集型和耗时的过程，为每项新任务选择适当的功能集。其次，这些方法依赖于特征工程来捕获患者数据的顺序性，这可能无法充分利用医疗事件的时间模式及其依赖性。最近的深度学习方法通过解决医疗数据的高维和时间挑战，对各种医疗保健预测任务显示了有希望的性能。这些方法可以学习关键因素（例如，医学概念或患者）的有用表示及其与高维原始或最低处理的医疗保健数据的相互作用。在本文中，我们系统地审查了专注于推进和使用深神经网络的研究，以利用患者结构化时间序列数据进行医疗保健预测任务。为了识别相关研究，搜索MEDLINE，IEEE，SCOPUS和ACM数字图书馆于2021年2月7日出版的研究。我们发现研究人员在十个研究流中为深度时间序列预测文献做出了贡献：深入学习模型，缺少价值处理，不规则处理，患者表示，静态数据包容，关注机制，解释，纳入医疗本体，学习策略和可扩展性。本研究总结了这些文献流的研究见解，确定了几个关键研究差距，并提出了未来的患者时间序列数据深入学习的研究机会。

translated by 谷歌翻译

ToxTree: descriptor-based machine learning models for both hERG and Nav1.5 cardiotoxicity liability predictions

Issar Arab , Khaled Barakat

分类：机器学习

2021-12-27

药物介导的电压门控钾通道（HERG）和电压门控钠通道（NAV1.5）可导致严重的心血管并发症。这种上升的担忧已经反映在药物开发竞技场中，因为许多经批准的药物的常常出现心脏毒性导致他们在某些情况下停止他们的使用，或者在某些情况下，他们从市场上撤回。在药物发现过程的开始时预测潜在的HERG和NAV1.5阻滞剂可以解决这个问题，因此可以降低开发安全药物的时间和昂贵的成本。一种快速且经济高效的方法是在杂草中使用硅预测方法，在药物开发的早期阶段杂草出潜在的Herg和Nav1.5阻滞剂。在这里，我们介绍了两种基于强大的基于2D描述符的基于描述符的QSAR预测模型，用于HERG和NAV1.5责任预测。机器学习模型训练，用于回归，预测药物的效力值，以及三种不同效力截止的多条分类（即1 {\ mu} m，10 {\ mu} m，和30 {\ mu}） M），其中托管 - Herg分类器是随机森林模型的管道，受到8380个独特的分子化合物的大型策级数据集。虽然Toxtree-Nav1.5分类器，凯列化SVM模型的管道，由来自Chembl和Pubchem公开的生物活动数据库的大型手动策划的1550个独特的化合物培训。拟议的HERG诱导者表现优于最先进的发布模型和其他现有工具的大多数指标。此外，我们正在介绍Q4 = 74.9％的第一个NAV1.5责任预测模型，Q2 = 86.7％的二进制分类= 71.2％在173个独特的化合物的外部测试组上进行评估。该项目中使用的策划数据集公开可向研究界提供。

translated by 谷歌翻译

Analyzing the impact of feature selection on the accuracy of heart disease prediction

Muhammad Salman Pathan , Avishek Nag , Muhammad Mohisn Pathan , Soumyabrata Dev

分类：机器学习

2022-06-07

心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中，它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害，准确地诊断为心脏病是一个重要因素。最近，我们看到了非侵入性医学程序的用法，例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术，这些算法和技术被广泛使用，并且在较少的时间以诊断心脏病的准确诊断非常有用。但是，对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加，使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此，这项研究的目的是从高度维数据集中确定最重要的风险因素，这有助于对心脏病的准确分类，并减少并发症。为了进行更广泛的分析，我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明，相关特征对分类精度产生了很大的影响。即使功能减少，与在全功能集中训练的模型相比，分类模型的性能随着训练时间的减少而显着提高。

translated by 谷歌翻译

Predicting the Geoeffectiveness of CMEs Using Machine Learning

Andreea-Clara Pricopi , Alin Razvan Paraschiv , Diana Besliu-Ionescu , Anca-Nicoleta Marginean

分类：机器学习

2022-06-23

冠状质量弹出（CME）是最地理化的空间天气现象，与大型地磁风暴有关，有可能引起电信，卫星网络中断，电网损失和故障的干扰。因此，考虑到这些风暴对人类活动的潜在影响，对CME的地理效果的准确预测至关重要。这项工作着重于在接近太阳CME的白光冠状动脉数据集中训练的不同机器学习方法，以估计这种新爆发的弹出是否有可能诱导地磁活动。我们使用逻辑回归，k-nearest邻居，支持向量机，向前的人工神经网络以及整体模型开发了二进制分类模型。目前，我们限制了我们的预测专门使用太阳能发作参数，以确保延长警告时间。我们讨论了这项任务的主要挑战，即我们数据集中的地理填充和无效事件的数量以及它们的众多相似之处以及可用变量数量有限的极端失衡。我们表明，即使在这种情况下，这些模型也可以达到足够的命中率。

translated by 谷歌翻译

Machine learning based disease diagnosis: A comprehensive review

Md Manjurul Ahsan , Zahed Siddique

分类：机器学习

2021-12-31

在全球范围内，有实质性的未满足需要有效地诊断各种疾病。不同疾病机制的复杂性和患者人群的潜在症状具有巨大挑战，以发展早期诊断工具和有效治疗。机器学习（ML），人工智能（AI）区域，使研究人员，医师和患者能够解决这些问题的一些问题。基于相关研究，本综述解释了如何使用机器学习（ML）和深度学习（DL）来帮助早期识别许多疾病。首先，使用来自Scopus和Science（WOS）数据库的数据来给予所述出版物的生物计量研究。对1216个出版物的生物计量研究进行了确定，以确定最多产的作者，国家，组织和最引用的文章。此次审查总结了基于机器学习的疾病诊断（MLBDD）的最新趋势和方法，考虑到以下因素：算法，疾病类型，数据类型，应用和评估指标。最后，该文件突出了关键结果，并向未来的未来趋势和机遇提供了解。

translated by 谷歌翻译

Machine Learning to Predict the Antimicrobial Activity of Cold Atmospheric Plasma-Activated Liquids

Mehmet Akif Ozdemir , Gizem Dilara Ozdemir , Merve Gul , Onan Guren , Utku Kursat Ercan

分类：机器学习

2022-07-25

血浆定义为物质的第四个状态，在高电场下可以在大气压下产生非热血浆。现在众所周知，血浆激活液体（PAL）的强和广谱抗菌作用。机器学习（ML）在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此，在PALS上的ML应用可以提出一种新的观点，以更好地了解各种参数对其抗菌作用的影响。在本文中，通过使用先前获得的数据来定性预测PAL的体外抗菌活性，从而介绍了比较监督的ML模型。进行了文献搜索，并从33个相关文章中收集了数据。在所需的预处理步骤之后，将两种监督的ML方法（即分类和回归）应用于数据以获得微生物灭活（MI）预测。对于分类，MI分为四类，对于回归，MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略，以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明，高参数优化的随机森林分类器（ORFC）和随机森林回归者（ORFR）分别比其他模型进行了分类和回归的模型更好。最后，获得ORFC的最佳测试精度为82.68％，ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外，此类发现可能有助于将来的血浆剂量定义。

translated by 谷歌翻译

A Comparison Study of Deep CNN Architecture in Detecting of Pneumonia

Al Mohidur Rahman Porag , Md. Mahedi Hasan , Dr. Md Taimur Ahad

分类：计算机视觉 | 机器学习

2022-12-30

Pneumonia, a respiratory infection brought on by bacteria or viruses, affects a large number of people, especially in developing and impoverished countries where high levels of pollution, unclean living conditions, and overcrowding are frequently observed, along with insufficient medical infrastructure. Pleural effusion, a condition in which fluids fill the lung and complicate breathing, is brought on by pneumonia. Early detection of pneumonia is essential for ensuring curative care and boosting survival rates. The approach most usually used to diagnose pneumonia is chest X-ray imaging. The purpose of this work is to develop a method for the automatic diagnosis of bacterial and viral pneumonia in digital x-ray pictures. This article first presents the authors' technique, and then gives a comprehensive report on recent developments in the field of reliable diagnosis of pneumonia. In this study, here tuned a state-of-the-art deep convolutional neural network to classify plant diseases based on images and tested its performance. Deep learning architecture is compared empirically. VGG19, ResNet with 152v2, Resnext101, Seresnet152, Mobilenettv2, and DenseNet with 201 layers are among the architectures tested. Experiment data consists of two groups, sick and healthy X-ray pictures. To take appropriate action against plant diseases as soon as possible, rapid disease identification models are preferred. DenseNet201 has shown no overfitting or performance degradation in our experiments, and its accuracy tends to increase as the number of epochs increases. Further, DenseNet201 achieves state-of-the-art performance with a significantly a smaller number of parameters and within a reasonable computing time. This architecture outperforms the competition in terms of testing accuracy, scoring 95%. Each architecture was trained using Keras, using Theano as the backend.

translated by 谷歌翻译

A Dependable Hybrid Machine Learning Model for Network Intrusion Detection

Md. Alamin Talukder , Khondokar Fida Hasan , Md. Manowarul Islam , Md Ashraf Uddin , Arnisha Akhter , Mohammand Abu Yousuf , Fares Alharbi , Mohammad Ali Moni

分类：机器学习

2022-12-08

Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.

translated by 谷歌翻译

Impact of the composition of feature extraction and class sampling in medicare fraud detection

Akrity Kumari , Narinder Singh Punn , Sanjay Kumar Sonbhadra , Sonali Agarwal

分类：机器学习

2022-06-03

由于医疗保健是关键方面，健康保险已成为最大程度地减少医疗费用的重要计划。此后，由于保险的增加，医疗保健行业的欺诈活动大幅增加，欺诈行业已成为医疗费用上升的重要贡献者，尽管可以使用欺诈检测技术来减轻其影响。为了检测欺诈，使用机器学习技术。美国联邦政府的医疗补助和医疗保险服务中心（CMS）在本研究中使用“医疗保险D部分”保险索赔来开发欺诈检测系统。在类不平衡且高维的Medicare数据集中使用机器学习算法是一项艰巨的任务。为了紧凑此类挑战，目前的工作旨在在数据采样之后执行功能提取，然后应用各种分类算法，以获得更好的性能。特征提取是一种降低降低方法，该方法将属性转换为实际属性的线性或非线性组合，生成较小，更多样化的属性集，从而降低了尺寸。数据采样通常用于通过扩大少数族裔类的频率或降低多数类的频率以获得两种类别的出现数量大约相等的频率来解决类不平衡。通过标准性能指标评估所提出的方法。因此，为了有效地检测欺诈，本研究将自动编码器作为特征提取技术，合成少数族裔过采样技术（SMOTE）作为数据采样技术，以及各种基于决策树的分类器作为分类算法。实验结果表明，自动编码器的结合，然后在LightGBM分类器上获得SMOTE，取得了最佳的结果。

translated by 谷歌翻译

Machine Learning and Ensemble Approach Onto Predicting Heart Disease

Aaditya Surya

分类：机器学习 | 人工智能

2021-11-16

一个躺在胸腔里的心脏的四个基本腔腔对一个人的生存至关重要，但讽刺地证明是最脆弱的。心血管疾病（CVD）也通常被称为心脏病，在过去几十年中，人类在人类死亡原因中稳步发展。考虑到这一点统计，很明显，患有CVDS的患者需要快速且正确的诊断，以便于早期治疗来减少死亡的机会。本文试图利用提供的数据，以培训分类模型，如逻辑回归，k最近邻居，支持向量机，决策树，高斯天真贝叶斯，随机森林和多层感知（人工神经网络），最终使用柔软投票合奏技术，以便尽可能多地诊断。

translated by 谷歌翻译

Examining stability of machine learning methods for predicting dementia at early phases of the disease

Sinan Faouri , Mahmood AlBashayreh , Mohammad Azzeh

分类：机器学习 | 人工智能

2022-09-10

痴呆症是一种神经精神脑障碍，通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明，机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积（NWBV）和地图集缩放系数（ASF）收集的收集数据类型，这些数据通常测量并从磁共振成像（MRIS）中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症，但我们无法就这些方法的稳定性得出结论，而这些方法在不同的实验条件下更准确。因此，本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此，使用7种机器学习算法和两种功能还原算法，即信息增益（IG）和主成分分析（PCA）进行大量实验。为了检查这些算法的稳定性，IG的特征选择阈值从20％更改为100％，PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中，都记录了各种分类评估数据。获得的结果表明，在七种算法中，支持向量机和天真的贝叶斯是最稳定的算法，同时更改选择阈值。同样，发现使用IG似乎比使用PCA预测痴呆症更有效。

translated by 谷歌翻译

Robust machine learning pipelines for trading market-neutral stock portfolios

Thomas Wong , Mauricio Barahona

分类：机器学习

2022-12-30

The application of deep learning algorithms to financial data is difficult due to heavy non-stationarities which can lead to over-fitted models that underperform under regime changes. Using the Numerai tournament data set as a motivating example, we propose a machine learning pipeline for trading market-neutral stock portfolios based on tabular data which is robust under changes in market conditions. We evaluate various machine-learning models, including Gradient Boosting Decision Trees (GBDTs) and Neural Networks with and without simple feature engineering, as the building blocks for the pipeline. We find that GBDT models with dropout display high performance, robustness and generalisability with relatively low complexity and reduced computational cost. We then show that online learning techniques can be used in post-prediction processing to enhance the results. In particular, dynamic feature neutralisation, an efficient procedure that requires no retraining of models and can be applied post-prediction to any machine learning model, improves robustness by reducing drawdown in volatile market conditions. Furthermore, we demonstrate that the creation of model ensembles through dynamic model selection based on recent model performance leads to improved performance over baseline by improving the Sharpe and Calmar ratios. We also evaluate the robustness of our pipeline across different data splits and random seeds with good reproducibility of results.

translated by 谷歌翻译