智能论文笔记

Predicting Antimicrobial Resistance in the Intensive Care Unit

Taiyao Wang , Kyle R. Hansen , Joshua Loving , Ioannis Ch. Paschalidis , Helen van Aggelen , Eran Simhon

分类： (统计)机器学习

2021-11-05

抗微生物抗性（AMR）是患者的风险和医疗保健系统的负担。但是，AMR测定通常需要几天。本研究为基于易于使用的临床和微生物预测因子，包括患者人口统计，医院住宿数据，诊断，临床特征以及微生物/抗微生物特征，以及仅使用微生物/抗微生物特征将这些模型与微生物/抗微生物特性进行基于幼稚抗体模型的模型的预测模型。在培养之前准确地预测阻力的能力可以向临床决策提供通知临床决策并缩短行动时间。这里采用的机器学习算法显示出改进的分类性能（接收器操作特性曲线0.88-0.89的区域）与使用飞利浦EICU研究所的6个生物和10个抗生素的接收器操作特征曲线0.86下的接收器下的面积为0.88-0.89）（ERI ）数据库。该方法可以帮助指导抗菌治疗，目的是改善患者结果并减少不必要或无效抗生素的使用。

translated by 谷歌翻译

A Literature Review on Length of Stay Prediction for Stroke Patients using Machine Learning and Statistical Approaches

Ola Alkhatib , Ayman Alahmar

分类：机器学习 | 人工智能

2021-12-30

医院住宿时间（LOS）是最重要的医疗保健度量之一，反映了医院的服务质量，有助于改善医院调度和管理。LOS预测有助于成本管理，因为留在医院的患者通常在资源受到严重限制的情况下这样做。在这项研究中，我们通过机器学习和统计方法审查了LOS预测的论文。我们的文献综述考虑了对卒中患者LOS预测的研究研究。一些受访的研究表明，作者达成了相应的结论。例如，患者的年龄被认为是一些研究中卒中患者LOS的重要预测因子，而其他研究则认为年龄不是一个重要因素。因此，在该领域需要额外的研究以进一步了解卒中患者LOS的预测因子。

translated by 谷歌翻译

Prediction of Oral Food Challenges via Machine Learning

Justin Zhang , Deborah Lee , Kylie Jungles , Diane Shaltis , Kayvan Najarian , Rajan Ravikumar , Georgiana Sanders , Jonathan Gryak

分类：机器学习

2022-08-17

口服食物挑战（OFC）对于准确诊断患者的食物过敏至关重要。但是，患者不愿接受OFC，对于那些这样做的患者，在农村/社区医疗保健环境中，对过敏症患者的使用率有限。通过机器学习方法对OFC结果的预测可以促进在家中食品过敏原的删除，在OFC中改善患者和医师的舒适度，并通过最大程度地减少执行的OFC的数量来节省医疗资源。临床数据是从共同接受1,284个OFC的1,12例患者那里收集的，包括临床因素，包括血清特异性IgE，总IgE，皮肤刺测试（SPTS），症状，性别和年龄。使用这些临床特征，构建了机器学习模型，以预测花生，鸡蛋和牛奶挑战的结果。每种过敏原的最佳性能模型是使用凹入和凸内核（LUCCK）方法创建的，该方法在曲线（AUC）（AUC）下分别用于花生，鸡蛋和牛奶OFC预测为0.76、0.68和0.70，。通过Shapley添加说明（SHAP）的模型解释表明，特定的IgE以及SPTS的Wheal和Flare值高度预测了OFC结果。该分析的结果表明，机器学习有可能预测OFC结果，并揭示了相关的临床因素进行进一步研究。

translated by 谷歌翻译

MedML: Fusing Medical Knowledge and Machine Learning Models for Early Pediatric COVID-19 Hospitalization and Severity Prediction

Junyi Gao , Chaoqi Yang , George Heintz , Scott Barrows , Elise Albers , Mary Stapel , Sara Warfield , Adam Cross , Jimeng Sun , the N3C consortium

分类：机器学习

2022-07-25

COVID-19的大流行造成了毁灭性的经济和社会破坏，使全球医疗机构的资源紧张。这导致全国范围内呼吁模型预测Covid-19患者的住院和严重疾病，以告知有限医疗资源的分配。我们回应针对儿科人群的其中一种。为了应对这一挑战，我们使用电子健康记录研究了针对儿科人群的两项预测任务：1）预测哪些儿童更有可能住院，而2）在住院儿童中，哪些孩子更有可能出现严重的症状。我们通过新颖的机器学习模型MEDML应对国家儿科Covid-19数据挑战。 MEDML根据超过600万个医学概念的医学知识和倾向得分提取了最预测的特征，并通过图神经网络（GNN）结合了异质医学特征之间的功能间关系。我们使用来自国家队列协作（N3C）数据集的数据评估了143,605名患者的MEDML，并在143,605名患者的住院预测任务中评估了严重性预测任务的11,465名患者。我们还报告了详细的小组级和个人级特征的重要性分析，以评估模型的解释性。与最佳的基线机器学习模型相比，MEDML的AUROC得分高达7％，AUPRC得分高达14％，并且自大流行以来的所有九个国家地理区域以及所有三个月的跨度都表现良好。我们的跨学科研究团队开发了一种将临床领域知识纳入新型机器学习模型的框架的方法，该框架比当前最新的数据驱动的功能选择方法更具预测性和可解释。

translated by 谷歌翻译

Analyzing the impact of feature selection on the accuracy of heart disease prediction

Muhammad Salman Pathan , Avishek Nag , Muhammad Mohisn Pathan , Soumyabrata Dev

分类：机器学习

2022-06-07

心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中，它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害，准确地诊断为心脏病是一个重要因素。最近，我们看到了非侵入性医学程序的用法，例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术，这些算法和技术被广泛使用，并且在较少的时间以诊断心脏病的准确诊断非常有用。但是，对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加，使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此，这项研究的目的是从高度维数据集中确定最重要的风险因素，这有助于对心脏病的准确分类，并减少并发症。为了进行更广泛的分析，我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明，相关特征对分类精度产生了很大的影响。即使功能减少，与在全功能集中训练的模型相比，分类模型的性能随着训练时间的减少而显着提高。

translated by 谷歌翻译

A Study of Left Before Treatment Complete Emergency Department Patients: An Optimized Explanatory Machine Learning Framework

Abdulaziz Ahmed , Khalid Y. Aram , Salih Tutun

分类：人工智能

2022-12-22

The issue of left before treatment complete (LBTC) patients is common in emergency departments (EDs). This issue represents a medico-legal risk and may cause a revenue loss. Thus, understanding the factors that cause patients to leave before treatment is complete is vital to mitigate and potentially eliminate these adverse effects. This paper proposes a framework for studying the factors that affect LBTC outcomes in EDs. The framework integrates machine learning, metaheuristic optimization, and model interpretation techniques. Metaheuristic optimization is used for hyperparameter optimization--one of the main challenges of machine learning model development. Three metaheuristic optimization algorithms are employed for optimizing the parameters of extreme gradient boosting (XGB), which are simulated annealing (SA), adaptive simulated annealing (ASA), and adaptive tabu simulated annealing (ATSA). The optimized XGB models are used to predict the LBTC outcomes for the patients under treatment in ED. The designed algorithms are trained and tested using four data groups resulting from the feature selection phase. The model with the best predictive performance is interpreted using SHaply Additive exPlanations (SHAP) method. The findings show that ATSA-XGB outperformed other mode configurations with an accuracy, area under the curve (AUC), sensitivity, specificity, and F1-score of 86.61%, 87.50%, 85.71%, 87.51%, and 86.60%, respectively. The degree and the direction of effects of each feature were determined and explained using the SHAP method.

translated by 谷歌翻译

Benchmarking Predictive Risk Models for Emergency Departments with Large Public Electronic Health Records

Feng Xie , Jun Zhou , Jin Wee Lee , Mingrui Tan , Siqi Li , Logasan S/O Rajnthern , Marcel Lucas Chee , Bibhas Chakraborty , An-Kwok Ian Wong , Alon Dagan

分类：机器学习

2021-11-22

对世界各地的急诊部门（ED）服务的需求不断增长，特别是在Covid-19大流行下。风险三环在优先考虑最需要它们的患者的有限医疗资源方面发挥着至关重要的作用。最近，普遍使用电子健康记录（EHR）已经产生了大量的存储数据，伴随着开发可改善紧急护理的预测模型的巨大机会。然而，没有基于大型公共EHR的广泛接受的ED基准，这是新的研究人员可以轻松访问的基准。填补这种差距的成功可以使研究人员更快，方便地开始研究，而无需详细数据预处理，并促进不同研究和方法之间的比较。在本文中，基于医疗信息MART为重症监护IV急诊部门（MIMIC-IV-ED）数据库，我们提出了一款公共ED基准套件，并获得了从2011年到2019年的50万ED访问的基准数据集。三个ed已经介绍了基于预测任务（住院，关键结果和72小时ED Revisit），其中实施了各种流行的方法，从机器学习方法到临床评分系统进行了实施。他们的性能结果评估并进行了比较。我们的代码是开源，因此任何具有访问模仿-IV-ED的人都可以遵循相同的数据处理步骤，构建基准，并重现实验。本研究提供了洞察力，建议，以及未来研究人员的协议，以处理原始数据并快速建立紧急护理模型。

translated by 谷歌翻译

Advances in Prediction of Readmission Rates Using Long Term Short Term Memory Networks on Healthcare Insurance Data

Shuja Khalid , Francisco Matos , Ayman Abunimer , Joel Bartlett , Richard Duszak , Michal Horny , Judy Gichoya , Imon Banerjee , Hari Trivedi

分类：机器学习 | 人工智能

2022-06-30

30天的医院再入院是一个长期存在的医疗问题，会影响患者的发病率和死亡率，每年造成数十亿美元的损失。最近，已经创建了机器学习模型来预测特定疾病患者的住院再入院风险，但是不存在任何模型来预测所有患者的风险。我们开发了一个双向长期记忆（LSTM）网络，该网络能够使用随时可用的保险数据（住院访问，门诊就诊和药物处方）来预测任何入院患者的30天重新入选，无论其原因如何。使用历史，住院和入院后数据时，表现最佳模型的ROC AUC为0.763（0.011）。 LSTM模型显着优于基线随机森林分类器，表明了解事件的顺序对于模型预测很重要。与仅住院数据相比，与住院数据相比，将30天的历史数据纳入也显着改善了模型性能，这表明患者入院前的临床病史，包括门诊就诊和药房数据是重新入院的重要贡献者。我们的结果表明，机器学习模型能够使用结构化保险计费数据以合理的准确性来预测住院再入院的风险。由于可以从网站中提取计费数据或同等代理人，因此可以部署此类模型以识别有入院风险的患者，或者分配更多可靠的随访（更近的后续后续，家庭健康，邮寄药物） - 出院后风险患者。

translated by 谷歌翻译

Predicting the Travel Distance of Patients to Access Healthcare using Deep Neural Networks

Li-Chin Chen , Ji-Tian Sheu , Yuh-Jue Chuang , Yu Tsao

分类：机器学习

2021-12-07

目的：提高地理访问仍然是确定卫生政策设计中区域医疗资源充足的关键问题。然而，患者的选择可以是各种因素的复杂交互的结果。本研究的目的是提出深度神经网络方法来模拟患者选择在旅行距离中的复杂决定，以获取护理，这是分配资源的决策制定的重要指标。方法：我们使用了台湾的4年全国保险数据，并积累了早期文献中讨论的可能特征。本研究提出使用卷积神经网络（CNN）基于框架来进行预测。模型性能对其他机器学习方法进行了测试。使用集成梯度（IG）进一步解释了所提出的框架来分析特征权重。结果：我们成功地证明了使用基于CNN的框架来预测患者的旅行距离的有效性，实现0.968，AUC的精度，0.969，敏感性为0.960，比0.989的特异性。基于CNN的框架优于所有其他方法。在这项研究中，IG重量可能是可解释的;然而，这种关系与公共卫生中的已知指标不相似，类似于普通共识。结论：我们的结果表明了基于深度学习的旅行距离预测模型的可行性。它有可能在资源分配中指导政策制定。

translated by 谷歌翻译

Joint Application of the Target Trial Causal Framework and Machine Learning Modeling to Optimize Antibiotic Therapy: Use Case on Acute Bacterial Skin and Skin Structure Infections due to Methicillin-resistant Staphylococcus aureus

Inyoung Jun , Simone Marini , Christina A. Boucher , J. Glenn Morris , Jiang Bian , Mattia Prosperi

分类： (统计)机器学习 | 机器学习

2022-07-15

细菌感染负责全球高死亡率。感染潜在的抗菌素耐药性，多方面的患者的临床状况会阻碍正确选择抗生素治疗。随机临床试验提供了平均治疗效果估计值，但对于治疗选择的风险分层和优化，即个性化治疗效果（ITE）并不理想。在这里，我们利用了从美国南部学术诊所收集的大规模电子健康记录数据，模仿临床试验，即“目标试验”，并为诊断患有急性细菌的患者开发了死亡率预测和ITE估计的机器学习模型皮肤和皮肤结构感染（ABSSI）是由于金黄色葡萄球菌（MRSA）引起的。 ABSSI-MRSA是一个充满挑战的疾病，治疗选择减少 - 万古霉素是首选的选择，但它具有不可忽略的副作用。首先，我们使用倾向评分匹配来模仿试验并创建随机治疗（万古霉素与其他抗生素）数据集。接下来，我们使用此数据来训练各种机器学习方法（包括增强/Lasso Logistic回归，支持向量机和随机森林），并通过引导验证选择接收器特征（AUC）下的面积最佳模型。最后，我们使用这些模型来计算ITE并通过改变治疗的变化来避免死亡。排出外测试表明，SVM和RF是最准确的，AUC分别为81％和78％，但BLR/Lasso不远（76％）。通过使用BLR/Lasso计算反事实，万古霉素增加了死亡的风险，但显示出很大的变化（优势比1.2，95％范围0.4-3.8），对结果概率的贡献是适度的。取而代之的是，RF在ITE中表现出更大的变化，表明更复杂的治疗异质性。

translated by 谷歌翻译

Predicting Treatment Adherence of Tuberculosis Patients at Scale

Mihir Kulkarni , Satvik Golechha , Rishi Raj , Jithin Sreedharan , Ankit Bhardwaj , Santanu Rathod , Bhavin Vadera , Jayakrishna Kurada , Sanjay Mattoo , Rajendra Joshi

分类：机器学习 | 人工智能

2022-11-05

Tuberculosis (TB), an infectious bacterial disease, is a significant cause of death, especially in low-income countries, with an estimated ten million new cases reported globally in $2020$. While TB is treatable, non-adherence to the medication regimen is a significant cause of morbidity and mortality. Thus, proactively identifying patients at risk of dropping off their medication regimen enables corrective measures to mitigate adverse outcomes. Using a proxy measure of extreme non-adherence and a dataset of nearly $700,000$ patients from four states in India, we formulate and solve the machine learning (ML) problem of early prediction of non-adherence based on a custom rank-based metric. We train ML models and evaluate against baselines, achieving a $\sim 100\%$ lift over rule-based baselines and $\sim 214\%$ over a random classifier, taking into account country-wide large-scale future deployment. We deal with various issues in the process, including data quality, high-cardinality categorical data, low target prevalence, distribution shift, variation across cohorts, algorithmic fairness, and the need for robustness and explainability. Our findings indicate that risk stratification of non-adherent patients is a viable, deployable-at-scale ML solution.

translated by 谷歌翻译

Examining stability of machine learning methods for predicting dementia at early phases of the disease

Sinan Faouri , Mahmood AlBashayreh , Mohammad Azzeh

分类：机器学习 | 人工智能

2022-09-10

痴呆症是一种神经精神脑障碍，通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明，机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积（NWBV）和地图集缩放系数（ASF）收集的收集数据类型，这些数据通常测量并从磁共振成像（MRIS）中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症，但我们无法就这些方法的稳定性得出结论，而这些方法在不同的实验条件下更准确。因此，本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此，使用7种机器学习算法和两种功能还原算法，即信息增益（IG）和主成分分析（PCA）进行大量实验。为了检查这些算法的稳定性，IG的特征选择阈值从20％更改为100％，PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中，都记录了各种分类评估数据。获得的结果表明，在七种算法中，支持向量机和天真的贝叶斯是最稳定的算法，同时更改选择阈值。同样，发现使用IG似乎比使用PCA预测痴呆症更有效。

translated by 谷歌翻译

Integrating Machine Learning with Discrete Event Simulation for Improving Health Referral Processing in a Care Management Setting

Mohammed Mahyoub

分类：机器学习

2022-06-25

入院后护理管理协调患者的转诊，以改善从医院出院，尤其是老年人和长期患者。在护理管理环境中，健康转诊是由托管护理组织（MCO）的专业部门处理的，该部门与许多其他实体进行互动，包括住院医院，保险公司和入院后护理提供者。在本文中，提出了一个机器学习引导的离散事件仿真框架，以改善健康推荐处理。开发了基于随机福雷林的预测模型来预测LOS和推荐类型。构建了两个仿真模型，以代表转介处理系统和智能系统的AS配置，分别合并了预测功能。通过将推荐处理系统的预测模块合并以计划和优先级推荐，在减少平均转介创建延迟时间方面增强了整体性能。这项研究将强调放电后护理管理在改善健康质量和降低相关成本方面的作用。此外，本文演示了如何使用集成系统工程方法来改进复杂的医疗系统的过程。

translated by 谷歌翻译

Time Series Prediction using Deep Learning Methods in Healthcare

Mohammad Amin Morid , Olivia R. Liu Sheng , Joseph Dunbar

分类：机器学习

2021-08-30

传统机器学习方法面临两种主要挑战，在处理医疗保健预测分析任务方面。首先，医疗保健数据的高维性质需要劳动密集型和耗时的过程，为每项新任务选择适当的功能集。其次，这些方法依赖于特征工程来捕获患者数据的顺序性，这可能无法充分利用医疗事件的时间模式及其依赖性。最近的深度学习方法通过解决医疗数据的高维和时间挑战，对各种医疗保健预测任务显示了有希望的性能。这些方法可以学习关键因素（例如，医学概念或患者）的有用表示及其与高维原始或最低处理的医疗保健数据的相互作用。在本文中，我们系统地审查了专注于推进和使用深神经网络的研究，以利用患者结构化时间序列数据进行医疗保健预测任务。为了识别相关研究，搜索MEDLINE，IEEE，SCOPUS和ACM数字图书馆于2021年2月7日出版的研究。我们发现研究人员在十个研究流中为深度时间序列预测文献做出了贡献：深入学习模型，缺少价值处理，不规则处理，患者表示，静态数据包容，关注机制，解释，纳入医疗本体，学习策略和可扩展性。本研究总结了这些文献流的研究见解，确定了几个关键研究差距，并提出了未来的患者时间序列数据深入学习的研究机会。

translated by 谷歌翻译

BIO-CXRNET: A Robust Multimodal Stacking Machine Learning Technique for Mortality Risk Prediction of COVID-19 Patients using Chest X-Ray Images and Clinical Data

Tawsifur Rahman , Muhammad E. H. Chowdhury , Amith Khandakar , Zaid Bin Mahbub , Md Sakib Abrar Hossain , Abraham Alhatou , Eynas Abdalla , Sreekumar Muthiyal , Khandaker Farzana Islam , Saad Bin Abul Kashem

分类：计算机视觉 | 机器学习

2022-06-15

快速准确地检测该疾病可以大大帮助减少任何国家医疗机构对任何大流行期间死亡率降低死亡率的压力。这项工作的目的是使用新型的机器学习框架创建多模式系统，该框架同时使用胸部X射线（CXR）图像和临床数据来预测COVID-19患者的严重程度。此外，该研究还提出了一种基于nom图的评分技术，用于预测高危患者死亡的可能性。这项研究使用了25种生物标志物和CXR图像，以预测意大利第一波Covid-19（3月至6月2020年3月至6月）在930名Covid-19患者中的风险。提出的多模式堆叠技术分别产生了89.03％，90.44％和89.03％的精度，灵敏度和F1分数，以识别低风险或高危患者。与CXR图像或临床数据相比，这种多模式方法可提高准确性6％。最后，使用多元逻辑回归的列线图评分系统 - 用于对第一阶段确定的高风险患者的死亡风险进行分层。使用随机森林特征选择模型将乳酸脱氢酶（LDH），O2百分比，白细胞（WBC）计数，年龄和C反应蛋白（CRP）鉴定为有用的预测指标。开发了五个预测因素参数和基于CXR图像的列函数评分，以量化死亡的概率并将其分为两个风险组：分别存活（<50％）和死亡（> = 50％）。多模式技术能够预测F1评分为92.88％的高危患者的死亡概率。开发和验证队列曲线下的面积分别为0.981和0.939。

translated by 谷歌翻译

Risk markers by sex for in-hospital mortality in patients with acute coronary syndrome: a machine learning approach

Blanca Vazquez , Gibran Fuentes-Pineda , Fabian Garcia , Gabriela Borrayo , Juan Prohias

分类：机器学习

2021-01-06

背景：几项研究突出了考虑急性冠状动脉综合征（ACS）诊断和治疗性差异的重要性。然而，几乎已经研究了ACS子群中的性别特异性风险标志物。本研究旨在探索机器学习（ML）模型，以识别从电子健康记录（EHR）的公共数据库中的ACS子群体中的妇女和男性的住院死亡率标志。方法：从医疗信息MART中提取1,299名患有的ST升高的心肌梗死（Stemi）和2,820名非St-Expation心肌梗死患者进行重症监护（MIMIC）-III数据库。我们培训和验证了死亡率预测模型，并使用了可解释性技术来识别每个子群体的性别特异性标记。结果：基于极端梯度升压的模型（XGBoost）实现了最高性能：STEMI和AUC = 0.94（95 \％CI：0.80- 0.90）为nstemi。对于STEMI，女性的顶部标记是慢性肾功能衰竭，心率高，年龄超过70岁。对于男性来说，顶部标记是急性肾功能衰竭，高肌钙蛋白T水平，年龄超过75岁。然而，对于NStemi，女性的顶部标记较低，肌钙蛋白水平低，尿素水平高，80多年。对于男性来说，顶部标记是高心率，肌酐水平，年龄超过70岁。结论：我们的结果表明，通过解释ehrs培训的ML死亡率模型，通过解释ML死亡率模型显示不同ACS子群的可能的显着和相干的性别特异性风险标记。在妇女与男性的确定风险标志中观察到差异，突出了考虑性别特异性标记在实施更适当的治疗策略和更好的临床结果方面的重要性。

translated by 谷歌翻译

A novel interpretable machine learning system to generate clinical risk scores: An application for predicting early mortality or unplanned readmission in a retrospective cohort study

Yilin Ning , Siqi Li , Marcus Eng Hock Ong , Feng Xie , Bibhas Chakraborty , Daniel Shu Wei Ting , Nan Liu

分类：机器学习

2022-01-10

风险评分广泛用于临床决策，通常由逻辑回归模型产生。基于机器学习的方法可以很好地识别重要的预测因子，但这种“黑匣子”变量选择限制解释性，并且从单个模型评估的可变重要性可以偏置。我们提出了一种强大而可解释的可解释的可解释选择方法，使用最近开发的福利可变重要性云（福利维奇）占模型的可变性。我们的方法评估和可视化了深入推理和透明变量选择的总变量贡献，并过滤出非重要贡献者来简化模型构建步骤。我们从可变贡献中获得了一个集合变量排名，这很容易与自动化和模块化的风险分数发生器，自动摩托，以方便的实现。在对早期死亡或意外再入住的研究中，福糖选定了6个候选变量中的6个，以创建一个良好的性能，从机器学习的排名到一个16变量模型具有类似的性能。

translated by 谷歌翻译

In Pursuit of Interpretable, Fair and Accurate Machine Learning for Criminal Recidivism Prediction

Caroline Wang , Bin Han , Bhrij Patel , Cynthia Rudin

分类： (统计)机器学习 | 机器学习

2020-05-08

目的：我们研究使用机器学习（ML）模型的可解释的累入预测，并在预测能力，稀疏性和公平性方面分析性能。与以前的作品不同，本研究列举了输出概率而不是二进制预测的可解释模型，并使用定量公平定义来评估模型。本研究还研究了模型是否可以横跨地理位置概括。方法：我们在佛罗里达州和肯塔基州的两个不同的刑事核查数据集上生成了黑盒和可解释的ML模型。我们将这些模型的预测性能和公平与目前用于司法系统中使用的两种方法进行了比较，以预测审前常规率：Arnold PSA和Compas。我们评估了所有模型的预测性能，可以在两次跨越两次预测六种不同类型犯罪的模型。结果：几种可解释的ML模型可以预测常规和黑盒ML模型，比Compas或Arnold PSA更准确。这些模型在实践中可能有用。类似于Arnold PSA，这些可解释模型中的一些可以作为一个简单的表格写入。其他可以使用一组可视化显示。我们的地理分析表明ML模型应分开培训，以便单独的位置并随时间更新。我们还为可解释模型提供了公平分析。结论：可解释的机器学习模型可以在预测准确性和公平性方面表现，也可以表现，也可以表现，也可以执行不可解释的方法和目前使用的风险评估尺度。机器学习模型对于单独培训，可以更准确地进行不同的位置，并保持最新。

translated by 谷歌翻译

Machine learning for dynamically predicting the onset of renal replacement therapy in chronic kidney disease patients using claims data

Daniel Lopez-Martinez , Christina Chen , Ming-Jun Chen

分类：机器学习 | 人工智能

2022-09-03

慢性肾脏疾病（CKD）代表一种缓慢进行的疾病，最终可能需要肾脏替代疗法（RRT），包括透析或肾移植。例如，对需要RRT的患者（提前1年）的早期鉴定可以改善患者的预后，例如，通过允许更高质量的透析血管通道。因此，护理团队对RRT的需求的早期认识是成功管理该疾病的关键。不幸的是，目前没有常用的RRT启动预测工具。在这项工作中，我们提出了一种机器学习模型，该模型可以动态地识别有可能需要RRT的CKD患者，最多只使用索赔数据。为了评估该模型，我们研究了大约300万Medicare受益人，我们做出了超过800万个预测。我们表明该模型可以识别出超过90％敏感性和特异性的风险患者。尽管在准备临床使用之前需要进行其他工作，但本研究为筛查工具提供了一个基础，以在时间窗口内识别有风险的患者，以实现旨在改善RRT结果的早期主动干预措施。

translated by 谷歌翻译

Predicting Cancer Using Supervised Machine Learning: Mesothelioma

Avishek Choudhury

分类：机器学习 | 人工智能

2021-10-31

背景：胸膜间皮瘤（PM）是一种不寻常的交叉肿瘤，迅速发展肺部胸膜癌症。胸腔间皮瘤是一种常见的间皮瘤，占每年在美国每年诊断的患儿诊断的75％的75％。诊断间皮瘤的诊断需要几个月，价格昂贵。鉴于与PM诊断相关的风险和限制，早期识别这种疾病对于患者健康至关重要。目的：在这项研究中，我们使用人工智能算法推荐最适合MPM的早期诊断和预后的最佳拟合模型。方法：我们回顾性地检索了DICE University，土耳其和应用多层射击（MLP），投票的感知者（vp），克罗尼分类器（CC），内核逻辑回归（KLR），随机梯度体面的SGD），自适应提升（Adaboost），Hoeffding树（VFDT）和支持向量机（S-PEGASOS）的原始估计子梯度求解器。我们根据各自的分类精度，F法测量，精度，召回，均方根误差，接收器特征曲线（ROC）和精密召回，使用与0.05的比较和测试使用配对T检验（校正）进行比较和测试。曲线（中国）。结果：在第1阶段，SGD，Adaboost。 M1，KLR，MLP，VFDT采用最高性能措施产生最佳效果。在第2阶段，Adaboost，分类精度为71.29％，表现优于所有其他算法。发现C-反应蛋白，血小板计数，症状持续时间，性别和胸膜蛋白是最相关的预测因子，可以预测间皮瘤。结论：本研究证实，从活检和想象测试中获得的数据是间皮瘤的强预测因子，但与高成本相关;然而，它们可以以最佳的准确性识别间皮瘤。

translated by 谷歌翻译