根据研究人员在歧视和校准性能方面采用的标准评估实践,这项工作旨在了解阶级不平衡对胸部X射线分类器的性能的影响。首先,我们进行了一项文献研究,分析了普通科学实践并确认:(1)即使在处理高度不平衡的数据集时,社区也倾向于使用由大多数阶级主导的指标; (2)包括包括胸部X射线分类器的校准研究仍然罕见,尽管其在医疗保健的背景下的重要性。其次,我们对两个主要胸部X射线数据集进行了系统实验,探讨了不同类别比率下的几种性能指标的行为,并显示了广泛采用的指标可以隐藏少数阶级中的性能。最后,我们提出了通过两个替代度量,精密召回曲线和平衡的Brier得分,这更好地反映了系统在这种情况下的性能。我们的研究结果表明,胸部X射线分类器研究界采用的当前评估实践可能无法反映真实临床情景中计算机辅助诊断系统的性能,并建议改善这种情况的替代方案。
translated by 谷歌翻译
在过去的几年中,卷积神经网络(CNN)占据了计算机视野的领域,这要归功于它们提取功能及其在分类问题中出色的表现,例如在自动分析X射线中。不幸的是,这些神经网络被认为是黑盒算法,即不可能了解该算法如何实现最终结果。要将这些算法应用于不同领域并测试方法论的工作原理,我们需要使用可解释的AI技术。医学领域的大多数工作都集中在二进制或多类分类问题上。但是,在许多现实生活中,例如胸部X射线射线,可以同时出现不同疾病的放射学迹象。这引起了所谓的“多标签分类问题”。这些任务的缺点是类不平衡,即不同的标签没有相同数量的样本。本文的主要贡献是一种深度学习方法,用于不平衡的多标签胸部X射线数据集。它为当前未充分利用的Padchest数据集建立了基线,并基于热图建立了可解释的AI技术。该技术还包括概率和模型间匹配。我们系统的结果很有希望,尤其是考虑到使用的标签数量。此外,热图与预期区域相匹配,即它们标志着专家将用来做出决定的区域。
translated by 谷歌翻译
Learning classifiers using skewed or imbalanced datasets can occasionally lead to classification issues; this is a serious issue. In some cases, one class contains the majority of examples while the other, which is frequently the more important class, is nevertheless represented by a smaller proportion of examples. Using this kind of data could make many carefully designed machine-learning systems ineffective. High training fidelity was a term used to describe biases vs. all other instances of the class. The best approach to all possible remedies to this issue is typically to gain from the minority class. The article examines the most widely used methods for addressing the problem of learning with a class imbalance, including data-level, algorithm-level, hybrid, cost-sensitive learning, and deep learning, etc. including their advantages and limitations. The efficiency and performance of the classifier are assessed using a myriad of evaluation metrics.
translated by 谷歌翻译
In this study, we systematically investigate the impact of class imbalance on classification performance of convolutional neural networks (CNNs) and compare frequently used methods to address the issue. Class imbalance is a common problem that has been comprehensively studied in classical machine learning, yet very limited systematic research is available in the context of deep learning. In our study, we use three benchmark datasets of increasing complexity, MNIST, CIFAR-10 and ImageNet, to investigate the effects of imbalance on classification and perform an extensive comparison of several methods to address the issue: oversampling, undersampling, two-phase training, and thresholding that compensates for prior class probabilities. Our main evaluation metric is area under the receiver operating characteristic curve (ROC AUC) adjusted to multi-class tasks since overall accuracy metric is associated with notable difficulties in the context of imbalanced data. Based on results from our experiments we conclude that (i) the effect of class imbalance on classification performance is detrimental; (ii) the method of addressing class imbalance that emerged as dominant in almost all analyzed scenarios was oversampling; (iii) oversampling should be applied to the level that completely eliminates the imbalance, whereas the optimal undersampling ratio depends on the extent of imbalance; (iv) as opposed to some classical machine learning models, oversampling does not cause overfitting of CNNs; (v) thresholding should be applied to compensate for prior class probabilities when overall number of properly classified cases is of interest.
translated by 谷歌翻译
有必要开发负担得起且可靠的诊断工具,该工具允许包含COVID-19的扩散。已经提出了机器学习(ML)算法来设计支持决策系统以评估胸部X射线图像,事实证明,这些图像可用于检测和评估疾病进展。许多研究文章围绕此主题发表,这使得很难确定未来工作的最佳方法。本文介绍了使用胸部X射线图像应用于COVID-19检测的ML的系统综述,旨在就方法,体系结构,数据库和当前局限性为研究人员提供基线。
translated by 谷歌翻译
最近的人工智能(AI)算法已在各种医学分类任务上实现了放射科医生级的性能。但是,只有少数研究涉及CXR扫描异常发现的定位,这对于向放射学家解释图像级分类至关重要。我们在本文中介绍了一个名为Vindr-CXR的可解释的深度学习系统,该系统可以将CXR扫描分类为多种胸部疾病,同时将大多数类型的关键发现本地化在图像上。 Vindr-CXR接受了51,485次CXR扫描的培训,并通过放射科医生提供的边界盒注释进行了培训。它表现出与经验丰富的放射科医生相当的表现,可以在3,000张CXR扫描的回顾性验证集上对6种常见的胸部疾病进行分类,而在接收器操作特征曲线(AUROC)下的平均面积为0.967(95%置信区间[CI]:0.958---------0.958------- 0.975)。 VINDR-CXR在独立患者队列中也得到了外部验证,并显示出其稳健性。对于具有14种类型病变的本地化任务,我们的自由响应接收器操作特征(FROC)分析表明,VINDR-CXR以每扫描确定的1.0假阳性病变的速率达到80.2%的敏感性。还进行了一项前瞻性研究,以衡量VINDR-CXR在协助六名经验丰富的放射科医生方面的临床影响。结果表明,当用作诊断工具时,提出的系统显着改善了放射科医生本身之间的一致性,平均Fleiss的Kappa的同意增加了1.5%。我们还观察到,在放射科医生咨询了Vindr-CXR的建议之后,在平均Cohen的Kappa中,它们和系统之间的一致性显着增加了3.3%。
translated by 谷歌翻译
Large, labeled datasets have driven deep learning methods to achieve expert-level performance on a variety of medical imaging tasks. We present CheXpert, a large dataset that contains 224,316 chest radiographs of 65,240 patients. We design a labeler to automatically detect the presence of 14 observations in radiology reports, capturing uncertainties inherent in radiograph interpretation. We investigate different approaches to using the uncertainty labels for training convolutional neural networks that output the probability of these observations given the available frontal and lateral radiographs. On a validation set of 200 chest radiographic studies which were manually annotated by 3 board-certified radiologists, we find that different uncertainty approaches are useful for different pathologies. We then evaluate our best model on a test set composed of 500 chest radiographic studies annotated by a consensus of 5 board-certified radiologists, and compare the performance of our model to that of 3 additional radiologists in the detection of 5 selected pathologies. On Cardiomegaly, Edema, and Pleural Effusion, the model ROC and PR curves lie above all 3 radiologist operating points. We release the dataset to the public as a standard benchmark to evaluate performance of chest radiograph interpretation models. 1
translated by 谷歌翻译
比较基准数据集的模型性能是人工智能测量和驱动进展的一个组成部分。模型在基准数据集上的性能通常基于单个或一小组性能指标进行评估。虽然这使得能够快速比较,但如果度量标准不充分覆盖所有性能特征,则可能导致模型性能不充分反映模型性能。它在多大程度上可能影响基准努力。为了解决这个问题,我们根据数据涵盖了3867个机器学习模型性能的基于数据,分析了当前的性能指标景观,从而用代码的开放存储库的“论文”。我们的研究结果表明,目前使用的大多数指标都有可能导致模型绩效反映不足的属性。虽然已经提出了解决有问题属性的替代度量,但目前很少使用它们。此外,我们描述了报告的指标中的歧义,这可能导致难以解释和比较模型表演。
translated by 谷歌翻译
由于大多数入院的患者生存,因此感兴趣的医疗事件(例如死亡率)通常以较低的速度发生。具有这种不平衡率(类密度差异)的训练模型可能会导致次优预测。传统上,这个问题是通过临时方法(例如重新采样或重新加权)来解决的,但在许多情况下的性能仍然有限。我们为此不平衡问题提出了一个培训模型的框架:1)我们首先将特征提取和分类过程分离,分别调整每个组件的训练批次,以减轻由类密度差异引起的偏差;2)我们既有密度感知的损失,又是错误分类的可学习成本矩阵。我们证明了模型在现实世界医学数据集(TOPCAT和MIMIC-III)中的改进性能,以显示与域中的基线相比,AUC-ROC,AUC-PRC,BRIER技能得分的改进。
translated by 谷歌翻译
In this era of pandemic, the future of healthcare industry has never been more exciting. Artificial intelligence and machine learning (AI & ML) present opportunities to develop solutions that cater for very specific needs within the industry. Deep learning in healthcare had become incredibly powerful for supporting clinics and in transforming patient care in general. Deep learning is increasingly being applied for the detection of clinically important features in the images beyond what can be perceived by the naked human eye. Chest X-ray images are one of the most common clinical method for diagnosing a number of diseases such as pneumonia, lung cancer and many other abnormalities like lesions and fractures. Proper diagnosis of a disease from X-ray images is often challenging task for even expert radiologists and there is a growing need for computerized support systems due to the large amount of information encoded in X-Ray images. The goal of this paper is to develop a lightweight solution to detect 14 different chest conditions from an X ray image. Given an X-ray image as input, our classifier outputs a label vector indicating which of 14 disease classes does the image fall into. Along with the image features, we are also going to use non-image features available in the data such as X-ray view type, age, gender etc. The original study conducted Stanford ML Group is our base line. Original study focuses on predicting 5 diseases. Our aim is to improve upon previous work, expand prediction to 14 diseases and provide insight for future chest radiography research.
translated by 谷歌翻译
Pneumonia, a respiratory infection brought on by bacteria or viruses, affects a large number of people, especially in developing and impoverished countries where high levels of pollution, unclean living conditions, and overcrowding are frequently observed, along with insufficient medical infrastructure. Pleural effusion, a condition in which fluids fill the lung and complicate breathing, is brought on by pneumonia. Early detection of pneumonia is essential for ensuring curative care and boosting survival rates. The approach most usually used to diagnose pneumonia is chest X-ray imaging. The purpose of this work is to develop a method for the automatic diagnosis of bacterial and viral pneumonia in digital x-ray pictures. This article first presents the authors' technique, and then gives a comprehensive report on recent developments in the field of reliable diagnosis of pneumonia. In this study, here tuned a state-of-the-art deep convolutional neural network to classify plant diseases based on images and tested its performance. Deep learning architecture is compared empirically. VGG19, ResNet with 152v2, Resnext101, Seresnet152, Mobilenettv2, and DenseNet with 201 layers are among the architectures tested. Experiment data consists of two groups, sick and healthy X-ray pictures. To take appropriate action against plant diseases as soon as possible, rapid disease identification models are preferred. DenseNet201 has shown no overfitting or performance degradation in our experiments, and its accuracy tends to increase as the number of epochs increases. Further, DenseNet201 achieves state-of-the-art performance with a significantly a smaller number of parameters and within a reasonable computing time. This architecture outperforms the competition in terms of testing accuracy, scoring 95%. Each architecture was trained using Keras, using Theano as the backend.
translated by 谷歌翻译
深度学习(DL)在数字病理应用中表现出很大的潜力。诊断DL的解决方案的鲁棒性对于安全的临床部署至关重要。在这项工作中,我们通过增加数字病理学中的DL预测的不确定性估计,可以通过提高一般预测性能或通过检测错误预测性来导致临床应用的价值增加。我们将模型 - 集成方法(MC辍学和深度集成)的有效性与模型 - 不可知方法(测试时间增强,TTA)进行比较。此外,比较了四个不确定性度量。我们的实验专注于两个域改变情景:转移到不同的医疗中心和癌症的不足亚型。我们的结果表明,不确定性估计可以增加一些可靠性并降低对分类阈值选择的敏感性。虽然高级指标和深度集合在我们的比较中表现最佳,但更简单的度量和TTA的附加值很小。重要的是,所有评估的不确定度估计方法的益处通过域移位减少。
translated by 谷歌翻译
2019年12月,一个名为Covid-19的新型病毒导致了迄今为止的巨大因果关系。与新的冠状病毒的战斗在西班牙语流感后令人振奋和恐怖。虽然前线医生和医学研究人员在控制高度典型病毒的传播方面取得了重大进展,但技术也证明了在战斗中的重要性。此外,许多医疗应用中已采用人工智能,以诊断许多疾病,甚至陷入困境的经验丰富的医生。因此,本调查纸探讨了提议的方法,可以提前援助医生和研究人员,廉价的疾病诊断方法。大多数发展中国家难以使用传统方式进行测试,但机器和深度学习可以采用显着的方式。另一方面,对不同类型的医学图像的访问已经激励了研究人员。结果,提出了一种庞大的技术数量。本文首先详细调了人工智能域中传统方法的背景知识。在此之后,我们会收集常用的数据集及其用例日期。此外,我们还显示了采用深入学习的机器学习的研究人员的百分比。因此,我们对这种情况进行了彻底的分析。最后,在研究挑战中,我们详细阐述了Covid-19研究中面临的问题,我们解决了我们的理解,以建立一个明亮健康的环境。
translated by 谷歌翻译
在全球范围内,有实质性的未满足需要有效地诊断各种疾病。不同疾病机制的复杂性和患者人群的潜在症状具有巨大挑战,以发展早期诊断工具和有效治疗。机器学习(ML),人工智能(AI)区域,使研究人员,医师和患者能够解决这些问题的一些问题。基于相关研究,本综述解释了如何使用机器学习(ML)和深度学习(DL)来帮助早期识别许多疾病。首先,使用来自Scopus和Science(WOS)数据库的数据来给予所述出版物的生物计量研究。对1216个出版物的生物计量研究进行了确定,以确定最多产的作者,国家,组织和最引用的文章。此次审查总结了基于机器学习的疾病诊断(MLBDD)的最新趋势和方法,考虑到以下因素:算法,疾病类型,数据类型,应用和评估指标。最后,该文件突出了关键结果,并向未来的未来趋势和机遇提供了解。
translated by 谷歌翻译
快速准确地检测该疾病可以大大帮助减少任何国家医疗机构对任何大流行期间死亡率降低死亡率的压力。这项工作的目的是使用新型的机器学习框架创建多模式系统,该框架同时使用胸部X射线(CXR)图像和临床数据来预测COVID-19患者的严重程度。此外,该研究还提出了一种基于nom图的评分技术,用于预测高危患者死亡的可能性。这项研究使用了25种生物标志物和CXR图像,以预测意大利第一波Covid-19(3月至6月2020年3月至6月)在930名Covid-19患者中的风险。提出的多模式堆叠技术分别产生了89.03%,90.44%和89.03%的精度,灵敏度和F1分数,以识别低风险或高危患者。与CXR图像或临床数据相比,这种多模式方法可提高准确性6%。最后,使用多元逻辑回归的列线图评分系统 - 用于对第一阶段确定的高风险患者的死亡风险进行分层。使用随机森林特征选择模型将乳酸脱氢酶(LDH),O2百分比,白细胞(WBC)计数,年龄和C反应蛋白(CRP)鉴定为有用的预测指标。开发了五个预测因素参数和基于CXR图像的列函数评分,以量化死亡的概率并将其分为两个风险组:分别存活(<50%)和死亡(> = 50%)。多模式技术能够预测F1评分为92.88%的高危患者的死亡概率。开发和验证队列曲线下的面积分别为0.981和0.939。
translated by 谷歌翻译
我们评估了深度神经网络(DNN)的泛化能力,培训培训,以使用相对较小的混合数据集将胸部X射线分类为Covid-19,正常或肺炎。我们提出了DNN进行肺分段和分类,堆叠分割模块(U-NET),原始中间模块和分类模块(DenSenet201)。为了评估泛化,我们将DNN与外部数据集(来自不同的地方)测试,并使用贝叶斯推理来估计性能度量的概率分布。我们的DNN在外部测试数据集上实现了0.917 AUC,以及没有分割的DENSENET,0.906。贝叶斯推理表示平均准确性为76.1%和[0.695,0.826] 95%HDI(高密度间隔,浓缩95%的公制概率质量),分段,没有分段,71.7%和[0.646,0.786]。我们提出了一种新型DNN评估技术,使用层性相关性传播(LRP)和Brixia得分。 LRP Heatmaps表示放射科医生发现强烈的Covid-19症状和归属高Brixia评分的区域是堆叠DNN分类最重要的。外部验证表现出比内部更小的精度,表明概括在泛化中,分割改善了。外部数据集和LRP分析中的性能表明DNN可以在小型和混合数据集中培训并检测Covid-19。
translated by 谷歌翻译
一个经过深入研究的问题是,将机器学习算法提供的置信度得分校准为地面真实概率。我们的起点是,校准似乎与班级的加权不相容,这是一种经常使用的技术,当时一个类别不那么普遍(阶级失衡)或希望实现一些外部目标(成本敏感的学习)。我们为这种不兼容提供了基于模型的解释,并使用我们的拟人化模型来生成一种从算法中恢复似然的简单方法,该算法因类权重而被误解。我们在Rajpurkar,Irvin,Zhu等的二元肺炎检测任务中验证了这种方法。(2017)。
translated by 谷歌翻译
目的:尽管机器学习模型有潜力,但缺乏普遍性阻碍了他们在临床实践中的广泛采用。我们研究了三个方法论陷阱:(1)违反独立性假设,(2)具有不适当的性能指标或基线进行比较的模型评估,以及(3)批次效应。材料和方法:使用几个回顾性数据集,我们在有或没有陷阱的情况下实现机器学习模型,以定量说明这些陷阱对模型通用性的影响。结果:更具体地说,违反独立假设,在将数据分别分为火车,验证和测试集中,在预测局部恢复和预测局部恢复和表面上,将数据分别划分为火车,验证和测试集,在将数据分别分为火车,验证和测试集中,在F1分别误导和表面上获得误解和表面收益,从而违反独立假设。预测头颈癌的3年总生存期以及46.0%的总体生存率为5.0%,从而区分肺癌的组织病理学模式。此外,在培训,验证和测试集中为受试者分发数据点导致F1分数的表面增长21.8%。此外,我们展示了绩效指标选择和基线的重要性。在存在批处理效应的情况下,为肺炎检测而建立的模型导致F1得分为98.7%。但是,当将同一模型应用于正常患者的新数据集时,仅正确地将3.86%的样品分类。结论:这些方法上的陷阱无法使用内部模型评估来捕获,这种模型的不准确预测可能会导致错误的结论和解释。因此,对于开发可推广的模型是必要的,理解和避免这些陷阱是必要的。
translated by 谷歌翻译
尽管自动图像分析的重要性不断增加,但最近的元研究揭示了有关算法验证的主要缺陷。性能指标对于使用的自动算法的有意义,客观和透明的性能评估和验证尤其是关键,但是在使用特定的指标进行给定的图像分析任务时,对实际陷阱的关注相对较少。这些通常与(1)无视固有的度量属性,例如在存在类不平衡或小目标结构的情况下的行为,(2)无视固有的数据集属性,例如测试的非独立性案例和(3)无视指标应反映的实际生物医学领域的兴趣。该动态文档的目的是说明图像分析领域通常应用的性能指标的重要局限性。在这种情况下,它重点介绍了可以用作图像级分类,语义分割,实例分割或对象检测任务的生物医学图像分析问题。当前版本是基于由全球60多家机构的国际图像分析专家进行的关于指标的Delphi流程。
translated by 谷歌翻译
控制传染病是一个主要的健康优先事项,因为它们可以传播和感染人类,从而演变为流行病或流行病。因此,早期发现传染病是一种重要需求,许多研究人员已经开发出在早期诊断它们的模型。本文审查了用于传染病诊断的最新机器学习(ML)算法的研究文章。我们从2015年至2022年搜索了科学,ScienceDirect,PubMed,Springer和IEEE数据库,确定了审查的ML模型的优缺点,并讨论了推进该领域研究的可能建议。我们发现大多数文章都使用了小型数据集,其中很少有实时数据。我们的结果表明,合适的ML技术取决于数据集的性质和所需的目标。
translated by 谷歌翻译