无放射治疗器官轮廓的深度学习模型是临床用途,但目前,预测轮廓的自动化质量评估(QA)有很多工具。使用贝叶斯模型及其相关的不确定性,可以自动化检测不准确预测的过程。我们使用定量测量 - 预期的校准误差(ECE)和基于定性的测量区域的精确度(R-AVU)图来调查两个贝叶斯模型进行自动轮廓众所周知,模型应该具有低欧洲欧洲经委会被认为是值得信赖的。然而,在QA语境中,模型也应该在不准确的区域中具有高不确定性,并且在准确的区域中的不确定性低。此类行为可以直接对专家用户的视觉关注潜在地不准确的地区,导致QA过程中的加速。使用R-AVU图表,我们定性地比较了不同模型的行为准确和不准确的地区。使用三种型号在Miccai2015头和颈部分割挑战和DeepMindtcia CT数据集上进行实验:丢弃骰子,辍学-CE(交叉熵)和Flipout-Ce。定量结果表明,丢弃骰子具有最高的ECE,而辍学-CE和FLIPOUT-CE具有最低的ECE。为了更好地了解辍学-CE和Flipout-CE之间的差异,我们使用R-AVU图表,显示Flipout-CE在不准确的地区具有比Dropout-Ce更好的不确定性覆盖率。定量和定性度量的这种组合探讨了一种新方法,有助于选择哪种模型可以在临床环境中作为QA工具部署。
translated by 谷歌翻译
自动图像分析中的不确定性定量在许多应用中高度满足。通常,分类或细分中的机器学习模型仅用于提供二进制答案。但是,量化模型的不确定性可能在主动学习或机器人类互动中起关键作用。当使用基于深度学习的模型时,不确定性量化尤其困难,这是许多成像应用中最新的。当前的不确定性量化方法在高维实际问题中不能很好地扩展。可扩展的解决方案通常依赖于具有不同随机种子的相同模型的推理或训练集合过程中的经典技术,以获得后验分布。在本文中,我们表明这些方法无法近似分类概率。相反,我们提出了一个可扩展和直观的框架来校准深度学习模型的合奏,以产生近似分类概率的不确定性定量测量。在看不见的测试数据上,我们证明了与标准方法进行比较时的校准,灵敏度(三种情况中的两种)以及精度。我们进一步激发了我们在积极学习中的方法的用法,创建了伪标签,以从未标记的图像和人机合作中学习。
translated by 谷歌翻译
Objective: Convolutional neural networks (CNNs) have demonstrated promise in automated cardiac magnetic resonance image segmentation. However, when using CNNs in a large real-world dataset, it is important to quantify segmentation uncertainty and identify segmentations which could be problematic. In this work, we performed a systematic study of Bayesian and non-Bayesian methods for estimating uncertainty in segmentation neural networks. Methods: We evaluated Bayes by Backprop, Monte Carlo Dropout, Deep Ensembles, and Stochastic Segmentation Networks in terms of segmentation accuracy, probability calibration, uncertainty on out-of-distribution images, and segmentation quality control. Results: We observed that Deep Ensembles outperformed the other methods except for images with heavy noise and blurring distortions. We showed that Bayes by Backprop is more robust to noise distortions while Stochastic Segmentation Networks are more resistant to blurring distortions. For segmentation quality control, we showed that segmentation uncertainty is correlated with segmentation accuracy for all the methods. With the incorporation of uncertainty estimates, we were able to reduce the percentage of poor segmentation to 5% by flagging 31--48% of the most uncertain segmentations for manual review, substantially lower than random review without using neural network uncertainty (reviewing 75--78% of all images). Conclusion: This work provides a comprehensive evaluation of uncertainty estimation methods and showed that Deep Ensembles outperformed other methods in most cases. Significance: Neural network uncertainty measures can help identify potentially inaccurate segmentations and alert users for manual review.
translated by 谷歌翻译
尽管脑肿瘤分割的准确性最近取得了进步,但结果仍然遭受低可靠性和鲁棒性的影响。不确定性估计是解决此问题的有效解决方案,因为它提供了对分割结果的信心。当前的不确定性估计方法基于分位数回归,贝叶斯神经网络,集合和蒙特卡洛辍学者受其高计算成本和不一致的限制。为了克服这些挑战,在最近的工作中开发了证据深度学习(EDL),但主要用于自然图像分类。在本文中,我们提出了一个基于区域的EDL分割框架,该框架可以生成可靠的不确定性图和可靠的分割结果。我们使用证据理论将神经网络的输出解释为从输入特征收集的证据价值。遵循主观逻辑,将证据作为差异分布进行了参数化,预测的概率被视为主观意见。为了评估我们在分割和不确定性估计的模型的性能,我们在Brats 2020数据集上进行了定量和定性实验。结果证明了所提出的方法在量化分割不确定性和稳健分割肿瘤方面的最高性能。此外,我们提出的新框架保持了低计算成本和易于实施的优势,并显示了临床应用的潜力。
translated by 谷歌翻译
现代深层神经网络在医学图像分割任务中取得了显着进展。然而,最近观察到他们倾向于产生过于自信的估计,即使在高度不确定性的情况下,导致校准差和不可靠的模型。在这项工作中,我们介绍了错误的预测(MEEP)的最大熵,分割网络的培训策略,这些网络选择性地惩罚过度自信预测,仅关注错误分类的像素。特别是,我们设计了一个正规化术语,鼓励出于错误的预测,增加了复杂场景中的网络不确定性。我们的方法对于神经结构不可知,不会提高模型复杂性,并且可以与多分割损耗功能耦合。我们在两个具有挑战性的医学图像分割任务中将拟议的策略基准:脑磁共振图像(MRI)中的白质超强度病变,心脏MRI中的心房分段。实验结果表明,具有标准分割损耗的耦合MEEP不仅可以改善模型校准,而且还导致分割质量。
translated by 谷歌翻译
深度学习(DL)模型为各种医学成像基准挑战提供了最先进的性能,包括脑肿瘤细分(BRATS)挑战。然而,局灶性病理多隔室分割(例如,肿瘤和病变子区)的任务特别具有挑战性,并且潜在的错误阻碍DL模型转化为临床工作流程。量化不确定形式的DL模型预测的可靠性,可以实现最不确定的地区的临床审查,从而建立信任并铺平临床翻译。最近,已经引入了许多不确定性估计方法,用于DL医学图像分割任务。开发指标评估和比较不确定性措施的表现将有助于最终用户制定更明智的决策。在本研究中,我们探索并评估在Brats 2019-2020任务期间开发的公制,以对不确定量化量化(Qu-Brats),并旨在评估和排列脑肿瘤多隔室分割的不确定性估计。该公制(1)奖励不确定性估计,对正确断言产生高置信度,以及在不正确的断言处分配低置信水平的估计数,(2)惩罚导致更高百分比的无关正确断言百分比的不确定性措施。我们进一步基准测试由14个独立参与的Qu-Brats 2020的分割不确定性,所有这些都参与了主要的Brats细分任务。总体而言,我们的研究结果证实了不确定性估计提供了分割算法的重要性和互补价值,因此突出了医学图像分析中不确定性量化的需求。我们的评估代码在HTTPS://github.com/ragmeh11/qu-brats公开提供。
translated by 谷歌翻译
深度学习技术在检测医学图像中的对象方面取得了成功,但仍然遭受虚假阳性预测,可能会阻碍准确的诊断。神经网络输出的估计不确定性已用于标记不正确的预测。我们研究了来自神经网络不确定性估计的功能和基于形状的特征,这些特征是根据二进制预测计算出的,从二进制预测中,通过开发基于分类的后处理步骤来减少肝病病变检测中的假阳性,以用于不同的不确定性估计方法。我们证明了两个数据集上所有不确定性估计方法的神经网络的病变检测性能(相对于F1分数)的改善,分别包括腹部MR和CT图像。我们表明,根据神经网络不确定性估计计算的功能往往不会有助于降低假阳性。我们的结果表明,诸如阶级不平衡(真实假阳性比率)和从不确定性图提取的基于形状的特征之类的因素在区分假阳性和真实阳性预测方面起着重要作用
translated by 谷歌翻译
骰子相似度系数(DSC)是由于其鲁棒性对类不平衡的鲁造性而广泛使用的度量和损耗函数。然而,众所周知,DSC损失差异很差,导致在生物医学和临床实践中不能有效地解释的过度自信预测。性能通常是唯一用于评估深度神经网络产生的分段的指标,并且通常忽略校准。然而,校准对于译成生物医学和临床实践是重要的,为科学家和临床医生的解释提供了重要的语境信息。在这项研究中,我们将校准差,作为基于深度学习的生物医学图像分割的新出现挑战。我们提供了一个简单而有效的DSC丢失延伸,命名为DSC ++丢失,可选择地调制与过于自信,不正确的预测相关的罚款。作为独立损失功能,DSC ++损耗达到了在五个良好验证的开源生物医学成像数据集中对传统DSC损耗的显着提高了校准。同样,当将DSC ++丢失集成到基于四个DSC的损耗函数时,我们观察到显着改善。最后,我们使用SoftMax阈值化来说明校准的输出能够剪裁精度召回偏差,这是一种适应模型预测以适应生物医学或临床任务的重要的后处理技术。 DSC ++损失克服了DSC的主要限制,为训练生物医学和临床实践中使用的深度学习分段模型提供了合适的损耗功能。
translated by 谷歌翻译
深度神经网络已成为3D医学图像自动分割的金标准方法。然而,由于缺乏对所提供的结果评估可理解的不确定性评估,他们被临床医生的全部接受仍然受到阻碍。量化其不确定性的大多数方法,例如流行的蒙特卡洛辍学物,仅限于在体素水平上预测的某种不确定性度量。除了与真正的医学不确定性无关紧要之外,这在临床上并不令人满意,因为大多数感兴趣的对象(例如,脑部病变)是由素食组成的,其整体相关性可能不会简单地减少其个人不确定性的总和或平均值。在这项工作中,我们建议使用创新的图形神经网络方法超越体素评估,并从蒙特卡洛辍学模型的输出中训练。该网络允许融合体素不确定性的三个估计量:熵,方差和模型的置信度;并且可以应用于任何病变,无论其形状或大小如何。我们证明了我们方法对多发性硬化病变的任务的不确定性估计的优势。
translated by 谷歌翻译
机器学习驱动的医学图像分割已成为医学图像分析的标准。然而,深度学习模型易于过度自信预测。这导致了重新关注医学成像和更广泛的机器学习社区中的校准预测。校准预测是标签概率的估计,其对应于置信度的标签的真正预期值。这种校准的预测在一系列医学成像应用中具有效用,包括在不确定性和主动学习系统下的手术规划。同时,它通常是对许多医疗应用的实际重视的准确体积测量。这项工作调查了模型校准和体积估计之间的关系。我们在数学上和经验上展示,如果每个图像校准预测器,我们可以通过期望每像素/图像的体素的概率得分来获得正确的体积。此外,我们表明校准分类器的凸组合保持体积估计,但不保留校准。因此,我们得出结论,具有校准的预测因子是足够但不是必需的来获得体积的无偏估计。我们验证了我们对18种不同(校准的)培训策略的主题验证了我们关于Brats 2018的胶质瘤体积估计的任务的集合,以及Isles 2018数据集的缺血性卒中病变估计。
translated by 谷歌翻译
The clinical interest is often to measure the volume of a structure, which is typically derived from a segmentation. In order to evaluate and compare segmentation methods, the similarity between a segmentation and a predefined ground truth is measured using popular discrete metrics, such as the Dice score. Recent segmentation methods use a differentiable surrogate metric, such as soft Dice, as part of the loss function during the learning phase. In this work, we first briefly describe how to derive volume estimates from a segmentation that is, potentially, inherently uncertain or ambiguous. This is followed by a theoretical analysis and an experimental validation linking the inherent uncertainty to common loss functions for training CNNs, namely cross-entropy and soft Dice. We find that, even though soft Dice optimization leads to an improved performance with respect to the Dice score and other measures, it may introduce a volume bias for tasks with high inherent uncertainty. These findings indicate some of the method's clinical limitations and suggest doing a closer ad-hoc volume analysis with an optional re-calibration step.
translated by 谷歌翻译
在胸部计算机断层扫描(CT)扫描中,自动分割地面玻璃的不透明和固结可以在高资源利用时期减轻放射科医生的负担。但是,由于分布(OOD)数据默默失败,深度学习模型在临床常规中不受信任。我们提出了一种轻巧的OOD检测方法,该方法利用特征空间中的Mahalanobis距离,并无缝集成到最新的分割管道中。简单的方法甚至可以增加具有临床相关的不确定性定量的预训练模型。我们在四个胸部CT分布偏移和两个磁共振成像应用中验证我们的方法,即海马和前列腺的分割。我们的结果表明,所提出的方法在所有探索场景中有效地检测到遥远和近型样品。
translated by 谷歌翻译
在深度学习方法的输出中测量不确定性在几种方面有用,例如协助解释产出,帮助对最终用户建立信心,并改善网络的培训和性能。已经提出了几种不同的方法来估计不确定性,包括分别使用测试时间辍学和增强的认知(与所使用的模型有关)和Aleatoric(与数据有关的模型有关)。这些不确定性源不仅不同,而且还受参数设置(例如,辍学率或类型和增强级别)的约束,它们建立了更加不同的不确定性类别。这项工作调查了不确定性与这些类别的不同之处以及空间模式的不同,以解决它们是否提供在使用不确定性时应捕获的有用信息的问题。我们采取了良好的特征性的挑战数据集,以证明不同类别的不确定性的大小和空间模式都存在实质性差异,并讨论了这些类别在各种用例中的含义。
translated by 谷歌翻译
This paper focuses on the uncertainty estimation of white matter lesions (WML) segmentation in magnetic resonance imaging (MRI). On one side, voxel-scale segmentation errors cause the erroneous delineation of the lesions; on the other side, lesion-scale detection errors lead to wrong lesion counts. Both of these factors are clinically relevant for the assessment of multiple sclerosis patients. This work aims to compare the ability of different voxel- and lesion- scale uncertainty measures to capture errors related to segmentation and lesion detection respectively. Our main contributions are (i) proposing new measures of lesion-scale uncertainty that do not utilise voxel-scale uncertainties; (ii) extending an error retention curves analysis framework for evaluation of lesion-scale uncertainty measures. Our results obtained on the multi-center testing set of 58 patients demonstrate that the proposed lesion-scale measures achieves the best performance among the analysed measures. All code implementations are provided at https://github.com/NataliiaMolch/MS_WML_uncs
translated by 谷歌翻译
贝叶斯神经网络中近似后期的估计不确定性易于进行错误校准,这导致关键任务中的预测过高,这些任务的预测明显不对称或损失明显。在这里,我们通过在深度学习中校准不确定性后的模型上最大化预期效用,扩展了对损失的贝叶斯框架的近似推断,以最大程度地提高预期效用。此外,我们表明,通过损失不确定性告知的决策可以比直接替代方案更大程度地提高诊断性能。我们提出最大的不确定性校准误差(MUCE)作为测量校准置信度的指标,除了其预测外,特别是对于高风险应用程序,其目标是最大程度地减少误差和估计不确定性之间的最坏情况偏差。在实验中,我们通过将Wasserstein距离作为预测的准确性来显示预测误差与估计不确定性之间的相关性。我们评估了我们从X射线图像中检测COVID-19的方法的有效性。实验结果表明,我们的方法大大减少了错误校准,而不会影响模型的准确性并提高基于计算机的诊断的可靠性。
translated by 谷歌翻译
Medical image segmentation (MIS) is essential for supporting disease diagnosis and treatment effect assessment. Despite considerable advances in artificial intelligence (AI) for MIS, clinicians remain skeptical of its utility, maintaining low confidence in such black box systems, with this problem being exacerbated by low generalization for out-of-distribution (OOD) data. To move towards effective clinical utilization, we propose a foundation model named EvidenceCap, which makes the box transparent in a quantifiable way by uncertainty estimation. EvidenceCap not only makes AI visible in regions of uncertainty and OOD data, but also enhances the reliability, robustness, and computational efficiency of MIS. Uncertainty is modeled explicitly through subjective logic theory to gather strong evidence from features. We show the effectiveness of EvidenceCap in three segmentation datasets and apply it to the clinic. Our work sheds light on clinical safe applications and explainable AI, and can contribute towards trustworthiness in the medical domain.
translated by 谷歌翻译
提出了一种基于Dempster-Shafer理论和深度学习的自动证据分割方法,以从三维正电子发射断层扫描(PET)和计算机断层扫描(CT)图像中分割淋巴瘤。该体系结构由深度功能萃取模块和证据层组成。功能提取模块使用编码器框架框架从3D输入中提取语义特征向量。然后,证据层在特征空间中使用原型来计算每个体素的信念函数,以量化有关该位置存在或不存在淋巴瘤的不确定性。基于使用距离的不同方式,比较了两个证据层,以计算质量函数。通过最大程度地减少骰子损失函数,对整个模型进行了训练。表明,深度提取和证据分割的建议组合表现出优于基线UNET模型以及173名患者的数据集中的其他三个最先进的模型。
translated by 谷歌翻译
自动分割方法是医学图像分析的重要进步。特别是机器学习技术和深度神经网络,是最先进的大多数医学图像分割任务。类别不平衡的问题在医疗数据集中构成了重大挑战,病变通常占据相对于背景的相对于较小的体积。深度学习算法培训中使用的损失函数对类别不平衡的鲁棒性不同,具有模型收敛的直接后果。分割最常用的损耗函数基于交叉熵损耗,骰子丢失或两者的组合。我们提出了统一的联络损失,是一种新的分层框架,它概括了骰子和基于跨熵的损失,用于处理类别不平衡。我们评估五个公共可用的损失功能,类不平衡的医学成像数据集:CVC-ClinicDB,船舶提取数字视网膜图像(驱动器),乳房超声波2017(Bus2017),脑肿瘤分割2020(Brats20)和肾肿瘤分割2019 (套件19)。我们将损耗功能性能与六个骰子或基于跨熵的损耗函数进行比较,横跨二进制二进制,3D二进制和3D多包子分段任务,展示我们所提出的损失函数对类不平衡具有强大,并且始终如一地优于其他丢失功能。源代码可用:https://github.com/mlyg/unified-focal-loss
translated by 谷歌翻译
机器学习算法支撑现代诊断辅助软件,这在临床实践中证明了有价值的,特别是放射学。然而,不准确的是,主要是由于临床样本的可用性有限,用于培训这些算法,妨碍他们在临床医生中更广泛的适用性,接受和识别。我们对最先进的自动质量控制(QC)方法进行了分析,可以在这些算法中实现,以估计其输出的确定性。我们验证了识别磁共振成像数据中的白质超收缩性(WMH)的大脑图像分割任务上最有前途的方法。 WMH是在上层前期成年中常见的小血管疾病的关联,并且由于其变化的尺寸和分布模式而尤其具有挑战性。我们的研究结果表明,不确定度和骰子预测的聚集在此任务的故障检测中最有效。两种方法在0.82至0.84的情况下独立改善平均骰子。我们的工作揭示了QC方法如何有助于检测失败的分割案例,从而使自动分割更可靠,适合临床实践。
translated by 谷歌翻译
非常希望知道模型的预测是多么不确定,特别是对于复杂的模型和难以理解的模型,如深度学习。虽然在扩散加权MRI中使用深度学习方法,但事先作品没有解决模型不确定性的问题。在这里,我们提出了一种深入的学习方法来估计扩散张量并计算估计不确定性。数据相关的不确定性由网络直接计算,并通过损耗衰减学习。使用Monte Carlo辍学来计算模型不确定性。我们还提出了一种评估预测不确定性的质量的新方法。我们将新方法与标准最小二乘张量估计和基于引导的不确定性计算技术进行比较。我们的实验表明,当测量数量小时,深度学习方法更准确,并且其不确定性预测比标准方法更好地校准。我们表明,新方法计算的估计不确定性可以突出显示模型的偏置,检测域移位,并反映测量中的噪声强度。我们的研究表明了基于深度学习的扩散MRI分析中建模预测不确定性的重要性和实际价值。
translated by 谷歌翻译