骰子相似度系数(DSC)是由于其鲁棒性对类不平衡的鲁造性而广泛使用的度量和损耗函数。然而,众所周知,DSC损失差异很差,导致在生物医学和临床实践中不能有效地解释的过度自信预测。性能通常是唯一用于评估深度神经网络产生的分段的指标,并且通常忽略校准。然而,校准对于译成生物医学和临床实践是重要的,为科学家和临床医生的解释提供了重要的语境信息。在这项研究中,我们将校准差,作为基于深度学习的生物医学图像分割的新出现挑战。我们提供了一个简单而有效的DSC丢失延伸,命名为DSC ++丢失,可选择地调制与过于自信,不正确的预测相关的罚款。作为独立损失功能,DSC ++损耗达到了在五个良好验证的开源生物医学成像数据集中对传统DSC损耗的显着提高了校准。同样,当将DSC ++丢失集成到基于四个DSC的损耗函数时,我们观察到显着改善。最后,我们使用SoftMax阈值化来说明校准的输出能够剪裁精度召回偏差,这是一种适应模型预测以适应生物医学或临床任务的重要的后处理技术。 DSC ++损失克服了DSC的主要限制,为训练生物医学和临床实践中使用的深度学习分段模型提供了合适的损耗功能。
translated by 谷歌翻译
自动分割方法是医学图像分析的重要进步。特别是机器学习技术和深度神经网络,是最先进的大多数医学图像分割任务。类别不平衡的问题在医疗数据集中构成了重大挑战,病变通常占据相对于背景的相对于较小的体积。深度学习算法培训中使用的损失函数对类别不平衡的鲁棒性不同,具有模型收敛的直接后果。分割最常用的损耗函数基于交叉熵损耗,骰子丢失或两者的组合。我们提出了统一的联络损失,是一种新的分层框架,它概括了骰子和基于跨熵的损失,用于处理类别不平衡。我们评估五个公共可用的损失功能,类不平衡的医学成像数据集:CVC-ClinicDB,船舶提取数字视网膜图像(驱动器),乳房超声波2017(Bus2017),脑肿瘤分割2020(Brats20)和肾肿瘤分割2019 (套件19)。我们将损耗功能性能与六个骰子或基于跨熵的损耗函数进行比较,横跨二进制二进制,3D二进制和3D多包子分段任务,展示我们所提出的损失函数对类不平衡具有强大,并且始终如一地优于其他丢失功能。源代码可用:https://github.com/mlyg/unified-focal-loss
translated by 谷歌翻译
近年来,将注意力纳入生物医学图像分割的深度学习架构,越来越兴趣。关注机制的模块化设计使得能够灵活地集成到卷积神经网络架构中,例如U-Net。无论是适当的应用,还有什么类型的注意力,以及在网络中包含注意力模块的位置,都是目前被忽视的重要考虑因素。在本文中,我们调查了焦点参数在调制关注中的作用,揭示了损失功能和网络中的注意力之间的联系。通过结合焦距罚款术语,我们将统一的焦点损失框架扩展到包括基于边界的损失。此外,我们开发一个简单和可解释的数据集和特定于模型的启发式,将焦点参数集成到挤压和激励块和注意门中,以三种验证的生物医学成像数据集上的较少数量的注意模块实现最佳性能,建议明智地使用注意力模块导致更好的性能和效率。
translated by 谷歌翻译
现代深层神经网络在医学图像分割任务中取得了显着进展。然而,最近观察到他们倾向于产生过于自信的估计,即使在高度不确定性的情况下,导致校准差和不可靠的模型。在这项工作中,我们介绍了错误的预测(MEEP)的最大熵,分割网络的培训策略,这些网络选择性地惩罚过度自信预测,仅关注错误分类的像素。特别是,我们设计了一个正规化术语,鼓励出于错误的预测,增加了复杂场景中的网络不确定性。我们的方法对于神经结构不可知,不会提高模型复杂性,并且可以与多分割损耗功能耦合。我们在两个具有挑战性的医学图像分割任务中将拟议的策略基准:脑磁共振图像(MRI)中的白质超强度病变,心脏MRI中的心房分段。实验结果表明,具有标准分割损耗的耦合MEEP不仅可以改善模型校准,而且还导致分割质量。
translated by 谷歌翻译
手动分割用作评估自动图像分割任务的神经网络的金标准。由于形状,颜色和纹理中相当大的异质性,在生物医学图像中划分物体边界特别困难,导致显着的间隙和帧内变异性。诸如软标签和距离惩罚期的方法,将全球转换应用于地面真理,重新定义了不确定性的损失功能。然而,全局操作是计算昂贵的,并且既不准确地反映出不确定性底层手动注释。在本文中,我们提出了边界不确定性,其使用形态学操作将软标签限制到对象边界,在地面真理标签中提供了不确定性的适当表示,并且可以适用于能够实现系统的强大模型训练,其中存在系统的手动分段错误。我们将边界不确定性纳入骰子损失,与软标签和距离加权罚款相比,在三种验证良好的生物医学成像数据集中实现了一致的性能。边界不确定性不仅可以更准确地反映分割过程,而且对分段错误也有效,并且具有更好的概括。
translated by 谷歌翻译
深度学习技术在检测医学图像中的对象方面取得了成功,但仍然遭受虚假阳性预测,可能会阻碍准确的诊断。神经网络输出的估计不确定性已用于标记不正确的预测。我们研究了来自神经网络不确定性估计的功能和基于形状的特征,这些特征是根据二进制预测计算出的,从二进制预测中,通过开发基于分类的后处理步骤来减少肝病病变检测中的假阳性,以用于不同的不确定性估计方法。我们证明了两个数据集上所有不确定性估计方法的神经网络的病变检测性能(相对于F1分数)的改善,分别包括腹部MR和CT图像。我们表明,根据神经网络不确定性估计计算的功能往往不会有助于降低假阳性。我们的结果表明,诸如阶级不平衡(真实假阳性比率)和从不确定性图提取的基于形状的特征之类的因素在区分假阳性和真实阳性预测方面起着重要作用
translated by 谷歌翻译
深度学习(DL)模型为各种医学成像基准挑战提供了最先进的性能,包括脑肿瘤细分(BRATS)挑战。然而,局灶性病理多隔室分割(例如,肿瘤和病变子区)的任务特别具有挑战性,并且潜在的错误阻碍DL模型转化为临床工作流程。量化不确定形式的DL模型预测的可靠性,可以实现最不确定的地区的临床审查,从而建立信任并铺平临床翻译。最近,已经引入了许多不确定性估计方法,用于DL医学图像分割任务。开发指标评估和比较不确定性措施的表现将有助于最终用户制定更明智的决策。在本研究中,我们探索并评估在Brats 2019-2020任务期间开发的公制,以对不确定量化量化(Qu-Brats),并旨在评估和排列脑肿瘤多隔室分割的不确定性估计。该公制(1)奖励不确定性估计,对正确断言产生高置信度,以及在不正确的断言处分配低置信水平的估计数,(2)惩罚导致更高百分比的无关正确断言百分比的不确定性措施。我们进一步基准测试由14个独立参与的Qu-Brats 2020的分割不确定性,所有这些都参与了主要的Brats细分任务。总体而言,我们的研究结果证实了不确定性估计提供了分割算法的重要性和互补价值,因此突出了医学图像分析中不确定性量化的需求。我们的评估代码在HTTPS://github.com/ragmeh11/qu-brats公开提供。
translated by 谷歌翻译
我们研究不同损失功能对医学图像病变细分的影响。尽管在处理自然图像时,跨凝结(CE)损失是最受欢迎的选择,但对于生物医学图像分割,由于其处理不平衡的情况,软骰子损失通常是首选的。另一方面,这两个功能的组合也已成功地应用于此类任务中。一个较少研究的问题是在存在分布(OOD)数据的情况下所有这些损失的概括能力。这是指在测试时间出现的样本,这些样本是从与训练图像不同的分布中得出的。在我们的情况下,我们将模型训练在始终包含病变的图像上,但是在测试时间我们也有无病变样品。我们通过全面的实验对内窥镜图像和糖尿病脚图像的溃疡分割进行了全面的实验,分析了不同损失函数对分布性能的最小化对分布性能的影响。我们的发现令人惊讶:在处理OOD数据时,CE-DICE损失组合在分割分配图像中表现出色,这使我们建议通过这种问题采用CE损失,因为它的稳健性和能够概括为OOD样品。可以在\ url {https://github.com/agaldran/lesion_losses_ood}找到与我们实验相关的代码。
translated by 谷歌翻译
Objective: Convolutional neural networks (CNNs) have demonstrated promise in automated cardiac magnetic resonance image segmentation. However, when using CNNs in a large real-world dataset, it is important to quantify segmentation uncertainty and identify segmentations which could be problematic. In this work, we performed a systematic study of Bayesian and non-Bayesian methods for estimating uncertainty in segmentation neural networks. Methods: We evaluated Bayes by Backprop, Monte Carlo Dropout, Deep Ensembles, and Stochastic Segmentation Networks in terms of segmentation accuracy, probability calibration, uncertainty on out-of-distribution images, and segmentation quality control. Results: We observed that Deep Ensembles outperformed the other methods except for images with heavy noise and blurring distortions. We showed that Bayes by Backprop is more robust to noise distortions while Stochastic Segmentation Networks are more resistant to blurring distortions. For segmentation quality control, we showed that segmentation uncertainty is correlated with segmentation accuracy for all the methods. With the incorporation of uncertainty estimates, we were able to reduce the percentage of poor segmentation to 5% by flagging 31--48% of the most uncertain segmentations for manual review, substantially lower than random review without using neural network uncertainty (reviewing 75--78% of all images). Conclusion: This work provides a comprehensive evaluation of uncertainty estimation methods and showed that Deep Ensembles outperformed other methods in most cases. Significance: Neural network uncertainty measures can help identify potentially inaccurate segmentations and alert users for manual review.
translated by 谷歌翻译
语义分割包括通过将其分配给从一组所有可用的标签来分类图像的每个像素。在过去的几年里,很多关注转移到这种任务。许多计算机视觉研究人员试图应用AutoEncoder结构来开发可以学习图像语义的模型以及它的低级表示。在给定输入的AutoEncoder架构中,编码器计算的输入的低维表示,然后解码器用于重建原始数据。在这项工作中,我们提出了一个卷积神经网络(CNNS)的集合。在集合方法中,许多不同的型号训练,然后用于分类,整体汇总了单个分类器的输出。该方法利用各种分类器的差异来提高整个系统的性能。通过使用不同的丢失函数强制执行单个分类器中的多样性。特别是,我们提出了一种新的损失函数,从骰子和结构相似度指数的组合产生。通过使用Deeplabv3 +和Hardnet环境结合不同的骨干网络来实现所提出的合奏。该提案是通过关于两个真实情景的广泛实证评估来评估:息肉和皮肤细分。所有代码都在HTTPS://github.com/lorisnanni在线提供。
translated by 谷歌翻译
Semantic segmentation is a high level computer vision task that assigns a label for each pixel of an image. It is challengeful to deal with extremely-imbalanced data in which the ratio of target ixels to background pixels is lower than 1:1000. Such severe input imbalance leads to output imbalance for poor model training. This paper considers three issues for extremely-imbalanced data: inspired by the region based loss, an implicit measure for the output imbalance is proposed, and an adaptive algorithm is designed for guiding the output imbalance hyperparameter selection; then it is generalized to distribution based loss for dealing with output imbalance; and finally a compound loss with our adaptive hyperparameter selection alogorithm can keep the consistency of training and inference for harmonizing the output imbalance. With four popular deep architectures on our private dataset with three input imbalance scales and three public datasets, extensive experiments demonstrate the ompetitive/promising performance of the proposed method.
translated by 谷歌翻译
自动图像分析中的不确定性定量在许多应用中高度满足。通常,分类或细分中的机器学习模型仅用于提供二进制答案。但是,量化模型的不确定性可能在主动学习或机器人类互动中起关键作用。当使用基于深度学习的模型时,不确定性量化尤其困难,这是许多成像应用中最新的。当前的不确定性量化方法在高维实际问题中不能很好地扩展。可扩展的解决方案通常依赖于具有不同随机种子的相同模型的推理或训练集合过程中的经典技术,以获得后验分布。在本文中,我们表明这些方法无法近似分类概率。相反,我们提出了一个可扩展和直观的框架来校准深度学习模型的合奏,以产生近似分类概率的不确定性定量测量。在看不见的测试数据上,我们证明了与标准方法进行比较时的校准,灵敏度(三种情况中的两种)以及精度。我们进一步激发了我们在积极学习中的方法的用法,创建了伪标签,以从未标记的图像和人机合作中学习。
translated by 谷歌翻译
提出了一个深度学习模型,以便在未来60分钟的五分钟时间分辨率下以闪电的形式出现。该模型基于反复横向的结构,该结构使其能够识别并预测对流的时空发展,包括雷暴细胞的运动,生长和衰变。预测是在固定网格上执行的,而无需使用风暴对象检测和跟踪。从瑞士和周围的区域收集的输入数据包括地面雷达数据,可见/红外卫星数据以及衍生的云产品,闪电检测,数值天气预测和数字高程模型数据。我们分析了不同的替代损失功能,班级加权策略和模型特征,为将来的研究提供了指南,以最佳地选择损失功能,并正确校准其模型的概率预测。基于这些分析,我们在这项研究中使用焦点损失,但得出结论,它仅在交叉熵方面提供了较小的好处,如果模型的重新校准不实用,这是一个可行的选择。该模型在60分钟的现有周期内实现了0.45的像素临界成功指数(CSI)为0.45,以预测8 km的闪电发生,范围从5分钟的CSI到5分钟的提前时间到CSI到CSI的0.32在A处。收货时间60分钟。
translated by 谷歌翻译
Jaccard索引,也称为交叉联盟(iou),是图像语义分段中最关键的评估度量之一。然而,由于学习目的既不可分解也不是可分解的,则iou得分的直接优化是非常困难的。虽然已经提出了一些算法来优化其代理,但没有提供泛化能力的保证。在本文中,我们提出了一种边缘校准方法,可以直接用作学习目标,在数据分布上改善IOO的推广,通过刚性下限为基础。本方案理论上,根据IOU分数来确保更好的分割性能。我们评估了在七个图像数据集中所提出的边缘校准方法的有效性,显示使用深度分割模型的其他学习目标的IOU分数大量改进。
translated by 谷歌翻译
提出了一种基于Dempster-Shafer理论和深度学习的自动证据分割方法,以从三维正电子发射断层扫描(PET)和计算机断层扫描(CT)图像中分割淋巴瘤。该体系结构由深度功能萃取模块和证据层组成。功能提取模块使用编码器框架框架从3D输入中提取语义特征向量。然后,证据层在特征空间中使用原型来计算每个体素的信念函数,以量化有关该位置存在或不存在淋巴瘤的不确定性。基于使用距离的不同方式,比较了两个证据层,以计算质量函数。通过最大程度地减少骰子损失函数,对整个模型进行了训练。表明,深度提取和证据分割的建议组合表现出优于基线UNET模型以及173名患者的数据集中的其他三个最先进的模型。
translated by 谷歌翻译
深度学习算法的最新进展为解决许多医学图像分析问题带来了重大好处。培训深度学习模型通常需要具有专家标记注释的大型数据集。但是,获取专家标记的注释不仅昂贵,而且主观,容易出错,并且观察者内部变异性会引入标签。由于解剖学的模棱两可,使用深度学习模型来细分医学图像时,这尤其是一个问题。基于图像的医学诊断工具使用经过不正确分段标签训练的深度学习模型可以导致错误的诊断和治疗建议。与单评论注释相比,多评价者注释可能更适合于使用小型培训集的深度学习模型进行训练。本文的目的是开发和评估一种基于MRI中病变特征的多评价者注释和解剖学知识来生成概率标签的方法,以及一种使用概率的标签使用归一化活动性损失作为A的病变特征的解剖学知识,以训练分割模型”。耐噪声损失的功能。通过将17个膝盖MRI扫描的二进制基础真理进行比较,以评估该模型,以用于临床分割和检测骨髓病变(BML)。该方法与二进制跨透镜损失函数相比,该方法成功提高了精度14,召回22和骰子得分8%。总体而言,这项工作的结果表明,使用软标签的拟议归一化主动损失成功地减轻了嘈杂标签的影响。
translated by 谷歌翻译
医学图像通常表现出多种异常。预测它们需要多级分类器,其培训和期望的可靠性性能可能受到因素的组合而影响,例如数据集大小,数据源,分布以及用于训练深度神经网络的损耗功能。目前,跨熵损失仍然是培训深层学习分类器的脱磁场损失功能。然而,这种损失函数断言所有课程的平等学习,导致大多数类的偏见。在这项工作中,我们基准测试适用于多级分类,重点分析模型性能的各种最先进的损失功能,并提出改善的损失功能。我们选择一个小儿胸部X射线(CXR)数据集,其包括没有异常(正常)的图像,以及表现出与细菌和病毒性肺炎一致的表现形式的图像。我们分别构建预测级别和模型级集合,以提高分类性能。我们的结果表明,与个别模型和最先进的文献相比,前3名和前5个模型级集合的预测的加权平均在术语中提供了显着优越的分类性能(P <0.05) MCC(0.9068,95%置信区间(0.8839,0.9297))指标。最后,我们进行了本地化研究,以解释模型行为,以便可视化和确认个人模型和集合学习有意义的特征和突出显示的疾病表现。
translated by 谷歌翻译
无放射治疗器官轮廓的深度学习模型是临床用途,但目前,预测轮廓的自动化质量评估(QA)有很多工具。使用贝叶斯模型及其相关的不确定性,可以自动化检测不准确预测的过程。我们使用定量测量 - 预期的校准误差(ECE)和基于定性的测量区域的精确度(R-AVU)图来调查两个贝叶斯模型进行自动轮廓众所周知,模型应该具有低欧洲欧洲经委会被认为是值得信赖的。然而,在QA语境中,模型也应该在不准确的区域中具有高不确定性,并且在准确的区域中的不确定性低。此类行为可以直接对专家用户的视觉关注潜在地不准确的地区,导致QA过程中的加速。使用R-AVU图表,我们定性地比较了不同模型的行为准确和不准确的地区。使用三种型号在Miccai2015头和颈部分割挑战和DeepMindtcia CT数据集上进行实验:丢弃骰子,辍学-CE(交叉熵)和Flipout-Ce。定量结果表明,丢弃骰子具有最高的ECE,而辍学-CE和FLIPOUT-CE具有最低的ECE。为了更好地了解辍学-CE和Flipout-CE之间的差异,我们使用R-AVU图表,显示Flipout-CE在不准确的地区具有比Dropout-Ce更好的不确定性覆盖率。定量和定性度量的这种组合探讨了一种新方法,有助于选择哪种模型可以在临床环境中作为QA工具部署。
translated by 谷歌翻译
尽管脑肿瘤分割的准确性最近取得了进步,但结果仍然遭受低可靠性和鲁棒性的影响。不确定性估计是解决此问题的有效解决方案,因为它提供了对分割结果的信心。当前的不确定性估计方法基于分位数回归,贝叶斯神经网络,集合和蒙特卡洛辍学者受其高计算成本和不一致的限制。为了克服这些挑战,在最近的工作中开发了证据深度学习(EDL),但主要用于自然图像分类。在本文中,我们提出了一个基于区域的EDL分割框架,该框架可以生成可靠的不确定性图和可靠的分割结果。我们使用证据理论将神经网络的输出解释为从输入特征收集的证据价值。遵循主观逻辑,将证据作为差异分布进行了参数化,预测的概率被视为主观意见。为了评估我们在分割和不确定性估计的模型的性能,我们在Brats 2020数据集上进行了定量和定性实验。结果证明了所提出的方法在量化分割不确定性和稳健分割肿瘤方面的最高性能。此外,我们提出的新框架保持了低计算成本和易于实施的优势,并显示了临床应用的潜力。
translated by 谷歌翻译
Medical image segmentation (MIS) is essential for supporting disease diagnosis and treatment effect assessment. Despite considerable advances in artificial intelligence (AI) for MIS, clinicians remain skeptical of its utility, maintaining low confidence in such black box systems, with this problem being exacerbated by low generalization for out-of-distribution (OOD) data. To move towards effective clinical utilization, we propose a foundation model named EvidenceCap, which makes the box transparent in a quantifiable way by uncertainty estimation. EvidenceCap not only makes AI visible in regions of uncertainty and OOD data, but also enhances the reliability, robustness, and computational efficiency of MIS. Uncertainty is modeled explicitly through subjective logic theory to gather strong evidence from features. We show the effectiveness of EvidenceCap in three segmentation datasets and apply it to the clinic. Our work sheds light on clinical safe applications and explainable AI, and can contribute towards trustworthiness in the medical domain.
translated by 谷歌翻译