深度神经网络已成为3D医学图像自动分割的金标准方法。然而,由于缺乏对所提供的结果评估可理解的不确定性评估,他们被临床医生的全部接受仍然受到阻碍。量化其不确定性的大多数方法,例如流行的蒙特卡洛辍学物,仅限于在体素水平上预测的某种不确定性度量。除了与真正的医学不确定性无关紧要之外,这在临床上并不令人满意,因为大多数感兴趣的对象(例如,脑部病变)是由素食组成的,其整体相关性可能不会简单地减少其个人不确定性的总和或平均值。在这项工作中,我们建议使用创新的图形神经网络方法超越体素评估,并从蒙特卡洛辍学模型的输出中训练。该网络允许融合体素不确定性的三个估计量:熵,方差和模型的置信度;并且可以应用于任何病变,无论其形状或大小如何。我们证明了我们方法对多发性硬化病变的任务的不确定性估计的优势。
translated by 谷歌翻译
This paper focuses on the uncertainty estimation of white matter lesions (WML) segmentation in magnetic resonance imaging (MRI). On one side, voxel-scale segmentation errors cause the erroneous delineation of the lesions; on the other side, lesion-scale detection errors lead to wrong lesion counts. Both of these factors are clinically relevant for the assessment of multiple sclerosis patients. This work aims to compare the ability of different voxel- and lesion- scale uncertainty measures to capture errors related to segmentation and lesion detection respectively. Our main contributions are (i) proposing new measures of lesion-scale uncertainty that do not utilise voxel-scale uncertainties; (ii) extending an error retention curves analysis framework for evaluation of lesion-scale uncertainty measures. Our results obtained on the multi-center testing set of 58 patients demonstrate that the proposed lesion-scale measures achieves the best performance among the analysed measures. All code implementations are provided at https://github.com/NataliiaMolch/MS_WML_uncs
translated by 谷歌翻译
深度学习技术在检测医学图像中的对象方面取得了成功,但仍然遭受虚假阳性预测,可能会阻碍准确的诊断。神经网络输出的估计不确定性已用于标记不正确的预测。我们研究了来自神经网络不确定性估计的功能和基于形状的特征,这些特征是根据二进制预测计算出的,从二进制预测中,通过开发基于分类的后处理步骤来减少肝病病变检测中的假阳性,以用于不同的不确定性估计方法。我们证明了两个数据集上所有不确定性估计方法的神经网络的病变检测性能(相对于F1分数)的改善,分别包括腹部MR和CT图像。我们表明,根据神经网络不确定性估计计算的功能往往不会有助于降低假阳性。我们的结果表明,诸如阶级不平衡(真实假阳性比率)和从不确定性图提取的基于形状的特征之类的因素在区分假阳性和真实阳性预测方面起着重要作用
translated by 谷歌翻译
机器学习算法支撑现代诊断辅助软件,这在临床实践中证明了有价值的,特别是放射学。然而,不准确的是,主要是由于临床样本的可用性有限,用于培训这些算法,妨碍他们在临床医生中更广泛的适用性,接受和识别。我们对最先进的自动质量控制(QC)方法进行了分析,可以在这些算法中实现,以估计其输出的确定性。我们验证了识别磁共振成像数据中的白质超收缩性(WMH)的大脑图像分割任务上最有前途的方法。 WMH是在上层前期成年中常见的小血管疾病的关联,并且由于其变化的尺寸和分布模式而尤其具有挑战性。我们的研究结果表明,不确定度和骰子预测的聚集在此任务的故障检测中最有效。两种方法在0.82至0.84的情况下独立改善平均骰子。我们的工作揭示了QC方法如何有助于检测失败的分割案例,从而使自动分割更可靠,适合临床实践。
translated by 谷歌翻译
简介白质超强度(WMHS)的自动分割是磁共振成像(MRI)神经影像分析的重要步骤。流体减弱的反转恢复(FLAIR加权)是MRI对比度,对于可视化和量化WMHS,这是脑小血管疾病和阿尔茨海默氏病(AD)特别有用的。临床MRI方案迁移到三维(3D)FLAIR加权的采集,以在所有三个体素维度中实现高空间分辨率。当前的研究详细介绍了深度学习工具的部署,以使自动化的WMH分割和表征从获得的3D Flair加权图像作为国家广告成像计划的一部分获得。 DDI研究中的642名参与者(283名男性,平均年龄:(65.18 +/- 9.33)年)中的材料和方法,在五个国家收集地点进行了培训和验证两个内部网络。在642名参与者的内部数据和一个外部数据集中,对三个模型进行了测试,其中包含来自国际合作者的29个情况。这些测试集进行了独立评估。使用了五个已建立的WMH性能指标与地面真理人体分割进行比较。测试的三个网络的结果,3D NNU-NET具有最佳性能,平均骰子相似性系数得分为0.78 +/- 0.10,其性能优于内部开发的2.5D模型和SOTA DEEP DEEP BAYESIAN网络。结论MRI协议中3D Flair加权图像的使用越来越多,我们的结果表明,WMH分割模型可以在3D数据上进行训练,并产生与无需更高的或更好的无需先进的WMH分割性能用于包括T1加权图像系列。
translated by 谷歌翻译
深度学习(DL)模型为各种医学成像基准挑战提供了最先进的性能,包括脑肿瘤细分(BRATS)挑战。然而,局灶性病理多隔室分割(例如,肿瘤和病变子区)的任务特别具有挑战性,并且潜在的错误阻碍DL模型转化为临床工作流程。量化不确定形式的DL模型预测的可靠性,可以实现最不确定的地区的临床审查,从而建立信任并铺平临床翻译。最近,已经引入了许多不确定性估计方法,用于DL医学图像分割任务。开发指标评估和比较不确定性措施的表现将有助于最终用户制定更明智的决策。在本研究中,我们探索并评估在Brats 2019-2020任务期间开发的公制,以对不确定量化量化(Qu-Brats),并旨在评估和排列脑肿瘤多隔室分割的不确定性估计。该公制(1)奖励不确定性估计,对正确断言产生高置信度,以及在不正确的断言处分配低置信水平的估计数,(2)惩罚导致更高百分比的无关正确断言百分比的不确定性措施。我们进一步基准测试由14个独立参与的Qu-Brats 2020的分割不确定性,所有这些都参与了主要的Brats细分任务。总体而言,我们的研究结果证实了不确定性估计提供了分割算法的重要性和互补价值,因此突出了医学图像分析中不确定性量化的需求。我们的评估代码在HTTPS://github.com/ragmeh11/qu-brats公开提供。
translated by 谷歌翻译
目的:多发性硬化症(MS)是一种自身免疫和脱髓鞘疾病,导致中枢神经系统的病变。可以使用磁共振成像(MRI)跟踪和诊断该疾病。到目前为止,多数多层自动生物医学方法用于在成本,时间和可用性方面对患者没有有益的病变。本文的作者提出了一种使用只有一个模态(Flair Image)的方法,准确地将MS病变分段。方法:由3D-Reset和空间通道注意模块进行设计,灵活的基于补丁的卷积神经网络(CNN),以段MS病变。该方法由三个阶段组成:(1)对比度限制自适应直方图均衡(CLAHE)被施加到原始图像并连接到提取的边缘以形成4D图像; (2)尺寸80 * 80 * 80 * 2的贴片从4D图像中随机选择; (3)将提取的贴片传递到用于分割病变的关注的CNN中。最后,将所提出的方法与先前的相同数据集进行比较。结果:目前的研究评估了模型,具有测试集的ISIB挑战数据。实验结果表明,该方法在骰子相似性和绝对体积差方面显着超越了现有方法,而该方法仅使用一种模态(Flair)来分割病变。结论:作者推出了一种自动化的方法来分割基于最多两种方式作为输入的损伤。所提出的架构由卷积,解卷积和SCA-VOXRES模块作为注意模块组成。结果表明,所提出的方法优于与其他方法相比良好。
translated by 谷歌翻译
迄今为止,已经提出了几种使用磁共振成像(MRI)鉴定/分割多发性硬化病(MS)病变的自动化策略,但它们的表现均优于人类专家,它们的作用差异很大。这主要是由于:MRI不稳定性起源于:歧义; MS的特殊变异; MRI关于MS的非特异性。医师部分管理依赖放射学/临床/解剖背景和经验的歧义产生的不确定性。为了模仿人类的诊断,我们提出了一个自动化框架,用于基于三个关键概念的MRI识别/分割MS病变的自动框架:1。不确定性建模; 2.两个分别训练的CNN的建议,一个针对病变优化的,另一个针对周围环境的病变进行了优化,分别针对轴向,冠状和矢状方向重复; 3.合奏分类器的定义合并不同CNN收集的信息。提出的框架经过单个成像模式,即流体侵蚀的反转恢复(FLAIR)的2016年MSSEG基准公共数据集进行了训练,验证和测试。与地面真相和7个人类评估者的比较证明,自动化者和人类评估者之间没有显着差异。
translated by 谷歌翻译
分配转移或培训数据和部署数据之间的不匹配是在高风险工业应用中使用机器学习的重要障碍,例如自动驾驶和医学。这需要能够评估ML模型的推广以及其不确定性估计的质量。标准ML基线数据集不允许评估这些属性,因为培训,验证和测试数据通常相同分布。最近,已经出现了一系列专用基准测试,其中包括分布匹配和转移的数据。在这些基准测试中,数据集在任务的多样性以及其功能的数据模式方面脱颖而出。虽然大多数基准测试由2D图像分类任务主导,但Shifts包含表格天气预测,机器翻译和车辆运动预测任务。这使得可以评估模型的鲁棒性属性,并可以得出多种工业规模的任务以及通用或直接适用的特定任务结论。在本文中,我们扩展了偏移数据集,其中两个数据集来自具有高社会重要性的工业高风险应用程序。具体而言,我们考虑了3D磁共振脑图像中白质多发性硬化病变的分割任务以及海洋货物容器中功耗的估计。两项任务均具有无处不在的分配变化和由于错误成本而构成严格的安全要求。这些新数据集将使研究人员能够进一步探索新情况下的强大概括和不确定性估计。在这项工作中,我们提供了两个任务的数据集和基线结果的描述。
translated by 谷歌翻译
多发性硬化症(MS)是中枢神经系统的慢性炎症和退行性疾病,其特征在于,白色和灰质的外观与个体患者的神经症状和标志进行地平整相关。磁共振成像(MRI)提供了详细的体内结构信息,允许定量和分类MS病变,其批判性地通知疾病管理。传统上,MS病变在2D MRI切片上手动注释,一个流程效率低,易于观察室内误差。最近,已经提出了自动统计成像分析技术以基于MRI体素强度检测和分段段病变。然而,它们的有效性受到MRI数据采集技术的异质性和MS病变的外观的限制。通过直接从图像学习复杂的病变表现,深度学习技术已经在MS病变分割任务中取得了显着的突破。在这里,我们提供了全面审查最先进的自动统计和深度学习MS分段方法,并讨论当前和未来的临床应用。此外,我们审查了域适应等技术策略,以增强现实世界临床环境中的MS病变分段。
translated by 谷歌翻译
Deep Learning models are easily disturbed by variations in the input images that were not seen during training, resulting in unpredictable behaviours. Such Out-of-Distribution (OOD) images represent a significant challenge in the context of medical image analysis, where the range of possible abnormalities is extremely wide, including artifacts, unseen pathologies, or different imaging protocols. In this work, we evaluate various uncertainty frameworks to detect OOD inputs in the context of Multiple Sclerosis lesions segmentation. By implementing a comprehensive evaluation scheme including 14 sources of OOD of various nature and strength, we show that methods relying on the predictive uncertainty of binary segmentation models often fails in detecting outlying inputs. On the contrary, learning to segment anatomical labels alongside lesions highly improves the ability to detect OOD inputs.
translated by 谷歌翻译
Non-invasive prostate cancer detection from MRI has the potential to revolutionize patient care by providing early detection of clinically-significant disease (ISUP grade group >= 2), but has thus far shown limited positive predictive value. To address this, we present an MRI-based deep learning method for predicting clinically significant prostate cancer applicable to a patient population with subsequent ground truth biopsy results ranging from benign pathology to ISUP grade group~5. Specifically, we demonstrate that mixed supervision via diverse histopathological ground truth improves classification performance despite the cost of reduced concordance with image-based segmentation. That is, where prior approaches have utilized pathology results as ground truth derived from targeted biopsies and whole-mount prostatectomy to strongly supervise the localization of clinically significant cancer, our approach also utilizes weak supervision signals extracted from nontargeted systematic biopsies with regional localization to improve overall performance. Our key innovation is performing regression by distribution rather than simply by value, enabling use of additional pathology findings traditionally ignored by deep learning strategies. We evaluated our model on a dataset of 973 (testing n=160) multi-parametric prostate MRI exams collected at UCSF from 2015-2018 followed by MRI/ultrasound fusion (targeted) biopsy and systematic (nontargeted) biopsy of the prostate gland, demonstrating that deep networks trained with mixed supervision of histopathology can significantly exceed the performance of the Prostate Imaging-Reporting and Data System (PI-RADS) clinical standard for prostate MRI interpretation.
translated by 谷歌翻译
尽管脑肿瘤分割的准确性最近有所提高,但结果仍然表现出较低的置信度和稳健性。不确定性估计是改变这种情况的一种有效方法,因为它提供了对分割结果的信心。在本文中,我们提出了一个可信赖的脑肿瘤分割网络,该网络可以产生可靠的分割结果和可靠的不确定性估计,而不会过多的计算负担和骨干网络的修改。在我们的方法中,不确定性是使用主观逻辑理论明确建模的,该理论将主干神经网络的预测视为主观观点,通过将分割的类概率参数视为差异分布。同时,可信赖的分割框架学习了从功能中收集可靠证据的功能,从而导致最终分割结果。总体而言,我们统一的可信赖分割框架使该模型具有可靠性和鲁棒性,对分布式样本。为了评估我们的模型在鲁棒性和可靠性方面的有效性,在Brats 2019数据集中进行了定性和定量实验。
translated by 谷歌翻译
Objective: Convolutional neural networks (CNNs) have demonstrated promise in automated cardiac magnetic resonance image segmentation. However, when using CNNs in a large real-world dataset, it is important to quantify segmentation uncertainty and identify segmentations which could be problematic. In this work, we performed a systematic study of Bayesian and non-Bayesian methods for estimating uncertainty in segmentation neural networks. Methods: We evaluated Bayes by Backprop, Monte Carlo Dropout, Deep Ensembles, and Stochastic Segmentation Networks in terms of segmentation accuracy, probability calibration, uncertainty on out-of-distribution images, and segmentation quality control. Results: We observed that Deep Ensembles outperformed the other methods except for images with heavy noise and blurring distortions. We showed that Bayes by Backprop is more robust to noise distortions while Stochastic Segmentation Networks are more resistant to blurring distortions. For segmentation quality control, we showed that segmentation uncertainty is correlated with segmentation accuracy for all the methods. With the incorporation of uncertainty estimates, we were able to reduce the percentage of poor segmentation to 5% by flagging 31--48% of the most uncertain segmentations for manual review, substantially lower than random review without using neural network uncertainty (reviewing 75--78% of all images). Conclusion: This work provides a comprehensive evaluation of uncertainty estimation methods and showed that Deep Ensembles outperformed other methods in most cases. Significance: Neural network uncertainty measures can help identify potentially inaccurate segmentations and alert users for manual review.
translated by 谷歌翻译
脑转移经常发生在转移性癌症的患者中。早期和准确地检测脑转移对于放射治疗的治疗计划和预后至关重要。为了提高深入学习的脑转移检测性能,提出了一种称为体积级灵敏度特异性(VSS)的定制检测损失,该损失是单个转移检测灵敏度和(子)体积水平的特异性。作为敏感性和精度始终在转移水平中始终是折射率,可以通过调节VSS损耗中的重量而无需骰子分数系数进行分段转移来实现高精度或高精度。为了减少被检测为假阳性转移的转移样结构,提出了一种时间的现有量作为神经网络的额外输入。我们提出的VSS损失提高了脑转移检测的敏感性,将灵敏度提高了86.7%至95.5%。或者,它将精度提高了68.8%至97.8%。随着额外的时间现有量,在高灵敏度模型中,约45%的假阳性转移减少,高特异性模型的精度达到99.6%。所有转移的平均骰子系数约为0.81。随着高灵敏度和高特异性模型的集合,平均每位患者的1.5个假阳性转移需要进一步检查,而大多数真正的阳性转移确认。该集合学习能够区分从需要特殊专家审查或进一步跟进的转移候选人的高信心真正的阳性转移,特别适合实际临床实践中专家支持的要求。
translated by 谷歌翻译
检测新的多发性硬化症(MS)病变是该疾病进化的重要标志。基于学习的方法的适用性可以有效地自动化此任务。然而,缺乏带有新型病变的注释纵向数据是训练健壮和概括模型的限制因素。在这项工作中,我们描述了一条基于学习的管道,该管道解决了检测和细分新MS病变的挑战性任务。首先,我们建议使用单个时间点对在分割任务进行训练的模型中使用转移学习。因此,我们从更轻松的任务中利用知识,并为此提供更多注释的数据集。其次,我们提出了一种数据综合策略,以使用单个时间点扫描生成新的纵向时间点。通过这种方式,我们将检测模型预算到大型合成注释数据集上。最后,我们使用旨在模拟MRI中数据多样性的数据实践技术。通过这样做,我们增加了可用的小注释纵向数据集的大小。我们的消融研究表明,每个贡献都会提高分割精度。使用拟议的管道,我们获得了MSSEG2 MICCAI挑战中新的MS病变的分割和检测的最佳分数。
translated by 谷歌翻译
在胸部计算机断层扫描(CT)扫描中,自动分割地面玻璃的不透明和固结可以在高资源利用时期减轻放射科医生的负担。但是,由于分布(OOD)数据默默失败,深度学习模型在临床常规中不受信任。我们提出了一种轻巧的OOD检测方法,该方法利用特征空间中的Mahalanobis距离,并无缝集成到最新的分割管道中。简单的方法甚至可以增加具有临床相关的不确定性定量的预训练模型。我们在四个胸部CT分布偏移和两个磁共振成像应用中验证我们的方法,即海马和前列腺的分割。我们的结果表明,所提出的方法在所有探索场景中有效地检测到遥远和近型样品。
translated by 谷歌翻译
事实证明,深度卷积神经网络在语义分割任务中非常有效。引入了最流行的损失功能,以提高体积分数,例如Sorensen骰子系数。根据设计,DSC可以解决类不平衡;但是,它不能识别类中的实例不平衡。结果,大型前景实例可以主导次要实例,并且仍然产生令人满意的Sorensen骰子系数。然而,错过实例将导致检测性能不佳。这代表了诸如疾病进展监测等应用中的一个关键问题。例如,必须在多发性硬化症患者的随访中定位和监视小规模病变。我们提出了一个新型的损失功能家族,绰号斑点损失,主要旨在最大化实例级检测指标,例如F1得分和灵敏度。 BLOB损失是针对语义分割问题而设计的,其中实例是类中连接的组件。我们在五个复杂的3D语义分割任务中广泛评估了基于DSC的斑点损失,这些任务具有明显的实例异质性,从纹理和形态上讲。与软骰子损失相比,我们的MS病变改善了5%,肝肿瘤改善了3%,考虑F1分数的显微镜细分任务平均提高了2%。
translated by 谷歌翻译
我们提出了一个联合图卷积图像卷积神经网络,作为我们对脑肿瘤分割(BRATS)2021挑战的提交。我们将每个大脑建模为由不同的图像区域组成的图,最初由图神经网络(GNN)分割。随后,由GNN鉴定的肿瘤体积通过简单(体素)卷积神经网络(CNN)进一步完善,该卷积神经网络(CNN)产生了最终的分割。这种方法通过图形表示捕获了全局大脑特征的交互,也可以通过使用卷积过滤器来捕获局部图像详细信息。我们发现,GNN成分本身可以有效地识别和分割脑肿瘤。在评估的所有指标中,CNN的添加进一步提高了该模型的中值性能。在验证集中,我们的联合GNN-CNN模型的平均骰子得分分别为0.89、0.81、0.73和平均Hausdorff距离(95%),分别为6.8、12.6、28.2mm,分别在整个肿瘤,核心肿瘤和增强肿瘤上。
translated by 谷歌翻译
最近关于Covid-19的研究表明,CT成像提供了评估疾病进展和协助诊断的有用信息,以及帮助理解疾病。有越来越多的研究,建议使用深度学习来使用胸部CT扫描提供快速准确地定量Covid-19。兴趣的主要任务是胸部CT扫描的肺和肺病变的自动分割,确认或疑似Covid-19患者。在这项研究中,我们使用多中心数据集比较12个深度学习算法,包括开源和内部开发的算法。结果表明,合并不同的方法可以提高肺部分割,二元病变分割和多种子病变分割的总体测试集性能,从而分别为0.982,0.724和0.469的平均骰子分别。将得到的二元病变分段为91.3ml的平均绝对体积误差。通常,区分不同病变类型的任务更加困难,分别具有152mL的平均绝对体积差,分别为整合和磨碎玻璃不透明度为0.369和0.523的平均骰子分数。所有方法都以平均体积误差进行二元病变分割,该分段优于人类评估者的视觉评估,表明这些方法足以用于临床实践中使用的大规模评估。
translated by 谷歌翻译