眼底图像的视盘(OD)和视杯(OC)的分割是青光眼诊断的重要基本任务。在临床实践中,通常有必要从多位专家那里收集意见,以获得最终的OD/OC注释。这种临床常规有助于减轻单个偏见。但是,当数据乘以注释时,标准深度学习模型将不适用。在本文中,我们提出了一个新型的神经网络框架,以从多评价者注释中学习OD/OC分割。分割结果通过迭代优化多评价专家的估计和校准OD/OC分割来自校准。这样,提出的方法可以实现这两个任务的相互改进,并最终获得精制的分割结果。具体而言,我们提出分化模型(DIVM)和收敛模型(CONM)分别处理这两个任务。 CONM基于DIVM提供的多评价专家图的原始图像。 DIVM从CONM提供的分割掩码中生成多评价者专家图。实验结果表明,通过经常运行CONM和DIVM,可以对结果进行自校准,从而超过一系列最新的(SOTA)多评价者分割方法。
translated by 谷歌翻译
In medical image segmentation, it is often necessary to collect opinions from multiple experts to make the final decision. This clinical routine helps to mitigate individual bias. But when data is multiply annotated, standard deep learning models are often not applicable. In this paper, we propose a novel neural network framework, called Multi-Rater Prism (MrPrism) to learn the medical image segmentation from multiple labels. Inspired by the iterative half-quadratic optimization, the proposed MrPrism will combine the multi-rater confidences assignment task and calibrated segmentation task in a recurrent manner. In this recurrent process, MrPrism can learn inter-observer variability taking into account the image semantic properties, and finally converges to a self-calibrated segmentation result reflecting the inter-observer agreement. Specifically, we propose Converging Prism (ConP) and Diverging Prism (DivP) to process the two tasks iteratively. ConP learns calibrated segmentation based on the multi-rater confidence maps estimated by DivP. DivP generates multi-rater confidence maps based on the segmentation masks estimated by ConP. The experimental results show that by recurrently running ConP and DivP, the two tasks can achieve mutual improvement. The final converged segmentation result of MrPrism outperforms state-of-the-art (SOTA) strategies on a wide range of medical image segmentation tasks.
translated by 谷歌翻译
在医学图像上,许多组织/病变可能模棱两可。这就是为什么一群临床专家通常会注释医疗细分以减轻个人偏见的原因。但是,这种临床常规也为机器学习算法的应用带来了新的挑战。如果没有确定的基础真相,将很难训练和评估深度学习模型。当从不同的级别收集注释时,一个共同的选择是多数票。然而,这样的策略忽略了分级专家之间的差异。在本文中,我们考虑使用校准的观察者间的不确定性来预测分割的任务。我们注意到,在临床实践中,医学图像分割通常用于帮助疾病诊断。受到这一观察的启发,我们提出了诊断优先的原则,该原则是将疾病诊断作为校准观察者间分段不确定性的标准。遵循这个想法,提出了一个名为诊断的诊断框架(DIFF)以估算从原始图像中进行诊断,从原始图像进行诊断。特别是,DIFF将首先学会融合多论者分段标签,以最大程度地提高单个地面真相疾病诊断表现。我们将融合的地面真相称为诊断第一基地真实(DF-GT)。我们验证了DIFF对三个不同的医学分割任务的有效性:对眼底图像的OD/OC分割,超声图像上的甲状腺结节分割以及皮肤镜图像上的皮肤病变分割。实验结果表明,拟议的DIFF能够显着促进相应的疾病诊断,这表现优于先前的最先进的多评论者学习方法。
translated by 谷歌翻译
随着深度学习技术的发展,从底眼图像中提出了越来越多的方法对视盘和杯子(OD/OC)进行分割。在临床上,多位临床专家通常会注释OD/OC细分以减轻个人偏见。但是,很难在多个标签上训练自动化的深度学习模型。解决该问题的一种普遍做法是多数投票,例如,采用多个标签的平均值。但是,这种策略忽略了医学专家的不同专家。通过观察到的观察,即在临床上通常将OD/OC分割用于青光眼诊断,在本文中,我们提出了一种新的策略,以通过青光眼诊断性能融合多评分者OD/OC分割标签。具体而言,我们通过细心的青光眼诊断网络评估每个评估者的专业性。对于每个评估者,其对诊断的贡献将被反映为专家图。为了确保对不同青光眼诊断模型的专家图是一般性的,我们进一步提出了专家生成器(EXPG),以消除优化过程中的高频组件。基于获得的专家图,多评价者标签可以融合为单个地面真相,我们将其称为诊断第一基地真相(diagfirstgt)。实验结果表明,通过将diagfirstgt用作地面真相,OD/OC分割网络将预测具有优质诊断性能的面膜。
translated by 谷歌翻译
由于放射科医生有不同的培训和临床经验,因此它们可以为肺结核提供各种分割注释。常规研究默认情况下选择单个注释作为学习目标,但它们浪费了在多个注释中根深蒂固的共识或分歧的宝贵信息。本文提出了一个不确定性引导的分割网络(UGS-NET),该网络从各个区域中学习了丰富的视觉特征,这些特征可能导致细分不确定性并有助于更好的分割结果。使用不确定性感知的模块,该网络可以提供多信心面膜(MCM),指出具有不同分割不确定性水平的区域。此外,本文介绍了一个功能吸引的注意模块,以增强结节边界和密度差异的学习。实验结果表明,我们的方法可以预测具有不同不确定性水平的结节区域,并在LIDC-IDRI数据集中实现卓越的性能。
translated by 谷歌翻译
临床上,病变/组织的准确注释可以显着促进疾病诊断。例如,对眼底图像的视盘/杯/杯(OD/OC)的分割将有助于诊断青光眼诊断,皮肤镜图像上皮肤病变的分割有助于黑色素瘤诊断等。随着深度学习技术的发展,广泛的方法证明了病变/组织分割还可以促进自动疾病诊断模型。但是,现有方法是有限的,因为它们只能捕获图像中的静态区域相关性。受视觉变压器的全球和动态性质的启发,在本文中,我们提出了分割辅助诊断变压器(SeaTrans),以将分割知识转移到疾病诊断网络中。具体而言,我们首先提出了一种不对称的多尺度相互作用策略,以将每个单个低级诊断功能与多尺度分割特征相关联。然后,采用了一种称为海块的有效策略,以通过相关的分割特征使诊断特征生命。为了模拟分割诊断的相互作用,海块首先根据分段信息通过编码器嵌入诊断功能,然后通过解码器将嵌入的嵌入回到诊断功能空间中。实验结果表明,关于几种疾病诊断任务的海洋侵蚀超过了广泛的最新(SOTA)分割辅助诊断方法。
translated by 谷歌翻译
从医用试剂染色图像中分割牙齿斑块为诊断和确定随访治疗计划提供了宝贵的信息。但是,准确的牙菌斑分割是一项具有挑战性的任务,需要识别牙齿和牙齿斑块受到语义腔区域的影响(即,在牙齿和牙齿斑块之间的边界区域中存在困惑的边界)以及实例形状的复杂变化,这些变化均未完全解决。现有方法。因此,我们提出了一个语义分解网络(SDNET),该网络介绍了两个单任务分支,以分别解决牙齿和牙齿斑块的分割,并设计了其他约束,以学习每个分支的特定类别特征,从而促进语义分解并改善该类别的特征牙齿分割的性能。具体而言,SDNET以分裂方式学习了两个单独的分割分支和牙齿的牙齿,以解除它们之间的纠缠关系。指定类别的每个分支都倾向于产生准确的分割。为了帮助这两个分支更好地关注特定类别的特征,进一步提出了两个约束模块:1)通过最大化不同类别表示之间的距离来学习判别特征表示,以了解判别特征表示形式,以减少减少负面影响关于特征提取的语义腔区域; 2)结构约束模块(SCM)通过监督边界感知的几何约束提供完整的结构信息,以提供各种形状的牙菌斑。此外,我们构建了一个大规模的开源染色牙菌斑分割数据集(SDPSEG),该数据集为牙齿和牙齿提供高质量的注释。 SDPSEG数据集的实验结果显示SDNET达到了最新的性能。
translated by 谷歌翻译
由于缺乏对未标记的结构的监督,部分监督的学习对于细分可能是具有挑战性的,并且直接应用完全监督学习的方法可能导致不兼容,这意味着地面真相不在损失功能的解决方案集合中。为了应对挑战,我们提出了一个深入的兼容学习(DCL)框架,该框架使用仅带有部分结构的图像来训练单个多标签分割网络。我们首先将部分监督的分割制定为与缺少标签兼容的优化问题,并证明其兼容性。然后,我们为模型配备有条件的分割策略,以将标签从多个部分注销的图像传播到目标。此外,我们提出了一种双重学习策略,该策略同时学习了标签传播的两个相反的映射,以对未标记的结构进行实质性的监督。这两种策略分别为兼容形式,分别称为条件兼容性和双重兼容性。我们显示该框架通常适用于常规损失功能。该方法对现有方法具有重大的性能提高,尤其是在只有小型培训数据集的情况下。三个细分任务的结果表明,所提出的框架可以实现匹配完全监督模型的性能。
translated by 谷歌翻译
现代深层神经网络在医学图像分割任务中取得了显着进展。然而,最近观察到他们倾向于产生过于自信的估计,即使在高度不确定性的情况下,导致校准差和不可靠的模型。在这项工作中,我们介绍了错误的预测(MEEP)的最大熵,分割网络的培训策略,这些网络选择性地惩罚过度自信预测,仅关注错误分类的像素。特别是,我们设计了一个正规化术语,鼓励出于错误的预测,增加了复杂场景中的网络不确定性。我们的方法对于神经结构不可知,不会提高模型复杂性,并且可以与多分割损耗功能耦合。我们在两个具有挑战性的医学图像分割任务中将拟议的策略基准:脑磁共振图像(MRI)中的白质超强度病变,心脏MRI中的心房分段。实验结果表明,具有标准分割损耗的耦合MEEP不仅可以改善模型校准,而且还导致分割质量。
translated by 谷歌翻译
Diffusion probabilistic model (DPM) recently becomes one of the hottest topic in computer vision. Its image generation application such as Imagen, Latent Diffusion Models and Stable Diffusion have shown impressive generation capabilities, which aroused extensive discussion in the community. Many recent studies also found it useful in many other vision tasks, like image deblurring, super-resolution and anomaly detection. Inspired by the success of DPM, we propose the first DPM based model toward general medical image segmentation tasks, which we named MedSegDiff. In order to enhance the step-wise regional attention in DPM for the medical image segmentation, we propose dynamic conditional encoding, which establishes the state-adaptive conditions for each sampling step. We further propose Feature Frequency Parser (FF-Parser), to eliminate the negative effect of high-frequency noise component in this process. We verify MedSegDiff on three medical segmentation tasks with different image modalities, which are optic cup segmentation over fundus images, brain tumor segmentation over MRI images and thyroid nodule segmentation over ultrasound images. The experimental results show that MedSegDiff outperforms state-of-the-art (SOTA) methods with considerable performance gap, indicating the generalization and effectiveness of the proposed model.
translated by 谷歌翻译
模型校准衡量预测的概率估计与真实性可能性之间的一致性。正确的模型校准对于高风险应用至关重要。不幸的是,现代深层神经网络的校准不佳,损害了可信度和可靠性。由于组织边界的自然不确定性,医疗图像分割尤其遭受了这种情况。这对他们的损失功能感到愤怒,这有利于多数级别的过度自信。我们用Domino(一种域感知的模型校准方法)解决了这些挑战,该方法利用了类标签之间的语义混淆性和分层相似性。我们的实验表明,在头部图像分割中,我们受多米诺骨牌校准的深神经网络优于非校准模型和最先进的形态学方法。我们的结果表明,与这些方法相比,我们的方法可以始终如一地实现更好的校准,更高的准确性和更快的推理时间,尤其是在稀有类别上。该性能归因于我们的域知觉正规化,以告知语义模型校准。这些发现表明,班级标签之间语义联系在建立深度学习模型的信心中的重要性。该框架有可能提高通用医学图像分割模型的可信度和可靠性。本文的代码可在以下网址获得:https://github.com/lab-smile/domino。
translated by 谷歌翻译
手动注释医学图像是高度主观的,导致不可避免和巨大的注释偏见。深度学习模型可能超过各种任务的人类性能,但它们也可能模仿或放大这些偏差。虽然我们可以有多个注释器并融化它们的注释来减少随机错误,但我们无法使用这种策略来处理因注释器偏好引起的偏差。在本文中,我们突出了对医学图像分割任务的注释相关偏差问题,并提出了涉及涉及的注释分配学习(PADL)框架来解决它从解开注入者的偏好使用分配学习的随机误差的偏好来解决它由于不仅产生元分割,而且产生每个注释器的分割。在此框架下,随机误差建模(SEM)模块估计元分割图和平均随机错误映射,以及一系列人类偏好建模(HPM)模块估计每个注释器的分段和相应的随机误差。我们在具有不同的成像方式的两个医学图像基准上进行了评估了我们的PADL框架,这些模型由多个医疗专业人员注释,并在所有五种医学图像分割任务上取得了有希望的表现。
translated by 谷歌翻译
伪装的对象检测(COD)旨在检测周围环境的类似模式(例如,纹理,强度,颜色等)的对象,最近吸引了日益增长的研究兴趣。由于伪装对象通常存在非常模糊的边界,如何确定对象位置以及它们的弱边界是具有挑战性的,也是此任务的关键。受到生物视觉感知过程的启发,当人类观察者发现伪装对象时,本文提出了一种名为Errnet的新型边缘的可逆重新校准网络。我们的模型的特点是两种创新设计,即选择性边缘聚集(SEA)和可逆的重新校准单元(RRU),其旨在模拟视觉感知行为,并在潜在的伪装区域和背景之间实现有效的边缘和交叉比较。更重要的是,RRU与现有COD模型相比,具有更全面的信息。实验结果表明,errnet优于三个COD数据集和五个医学图像分割数据集的现有尖端基线。特别是,与现有的Top-1模型SINET相比,ERRNET显着提高了$ \ SIM 6%(平均电子测量)的性能,以显着高速(79.3 FPS),显示ERRNET可能是一般和强大的解决方案COD任务。
translated by 谷歌翻译
由于不规则的形状,正常和感染组织之间的各种尺寸和无法区分的边界,仍然是一种具有挑战性的任务,可以准确地在CT图像上进行Covid-19的感染病变。在本文中,提出了一种新的分段方案,用于通过增强基于编码器 - 解码器架构的不同级别的监督信息和融合多尺度特征映射来感染Covid-19。为此,提出了深入的协作监督(共同监督)计划,以指导网络学习边缘和语义的特征。更具体地,首先设计边缘监控模块(ESM),以通过将边缘监督信息结合到初始阶段的下采样的初始阶段来突出显示低电平边界特征。同时,提出了一种辅助语义监督模块(ASSM)来加强通过将掩码监督信息集成到稍后阶段来加强高电平语义信息。然后,通过使用注意机制来扩展高级和低电平特征映射之间的语义间隙,开发了一种注意融合模块(AFM)以融合不同级别的多个规模特征图。最后,在四个各种Covid-19 CT数据集上证明了所提出的方案的有效性。结果表明,提出的三个模块都是有希望的。基于基线(RESUNT),单独使用ESM,ASSM或AFM可以分别将骰子度量增加1.12 \%,1.95 \%,1.63 \%,而在我们的数据集中,通过将三个模型结合在一起可以上升3.97 \% 。与各个数据集的现有方法相比,所提出的方法可以在某些主要指标中获得更好的分段性能,并可实现最佳的泛化和全面的性能。
translated by 谷歌翻译
使用注意机制的深度卷积神经网络(CNN)在动态场景中取得了巨大的成功。在大多数这些网络中,只能通过注意图精炼的功能传递到下一层,并且不同层的注意力图彼此分开,这并不能充分利用来自CNN中不同层的注意信息。为了解决这个问题,我们引入了一种新的连续跨层注意传播(CCLAT)机制,该机制可以利用所有卷积层的分层注意信息。基于CCLAT机制,我们使用非常简单的注意模块来构建一个新型残留的密集注意融合块(RDAFB)。在RDAFB中,从上述RDAFB的输出中推断出的注意图和每一层直接连接到后续的映射,从而导致CRLAT机制。以RDAFB为基础,我们为动态场景Deblurring设计了一个名为RDAFNET的有效体系结构。基准数据集上的实验表明,所提出的模型的表现优于最先进的脱毛方法,并证明了CCLAT机制的有效性。源代码可在以下网址提供:https://github.com/xjmz6/rdafnet。
translated by 谷歌翻译
医学图像分割是许多临床方法的基本和关键步骤。半监督学习已被广​​泛应用于医学图像分割任务,因为它减轻了收购专家审查的注释的沉重负担,并利用了更容易获得的未标记数据的优势。虽然已被证明是通过实施不同分布下的预测的不变性的一致性学习,但现有方法无法充分利用来自未标记数据的区域级形状约束和边界级距离信息。在本文中,我们提出了一种新颖的不确定性引导的相互一致学习框架,通过将任务中的一致性学习与自组合和交叉任务一致性学习从任务级正则化的最新预测集成了任务内的一致性学习,从而有效地利用了未标记的数据利用几何形状信息。该框架是由模型的估计分割不确定性指导,以便为一致性学习选择相对某些预测,以便有效地利用来自未标记数据的更可靠的信息。我们在两个公开的基准数据集中广泛地验证了我们提出的方法:左心房分割(LA)数据集和大脑肿瘤分割(BRATS)数据集。实验结果表明,我们的方法通过利用未标记的数据和优于现有的半监督分段方法来实现性能增益。
translated by 谷歌翻译
医学图像分割是基于人工智能的临床决策系统的基本问题之一。目前的自动医学图像分割方法往往未能满足临床要求。因此,提出了一系列交互式分段算法来利用专家校正信息。然而,现有方法在长期互动之后遭受一些分割炼制失败问题,以及来自专家注释的一些成本问题,这阻碍了临床应用。本文通过引入纠正措施评估,提出了一种互动分割框架,称为交互式医疗细分,通过引入纠正措施评估,该纠正措施评估结合了基于动作的置信度学习和多智能体增强学习(Marl)。通过新颖的基于行动的置信网络建立评估,并从Marl获得纠正措施。基于机密信息,旨在提供更详细的反馈,并在无监督数据上提出模拟标签生成机制,以减少对标记数据的过度依赖性的模拟标签生成机制。各种医学图像数据集的实验结果显示了所提出的算法的显着性能。
translated by 谷歌翻译
Equipping predicted segmentation with calibrated uncertainty is essential for safety-critical applications. In this work, we focus on capturing the data-inherent uncertainty (aka aleatoric uncertainty) in segmentation, typically when ambiguities exist in input images. Due to the high-dimensional output space and potential multiple modes in segmenting ambiguous images, it remains challenging to predict well-calibrated uncertainty for segmentation. To tackle this problem, we propose a novel mixture of stochastic experts (MoSE) model, where each expert network estimates a distinct mode of the aleatoric uncertainty and a gating network predicts the probabilities of an input image being segmented in those modes. This yields an efficient two-level uncertainty representation. To learn the model, we develop a Wasserstein-like loss that directly minimizes the distribution distance between the MoSE and ground truth annotations. The loss can easily integrate traditional segmentation quality measures and be efficiently optimized via constraint relaxation. We validate our method on the LIDC-IDRI dataset and a modified multimodal Cityscapes dataset. Results demonstrate that our method achieves the state-of-the-art or competitive performance on all metrics.
translated by 谷歌翻译
As a common weather, rain streaks adversely degrade the image quality. Hence, removing rains from an image has become an important issue in the field. To handle such an ill-posed single image deraining task, in this paper, we specifically build a novel deep architecture, called rain convolutional dictionary network (RCDNet), which embeds the intrinsic priors of rain streaks and has clear interpretability. In specific, we first establish a RCD model for representing rain streaks and utilize the proximal gradient descent technique to design an iterative algorithm only containing simple operators for solving the model. By unfolding it, we then build the RCDNet in which every network module has clear physical meanings and corresponds to each operation involved in the algorithm. This good interpretability greatly facilitates an easy visualization and analysis on what happens inside the network and why it works well in inference process. Moreover, taking into account the domain gap issue in real scenarios, we further design a novel dynamic RCDNet, where the rain kernels can be dynamically inferred corresponding to input rainy images and then help shrink the space for rain layer estimation with few rain maps so as to ensure a fine generalization performance in the inconsistent scenarios of rain types between training and testing data. By end-to-end training such an interpretable network, all involved rain kernels and proximal operators can be automatically extracted, faithfully characterizing the features of both rain and clean background layers, and thus naturally lead to better deraining performance. Comprehensive experiments substantiate the superiority of our method, especially on its well generality to diverse testing scenarios and good interpretability for all its modules. Code is available in \emph{\url{https://github.com/hongwang01/DRCDNet}}.
translated by 谷歌翻译
在本文中,我们提出了一个新颖的端到端集团协作学习网络,称为GCONET+,该网络可以有效,有效地(250 fps)识别自然场景中的共呈含量对象。提出的GCONET+基于以下两个基本标准,通过采矿共识表示,实现了共同降低对象检测(COSOD)的新最新性能:1)组内紧凑型,以更好地提高共同空位之间的一致性通过使用我们的新颖组亲和力模块(GAM)捕获其固有共享属性的对象; 2)组间可分离性通过引入我们的新组协作模块(GCM)条件对不一致的共识进行调理,从而有效抑制嘈杂对象对输出的影响。为了进一步提高准确性,我们设计了一系列简单但有效的组件,如下所示:i)在语义级别促进模型学习的经常性辅助分类模块(RACM); ii)一个置信度增强模块(CEM)帮助模型提高最终预测的质量; iii)基于小组的对称三重态(GST)损失指导模型以学习更多的判别特征。对三个具有挑战性的基准测试(即可口可乐,COSOD3K和COSAL2015)进行了广泛的实验,这表明我们的GCONET+优于现有的12个尖端模型。代码已在https://github.com/zhengpeng7/gconet_plus上发布。
translated by 谷歌翻译