编码器模型是用于医学图像分割的常用深神网络(DNN)模型。常规编码器模型使像素的预测重点放在像素周围的本地模式上。这使得对维护对象的形状和拓扑的细分进行分割变得具有挑战性,这通常需要了解对象的全局背景。在这项工作中,我们提出了一个傅立叶系数分割网络〜(FCSN),这是一个基于DNN的新型模型,该模型通过学习对象掩模的复杂傅立叶系数来分割对象。傅立叶系数是通过在整个轮廓上集成来计算的。因此,为了使我们的模型对系数进行精确的估计,该模型的动机是要整合对象的全局环境,从而更准确地分割了对象的形状。这种全球环境意识也使我们的模型在推理期间没有看到的本地扰动,例如医学图像中普遍存在的添加噪声或运动模糊。将FCSN与3个医疗图像分割任务(ISIC \ _2018,RIM \ _CUP,RIM \ _disc)进行比较时,FCSN的Hausdorff得分明显降低19.14(iSIC \ _2018,RIM \ _CUP,RIM \ _disc) 6个任务分别为6 \%),17.42(6 \%)和9.16(14 \%)。此外,FCSN可以通过丢弃解码器模块轻巧,从而产生了大量的计算开销。 FCSN仅需要比UNETR和DEEPLABV3+的参数222m,82m和10m。 FCSN的推理和训练速度为1.6ms/img和6.3ms/img,即8 $ \ times $和3 $ \ times $ $ \ times $比UNET和UNETR快。
translated by 谷歌翻译
由于字体,大小,颜色和方向的各种文本变化,任意形状的场景文本检测是一项具有挑战性的任务。大多数现有基于回归的方法求助于回归文本区域的口罩或轮廓点以建模文本实例。但是,回归完整的口罩需要高训练的复杂性,并且轮廓点不足以捕获高度弯曲的文本的细节。为了解决上述限制,我们提出了一个名为TextDCT的新颖的轻巧锚文本检测框架,该框架采用离散的余弦变换(DCT)将文本掩码编码为紧凑型向量。此外,考虑到金字塔层中训练样本不平衡的数量,我们仅采用单层头来进行自上而下的预测。为了建模单层头部的多尺度文本,我们通过将缩水文本区域视为正样本,并通过融合来介绍一个新颖的积极抽样策略,并通过融合来设计特征意识模块(FAM),以实现空间意识和规模的意识丰富的上下文信息并关注更重要的功能。此外,我们提出了一种分割的非量最大抑制(S-NMS)方法,该方法可以过滤低质量的掩模回归。在四个具有挑战性的数据集上进行了广泛的实验,这表明我们的TextDCT在准确性和效率上都获得了竞争性能。具体而言,TextDCT分别以每秒17.2帧(FPS)和F-measure的F-MEASIE达到85.1,而CTW1500和Total-Text数据集的F-Measure 84.9分别为15.1 fps。
translated by 谷歌翻译
卷积神经网络(CNN)的深度学习体系结构在计算机视野领域取得了杰出的成功。 CNN构建的编码器架构U-Net在生物医学图像分割方面取得了重大突破,并且已在各种实用的情况下应用。但是,编码器部分中每个下采样层和简单堆积的卷积的平等设计不允许U-NET从不同深度提取足够的特征信息。医学图像的复杂性日益增加为现有方法带来了新的挑战。在本文中,我们提出了一个更深层,更紧凑的分裂注意U形网络(DCSAU-NET),该网络有效地利用了基于两个新颖框架的低级和高级语义信息:主要功能保护和紧凑的分裂注意力堵塞。我们评估了CVC-ClinicDB,2018 Data Science Bowl,ISIC-2018和SEGPC-2021数据集的建议模型。结果,DCSAU-NET在联合(MIOU)和F1-SOCRE的平均交点方面显示出比其他最先进的方法(SOTA)方法更好的性能。更重要的是,提出的模型在具有挑战性的图像上表现出了出色的细分性能。我们的工作代码以及更多技术细节,请访问https://github.com/xq141839/dcsau-net。
translated by 谷歌翻译
Transformer-based models have been widely demonstrated to be successful in computer vision tasks by modelling long-range dependencies and capturing global representations. However, they are often dominated by features of large patterns leading to the loss of local details (e.g., boundaries and small objects), which are critical in medical image segmentation. To alleviate this problem, we propose a Dual-Aggregation Transformer Network called DuAT, which is characterized by two innovative designs, namely, the Global-to-Local Spatial Aggregation (GLSA) and Selective Boundary Aggregation (SBA) modules. The GLSA has the ability to aggregate and represent both global and local spatial features, which are beneficial for locating large and small objects, respectively. The SBA module is used to aggregate the boundary characteristic from low-level features and semantic information from high-level features for better preserving boundary details and locating the re-calibration objects. Extensive experiments in six benchmark datasets demonstrate that our proposed model outperforms state-of-the-art methods in the segmentation of skin lesion images, and polyps in colonoscopy images. In addition, our approach is more robust than existing methods in various challenging situations such as small object segmentation and ambiguous object boundaries.
translated by 谷歌翻译
从医用试剂染色图像中分割牙齿斑块为诊断和确定随访治疗计划提供了宝贵的信息。但是,准确的牙菌斑分割是一项具有挑战性的任务,需要识别牙齿和牙齿斑块受到语义腔区域的影响(即,在牙齿和牙齿斑块之间的边界区域中存在困惑的边界)以及实例形状的复杂变化,这些变化均未完全解决。现有方法。因此,我们提出了一个语义分解网络(SDNET),该网络介绍了两个单任务分支,以分别解决牙齿和牙齿斑块的分割,并设计了其他约束,以学习每个分支的特定类别特征,从而促进语义分解并改善该类别的特征牙齿分割的性能。具体而言,SDNET以分裂方式学习了两个单独的分割分支和牙齿的牙齿,以解除它们之间的纠缠关系。指定类别的每个分支都倾向于产生准确的分割。为了帮助这两个分支更好地关注特定类别的特征,进一步提出了两个约束模块:1)通过最大化不同类别表示之间的距离来学习判别特征表示,以了解判别特征表示形式,以减少减少负面影响关于特征提取的语义腔区域; 2)结构约束模块(SCM)通过监督边界感知的几何约束提供完整的结构信息,以提供各种形状的牙菌斑。此外,我们构建了一个大规模的开源染色牙菌斑分割数据集(SDPSEG),该数据集为牙齿和牙齿提供高质量的注释。 SDPSEG数据集的实验结果显示SDNET达到了最新的性能。
translated by 谷歌翻译
Covid-19的传播给世界带来了巨大的灾难,自动分割感染区域可以帮助医生快速诊断并减少工作量。但是,准确和完整的分割面临一些挑战,例如散射的感染区分布,复杂的背景噪声和模糊的分割边界。为此,在本文中,我们提出了一个新的网络,用于从CT图像(名为BCS-NET)的自动covid-19肺部感染分割,该网络考虑了边界,上下文和语义属性。 BCS-NET遵循编码器架构,更多的设计集中在解码器阶段,该阶段包括三个逐渐边界上下文 - 语义重建(BCSR)块。在每个BCSR块中,注意引导的全局上下文(AGGC)模块旨在通过突出显示重要的空间和边界位置并建模全局上下文依赖性来学习解码器最有价值的编码器功能。此外,语义指南(SG)单元通过在中间分辨率上汇总多规模的高级特征来生成语义指南图来完善解码器特征。广泛的实验表明,我们提出的框架在定性和定量上都优于现有竞争对手。
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像分割,并且录制了录制了该领域深度学习的成功的大量论文。在本文中,我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先,与传统调查相比,直接将深度学习的文献分成医学图像分割的文学,并为每组详细介绍了文献,我们根据从粗略到精细的多级结构分类目前流行的文献。其次,本文侧重于监督和弱监督的学习方法,而不包括无监督的方法,因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法,我们分析了三个方面的文献:骨干网络的选择,网络块的设计,以及损耗功能的改进。对于虚弱的学习方法,我们根据数据增强,转移学习和交互式分割进行调查文献。与现有调查相比,本调查将文献分类为比例不同,更方便读者了解相关理由,并将引导他们基于深度学习方法思考医学图像分割的适当改进。
translated by 谷歌翻译
在过去的几年中,卷积神经网络(CNN),尤其是U-NET,一直是医学图像处理时代的流行技术。具体而言,开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是,这些体系结构在本质上是不完美的,因为它们无法表现出长距离相互作用和空间依赖性,从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构,以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计,但利用纯变压器来进行图像分割目的,可能导致限制的定位容量,导致低级功能不足。因此,一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中,我们提出了Trans-Norm,这是一种新型的深层分割框架,它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为,跳过连接的方便设计对于准确的分割至关重要,因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面,我们从变压器模块中得出了一种空间归一化机制,以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验,证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。
translated by 谷歌翻译
机器学习和计算机视觉技术近年来由于其自动化,适合性和产生惊人结果的能力而迅速发展。因此,在本文中,我们调查了2014年至2022年之间发表的关键研究,展示了不同的机器学习算法研究人员用来分割肝脏,肝肿瘤和肝脉管结构的研究。我们根据感兴趣的组织(肝果,肝肿瘤或肝毒剂)对被调查的研究进行了划分,强调了同时解决多个任务的研究。此外,机器学习算法被归类为受监督或无监督的,如果属于某个方案的工作量很大,则将进一步分区。此外,对文献和包含上述组织面具的网站发现的不同数据集和挑战进行了彻底讨论,强调了组织者的原始贡献和其他研究人员的贡献。同样,在我们的评论中提到了文献中过度使用的指标,这强调了它们与手头的任务的相关性。最后,强调创新研究人员应对需要解决的差距的关键挑战和未来的方向,例如许多关于船舶分割挑战的研究的稀缺性以及为什么需要早日处理他们的缺席。
translated by 谷歌翻译
Medical image segmentation is an actively studied task in medical imaging, where the precision of the annotations is of utter importance towards accurate diagnosis and treatment. In recent years, the task has been approached with various deep learning systems, among the most popular models being U-Net. In this work, we propose a novel strategy to generate ensembles of different architectures for medical image segmentation, by leveraging the diversity (decorrelation) of the models forming the ensemble. More specifically, we utilize the Dice score among model pairs to estimate the correlation between the outputs of the two models forming each pair. To promote diversity, we select models with low Dice scores among each other. We carry out gastro-intestinal tract image segmentation experiments to compare our diversity-promoting ensemble (DiPE) with another strategy to create ensembles based on selecting the top scoring U-Net models. Our empirical results show that DiPE surpasses both individual models as well as the ensemble creation strategy based on selecting the top scoring models.
translated by 谷歌翻译
前导分割方法将输出图表示为像素网格。我们研究了一个替代表示,其中每个图像修补程序都是对象边缘的建模,作为具有与每种补丁标签概率耦合的$ k $顶点的多边形。通过采用可分辨率的神经渲染器来创建光栅图像来优化顶点。然后将划分区域与地面真相分割进行比较。我们的方法获得多个最先进的结果:76.26 \%Miou在城市景观验证,90.92 \%iou vaihingen建筑分割基准,66.82 \%iou for monu显微镜数据集,鸟类的90.91 \%基准幼崽。我们的培训和再现这些结果的代码作为补充。
translated by 谷歌翻译
作为新一代神经体系结构的变形金刚在自然语言处理和计算机视觉方面表现出色。但是,现有的视觉变形金刚努力使用有限的医学数据学习,并且无法概括各种医学图像任务。为了应对这些挑战,我们将Medformer作为数据量表变压器呈现为可推广的医学图像分割。关键设计结合了理想的电感偏差,线性复杂性的层次建模以及以空间和语义全局方式以线性复杂性的关注以及多尺度特征融合。 Medformer可以在不预训练的情况下学习微小至大规模的数据。广泛的实验表明,Medformer作为一般分割主链的潜力,在三个具有多种模式(例如CT和MRI)和多样化的医学靶标(例如,健康器官,疾病,疾病组织和肿瘤)的三个公共数据集上优于CNN和视觉变压器。我们将模型和评估管道公开可用,为促进广泛的下游临床应用提供固体基线和无偏比较。
translated by 谷歌翻译
U-NET一直是医疗图像分割任务的首选架构,但是将U-NET体系结构扩展到3D图像时会出现计算挑战。我们提出了隐式U-NET体系结构,该体系结构将有效的隐式表示范式适应监督的图像分割任务。通过将卷积特征提取器与隐式定位网络相结合,我们隐式U-NET的参数比等效的U-NET少40%。此外,我们提出了培训和推理程序,以利用稀疏的预测。与等效的完全卷积U-NET相比,隐式U-NET减少了约30%的推理和训练时间以及训练记忆足迹,同时在我们的两个不同的腹部CT扫描数据集中取得了可比的结果。
translated by 谷歌翻译
Owing to the success of transformer models, recent works study their applicability in 3D medical segmentation tasks. Within the transformer models, the self-attention mechanism is one of the main building blocks that strives to capture long-range dependencies, compared to the local convolutional-based design. However, the self-attention operation has quadratic complexity which proves to be a computational bottleneck, especially in volumetric medical imaging, where the inputs are 3D with numerous slices. In this paper, we propose a 3D medical image segmentation approach, named UNETR++, that offers both high-quality segmentation masks as well as efficiency in terms of parameters and compute cost. The core of our design is the introduction of a novel efficient paired attention (EPA) block that efficiently learns spatial and channel-wise discriminative features using a pair of inter-dependent branches based on spatial and channel attention. Our spatial attention formulation is efficient having linear complexity with respect to the input sequence length. To enable communication between spatial and channel-focused branches, we share the weights of query and key mapping functions that provide a complimentary benefit (paired attention), while also reducing the overall network parameters. Our extensive evaluations on three benchmarks, Synapse, BTCV and ACDC, reveal the effectiveness of the proposed contributions in terms of both efficiency and accuracy. On Synapse dataset, our UNETR++ sets a new state-of-the-art with a Dice Similarity Score of 87.2%, while being significantly efficient with a reduction of over 71% in terms of both parameters and FLOPs, compared to the best existing method in the literature. Code: https://github.com/Amshaker/unetr_plus_plus.
translated by 谷歌翻译
超声成像在诊断血管病变中起重要作用。血管壁的准确分割对于预防,诊断和治疗血管疾病很重要。但是,现有方法的血管壁边界的定位不准确。分割误差发生在不连续的血管壁边界和黑暗边界中。为了克服这些问题,我们提出了一个新的边界限制网络(BDNET)。我们使用边界细化模块重新限制血管壁的边界以获得正确的边界位置。我们设计了特征提取模块来提取和融合多尺度特征和不同的接受场功能,以解决黑暗边界和不连续边界的问题。我们使用新的损失函数来优化模型。级别不平衡对模型优化的干扰可阻止获得更细致,更光滑的边界。最后,为了促进临床应用,我们将模型设计为轻量级。实验结果表明,与数据集的现有模型相比,我们的模型可实现最佳的分割结果,并显着降低记忆消耗。
translated by 谷歌翻译
对医学图像的器官或病变的准确分割对于可靠的疾病和器官形态计量学的可靠诊断至关重要。近年来,卷积编码器解码器解决方案在自动医疗图像分割领域取得了重大进展。由于卷积操作中的固有偏见,先前的模型主要集中在相邻像素形成的局部视觉提示上,但无法完全对远程上下文依赖性进行建模。在本文中,我们提出了一个新型的基于变压器的注意力指导网络,称为Transattunet,其中多层引导注意力和多尺度跳过连接旨在共同增强语义分割体系结构的性能。受到变压器的启发,具有变压器自我注意力(TSA)和全球空间注意力(GSA)的自我意识注意(SAA)被纳入Transattunet中,以有效地学习编码器特征之间的非本地相互作用。此外,我们还使用解码器块之间的其他多尺度跳过连接来汇总具有不同语义尺度的上采样功能。这样,多尺度上下文信息的表示能力就可以增强以产生判别特征。从这些互补组件中受益,拟议的Transattunet可以有效地减轻卷积层堆叠和连续采样操作引起的细节损失,最终提高医学图像的细分质量。来自不同成像方式的多个医疗图像分割数据集进行了广泛的实验表明,所提出的方法始终优于最先进的基线。我们的代码和预培训模型可在以下网址找到:https://github.com/yishuliu/transattunet。
translated by 谷歌翻译
不工会是骨科诊所面临的针对技术困难和高成本拍摄骨间毛细血管面临的挑战之一。细分容器和填充毛细血管对于理解毛细血管生长遇到的障碍至关重要。但是,现有用于血管分割的数据集主要集中在人体的大血管上,缺乏标记的毛细管图像数据集极大地限制了血管分割和毛细血管填充的方法论开发和应用。在这里,我们提出了一个名为IFCIS-155的基准数据集,由155个2D毛细管图像组成,该图像具有分割边界和由生物医学专家注释的血管填充物,以及19个大型高分辨率3D 3D毛细管图像。为了获得更好的骨间毛细血管图像,我们利用最先进的免疫荧光成像技术来突出骨间毛细血管的丰富血管形态。我们进行全面的实验,以验证数据集和基准测试深度学习模型的有效性(\ eg UNET/UNET ++和修改后的UNET/UNET ++)。我们的工作提供了一个基准数据集,用于培训毛细管图像细分的深度学习模型,并为未来的毛细管研究提供了潜在的工具。 IFCIS-155数据集和代码均可在\ url {https://github.com/ncclabsustech/ifcis-55}上公开获得。
translated by 谷歌翻译
尽管U-NET体系结构已广泛用于分割医学图像,但我们解决了这项工作中的两个缺点。首先,当分割目标区域的形状和尺寸显着变化时,香草U-NET的精度会降低。即使U-NET已经具有在各种尺度上分析特征的能力,我们建议在U-NET编码器的每个卷积模块中明确添加多尺度特征图,以改善组织学图像的分割。其次,当监督学习的注释嘈杂或不完整时,U-NET模型的准确性也会受到影响。由于人类专家在非常精确,准确地识别和描述所有特定病理的所有实例的固有困难,因此可能发生这种情况。我们通过引入辅助信心图来应对这一挑战,该辅助信心图较少强调给定目标区域的边界。此外,我们利用深网的引导属性智能地解决了丢失的注释问题。在我们对乳腺癌淋巴结私有数据集的实验中,主要任务是分割生发中心和窦性组织细胞增多症,我们观察到了基于两个提出的增强的U-NET基线的显着改善。
translated by 谷歌翻译
大多数息肉分段方法使用CNNS作为其骨干,导致在编码器和解码器之间的信息交换信息时的两个关键问题:1)考虑到不同级别特征之间的贡献的差异; 2)设计有效机制,以融合这些功能。不同于现有的基于CNN的方法,我们采用了一个变压器编码器,它学会了更强大和强大的表示。此外,考虑到息肉的图像采集影响和难以实现的性质,我们介绍了三种新模块,包括级联融合模块(CFM),伪装识别模块(CIM),A和相似性聚集模块(SAM)。其中,CFM用于从高级功能收集息肉的语义和位置信息,而CIM应用于在低级功能中伪装的息肉信息。在SAM的帮助下,我们将息肉区域的像素特征扩展到整个息肉区域的高电平语义位置信息,从而有效地融合了交叉级别特征。所提出的模型名为Polyp-PVT,有效地抑制了特征中的噪声,并显着提高了他们的表现力。在五个广泛采用的数据集上进行了广泛的实验表明,所提出的模型对各种具有挑战性的情况(例如,外观变化,小物体)比现有方法更加强大,并实现了新的最先进的性能。拟议的模型可在https://github.com/dengpingfan/polyp-pvt获得。
translated by 谷歌翻译
卷积神经网络(CNN),是基于深度学习的医学图像分析的最普遍的体系结构,在功能上仍受其固有的电感偏见和不充分的接收场的限制。旨在解决这个问题的变压器由于其出色的捕获长期依赖的能力而引起了自然语言处理和计算机视觉的爆炸性关注。但是,最新的基于变压器的医学图像分割方法直接将香草变压器作为基于CNN的方法中的辅助模块应用于辅助模块,从而导致由于变压器中刚性贴片分配方案而导致严重的细节损失。为了解决这个问题,我们提出了C2FTRANS,这是一种新型的多尺度架构,将医学图像分割作为粗到精细的过程。 C2FTRAN主要由跨尺度的全局变压器(CGT)组成,该变压器(CGT)解决了CNN中的局部上下文相似性和边界感知的局部变压器(BLT),该局部变压器(BLT)克服了通过变压器中的刚性贴片分配带来的边界不确定性。具体而言,CGT在三个不同的小规模特征图上建立全球依赖性,以获得具有可接受的计算成本的丰富全球语义特征,而BLT通过在熵的指导下适应围绕边界的窗口来捕获中端依赖性,以降低计算复杂性并最小化最小基于大规模特征地图的详细损失。三个公共数据集的广泛实验结果证明了C2FTRAN的卓越性能与基于CNN的最新基于CNN和基于变压器的方法具有更少的参数和较低的拖失术。我们认为,C2Ftrans的设计将进一步激发未来在开发高效和轻量级变压器以进行医学图像细分方面的工作。本文的源代码可在https://github.com/xianlin7/c2ftrans上公开获得。
translated by 谷歌翻译