大多数现有的基于深度学习的方法用于血管分割的方法忽略了视网膜血管的两个重要方面,一个是船只的定向信息,另一个是整个基底区域的上下文信息。在本文中,我们提出了一个强大的方向和上下文纠缠的网络(称为OCE-NET),该网络具有提取血管的复杂方向和上下文信息的能力。为了实现复杂的方向,提出了动态复杂方向意识卷积(DCOA Conv),以提取具有多种取向的复杂血管,以改善血管连续性。为了同时捕获全球上下文信息并强调重要的本地信息,开发了一个全球和局部融合模块(GLFM),以同时对船舶的长距离依赖性进行建模,并将足够的关注放在局部薄船上。提出了一种新颖的方向和上下文纠缠的非本地(OCE-NL)模块,以将方向和上下文信息纠缠在一起。此外,提出了不平衡的注意模块(UARM)来处理背景,厚和薄容器的不平衡像素数量。在几个常用的数据集(驱动器,凝视和ChasceB1)和一些更具挑战性的数据集(AV Wide,UOA-DR,RFMID和UK BioBANK)上进行了广泛的实验。消融研究表明,所提出的方法在保持薄血管的连续性方面取得了有希望的性能,比较实验表明,我们的OCE-NET可以在视网膜血管分割上实现最新性能。
translated by 谷歌翻译
伪装的对象检测(COD)旨在识别自然场景中隐藏自己的物体。准确的COD遭受了许多与低边界对比度有关的挑战,并且对象出现(例如对象大小和形状)的较大变化。为了应对这些挑战,我们提出了一种新颖的背景感知跨层次融合网络(C2F-net),该网络融合了上下文感知的跨级特征,以准确识别伪装的对象。具体而言,我们通过注意力诱导的跨融合模块(ACFM)来计算来自多级特征的内容丰富的注意系数,该模块(ACFM)进一步在注意系数的指导下进一步集成了特征。然后,我们提出了一个双分支全局上下文模块(DGCM),以通过利用丰富的全球上下文信息来完善内容丰富的功能表示的融合功能。多个ACFM和DGCM以级联的方式集成,以产生高级特征的粗略预测。粗糙的预测充当了注意力图,以完善低级特征,然后再将其传递到我们的伪装推断模块(CIM)以生成最终预测。我们对三个广泛使用的基准数据集进行了广泛的实验,并将C2F-NET与最新模型(SOTA)模型进行比较。结果表明,C2F-NET是一种有效的COD模型,并且表现出明显的SOTA模型。此外,对息肉细分数据集的评估证明了我们在COD下游应用程序中C2F-NET的有希望的潜力。我们的代码可在以下网址公开获取:https://github.com/ben57882/c2fnet-tscvt。
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像分割,并且录制了录制了该领域深度学习的成功的大量论文。在本文中,我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先,与传统调查相比,直接将深度学习的文献分成医学图像分割的文学,并为每组详细介绍了文献,我们根据从粗略到精细的多级结构分类目前流行的文献。其次,本文侧重于监督和弱监督的学习方法,而不包括无监督的方法,因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法,我们分析了三个方面的文献:骨干网络的选择,网络块的设计,以及损耗功能的改进。对于虚弱的学习方法,我们根据数据增强,转移学习和交互式分割进行调查文献。与现有调查相比,本调查将文献分类为比例不同,更方便读者了解相关理由,并将引导他们基于深度学习方法思考医学图像分割的适当改进。
translated by 谷歌翻译
准确的视网膜血管分割是许多计算机辅助诊断系统的重要任务。然而,由于眼睛的复杂血管结构,它仍然是一个具有挑战性的问题。最近提出了许多血管分割方法,但需要更多的研究来处理薄薄和微小血管的细分。为了解决这个问题,我们提出了一种新的深度学习管道,结合了残留致密净块的效率以及剩余挤压和励磁块。我们在实验上验证了我们在三个数据集中的方法,并表明我们的管道优于最新的现有技术,以评估小血管的捕获度量相关的敏感度量。
translated by 谷歌翻译
Transformer-based models have been widely demonstrated to be successful in computer vision tasks by modelling long-range dependencies and capturing global representations. However, they are often dominated by features of large patterns leading to the loss of local details (e.g., boundaries and small objects), which are critical in medical image segmentation. To alleviate this problem, we propose a Dual-Aggregation Transformer Network called DuAT, which is characterized by two innovative designs, namely, the Global-to-Local Spatial Aggregation (GLSA) and Selective Boundary Aggregation (SBA) modules. The GLSA has the ability to aggregate and represent both global and local spatial features, which are beneficial for locating large and small objects, respectively. The SBA module is used to aggregate the boundary characteristic from low-level features and semantic information from high-level features for better preserving boundary details and locating the re-calibration objects. Extensive experiments in six benchmark datasets demonstrate that our proposed model outperforms state-of-the-art methods in the segmentation of skin lesion images, and polyps in colonoscopy images. In addition, our approach is more robust than existing methods in various challenging situations such as small object segmentation and ambiguous object boundaries.
translated by 谷歌翻译
人行道表面数据的获取和评估在路面条件评估中起着至关重要的作用。在本文中,提出了一个称为RHA-NET的自动路面裂纹分割的有效端到端网络,以提高路面裂纹分割精度。 RHA-NET是通过将残留块(重阻)和混合注意块集成到编码器架构结构中来构建的。这些重组用于提高RHA-NET提取高级抽象特征的能力。混合注意块旨在融合低级功能和高级功能,以帮助模型专注于正确的频道和裂纹区域,从而提高RHA-NET的功能表现能力。构建并用于训练和评估所提出的模型的图像数据集,其中包含由自设计的移动机器人收集的789个路面裂纹图像。与其他最先进的网络相比,所提出的模型在全面的消融研究中验证了添加残留块和混合注意机制的功能。此外,通过引入深度可分离卷积生成的模型的轻加权版本可以更好地实现性能和更快的处理速度,而U-NET参数数量的1/30。开发的系统可以在嵌入式设备Jetson TX2(25 fps)上实时划分路面裂纹。实时实验拍摄的视频将在https://youtu.be/3xiogk0fig4上发布。
translated by 谷歌翻译
玻璃在我们的日常生活中非常普遍。现有的计算机视觉系统忽略了它,因此可能会产生严重的后果,例如,机器人可能会坠入玻璃墙。但是,感知玻璃的存在并不简单。关键的挑战是,任意物体/场景可以出现在玻璃后面。在本文中,我们提出了一个重要的问题,即从单个RGB图像中检测玻璃表面。为了解决这个问题,我们构建了第一个大规模玻璃检测数据集(GDD),并提出了一个名为GDNet-B的新颖玻璃检测网络,该网络通过新颖的大型场探索大型视野中的丰富上下文提示上下文特征集成(LCFI)模块并将高级和低级边界特征与边界特征增强(BFE)模块集成在一起。广泛的实验表明,我们的GDNET-B可以在GDD测试集内外的图像上达到满足玻璃检测结果。我们通过将其应用于其他视觉任务(包括镜像分割和显着对象检测)来进一步验证我们提出的GDNET-B的有效性和概括能力。最后,我们显示了玻璃检测的潜在应用,并讨论了可能的未来研究方向。
translated by 谷歌翻译
Contextual information is vital in visual understanding problems, such as semantic segmentation and object detection. We propose a Criss-Cross Network (CCNet) for obtaining full-image contextual information in a very effective and efficient way. Concretely, for each pixel, a novel criss-cross attention module harvests the contextual information of all the pixels on its criss-cross path. By taking a further recurrent operation, each pixel can finally capture the full-image dependencies. Besides, a category consistent loss is proposed to enforce the criss-cross attention module to produce more discriminative features. Overall, CCNet is with the following merits: 1) GPU memory friendly. Compared with the non-local block, the proposed recurrent criss-cross attention module requires 11× less GPU memory usage. 2) High computational efficiency. The recurrent criss-cross attention significantly reduces FLOPs by about 85% of the non-local block. 3) The state-of-the-art performance. We conduct extensive experiments on semantic segmentation benchmarks including Cityscapes, ADE20K, human parsing benchmark LIP, instance segmentation benchmark COCO, video segmentation benchmark CamVid. In particular, our CCNet achieves the mIoU scores of 81.9%, 45.76% and 55.47% on the Cityscapes test set, the ADE20K validation set and the LIP validation set respectively, which are the new state-of-the-art results. The source codes are available at https://github.com/speedinghzl/CCNet.
translated by 谷歌翻译
光学相干断层扫描(OCT)有助于眼科医生评估黄斑水肿,流体的积累以及微观分辨率的病变。视网膜流体的定量对于OCT引导的治疗管理是必需的,这取决于精确的图像分割步骤。由于对视网膜流体的手动分析是一项耗时,主观和容易出错的任务,因此对快速和健壮的自动解决方案的需求增加了。在这项研究中,提出了一种名为Retifluidnet的新型卷积神经结构,用于多级视网膜流体分割。该模型受益于层次表示使用新的自适应双重注意(SDA)模块的纹理,上下文和边缘特征的学习,多个基于自适应的Skip Connections(SASC)以及一种新颖的多尺度深度自我监督学习(DSL)方案。拟议的SDA模块中的注意机制使该模型能够自动提取不同级别的变形感知表示,并且引入的SASC路径进一步考虑了空间通道相互依存,以串联编码器和解码器单元,从而提高了表示能力。还使用包含加权版本的骰子重叠和基于边缘的连接损失的联合损失函数进行了优化的retifluidnet,其中将多尺度局部损失的几个分层阶段集成到优化过程中。该模型根据三个公开可用数据集进行验证:润饰,Optima和Duke,并与几个基线进行了比较。数据集的实验结果证明了在视网膜OCT分割中提出的模型的有效性,并揭示了建议的方法比现有的最新流体分割算法更有效,以适应各种图像扫描仪器记录的视网膜OCT扫描。
translated by 谷歌翻译
Camouflaged object detection (COD) aims to detect/segment camouflaged objects embedded in the environment, which has attracted increasing attention over the past decades. Although several COD methods have been developed, they still suffer from unsatisfactory performance due to the intrinsic similarities between the foreground objects and background surroundings. In this paper, we propose a novel Feature Aggregation and Propagation Network (FAP-Net) for camouflaged object detection. Specifically, we propose a Boundary Guidance Module (BGM) to explicitly model the boundary characteristic, which can provide boundary-enhanced features to boost the COD performance. To capture the scale variations of the camouflaged objects, we propose a Multi-scale Feature Aggregation Module (MFAM) to characterize the multi-scale information from each layer and obtain the aggregated feature representations. Furthermore, we propose a Cross-level Fusion and Propagation Module (CFPM). In the CFPM, the feature fusion part can effectively integrate the features from adjacent layers to exploit the cross-level correlations, and the feature propagation part can transmit valuable context information from the encoder to the decoder network via a gate unit. Finally, we formulate a unified and end-to-end trainable framework where cross-level features can be effectively fused and propagated for capturing rich context information. Extensive experiments on three benchmark camouflaged datasets demonstrate that our FAP-Net outperforms other state-of-the-art COD models. Moreover, our model can be extended to the polyp segmentation task, and the comparison results further validate the effectiveness of the proposed model in segmenting polyps. The source code and results will be released at https://github.com/taozh2017/FAPNet.
translated by 谷歌翻译
对医学图像的器官或病变的准确分割对于可靠的疾病和器官形态计量学的可靠诊断至关重要。近年来,卷积编码器解码器解决方案在自动医疗图像分割领域取得了重大进展。由于卷积操作中的固有偏见,先前的模型主要集中在相邻像素形成的局部视觉提示上,但无法完全对远程上下文依赖性进行建模。在本文中,我们提出了一个新型的基于变压器的注意力指导网络,称为Transattunet,其中多层引导注意力和多尺度跳过连接旨在共同增强语义分割体系结构的性能。受到变压器的启发,具有变压器自我注意力(TSA)和全球空间注意力(GSA)的自我意识注意(SAA)被纳入Transattunet中,以有效地学习编码器特征之间的非本地相互作用。此外,我们还使用解码器块之间的其他多尺度跳过连接来汇总具有不同语义尺度的上采样功能。这样,多尺度上下文信息的表示能力就可以增强以产生判别特征。从这些互补组件中受益,拟议的Transattunet可以有效地减轻卷积层堆叠和连续采样操作引起的细节损失,最终提高医学图像的细分质量。来自不同成像方式的多个医疗图像分割数据集进行了广泛的实验表明,所提出的方法始终优于最先进的基线。我们的代码和预培训模型可在以下网址找到:https://github.com/yishuliu/transattunet。
translated by 谷歌翻译
Breast cancer is one of the common cancers that endanger the health of women globally. Accurate target lesion segmentation is essential for early clinical intervention and postoperative follow-up. Recently, many convolutional neural networks (CNNs) have been proposed to segment breast tumors from ultrasound images. However, the complex ultrasound pattern and the variable tumor shape and size bring challenges to the accurate segmentation of the breast lesion. Motivated by the selective kernel convolution, we introduce an enhanced selective kernel convolution for breast tumor segmentation, which integrates multiple feature map region representations and adaptively recalibrates the weights of these feature map regions from the channel and spatial dimensions. This region recalibration strategy enables the network to focus more on high-contributing region features and mitigate the perturbation of less useful regions. Finally, the enhanced selective kernel convolution is integrated into U-net with deep supervision constraints to adaptively capture the robust representation of breast tumors. Extensive experiments with twelve state-of-the-art deep learning segmentation methods on three public breast ultrasound datasets demonstrate that our method has a more competitive segmentation performance in breast ultrasound images.
translated by 谷歌翻译
人类生理学中的各种结构遵循特异性形态,通常在非常细的尺度上表达复杂性。这种结构的例子是胸前气道,视网膜血管和肝血管。可以观察到可以观察到可以观察到可以观察到可以观察到空间排列的磁共振成像(MRI),计算机断层扫描(CT),光学相干断层扫描(OCT)等医学成像模式(MRI),计算机断层扫描(CT),可以观察到空间排列的大量2D和3D图像的集合。这些结构在医学成像中的分割非常重要,因为对结构的分析提供了对疾病诊断,治疗计划和预后的见解。放射科医生手动标记广泛的数据通常是耗时且容易出错的。结果,在过去的二十年中,自动化或半自动化的计算模型已成为医学成像的流行研究领域,迄今为止,许多计算模型已经开发出来。在这项调查中,我们旨在对当前公开可用的数据集,细分算法和评估指标进行全面审查。此外,讨论了当前的挑战和未来的研究方向。
translated by 谷歌翻译
图像运动模糊通常是由于移动物体或摄像头摇动而导致的。这种模糊通常是方向性的,不均匀。先前的研究工作试图通过使用自我注意力的自我次数多尺度或多斑架构来解决非均匀的模糊。但是,使用自我电流框架通常会导致更长的推理时间,而像素间或通道间的自我注意力可能会导致过度记忆使用。本文提出了模糊的注意力网络(BANET),该网络通过单个正向通行证完成了准确有效的脱脂。我们的Banet利用基于区域的自我注意力,并通过多内核条池汇总到不同程度的模糊模式,并具有级联的平行扩张卷积,以汇总多尺度内容特征。关于GoPro和Hide基准的广泛实验结果表明,所提出的班轮在模糊的图像修复中表现出色,并可以实时提供Deblurred结果。
translated by 谷歌翻译
人类自然有效地在复杂的场景中找到突出区域。通过这种观察的动机,引入了计算机视觉中的注意力机制,目的是模仿人类视觉系统的这一方面。这种注意机制可以基于输入图像的特征被视为动态权重调整过程。注意机制在许多视觉任务中取得了巨大的成功,包括图像分类,对象检测,语义分割,视频理解,图像生成,3D视觉,多模态任务和自我监督的学习。在本调查中,我们对计算机愿景中的各种关注机制进行了全面的审查,并根据渠道注意,空间关注,暂时关注和分支注意力进行分类。相关的存储库https://github.com/menghaoguo/awesome-vision-tions致力于收集相关的工作。我们还建议了未来的注意机制研究方向。
translated by 谷歌翻译
3D到2D视网膜血管分割是光学相干断层造影血管造影(OctA)图像中有挑战性的问题。准确的视网膜血管分割对于眼科疾病的诊断和预防是重要的。然而,充分利用Octa卷的3D数据是获得令人满意的分割结果的重要因素。在本文中,我们基于提取富有特征表示提取的注意机制,提出了一种渐进的关注增强网络(PAENET)。具体地,框架包括两个主要部分,三维特征学习路径和二维分割路径。在三维特征学习路径中,我们设计了一种新型自适应池模块(APM),并提出了一种新的四倍注意模块(QAM)。 APM沿着卷的投影方向捕获依赖关系,并学习一系列用于特征融合的池系数,从而有效地减少了特征尺寸。此外,QAM通过捕获四组交叉尺寸依赖性来重新重复该特征,这使得最大限度地使用4D特征张力。在二维分割路径中,为了获取更详细的信息,我们提出了一个特征融合模块(FFM)来将3D信息注入2D路径。同时,我们采用极化的自我关注(PSA)块分别在空间和通道尺寸中模拟语义相互依赖性。在实验上,我们在Octa-500数据集上进行了广泛的实验表明,与以前的方法相比,我们所提出的算法实现了最先进的性能。
translated by 谷歌翻译
卷积神经网络(CNN)的深度学习体系结构在计算机视野领域取得了杰出的成功。 CNN构建的编码器架构U-Net在生物医学图像分割方面取得了重大突破,并且已在各种实用的情况下应用。但是,编码器部分中每个下采样层和简单堆积的卷积的平等设计不允许U-NET从不同深度提取足够的特征信息。医学图像的复杂性日益增加为现有方法带来了新的挑战。在本文中,我们提出了一个更深层,更紧凑的分裂注意U形网络(DCSAU-NET),该网络有效地利用了基于两个新颖框架的低级和高级语义信息:主要功能保护和紧凑的分裂注意力堵塞。我们评估了CVC-ClinicDB,2018 Data Science Bowl,ISIC-2018和SEGPC-2021数据集的建议模型。结果,DCSAU-NET在联合(MIOU)和F1-SOCRE的平均交点方面显示出比其他最先进的方法(SOTA)方法更好的性能。更重要的是,提出的模型在具有挑战性的图像上表现出了出色的细分性能。我们的工作代码以及更多技术细节,请访问https://github.com/xq141839/dcsau-net。
translated by 谷歌翻译
Dunhuang murals are a collection of Chinese style and national style, forming a self-contained Chinese-style Buddhist art. It has very high historical and cultural value and research significance. Among them, the lines of Dunhuang murals are highly general and expressive. It reflects the character's distinctive character and complex inner emotions. Therefore, the outline drawing of murals is of great significance to the research of Dunhuang Culture. The contour generation of Dunhuang murals belongs to image edge detection, which is an important branch of computer vision, aims to extract salient contour information in images. Although convolution-based deep learning networks have achieved good results in image edge extraction by exploring the contextual and semantic features of images. However, with the enlargement of the receptive field, some local detail information is lost. This makes it impossible for them to generate reasonable outline drawings of murals. In this paper, we propose a novel edge detector based on self-attention combined with convolution to generate line drawings of Dunhuang murals. Compared with existing edge detection methods, firstly, a new residual self-attention and convolution mixed module (Ramix) is proposed to fuse local and global features in feature maps. Secondly, a novel densely connected backbone extraction network is designed to efficiently propagate rich edge feature information from shallow layers into deep layers. Compared with existing methods, it is shown on different public datasets that our method is able to generate sharper and richer edge maps. In addition, testing on the Dunhuang mural dataset shows that our method can achieve very competitive performance.
translated by 谷歌翻译
表面缺陷检测是确保工业产品质量的极其至关重要的步骤。如今,基于编码器架构的卷积神经网络(CNN)在各种缺陷检测任务中取得了巨大的成功。然而,由于卷积的内在局部性,它们通常在明确建模长距离相互作用时表现出限制,这对于复杂情况下的像素缺陷检测至关重要,例如杂乱的背景和难以辨认的伪缺陷。最近的变压器尤其擅长学习全球图像依赖性,但对于详细的缺陷位置所需的本地结构信息有限。为了克服上述局限性,我们提出了一个有效的混合变压器体系结构,称为缺陷变压器(faft),用于表面缺陷检测,该检测将CNN和Transferaler纳入统一模型,以协作捕获本地和非本地关系。具体而言,在编码器模块中,首先采用卷积茎块来保留更详细的空间信息。然后,贴片聚合块用于生成具有四个层次结构的多尺度表示形式,每个层次结构之后分别是一系列的feft块,该块分别包括用于本地位置编码的本地位置块,一个轻巧的多功能自我自我 - 注意与良好的计算效率建模多尺度的全球上下文关系,以及用于功能转换和进一步位置信息学习的卷积馈送网络。最后,提出了一个简单但有效的解码器模块,以从编码器中的跳过连接中逐渐恢复空间细节。与其他基于CNN的网络相比,三个数据集上的广泛实验证明了我们方法的优势和效率。
translated by 谷歌翻译
计算机辅助医学图像分割已广泛应用于诊断和治疗,以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中,基于卷积神经网络(CNN)的方法(例如,U-Net)占主导地位,但仍遭受了不足的远程信息捕获。因此,最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体,并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而,它们促进了禁止的计算成本,尤其是在3D医学图像(例如,CT和MRI)上。在本文中,我们提出了一种称为扩张变压器的新方法,该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核,我们以扩张的方式进行全球自我关注,扩大接收领域而不增加所涉及的斑块,从而降低计算成本。基于这种扩展变压器的设计,我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明,我们的D-Ager Model从头开始培训,以低计算成本从划痕训练,优于各种竞争力的CNN或基于变压器的分段模型,而不耗时的每训练过程。
translated by 谷歌翻译