重型设备制造将特定的轮廓分解为图纸,并切割钣金以缩放焊接。当前,手动实现了焊接图轮廓的大多数分割和提取。它的效率大大降低了。因此,我们提出了一种基于U-NET的轮廓分割和用于焊接工程图的提取方法。工程图纸所需的零件的轮廓可以自动划分和清空,从而大大提高了制造效率。 U-NET包括一个编码器,该编码器通过语义差异和编码器和解码器之间的空间位置特征信息实现端到端映射。尽管U-NET擅长于细分医学图像,但我们在焊接结构图数据集上进行的广泛实验表明,经典的U-NET体系结构在细分焊接工程图纸方面缺乏。因此,我们设计了一种新型的通道空间序列注意模块(CSSAM),并在经典的U-NET上进行改进。同时,提出了垂直最大池和平均水平池。通过两个相等的卷积将池操作传递到CSSAM模块中。汇总之前的输出和功能通过语义聚类融合在一起,它取代了传统的跳跃结构,并有效地缩小了编码器和解码器之间的语义差距,从而改善了焊接工程图的分割性能。我们使用VGG16作为骨干网络。与经典的U-NET相比,我们的网络在工程绘图数据集细分方面具有良好的性能。
translated by 谷歌翻译
最新的语义分段方法采用具有编码器解码器架构的U-Net框架。 U-Net仍然具有挑战性,具有简单的跳过连接方案来模拟全局多尺度上下文:1)由于编码器和解码器级的不兼容功能集的问题,并非每个跳过连接设置都是有效的,甚至一些跳过连接对分割性能产生负面影响; 2)原始U-Net比某些数据集上没有任何跳过连接的U-Net更糟糕。根据我们的调查结果,我们提出了一个名为Uctransnet的新分段框架(在U-Net中的提议CTRANS模块),从引导机制的频道视角。具体地,CTRANS模块是U-NET SKIP连接的替代,其包括与变压器(命名CCT)和子模块通道 - 明智的跨关注进行多尺度信道交叉融合的子模块(命名为CCA)以指导熔融的多尺度通道 - 明智信息,以有效地连接到解码器功能以消除歧义。因此,由CCT和CCA组成的所提出的连接能够替换原始跳过连接以解决精确的自动医学图像分割的语义间隙。实验结果表明,我们的UCTRANSNET产生更精确的分割性能,并通过涉及变压器或U形框架的不同数据集和传统架构的语义分割来实现一致的改进。代码:https://github.com/mcgregorwwwww/uctransnet。
translated by 谷歌翻译
人行道表面数据的获取和评估在路面条件评估中起着至关重要的作用。在本文中,提出了一个称为RHA-NET的自动路面裂纹分割的有效端到端网络,以提高路面裂纹分割精度。 RHA-NET是通过将残留块(重阻)和混合注意块集成到编码器架构结构中来构建的。这些重组用于提高RHA-NET提取高级抽象特征的能力。混合注意块旨在融合低级功能和高级功能,以帮助模型专注于正确的频道和裂纹区域,从而提高RHA-NET的功能表现能力。构建并用于训练和评估所提出的模型的图像数据集,其中包含由自设计的移动机器人收集的789个路面裂纹图像。与其他最先进的网络相比,所提出的模型在全面的消融研究中验证了添加残留块和混合注意机制的功能。此外,通过引入深度可分离卷积生成的模型的轻加权版本可以更好地实现性能和更快的处理速度,而U-NET参数数量的1/30。开发的系统可以在嵌入式设备Jetson TX2(25 fps)上实时划分路面裂纹。实时实验拍摄的视频将在https://youtu.be/3xiogk0fig4上发布。
translated by 谷歌翻译
In recent years, object detection has achieved a very large performance improvement, but the detection result of small objects is still not very satisfactory. This work proposes a strategy based on feature fusion and dilated convolution that employs dilated convolution to broaden the receptive field of feature maps at various scales in order to address this issue. On the one hand, it can improve the detection accuracy of larger objects. On the other hand, it provides more contextual information for small objects, which is beneficial to improving the detection accuracy of small objects. The shallow semantic information of small objects is obtained by filtering out the noise in the feature map, and the feature information of more small objects is preserved by using multi-scale fusion feature module and attention mechanism. The fusion of these shallow feature information and deep semantic information can generate richer feature maps for small object detection. Experiments show that this method can have higher accuracy than the traditional YOLOv3 network in the detection of small objects and occluded objects. In addition, we achieve 32.8\% Mean Average Precision on the detection of small objects on MS COCO2017 test set. For 640*640 input, this method has 88.76\% mAP on the PASCAL VOC2012 dataset.
translated by 谷歌翻译
医疗图像分割有助于计算机辅助诊断,手术和治疗。数字化组织载玻片图像用于分析和分段腺,核和其他生物标志物,这些标志物进一步用于计算机辅助医疗应用中。为此,许多研究人员开发了不同的神经网络来对组织学图像进行分割,主要是这些网络基于编码器编码器体系结构,并且还利用了复杂的注意力模块或变压器。但是,这些网络不太准确地捕获相关的本地和全局特征,并在多个尺度下具有准确的边界检测,因此,我们提出了一个编码器折叠网络,快速注意模块和多损耗函数(二进制交叉熵(BCE)损失的组合) ,焦点损失和骰子损失)。我们在两个公开可用数据集上评估了我们提出的网络的概括能力,用于医疗图像分割Monuseg和Glas,并胜过最先进的网络,在Monuseg数据集上提高了1.99%的提高,而GLAS数据集则提高了7.15%。实施代码可在此链接上获得:https://bit.ly/histoseg
translated by 谷歌翻译
肝脏的准确细分是诊断疾病的先决条件。自动分割是计算机辅助检测和肝病诊断的重要应用。近年来,医学图像的自动化处理已经取得了突破。然而,腹部扫描CT图像的低对比度和肝脏形态的复杂性使得精确的自动分割具有挑战性。在本文中,我们提出了RA V-NET,这是基于U-Net的改进的医学图像自动分割模型。它有以下三个主要创新。建议Cofres模块(复合原始功能剩余模块)。通过更复杂的卷积层和跳过连接,使其获得更高级别的图像特征提取功能并防止梯度消失或爆炸。建议AR模块(注意恢复模块)以减少模型的计算工作。另外,通过调整通道和LSTM卷积来感测编码和解码模块的数据像素之间的空间特征。最后,有效地保留了图像特征。介绍了CA模块(通道注意模块),用于提取具有依赖性的相关通道,并通过矩阵点产品加强它们,同时在没有依赖性的情况下削弱无关的通道。达到关注的目的。 LSTM卷积和CA模块提供的注意机制是强证神经网络性能的保证。 U-Net网络的准确性:0.9862,精确度:0.9118,DSC:0.8547,JSC:0.82。 RA V-NET的评估指标,精度:0.9968,精确度:0.9597,DSC:0.9654,JSC:0.9414。分割效果的最代表性度量是DSC,其在U-NET上改善0.1107,JSC改善0.1214。
translated by 谷歌翻译
Mitosis nuclei count is one of the important indicators for the pathological diagnosis of breast cancer. The manual annotation needs experienced pathologists, which is very time-consuming and inefficient. With the development of deep learning methods, some models with good performance have emerged, but the generalization ability should be further strengthened. In this paper, we propose a two-stage mitosis segmentation and classification method, named SCMitosis. Firstly, the segmentation performance with a high recall rate is achieved by the proposed depthwise separable convolution residual block and channel-spatial attention gate. Then, a classification network is cascaded to further improve the detection performance of mitosis nuclei. The proposed model is verified on the ICPR 2012 dataset, and the highest F-score value of 0.8687 is obtained compared with the current state-of-the-art algorithms. In addition, the model also achieves good performance on GZMH dataset, which is prepared by our group and will be firstly released with the publication of this paper. The code will be available at: https://github.com/antifen/mitosis-nuclei-segmentation.
translated by 谷歌翻译
图像语义分割技术是了解自然场景的智能系统的关键技术之一。作为视野中的重要研究方向之一,该技术在移动机器人,无人机,智能驾驶和智能安全领域具有广泛的应用场景。然而,在移动机器人的实际应用中,可能发生诸如不准确的分割语义标记预测和分段对象和背景的边缘信息丢失的问题。本文提出了一种基于深度学习网络的语义分割网络的改进结构,该网络结合了自我关注神经网络和神经网络架构搜索方法。首先,使用神经网络搜索方法NAS(神经结构搜索)来查找具有多个分辨率分支的语义分段网络。在搜索过程中,组合自我关注网络结构模块来调整搜索的神经网络结构,然后将由不同分支搜索的语义分段网络组合形成快速语义分段网络结构,并将图像输入到网络结构中输入到网络结构中获得最终预测结果。 CityScapes数据集上的实验结果表明,算法的准确性为69.8%,分割速度为48 / s。它在实时和准确性之间实现了良好的平衡,可以优化边缘分割,并且在复杂的场景中具有更好的性能。良好的稳健性适用于实际应用。
translated by 谷歌翻译
由于不规则的形状,正常和感染组织之间的各种尺寸和无法区分的边界,仍然是一种具有挑战性的任务,可以准确地在CT图像上进行Covid-19的感染病变。在本文中,提出了一种新的分段方案,用于通过增强基于编码器 - 解码器架构的不同级别的监督信息和融合多尺度特征映射来感染Covid-19。为此,提出了深入的协作监督(共同监督)计划,以指导网络学习边缘和语义的特征。更具体地,首先设计边缘监控模块(ESM),以通过将边缘监督信息结合到初始阶段的下采样的初始阶段来突出显示低电平边界特征。同时,提出了一种辅助语义监督模块(ASSM)来加强通过将掩码监督信息集成到稍后阶段来加强高电平语义信息。然后,通过使用注意机制来扩展高级和低电平特征映射之间的语义间隙,开发了一种注意融合模块(AFM)以融合不同级别的多个规模特征图。最后,在四个各种Covid-19 CT数据集上证明了所提出的方案的有效性。结果表明,提出的三个模块都是有希望的。基于基线(RESUNT),单独使用ESM,ASSM或AFM可以分别将骰子度量增加1.12 \%,1.95 \%,1.63 \%,而在我们的数据集中,通过将三个模型结合在一起可以上升3.97 \% 。与各个数据集的现有方法相比,所提出的方法可以在某些主要指标中获得更好的分段性能,并可实现最佳的泛化和全面的性能。
translated by 谷歌翻译
Dunhuang murals are a collection of Chinese style and national style, forming a self-contained Chinese-style Buddhist art. It has very high historical and cultural value and research significance. Among them, the lines of Dunhuang murals are highly general and expressive. It reflects the character's distinctive character and complex inner emotions. Therefore, the outline drawing of murals is of great significance to the research of Dunhuang Culture. The contour generation of Dunhuang murals belongs to image edge detection, which is an important branch of computer vision, aims to extract salient contour information in images. Although convolution-based deep learning networks have achieved good results in image edge extraction by exploring the contextual and semantic features of images. However, with the enlargement of the receptive field, some local detail information is lost. This makes it impossible for them to generate reasonable outline drawings of murals. In this paper, we propose a novel edge detector based on self-attention combined with convolution to generate line drawings of Dunhuang murals. Compared with existing edge detection methods, firstly, a new residual self-attention and convolution mixed module (Ramix) is proposed to fuse local and global features in feature maps. Secondly, a novel densely connected backbone extraction network is designed to efficiently propagate rich edge feature information from shallow layers into deep layers. Compared with existing methods, it is shown on different public datasets that our method is able to generate sharper and richer edge maps. In addition, testing on the Dunhuang mural dataset shows that our method can achieve very competitive performance.
translated by 谷歌翻译
可驱动区域的实时分割在完成汽车的自主感知中起着至关重要的作用。最近,使用深度学习的图像分割模型开发了一些快速的进步。但是,大多数进步都是在模型架构设计中取得的。在解决与细分有关的任何有监督的深度学习问题时,一个人构建的模型的成功取决于我们用于该模型的输入培训数据的数量和质量。该数据应包含良好的各种图像,以更好地工作分割模型。与数据集中的注释有关的问题可能会导致该模型在测试和验证中的压倒性I型和II型错误中得出结论,在试图解决现实世界问题时造成恶意问题。为了解决这个问题并使我们的模型更加准确,动态和健壮,数据增强涉及使用,因为它有助于扩展我们的样本培训数据并使其更好,整体上更加多样化。因此,在我们的研究中,我们专注于通过分析预先存在的图像数据集并相应地进行增强来研究数据增强的好处。我们的结果表明,现有最新模型(或SOTA)模型的性能和鲁棒性可以大大增加,而不会增加模型复杂性或推理时间。仅在对当今广泛使用中的其他几种增强方法和策略进行彻底研究及其相应的效果之后,仅在本文中决定并使用的增强作用。我们所有的结果都在广泛使用的CityScapes数据集上报告。
translated by 谷歌翻译
现代的高性能语义分割方法采用沉重的主链和扩张的卷积来提取相关特征。尽管使用上下文和语义信息提取功能对于分割任务至关重要,但它为实时应用程序带来了内存足迹和高计算成本。本文提出了一种新模型,以实现实时道路场景语义细分的准确性/速度之间的权衡。具体来说,我们提出了一个名为“比例吸引的条带引导特征金字塔网络”(s \ textsuperscript {2} -fpn)的轻巧模型。我们的网络由三个主要模块组成:注意金字塔融合(APF)模块,比例吸引条带注意模块(SSAM)和全局特征Upsample(GFU)模块。 APF采用了注意力机制来学习判别性多尺度特征,并有助于缩小不同级别之间的语义差距。 APF使用量表感知的关注来用垂直剥离操作编码全局上下文,并建模长期依赖性,这有助于将像素与类似的语义标签相关联。此外,APF还采用频道重新加权块(CRB)来强调频道功能。最后,S \ TextSuperScript {2} -fpn的解码器然后采用GFU,该GFU用于融合APF和编码器的功能。已经对两个具有挑战性的语义分割基准进行了广泛的实验,这表明我们的方法通过不同的模型设置实现了更好的准确性/速度权衡。提出的模型已在CityScapes Dataset上实现了76.2 \%miou/87.3fps,77.4 \%miou/67fps和77.8 \%miou/30.5fps,以及69.6 \%miou,71.0 miou,71.0 \%miou,和74.2 \%\%\%\%\%\%。 miou在Camvid数据集上。这项工作的代码将在\ url {https://github.com/mohamedac29/s2-fpn提供。
translated by 谷歌翻译
近年来,基于深度卷积神经网络(CNN)的细分方法已为许多医学分析任务做出了最先进的成就。但是,这些方法中的大多数通过优化结构或添加U-NET的新功能模块来改善性能,从而忽略了粗粒和细粒的语义信息的互补和融合。为了解决上述问题,我们提出了一个称为渐进学习网络​​(PL-NET)的医学图像分割框架,其中包括内部渐进式学习(IPL)和外部渐进学习(EPL)。 PL-NET具有以下优点:(1)IPL将特征提取为两个“步骤”,它们可以混合不同尺寸的接收场并捕获从粗粒度到细粒度的语义信息,而无需引入其他参数; (2)EPL将训练过程分为两个“阶段”以优化参数,并在上一阶段中实现粗粒信息的融合,并在后期阶段进行细粒度。我们在不同的医学图像分析任务中评估了我们的方法,结果表明,PL-NET的分割性能优于U-NET及其变体的最新方法。
translated by 谷歌翻译
语义分割是自主车辆了解周围场景的关键技术。当代模型的吸引力表现通常以牺牲重计算和冗长的推理时间为代价,这对于自行车来说是无法忍受的。在低分辨率图像上使用轻量级架构(编码器 - 解码器或双路)或推理,最近的方法实现了非常快的场景解析,即使在单个1080TI GPU上以100多件FPS运行。然而,这些实时方法与基于扩张骨架的模型之间的性能仍有显着差距。为了解决这个问题,我们提出了一家专门为实时语义细分设计的高效底座。所提出的深层双分辨率网络(DDRNET)由两个深部分支组成,之间进行多个双边融合。此外,我们设计了一个名为Deep聚合金字塔池(DAPPM)的新上下文信息提取器,以基于低分辨率特征映射放大有效的接收字段和熔丝多尺度上下文。我们的方法在城市景观和Camvid数据集上的准确性和速度之间实现了新的最先进的权衡。特别是,在单一的2080Ti GPU上,DDRNET-23-Slim在Camvid测试组上的Citycapes试验组102 FPS上的102 FPS,74.7%Miou。通过广泛使用的测试增强,我们的方法优于最先进的模型,需要计算得多。 CODES和培训的型号在线提供。
translated by 谷歌翻译
肝癌是世界上最常见的恶性疾病之一。 CT图像中肝脏肿瘤和血管的分割和标记可以为肝脏肿瘤诊断和手术干预中的医生提供便利。在过去的几十年中,基于深度学习的自动CT分段方法在医学领域得到了广泛的关注。在此期间出现了许多最先进的分段算法。然而,大多数现有的分割方法只关心局部特征背景,并在医学图像的全局相关性中具有感知缺陷,这显着影响了肝脏肿瘤和血管的分割效果。我们引入了一种基于变压器和SebottLenet的多尺度特征上下文融合网络,称为TransFusionNet。该网络可以准确地检测和识别肝脏容器的兴趣区域的细节,同时它可以通过利用CT图像的全球信息来改善肝肿瘤的形态边缘的识别。实验表明,TransFusionNet优于公共数据集LITS和3DIRCADB以及我们的临床数据集的最先进方法。最后,我们提出了一种基于训练模型的自动三维重建算法。该算法可以在1秒内快速准确地完成重建。
translated by 谷歌翻译
The lack of efficient segmentation methods and fully-labeled datasets limits the comprehensive assessment of optical coherence tomography angiography (OCTA) microstructures like retinal vessel network (RVN) and foveal avascular zone (FAZ), which are of great value in ophthalmic and systematic diseases evaluation. Here, we introduce an innovative OCTA microstructure segmentation network (OMSN) by combining an encoder-decoder-based architecture with multi-scale skip connections and the split-attention-based residual network ResNeSt, paying specific attention to OCTA microstructural features while facilitating better model convergence and feature representations. The proposed OMSN achieves excellent single/multi-task performances for RVN or/and FAZ segmentation. Especially, the evaluation metrics on multi-task models outperform single-task models on the same dataset. On this basis, a fully annotated retinal OCTA segmentation (FAROS) dataset is constructed semi-automatically, filling the vacancy of a pixel-level fully-labeled OCTA dataset. OMSN multi-task segmentation model retrained with FAROS further certifies its outstanding accuracy for simultaneous RVN and FAZ segmentation.
translated by 谷歌翻译
卷积神经网络(CNN)的深度学习体系结构在计算机视野领域取得了杰出的成功。 CNN构建的编码器架构U-Net在生物医学图像分割方面取得了重大突破,并且已在各种实用的情况下应用。但是,编码器部分中每个下采样层和简单堆积的卷积的平等设计不允许U-NET从不同深度提取足够的特征信息。医学图像的复杂性日益增加为现有方法带来了新的挑战。在本文中,我们提出了一个更深层,更紧凑的分裂注意U形网络(DCSAU-NET),该网络有效地利用了基于两个新颖框架的低级和高级语义信息:主要功能保护和紧凑的分裂注意力堵塞。我们评估了CVC-ClinicDB,2018 Data Science Bowl,ISIC-2018和SEGPC-2021数据集的建议模型。结果,DCSAU-NET在联合(MIOU)和F1-SOCRE的平均交点方面显示出比其他最先进的方法(SOTA)方法更好的性能。更重要的是,提出的模型在具有挑战性的图像上表现出了出色的细分性能。我们的工作代码以及更多技术细节,请访问https://github.com/xq141839/dcsau-net。
translated by 谷歌翻译
利用深度学习的水提取需要精确的像素级标签。然而,在像素级别标记高分辨率遥感图像非常困难。因此,我们研究如何利用点标签来提取水体并提出一种名为邻居特征聚合网络(NFANET)的新方法。与PixelLevel标签相比,Point标签更容易获得,但它们会失去许多信息。在本文中,我们利用了局部水体的相邻像素之间的相似性,并提出了邻居采样器来重塑遥感图像。然后,将采样的图像发送到网络以进行特征聚合。此外,我们使用改进的递归训练算法进一步提高提取精度,使水边界更加自然。此外,我们的方法利用相邻特征而不是全局或本地特征来学习更多代表性。实验结果表明,所提出的NFANET方法不仅优于其他研究的弱监管方法,而且还获得与最先进的结果相似。
translated by 谷歌翻译
Semantic segmentation of UAV aerial remote sensing images provides a more efficient and convenient surveying and mapping method for traditional surveying and mapping. In order to make the model lightweight and improve a certain accuracy, this research developed a new lightweight and efficient network for the extraction of ground features from UAV aerial remote sensing images, called LDMCNet. Meanwhile, this research develops a powerful lightweight backbone network for the proposed semantic segmentation model. It is called LDCNet, and it is hoped that it can become the backbone network of a new generation of lightweight semantic segmentation algorithms. The proposed model uses dual multi-scale context modules, namely the Atrous Space Pyramid Pooling module (ASPP) and the Object Context Representation module (OCR). In addition, this research constructs a private dataset for semantic segmentation of aerial remote sensing images from drones. This data set contains 2431 training sets, 945 validation sets, and 475 test sets. The proposed model performs well on this dataset, with only 1.4M parameters and 5.48G floating-point operations (FLOPs), achieving an average intersection-over-union ratio (mIoU) of 71.12%. 7.88% higher than the baseline model. In order to verify the effectiveness of the proposed model, training on the public datasets "LoveDA" and "CITY-OSM" also achieved excellent results, achieving mIoU of 65.27% and 74.39%, respectively.
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像分割,并且录制了录制了该领域深度学习的成功的大量论文。在本文中,我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先,与传统调查相比,直接将深度学习的文献分成医学图像分割的文学,并为每组详细介绍了文献,我们根据从粗略到精细的多级结构分类目前流行的文献。其次,本文侧重于监督和弱监督的学习方法,而不包括无监督的方法,因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法,我们分析了三个方面的文献:骨干网络的选择,网络块的设计,以及损耗功能的改进。对于虚弱的学习方法,我们根据数据增强,转移学习和交互式分割进行调查文献。与现有调查相比,本调查将文献分类为比例不同,更方便读者了解相关理由,并将引导他们基于深度学习方法思考医学图像分割的适当改进。
translated by 谷歌翻译