智能论文笔记

ESFPNet: efficient deep learning architecture for real-time lesion segmentation in autofluorescence bronchoscopic video

Qi Chang , Danish Ahmad , Jennifer Toth , Rebecca Bascom , William E. Higgins

分类：计算机视觉

2022-07-15

肺癌往往在晚期检测到，导致患者死亡率高。因此，最近的研究集中在早期疾病检测上。肺癌通常首先出现在气道壁的支气管上皮内发生的病变。支气管镜检查是有效无创支气化病变检测的选择程序。特别是，自身荧光支气管镜检查（AFB）区分了正常组织和患病组织的自荧光特性，在AFB视频帧中，病变在AFB视频帧中显得红棕色，而正常组织则为绿色。由于最近的研究表明AFB具有高病变敏感性的能力，因此在标准的支气管镜呼吸道考试中，它已成为一种潜在的关键方法，用于早期肺癌检测。不幸的是，对AFB视频的手动检查非常乏味且容易出错，而有限的努力已花费在可能更健壮的自动AFB病变检测和细分方面。我们提出了一个实时的深度学习体系结构ESFPNET，用于从AFB视频流中对支气管病变的强大检测和分割。该体系结构具有编码器结构，该结构可利用预审计的混合变压器（MIT）编码器和阶段特征金字塔（ESFP）解码器结构。来自肺癌患者气道考试的AFB视频的结果表明，我们的方法分别给出了平均骰子指数和0.782和0.658的IOU值，而处理吞吐量为27帧/秒。这些值优于使用混合变压器或基于CNN的编码器的其他竞争体系结构获得的结果。此外，ETIS-LaribpolypDB数据集的出色性能证明了其对其他域的潜在适用性。

translated by 谷歌翻译

DuAT: Dual-Aggregation Transformer Network for Medical Image Segmentation

Feilong Tang , Qiming Huang , Jinfeng Wang , Xianxu Hou , Jionglong Su , Jingxin Liu

分类：计算机视觉

2022-12-21

Transformer-based models have been widely demonstrated to be successful in computer vision tasks by modelling long-range dependencies and capturing global representations. However, they are often dominated by features of large patterns leading to the loss of local details (e.g., boundaries and small objects), which are critical in medical image segmentation. To alleviate this problem, we propose a Dual-Aggregation Transformer Network called DuAT, which is characterized by two innovative designs, namely, the Global-to-Local Spatial Aggregation (GLSA) and Selective Boundary Aggregation (SBA) modules. The GLSA has the ability to aggregate and represent both global and local spatial features, which are beneficial for locating large and small objects, respectively. The SBA module is used to aggregate the boundary characteristic from low-level features and semantic information from high-level features for better preserving boundary details and locating the re-calibration objects. Extensive experiments in six benchmark datasets demonstrate that our proposed model outperforms state-of-the-art methods in the segmentation of skin lesion images, and polyps in colonoscopy images. In addition, our approach is more robust than existing methods in various challenging situations such as small object segmentation and ambiguous object boundaries.

translated by 谷歌翻译

ColonFormer: An Efficient Transformer based Method for Colon Polyp Segmentation

Nguyen Thanh Duc , Nguyen Thi Oanh , Nguyen Thi Thuy , Tran Minh Triet , Dinh Viet Sang

分类：计算机视觉

2022-05-17

识别息肉对于在计算机辅助临床支持系统中自动分析内窥镜图像的自动分析具有挑战性。已经提出了基于卷积网络（CNN），变压器及其组合的模型，以分割息肉以有希望的结果。但是，这些方法在模拟息肉的局部外观方面存在局限性，或者在解码过程中缺乏用于空间依赖性的多层次特征。本文提出了一个新颖的网络，即结肠形式，以解决这些局限性。 Colonformer是一种编码器架构，能够在编码器和解码器分支上对远程语义信息进行建模。编码器是一种基于变压器的轻量级体系结构，用于在多尺度上建模全局语义关系。解码器是一种层次结构结构，旨在学习多层功能以丰富特征表示。此外，添加了一个新的Skip连接技术，以完善整体地图中的息肉对象的边界以进行精确分割。已经在五个流行的基准数据集上进行了广泛的实验，以进行息肉分割，包括Kvasir，CVC-Clinic DB，CVC-ColondB，CVC-T和Etis-Larib。实验结果表明，我们的结肠构造者在所有基准数据集上的表现优于其他最先进的方法。

translated by 谷歌翻译

DSNet: a simple yet efficient network with dual-stream attention for lesion segmentation

Yunxiao Liu

分类：计算机视觉

2022-11-30

Lesion segmentation requires both speed and accuracy. In this paper, we propose a simple yet efficient network DSNet, which consists of a encoder based on Transformer and a convolutional neural network(CNN)-based distinct pyramid decoder containing three dual-stream attention (DSA) modules. Specifically, the DSA module fuses features from two adjacent levels through the false positive stream attention (FPSA) branch and the false negative stream attention (FNSA) branch to obtain features with diversified contextual information. We compare our method with various state-of-the-art (SOTA) lesion segmentation methods with several public datasets, including CVC-ClinicDB, Kvasir-SEG, and ISIC-2018 Task 1. The experimental results show that our method achieves SOTA performance in terms of mean Dice coefficient (mDice) and mean Intersection over Union (mIoU) with low model complexity and memory consumption.

translated by 谷歌翻译

TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism for a Deep Segmentation Model

Reza Azad , Mohammad T. AL-Antary , Moein Heidari , Dorit Merhof

分类：计算机视觉

2022-07-27

在过去的几年中，卷积神经网络（CNN），尤其是U-NET，一直是医学图像处理时代的流行技术。具体而言，开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是，这些体系结构在本质上是不完美的，因为它们无法表现出长距离相互作用和空间依赖性，从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构，以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计，但利用纯变压器来进行图像分割目的，可能导致限制的定位容量，导致低级功能不足。因此，一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中，我们提出了Trans-Norm，这是一种新型的深层分割框架，它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为，跳过连接的方便设计对于准确的分割至关重要，因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面，我们从变压器模块中得出了一种空间归一化机制，以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验，证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。

translated by 谷歌翻译

TransAttUnet: Multi-level Attention-guided U-Net with Transformer for Medical Image Segmentation

Bingzhi Chen , Yishu Liu , Zheng Zhang , Guangming Lu , Adams Wai Kin Kong

分类：计算机视觉

2021-07-12

对医学图像的器官或病变的准确分割对于可靠的疾病和器官形态计量学的可靠诊断至关重要。近年来，卷积编码器解码器解决方案在自动医疗图像分割领域取得了重大进展。由于卷积操作中的固有偏见，先前的模型主要集中在相邻像素形成的局部视觉提示上，但无法完全对远程上下文依赖性进行建模。在本文中，我们提出了一个新型的基于变压器的注意力指导网络，称为Transattunet，其中多层引导注意力和多尺度跳过连接旨在共同增强语义分割体系结构的性能。受到变压器的启发，具有变压器自我注意力（TSA）和全球空间注意力（GSA）的自我意识注意（SAA）被纳入Transattunet中，以有效地学习编码器特征之间的非本地相互作用。此外，我们还使用解码器块之间的其他多尺度跳过连接来汇总具有不同语义尺度的上采样功能。这样，多尺度上下文信息的表示能力就可以增强以产生判别特征。从这些互补组件中受益，拟议的Transattunet可以有效地减轻卷积层堆叠和连续采样操作引起的细节损失，最终提高医学图像的细分质量。来自不同成像方式的多个医疗图像分割数据集进行了广泛的实验表明，所提出的方法始终优于最先进的基线。我们的代码和预培训模型可在以下网址找到：https：//github.com/yishuliu/transattunet。

translated by 谷歌翻译

CaraNet: Context Axial Reverse Attention Network for Segmentation of Small Medical Objects

Ange Lou , Shuyue Guan , Murray Loew

分类：计算机视觉

2021-08-16

精确可靠地分割医学图像对于疾病诊断和治疗是重要的。由于各种各样的物体尺寸，形状和扫描方式，这是一个具有挑战性的任务。最近，许多卷积神经网络（CNN）设计用于分割任务，取得了巨大的成功。然而，很少有研究完全考虑了物体的大小，因此大多数表现出对小物体分割的分割的性能不佳。这对早期检测疾病产生重大影响。本文提出了一种上下文轴向储备注意网络（Caranet），与最近最先进的模型相比，在小对象上提高小物体的分割性能。我们在脑肿瘤（Brats 2018）和息肉（Kvasir-Seg，CVC-Colondb，CVC-ClinicDB，CVC-300和ETIS-LaribpolypdB）进行测试。我们的加麻不仅达到了顶级的骰子分割精度，而且还显示出小医疗物体的分割的明显优势。

translated by 谷歌翻译

HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

Moein Heidari , Amirhossein Kazerouni , Milad Soltany , Reza Azad , Ehsan Khodapanah Aghdam , Julien Cohen-Adad , Dorit Merhof

分类：计算机视觉 | 人工智能

2022-07-18

卷积神经网络（CNN）已成为医疗图像分割任务的共识。但是，由于卷积操作的性质，它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题，但它们未能捕获低级功能。相比之下，证明本地和全球特征对于密集的预测至关重要，例如在具有挑战性的环境中细分。在本文中，我们提出了一种新型方法，该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言，我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合，我们建议在编码器编码器结构的跳过连接中提出一个双层融合（DLF）模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的，基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取：https：//github.com/amirhossein-kz/hiformer

translated by 谷歌翻译

BCS-Net: Boundary, Context and Semantic for Automatic COVID-19 Lung Infection Segmentation from CT Images

Runmin Cong , Haowei Yang , Qiuping Jiang , Wei Gao , Haisheng Li , Cong Wang , Yao Zhao , Sam Kwong

分类：计算机视觉

2022-07-17

Covid-19的传播给世界带来了巨大的灾难，自动分割感染区域可以帮助医生快速诊断并减少工作量。但是，准确和完整的分割面临一些挑战，例如散射的感染区分布，复杂的背景噪声和模糊的分割边界。为此，在本文中，我们提出了一个新的网络，用于从CT图像（名为BCS-NET）的自动covid-19肺部感染分割，该网络考虑了边界，上下文和语义属性。 BCS-NET遵循编码器架构，更多的设计集中在解码器阶段，该阶段包括三个逐渐边界上下文 - 语义重建（BCSR）块。在每个BCSR块中，注意引导的全局上下文（AGGC）模块旨在通过突出显示重要的空间和边界位置并建模全局上下文依赖性来学习解码器最有价值的编码器功能。此外，语义指南（SG）单元通过在中间分辨率上汇总多规模的高级特征来生成语义指南图来完善解码器特征。广泛的实验表明，我们提出的框架在定性和定量上都优于现有竞争对手。

translated by 谷歌翻译

Stepwise Feature Fusion: Local Guides Global

Jinfeng Wang , Qiming Huang , Feilong Tang , Jia Meng , Jionglong Su , Sifan Song

分类：计算机视觉

2022-03-07

Colonoscopy, currently the most efficient and recognized colon polyp detection technology, is necessary for early screening and prevention of colorectal cancer. However, due to the varying size and complex morphological features of colonic polyps as well as the indistinct boundary between polyps and mucosa, accurate segmentation of polyps is still challenging. Deep learning has become popular for accurate polyp segmentation tasks with excellent results. However, due to the structure of polyps image and the varying shapes of polyps, it is easy for existing deep learning models to overfit the current dataset. As a result, the model may not process unseen colonoscopy data. To address this, we propose a new state-of-the-art model for medical image segmentation, the SSFormer, which uses a pyramid Transformer encoder to improve the generalization ability of models. Specifically, our proposed Progressive Locality Decoder can be adapted to the pyramid Transformer backbone to emphasize local features and restrict attention dispersion. The SSFormer achieves stateof-the-art performance in both learning and generalization assessment.

translated by 谷歌翻译

Medical Image Segmentation Using Deep Learning: A Survey

Risheng Wang , Tao Lei , Ruixia Cui , Bingtao Zhang , Hongying Meng , Asoke K. Nandi

分类：计算机视觉

2020-09-28

深度学习已被广泛用于医学图像分割，并且录制了录制了该领域深度学习的成功的大量论文。在本文中，我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先，与传统调查相比，直接将深度学习的文献分成医学图像分割的文学，并为每组详细介绍了文献，我们根据从粗略到精细的多级结构分类目前流行的文献。其次，本文侧重于监督和弱监督的学习方法，而不包括无监督的方法，因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法，我们分析了三个方面的文献：骨干网络的选择，网络块的设计，以及损耗功能的改进。对于虚弱的学习方法，我们根据数据增强，转移学习和交互式分割进行调查文献。与现有调查相比，本调查将文献分类为比例不同，更方便读者了解相关理由，并将引导他们基于深度学习方法思考医学图像分割的适当改进。

translated by 谷歌翻译

DCSAU-Net: A Deeper and More Compact Split-Attention U-Net for Medical Image Segmentation

Qing Xu , Zhicheng Ma , Na HE , Wenting Duan

分类：计算机视觉 | 机器学习

2022-02-02

卷积神经网络（CNN）的深度学习体系结构在计算机视野领域取得了杰出的成功。 CNN构建的编码器架构U-Net在生物医学图像分割方面取得了重大突破，并且已在各种实用的情况下应用。但是，编码器部分中每个下采样层和简单堆积的卷积的平等设计不允许U-NET从不同深度提取足够的特征信息。医学图像的复杂性日益增加为现有方法带来了新的挑战。在本文中，我们提出了一个更深层，更紧凑的分裂注意U形网络（DCSAU-NET），该网络有效地利用了基于两个新颖框架的低级和高级语义信息：主要功能保护和紧凑的分裂注意力堵塞。我们评估了CVC-ClinicDB，2018 Data Science Bowl，ISIC-2018和SEGPC-2021数据集的建议模型。结果，DCSAU-NET在联合（MIOU）和F1-SOCRE的平均交点方面显示出比其他最先进的方法（SOTA）方法更好的性能。更重要的是，提出的模型在具有挑战性的图像上表现出了出色的细分性能。我们的工作代码以及更多技术细节，请访问https://github.com/xq141839/dcsau-net。

translated by 谷歌翻译

Real-time Instance Segmentation of Surgical Instruments using Attention and Multi-scale Feature Fusion

Juan Carlos Angeles-Ceron , Gilberto Ochoa-Ruiz , Leonardo Chang , Sharib Ali

分类：计算机视觉

2021-11-09

精确的仪器分割辅助外科医生更容易导航身体并提高患者安全性。虽然在实时的准确跟踪外科手术仪器在微创的计算机辅助手术中起着至关重要的作用，但这是一个具有挑战性的任务，主要是由于1个复杂的外科环境和2）模型设计，具有最佳的精度和速度。深度学习使我们有机会从大型手术场景环境和在现实世界的情景中学习复杂的环境和这些仪器的展示位置。稳健的医疗仪器分割2019挑战（鲁棒MIS）在不同的临床环境中提供了超过10,000帧的手术工具。在本文中，我们使用轻量级单级实例分段模型，辅助卷积块注意模块，用于实现更快和准确的推理。我们通过数据增强和最佳锚定本地化策略进一步提高了准确性。据我们所知，这是第一个明确关注实时性能和提高准确性的工作。我们在强大的策略中进行了彻底的最高团队表演，对基于区域的公制MI_DSC和距离的公制MI_DSD有超过44％。我们还展示了我们最终方法的不同但竞争变种的实时性能（> 60帧框架）。

translated by 谷歌翻译

LViT: Language meets Vision Transformer in Medical Image Segmentation

Zihan Li , Yunxiang Li , Qingde Li , You Zhang , Puyang Wang , Dazhou Guo , Le Lu , Dakai Jin , Qingqi Hong

分类：计算机视觉

2022-06-29

深度学习已被广泛用于医学图像细分和其他方面。但是，现有的医学图像分割模型的性能受到获得足够数量的高质量数据的挑战的限制。为了克服限制，我们提出了一个新的视觉医学图像分割模型LVIT（语言符合视觉变压器）。在我们的模型中，引入了医学文本注释，以弥补图像数据的质量缺陷。此外，文本信息可以在一定程度上指导伪标签的产生，并进一步保证半监督学习中伪标签的质量。我们还提出了指数伪标签迭代机制（EPI），以帮助扩展LVIT和像素级注意模块（PLAM）的半监督版本，以保留图像的局部特征。在我们的模型中，LV（语言视觉）损失旨在直接使用文本信息监督未标记图像的培训。为了验证LVIT的性能，我们构建了包含病理图像，X射线等的多模式医学分割数据集（图像 +文本）。实验结果表明，我们提出的LVIT在完全和半监督条件下具有更好的分割性能。代码和数据集可在https://github.com/huanglizi/lvit上找到。

translated by 谷歌翻译

Transformers in Medical Image Analysis: A Review

Kelei He , Chen Gan , Zhuoyuan Li , Islem Rekik , Zihao Yin , Wen Ji , Yang Gao , Qian Wang , Junfeng Zhang , Dinggang Shen

分类：计算机视觉

2022-02-24

变形金刚占据了自然语言处理领域，最近影响了计算机视觉区域。在医学图像分析领域中，变压器也已成功应用于全栈临床应用，包括图像合成/重建，注册，分割，检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言，我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次，我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构，并讨论其局限性。在这篇综述中，我们调查了围绕在不同学习范式中使用变压器，提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。

translated by 谷歌翻译

Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers

Bo Dong , Wenhai Wang , Deng-Ping Fan , Jinpeng Li , Huazhu Fu , Ling Shao

分类：计算机视觉

2021-08-16

大多数息肉分段方法使用CNNS作为其骨干，导致在编码器和解码器之间的信息交换信息时的两个关键问题：1）考虑到不同级别特征之间的贡献的差异; 2）设计有效机制，以融合这些功能。不同于现有的基于CNN的方法，我们采用了一个变压器编码器，它学会了更强大和强大的表示。此外，考虑到息肉的图像采集影响和难以实现的性质，我们介绍了三种新模块，包括级联融合模块（CFM），伪装识别模块（CIM），A和相似性聚集模块（SAM）。其中，CFM用于从高级功能收集息肉的语义和位置信息，而CIM应用于在低级功能中伪装的息肉信息。在SAM的帮助下，我们将息肉区域的像素特征扩展到整个息肉区域的高电平语义位置信息，从而有效地融合了交叉级别特征。所提出的模型名为Polyp-PVT，有效地抑制了特征中的噪声，并显着提高了他们的表现力。在五个广泛采用的数据集上进行了广泛的实验表明，所提出的模型对各种具有挑战性的情况（例如，外观变化，小物体）比现有方法更加强大，并实现了新的最先进的性能。拟议的模型可在https://github.com/dengpingfan/polyp-pvt获得。

translated by 谷歌翻译

Boundary Guided Semantic Learning for Real-time COVID-19 Lung Infection Segmentation System

Runmin Cong , Yumo Zhang , Ning Yang , Haisheng Li , Xueqi Zhang , Ruochen Li , Zewen Chen , Yao Zhao , Sam Kwong

分类：计算机视觉

2022-09-07

尽管已经开发了疫苗，并且国家疫苗接种率正在稳步提高，但2019年冠状病毒病（COVID-19）仍对世界各地的医疗保健系统产生负面影响。在当前阶段，从CT图像中自动分割肺部感染区域对于诊断和治疗COVID-19至关重要。得益于深度学习技术的发展，已经提出了一些针对肺部感染细分的深度学习解决方案。但是，由于分布分布，复杂的背景干扰和界限模糊，现有模型的准确性和完整性仍然不令人满意。为此，我们在本文中提出了一个边界引导的语义学习网络（BSNET）。一方面，结合顶级语义保存和渐进式语义集成的双分支语义增强模块旨在建模不同的高级特征之间的互补关系，从而促进产生更完整的分割结果。另一方面，提出了镜像对称边界引导模块，以以镜像对称方式准确检测病变区域的边界。公开可用数据集的实验表明，我们的BSNET优于现有的最新竞争对手，并实现了44 fps的实时推理速度。

translated by 谷歌翻译

Multiple Sclerosis Lesions Segmentation using Attention-Based CNNs in FLAIR Images

Mehdi SadeghiBakhi , Hamidreza Pourreza , Hamidreza Mahyar

分类：人工智能 | 计算机视觉

2022-01-05

目的：多发性硬化症（MS）是一种自身免疫和脱髓鞘疾病，导致中枢神经系统的病变。可以使用磁共振成像（MRI）跟踪和诊断该疾病。到目前为止，多数多层自动生物医学方法用于在成本，时间和可用性方面对患者没有有益的病变。本文的作者提出了一种使用只有一个模态（Flair Image）的方法，准确地将MS病变分段。方法：由3D-Reset和空间通道注意模块进行设计，灵活的基于补丁的卷积神经网络（CNN），以段MS病变。该方法由三个阶段组成：（1）对比度限制自适应直方图均衡（CLAHE）被施加到原始图像并连接到提取的边缘以形成4D图像; （2）尺寸80 * 80 * 80 * 2的贴片从4D图像中随机选择; （3）将提取的贴片传递到用于分割病变的关注的CNN中。最后，将所提出的方法与先前的相同数据集进行比较。结果：目前的研究评估了模型，具有测试集的ISIB挑战数据。实验结果表明，该方法在骰子相似性和绝对体积差方面显着超越了现有方法，而该方法仅使用一种模态（Flair）来分割病变。结论：作者推出了一种自动化的方法来分割基于最多两种方式作为输入的损伤。所提出的架构由卷积，解卷积和SCA-VOXRES模块作为注意模块组成。结果表明，所提出的方法优于与其他方法相比良好。

translated by 谷歌翻译

Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS Instance Segmentation

Chengxi Zeng , Xinyu Yang , Majid Mirmehdi , Alberto M Gambaruto , Tilo Burghardt

分类：计算机视觉

2022-08-17

我们提出了Video-Transunet，这是一种深层体系结构，例如通过将时间融合到Transunet深度学习框架中构建的医学CT视频中的细分。特别是，我们的方法通过Resnet CNN主链，通过时间上下文模块（TCM）混合的多帧功能（TCM），通过视觉变压器进行非本地关注以及通过基于UNET的卷积为多个目标的重建功能混合的强框架表示强的框架表示 - 具有多个头部的卷积架构。我们表明，在视频荧光吞咽研究（VFSS）CT序列中，对推注和咽/喉的分割进行测试时，这种新的网络设计可以显着优于其他最先进的系统。在我们的VFSS2022数据集上，它达到了$ 0.8796 \％$的骰子系数，平均表面距离为$ 1.0379 $。请注意，准确跟踪咽注：在临床实践中特别重要，因为它构成了吞咽损伤诊断的主要方法。我们的发现表明，所提出的模型确实可以通过利用时间信息并通过显着的边距提高分割性能来增强Transunet架构。我们发布关键源代码，网络权重和地面真相注释，以简化性能再现。

translated by 谷歌翻译

Image Segmentation Using Deep Learning: A Survey

Shervin Minaee , Yuri Boykov , Fatih Porikli , Antonio Plaza , Nasser Kehtarnavaz , Demetri Terzopoulos

分类：

2020-01-15

Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.

translated by 谷歌翻译