智能论文笔记

Leveraging Image Complexity in Macro-Level Neural Network Design for Medical Image Segmentation

Tariq M. Khan , Syed S. Naqvi , Erik Meijering

分类：计算机视觉

2021-12-21

Encoder-解码器神经网络架构设计的最新进展导致了广泛的医学图像分割任务中的显着性能改进。然而，给定任务的最先进的网络可能太需要运行经济实惠的硬件，因此用户通常通过修改各种宏观级别的设计方面来验证实用的解决方法。两个常见示例是对输入图像的下采样，并减少网络深度以满足计算机内存约束。在本文中，我们调查这些变化对细分性能的影响，并显示图像复杂性可以用作选择最适合给定数据集的指导方针。我们考虑了四项统计措施来量化图像复杂性，并评估其在十个不同的公共数据集上的适用性。出于我们的实验的目的，我们还提出了两个新的编码器解码器架构，代表浅层和深度网络，这些宽度比目前流行的网络更高效。我们的研究结果表明，中位数是决定可接受的输入下采样因子和网络深度的最佳复杂性度量。对于高复杂性数据集，在原始图像上运行的浅网络可以产生比在下采样的图像上运行的深网络的更好的分段结果，而相反可能是低复杂性图像的情况。

translated by 谷歌翻译

RC-Net: A Convolutional Neural Network for Retinal Vessel Segmentation

Tariq M Khan , Antonio Robles-Kelly , Syed S. Naqvi

分类：计算机视觉

2021-12-21

近年来，基于复杂的卷积神经网络架构的越来越复杂的方法一直在缓慢推动良好的基准数据集的性能。在本文中，我们返回返回检查真正需要这种复杂性。我们呈现RC-Net，一个完全卷积的网络，其中每层过滤器数量被优化，以减少特征重叠和复杂性。我们还使用跳过连接来将空间信息丢失保持为最小，通过将网络中的汇集操作保持到最小。在我们的实验中使用了两个公开的视网膜血管分段数据集。在我们的实验中，RC-Net是非常有竞争力的，表现优于替代方案的分割方法，具有两种甚至三个数量级的训练参数。

translated by 谷歌翻译

OMSN and FAROS: OCTA Microstructure Segmentation Network and Fully Annotated Retinal OCTA Segmentation Dataset

Peng Xiao , Xiaodong Hu , Ke Ma , Gengyuan Wang , Ziqing Feng , Yuancong Huang , Jin Yuan

分类：计算机视觉

2022-12-26

The lack of efficient segmentation methods and fully-labeled datasets limits the comprehensive assessment of optical coherence tomography angiography (OCTA) microstructures like retinal vessel network (RVN) and foveal avascular zone (FAZ), which are of great value in ophthalmic and systematic diseases evaluation. Here, we introduce an innovative OCTA microstructure segmentation network (OMSN) by combining an encoder-decoder-based architecture with multi-scale skip connections and the split-attention-based residual network ResNeSt, paying specific attention to OCTA microstructural features while facilitating better model convergence and feature representations. The proposed OMSN achieves excellent single/multi-task performances for RVN or/and FAZ segmentation. Especially, the evaluation metrics on multi-task models outperform single-task models on the same dataset. On this basis, a fully annotated retinal OCTA segmentation (FAROS) dataset is constructed semi-automatically, filling the vacancy of a pixel-level fully-labeled OCTA dataset. OMSN multi-task segmentation model retrained with FAROS further certifies its outstanding accuracy for simultaneous RVN and FAZ segmentation.

translated by 谷歌翻译

CHS-Net: A Deep learning approach for hierarchical segmentation of COVID-19 infected CT images

Narinder Singh Punn , Sonali Agarwal

分类：计算机视觉

2020-12-13

新的SARS-COV-2大流行病也被称为Covid-19一直在全世界蔓延，导致生活猖獗。诸如CT，X射线等的医学成像在通过呈现器官功能的视觉表示来诊断患者时起着重要作用。然而，对于任何分析这种扫描的放射科学家是一种乏味且耗时的任务。新兴的深度学习技术展示了它的优势，在分析诸如Covid-19等疾病和病毒的速度更快的诊断中有助于帮助。在本文中，提出了一种基于自动化的基于深度学习的模型CoVID-19层级分割网络（CHS-Net），其用作语义层次分段器，以通过使用两个级联的CT医学成像来识别来自肺轮廓的Covid-19受感染的区域剩余注意力撤销U-NET（RAIU-Net）模型。 Raiu-net包括具有频谱空间和深度关注网络（SSD）的剩余成立U-Net模型，该网络（SSD）是由深度可分离卷积和混合池（MAX和频谱池）的收缩和扩展阶段开发的，以有效地编码和解码语义和不同的分辨率信息。 CHS-NET接受了分割损失函数的培训，该损失函数是二进制交叉熵损失和骰子损失的平均值，以惩罚假阴性和假阳性预测。将该方法与最近提出的方法进行比较，并使用标准度量评估，如准确性，精度，特异性，召回，骰子系数和jaccard相似度以及与Gradcam ++和不确定性地图的模型预测的可视化解释。随着广泛的试验，观察到所提出的方法优于最近提出的方法，并有效地将Covid-19受感染的地区进行肺部。

translated by 谷歌翻译

TransAttUnet: Multi-level Attention-guided U-Net with Transformer for Medical Image Segmentation

Bingzhi Chen , Yishu Liu , Zheng Zhang , Guangming Lu , Adams Wai Kin Kong

分类：计算机视觉

2021-07-12

对医学图像的器官或病变的准确分割对于可靠的疾病和器官形态计量学的可靠诊断至关重要。近年来，卷积编码器解码器解决方案在自动医疗图像分割领域取得了重大进展。由于卷积操作中的固有偏见，先前的模型主要集中在相邻像素形成的局部视觉提示上，但无法完全对远程上下文依赖性进行建模。在本文中，我们提出了一个新型的基于变压器的注意力指导网络，称为Transattunet，其中多层引导注意力和多尺度跳过连接旨在共同增强语义分割体系结构的性能。受到变压器的启发，具有变压器自我注意力（TSA）和全球空间注意力（GSA）的自我意识注意（SAA）被纳入Transattunet中，以有效地学习编码器特征之间的非本地相互作用。此外，我们还使用解码器块之间的其他多尺度跳过连接来汇总具有不同语义尺度的上采样功能。这样，多尺度上下文信息的表示能力就可以增强以产生判别特征。从这些互补组件中受益，拟议的Transattunet可以有效地减轻卷积层堆叠和连续采样操作引起的细节损失，最终提高医学图像的细分质量。来自不同成像方式的多个医疗图像分割数据集进行了广泛的实验表明，所提出的方法始终优于最先进的基线。我们的代码和预培训模型可在以下网址找到：https：//github.com/yishuliu/transattunet。

translated by 谷歌翻译

Lung-Net: A deep learning framework for lung tissue segmentation in three-dimensional thoracic CT images

Niloufar Delfan

分类：计算机视觉

2022-12-28

Segmentation of lung tissue in computed tomography (CT) images is a precursor to most pulmonary image analysis applications. Semantic segmentation methods using deep learning have exhibited top-tier performance in recent years. This paper presents a fully automatic method for identifying the lungs in three-dimensional (3D) pulmonary CT images, which we call it Lung-Net. We conjectured that a significant deeper network with inceptionV3 units can achieve a better feature representation of lung CT images without increasing the model complexity in terms of the number of trainable parameters. The method has three main advantages. First, a U-Net architecture with InceptionV3 blocks is developed to resolve the problem of performance degradation and parameter overload. Then, using information from consecutive slices, a new data structure is created to increase generalization potential, allowing more discriminating features to be extracted by making data representation as efficient as possible. Finally, the robustness of the proposed segmentation framework was quantitatively assessed using one public database to train and test the model (LUNA16) and two public databases (ISBI VESSEL12 challenge and CRPF dataset) only for testing the model; each database consists of 700, 23, and 40 CT images, respectively, that were acquired with a different scanner and protocol. Based on the experimental results, the proposed method achieved competitive results over the existing techniques with Dice coefficient of 99.7, 99.1, and 98.8 for LUNA16, VESSEL12, and CRPF datasets, respectively. For segmenting lung tissue in CT images, the proposed model is efficient in terms of time and parameters and outperforms other state-of-the-art methods. Additionally, this model is publicly accessible via a graphical user interface.

translated by 谷歌翻译

IterMiUnet: A lightweight architecture for automatic blood vessel segmentation

Ashish Kumar , R. K. Agrawal , Leve Joseph

分类：计算机视觉 | 机器学习

2022-08-02

眼底图像中血管的自动分割可以帮助分析视网膜脉管系统的状况，这对于确定各种全身性疾病（如高血压，糖尿病等）至关重要大量参数化，因此在实际应用中使用有限。本文提出了Itermiunet，这是一种新的基于轻量级卷积的细分模型，需要更少的参数，但提供了类似于现有模型的性能。该模型利用了ITERNET体系结构的出色分割功能，但通过将Miunet模型的编码器解码器结合在其中克服了严重的参数化性质。因此，新模型可减少参数，而不会与网络的深度进行任何妥协，这对于在深模型中学习抽象的层次概念是必不可少的。这种轻巧的分割模型可以加快训练和推理时间的速度，并且在数据稀缺的医疗领域可能会有所帮助，因此，大量参数化的模型往往过于拟合。在三个公开可用的数据集上评估了所提出的模型：驱动器，凝视和Chase-DB1。还进行了进一步的交叉培训和评估者之间的变异性评估。提出的模型具有很大的潜力，可以用作早期诊断许多疾病的工具。

translated by 谷歌翻译

Deep ensembles in bioimage segmentation

Loris Nanni , Daniela Cuza , Alessandra Lumini , Andrea Loreggia , Sheryl Brahnam

分类：计算机视觉 | 人工智能

2021-12-24

语义分割包括通过将其分配给从一组所有可用的标签来分类图像的每个像素。在过去的几年里，很多关注转移到这种任务。许多计算机视觉研究人员试图应用AutoEncoder结构来开发可以学习图像语义的模型以及它的低级表示。在给定输入的AutoEncoder架构中，编码器计算的输入的低维表示，然后解码器用于重建原始数据。在这项工作中，我们提出了一个卷积神经网络（CNNS）的集合。在集合方法中，许多不同的型号训练，然后用于分类，整体汇总了单个分类器的输出。该方法利用各种分类器的差异来提高整个系统的性能。通过使用不同的丢失函数强制执行单个分类器中的多样性。特别是，我们提出了一种新的损失函数，从骰子和结构相似度指数的组合产生。通过使用Deeplabv3 +和Hardnet环境结合不同的骨干网络来实现所提出的合奏。该提案是通过关于两个真实情景的广泛实证评估来评估：息肉和皮肤细分。所有代码都在HTTPS://github.com/lorisnanni在线提供。

translated by 谷歌翻译

Human Treelike Tubular Structure Segmentation: A Comprehensive Review and Future Perspectives

Hao Li , Zeyu Tang , Yang Nan , Guang Yang

分类：计算机视觉 | 机器学习

2022-07-12

人类生理学中的各种结构遵循特异性形态，通常在非常细的尺度上表达复杂性。这种结构的例子是胸前气道，视网膜血管和肝血管。可以观察到可以观察到可以观察到可以观察到可以观察到空间排列的磁共振成像（MRI），计算机断层扫描（CT），光学相干断层扫描（OCT）等医学成像模式（MRI），计算机断层扫描（CT），可以观察到空间排列的大量2D和3D图像的集合。这些结构在医学成像中的分割非常重要，因为对结构的分析提供了对疾病诊断，治疗计划和预后的见解。放射科医生手动标记广泛的数据通常是耗时且容易出错的。结果，在过去的二十年中，自动化或半自动化的计算模型已成为医学成像的流行研究领域，迄今为止，许多计算模型已经开发出来。在这项调查中，我们旨在对当前公开可用的数据集，细分算法和评估指标进行全面审查。此外，讨论了当前的挑战和未来的研究方向。

translated by 谷歌翻译

Retinal Structure Detection in OCTA Image via Voting-based Multi-task Learning

Jinkui Hao , Ting Shen , Xueli Zhu , Yonghuai Liu , Ardhendu Behera , Dan Zhang , Bang Chen , Jiang Liu , Jiong Zhang , Yitian Zhao

分类：计算机视觉

2022-08-23

自动检测视网膜结构，例如视网膜血管（RV），凹起的血管区（FAZ）和视网膜血管连接（RVJ），对于了解眼睛的疾病和临床决策非常重要。在本文中，我们提出了一种新型的基于投票的自适应特征融合多任务网络（VAFF-NET），用于在光学相干性层析成像（OCTA）中对RV，FAZ和RVJ进行联合分割，检测和分类。提出了一个特定于任务的投票门模块，以适应并融合两个级别的特定任务的不同功能：来自单个编码器的不同空间位置的特征，以及来自多个编码器的功能。特别是，由于八八座图像中微脉管系统的复杂性使视网膜血管连接连接到分叉/跨越具有挑战性的任务的同时定位和分类，因此我们通过结合热图回归和网格分类来专门设计任务头。我们利用来自各种视网膜层的三个不同的\ textit {en face}血管造影，而不是遵循仅使用单个\ textit {en face}的现有方法。为了促进进一步的研究，已经发布了这些数据集的部分数据集，并已发布了公共访问：https：//github.com/imed-lab/vaff-net。

translated by 谷歌翻译

Cell segmentation from telecentric bright-field transmitted light microscopy images using a Residual Attention U-Net: a case study on HeLa line

Ali Ghaznavi , Renata Rychtarikova , Mohammadmehdi Saberioon , Dalibor Stys

分类：计算机视觉

2022-03-23

由于图像的复杂性和活细胞的时间变化，来自明亮场光显微镜图像的活细胞分割具有挑战性。最近开发的基于深度学习（DL）的方法由于其成功和有希望的结果而在医学和显微镜图像分割任务中变得流行。本文的主要目的是开发一种基于U-NET的深度学习方法，以在明亮场传输光学显微镜中分割HeLa系的活细胞。为了找到适合我们数据集的最合适的体系结构，提出了剩余的注意U-net，并将其与注意力和简单的U-NET体系结构进行了比较。注意机制突出了显着的特征，并抑制了无关图像区域中的激活。残余机制克服了消失的梯度问题。对于简单，注意力和剩余的关注U-NET，我们数据集的平均值得分分别达到0.9505、0.9524和0.9530。通过将残留和注意机制应用在一起，在平均值和骰子指标中实现了最准确的语义分割结果。应用的分水岭方法适用于这种最佳的（残留的关注）语义分割结果，使每个单元格的特定信息进行了分割。

translated by 谷歌翻译

Medical Image Segmentation Using Deep Learning: A Survey

Risheng Wang , Tao Lei , Ruixia Cui , Bingtao Zhang , Hongying Meng , Asoke K. Nandi

分类：计算机视觉

2020-09-28

深度学习已被广泛用于医学图像分割，并且录制了录制了该领域深度学习的成功的大量论文。在本文中，我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先，与传统调查相比，直接将深度学习的文献分成医学图像分割的文学，并为每组详细介绍了文献，我们根据从粗略到精细的多级结构分类目前流行的文献。其次，本文侧重于监督和弱监督的学习方法，而不包括无监督的方法，因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法，我们分析了三个方面的文献：骨干网络的选择，网络块的设计，以及损耗功能的改进。对于虚弱的学习方法，我们根据数据增强，转移学习和交互式分割进行调查文献。与现有调查相比，本调查将文献分类为比例不同，更方便读者了解相关理由，并将引导他们基于深度学习方法思考医学图像分割的适当改进。

translated by 谷歌翻译

Modality specific U-Net variants for biomedical image segmentation: A survey

Narinder Singh Punn , Sonali Agarwal

分类：计算机视觉

2021-07-09

随着深度学习方法的进步，如深度卷积神经网络，残余神经网络，对抗网络的进步。 U-Net架构最广泛利用生物医学图像分割，以解决目标区域或子区域的识别和检测的自动化。在最近的研究中，基于U-Net的方法在不同应用中显示了最先进的性能，以便在脑肿瘤，肺癌，阿尔茨海默，乳腺癌等疾病的早期诊断和治疗中发育计算机辅助诊断系统等，使用各种方式。本文通过描述U-Net框架来提出这些方法的成功，然后通过执行1）型号的U-Net变体进行综合分析，2）模特内分类，建立更好的见解相关的挑战和解决方案。此外，本文还强调了基于U-Net框架在持续的大流行病，严重急性呼吸综合征冠状病毒2（SARS-COV-2）中的贡献也称为Covid-19。最后，分析了这些U-Net变体的优点和相似性以及生物医学图像分割所涉及的挑战，以发现该领域的未来未来的研究方向。

translated by 谷歌翻译

DCSAU-Net: A Deeper and More Compact Split-Attention U-Net for Medical Image Segmentation

Qing Xu , Zhicheng Ma , Na HE , Wenting Duan

分类：计算机视觉 | 机器学习

2022-02-02

卷积神经网络（CNN）的深度学习体系结构在计算机视野领域取得了杰出的成功。 CNN构建的编码器架构U-Net在生物医学图像分割方面取得了重大突破，并且已在各种实用的情况下应用。但是，编码器部分中每个下采样层和简单堆积的卷积的平等设计不允许U-NET从不同深度提取足够的特征信息。医学图像的复杂性日益增加为现有方法带来了新的挑战。在本文中，我们提出了一个更深层，更紧凑的分裂注意U形网络（DCSAU-NET），该网络有效地利用了基于两个新颖框架的低级和高级语义信息：主要功能保护和紧凑的分裂注意力堵塞。我们评估了CVC-ClinicDB，2018 Data Science Bowl，ISIC-2018和SEGPC-2021数据集的建议模型。结果，DCSAU-NET在联合（MIOU）和F1-SOCRE的平均交点方面显示出比其他最先进的方法（SOTA）方法更好的性能。更重要的是，提出的模型在具有挑战性的图像上表现出了出色的细分性能。我们的工作代码以及更多技术细节，请访问https://github.com/xq141839/dcsau-net。

translated by 谷歌翻译

Beyond CNNs: Exploiting Further Inherent Symmetries in Medical Image Segmentation

Shuchao Pang , Anan Du , Mehmet A. Orgun , Yan Wang , Quan Z. Sheng , Shoujin Wang , Xiaoshui Huang , Zhenmei Yu

分类：计算机视觉 | 机器学习

2022-07-29

自动肿瘤或病变分割是用于计算机辅助诊断的医学图像分析的关键步骤。尽管基于卷积神经网络（CNN）的现有方法已经达到了最先进的表现，但医疗肿瘤分割中仍然存在许多挑战。这是因为，尽管人类视觉系统可以有效地检测到2D图像中的对称性，但常规CNN只能利用翻译不变性，忽略医学图像中存在的进一步固有的对称性，例如旋转和反射。为了解决这个问题，我们通过编码那些固有的对称性来学习更精确的表示形式，提出了一个新型的群体模棱两可的分割框架。首先，在每个方向上都设计了基于内核的模棱两可的操作，这使其能够有效地解决现有方法中学习对称性的差距。然后，为了保持全球分割网络，我们设计具有层面对称性约束的独特组层。最后，基于我们的新框架，对现实世界临床数据进行的广泛实验表明，一个群体含量的res-unet（名为GER-UNET）优于其基于CNN的常规对应物，并且在最新的分段方法中优于其最新的分段方法。肝肿瘤分割，COVID-19肺部感染分割和视网膜血管检测的任务。更重要的是，新建的GER-UNET还显示出在降低样品复杂性和过滤器的冗余，升级当前分割CNN和划定器官上的其他医学成像方式上的潜力。

translated by 谷歌翻译

High-Resolution Boundary Detection for Medical Image Segmentation with Piece-Wise Two-Sample T-Test Augmented Loss

Yucong Lin , Jinhua Su , Yuhang Li , Yuhao Wei , Hanchao Yan , Saining Zhang , Jiaan Luo , Danni Ai , Hong Song , Jingfan Fan

分类：计算机视觉 | 机器学习

2022-11-04

Deep learning methods have contributed substantially to the rapid advancement of medical image segmentation, the quality of which relies on the suitable design of loss functions. Popular loss functions, including the cross-entropy and dice losses, often fall short of boundary detection, thereby limiting high-resolution downstream applications such as automated diagnoses and procedures. We developed a novel loss function that is tailored to reflect the boundary information to enhance the boundary detection. As the contrast between segmentation and background regions along the classification boundary naturally induces heterogeneity over the pixels, we propose the piece-wise two-sample t-test augmented (PTA) loss that is infused with the statistical test for such heterogeneity. We demonstrate the improved boundary detection power of the PTA loss compared to benchmark losses without a t-test component.

translated by 谷歌翻译

Lung-Originated Tumor Segmentation from Computed Tomography Scan (LOTUS) Benchmark

Parnian Afshar , Arash Mohammadi , Konstantinos N. Plataniotis , Keyvan Farahani , Justin Kirby , Anastasia Oikonomou , Amir Asif , Leonard Wee , Andre Dekker , Xin Wu

分类：计算机视觉 | 机器学习

2022-01-03

肺癌是最致命的癌症之一，部分诊断和治疗取决于肿瘤的准确描绘。目前是最常见的方法的人以人为本的分割，须遵守观察者间变异性，并且考虑到专家只能提供注释的事实，也是耗时的。最近展示了有前途的结果，自动和半自动肿瘤分割方法。然而，随着不同的研究人员使用各种数据集和性能指标验证了其算法，可靠地评估这些方法仍然是一个开放的挑战。通过2018年IEEE视频和图像处理（VIP）杯竞赛创建的计算机断层摄影扫描（LOTUS）基准测试的肺起源肿瘤分割的目标是提供唯一的数据集和预定义的指标，因此不同的研究人员可以开发和以统一的方式评估他们的方法。 2018年VIP杯始于42个国家的全球参与，以获得竞争数据。在注册阶段，有129名成员组成了来自10个国家的28个团队，其中9个团队将其达到最后阶段，6队成功完成了所有必要的任务。简而言之，竞争期间提出的所有算法都是基于深度学习模型与假阳性降低技术相结合。三种决赛选手开发的方法表明，有希望的肿瘤细分导致导致越来越大的努力应降低假阳性率。本次竞争稿件概述了VIP-Cup挑战，以及所提出的算法和结果。

translated by 谷歌翻译

PocketNet: A Smaller Neural Network for Medical Image Analysis

Adrian Celaya , Jonas A. Actor , Rajarajeswari Muthusivarajan , Evan Gates , Caroline Chung , Dawid Schellingerhout , Beatrice Riviere , David Fuentes

分类：计算机视觉 | 机器学习

2021-04-21

医学成像深度学习模型通常是大而复杂的，需要专门的硬件来训练和评估这些模型。为了解决此类问题，我们提出了PocketNet范式，以减少深度学习模型的规模，通过促进卷积神经网络中的渠道数量的增长。我们证明，对于一系列的分割和分类任务，PocketNet架构产生的结果与常规神经网络相当，同时将参数数量减少多个数量级，最多使用90％的GPU记忆，并加快训练时间的加快。高达40％，从而允许在资源约束设置中培训和部署此类模型。

translated by 谷歌翻译

Unified Focal loss: Generalising Dice and cross entropy-based losses to handle class imbalanced medical image segmentation

Michael Yeung , Evis Sala , Carola-Bibiane Schönlieb , Leonardo Rundo

分类：计算机视觉 | 机器学习

2021-02-08

自动分割方法是医学图像分析的重要进步。特别是机器学习技术和深度神经网络，是最先进的大多数医学图像分割任务。类别不平衡的问题在医疗数据集中构成了重大挑战，病变通常占据相对于背景的相对于较小的体积。深度学习算法培训中使用的损失函数对类别不平衡的鲁棒性不同，具有模型收敛的直接后果。分割最常用的损耗函数基于交叉熵损耗，骰子丢失或两者的组合。我们提出了统一的联络损失，是一种新的分层框架，它概括了骰子和基于跨熵的损失，用于处理类别不平衡。我们评估五个公共可用的损失功能，类不平衡的医学成像数据集：CVC-ClinicDB，船舶提取数字视网膜图像（驱动器），乳房超声波2017（Bus2017），脑肿瘤分割2020（Brats20）和肾肿瘤分割2019 （套件19）。我们将损耗功能性能与六个骰子或基于跨熵的损耗函数进行比较，横跨二进制二进制，3D二进制和3D多包子分段任务，展示我们所提出的损失函数对类不平衡具有强大，并且始终如一地优于其他丢失功能。源代码可用：https://github.com/mlyg/unified-focal-loss

translated by 谷歌翻译

Uncertainty, Edge, and Reverse-Attention Guided Generative Adversarial Network for Automatic Building Detection in Remotely Sensed Images

Somrita Chattopadhyay , Avinash C. Kak

分类：计算机视觉 | 机器学习

2021-12-10

尽管近期基于深度学习的语义细分，但远程感测图像的自动建筑检测仍然是一个具有挑战性的问题，由于全球建筑物的出现巨大变化。误差主要发生在构建足迹的边界，阴影区域，以及检测外表面具有与周围区域非常相似的反射率特性的建筑物。为了克服这些问题，我们提出了一种生成的对抗基于网络的基于网络的分割框架，其具有嵌入在发电机中的不确定性关注单元和改进模块。由边缘和反向关注单元组成的细化模块，旨在精炼预测的建筑地图。边缘注意力增强了边界特征，以估计更高的精度，并且反向关注允许网络探索先前估计区域中缺少的功能。不确定性关注单元有助于网络解决分类中的不确定性。作为我们方法的权力的衡量标准，截至2021年12月4日，它在Deepglobe公共领导板上的第二名，尽管我们的方法的主要重点 - 建筑边缘 - 并不完全对齐用于排行榜排名的指标。 DeepGlobe充满挑战数据集的整体F1分数为0.745。我们还报告了对挑战的Inria验证数据集的最佳成绩，我们的网络实现了81.28％的总体验证，总体准确性为97.03％。沿着同一条线，对于官方Inria测试数据集，我们的网络总体上得分77.86％和96.41％，而且准确性。

translated by 谷歌翻译