智能论文笔记

Attention on Classification for Fire Segmentation

Milad Niknejad , Alexandre Bernardino

分类：计算机视觉

2021-11-04

探测和火灾中的图像和视频的定位是在应对火灾事故的重要。虽然语义分割方法可以用来表示在图像火像素的位置，他们的预测是局部的，他们往往没有考虑到火图像中的存在，这是在图像标签隐含的全局信息。我们提出了一个卷积神经网络（CNN）联合分类和图像火的分割提高了防火分割的性能。我们使用的空间自注意机制来捕获其使用分类概率作为关注重量的新信道注意模块的像素之间的远程相关性，和。该网络联合训练既分割和分类，从而提高了的单任务的图像分割方法的性能，并提出了防火分割以前的方法。

translated by 谷歌翻译

Weakly-supervised fire segmentation by visualizing intermediate CNN layers

Milad Niknejad , Alexandre Bernardino

分类：计算机视觉

2021-11-16

图像和视频中的消防本地化是自治系统对抗火事故的重要一步。基于深神经网络的最先进的图像分割方法需要大量的像素注释样本以以完全监督的方式训练卷积神经网络（CNNS）。在本文中，我们考虑了图像中的火灾的弱监管，其中仅使用图像标签来训练网络。我们示出在火灾分割的情况下，这是二进制分割问题，分类中的中层中的特征的平均值可以比传统的类激活映射（CAM）方法更好。我们还建议通过在上次卷积层的特征上添加旋转等值正则化损耗来进一步提高分割精度。我们的结果表明，对弱势监督的火灾细分的基线方法显着改善。

translated by 谷歌翻译

GCA-Net : Utilizing Gated Context Attention for Improving Image Forgery Localization and Detection

Sowmen Das , Md. Saiful Islam , Md. Ruhul Amin

分类：计算机视觉 | 机器学习

2021-12-08

法医分析取决于从操纵图像识别隐藏迹线。由于它们无法处理功能衰减和依赖主导空间特征，传统的神经网络失败。在这项工作中，我们提出了一种新颖的门控语言注意力网络（GCA-NET），用于全球背景学习的非本地关注块。另外，我们利用所通用的注意机制结合密集的解码器网络，以引导在解码阶段期间的相关特征的流动，允许精确定位。所提出的注意力框架允许网络通过过滤粗糙度来专注于相关区域。此外，通过利用多尺度特征融合和有效的学习策略，GCA-Net可以更好地处理操纵区域的比例变化。我们表明，我们的方法在多个基准数据集中平均优于最先进的网络，平均为4.2％-5.4％AUC。最后，我们还开展了广泛的消融实验，以展示该方法对图像取证的鲁棒性。

translated by 谷歌翻译

CI-Net: Contextual Information for Joint Semantic Segmentation and Depth Estimation

Tianxiao Gao , Wu Wei , Zhongbin Cai , Zhun Fan , Shane Xie , Xinmei Wang , Qiuda Yu

分类：计算机视觉

2021-07-29

单眼深度估计和语义分割是场景理解的两个基本目标。由于任务交互的优点，许多作品研究了联合任务学习算法。但是，大多数现有方法都无法充分利用语义标签，忽略提供的上下文结构，并且仅使用它们来监督分段拆分的预测，这限制了两个任务的性能。在本文中，我们提出了一个网络注入了上下文信息（CI-Net）来解决问题。具体而言，我们在编码器中引入自我关注块以产生注意图。通过由语义标签创建的理想注意图的监督，网络嵌入了上下文信息，使得它可以更好地理解场景并利用相关特征来进行准确的预测。此外，构造了一个特征共享模块，以使任务特征深入融合，并且设计了一致性损耗，以使特征相互引导。我们在NYU-Deaft-V2和Sun-RGBD数据集上评估所提出的CI-Net。实验结果验证了我们所提出的CI-Net可以有效提高语义分割和深度估计的准确性。

translated by 谷歌翻译

HistoSeg : Quick attention with multi-loss function for multi-structure segmentation in digital histology images

Saad Wazir , Muhammad Moazam Fraz

分类：计算机视觉

2022-09-01

医疗图像分割有助于计算机辅助诊断，手术和治疗。数字化组织载玻片图像用于分析和分段腺，核和其他生物标志物，这些标志物进一步用于计算机辅助医疗应用中。为此，许多研究人员开发了不同的神经网络来对组织学图像进行分割，主要是这些网络基于编码器编码器体系结构，并且还利用了复杂的注意力模块或变压器。但是，这些网络不太准确地捕获相关的本地和全局特征，并在多个尺度下具有准确的边界检测，因此，我们提出了一个编码器折叠网络，快速注意模块和多损耗函数（二进制交叉熵（BCE）损失的组合），焦点损失和骰子损失）。我们在两个公开可用数据集上评估了我们提出的网络的概括能力，用于医疗图像分割Monuseg和Glas，并胜过最先进的网络，在Monuseg数据集上提高了1.99％的提高，而GLAS数据集则提高了7.15％。实施代码可在此链接上获得：https：//bit.ly/histoseg

translated by 谷歌翻译

A Novel Dataset and a Deep Learning Method for Mitosis Nuclei Segmentation and Classification

Huadeng Wang , Zhipeng Liu , Rushi Lan , Zhenbing Liu , Xiaonan Luo , Xipeng Pan , Bingbing Li

分类：计算机视觉 | 人工智能

2022-12-27

Mitosis nuclei count is one of the important indicators for the pathological diagnosis of breast cancer. The manual annotation needs experienced pathologists, which is very time-consuming and inefficient. With the development of deep learning methods, some models with good performance have emerged, but the generalization ability should be further strengthened. In this paper, we propose a two-stage mitosis segmentation and classification method, named SCMitosis. Firstly, the segmentation performance with a high recall rate is achieved by the proposed depthwise separable convolution residual block and channel-spatial attention gate. Then, a classification network is cascaded to further improve the detection performance of mitosis nuclei. The proposed model is verified on the ICPR 2012 dataset, and the highest F-score value of 0.8687 is obtained compared with the current state-of-the-art algorithms. In addition, the model also achieves good performance on GZMH dataset, which is prepared by our group and will be firstly released with the publication of this paper. The code will be available at: https://github.com/antifen/mitosis-nuclei-segmentation.

translated by 谷歌翻译

End-to-end multi-task learning with attention

分类：

We propose a novel multi-task learning architecture, which allows learning of task-specific feature-level attention. Our design, the Multi-Task Attention Network (MTAN), consists of a single shared network containing a global feature pool, together with a soft-attention module for each task. These modules allow for learning of taskspecific features from the global features, whilst simultaneously allowing for features to be shared across different tasks. The architecture can be trained end-to-end and can be built upon any feed-forward neural network, is simple to implement, and is parameter efficient. We evaluate our approach on a variety of datasets, across both image-toimage predictions and image classification tasks. We show that our architecture is state-of-the-art in multi-task learning compared to existing methods, and is also less sensitive to various weighting schemes in the multi-task loss function. Code is available at https://github.com/ lorenmt/mtan.

translated by 谷歌翻译

Attention-based Dual Supervised Decoder for RGBD Semantic Segmentation

Yang Zhang , Yang Yang , Chenyun Xiong , Guodong Sun , Yanwen Guo

分类：计算机视觉

2022-01-05

编码器 - 解码器模型已广泛用于RGBD语义分割，并且大多数通过双流网络设计。通常，共同推理RGBD的颜色和几何信息是有益的对语义分割。然而，大多数现有方法都无法全面地利用编码器和解码器中的多模式信息。在本文中，我们提出了一种用于RGBD语义细分的新型关注的双重监督解码器。在编码器中，我们设计一个简单但有效的关注的多模式融合模块，以提取和保险丝深度多级成对的互补信息。要了解更强大的深度表示和丰富的多模态信息，我们介绍了一个双分支解码器，以有效利用不同任务的相关性和互补线。在Nyudv2和Sun-RGBD数据集上的广泛实验表明，我们的方法达到了最先进的方法的卓越性能。

translated by 谷歌翻译

Computer Vision on X-ray Data in Industrial Production and Security Applications: A survey

Mehdi Rafiei , Jenni Raitoharju , Alexandros Iosifidis

分类：计算机视觉

2022-11-10

X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.

translated by 谷歌翻译

PAENet: A Progressive Attention-Enhanced Network for 3D to 2D Retinal Vessel Segmentation

Zhuojie Wu , Muyi Sun

分类：计算机视觉

2021-08-26

3D到2D视网膜血管分割是光学相干断层造影血管造影（OctA）图像中有挑战性的问题。准确的视网膜血管分割对于眼科疾病的诊断和预防是重要的。然而，充分利用Octa卷的3D数据是获得令人满意的分割结果的重要因素。在本文中，我们基于提取富有特征表示提取的注意机制，提出了一种渐进的关注增强网络（PAENET）。具体地，框架包括两个主要部分，三维特征学习路径和二维分割路径。在三维特征学习路径中，我们设计了一种新型自适应池模块（APM），并提出了一种新的四倍注意模块（QAM）。 APM沿着卷的投影方向捕获依赖关系，并学习一系列用于特征融合的池系数，从而有效地减少了特征尺寸。此外，QAM通过捕获四组交叉尺寸依赖性来重新重复该特征，这使得最大限度地使用4D特征张力。在二维分割路径中，为了获取更详细的信息，我们提出了一个特征融合模块（FFM）来将3D信息注入2D路径。同时，我们采用极化的自我关注（PSA）块分别在空间和通道尺寸中模拟语义相互依赖性。在实验上，我们在Octa-500数据集上进行了广泛的实验表明，与以前的方法相比，我们所提出的算法实现了最先进的性能。

translated by 谷歌翻译

Multiple Sclerosis Lesions Segmentation using Attention-Based CNNs in FLAIR Images

Mehdi SadeghiBakhi , Hamidreza Pourreza , Hamidreza Mahyar

分类：人工智能 | 计算机视觉

2022-01-05

目的：多发性硬化症（MS）是一种自身免疫和脱髓鞘疾病，导致中枢神经系统的病变。可以使用磁共振成像（MRI）跟踪和诊断该疾病。到目前为止，多数多层自动生物医学方法用于在成本，时间和可用性方面对患者没有有益的病变。本文的作者提出了一种使用只有一个模态（Flair Image）的方法，准确地将MS病变分段。方法：由3D-Reset和空间通道注意模块进行设计，灵活的基于补丁的卷积神经网络（CNN），以段MS病变。该方法由三个阶段组成：（1）对比度限制自适应直方图均衡（CLAHE）被施加到原始图像并连接到提取的边缘以形成4D图像; （2）尺寸80 * 80 * 80 * 2的贴片从4D图像中随机选择; （3）将提取的贴片传递到用于分割病变的关注的CNN中。最后，将所提出的方法与先前的相同数据集进行比较。结果：目前的研究评估了模型，具有测试集的ISIB挑战数据。实验结果表明，该方法在骰子相似性和绝对体积差方面显着超越了现有方法，而该方法仅使用一种模态（Flair）来分割病变。结论：作者推出了一种自动化的方法来分割基于最多两种方式作为输入的损伤。所提出的架构由卷积，解卷积和SCA-VOXRES模块作为注意模块组成。结果表明，所提出的方法优于与其他方法相比良好。

translated by 谷歌翻译

Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers

Bo Dong , Wenhai Wang , Deng-Ping Fan , Jinpeng Li , Huazhu Fu , Ling Shao

分类：计算机视觉

2021-08-16

大多数息肉分段方法使用CNNS作为其骨干，导致在编码器和解码器之间的信息交换信息时的两个关键问题：1）考虑到不同级别特征之间的贡献的差异; 2）设计有效机制，以融合这些功能。不同于现有的基于CNN的方法，我们采用了一个变压器编码器，它学会了更强大和强大的表示。此外，考虑到息肉的图像采集影响和难以实现的性质，我们介绍了三种新模块，包括级联融合模块（CFM），伪装识别模块（CIM），A和相似性聚集模块（SAM）。其中，CFM用于从高级功能收集息肉的语义和位置信息，而CIM应用于在低级功能中伪装的息肉信息。在SAM的帮助下，我们将息肉区域的像素特征扩展到整个息肉区域的高电平语义位置信息，从而有效地融合了交叉级别特征。所提出的模型名为Polyp-PVT，有效地抑制了特征中的噪声，并显着提高了他们的表现力。在五个广泛采用的数据集上进行了广泛的实验表明，所提出的模型对各种具有挑战性的情况（例如，外观变化，小物体）比现有方法更加强大，并实现了新的最先进的性能。拟议的模型可在https://github.com/dengpingfan/polyp-pvt获得。

translated by 谷歌翻译

Rethinking the transfer learning for FCN based polyp segmentation in colonoscopy

Yan Wen , Lei Zhang , Xiangli Meng , Xujiong Ye

分类：计算机视觉

2022-11-04

Besides the complex nature of colonoscopy frames with intrinsic frame formation artefacts such as light reflections and the diversity of polyp types/shapes, the publicly available polyp segmentation training datasets are limited, small and imbalanced. In this case, the automated polyp segmentation using a deep neural network remains an open challenge due to the overfitting of training on small datasets. We proposed a simple yet effective polyp segmentation pipeline that couples the segmentation (FCN) and classification (CNN) tasks. We find the effectiveness of interactive weight transfer between dense and coarse vision tasks that mitigates the overfitting in learning. And It motivates us to design a new training scheme within our segmentation pipeline. Our method is evaluated on CVC-EndoSceneStill and Kvasir-SEG datasets. It achieves 4.34% and 5.70% Polyp-IoU improvements compared to the state-of-the-art methods on the EndoSceneStill and Kvasir-SEG datasets, respectively.

translated by 谷歌翻译

RHA-Net: An Encoder-Decoder Network with Residual Blocks and Hybrid Attention Mechanisms for Pavement Crack Segmentation

Guijie Zhu , Zhun Fan , Jiacheng Liu , Duan Yuan , Peili Ma , Meihua Wang , Weihua Sheng , Kelvin C. P. Wang

分类：计算机视觉 | 机器学习

2022-07-28

人行道表面数据的获取和评估在路面条件评估中起着至关重要的作用。在本文中，提出了一个称为RHA-NET的自动路面裂纹分割的有效端到端网络，以提高路面裂纹分割精度。 RHA-NET是通过将残留块（重阻）和混合注意块集成到编码器架构结构中来构建的。这些重组用于提高RHA-NET提取高级抽象特征的能力。混合注意块旨在融合低级功能和高级功能，以帮助模型专注于正确的频道和裂纹区域，从而提高RHA-NET的功能表现能力。构建并用于训练和评估所提出的模型的图像数据集，其中包含由自设计的移动机器人收集的789个路面裂纹图像。与其他最先进的网络相比，所提出的模型在全面的消融研究中验证了添加残留块和混合注意机制的功能。此外，通过引入深度可分离卷积生成的模型的轻加权版本可以更好地实现性能和更快的处理速度，而U-NET参数数量的1/30。开发的系统可以在嵌入式设备Jetson TX2（25 fps）上实时划分路面裂纹。实时实验拍摄的视频将在https://youtu.be/3xiogk0fig4上发布。

translated by 谷歌翻译

RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional Network for Retinal OCT Fluid Segmentation

Reza Rasti , Armin Biglari , Mohammad Rezapourian , Ziyun Yang , Sina Farsiu

分类：计算机视觉

2022-09-26

光学相干断层扫描（OCT）有助于眼科医生评估黄斑水肿，流体的积累以及微观分辨率的病变。视网膜流体的定量对于OCT引导的治疗管理是必需的，这取决于精确的图像分割步骤。由于对视网膜流体的手动分析是一项耗时，主观和容易出错的任务，因此对快速和健壮的自动解决方案的需求增加了。在这项研究中，提出了一种名为Retifluidnet的新型卷积神经结构，用于多级视网膜流体分割。该模型受益于层次表示使用新的自适应双重注意（SDA）模块的纹理，上下文和边缘特征的学习，多个基于自适应的Skip Connections（SASC）以及一种新颖的多尺度深度自我监督学习（DSL）方案。拟议的SDA模块中的注意机制使该模型能够自动提取不同级别的变形感知表示，并且引入的SASC路径进一步考虑了空间通道相互依存，以串联编码器和解码器单元，从而提高了表示能力。还使用包含加权版本的骰子重叠和基于边缘的连接损失的联合损失函数进行了优化的retifluidnet，其中将多尺度局部损失的几个分层阶段集成到优化过程中。该模型根据三个公开可用数据集进行验证：润饰，Optima和Duke，并与几个基线进行了比较。数据集的实验结果证明了在视网膜OCT分割中提出的模型的有效性，并揭示了建议的方法比现有的最新流体分割算法更有效，以适应各种图像扫描仪器记录的视网膜OCT扫描。

translated by 谷歌翻译

Multi-similarity based Hyperrelation Network for few-shot segmentation

Xiangwen Shi , Zhe Cui , Shaobing Zhang , Miao Cheng , Lian He , Xianghong Tang

分类：计算机视觉

2022-03-17

很少有语义细分旨在识别一个看不见类别的对象区域，只有几个带注释的示例作为监督。几次分割的关键是在支持图像和查询图像之间建立牢固的语义关系，并防止过度拟合。在本文中，我们提出了一个有效的多相似性超关联网络（MSHNET），以解决几个射击语义分割问题。在MSHNET中，我们提出了一种新的生成原型相似性（GPS），与余弦相似性可以在支持图像和查询图像之间建立牢固的语义关系。基于全局特征的本地生成的原型相似性在逻辑上与基于本地特征的全局余弦相似性互补，并且可以通过同时使用两个相似性来更全面地表达查询图像和受支持图像之间的关系。此外，我们提出了MSHNET中的对称合并块（SMB），以有效合并多层，多弹射和多相似性超相关特征。 MSHNET是基于相似性而不是特定类别特征而构建的，这些特征可以实现更一般的统一性并有效地减少过度拟合。在两个基准的语义分割数据集Pascal-5i和Coco-20i上，MSHNET在1次和5次语义分段任务上实现了新的最先进的表演。

translated by 谷歌翻译

Uncertainty, Edge, and Reverse-Attention Guided Generative Adversarial Network for Automatic Building Detection in Remotely Sensed Images

Somrita Chattopadhyay , Avinash C. Kak

分类：计算机视觉 | 机器学习

2021-12-10

尽管近期基于深度学习的语义细分，但远程感测图像的自动建筑检测仍然是一个具有挑战性的问题，由于全球建筑物的出现巨大变化。误差主要发生在构建足迹的边界，阴影区域，以及检测外表面具有与周围区域非常相似的反射率特性的建筑物。为了克服这些问题，我们提出了一种生成的对抗基于网络的基于网络的分割框架，其具有嵌入在发电机中的不确定性关注单元和改进模块。由边缘和反向关注单元组成的细化模块，旨在精炼预测的建筑地图。边缘注意力增强了边界特征，以估计更高的精度，并且反向关注允许网络探索先前估计区域中缺少的功能。不确定性关注单元有助于网络解决分类中的不确定性。作为我们方法的权力的衡量标准，截至2021年12月4日，它在Deepglobe公共领导板上的第二名，尽管我们的方法的主要重点 - 建筑边缘 - 并不完全对齐用于排行榜排名的指标。 DeepGlobe充满挑战数据集的整体F1分数为0.745。我们还报告了对挑战的Inria验证数据集的最佳成绩，我们的网络实现了81.28％的总体验证，总体准确性为97.03％。沿着同一条线，对于官方Inria测试数据集，我们的网络总体上得分77.86％和96.41％，而且准确性。

translated by 谷歌翻译

Simultaneous segmentation and classification of the retinal arteries and veins from color fundus images

José Morano , Álvaro S. Hervella , Jorge Novo , José Rouco

分类：计算机视觉

2022-09-20

视网膜脉管系统的研究是筛查和诊断许多疾病的基本阶段。完整的视网膜血管分析需要将视网膜的血管分为动脉和静脉（A/V）。早期自动方法在两个顺序阶段接近这些分割和分类任务。但是，目前，这些任务是作为联合语义分割任务处理的，因为分类结果在很大程度上取决于血管分割的有效性。在这方面，我们提出了一种新的方法，用于从眼睛眼睛图像中对视网膜A/V进行分割和分类。特别是，我们提出了一种新颖的方法，该方法与以前的方法不同，并且由于新的损失，将联合任务分解为针对动脉，静脉和整个血管树的三个分割问题。这种配置允许直观地处理容器交叉口，并直接提供不同靶血管树的精确分割罩。提供的关于公共视网膜图血管树提取（RITE）数据集的消融研究表明，所提出的方法提供了令人满意的性能，尤其是在不同结构的分割中。此外，与最新技术的比较表明，我们的方法在A/V分类中获得了高度竞争的结果，同时显着改善了血管分割。提出的多段方法允许检测更多的血管，并更好地分割不同的结构，同时实现竞争性分类性能。同样，用这些术语来说，我们的方法优于各种参考作品的方法。此外，与以前的方法相比，该方法允许直接检测到容器交叉口，并在这些复杂位置保留A/V的连续性。

translated by 谷歌翻译

Toward Accurate and Reliable Iris Segmentation Using Uncertainty Learning

Jianze Wei , Huaibo Huang , Muyi Sun , Yunlong Wang , Min Ren , Ran He , Zhenan Sun

分类：计算机视觉

2021-10-20

虹膜分割是虹膜识别系统的确定性部分。虹膜区的不可靠细分，特别是肢体区域仍然是瓶颈问题，这阻碍了更准确的识别。为了进一步努力，通过探索空间和视觉关系，我们提出了一种准确可靠的虹膜细分，我们提出了双边自我关注模块和设计双边变压器（Bitrans），通过探索空间和视觉关系。双边自我注意模块采用空间分支，以捕获空间上下文信息，而无需分辨率，具有大容器的视觉分支，以提取视觉上下文特征。 Bitrans积极应用卷积预测和横向，以改善空间感知和分层特征融合。此外，开发了虹膜分割不确定性学习，以根据预测差异来学习不确定性地图。通过估计的不确定性，旨在减少预测性不确定性的加权方案和正则化术语。更重要的是，不确定性估计反映了分割预测的可靠性。三个公开数据库的实验结果表明，拟议的方法使用SOTA IRISPARSENET的20％拖鞋实现了更好的分割性能。

translated by 谷歌翻译

SCNet: A Generalized Attention-based Model for Crack Fault Segmentation

Hrishikesh Sharma , Prakhar Pradhan , Balamuralidhar P

分类：计算机视觉

2021-12-02

异常检测和定位是具有多种应用的重要视觉问题。各种不同表面上异常区域的有效和通用的语义分割，在各种不同的表面上，大多数异常区域没有任何明显的模式，仍处于积极研究。在广大基础设施中检测是一种重要的基础设施的定期健康监测和故障（异常）是一种重要的安全相关任务，是基于视觉的异常分割的一个这样的应用领域。然而，由于表面故障的大变化，纹理的结构材料/背景，照明条件等，任务是非常具有挑战性的。裂缝是临界和频繁的表面缺陷，表现为极端曲折形状的薄，细长区域。它们是在深入学习的最难检测的故障之一中。在这项工作中，我们解决了自动裂缝分割问题的一个开放方面，通过模拟问题来概括和提高各种场景的分割性能。我们仔细研究和抽象涉及的子问题，并在更广泛的背景下解决它们，使我们的解决方案通用。在各种与不同基础设施监视相关的数据集上，在不同的条件下，我们的模型在没有任何铃声和口哨的情况下始终如一地优于最先进的算法。这种性能优势在我们模型的两个部署中轻松携带，针对行业提供的数据集进行测试。更进一步的是，我们也可以为两个制造质量检查场景建立我们的模型的表现，其中缺陷类型不仅仅是裂缝等价物，而且更加不同。因此，我们希望我们的模型确实是一个真正的通用缺陷分段模型。

translated by 谷歌翻译