智能论文笔记

MTU-Net: Multi-level TransUNet for Space-based Infrared Tiny Ship Detection

Tianhao Wu , Boyang Li , Yihang Luo , Yingqian Wang , Chao Xiao , Ting Liu , Jungang Yang , Wei An , Yulan Guo

分类：计算机视觉

2022-09-28

空间红外的小型船舶检测旨在将小型船只与轨道轨道捕获的图像分开。由于图像覆盖面积极大（例如，数千平方公里），这些图像中的候选目标比空中基于天线和陆基成像设备观察到的目标要小得多，二聚体，更可变。现有的简短成像基于距离的红外数据集和目标检测方法不能很好地用于空间监视任务。为了解决这些问题，我们开发了一个空间红外的小型船舶检测数据集（即Nudt-Sirst-Sea），该数据集具有48个空间基红外图像和17598像素级的小型船上注释。每个图像覆盖约10000平方公里的面积，带有10000x10000像素。考虑到这些充满挑战的场景，考虑到这些微小的船只的极端特征（例如，小，昏暗，可变的），我们在本文中提出了多层Transunet（MTU-NET）。具体而言，我们设计了视觉变压器（VIT）卷积神经网络（CNN）混合编码器来提取多层次特征。首先将局部特征图用几个卷积层提取，然后馈入多级特征提取模块（MVTM）以捕获长距离依赖性。我们进一步提出了一种拷贝性衡量量 - 帕斯特（CRRP）数据增强方法，以加速训练阶段，从而有效地减轻了目标和背景之间样本不平衡问题的问题。此外，我们设计了一个焦点损失，以实现目标定位和形状描述。 NUDT-SIRST-SEA数据集的实验结果表明，就检测概率，错误警报率和联合交集的交集而言，我们的MTU-NET优于传统和现有的基于深度学习的SIRST方法。

translated by 谷歌翻译

Dense Nested Attention Network for Infrared Small Target Detection

Boyang Li , Chao Xiao , Longguang Wang , Yingqian Wang , Zaiping Lin , Miao Li , Wei An , Yulan Guo

分类：计算机视觉

2021-06-01

单帧红外小目标（SIRST）检测旨在将小目标与混乱背景区分开。随着深度学习的发展，基于CNN的方法由于其强大的建模能力而在通用对象检测中产生了有希望的结果。但是，现有的基于CNN的方法不能直接应用于红外小目标，因为其网络中的汇总层可能导致深层中的目标损失。为了解决这个问题，我们在本文中提出了一个密集的嵌套注意网络（DNANET）。具体而言，我们设计了一个密集的嵌套交互模块（DNIM），以实现高级和低级特征之间的渐进互动。随着DNIM中的重复相互作用，可以保持深层中的红外小目标。基于DNIM，我们进一步提出了一个级联的通道和空间注意模块（CSAM），以适应增强多级特征。借助我们的DNANET，可以通过重复的融合和增强来充分整合和充分利用小型目标的上下文信息。此外，我们开发了一个红外的小目标数据集（即nudt-sirst），并提出了一组评估指标来进行全面的绩效评估。对公众和我们自我开发的数据集进行的实验证明了我们方法的有效性。与其他最先进的方法相比，我们的方法在检测概率（PD），假警报率（FA）和联合交集（IOU）方面取得了更好的性能。

translated by 谷歌翻译

Infrared Small-Dim Target Detection with Transformer under Complex Backgrounds

Fangcen Liu , Chenqiang Gao , Fang Chen , Deyu Meng , Wangmeng Zuo , Xinbo Gao

分类：计算机视觉

2021-09-29

红外小暗淡目标检测是红外搜索和跟踪系统中的关键技术之一。由于本地区域类似于红外小暗淡目标，因此在整个背景中传播，因此在大型依赖性中探讨了图像特征之间的交互信息来挖掘目标和背景之间的差异对于鲁棒检测至关重要。然而，基于深度学习的方法受卷积神经网络的局部的限制，这损害了捕获大范围依赖性的能力。另外，红外目标的小暗淡外观使检测模型非常可能错过检测。为此，我们提出了一种具有变压器的稳健和一般的红外小型目标检测方法。我们采用变压器的自我关注机制来学习更大范围内图像特征的交互信息。此外，我们设计了一个特征增强模块，以学习小型暗淡目标的辨别特征，以避免错过检测。之后，为了避免丢失目标信息，我们采用了与U-Net的跳过连接操作的解码器来包含更多的小暗淡目标信息。最后，我们通过分割头得到检测结果。两个公共数据集的广泛实验表明，在最先进的方法中提出了拟议方法的明显优势，并且所提出的方法具有更强的跨场泛化和抗噪声性能。

translated by 谷歌翻译

One-Stage Cascade Refinement Networks for Infrared Small Target Detection

Yimian Dai , Xiang Li , Fei Zhou , Yulei Qian , Yaohong Chen , Jian Yang

分类：计算机视觉

2022-12-16

Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.

translated by 谷歌翻译

UIU-Net: U-Net in U-Net for Infrared Small Object Detection

Xin Wu , Danfeng Hong , Jocelyn Chanussot

分类：计算机视觉

2022-12-02

Learning-based infrared small object detection methods currently rely heavily on the classification backbone network. This tends to result in tiny object loss and feature distinguishability limitations as the network depth increases. Furthermore, small objects in infrared images are frequently emerged bright and dark, posing severe demands for obtaining precise object contrast information. For this reason, we in this paper propose a simple and effective ``U-Net in U-Net'' framework, UIU-Net for short, and detect small objects in infrared images. As the name suggests, UIU-Net embeds a tiny U-Net into a larger U-Net backbone, enabling the multi-level and multi-scale representation learning of objects. Moreover, UIU-Net can be trained from scratch, and the learned features can enhance global and local contrast information effectively. More specifically, the UIU-Net model is divided into two modules: the resolution-maintenance deep supervision (RM-DS) module and the interactive-cross attention (IC-A) module. RM-DS integrates Residual U-blocks into a deep supervision network to generate deep multi-scale resolution-maintenance features while learning global context information. Further, IC-A encodes the local context information between the low-level details and high-level semantic features. Extensive experiments conducted on two infrared single-frame image datasets, i.e., SIRST and Synthetic datasets, show the effectiveness and superiority of the proposed UIU-Net in comparison with several state-of-the-art infrared small object detection methods. The proposed UIU-Net also produces powerful generalization performance for video sequence infrared small object datasets, e.g., ATR ground/air video sequence dataset. The codes of this work are available openly at \url{https://github.com/danfenghong/IEEE_TIP_UIU-Net}.

translated by 谷歌翻译

Transformers in Remote Sensing: A Survey

Abdulaziz Amer Aleissaee , Amandeep Kumar , Rao Muhammad Anwer , Salman Khan , Hisham Cholakkal , Gui-Song Xia , Fahad Shahbaz khan

分类：计算机视觉

2022-09-02

在过去的十年中，基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近，最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域，在该字段中，自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发，遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上，但据我们所知，我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法，用于遥感子方面的不同遥感问题：非常高分辨率（VHR），高光谱（HSI）和合成孔径雷达（SAR）图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外，我们打算在遥感论文中频繁更新和维护最新的变压器，及其各自的代码：https：//github.com/virobo-15/transformer-in-in-remote-sensing

translated by 谷歌翻译

HTML版本

UNetFormer: A UNet-like Transformer for Efficient Semantic Segmentation of Remote Sensing Urban Scene Imagery

Libo Wang , Rui Li , Ce Zhang , Shenghui Fang , Chenxi Duan , Xiaoliang Meng , Peter M. Atkinson

分类：计算机视觉

2021-09-18

在广泛的实用应用中，需要进行远程感知的城市场景图像的语义细分，例如土地覆盖地图，城市变化检测，环境保护和经济评估。在深度学习技术的快速发展，卷积神经网络（CNN）的迅速发展。）多年来一直在语义细分中占主导地位。 CNN采用层次特征表示，证明了局部信息提取的强大功能。但是，卷积层的本地属性限制了网络捕获全局上下文。最近，作为计算机视觉领域的热门话题，Transformer在全球信息建模中展示了其巨大的潜力，从而增强了许多与视觉相关的任务，例如图像分类，对象检测，尤其是语义细分。在本文中，我们提出了一个基于变压器的解码器，并为实时城市场景细分构建了一个类似Unet的变压器（UneTformer）。为了有效的分割，不显示器将轻量级RESNET18选择作为编码器，并开发出有效的全球关注机制，以模拟解码器中的全局和局部信息。广泛的实验表明，我们的方法不仅运行速度更快，而且与最先进的轻量级模型相比，其准确性更高。具体而言，拟议的未显示器分别在无人机和洛夫加数据集上分别达到了67.8％和52.4％的MIOU，而在单个NVIDIA GTX 3090 GPU上输入了512x512输入的推理速度最多可以达到322.4 fps。在进一步的探索中，拟议的基于变压器的解码器与SWIN变压器编码器结合使用，还可以在Vaihingen数据集上实现最新的结果（91.3％F1和84.1％MIOU）。源代码将在https://github.com/wanglibo1995/geoseg上免费获得。

translated by 谷歌翻译

Feature Aggregation and Propagation Network for Camouflaged Object Detection

Tao Zhou , Yi Zhou , Chen Gong , Jian Yang , Yu Zhang

分类：计算机视觉

2022-12-02

Camouflaged object detection (COD) aims to detect/segment camouflaged objects embedded in the environment, which has attracted increasing attention over the past decades. Although several COD methods have been developed, they still suffer from unsatisfactory performance due to the intrinsic similarities between the foreground objects and background surroundings. In this paper, we propose a novel Feature Aggregation and Propagation Network (FAP-Net) for camouflaged object detection. Specifically, we propose a Boundary Guidance Module (BGM) to explicitly model the boundary characteristic, which can provide boundary-enhanced features to boost the COD performance. To capture the scale variations of the camouflaged objects, we propose a Multi-scale Feature Aggregation Module (MFAM) to characterize the multi-scale information from each layer and obtain the aggregated feature representations. Furthermore, we propose a Cross-level Fusion and Propagation Module (CFPM). In the CFPM, the feature fusion part can effectively integrate the features from adjacent layers to exploit the cross-level correlations, and the feature propagation part can transmit valuable context information from the encoder to the decoder network via a gate unit. Finally, we formulate a unified and end-to-end trainable framework where cross-level features can be effectively fused and propagated for capturing rich context information. Extensive experiments on three benchmark camouflaged datasets demonstrate that our FAP-Net outperforms other state-of-the-art COD models. Moreover, our model can be extended to the polyp segmentation task, and the comparison results further validate the effectiveness of the proposed model in segmenting polyps. The source code and results will be released at https://github.com/taozh2017/FAPNet.

translated by 谷歌翻译

PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion

Yu Fu , TianYang Xu , XiaoJun Wu , Josef Kittler

分类：计算机视觉

2021-07-29

近年来，变压器架构目睹了快速发展，优于许多计算机视觉任务中的CNN架构，如视觉变压器（VIV）用于图像分类。然而，现有的视觉变压器模型旨在提取用于高级任务的语义信息，例如分类和检测。这些方法忽略输入图像的空间分辨率的重要性，从而牺牲相邻像素的局部相关信息。在本文中，我们提出了一个贴片金字塔变换器（PPT），以有效地解决上述问题。一致地，我们首先设计一个贴片变换器，将图像转换为一系列补丁，其中对每个修补程序执行变压器编码以提取本地表示。此外，我们构建了金字塔变换器，以有效地从整个图像中提取非本地信息。在获得原始图像的一组多尺度，多维和多角度特征之后，我们设计图像重建网络，以确保可以将特征重建为原始输入。为了验证有效性，我们将建议的贴片金字塔变压器应用于图像融合任务。实验结果表明其具有卓越的性能，而最先进的融合方法，在几种评估指标上实现了最佳结果。由于PPT网络的潜在代表性容量，它可以直接应用于不同的图像融合任务，而无需重新设计或再培训网络。

translated by 谷歌翻译

Defect Transformer: An Efficient Hybrid Transformer Architecture for Surface Defect Detection

Junpu Wang , Guili Xu , Fuju Yan , Jinjin Wang , Zhengsheng Wang

分类：计算机视觉

2022-07-17

表面缺陷检测是确保工业产品质量的极其至关重要的步骤。如今，基于编码器架构的卷积神经网络（CNN）在各种缺陷检测任务中取得了巨大的成功。然而，由于卷积的内在局部性，它们通常在明确建模长距离相互作用时表现出限制，这对于复杂情况下的像素缺陷检测至关重要，例如杂乱的背景和难以辨认的伪缺陷。最近的变压器尤其擅长学习全球图像依赖性，但对于详细的缺陷位置所需的本地结构信息有限。为了克服上述局限性，我们提出了一个有效的混合变压器体系结构，称为缺陷变压器（faft），用于表面缺陷检测，该检测将CNN和Transferaler纳入统一模型，以协作捕获本地和非本地关系。具体而言，在编码器模块中，首先采用卷积茎块来保留更详细的空间信息。然后，贴片聚合块用于生成具有四个层次结构的多尺度表示形式，每个层次结构之后分别是一系列的feft块，该块分别包括用于本地位置编码的本地位置块，一个轻巧的多功能自我自我 - 注意与良好的计算效率建模多尺度的全球上下文关系，以及用于功能转换和进一步位置信息学习的卷积馈送网络。最后，提出了一个简单但有效的解码器模块，以从编码器中的跳过连接中逐渐恢复空间细节。与其他基于CNN的网络相比，三个数据集上的广泛实验证明了我们方法的优势和效率。

translated by 谷歌翻译

Towards Large-Scale Small Object Detection: Survey and Benchmarks

Gong Cheng , Xiang Yuan , Xiwen Yao , Kebing Yan , Qinghua Zeng , Junwei Han

分类：计算机视觉

2022-07-28

随着深度卷积神经网络的兴起，对象检测在过去几年中取得了突出的进步。但是，这种繁荣无法掩盖小物体检测（SOD）的不令人满意的情况，这是计算机视觉中臭名昭著的挑战性任务之一，这是由于视觉外观不佳和由小目标的内在结构引起的嘈杂表示。此外，用于基准小对象检测方法基准测试的大规模数据集仍然是瓶颈。在本文中，我们首先对小物体检测进行了详尽的审查。然后，为了催化SOD的发展，我们分别构建了两个大规模的小物体检测数据集（SODA），SODA-D和SODA-A，分别集中在驾驶和空中场景上。 SODA-D包括24704个高质量的交通图像和277596个9个类别的实例。对于苏打水，我们收集2510个高分辨率航空图像，并在9个类别上注释800203实例。众所周知，拟议的数据集是有史以来首次尝试使用针对多类SOD量身定制的大量注释实例进行大规模基准测试。最后，我们评估主流方法在苏打水上的性能。我们预计发布的基准可以促进SOD的发展，并产生该领域的更多突破。数据集和代码将很快在：\ url {https://shaunyuan22.github.io/soda}上。

translated by 谷歌翻译

Multi-Content Complementation Network for Salient Object Detection in Optical Remote Sensing Images

Gongyang Li , Zhi Liu , Weisi Lin , Haibin Ling

分类：计算机视觉

2021-12-02

在计算机视觉社区中，从自然场景图像（NSI-SOD）的突出对象检测中取得了巨大进展;相比之下，光学遥感图像（RSI-SOD）中的突出物体检测仍然是一个具有挑战性的新兴主题。光学RSI的独特特性，如尺度，照明和成像方向，在NSI-SOD和RSI-SOD之间带来显着差异。在本文中，我们提出了一种新的多内容互补网络（MCCNet）来探讨RSI-SOD的多个内容的互补性。具体地，MCCNet基于常规编码器解码器架构，并包含一个名为多内容互补模块（MCCM）的新型密钥组件，其桥接编码器和解码器。在MCCM中，我们考虑多种类型的功能对RSI-SOD至关重要的功能，包括前景特征，边缘功能，后台功能和全局图像级别功能，并利用它们之间的内容互补性来突出显示RSI中各种刻度的突出区域通过注意机制的特点。此外，我们全面引入训练阶段的像素级，地图级和公制感知损失。在两个流行的数据集上进行广泛的实验表明，所提出的MCCNet优于23个最先进的方法，包括NSI-SOD和RSI-SOD方法。我们方法的代码和结果可在https://github.com/mathlee/mccnet上获得。

translated by 谷歌翻译

Uncertainty, Edge, and Reverse-Attention Guided Generative Adversarial Network for Automatic Building Detection in Remotely Sensed Images

Somrita Chattopadhyay , Avinash C. Kak

分类：计算机视觉 | 机器学习

2021-12-10

尽管近期基于深度学习的语义细分，但远程感测图像的自动建筑检测仍然是一个具有挑战性的问题，由于全球建筑物的出现巨大变化。误差主要发生在构建足迹的边界，阴影区域，以及检测外表面具有与周围区域非常相似的反射率特性的建筑物。为了克服这些问题，我们提出了一种生成的对抗基于网络的基于网络的分割框架，其具有嵌入在发电机中的不确定性关注单元和改进模块。由边缘和反向关注单元组成的细化模块，旨在精炼预测的建筑地图。边缘注意力增强了边界特征，以估计更高的精度，并且反向关注允许网络探索先前估计区域中缺少的功能。不确定性关注单元有助于网络解决分类中的不确定性。作为我们方法的权力的衡量标准，截至2021年12月4日，它在Deepglobe公共领导板上的第二名，尽管我们的方法的主要重点 - 建筑边缘 - 并不完全对齐用于排行榜排名的指标。 DeepGlobe充满挑战数据集的整体F1分数为0.745。我们还报告了对挑战的Inria验证数据集的最佳成绩，我们的网络实现了81.28％的总体验证，总体准确性为97.03％。沿着同一条线，对于官方Inria测试数据集，我们的网络总体上得分77.86％和96.41％，而且准确性。

translated by 谷歌翻译

AGPCNet: Attention-Guided Pyramid Context Networks for Infrared Small Target Detection

Tianfang Zhang , Siying Cao , Tian Pu , Zhenming Peng

分类：计算机视觉

2021-11-05

红外小目标检测是在地球观测，军事侦察，救灾等许多领域的重要问题，最近受到了广泛的关注。本文介绍了注意引导金字塔上下文网络（AGPCNET）算法。其主要组件是注意引导的上下文块（AGCB），上下文金字塔模块（CPM）和非对称融合模块（AFM）。AGCB将特征映射分为修补程序以计算本地关联，并使用全局上下文注意（GCA）来计算语义之间的全局关联，CPM集成来自多尺度AGCB的功能，AFM从功能集成了低级和深级语义集成 - 融合视角，增强了特征的利用。实验结果表明，AGPCNET在两个可用的红外小目标数据集上实现了新的最先进的性能。源代码可在https://github.com/tianfang-zhang/agpcnet上获得。

translated by 谷歌翻译

RHA-Net: An Encoder-Decoder Network with Residual Blocks and Hybrid Attention Mechanisms for Pavement Crack Segmentation

Guijie Zhu , Zhun Fan , Jiacheng Liu , Duan Yuan , Peili Ma , Meihua Wang , Weihua Sheng , Kelvin C. P. Wang

分类：计算机视觉 | 机器学习

2022-07-28

人行道表面数据的获取和评估在路面条件评估中起着至关重要的作用。在本文中，提出了一个称为RHA-NET的自动路面裂纹分割的有效端到端网络，以提高路面裂纹分割精度。 RHA-NET是通过将残留块（重阻）和混合注意块集成到编码器架构结构中来构建的。这些重组用于提高RHA-NET提取高级抽象特征的能力。混合注意块旨在融合低级功能和高级功能，以帮助模型专注于正确的频道和裂纹区域，从而提高RHA-NET的功能表现能力。构建并用于训练和评估所提出的模型的图像数据集，其中包含由自设计的移动机器人收集的789个路面裂纹图像。与其他最先进的网络相比，所提出的模型在全面的消融研究中验证了添加残留块和混合注意机制的功能。此外，通过引入深度可分离卷积生成的模型的轻加权版本可以更好地实现性能和更快的处理速度，而U-NET参数数量的1/30。开发的系统可以在嵌入式设备Jetson TX2（25 fps）上实时划分路面裂纹。实时实验拍摄的视频将在https://youtu.be/3xiogk0fig4上发布。

translated by 谷歌翻译

Salient Object Detection via Integrity Learning

Mingchen Zhuge , Deng-Ping Fan , Nian Liu , Dingwen Zhang , Dong Xu , Ling Shao

分类：计算机视觉

2021-01-19

尽管当前的显着对象检测（SOD）作品已经取得了重大进展，但在预测的显着区域的完整性方面，它们受到限制。我们在微观和宏观水平上定义了完整性的概念。具体而言，在微观层面上，该模型应突出显示属于某个显着对象的所有部分。同时，在宏观层面上，模型需要在给定图像中发现所有显着对象。为了促进SOD的完整性学习，我们设计了一个新颖的完整性认知网络（ICON），该网络探讨了学习强大完整性特征的三个重要组成部分。 1）与现有模型不同，该模型更多地集中在功能可区分性上，我们引入了各种功能集合（DFA）组件，以汇总具有各种接受场（即内核形状和背景）的特征，并增加了功能多样性。这种多样性是挖掘积分显着物体的基础。 2）基于DFA功能，我们引入了一个完整性通道增强（ICE）组件，其目标是增强功能通道，以突出积分显着对象，同时抑制其他分心的对象。 3）提取增强功能后，采用零件整体验证（PWV）方法来确定零件和整个对象特征是否具有很强的一致性。这样的部分协议可以进一步改善每个显着对象的微观完整性。为了证明我们图标的有效性，对七个具有挑战性的基准进行了全面的实验。我们的图标在广泛的指标方面优于基线方法。值得注意的是，我们的图标在六个数据集上的平均假阴影（FNR）（FNR）方面，相对于以前的最佳模型的相对改善约为10％。代码和结果可在以下网址获得：https：//github.com/mczhuge/icon。

translated by 谷歌翻译

Camouflaged Object Detection via Context-aware Cross-level Fusion

Geng Chen , Si-Jie Liu , Yu-Jia Sun , Ge-Peng Ji , Ya-Feng Wu , Tao Zhou

分类：计算机视觉

2022-07-27

伪装的对象检测（COD）旨在识别自然场景中隐藏自己的物体。准确的COD遭受了许多与低边界对比度有关的挑战，并且对象出现（例如对象大小和形状）的较大变化。为了应对这些挑战，我们提出了一种新颖的背景感知跨层次融合网络（C2F-net），该网络融合了上下文感知的跨级特征，以准确识别伪装的对象。具体而言，我们通过注意力诱导的跨融合模块（ACFM）来计算来自多级特征的内容丰富的注意系数，该模块（ACFM）进一步在注意系数的指导下进一步集成了特征。然后，我们提出了一个双分支全局上下文模块（DGCM），以通过利用丰富的全球上下文信息来完善内容丰富的功能表示的融合功能。多个ACFM和DGCM以级联的方式集成，以产生高级特征的粗略预测。粗糙的预测充当了注意力图，以完善低级特征，然后再将其传递到我们的伪装推断模块（CIM）以生成最终预测。我们对三个广泛使用的基准数据集进行了广泛的实验，并将C2F-NET与最新模型（SOTA）模型进行比较。结果表明，C2F-NET是一种有效的COD模型，并且表现出明显的SOTA模型。此外，对息肉细分数据集的评估证明了我们在COD下游应用程序中C2F-NET的有希望的潜力。我们的代码可在以下网址公开获取：https：//github.com/ben57882/c2fnet-tscvt。

translated by 谷歌翻译

DQnet: Cross-Model Detail Querying for Camouflaged Object Detection

Wei Sun , Chengao Liu , Linyan Zhang , Yu Li , Pengxu Wei , Chang Liu , Jialing Zou , Jianbin Jiao , Qixiang Ye

分类：计算机视觉

2022-12-16

Camouflaged objects are seamlessly blended in with their surroundings, which brings a challenging detection task in computer vision. Optimizing a convolutional neural network (CNN) for camouflaged object detection (COD) tends to activate local discriminative regions while ignoring complete object extent, causing the partial activation issue which inevitably leads to missing or redundant regions of objects. In this paper, we argue that partial activation is caused by the intrinsic characteristics of CNN, where the convolution operations produce local receptive fields and experience difficulty to capture long-range feature dependency among image regions. In order to obtain feature maps that could activate full object extent, keeping the segmental results from being overwhelmed by noisy features, a novel framework termed Cross-Model Detail Querying network (DQnet) is proposed. It reasons the relations between long-range-aware representations and multi-scale local details to make the enhanced representation fully highlight the object regions and eliminate noise on non-object regions. Specifically, a vanilla ViT pretrained with self-supervised learning (SSL) is employed to model long-range dependencies among image regions. A ResNet is employed to enable learning fine-grained spatial local details in multiple scales. Then, to effectively retrieve object-related details, a Relation-Based Querying (RBQ) module is proposed to explore window-based interactions between the global representations and the multi-scale local details. Extensive experiments are conducted on the widely used COD datasets and show that our DQnet outperforms the current state-of-the-arts.

translated by 谷歌翻译

Large-Field Contextual Feature Learning for Glass Detection

Haiyang Mei , Xin Yang , Letian Yu , Qiang Zhang , Xiaopeng Wei , Rynson W. H. Lau

分类：计算机视觉

2022-09-10

玻璃在我们的日常生活中非常普遍。现有的计算机视觉系统忽略了它，因此可能会产生严重的后果，例如，机器人可能会坠入玻璃墙。但是，感知玻璃的存在并不简单。关键的挑战是，任意物体/场景可以出现在玻璃后面。在本文中，我们提出了一个重要的问题，即从单个RGB图像中检测玻璃表面。为了解决这个问题，我们构建了第一个大规模玻璃检测数据集（GDD），并提出了一个名为GDNet-B的新颖玻璃检测网络，该网络通过新颖的大型场探索大型视野中的丰富上下文提示上下文特征集成（LCFI）模块并将高级和低级边界特征与边界特征增强（BFE）模块集成在一起。广泛的实验表明，我们的GDNET-B可以在GDD测试集内外的图像上达到满足玻璃检测结果。我们通过将其应用于其他视觉任务（包括镜像分割和显着对象检测）来进一步验证我们提出的GDNET-B的有效性和概括能力。最后，我们显示了玻璃检测的潜在应用，并讨论了可能的未来研究方向。

translated by 谷歌翻译

Mirror Complementary Transformer Network for RGB-thermal Salient Object Detection

Xiurong Jiang , Lin Zhu , Yifan Hou , Hui Tian

分类：计算机视觉

2022-07-07

RGB-thermal显着对象检测（RGB-T SOD）旨在定位对齐可见的和热红外图像对的共同突出对象，并准确地分割所有属于这些对象的像素。由于对热图像的照明条件不敏感，它在诸如夜间和复杂背景之类的具有挑战性的场景中很有希望。因此，RGB-T SOD的关键问题是使两种方式的功能相互补充并互相调整，因为不可避免的是，由于极端光条件和诸如极端光条件和诸如极端光明条件和热跨界。在本文中，我们提出了一个针对RGB-T SOD的新型镜子互补变压器网络（MCNET）。具体而言，我们将基于变压器的特征提取模块引入RGB和热图像的有效提取分层特征。然后，通过基于注意力的特征相互作用和基于串行的多尺度扩张卷积（SDC）特征融合模块，提出的模型实现了低级特征的互补相互作用以及深度特征的语义融合。最后，基于镜子互补结构，即使是一种模态也可以准确地提取两种方式的显着区域也是无效的。为了证明在现实世界中具有挑战性的场景下提出的模型的鲁棒性，我们基于自动驾驶域中使用的大型公共语义分段RGB-T数据集建立了一种新颖的RGB-T SOD数据集VT723。基准和VT723数据集上的昂贵实验表明，所提出的方法优于最先进的方法，包括基于CNN的方法和基于变压器的方法。该代码和数据集将在稍后在https://github.com/jxr326/swinmcnet上发布。

translated by 谷歌翻译