智能论文笔记

Temporal Fusion Based Mutli-scale Semantic Segmentation for Detecting Concealed Baggage Threats

Muhammed Shafay , Taimur Hassan , Ernesto Damiani , Naoufel Werghi

分类：计算机视觉

2021-11-04

检测行李中的非法和威胁物品是最大的安全问题之一。即使对于经验丰富的安全人员来说，手动检测也是一种耗时和压力的任务。许多学者都创建了自动框架，用于检测行李X射线扫描的可疑和违禁品数据。然而，为了我们的知识，不存在利用时间行李X射线图像的框架，以有效地筛选高度隐藏和闭塞物体，即使赤裸的眼睛也几乎看不到。为了解决这个问题，我们提出了一种新型的时间融合驱动的多尺度残余方式编码器 - 解码器，将一系列连续扫描作为输入，并融合它们以产生可疑和不可疑行李内容的不同特征表示，导致更准确提取违禁品数据。使用可公开访问的GDXRAY数据集已彻底测试所提出的方法，该数据集是包含时间链接的灰度X射线扫描的唯一数据集，其展示了极其隐藏的违禁品数据。拟议的框架在各种度量标准上的GDXRay数据集上占据了竞争对手。

translated by 谷歌翻译

A Novel Incremental Learning Driven Instance Segmentation Framework to Recognize Highly Cluttered Instances of the Contraband Items

Taimur Hassan , Samet Akcay , Mohammed Bennamoun , Salman Khan , Naoufel Werghi

分类：计算机视觉

2022-01-07

筛选行李X射线扫描的筛选杂乱和闭塞违禁品，即使对于专家的安全人员而言，甚至是一个繁琐的任务。本文提出了一种新的策略，其扩展了传统的编码器 - 解码器架构，以执行实例感知分段，并在不使用任何附加子网络或对象检测器的情况下执行违反互斥项的合并实例。编码器 - 解码器网络首先执行传统的语义分割，并检索杂乱的行李物品。然后，该模型在训练期间逐步发展，以识别各个情况，使用显着减少的训练批次。为了避免灾难性的遗忘，一种新颖的客观函数通过保留先前获得的知识来最小化每次迭代中的网络损失，同时通过贝叶斯推断解决其复杂的结构依赖性。对我们两个公开的X射线数据集的框架进行了全面评估，表明它优于最先进的方法，特别是在挑战的杂乱场景中，同时在检测准确性和效率之间实现最佳的权衡。

translated by 谷歌翻译

Computer Vision on X-ray Data in Industrial Production and Security Applications: A survey

Mehdi Rafiei , Jenni Raitoharju , Alexandros Iosifidis

分类：计算机视觉

2022-11-10

X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.

translated by 谷歌翻译

Incremental Cross-Domain Adaptation for Robust Retinopathy Screening via Bayesian Deep Learning

Taimur Hassan , Bilal Hassan , Muhammad Usman Akram , Shahrukh Hashmi , Abdel Hakim Taguri , Naoufel Werghi

分类：计算机视觉

2021-10-18

视网膜疗法代表一组视网膜疾病，如果不及时治疗，可能会导致严重的视觉障碍甚至失明。许多研究人员已经开发了自治系统，通过眼底和光学相干断层扫描（OCT）图像识别视网膜病变。然而，大多数这些框架采用传统的转移学习和微调方法，需要一种非常良好的注释训练数据来产生准确的诊断性能。本文提出了一种新型增量跨域适应仪，可以通过几次拍摄培训允许任何深度分类模型逐步学习OCT和眼底图像的异常视网膜病理。此外，与其竞争对手不同，所提出的仪器通过贝叶斯多目标函数驱动，不仅执行候选分类网络，不仅在增量培训期间保留其先前学到的知识，而且还确保网络了解先前学习的结构和语义关系病理学和新增的疾病类别在推理阶段有效地识别它们。所提出的框架，在用三种不同的扫描仪获得的六个公共数据集中评估，以筛选十三个视网膜病理，优于最先进的竞争对手，通过分别实现了0.9826和0.9846的整体准确性和F1得分。

translated by 谷歌翻译

Panoptic Segmentation: A Review

Omar Elharrouss , Somaya Al-Maadeed , Nandhini Subramanian , Najmath Ottakath , Noor Almaadeed , Yassine Himeur

分类：计算机视觉

2021-11-19

视频分析的图像分割在不同的研究领域起着重要作用，例如智能城市，医疗保健，计算机视觉和地球科学以及遥感应用。在这方面，最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地，目前正在研究Panoptic细分，以帮助获得更多对视频监控，人群计数，自主驾驶，医学图像分析的图像场景的更细致的知识，以及一般对场景更深入的了解。为此，我们介绍了本文的首次全面审查现有的Panoptic分段方法，以获得作者的知识。因此，基于所采用的算法，应用场景和主要目标的性质，执行现有的Panoptic技术的明确定义分类。此外，讨论了使用伪标签注释新数据集的Panoptic分割。继续前进，进行消融研究，以了解不同观点的Panoptic方法。此外，讨论了适合于Panoptic分割的评估度量，并提供了现有解决方案性能的比较，以告知最先进的并识别其局限性和优势。最后，目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势，可以成为即将到来的研究研究的起点。提供代码的文件可用于：https：//github.com/elharroussomar/awesome-panoptic-egation

translated by 谷歌翻译

Meta-RangeSeg: LiDAR Sequence Semantic Segmentation Using Multiple Feature Aggregation

Song Wang , Jianke Zhu , Ruixiang Zhang

分类：计算机视觉 | 机器人

2022-02-27

LIDAR传感器对于自动驾驶汽车和智能机器人的感知系统至关重要。为了满足现实世界应用程序中的实时要求，有必要有效地分割激光扫描。以前的大多数方法将3D点云直接投影到2D球形范围图像上，以便它们可以利用有效的2D卷积操作进行图像分割。尽管取得了令人鼓舞的结果，但在球形投影中，邻里信息尚未保存得很好。此外，在单个扫描分割任务中未考虑时间信息。为了解决这些问题，我们提出了一种新型的语义分割方法，用于元素rangeseg的激光雷达序列，其中引入了新的范围残差图像表示以捕获空间时间信息。具体而言，使用元内核来提取元特征，从而减少了2D范围图像坐标输入和3D笛卡尔坐标输出之间的不一致。有效的U-NET主链用于获得多尺度功能。此外，特征聚合模块（FAM）增强了范围通道的作用，并在不同级别上汇总特征。我们已经进行了广泛的实验，以评估semantickitti和semanticposs。有希望的结果表明，我们提出的元rangeseg方法比现有方法更有效。我们的完整实施可在https://github.com/songw-zju/meta-rangeseg上公开获得。

translated by 谷歌翻译

AIParsing: Anchor-free Instance-level Human Parsing

Sanyi Zhang , Xiaochun Cao , Guo-Jun Qi , Zhanjie Song , Jie Zhou

分类：计算机视觉

2022-07-14

大多数最先进的实例级人类解析模型都采用了两阶段的基于锚的探测器，因此无法避免启发式锚盒设计和像素级别缺乏分析。为了解决这两个问题，我们设计了一个实例级人类解析网络，该网络在像素级别上无锚固且可解决。它由两个简单的子网络组成：一个用于边界框预测的无锚检测头和一个用于人体分割的边缘引导解析头。无锚探测器的头继承了像素样的优点，并有效地避免了对象检测应用中证明的超参数的敏感性。通过引入部分感知的边界线索，边缘引导的解析头能够将相邻的人类部分与彼此区分开，最多可在一个人类实例中，甚至重叠的实例。同时，利用了精炼的头部整合盒子级别的分数和部分分析质量，以提高解析结果的质量。在两个多个人类解析数据集（即CIHP和LV-MHP-V2.0）和一个视频实例级人类解析数据集（即VIP）上进行实验，表明我们的方法实现了超过全球级别和实例级别的性能最新的一阶段自上而下的替代方案。

translated by 谷歌翻译

Feature Aggregation and Propagation Network for Camouflaged Object Detection

Tao Zhou , Yi Zhou , Chen Gong , Jian Yang , Yu Zhang

分类：计算机视觉

2022-12-02

Camouflaged object detection (COD) aims to detect/segment camouflaged objects embedded in the environment, which has attracted increasing attention over the past decades. Although several COD methods have been developed, they still suffer from unsatisfactory performance due to the intrinsic similarities between the foreground objects and background surroundings. In this paper, we propose a novel Feature Aggregation and Propagation Network (FAP-Net) for camouflaged object detection. Specifically, we propose a Boundary Guidance Module (BGM) to explicitly model the boundary characteristic, which can provide boundary-enhanced features to boost the COD performance. To capture the scale variations of the camouflaged objects, we propose a Multi-scale Feature Aggregation Module (MFAM) to characterize the multi-scale information from each layer and obtain the aggregated feature representations. Furthermore, we propose a Cross-level Fusion and Propagation Module (CFPM). In the CFPM, the feature fusion part can effectively integrate the features from adjacent layers to exploit the cross-level correlations, and the feature propagation part can transmit valuable context information from the encoder to the decoder network via a gate unit. Finally, we formulate a unified and end-to-end trainable framework where cross-level features can be effectively fused and propagated for capturing rich context information. Extensive experiments on three benchmark camouflaged datasets demonstrate that our FAP-Net outperforms other state-of-the-art COD models. Moreover, our model can be extended to the polyp segmentation task, and the comparison results further validate the effectiveness of the proposed model in segmenting polyps. The source code and results will be released at https://github.com/taozh2017/FAPNet.

translated by 谷歌翻译

Real-time Instance Segmentation of Surgical Instruments using Attention and Multi-scale Feature Fusion

Juan Carlos Angeles-Ceron , Gilberto Ochoa-Ruiz , Leonardo Chang , Sharib Ali

分类：计算机视觉

2021-11-09

精确的仪器分割辅助外科医生更容易导航身体并提高患者安全性。虽然在实时的准确跟踪外科手术仪器在微创的计算机辅助手术中起着至关重要的作用，但这是一个具有挑战性的任务，主要是由于1个复杂的外科环境和2）模型设计，具有最佳的精度和速度。深度学习使我们有机会从大型手术场景环境和在现实世界的情景中学习复杂的环境和这些仪器的展示位置。稳健的医疗仪器分割2019挑战（鲁棒MIS）在不同的临床环境中提供了超过10,000帧的手术工具。在本文中，我们使用轻量级单级实例分段模型，辅助卷积块注意模块，用于实现更快和准确的推理。我们通过数据增强和最佳锚定本地化策略进一步提高了准确性。据我们所知，这是第一个明确关注实时性能和提高准确性的工作。我们在强大的策略中进行了彻底的最高团队表演，对基于区域的公制MI_DSC和距离的公制MI_DSD有超过44％。我们还展示了我们最终方法的不同但竞争变种的实时性能（> 60帧框架）。

translated by 谷歌翻译

Uncertainty, Edge, and Reverse-Attention Guided Generative Adversarial Network for Automatic Building Detection in Remotely Sensed Images

Somrita Chattopadhyay , Avinash C. Kak

分类：计算机视觉 | 机器学习

2021-12-10

尽管近期基于深度学习的语义细分，但远程感测图像的自动建筑检测仍然是一个具有挑战性的问题，由于全球建筑物的出现巨大变化。误差主要发生在构建足迹的边界，阴影区域，以及检测外表面具有与周围区域非常相似的反射率特性的建筑物。为了克服这些问题，我们提出了一种生成的对抗基于网络的基于网络的分割框架，其具有嵌入在发电机中的不确定性关注单元和改进模块。由边缘和反向关注单元组成的细化模块，旨在精炼预测的建筑地图。边缘注意力增强了边界特征，以估计更高的精度，并且反向关注允许网络探索先前估计区域中缺少的功能。不确定性关注单元有助于网络解决分类中的不确定性。作为我们方法的权力的衡量标准，截至2021年12月4日，它在Deepglobe公共领导板上的第二名，尽管我们的方法的主要重点 - 建筑边缘 - 并不完全对齐用于排行榜排名的指标。 DeepGlobe充满挑战数据集的整体F1分数为0.745。我们还报告了对挑战的Inria验证数据集的最佳成绩，我们的网络实现了81.28％的总体验证，总体准确性为97.03％。沿着同一条线，对于官方Inria测试数据集，我们的网络总体上得分77.86％和96.41％，而且准确性。

translated by 谷歌翻译

A Survey on Deep Learning-based Architectures for Semantic Segmentation on 2D images

Irem Ulku , Erdem Akagunduz

分类：计算机视觉

2019-12-21

语义分割是图像的像素明智标记。由于在像素级别定义了问题，因此确定图像类标签是不可接受的，而是在原始图像像素分辨率下本地化它们是必要的。通过卷积神经网络（CNN）在创建语义，高级和分层图像特征方面的非凡能力推动;在过去十年中提出了几种基于深入的学习的2D语义分割方法。在本调查中，我们主要关注最近的语义细分科学发展，特别是在使用2D图像的基于深度学习的方法。我们开始分析了对2D语义分割的公共图像集和排行榜，概述了性能评估中使用的技术。在研究现场的演变时，我们按时间顺序分类为三个主要时期，即预先和早期的深度学习时代，完全卷积的时代和后FCN时代。我们在技术上分析了解决领域的基本问题的解决方案，例如细粒度的本地化和规模不变性。在借阅我们的结论之前，我们提出了一张来自所有提到的时代的方法表，每个方法都概述了他们对该领域的贡献。我们通过讨论现场当前的挑战以及他们已经解决的程度来结束调查。

translated by 谷歌翻译

A DCNN-based Arbitrarily-Oriented Object Detector for Quality Control and Inspection Application

Kai Yao , Alberto Ortiz , Francisco Bonnin-Pascual

分类：计算机视觉

2021-01-19

遵循机器视觉系统在线自动化质量控制和检查过程的成功之后，这项工作中为两个不同的特定应用提供了一种对象识别解决方案，即，在医院准备在医院进行消毒的手术工具箱中检测质量控制项目，以及检测血管船体中的缺陷，以防止潜在的结构故障。该解决方案有两个阶段。首先，基于单镜头多伯克斯检测器（SSD）的特征金字塔体系结构用于改善检测性能，并采用基于地面真实的统计分析来选择一系列默认框的参数。其次，利用轻量级神经网络使用回归方法来实现定向检测结果。该方法的第一阶段能够检测两种情况下考虑的小目标。在第二阶段，尽管很简单，但在保持较高的运行效率的同时，检测细长目标是有效的。

translated by 谷歌翻译

Camouflaged Instance Segmentation In-The-Wild: Dataset, Method, and Benchmark Suite

Trung-Nghia Le , Yubo Cao , Tan-Cong Nguyen , Minh-Quan Le , Khanh-Duy Nguyen , Thanh-Toan Do , Minh-Triet Tran , Tam V. Nguyen

分类：计算机视觉

2021-03-31

本文推动了在图像中分解伪装区域的信封，成了有意义的组件，即伪装的实例。为了促进伪装实例分割的新任务，我们将在数量和多样性方面引入DataSet被称为Camo ++，该数据集被称为Camo ++。新数据集基本上增加了具有分层像素 - 明智的地面真理的图像的数量。我们还为伪装实例分割任务提供了一个基准套件。特别是，我们在各种场景中对新构造的凸轮++数据集进行了广泛的评估。我们还提出了一种伪装融合学习（CFL）伪装实例分割框架，以进一步提高最先进的方法的性能。数据集，模型，评估套件和基准测试将在我们的项目页面上公开提供：https://sites.google.com/view/ltnghia/research/camo_plus_plus

translated by 谷歌翻译

RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional Network for Retinal OCT Fluid Segmentation

Reza Rasti , Armin Biglari , Mohammad Rezapourian , Ziyun Yang , Sina Farsiu

分类：计算机视觉

2022-09-26

光学相干断层扫描（OCT）有助于眼科医生评估黄斑水肿，流体的积累以及微观分辨率的病变。视网膜流体的定量对于OCT引导的治疗管理是必需的，这取决于精确的图像分割步骤。由于对视网膜流体的手动分析是一项耗时，主观和容易出错的任务，因此对快速和健壮的自动解决方案的需求增加了。在这项研究中，提出了一种名为Retifluidnet的新型卷积神经结构，用于多级视网膜流体分割。该模型受益于层次表示使用新的自适应双重注意（SDA）模块的纹理，上下文和边缘特征的学习，多个基于自适应的Skip Connections（SASC）以及一种新颖的多尺度深度自我监督学习（DSL）方案。拟议的SDA模块中的注意机制使该模型能够自动提取不同级别的变形感知表示，并且引入的SASC路径进一步考虑了空间通道相互依存，以串联编码器和解码器单元，从而提高了表示能力。还使用包含加权版本的骰子重叠和基于边缘的连接损失的联合损失函数进行了优化的retifluidnet，其中将多尺度局部损失的几个分层阶段集成到优化过程中。该模型根据三个公开可用数据集进行验证：润饰，Optima和Duke，并与几个基线进行了比较。数据集的实验结果证明了在视网膜OCT分割中提出的模型的有效性，并揭示了建议的方法比现有的最新流体分割算法更有效，以适应各种图像扫描仪器记录的视网膜OCT扫描。

translated by 谷歌翻译

Modality specific U-Net variants for biomedical image segmentation: A survey

Narinder Singh Punn , Sonali Agarwal

分类：计算机视觉

2021-07-09

随着深度学习方法的进步，如深度卷积神经网络，残余神经网络，对抗网络的进步。 U-Net架构最广泛利用生物医学图像分割，以解决目标区域或子区域的识别和检测的自动化。在最近的研究中，基于U-Net的方法在不同应用中显示了最先进的性能，以便在脑肿瘤，肺癌，阿尔茨海默，乳腺癌等疾病的早期诊断和治疗中发育计算机辅助诊断系统等，使用各种方式。本文通过描述U-Net框架来提出这些方法的成功，然后通过执行1）型号的U-Net变体进行综合分析，2）模特内分类，建立更好的见解相关的挑战和解决方案。此外，本文还强调了基于U-Net框架在持续的大流行病，严重急性呼吸综合征冠状病毒2（SARS-COV-2）中的贡献也称为Covid-19。最后，分析了这些U-Net变体的优点和相似性以及生物医学图像分割所涉及的挑战，以发现该领域的未来未来的研究方向。

translated by 谷歌翻译

An Incremental Learning Approach to Automatically Recognize Pulmonary Diseases from the Multi-vendor Chest Radiographs

Mehreen Sirshar , Taimur Hassan , Muhammad Usman Akram , Shoab Ahmed Khan

分类：计算机视觉

2022-01-07

肺部疾病会导致严重的呼吸问题，如果未及时治疗，导致猝死。许多研究人员利用深度学习系统使用胸部X射线（CXRS）诊断肺疾病。然而，这种系统需要在大规模数据上进行详尽的培训，以有效地诊断胸部异常。此外，采购这种大规模数据通常是不可行的和不切实际的，特别是对于罕见疾病。随着较近的增量学习的进步，研究人员定期调整了深度神经网络，以了解不同的训练示例。虽然，这种系统可以抵抗灾难性的遗忘，但它们彼此独立地对待知识表示，并且这限制了它们的分类性能。此外，据我们所知，没有增量学习驱动的图像诊断框架，专门用于筛选来自CXR的肺部障碍。为了解决这个问题，我们提出了一种新颖的框架，可以学会逐步逐步筛选不同的胸部异常。除此之外，拟议的框架通过增量学习损失函数，即在逐步学习的知识表示之间识别逐步学习知识表示之间的结构和语义互相依赖性，无论扫描仪规格如何，都会识别逐步学习的知识表示之间的结构和语义相互作用。我们在包含不同胸部异常的五个公共CXR数据集上测试了拟议的框架，其中它通过各种指标表现出各种最先进的系统。

translated by 谷歌翻译

Image Segmentation Using Deep Learning: A Survey

Shervin Minaee , Yuri Boykov , Fatih Porikli , Antonio Plaza , Nasser Kehtarnavaz , Demetri Terzopoulos

分类：

2020-01-15

Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.

translated by 谷歌翻译

1st Workshop on Maritime Computer Vision (MaCVi) 2023: Challenge Results

Benjamin Kiefer , Matej Kristan , Janez Perš , Lojze Žust , Fabio Poiesi , Fabio Augusto de Alcantara Andrade , Alexandre Bernardino , Matthew Dawkins , Jenni Raitoharju , Yitong Quan

分类：计算机视觉 | 人工智能 | 机器学习 | 机器人

2022-11-24

The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.

translated by 谷歌翻译

An Improved Lightweight YOLOv5 Model Based on Attention Mechanism for Face Mask Detection

Sheng Xu , Zhanyu Guo , Yuchi Liu , Jingwei Fan , Xuxu Liu

分类：计算机视觉 | 机器学习

2022-03-30

2019年冠状病毒为全球社会稳定和公共卫生带来了严重的挑战。遏制流行病的一种有效方法是要求人们在公共场所戴口罩，并通过使用合适的自动探测器来监视戴口罩状态。但是，现有的基于深度学习的模型努力同时达到高精度和实时性能的要求。为了解决这个问题，我们提出了基于Yolov5的改进的轻质面膜探测器，该检测器可以实现精确和速度的良好平衡。首先，提出了将ShuffleNetV2网络与协调注意机制相结合的新型骨干轮弹工具作为骨干。之后，将有效的路径攻击网络BIFPN作为特征融合颈应用。此外，在模型训练阶段，定位损失被α-CIOU取代，以获得更高质量的锚。还利用了一些有价值的策略，例如数据增强，自适应图像缩放和锚点群集操作。 Aizoo面膜数据集的实验结果显示了所提出模型的优越性。与原始的Yolov5相比，提出的模型将推理速度提高28.3％，同时仍将精度提高0.58％。与其他七个现有型号相比，它的最佳平均平均精度为95.2％，比基线高4.4％。

translated by 谷歌翻译

One-Stage Cascade Refinement Networks for Infrared Small Target Detection

Yimian Dai , Xiang Li , Fei Zhou , Yulei Qian , Yaohong Chen , Jian Yang

分类：计算机视觉

2022-12-16

Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.

translated by 谷歌翻译