智能论文笔记

TINYCD: A (Not So) Deep Learning Model For Change Detection

Andrea Codegoni , Gabriele Lombardi , Alessandro Ferrari

分类：计算机视觉 | 机器学习

2022-07-26

更改检测的目的（CD）是通过比较在不同时间拍摄的两张图像来检测变化。 CD的挑战性部分是跟踪用户想要突出显示的变化，例如新建筑物，并忽略了由于外部因素（例如环境，照明条件，雾或季节性变化）而引起的变化。深度学习领域的最新发展使研究人员能够在这一领域取得出色的表现。特别是，时空注意的不同机制允许利用从模型中提取的空间特征，并通过利用这两个可用图像来以时间方式将它们相关联。不利的一面是，这些模型已经变得越来越复杂且大，对于边缘应用来说通常是不可行的。当必须将模型应用于工业领域或需要实时性能的应用程序时，这些都是限制。在这项工作中，我们提出了一个名为TinyCD的新型模型，证明既轻量级又有效，能够实现较少参数13-150x的最新技术状态。在我们的方法中，我们利用了低级功能比较图像的重要性。为此，我们仅使用几个骨干块。此策略使我们能够保持网络参数的数量较低。为了构成从这两个图像中提取的特征，我们在参数方面引入了一种新颖的经济性，混合块能够在时空和时域中交叉相关的特征。最后，为了充分利用计算功能中包含的信息，我们定义了能够执行像素明智分类的PW-MLP块。源代码，模型和结果可在此处找到：https：//github.com/andreacodegoni/tiny_model_4_cd

translated by 谷歌翻译

SiamixFormer: A Siamese Transformer Network For Building Detection And Change Detection From Bi-Temporal Remote Sensing Images

Amir mohammadian , Foad Ghaderi

分类：计算机视觉

2022-08-01

使用遥感图像进行建筑检测和变更检测可以帮助城市和救援计划。此外，它们可用于自然灾害后的建筑损害评估。当前，大多数用于建筑物检测的现有模型仅使用一个图像（预拆架图像）来检测建筑物。这是基于这样的想法：由于存在被破坏的建筑物，后沙仪图像降低了模型的性能。在本文中，我们提出了一种称为暹罗形式的暹罗模型，该模型使用前和垃圾后图像作为输入。我们的模型有两个编码器，并具有分层变压器体系结构。两个编码器中每个阶段的输出都以特征融合的方式给予特征融合，以从disasaster图像生成查询，并且（键，值）是从disasaster图像中生成的。为此，在特征融合中也考虑了时间特征。在特征融合中使用颞变压器的另一个优点是，与CNN相比，它们可以更好地维持由变压器编码器产生的大型接受场。最后，在每个阶段，将颞变压器的输出输入简单的MLP解码器。在XBD和WHU数据集上评估了暹罗形式模型，用于构建检测以及Levir-CD和CDD数据集，以进行更改检测，并可以胜过最新的。

translated by 谷歌翻译

A Transformer-Based Siamese Network for Change Detection

Wele Gedara Chaminda Bandara , Vishal M. Patel

分类：计算机视觉

2022-01-04

本文介绍了一种基于变压器的暹罗网络架构（由Cradiformer缩写），用于从一对共同登记的遥感图像改变检测（CD）。与最近的CD框架不同，该CD框架基于完全卷积的网络（CoundNets），该方法将具有多层感知（MLP）解码器的分层结构化变压器编码器统一，以暹罗网络架构中的多层感知器，以有效地呈现所需的多尺度远程详细信息用于准确的CD。两个CD数据集上的实验表明，所提出的端到端培训变换器架构比以前的同行实现更好的CD性能。我们的代码可在https://github.com/wgcban/changeFormer获得。

translated by 谷歌翻译

Efficient deep learning models for land cover image classification

Ioannis Papoutsis , Nikolaos-Ioannis Bountos , Angelos Zavras , Dimitrios Michail , Christos Tryfonopoulos

分类：计算机视觉

2021-11-18

哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖（Lulc）映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中，我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集，包括卷积神经网络，多层感知，视觉变压器，高效导通和宽残余网络（WRN）架构。我们的目标是利用分类准确性，培训时间和推理率。我们提出了一种基于用于网络深度，宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架，以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构，增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数，实现所有19个LULC类的平均F分类准确度达到4.5％，并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号，以及我们在多个GPU节点上分布式培训的代码。

translated by 谷歌翻译

DAHiTrA: Damage Assessment Using a Novel Hierarchical Transformer Architecture

Navjot Kaur , Cheng-Chun Lee , Ali Mostafavi , Ali Mahdavi-Amiri

分类：计算机视觉

2022-08-03

本文介绍了Dahitra，这是一种具有分层变压器的新型深度学习模型，可在飓风后根据卫星图像对建筑物的损害进行分类。自动化的建筑损害评估为决策和资源分配提供了关键信息，以快速应急响应。卫星图像提供了实时，高覆盖的信息，并提供了向大规模污点后建筑物损失评估提供信息的机会。此外，深入学习方法已证明在对建筑物的损害进行分类方面有希望。在这项工作中，提出了一个基于变压器的新型网络来评估建筑物的损失。该网络利用多个分辨率的层次空间特征，并在将变压器编码器应用于空间特征后捕获特征域的时间差异。当对大规模灾难损坏数据集（XBD）进行测试以构建本地化和损坏分类以及在Levir-CD数据集上进行更改检测任务时，该网络将实现最先进的绩效。此外，我们引入了一个新的高分辨率卫星图像数据集，IDA-BD（与2021年路易斯安那州的2021年飓风IDA有关，以便域名适应以进一步评估该模型的能力，以适用于新损坏的区域。域的适应结果表明，所提出的模型可以适应一个新事件，只有有限的微调。因此，所提出的模型通过更好的性能和域的适应来推进艺术的当前状态。此外，IDA-BD也提供了A高分辨率注释的数据集用于该领域的未来研究。

translated by 谷歌翻译

Transformers in Remote Sensing: A Survey

Abdulaziz Amer Aleissaee , Amandeep Kumar , Rao Muhammad Anwer , Salman Khan , Hisham Cholakkal , Gui-Song Xia , Fahad Shahbaz khan

分类：计算机视觉

2022-09-02

在过去的十年中，基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近，最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域，在该字段中，自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发，遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上，但据我们所知，我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法，用于遥感子方面的不同遥感问题：非常高分辨率（VHR），高光谱（HSI）和合成孔径雷达（SAR）图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外，我们打算在遥感论文中频繁更新和维护最新的变压器，及其各自的代码：https：//github.com/virobo-15/transformer-in-in-remote-sensing

translated by 谷歌翻译

HTML版本

Uncertainty, Edge, and Reverse-Attention Guided Generative Adversarial Network for Automatic Building Detection in Remotely Sensed Images

Somrita Chattopadhyay , Avinash C. Kak

分类：计算机视觉 | 机器学习

2021-12-10

尽管近期基于深度学习的语义细分，但远程感测图像的自动建筑检测仍然是一个具有挑战性的问题，由于全球建筑物的出现巨大变化。误差主要发生在构建足迹的边界，阴影区域，以及检测外表面具有与周围区域非常相似的反射率特性的建筑物。为了克服这些问题，我们提出了一种生成的对抗基于网络的基于网络的分割框架，其具有嵌入在发电机中的不确定性关注单元和改进模块。由边缘和反向关注单元组成的细化模块，旨在精炼预测的建筑地图。边缘注意力增强了边界特征，以估计更高的精度，并且反向关注允许网络探索先前估计区域中缺少的功能。不确定性关注单元有助于网络解决分类中的不确定性。作为我们方法的权力的衡量标准，截至2021年12月4日，它在Deepglobe公共领导板上的第二名，尽管我们的方法的主要重点 - 建筑边缘 - 并不完全对齐用于排行榜排名的指标。 DeepGlobe充满挑战数据集的整体F1分数为0.745。我们还报告了对挑战的Inria验证数据集的最佳成绩，我们的网络实现了81.28％的总体验证，总体准确性为97.03％。沿着同一条线，对于官方Inria测试数据集，我们的网络总体上得分77.86％和96.41％，而且准确性。

translated by 谷歌翻译

Efficient Semantic Segmentation on Edge Devices

Farshad Safavi , Irfan Ali , Venkatesh Dasari , Guanqun Song , Ting Zhu

分类：计算机视觉 | 机器学习

2022-12-28

Semantic segmentation works on the computer vision algorithm for assigning each pixel of an image into a class. The task of semantic segmentation should be performed with both accuracy and efficiency. Most of the existing deep FCNs yield to heavy computations and these networks are very power hungry, unsuitable for real-time applications on portable devices. This project analyzes current semantic segmentation models to explore the feasibility of applying these models for emergency response during catastrophic events. We compare the performance of real-time semantic segmentation models with non-real-time counterparts constrained by aerial images under oppositional settings. Furthermore, we train several models on the Flood-Net dataset, containing UAV images captured after Hurricane Harvey, and benchmark their execution on special classes such as flooded buildings vs. non-flooded buildings or flooded roads vs. non-flooded roads. In this project, we developed a real-time UNet based model and deployed that network on Jetson AGX Xavier module.

translated by 谷歌翻译

Are we ready for a new paradigm shift? A Survey on Visual Deep MLP

Ruiyang Liu , Yinghui Li , Dun Liang , Linmi Tao , Shimin Hu , Hai-Tao Zheng

分类：计算机视觉

2021-11-07

多层erceptron（MLP），作为出现的第一个神经网络结构，是一个大的击中。但是由硬件计算能力和数据集的大小限制，它一旦沉没了数十年。在此期间，我们目睹了从手动特征提取到带有局部接收领域的CNN的范式转变，以及基于自我关注机制的全球接收领域的变换。今年（2021年），随着MLP混合器的推出，MLP已重新进入敏捷，并吸引了计算机视觉界的广泛研究。与传统的MLP进行比较，它变得更深，但改变了完全扁平化以补丁平整的输入。鉴于其高性能和较少的需求对视觉特定的感应偏见，但社区无法帮助奇迹，将MLP，最简单的结构与全球接受领域，但没有关注，成为一个新的电脑视觉范式吗？为了回答这个问题，本调查旨在全面概述视觉深层MLP模型的最新发展。具体而言，我们从微妙的子模块设计到全局网络结构，我们审查了这些视觉深度MLP。我们比较了不同网络设计的接收领域，计算复杂性和其他特性，以便清楚地了解MLP的开发路径。调查表明，MLPS的分辨率灵敏度和计算密度仍未得到解决，纯MLP逐渐发展朝向CNN样。我们建议，目前的数据量和计算能力尚未准备好接受纯的MLP，并且人工视觉指导仍然很重要。最后，我们提供了开放的研究方向和可能的未来作品的分析。我们希望这项努力能够点燃社区的进一步兴趣，并鼓励目前为神经网络进行更好的视觉量身定制设计。

translated by 谷歌翻译

Sci-Net: a Scale Invariant Model for Building Detection from Aerial Images

Hasan Nasrallah , Ali J. Ghandour

分类：计算机视觉

2021-11-12

建筑物分割是地球观测和空中图像分析领域的基本任务。最现有的基于深度学习的文献中的基于深度学习的算法可以应用于固定或窄的空间分辨率图像。在实践方案中，用户处理广泛的图像分辨率，因此，通常需要重新确定给定的空中图像以匹配用于训练深度学习模型的数据集的空间分辨率。然而，这将导致输出分割掩模的质量严重降级。要处理此问题，我们提出了这项研究，该研究是能够在不同空间分辨率下的空中图像中存在的建筑物的规模不变神经网络（SCI-NET）。具体而言，我们修改了U-Net架构并用密集的空间金字塔池（ASPP）融合，以提取细粒度的多尺度表示。我们将拟议模型对开放城市AI DataSet上的若干艺术模型的拟议模型进行了比较，并显示了SCI-Net在数据集中可用的所有分辨率方面提供稳定的改进余量。

translated by 谷歌翻译

Siamese Object Tracking for Unmanned Aerial Vehicle: A Review and Comprehensive Analysis

Changhong Fu , Kunhan Lu , Guangze Zheng , Junjie Ye , Ziang Cao , Bowen Li , Geng Lu

分类：计算机视觉

2022-05-09

基于无人机（UAV）基于无人机的视觉对象跟踪已实现了广泛的应用，并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量，暹罗网络在基于无人机的对象跟踪中闪耀，其准确性，稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化，暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是，由于无人机在板载计算资源和复杂的现实情况下，暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署，这项工作对前沿暹罗跟踪器进行了全面的审查，以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后，进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外，为了更好地促进跟踪社区的发展，这项工作分析了现有的暹罗跟踪器的局限性，并进行了以低弹片评估表示的其他实验。最后，深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架，即代码库及其实验评估的结果，请访问https://github.com/vision4robotics/siamesetracking4uav。

translated by 谷歌翻译

RCDT: Relational Remote Sensing Change Detection with Transformer

Kaixuan Lu , Xiao Huang

分类：计算机视觉

2022-12-09

Deep learning based change detection methods have received wide attentoion, thanks to their strong capability in obtaining rich features from images. However, existing AI-based CD methods largely rely on three functionality-enhancing modules, i.e., semantic enhancement, attention mechanisms, and correspondence enhancement. The stacking of these modules leads to great model complexity. To unify these three modules into a simple pipeline, we introduce Relational Change Detection Transformer (RCDT), a novel and simple framework for remote sensing change detection tasks. The proposed RCDT consists of three major components, a weight-sharing Siamese Backbone to obtain bi-temporal features, a Relational Cross Attention Module (RCAM) that implements offset cross attention to obtain bi-temporal relation-aware features, and a Features Constrain Module (FCM) to achieve the final refined predictions with high-resolution constraints. Extensive experiments on four different publically available datasets suggest that our proposed RCDT exhibits superior change detection performance compared with other competing methods. The therotical, methodogical, and experimental knowledge of this study is expected to benefit future change detection efforts that involve the cross attention mechanism.

translated by 谷歌翻译

Panoptic Segmentation of Satellite Image Time Series with Convolutional Temporal Attention Networks

Vivien Sainte Fare Garnot , Loic Landrieu

分类：计算机视觉

2021-07-16

前所未有的访问多时间卫星图像，为各种地球观察任务开辟了新的视角。其中，农业包裹的像素精确的Panoptic分割具有重大的经济和环境影响。虽然研究人员对单张图像进行了探索了这个问题，但我们争辩说，随着图像的时间序列更好地寻址作物候选的复杂时间模式。在本文中，我们介绍了卫星图像时间序列（坐着）的Panoptic分割的第一端到端，单级方法（坐姿）。该模块可以与我们的新型图像序列编码网络相结合，依赖于时间自我关注，以提取丰富和自适应的多尺度时空特征。我们还介绍了Pastis，第一个开放式访问坐在Panoptic注释的数据集。我们展示了对多个竞争架构的语义细分的编码器的优越性，并建立了坐在的第一封Panoptic细分状态。我们的实施和痛苦是公开的。

translated by 谷歌翻译

Transformers in Vision: A Survey

Salman Khan , Muzammal Naseer , Munawar Hayat , Syed Waqas Zamir , Fahad Shahbaz Khan , Mubarak Shah

分类：

2021-01-04

Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.

translated by 谷歌翻译

RHA-Net: An Encoder-Decoder Network with Residual Blocks and Hybrid Attention Mechanisms for Pavement Crack Segmentation

Guijie Zhu , Zhun Fan , Jiacheng Liu , Duan Yuan , Peili Ma , Meihua Wang , Weihua Sheng , Kelvin C. P. Wang

分类：计算机视觉 | 机器学习

2022-07-28

人行道表面数据的获取和评估在路面条件评估中起着至关重要的作用。在本文中，提出了一个称为RHA-NET的自动路面裂纹分割的有效端到端网络，以提高路面裂纹分割精度。 RHA-NET是通过将残留块（重阻）和混合注意块集成到编码器架构结构中来构建的。这些重组用于提高RHA-NET提取高级抽象特征的能力。混合注意块旨在融合低级功能和高级功能，以帮助模型专注于正确的频道和裂纹区域，从而提高RHA-NET的功能表现能力。构建并用于训练和评估所提出的模型的图像数据集，其中包含由自设计的移动机器人收集的789个路面裂纹图像。与其他最先进的网络相比，所提出的模型在全面的消融研究中验证了添加残留块和混合注意机制的功能。此外，通过引入深度可分离卷积生成的模型的轻加权版本可以更好地实现性能和更快的处理速度，而U-NET参数数量的1/30。开发的系统可以在嵌入式设备Jetson TX2（25 fps）上实时划分路面裂纹。实时实验拍摄的视频将在https://youtu.be/3xiogk0fig4上发布。

translated by 谷歌翻译

Ultra-high Resolution Image Segmentation via Locality-aware Context Fusion and Alternating Local Enhancement

Wenxi Liu , Qi Li , Xindai Lin , Weixiang Yang , Shengfeng He , Yuanlong Yu

分类：计算机视觉

2021-09-06

Ultra-high resolution image segmentation has raised increasing interests in recent years due to its realistic applications. In this paper, we innovate the widely used high-resolution image segmentation pipeline, in which an ultra-high resolution image is partitioned into regular patches for local segmentation and then the local results are merged into a high-resolution semantic mask. In particular, we introduce a novel locality-aware context fusion based segmentation model to process local patches, where the relevance between local patch and its various contexts are jointly and complementarily utilized to handle the semantic regions with large variations. Additionally, we present the alternating local enhancement module that restricts the negative impact of redundant information introduced from the contexts, and thus is endowed with the ability of fixing the locality-aware features to produce refined results. Furthermore, in comprehensive experiments, we demonstrate that our model outperforms other state-of-the-art methods in public benchmarks. Our released codes are available at: https://github.com/liqiokkk/FCtL.

translated by 谷歌翻译

GCA-Net : Utilizing Gated Context Attention for Improving Image Forgery Localization and Detection

Sowmen Das , Md. Saiful Islam , Md. Ruhul Amin

分类：计算机视觉 | 机器学习

2021-12-08

法医分析取决于从操纵图像识别隐藏迹线。由于它们无法处理功能衰减和依赖主导空间特征，传统的神经网络失败。在这项工作中，我们提出了一种新颖的门控语言注意力网络（GCA-NET），用于全球背景学习的非本地关注块。另外，我们利用所通用的注意机制结合密集的解码器网络，以引导在解码阶段期间的相关特征的流动，允许精确定位。所提出的注意力框架允许网络通过过滤粗糙度来专注于相关区域。此外，通过利用多尺度特征融合和有效的学习策略，GCA-Net可以更好地处理操纵区域的比例变化。我们表明，我们的方法在多个基准数据集中平均优于最先进的网络，平均为4.2％-5.4％AUC。最后，我们还开展了广泛的消融实验，以展示该方法对图像取证的鲁棒性。

translated by 谷歌翻译

Efficient Joint Detection and Multiple Object Tracking with Spatially Aware Transformer

Siddharth Sagar Nijhawan , Leo Hoshikawa , Atsushi Irie , Masakazu Yoshimura , Junji Otsuka , Takeshi Ohashi

分类：计算机视觉

2022-11-09

We propose a light-weight and highly efficient Joint Detection and Tracking pipeline for the task of Multi-Object Tracking using a fully-transformer architecture. It is a modified version of TransTrack, which overcomes the computational bottleneck associated with its design, and at the same time, achieves state-of-the-art MOTA score of 73.20%. The model design is driven by a transformer based backbone instead of CNN, which is highly scalable with the input resolution. We also propose a drop-in replacement for Feed Forward Network of transformer encoder layer, by using Butterfly Transform Operation to perform channel fusion and depth-wise convolution to learn spatial context within the feature maps, otherwise missing within the attention maps of the transformer. As a result of our modifications, we reduce the overall model size of TransTrack by 58.73% and the complexity by 78.72%. Therefore, we expect our design to provide novel perspectives for architecture optimization in future research related to multi-object tracking.

translated by 谷歌翻译

MAXIM: Multi-Axis MLP for Image Processing

Zhengzhong Tu , Hossein Talebi , Han Zhang , Feng Yang , Peyman Milanfar , Alan Bovik , Yinxiao Li

分类：计算机视觉

2022-01-09

最近的变形金刚和多层Perceptron（MLP）模型的进展为计算机视觉任务提供了新的网络架构设计。虽然这些模型在许多愿景任务中被证明是有效的，但在图像识别之类的愿景中，仍然存在挑战，使他们适应低级视觉。支持高分辨率图像和本地注意力的局限性的不灵活性可能是使用变压器和MLP在图像恢复中的主要瓶颈。在这项工作中，我们介绍了一个多轴MLP基于MARIC的架构，称为Maxim，可用作用于图像处理任务的高效和灵活的通用视觉骨干。 Maxim使用UNET形的分层结构，并支持由空间门控MLP启用的远程交互。具体而言，Maxim包含两个基于MLP的构建块：多轴门控MLP，允许局部和全球视觉线索的高效和可扩展的空间混合，以及交叉栅栏，替代跨关注的替代方案 - 细分互补。这两个模块都仅基于MLP，而且还受益于全局和“全卷积”，两个属性对于图像处理是可取的。我们广泛的实验结果表明，所提出的Maxim模型在一系列图像处理任务中实现了十多个基准的最先进的性能，包括去噪，失败，派热，脱落和增强，同时需要更少或相当的数量参数和拖鞋而不是竞争模型。

translated by 谷歌翻译

EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications

Muhammad Maaz , Abdelrahman Shaker , Hisham Cholakkal , Salman Khan , Syed Waqas Zamir , Rao Muhammad Anwer , Fahad Shahbaz Khan

分类：计算机视觉

2022-06-21

为了实现不断增长的准确性，通常会开发大型和复杂的神经网络。这样的模型需要高度的计算资源，因此不能在边缘设备上部署。由于它们在几个应用领域的有用性，建立资源有效的通用网络非常感兴趣。在这项工作中，我们努力有效地结合了CNN和变压器模型的优势，并提出了一种新的有效混合体系结构。特别是在EDGENEXT中，我们引入了分裂深度转置注意力（SDTA）编码器，该编码器将输入张量分解为多个通道组，并利用深度旋转以及跨通道维度的自我注意力，以隐含地增加接受场并编码多尺度特征。我们在分类，检测和分割任务上进行的广泛实验揭示了所提出的方法的优点，优于相对较低的计算要求的最先进方法。我们具有130万参数的EDGENEXT模型在Imagenet-1k上达到71.2 \％TOP-1的精度，超过移动设备的绝对增益为2.2 \％，而拖鞋减少了28 \％。此外，我们具有560万参数的EDGENEXT模型在Imagenet-1k上达到了79.4 \％TOP-1的精度。代码和模型可在https://t.ly/_vu9上公开获得。

translated by 谷歌翻译