智能论文笔记

Wavelength-aware 2D Convolutions for Hyperspectral Imaging

Leon Amadeus Varga , Martin Messmer , Nuri Benbarka , Andreas Zell

分类：计算机视觉

2022-09-05

深度学习可以大大提高高光谱成像（HSI）的分类精度。尽管如此，对大多数小型高光谱数据集的培训并不是微不足道的。两个关键的挑战是录音的大信道维度以及不同制造商的摄像机之间的不兼容。通过引入合适的模型偏置并连续定义通道维度，我们提出了针对高光谱成像的这些挑战进行优化的2D卷积。我们根据两个不同的高光谱应用（内联检查和遥感）评估该方法。除了显示模型的优势外，修改还增加了其他解释能力。此外，该模型以数据驱动的方式学习了必要的摄像机过滤器。基于这些相机过滤器，可以设计一个最佳摄像头。

translated by 谷歌翻译

Comprehensive Analysis of the Object Detection Pipeline on UAVs

Leon Amadeus Varga , Sebastian Koch , Andreas Zell

分类：机器人 | 计算机视觉

2022-03-01

对象检测管道包括一个捕获场景的相机和处理这些图像的对象检测器。图像的质量直接影响对象检测器的性能。如今，许多工作重点是改善图像质量或独立改善对象检测模型，但忽略了两个子系统联合优化的重要性。本文的目的是通过专注于优化针对对象检测器量身定制的输入图像来调整遥感方案中现有对象检测器的检测吞吐量和准确性。为了实现这一目标，我们经验分析了两个选择的摄像机校准参数（摄像机失真校正和伽马校正）和五个图像参数（量化，压缩，分辨率，颜色模型，其他通道）的影响。对于我们的实验，我们利用来自不同域中的三个无人机数据集，以及大小的最新对象检测器模型的混合物，可对管道参数的影响进行广泛的评估。最后，我们在嵌入式平台上实现了一个对象检测管道原型，以便根据我们的发现为构建对象检测管道提供最佳练习建议。我们表明，并非所有参数都对检测准确性和数据吞吐量都有平等的影响，并且通过在参数之间使用合适的折衷方案，我们能够为轻质对象检测模型实现更高的检测精度，同时保持相同的数据吞吐量。

translated by 谷歌翻译

A Survey: Deep Learning for Hyperspectral Image Classification with Few Labeled Samples

Sen Jia , Shuguo Jiang , Zhijie Lin , Nanying Li , Meng Xu , Shiqi Yu

分类：计算机视觉 | 人工智能

2021-12-03

随着深度学习技术的快速发展和计算能力的提高，深度学习已广泛应用于高光谱图像（HSI）分类领域。通常，深度学习模型通常包含许多可训练参数，并且需要大量标记的样品来实现最佳性能。然而，关于HSI分类，由于手动标记的难度和耗时的性质，大量标记的样本通常难以获取。因此，许多研究工作侧重于建立一个少数标记样本的HSI分类的深层学习模型。在本文中，我们专注于这一主题，并对相关文献提供系统审查。具体而言，本文的贡献是双重的。首先，相关方法的研究进展根据学习范式分类，包括转移学习，积极学习和少量学习。其次，已经进行了许多具有各种最先进的方法的实验，总结了结果以揭示潜在的研究方向。更重要的是，虽然深度学习模型（通常需要足够的标记样本）和具有少量标记样本的HSI场景之间存在巨大差距，但是通过深度学习融合，可以很好地表征小样本集的问题方法和相关技术，如转移学习和轻量级模型。为了再现性，可以在HTTPS://github.com/shuguoj/hsi-classification中找到纸张中评估的方法的源代码.git。

translated by 谷歌翻译

JigsawHSI: a network for Hyperspectral Image classification

Jaime Moraga , H. Sebnem Duzgun

分类：计算机视觉 | 机器学习 | (统计)机器学习

2022-06-06

本文介绍了拼图，这是一种用于地球科学的卷积神经网络（CNN），并基于Inception，但针对地球科学分析量身定制。介绍了拼图（基于拼图），并将其用于印度松树，帕维亚大学和萨利纳斯高光谱图像数据集的土地使用土地覆盖（LULC）分类问题。将网络与Hybridsn进行比较，Hybridsn是一个光谱空间3D-CNN，然后是2D-CNN，可在数据集中获得最新的结果。这篇简短的文章证明了拼图在所有三种情况下都能达到或超过混合动力的表现。此外，强调了在地球科学中使用拼图的，而代码和工具包可用。

translated by 谷歌翻译

Country-wide Retrieval of Forest Structure From Optical and SAR Satellite Imagery With Bayesian Deep Learning

Alexander Becker , Stefania Russo , Stefano Puliti , Nico Lang , Konrad Schindler , Jan Dirk Wegner

分类：计算机视觉 | 机器学习

2021-11-25

以知情方式监测和管理地球林是解决生物多样性损失和气候变化等挑战的重要要求。虽然森林评估的传统或空中运动提供了在区域一级分析的准确数据，但将其扩展到整个国家，以外的高度分辨率几乎不可能。在这项工作中，我们提出了一种贝叶斯深度学习方法，以10米的分辨率为全国范围的森林结构变量，使用自由可用的卫星图像作为输入。我们的方法将Sentinel-2光学图像和Sentinel-1合成孔径雷达图像共同变换为五种不同的森林结构变量的地图：95th高度百分位，平均高度，密度，基尼系数和分数盖。我们从挪威的41个机载激光扫描任务中培训和测试我们的模型，并证明它能够概括取消测试区域，从而达到11％和15％之间的归一化平均值误差，具体取决于变量。我们的工作也是第一个提出贝叶斯深度学习方法的工作，以预测具有良好校准的不确定性估计的森林结构变量。这些提高了模型的可信度及其适用于需要可靠的信心估计的下游任务，例如知情决策。我们提出了一组广泛的实验，以验证预测地图的准确性以及预测的不确定性的质量。为了展示可扩展性，我们为五个森林结构变量提供挪威地图。

translated by 谷歌翻译

Terrain Classification using Transfer Learning on Hyperspectral Images: A Comparative study

Uphar Singh , Kumar Saurabh , Neelaksh Trehan , Ranjana Vyas , O. P. Vyas

分类：计算机视觉 | 人工智能 | 机器学习

2022-06-19

与RGB图像相比，高光谱图像包含更多数量的通道，因此包含有关图像中实体的更多信息。卷积神经网络（CNN）和多层感知器（MLP）已被证明是一种有效的图像分类方法。但是，他们遭受了长期培训时间和大量标记数据的要求，以达到预期的结果。在处理高光谱图像时，这些问题变得更加复杂。为了减少训练时间并减少对大型标记数据集的依赖性，我们建议使用转移学习方法。使用PCA将高光谱数据集预处理到较低的维度，然后将深度学习模型应用于分类。然后，转移学习模型使用该模型学到的功能来解决看不见的数据集上的新分类问题。进行了CNN和多个MLP体系结构模型的详细比较，以确定最适合目标的最佳体系结构。结果表明，层的缩放并不总是会导致准确性的提高，但通常会导致过度拟合，并增加训练时间。通过应用转移学习方法而不仅仅是解决问题，训练时间更大程度地减少了。通过直接在大型数据集上训练新模型，而不会影响准确性。

translated by 谷歌翻译

Efficient deep learning models for land cover image classification

Ioannis Papoutsis , Nikolaos-Ioannis Bountos , Angelos Zavras , Dimitrios Michail , Christos Tryfonopoulos

分类：计算机视觉

2021-11-18

哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖（Lulc）映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中，我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集，包括卷积神经网络，多层感知，视觉变压器，高效导通和宽残余网络（WRN）架构。我们的目标是利用分类准确性，培训时间和推理率。我们提出了一种基于用于网络深度，宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架，以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构，增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数，实现所有19个LULC类的平均F分类准确度达到4.5％，并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号，以及我们在多个GPU节点上分布式培训的代码。

translated by 谷歌翻译

Self-supervised Learning in Remote Sensing: A Review

Yi Wang , Conrad M Albrecht , Nassim Ait Ali Braham , Lichao Mou , Xiao Xiang Zhu

分类：计算机视觉

2022-06-27

在深度学习研究中，自学学习（SSL）引起了极大的关注，引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功，但SSL在地球观测领域的大部分潜力仍然锁定。在本文中，我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍，并回顾了SSL中的概念和最新发展。此外，我们在流行的遥感数据集上提供了现代SSL算法的初步基准，从而验证了SSL在遥感中的潜力，并提供了有关数据增强的扩展研究。最后，我们确定了SSL未来研究的有希望的方向的地球观察（SSL4EO），以铺平了两个领域的富有成效的相互作用。

translated by 谷歌翻译

Attention Mechanism Meets with Hybrid Dense Network for Hyperspectral Image Classification

Muhammad Ahmad , Adil Mehmood Khan , Manuel Mazzara , Salvatore Distefano , Swalpa Kumar Roy , Xin Wu

分类：计算机视觉

2022-01-04

确实，卷积神经网络（CNN）更合适。然而，固定内核大小使传统的CNN太具体，既不灵活也不有利于特征学习，从而影响分类准确性。不同内核大小网络的卷积可以通过捕获更多辨别和相关信息来克服这个问题。鉴于此，所提出的解决方案旨在将3D和2D成立网的核心思想与促进混合方案中的HSIC CNN性能提升。生成的\ Textit {注意融合混合网络}（AFNET）基于三个关注融合的并行混合子网，每个块中的不同内核使用高级功能，以增强最终的地面图。简而言之，AFNET能够选择性地过滤滤除对分类至关重要的辨别特征。与最先进的模型相比，HSI数据集的几次测试为AFNET提供了竞争力的结果。拟议的管道实现，实际上，印度松树的总体准确性为97 \％，博茨瓦纳100 \％，帕尔茨大学，帕维亚中心和萨利纳斯数据集的99 \％。

translated by 谷歌翻译

SEnSeI: A Deep Learning Module for Creating Sensor Independent Cloud Masks

Alistair Francis , John Mrziglod , Panagiotis Sidiropoulos , Jan-Peter Muller

分类：计算机视觉

2021-11-16

我们向传感器独立性（Sensei）介绍了一种新型神经网络架构 - 光谱编码器 - 通过该传感器独立性（Sensei） - 通过其中具有不同组合的光谱频带组合的多个多光谱仪器可用于训练广义深度学习模型。我们专注于云屏蔽的问题，使用几个预先存在的数据集，以及Sentinel-2的新的自由可用数据集。我们的模型显示在卫星上实现最先进的性能，它受过训练（Sentinel-2和Landsat 8），并且能够推断到传感器，它在训练期间尚未见过Landsat 7，每\ 'USAT-1，和Sentinel-3 SLST。当多种卫星用于培训，接近或超越专用单传感器型号的性能时，模型性能显示出改善。这项工作是激励遥感社区可以使用巨大各种传感器采取的数据的动机。这不可避免地导致标记用于不同传感器的努力，这限制了深度学习模型的性能，因为他们需要最佳地执行巨大的训练。传感器独立性可以使深度学习模型能够同时使用多个数据集进行培训，提高性能并使它们更广泛适用。这可能导致深入学习方法，用于在板载应用程序和地面分段数据处理中更频繁地使用，这通常需要模型在推出时或之后即将开始。

translated by 谷歌翻译

Hitchhiker's Guide to Super-Resolution: Introduction and Recent Advances

Brian Moser , Federico Raue , Stanislav Frolov , Jörn Hees , Sebastian Palacio , Andreas Dengel

分类：计算机视觉

2022-09-27

随着深度学习（DL）的出现，超分辨率（SR）也已成为一个蓬勃发展的研究领域。然而，尽管结果有希望，但该领域仍然面临需要进一步研究的挑战，例如，允许灵活地采样，更有效的损失功能和更好的评估指标。我们根据最近的进步来回顾SR的域，并检查最新模型，例如扩散（DDPM）和基于变压器的SR模型。我们对SR中使用的当代策略进行了批判性讨论，并确定了有前途但未开发的研究方向。我们通过纳入该领域的最新发展，例如不确定性驱动的损失，小波网络，神经体系结构搜索，新颖的归一化方法和最新评估技术来补充先前的调查。我们还为整章中的模型和方法提供了几种可视化，以促进对该领域趋势的全球理解。最终，这篇综述旨在帮助研究人员推动DL应用于SR的界限。

translated by 谷歌翻译

Robust deep learning-based semantic organ segmentation in hyperspectral images

Silvia Seidlitz , Jan Sellner , Jan Odenthal , Berkin Özdemir , Alexander Studier-Fischer , Samuel Knödler , Leonardo Ayala , Tim Adler , Hannes G. Kenngott , Minu Tizabi

分类：计算机视觉 | 机器学习

2021-11-09

语义图像分割是手术中的背景知识和自治机器人的重要前提。本领域的状态专注于在微创手术期间获得的传统RGB视频数据，但基于光谱成像数据的全景语义分割并在开放手术期间获得几乎没有注意到日期。为了解决文献中的这种差距，我们正在研究基于在开放手术环境中获得的猪的高光谱成像（HSI）数据的以下研究问题：（1）基于神经网络的HSI数据的充分表示是完全自动化的器官分割，尤其是关于数据的空间粒度（像素与Superpixels与Patches与完整图像）的空间粒度？（2）在执行语义器官分割时，是否有利用HSI数据使用HSI数据，即RGB数据和处理的HSI数据（例如氧合等组织参数）？根据基于20猪的506个HSI图像的全面验证研究，共注释了19个类，基于深度的学习的分割性能 - 贯穿模态 - 与输入数据的空间上下文一致。未处理的HSI数据提供优于RGB数据或来自摄像机提供商的处理数据，其中优势随着输入到神经网络的输入的尺寸而增加。最大性能（应用于整个图像的HSI）产生了0.89（标准偏差（SD）0.04）的平均骰子相似度系数（DSC），其在帧间间变异性（DSC为0.89（SD 0.07）的范围内。我们得出结论，HSI可以成为全自动手术场景理解的强大的图像模型，其具有传统成像的许多优点，包括恢复额外功能组织信息的能力。

translated by 谷歌翻译

Grafting Transformer on Automatically Designed Convolutional Neural Network for Hyperspectral Image Classification

Xizhe Xue , Haokui Zhang , Bei Fang , Zongwen Bai , Ying Li

分类：计算机视觉

2021-10-21

高光谱图像（HSI）分类一直是决定的热门话题，因为高光谱图像具有丰富的空间和光谱信息，并为区分不同的土地覆盖物体提供了有力的基础。从深度学习技术的发展中受益，基于深度学习的HSI分类方法已实现了有希望的表现。最近，已经提出了一些用于HSI分类的神经架构搜索（NAS）算法，这将HSI分类的准确性进一步提高到了新的水平。在本文中，NAS和变压器首次合并用于处理HSI分类任务。与以前的工作相比，提出的方法有两个主要差异。首先，我们重新访问了先前的HSI分类NAS方法中设计的搜索空间，并提出了一个新型的混合搜索空间，该搜索空间由空间主导的细胞和频谱主导的单元组成。与以前的工作中提出的搜索空间相比，所提出的混合搜索空间与HSI数据的特征更加一致，即HSIS具有相对较低的空间分辨率和非常高的光谱分辨率。其次，为了进一步提高分类准确性，我们尝试将新兴变压器模块移植到自动设计的卷积神经网络（CNN）上，以将全局信息添加到CNN学到的局部区域的特征中。三个公共HSI数据集的实验结果表明，所提出的方法的性能要比比较方法更好，包括手动设计的网络和基于NAS的HSI分类方法。特别是在最近被捕获的休斯顿大学数据集中，总体准确性提高了近6个百分点。代码可在以下网址获得：https：//github.com/cecilia-xue/hyt-nas。

translated by 谷歌翻译

Landslide4Sense: Reference Benchmark Data and Deep Learning Models for Landslide Detection

Omid Ghorbanzadeh , Yonghao Xu , Pedram Ghamisi , Michael Kopp , David Kreil

分类：计算机视觉

2022-06-01

这项研究介绍了\ textit {landslide4sense}，这是一种从遥感中检测到滑坡检测的参考基准。该存储库具有3,799个图像贴片，可从Sentinel-2传感器中融合光学层，并带有数字高程模型和来自ALOS Palsar的斜率层。附加的地形信息促进了对滑坡边界的准确检测，而最近的研究表明，仅使用光学数据，这是具有挑战性的。广泛的数据集支持在滑坡检测中进行深度学习（DL）研究，以及用于系统更新滑坡库存的方法的开发和验证。基准数据集已在四个不同的时间和地理位置收集：伊伯里（2018年9月），科达古（2018年8月），戈尔卡（2015年4月）和台湾（2009年8月）。每个图像像素均标记为属于滑坡，包括各种来源和彻底的手动注释。然后，我们评估11个最先进的DL分割模型的滑坡检测性能：U-NET，RESU-NET，PSPNET，CONTECTNET，DEEPLAB-V2，DEEPLAB-V3+，FCN-8，LINKNET，FRRRN-A，FRRN-A，， FRRN-B和SQNET。所有型号均已从划痕上对每个研究区域的四分之一的补丁进行培训，并在其他三个季度的独立贴片上进行了测试。我们的实验表明，Resu-NET的表现优于其他模型，用于滑坡检测任务。我们在\ url {www.landslide4sense.org}公开获得多种源滑坡基准数据（Landslide4sense）和经过测试的DL模型，为遥感，计算机视觉和机器学习社区建立了重要的资源通常，尤其是对滑坡检测的应用。

translated by 谷歌翻译

Transformers in Remote Sensing: A Survey

Abdulaziz Amer Aleissaee , Amandeep Kumar , Rao Muhammad Anwer , Salman Khan , Hisham Cholakkal , Gui-Song Xia , Fahad Shahbaz khan

分类：计算机视觉

2022-09-02

在过去的十年中，基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近，最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域，在该字段中，自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发，遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上，但据我们所知，我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法，用于遥感子方面的不同遥感问题：非常高分辨率（VHR），高光谱（HSI）和合成孔径雷达（SAR）图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外，我们打算在遥感论文中频繁更新和维护最新的变压器，及其各自的代码：https：//github.com/virobo-15/transformer-in-in-remote-sensing

translated by 谷歌翻译

HTML版本

Agricultural Plantation Classification using Transfer Learning Approach based on CNN

Uphar Singh , Tushar Musale , Ranjana Vyas , O. P. Vyas

分类：计算机视觉 | 人工智能 | 机器学习

2022-06-19

超光谱图像是从卫星中捕获的图像，从卫星中捕获了特定区域的空间和光谱信息。与RGB图像相比，一个超光谱图像包含更多数量的通道，因此包含有关图像中实体的更多信息。它使它们非常适合在快照中分类对象。在过去的几年中，随着深度学习，超光谱图像识别的效率显着提高。卷积神经网络（CNN）和多层感知器（MLP）已证明是对图像进行分类的绝佳过程。但是，他们遭受了长期培训时间和大量标记数据的要求，以达到预期的结果。在处理超光谱图像时，这些问题变得更加复杂。为了减少训练时间并减少对大型标记数据集的依赖，我们建议使用转移学习方法。然后，转移学习模型使用CNN和MLP模型所学的功能来解决未见的新分类问题数据集。进行了CNN和多个MLP体系结构模型的详细比较，以确定最适合目标的最佳体系结构。结果表明，层的缩放并不总是会导致准确性的提高，但通常会导致过度拟合，也会增加训练时间。通过应用转移学习方法而不仅仅是接近，训练时间更大程度地减少了。通过直接训练大型数据集的新模型，而不会影响准确性，该问题。

translated by 谷歌翻译

Facilitated machine learning for image-based fruit quality assessment in developing countries

Manuel Knott , Fernando Perez-Cruz , Thijs Defraeye

分类：计算机视觉

2022-07-10

自动图像分类是食品科学中监督机器学习的常见任务。一个例子是基于图像的水果外部质量或成熟度的分类。为此，通常使用深层卷积神经网络（CNN）。这些模型通常需要大量标记的培训样本和增强的计算资源。尽管商业水果分类线很容易满足这些要求，但这些先决条件可能会阻碍机器学习方法的使用，尤其是对于发展中国家的小农户。我们提出了一种基于预先训练的视觉变压器（VIT）的替代方法，该方法特别适用于数据可用性较低和计算资源有限的域。可以在标准设备上使用有限的资源来轻松实施，这可以使这些模型在发展中国家的基于智能手机的图像分类中民主化。我们通过用良好的CNN方法基准对香蕉和苹果水果的域数据集进行两项不同的分类任务来证明我们方法的竞争力。我们的方法在3745张图像的训练数据集上，分类精度低于表现最佳的CNN（0.950 vs. 0.958）的分类精度。同时，当只有少量标记的训练样本可用时，我们的方法是优越的。与CNN相比，它需要少三倍才能达到0.90的精度。此外，低维特征嵌入的可视化表明，我们的研究中使用的模型从看不见的数据中提取了出色的特征，而无需分配标签。

translated by 谷歌翻译

Two Decades of Bengali Handwritten Digit Recognition: A Survey

A. B. M. Ashikur Rahman , Md. Bakhtiar Hasan , Sabbir Ahmed , Tasnim Ahmed , Md. Hamjajul Ashmafee , Mohammad Ridwan Kabir , Md. Hasanul Kabir

分类：计算机视觉

2022-06-05

手写数字识别（HDR）是光学特征识别（OCR）领域中最具挑战性的任务之一。不管语言如何，HDR都存在一些固有的挑战，这主要是由于个人跨个人的写作风格的变化，编写媒介和环境的变化，无法在反复编写任何数字等时保持相同的笔触。除此之外，特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来，研究人员开发了许多离线和在线HDR管道，其中不同的图像处理技术与传统的机器学习（ML）基于基于的和/或基于深度学习（DL）的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据，例如：英语，阿拉伯语，印度，法尔西，中文等，但几乎没有对孟加拉人HDR（BHDR）的调查，这缺乏对孟加拉语HDR（BHDR）的研究，而这些调查缺乏对孟加拉语HDR（BHDR）的研究。挑战，基础识别过程以及可能的未来方向。在本文中，已经分析了孟加拉语手写数字的特征和固有的歧义，以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外，还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编，煽动了对相关研究的新途径的探索，这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。

translated by 谷歌翻译

Shallow Network Based on Depthwise Over-Parameterized Convolution for Hyperspectral Image Classification

Hongmin Gao , Member , IEEE , Zhonghao Chen , Student Member , IEEE , Chenming Li

分类：计算机视觉

2021-12-01

最近，卷积神经网络（CNN）技术具有普及作为高光谱图像分类（HSIC）的工具。为了在有限样品的条件下提高HSIC的特征提取效率，目前的方法通常使用大量层的深层模型。然而，当样品有限时，深网络模型容易出现过度拟合和梯度消失问题。此外，空间分辨率严重降低，深度深度，这对空间边缘特征提取非常有害。因此，这封信提出了一种HSIC的浅模型，称为深度过度参数化卷积神经网络（DOCNN）。为了确保浅模型的有效提取，引入深度过度参数化卷积（DO-CONV）内核以提取歧视特征。深度过度参数化卷积内核由标准卷积内核和深度卷积内核组成，其可以单独地提取不同信道的空间特征，并同时熔合整个通道的空间特征。此外，为了进一步减少由于卷积操作引起的空间边缘特征的损失，提出了一种密集的残余连接（DRC）结构以适用于整个网络的特征提取部分。从三个基准数据集获得的实验结果表明，该方法在分类准确度和计算效率方面优于其他最先进的方法。

translated by 谷歌翻译

Applications of Deep Learning in Fish Habitat Monitoring: A Tutorial and Survey

Alzayat Saleh , Marcus Sheaves , Dean Jerry , Mostafa Rahimi Azghadi

分类：计算机视觉

2022-06-11

海洋生态系统及其鱼类栖息地越来越重要，因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然，因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据，这些数据无法通过当前的手动处理方法有效地分析，这些方法涉及人类观察者。 DL是一种尖端的AI技术，在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域，但仍在探索其在水下鱼类栖息地监测中的使用。在本文中，我们提供了一个涵盖DL的关键概念的教程，该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序，讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外，我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查，包括分类，计数，定位和细分。此外，我们对水下鱼类数据集进行了公开调查，并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解，通过遵循我们的分步教程而为其应用开发的海洋科学家的教程，并了解如何发展其研究，以促进他们的研究。努力。同时，它适用于希望调查基于DL的最先进方法的计算机科学家，以进行鱼类栖息地监测。

translated by 谷歌翻译