智能论文笔记

Deep Transfer Learning for Land Use and Land Cover Classification: A Comparative Study

Raoof Naushad , Tarunpreet Kaur , Ebrahim Ghaderpour

分类：计算机视觉

2021-10-06

有效地实现具有高空间分辨率图像的遥感图像分类，可以在土地使用和陆地覆盖（LULC）分类中提供显着的价值。遥感和深度学习技术的新进步促进了LULC分类的时空信息的提取。此外，在包括遥感的科学等各种学科，利用传输学习的卷积神经网络（CNNS）的图像分类巨大改进。在本研究中，代替从头开始训练CNN，转移学习应用于微调预先训练的网络视觉几何组（VGG16）和宽残余网络（WRNS），以便使用附加层，用于LULC分类使用EuroSat DataSet的red-green-blue版本。此外，将性能和计算时间与技术进行比较和优化，例如早期停止，梯度剪辑，自适应学习率和数据增强。拟议的方法已经解决了有限数据问题，实现了非常好的准确性。结果表明，基于WRN的提出方法比以前的计算效率和精度从98.57％到99.17％的准确性更好地表现优于先前的最佳结果。

translated by 谷歌翻译

Image Augmentation for Satellite Images

Oluwadara Adedeji , Peter Owoade , Opeyemi Ajayi , Olayiwola Arowolo

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-29

这项研究建议使用生成模型（GAN）来增强欧洲裔欧洲裔数据集用于土地使用和土地覆盖（LULC）分类任务。我们使用DCGAN和WGAN-GP为数据集中的每个类生成图像。然后，我们探讨了在每种情况下将原始数据集增加约10％的效果对模型性能。GAN体系结构的选择似乎对模型性能没有明显的影响。然而，几何增强和GAN生成图像的结合改善了基线结果。我们的研究表明，GANS的增强可以改善卫星图像上深层分类模型的普遍性。

translated by 谷歌翻译

Weed Recognition using Deep Learning Techniques on Class-imbalanced Imagery

A S M Mahmudul Hasan , Ferdous Sohel , Dean Diepeveen , Hamid Laga , Michael G. K. Jones

分类：计算机视觉 | 人工智能

2021-12-15

大多数杂草物种都会通过竞争高价值作物所需的营养而产生对农业生产力的不利影响。手动除草对于大型种植区不实用。已经开展了许多研究，为农业作物制定了自动杂草管理系统。在这个过程中，其中一个主要任务是识别图像中的杂草。但是，杂草的认可是一个具有挑战性的任务。它是因为杂草和作物植物的颜色，纹理和形状类似，可以通过成像条件，当记录图像时的成像条件，地理或天气条件进一步加剧。先进的机器学习技术可用于从图像中识别杂草。在本文中，我们调查了五个最先进的深神经网络，即VGG16，Reset-50，Inception-V3，Inception-Resnet-V2和MobileNetv2，并评估其杂草识别的性能。我们使用了多种实验设置和多个数据集合组合。特别是，我们通过组合几个较小的数据集，通过数据增强构成了一个大型DataSet，缓解了类别不平衡，并在基于深度神经网络的基准测试中使用此数据集。我们通过保留预先训练的权重来调查使用转移学习技术来利用作物和杂草数据集的图像提取特征和微调它们。我们发现VGG16比小规模数据集更好地执行，而ResET-50比其他大型数据集上的其他深网络更好地执行。

translated by 谷歌翻译

Current Trends in Deep Learning for Earth Observation: An Open-source Benchmark Arena for Image Classification

Ivica Dimitrovski , Ivan Kitanovski , Dragi Kocev , Nikola Simidjievski

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-14

我们提出“ AITLAS：基准竞技场” - 一个开源基准测试框架，用于评估地球观察中图像分类的最新深度学习方法（EO）。为此，我们介绍了从九种不同的最先进的体系结构得出的400多个模型的全面比较分析，并将它们与来自22个具有不同尺寸的数据集的各种多级和多标签分类任务进行比较和属性。除了完全在这些数据集上训练的模型外，我们还基于在转移学习的背景下训练的模型，利用预训练的模型变体，因为通常在实践中执行。所有提出的方法都是一般的，可以轻松地扩展到本研究中未考虑的许多其他遥感图像分类任务。为了确保可重复性并促进更好的可用性和进一步的开发，所有实验资源在内的所有实验资源，包括训练的模型，模型配置和数据集的处理详细信息（以及用于培训和评估模型的相应拆分）都在存储库上公开可用：HTTPS ：//github.com/biasvariancelabs/aitlas-arena。

translated by 谷歌翻译

Efficient deep learning models for land cover image classification

Ioannis Papoutsis , Nikolaos-Ioannis Bountos , Angelos Zavras , Dimitrios Michail , Christos Tryfonopoulos

分类：计算机视觉

2021-11-18

哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖（Lulc）映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中，我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集，包括卷积神经网络，多层感知，视觉变压器，高效导通和宽残余网络（WRN）架构。我们的目标是利用分类准确性，培训时间和推理率。我们提出了一种基于用于网络深度，宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架，以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构，增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数，实现所有19个LULC类的平均F分类准确度达到4.5％，并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号，以及我们在多个GPU节点上分布式培训的代码。

translated by 谷歌翻译

Terrain Classification using Transfer Learning on Hyperspectral Images: A Comparative study

Uphar Singh , Kumar Saurabh , Neelaksh Trehan , Ranjana Vyas , O. P. Vyas

分类：计算机视觉 | 人工智能 | 机器学习

2022-06-19

与RGB图像相比，高光谱图像包含更多数量的通道，因此包含有关图像中实体的更多信息。卷积神经网络（CNN）和多层感知器（MLP）已被证明是一种有效的图像分类方法。但是，他们遭受了长期培训时间和大量标记数据的要求，以达到预期的结果。在处理高光谱图像时，这些问题变得更加复杂。为了减少训练时间并减少对大型标记数据集的依赖性，我们建议使用转移学习方法。使用PCA将高光谱数据集预处理到较低的维度，然后将深度学习模型应用于分类。然后，转移学习模型使用该模型学到的功能来解决看不见的数据集上的新分类问题。进行了CNN和多个MLP体系结构模型的详细比较，以确定最适合目标的最佳体系结构。结果表明，层的缩放并不总是会导致准确性的提高，但通常会导致过度拟合，并增加训练时间。通过应用转移学习方法而不仅仅是解决问题，训练时间更大程度地减少了。通过直接在大型数据集上训练新模型，而不会影响准确性。

translated by 谷歌翻译

Remote Sensing Image Scene Classification: Benchmark and State of the Art

Gong Cheng , Junwei Han , Xiaoqiang Lu

分类：

2017-03-01

This paper reviews the recent progress of remote sensing image scene classification, proposes a large-scale benchmark dataset, and evaluates a number of state-of-the-art methods using the proposed dataset.

translated by 谷歌翻译

Applications of Deep Learning in Fish Habitat Monitoring: A Tutorial and Survey

Alzayat Saleh , Marcus Sheaves , Dean Jerry , Mostafa Rahimi Azghadi

分类：计算机视觉

2022-06-11

海洋生态系统及其鱼类栖息地越来越重要，因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然，因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据，这些数据无法通过当前的手动处理方法有效地分析，这些方法涉及人类观察者。 DL是一种尖端的AI技术，在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域，但仍在探索其在水下鱼类栖息地监测中的使用。在本文中，我们提供了一个涵盖DL的关键概念的教程，该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序，讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外，我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查，包括分类，计数，定位和细分。此外，我们对水下鱼类数据集进行了公开调查，并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解，通过遵循我们的分步教程而为其应用开发的海洋科学家的教程，并了解如何发展其研究，以促进他们的研究。努力。同时，它适用于希望调查基于DL的最先进方法的计算机科学家，以进行鱼类栖息地监测。

translated by 谷歌翻译

Landslide4Sense: Reference Benchmark Data and Deep Learning Models for Landslide Detection

Omid Ghorbanzadeh , Yonghao Xu , Pedram Ghamisi , Michael Kopp , David Kreil

分类：计算机视觉

2022-06-01

这项研究介绍了\ textit {landslide4sense}，这是一种从遥感中检测到滑坡检测的参考基准。该存储库具有3,799个图像贴片，可从Sentinel-2传感器中融合光学层，并带有数字高程模型和来自ALOS Palsar的斜率层。附加的地形信息促进了对滑坡边界的准确检测，而最近的研究表明，仅使用光学数据，这是具有挑战性的。广泛的数据集支持在滑坡检测中进行深度学习（DL）研究，以及用于系统更新滑坡库存的方法的开发和验证。基准数据集已在四个不同的时间和地理位置收集：伊伯里（2018年9月），科达古（2018年8月），戈尔卡（2015年4月）和台湾（2009年8月）。每个图像像素均标记为属于滑坡，包括各种来源和彻底的手动注释。然后，我们评估11个最先进的DL分割模型的滑坡检测性能：U-NET，RESU-NET，PSPNET，CONTECTNET，DEEPLAB-V2，DEEPLAB-V3+，FCN-8，LINKNET，FRRRN-A，FRRN-A，， FRRN-B和SQNET。所有型号均已从划痕上对每个研究区域的四分之一的补丁进行培训，并在其他三个季度的独立贴片上进行了测试。我们的实验表明，Resu-NET的表现优于其他模型，用于滑坡检测任务。我们在\ url {www.landslide4sense.org}公开获得多种源滑坡基准数据（Landslide4sense）和经过测试的DL模型，为遥感，计算机视觉和机器学习社区建立了重要的资源通常，尤其是对滑坡检测的应用。

translated by 谷歌翻译

Habitat classification from satellite observations with sparse annotations

Mikko Impiö , Pekka Härmä , Anna Tammilehto , Saku Anttila , Jenni Raitoharju

分类：计算机视觉

2022-09-26

与现场测量相比，遥感益处可以通过使大面积的监控更容易地进行栖息地保护，尤其是在可以自动分析遥感数据的情况下。监测的一个重要方面是对受监视区域中存在的栖息地类型进行分类和映射。自动分类是一项艰巨的任务，因为课程具有细粒度的差异，并且它们的分布是长尾巴且不平衡的。通常，用于自动土地覆盖分类的培训数据取决于完全注释的分割图，从遥感的图像到相当高的分类学，即森林，农田或市区等类别。自动栖息地分类的挑战是可靠的数据注释需要现场策略。因此，完整的分割图的生产成本很高，训练数据通常很稀疏，类似点，并且仅限于可以步行访问的区域。需要更有效地利用这些有限数据的方法。我们通过提出一种栖息地分类和映射的方法来解决这些问题，并应用此方法将整个芬兰拉普兰北部地区分类为Natura2000类。该方法的特征是使用从现场收集的细粒，稀疏，单像素注释，并与大量未经通知的数据结合在一起来产生分割图。比较了监督，无监督和半监督的方法，并证明了从较大的室外数据集中转移学习的好处。我们提出了一个\ ac {cnn}偏向于中心像素分类，与随机的森林分类器结合使用，该分类器比单独的模型本身产生更高的质量分类。我们表明，增加种植，测试时间的增加和半监督的学习可以进一步帮助分类。

translated by 谷歌翻译

Exploration of Convolutional Neural Network Architectures for Large Region Map Automation

R. M. Tsenov , C. J. Henry , J. L. Storie , C. D. Storie , B. Murray , M. Sokolov

分类：计算机视觉 | 机器学习

2022-11-07

Deep learning semantic segmentation algorithms have provided improved frameworks for the automated production of Land-Use and Land-Cover (LULC) maps, which significantly increases the frequency of map generation as well as consistency of production quality. In this research, a total of 28 different model variations were examined to improve the accuracy of LULC maps. The experiments were carried out using Landsat 5/7 or Landsat 8 satellite images with the North American Land Change Monitoring System labels. The performance of various CNNs and extension combinations were assessed, where VGGNet with an output stride of 4, and modified U-Net architecture provided the best results. Additional expanded analysis of the generated LULC maps was also provided. Using a deep neural network, this work achieved 92.4% accuracy for 13 LULC classes within southern Manitoba representing a 15.8% improvement over published results for the NALCMS. Based on the large regions of interest, higher radiometric resolution of Landsat 8 data resulted in better overall accuracies (88.04%) compare to Landsat 5/7 (80.66%) for 16 LULC classes. This represents an 11.44% and 4.06% increase in overall accuracy compared to previously published NALCMS results, including larger land area and higher number of LULC classes incorporated into the models compared to other published LULC map automation methods.

translated by 谷歌翻译

SEnSeI: A Deep Learning Module for Creating Sensor Independent Cloud Masks

Alistair Francis , John Mrziglod , Panagiotis Sidiropoulos , Jan-Peter Muller

分类：计算机视觉

2021-11-16

我们向传感器独立性（Sensei）介绍了一种新型神经网络架构 - 光谱编码器 - 通过该传感器独立性（Sensei） - 通过其中具有不同组合的光谱频带组合的多个多光谱仪器可用于训练广义深度学习模型。我们专注于云屏蔽的问题，使用几个预先存在的数据集，以及Sentinel-2的新的自由可用数据集。我们的模型显示在卫星上实现最先进的性能，它受过训练（Sentinel-2和Landsat 8），并且能够推断到传感器，它在训练期间尚未见过Landsat 7，每\ 'USAT-1，和Sentinel-3 SLST。当多种卫星用于培训，接近或超越专用单传感器型号的性能时，模型性能显示出改善。这项工作是激励遥感社区可以使用巨大各种传感器采取的数据的动机。这不可避免地导致标记用于不同传感器的努力，这限制了深度学习模型的性能，因为他们需要最佳地执行巨大的训练。传感器独立性可以使深度学习模型能够同时使用多个数据集进行培训，提高性能并使它们更广泛适用。这可能导致深入学习方法，用于在板载应用程序和地面分段数据处理中更频繁地使用，这通常需要模型在推出时或之后即将开始。

translated by 谷歌翻译

Towards Daily High-resolution Inundation Observations using Deep Learning and EO

Antara Dasgupta , Lasse Hybbeneth , Björn Waske

分类：计算机视觉 | 机器学习

2022-08-10

卫星遥感提供了一种具有成本效益的概要洪水监测的解决方案，卫星衍生的洪水图为传统上使用的数值洪水淹没模型提供了一种计算有效的替代方法。尽管卫星碰巧涵盖正在进行的洪水事件时确实提供了及时的淹没信息，但它们受其时空分辨率的限制，因为它们在各种规模上动态监测洪水演变的能力。不断改善对新卫星数据源的访问以及大数据处理功能，就此问题的数据驱动解决方案而言，已经解锁了前所未有的可能性。具体而言，来自卫星的数据融合，例如哥白尼前哨，它们具有很高的空间和低时间分辨率，以及来自NASA SMAP和GPM任务的数据，它们的空间较低，但时间较高的时间分辨率可能会导致高分辨率的洪水淹没在A处的高分辨率洪水。每日规模。在这里，使用Sentinel-1合成孔径雷达和各种水文，地形和基于土地利用的预测因子衍生出的洪水淹没图对卷积神经网络进行了训练，以预测高分辨率的洪水泛滥概率图。使用Sentinel-1和Sentinel-2衍生的洪水面罩，评估了UNET和SEGNET模型架构的性能，分别具有95％的信心间隔。精确召回曲线（PR-AUC）曲线下的区域（AUC）被用作主要评估指标，这是由于二进制洪水映射问题中类固有的不平衡性质，最佳模型提供了PR-AUC 0.85。

translated by 谷歌翻译

Image Classification with Small Datasets: Overview and Benchmark

L. Brigato , B. Barz , L. Iocchi , J. Denzler

分类：计算机视觉 | 人工智能 | 神经与进化计算

2022-12-23

Image classification with small datasets has been an active research area in the recent past. However, as research in this scope is still in its infancy, two key ingredients are missing for ensuring reliable and truthful progress: a systematic and extensive overview of the state of the art, and a common benchmark to allow for objective comparisons between published methods. This article addresses both issues. First, we systematically organize and connect past studies to consolidate a community that is currently fragmented and scattered. Second, we propose a common benchmark that allows for an objective comparison of approaches. It consists of five datasets spanning various domains (e.g., natural images, medical imagery, satellite data) and data types (RGB, grayscale, multispectral). We use this benchmark to re-evaluate the standard cross-entropy baseline and ten existing methods published between 2017 and 2021 at renowned venues. Surprisingly, we find that thorough hyper-parameter tuning on held-out validation data results in a highly competitive baseline and highlights a stunted growth of performance over the years. Indeed, only a single specialized method dating back to 2019 clearly wins our benchmark and outperforms the baseline classifier.

translated by 谷歌翻译

EuroSAT: A Novel Dataset and Deep Learning Benchmark for Land Use and Land Cover Classification

Patrick Helber , Benjamin Bischke , Andreas Dengel , Damian Borth

分类：

2017-08-31

In this paper, we address the challenge of land use and land cover classification using Sentinel-2 satellite images. The Sentinel-2 satellite images are openly and freely accessible provided in the Earth observation program Copernicus. We present a novel dataset based on Sentinel-2 satellite images covering 13 spectral bands and consisting out of 10 classes with in total 27,000 labeled and geo-referenced images. We provide benchmarks for this novel dataset with its spectral bands using state-of-the-art deep Convolutional Neural Network (CNNs). With the proposed novel dataset, we achieved an overall classification accuracy of 98.57%. The resulting classification system opens a gate towards a number of Earth observation applications. We demonstrate how this classification system can be used for detecting land use and land cover changes and how it can assist in improving geographical maps. The geo-referenced dataset EuroSAT is made publicly available at https://github.com/phelber/eurosat.

translated by 谷歌翻译

Stain Normalized Breast Histopathology Image Recognition using Convolutional Neural Networks for Cancer Detection

Sruthi Krishna , Suganthi S. S , Shivsubramani Krishnamoorthy , Arnav Bhavsar

分类：计算机视觉

2022-01-04

计算机辅助诊断数字病理学正在变得普遍存在，因为它可以提供更有效和客观的医疗保健诊断。最近的进展表明，卷积神经网络（CNN）架构是一种完善的深度学习范式，可用于设计一种用于乳腺癌检测的计算机辅助诊断（CAD）系统。然而，探索了污染变异性因污染变异性和染色常规化的影响，尚未得到很好的挑战。此外，对于高吞吐量筛选可能是重要的网络模型的性能分析，这也不适用于高吞吐量筛查，也不熟悉。要解决这一挑战，我们考虑了一些当代CNN模型，用于涉及（1）的乳房组织病理学图像的二进制分类。使用基于自适应颜色解卷积（ACD）的颜色归一化算法来处理污染归一化图像的数据以处理染色变量; （2）应用基于转移学习的一些可动性更高效的CNN模型的培训，即视觉几何组网络（VGG16），MobileNet和效率网络。我们在公开的Brankhis数据集上验证了培训的CNN网络，适用于200倍和400x放大的组织病理学图像。实验分析表明，大多数情况下预染额网络在数据增强乳房组织病理学图像中产生更好的质量，而不是污染归一化的情况。此外，我们使用污染标准化图像评估了流行轻量级网络的性能和效率，并发现在测试精度和F1分数方面，高效网络优于VGG16和MOBILENET。我们观察到在测试时间方面的效率比其他网络更好; vgg net，mobilenet，在分类准确性下没有太大降低。

translated by 谷歌翻译

In-field early disease recognition of potato late blight based on deep learning and proximal hyperspectral imaging

Chao Qi , Murilo Sandroni , Jesper Cairo Westergaard , Ea Høegh Riis Sundmark , Merethe Bagge , Erik Alexandersson , Junfeng Gao

分类：计算机视觉

2021-11-23

有效的早期检测马铃薯晚枯萎病（PLB）是马铃薯栽培的必要方面。然而，由于缺乏在冠层水平上缺乏视觉线索，在具有传统成像方法的领域的早期阶段来检测晚期枯萎是一项挑战。高光谱成像可以，捕获来自宽范围波长的光谱信号也在视觉波长之外。在这种情况下，通过将2D卷积神经网络（2D-CNN）和3D-CNN与深度合作的网络（PLB-2D-3D-A）组合来提出高光谱图像的深度学习分类架构。首先，2D-CNN和3D-CNN用于提取丰富的光谱空间特征，然后使用注意力块和SE-RESET用于强调特征图中的突出特征，并提高模型的泛化能力。数据集采用15,360张图像（64x64x204）构建，从在实验领域捕获的240个原始图像裁剪，具有超过20种马铃薯基因型。 2000年图像的测试数据集中的精度在全带中达到0.739，特定带中的0.790（492nm，519nm，560nm，592nm，717nm和765nm）。本研究表明，具有深入学习和近端高光谱成像的早期检测PLB的令人鼓舞的结果。

translated by 谷歌翻译

Less is More: Lighter and Faster Deep Neural Architecture for Tomato Leaf Disease Classification

Sabbir Ahmed , Md. Bakhtiar Hasan , Tasnim Ahmed , Redwan Karim Sony , Md. Hasanul Kabir

分类：计算机视觉 | 机器学习

2021-09-06

为了确保全球粮食安全和利益相关者的总体利润，正确检测和分类植物疾病的重要性至关重要。在这方面，基于深度学习的图像分类的出现引入了大量解决方案。但是，这些解决方案在低端设备中的适用性需要快速，准确和计算廉价的系统。这项工作提出了一种基于轻巧的转移学习方法，用于从番茄叶中检测疾病。它利用一种有效的预处理方法来增强具有照明校正的叶片图像，以改善分类。我们的系统使用组合模型来提取功能，该模型由预审计的MobilenETV2体系结构和分类器网络组成，以进行有效的预测。传统的增强方法被运行时的增加取代，以避免数据泄漏并解决类不平衡问题。来自PlantVillage数据集的番茄叶图像的评估表明，所提出的体系结构可实现99.30％的精度，型号大小为9.60mb和4.87亿个浮点操作，使其成为低端设备中现实生活的合适选择。我们的代码和型号可在https://github.com/redwankarimsony/project-tomato中找到。

translated by 谷歌翻译

Virtual Underwater Datasets for Autonomous Inspections

oannis Polymenis , Maryam Haroutunian , Rose Norman , David Trodden

分类：计算机视觉

2022-09-13

在离岸部门以及科学界在水下行动方面的迅速发展，水下车辆变得更加复杂。值得注意的是，许多水下任务，包括对海底基础设施的评估，都是在自动水下车辆（AUV）的帮助下进行的。最近在人工智能（AI）方面取得了突破，尤其是深度学习（DL）模型和应用，这些模型和应用在各种领域都广泛使用，包括空中无人驾驶汽车，自动驾驶汽车导航和其他应用。但是，由于难以获得特定应用的水下数据集，它们在水下应用中并不普遍。从这个意义上讲，当前的研究利用DL领域的最新进步来构建从实验室环境中捕获的物品照片产生的定制数据集。通过将收集到的图像与包含水下环境的照片相结合，将生成的对抗网络（GAN）用于将实验室对象数据集转化为水下域。这些发现证明了创建这样的数据集的可行性，因为与现实世界的水下船体船体图像相比，所得图像与真实的水下环境非常相似。因此，水下环境的人工数据集可以克服因对实际水下图像的有限访问而引起的困难，并用于通过水下对象图像分类和检测来增强水下操作。

translated by 谷歌翻译

Two Decades of Bengali Handwritten Digit Recognition: A Survey

A. B. M. Ashikur Rahman , Md. Bakhtiar Hasan , Sabbir Ahmed , Tasnim Ahmed , Md. Hamjajul Ashmafee , Mohammad Ridwan Kabir , Md. Hasanul Kabir

分类：计算机视觉

2022-06-05

手写数字识别（HDR）是光学特征识别（OCR）领域中最具挑战性的任务之一。不管语言如何，HDR都存在一些固有的挑战，这主要是由于个人跨个人的写作风格的变化，编写媒介和环境的变化，无法在反复编写任何数字等时保持相同的笔触。除此之外，特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来，研究人员开发了许多离线和在线HDR管道，其中不同的图像处理技术与传统的机器学习（ML）基于基于的和/或基于深度学习（DL）的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据，例如：英语，阿拉伯语，印度，法尔西，中文等，但几乎没有对孟加拉人HDR（BHDR）的调查，这缺乏对孟加拉语HDR（BHDR）的研究，而这些调查缺乏对孟加拉语HDR（BHDR）的研究。挑战，基础识别过程以及可能的未来方向。在本文中，已经分析了孟加拉语手写数字的特征和固有的歧义，以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外，还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编，煽动了对相关研究的新途径的探索，这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。

translated by 谷歌翻译