智能论文笔记

Exploration of an End-to-End Automatic Number-plate Recognition neural network for Indian datasets

Sai Sirisha Nadiminti , Pranav Kant Gaur , Abhilash Bhardwaj

分类：计算机视觉

2022-07-14

印度车辆板在尺寸，字体，脚本和形状方面的种类繁多。因此，自动数板识别（ANPR）解决方案的开发是具有挑战性的，因此需要一个多样化的数据集作为示例集合。但是，缺少印度情景的全面数据集，从而阻碍了在公开可用和可重现的ANPR解决方案方面的进展。许多国家已经投入了努力，为中国和面向应用程序的车牌（AOLP）数据集开发诸如中国城市停车数据集（CCPD）等全面的ANPR数据集为我们提供了努力。在这项工作中，我们发布了一个扩展的数据集，该数据集目前由1.5K图像组成，以及可扩展且可重复的程序，以增强该数据集以开发印度条件的ANPR解决方案。我们利用此数据集探索了印度场景的端到端（E2E）ANPR体系结构，该架构最初是根据CCPD数据集为中国车辆号码板识别的。当我们为数据集定制体系结构时，我们遇到了见解，我们在本文中讨论了这一点。我们报告了CCPD作者提供的模型直接可重复使用性的障碍，因为印度数字板的极端多样性以及相对于CCPD数据集的分布差异。在将印度数据集的特性与中国数据集对齐后，在LP检测中观察到了42.86％的改善。在这项工作中，我们还将E2E数板检测模型的性能与Yolov5模型进行了比较，并在可可数据集上进行了预训练，并在印度车辆图像上进行了微调。鉴于用于微调检测模块和Yolov5的数量印度车辆图像是相同的，我们得出的结论是，基于COCO数据集而不是CCPD数据集开发针对印度条件的ANPR解决方案更有效。

translated by 谷歌翻译

Indian Licence Plate Dataset in the wild

Sanchit Tanwar , Ayush Tiwari , Ritesh Chowdhry

分类：计算机视觉

2021-11-11

印度车牌检测是一个问题，它在开源级别尚未探讨。可以使用专有解决方案，但没有大的开源数据集可用于执行实验并测试不同的方法。可用的大型数据集是中国，巴西等国家，但在这些数据集上培训的模型对印度板块表现不佳，因为字体样式和板材设计从国家到国家差异很大。这篇论文介绍了印度车牌数据集使用16192图像和21683板板用每个板的4个点注释，并且相应的板中的每个字符.WE呈现了一种使用语义分割来解决数字板检测的基准模型。我们提出了一种两级方法，其中第一阶段是用于本地化板，第二阶段是读取裁剪板图像中的文本.WE测试的基准对象检测和语义分段模型，用于第二阶段，我们使用了LPRNET基于OCR。

translated by 谷歌翻译

Towards End-to-end Car License Plate Location and Recognition in Unconstrained Scenarios

Shuxin Qin , Sijiang Liu

分类：计算机视觉 | 人工智能 | 机器学习

2020-08-25

从卷积神经网络的快速发展中受益，汽车牌照检测和识别的性能得到了很大的改善。但是，大多数现有方法分别解决了检测和识别问题，并专注于特定方案，这阻碍了现实世界应用的部署。为了克服这些挑战，我们提出了一个有效而准确的框架，以同时解决车牌检测和识别任务。这是一个轻巧且统一的深神经网络，可以实时优化端到端。具体而言，对于不受约束的场景，采用了无锚方法来有效检测车牌的边界框和四个角，这些框用于提取和纠正目标区域特征。然后，新型的卷积神经网络分支旨在进一步提取角色的特征而不分割。最后，将识别任务视为序列标记问题，这些问题通过连接派时间分类（CTC）解决。选择了几个公共数据集，包括在各种条件下从不同方案中收集的图像进行评估。实验结果表明，所提出的方法在速度和精度上都显着优于先前的最新方法。

translated by 谷歌翻译

IR-LPR: Large Scale of Iranian License Plate Recognition Dataset

Mahdi Rahmani , Melika Sabaghian , Seyyede Mahila Moghadami , Mohammad Mohsen Talaie , Mahdi Naghibi , Mohammad Ali Keyvanrad

分类：计算机视觉

2022-09-10

对象检测一直是实用的。我们世界上有很多事情，以至于认识到它们不仅可以增加我们对周围环境的自动知识，而且对于有兴趣开展新业务的人来说也可以很有利润。这些有吸引力的物体之一是车牌（LP）。除了可以使用车牌检测的安全用途外，它还可以用于创建创意业务。随着基于深度学习模型的对象检测方法的开发，适当且全面的数据集变得双重重要。但是，由于频繁使用车牌数据集的商业使用，不仅在伊朗而且在世界范围内也有限。用于检测车牌的最大伊朗数据集具有1,466张图像。此外，识别车牌角色的最大伊朗数据集具有5,000张图像。我们已经准备了一个完整的数据集，其中包括20,967辆汽车图像，以及对整个车牌及其字符的所有检测注释，这对于各种目的都是有用的。此外，字符识别应用程序的车牌图像总数为27,745张图像。

translated by 谷歌翻译

On the Cross-dataset Generalization for License Plate Recognition

Rayson Laroca , Everton V. Cardoso , Diego R. Lucio , Valter Estevam , David Menotti

分类：计算机视觉

2022-01-02

由于深度学习的进步和数据集的增加，自动许可证板识别（ALPR）系统对来自多个区域的牌照（LPS）的表现显着。对深度ALPR系统的评估通常在每个数据集内完成;因此，如果这种结果是泛化能力的可靠指标，则是可疑的。在本文中，我们提出了一种传统分配的与休假 - 单数据集实验设置，以统一地评估12个光学字符识别（OCR）模型的交叉数据集泛化，其在九个公共数据集上应用于LP识别，具有良好的品种在若干方面（例如，获取设置，图像分辨率和LP布局）。我们还介绍了一个用于端到端ALPR的公共数据集，这是第一个包含带有Mercosur LP的车辆的图像和摩托车图像数量最多的图像。实验结果揭示了传统分离协议的局限性，用于评估ALPR上下文中的方法，因为在训练和测试休假时，大多数数据集在大多数数据集中的性能显着下降。

translated by 谷歌翻译

An advanced combination of semi-supervised Normalizing Flow & Yolo (YoloNF) to detect and recognize vehicle license plates

Khalid Oublal , Xinyi Dai

分类：计算机视觉 | 人工智能

2022-07-21

由于多个实际应用，全自动车牌识别（ALPR）一直是一个经常研究的主题。但是，在实际情况下，许多当前的解决方案仍然不够强大，通常取决于许多限制。本文提出了一个基于最先进的Yolo对象检测器和标准化流量的强大而有效的ALPR系统。该模型使用两种新策略。首先，使用YOLO的两阶段网络和基于标准化的基于归一化的模型来检测许可板（LP）并识别具有数字和阿拉伯字符的LP。其次，实施了多尺度图像转换，以解决Yolo裁剪LP检测问题的问题，包括明显的背景噪声。此外，在具有现实情况的新数据集中，我们引入了一个更大的公共注释数据集，该数据集从摩洛哥板上收集到了更大的公共注释数据集。我们证明我们提出的模型可以在没有单个或多个字符的少数样品上学习。该数据集还将公开使用，以鼓励对板检测和识别进行进一步的研究和研究。

translated by 谷歌翻译

Real-time Bangla License Plate Recognition System for Low Resource Video-based Applications

Alif Ashrafee , Akib Mohammed Khan , Mohammad Sabik Irbaz , MD Abdullah Al Nasim

分类：计算机视觉 | 人工智能

2021-08-18

自动许可板识别系统旨在提供从视频帧中出现的车辆检测，本地化和识别车牌字符的解决方案。但是，在现实世界中部署此类系统需要在低资源环境中实时性能。在我们的论文中，我们提出了一种双级检测管线与视觉API配对，提供实时推理速度以及始终如一的准确检测和识别性能。我们使用Haar-Cascade分类器作为骨干MobileNet SSDv2检测模型顶部的过滤器。这仅通过专注于高置信度检测并使用它们来识别来减少推理时间。我们还施加了一个时间帧分离策略，以区分同一夹子中的多个车辆牌照。此外，没有公开的Bangla许可证板数据集，我们创建了一个图像数据集和野外包含许可板的视频数据集。我们在图像数据集上培训了模型，并达到了86％的AP（0.5）得分，并在视频数据集上测试了我们的管道，并观察到合理的检测和识别性能（82.7％的检测率，60.8％OCR F1得分）具有真实 - 时间处理速度（每秒27.2帧）。

translated by 谷歌翻译

Real-time smart vehicle surveillance system

Shantha Kumar S , Vykunth P , Jayanthi D

分类：计算机视觉

2021-11-24

在过去十年中，全球各地的犯罪活动飙升。据印度警察局介绍，车辆盗窃是最不解决的犯罪之一，近19％的录制案件涉及机动车盗窃。为了克服这些对手，我们提出了一个实时车辆监控系统，它使用CCTV视频饲料检测和跟踪可疑车辆。所提出的系统提取车辆的各种属性，例如制作，模型，颜色，牌照号码和牌照的类型。采用各种图像处理和深度学习算法来满足所提出的系统的目标。提取的特征可用作报告违法行为的证据。虽然系统使用更多参数，但它仍然能够以最小的延迟和精度丢失进行实时预测。

translated by 谷歌翻译

Automatic Signboard Detection and Localization in Densely Populated Developing Cities

Md. Sadrul Islam Toaha , Sakib Bin Asad , Chowdhury Rafeed Rahman , S. M. Shahriar Haque , Mahfuz Ara Proma , Md. Ahsan Habib Shuvo , Tashin Ahmed , Md. Amimul Basher

分类：计算机视觉

2020-03-04

由于缺乏自动注释系统，大多数发展城市的城市机构都是数字未标记的。因此，在此类城市中，位置和轨迹服务（例如Google Maps，Uber等）仍然不足。自然场景图像中的准确招牌检测是从此类城市街道检索无错误的信息的最重要任务。然而，开发准确的招牌本地化系统仍然是尚未解决的挑战，因为它的外观包括文本图像和令人困惑的背景。我们提出了一种新型的对象检测方法，该方法可以自动检测招牌，适合此类城市。我们通过合并两种专业预处理方法和一种运行时效高参数值选择算法来使用更快的基于R-CNN的定位。我们采用了一种增量方法，通过使用我们构造的SVSO（Street View Signboard对象）签名板数据集，通过详细评估和与基线进行比较，以达到最终提出的方法，这些方法包含六个发展中国家的自然场景图像。我们在SVSO数据集和Open Image数据集上展示了我们提出的方法的最新性能。我们提出的方法可以准确地检测招牌（即使图像包含多种形状和颜色的多种嘈杂背景的招牌）在SVSO独立测试集上达到0.90 MAP（平均平均精度）得分。我们的实施可在以下网址获得：https：//github.com/sadrultoaha/signboard-detection

translated by 谷歌翻译

Road Rutting Detection using Deep Learning on Images

Poonam Kumari Saha , Deeksha Arya , Ashutosh Kumar , Hiroya Maeda , Yoshihide Sekimoto

分类：计算机视觉

2022-09-28

道路车辙是严重的道路障碍，可能导致早期和昂贵的维护成本的道路过早失败。在过去的几年中，正在积极进行使用图像处理技术和深度学习的道路损害检测研究。但是，这些研究主要集中在检测裂缝，坑洼及其变体上。很少有关于探测道路的研究。本文提出了一个新颖的道路车辙数据集，其中包括949张图像，并提供对象级别和像素级注释。部署了对象检测模型和语义分割模型，以检测所提出的数据集上的道路插道，并对模型预测进行了定量和定性分析，以评估模型性能并确定使用拟议方法检测道路插道时面临的挑战。对象检测模型Yolox-S实现了61.6％的Map@iou = 0.5，语义分割模型PSPNET（RESNET-50）达到54.69，精度为72.67，从而为将来的类似工作提供了基准的准确性。拟议的道路车辙数据集和我们的研究结果将有助于加速使用深度学习发现道路车辙的研究。

translated by 谷歌翻译

Multi-Grid Redundant Bounding Box Annotation for Accurate Object Detection

Solomon Negussie Tesema , El-Bay Bourennane

分类：计算机视觉

2022-01-05

现代领先的物体探测器是从深层CNN的骨干分类器网络重新批准的两阶段或一级网络。YOLOV3是一种这样的非常熟知的最新状态单次检测器，其采用输入图像并将其划分为相等大小的网格矩阵。具有物体中心的网格单元是负责检测特定对象的电池。本文介绍了一种新的数学方法，为准确紧密绑定函数预测分配每个对象的多个网格。我们还提出了一个有效的离线拷贝粘贴数据增强，用于对象检测。我们提出的方法显着优于一些现有的对象探测器，具有进一步更好的性能的前景。

translated by 谷歌翻译

Orientation Aware Weapons Detection In Visual Data : A Benchmark Dataset

Nazeef Ul Haq , Muhammad Moazam Fraz , Tufail Sajjad Shah Hashmi , Muhammad Shahzad

分类：计算机视觉

2021-12-04

自动检测武器对于改善个人的安全性和福祉是重要的，仍然是由于各种尺寸，武器形状和外观，这是一项艰巨的任务。查看点变化和遮挡也是使这项任务更加困难的原因。此外，目前的物体检测算法处理矩形区域，但是一个细长和长的步枪可以真正地覆盖区域的一部分区域，其余部分可能包含未经紧的细节。为了克服这些问题，我们提出了一种用于定向意识武器检测的CNN架构，其提供具有改进的武器检测性能的面向边界框。所提出的模型不仅通过将角度作为分类问题的角度分成8个类而且提供方向，而是作为回归问题。对于培训我们的武器检测模型，包括总6400件武器图像的新数据集从网上收集，然后用面向定向的边界框手动注释。我们的数据集不仅提供导向的边界框作为地面真相，还提供了水平边界框。我们还以多种现代对象探测器提供我们的数据集，用于在该领域进一步研究。所提出的模型在该数据集上进行评估，并且与搁板对象检测器的比较分析产生了卓越的拟议模型的性能，以标准评估策略测量。数据集和模型实现在此链接上公开可用：https://bit.ly/2tyzicf。

translated by 谷歌翻译

Towards Automatic Model Specialization for Edge Video Analytics

Daniel Rivas , Francesc Guim , Jordà Polo , Pubudu M. Silva , Josep Ll. Berral , David Carrera

分类：计算机视觉 | 机器学习

2021-04-14

通过流行和通用的计算机视觉挑战来判断，如想象成或帕斯卡VOC，神经网络已经证明是在识别任务中特别准确。然而，最先进的准确性通常以高计算价格出现，需要硬件加速来实现实时性能，而使用案例（例如智能城市）需要实时分析固定摄像机的图像。由于网络带宽的数量，这些流将生成，我们不能依赖于卸载计算到集中云。因此，预期分布式边缘云将在本地处理图像。但是，边缘是由性质资源约束的，这给了可以执行的计算复杂性限制。然而，需要边缘与准确的实时视频分析之间的会面点。专用轻量级型号在每相机基础上可能有所帮助，但由于相机的数量增长，除非该过程是自动的，否则它很快就会变得不可行。在本文中，我们展示并评估COVA（上下文优化的视频分析），这是一个框架，可以帮助在边缘相机中自动专用模型专业化。 COVA通过专业化自动提高轻质模型的准确性。此外，我们讨论和审查过程中涉及的每个步骤，以了解每个人所带来的不同权衡。此外，我们展示了静态相机的唯一假设如何使我们能够制定一系列考虑因素，这大大简化了问题的范围。最后，实验表明，最先进的模型，即能够概括到看不见的环境，可以有效地用作教师以以恒定的计算成本提高较小网络的教师，提高精度。结果表明，我们的COVA可以平均提高预先训练的型号的准确性，平均为21％。

translated by 谷歌翻译

Indian Commercial Truck License Plate Detection and Recognition for Weighbridge Automation

Siddharth Agrawal , Keyur D. Joshi

分类：计算机视觉

2022-11-23

Detection and recognition of a licence plate is important when automating weighbridge services. While many large databases are available for Latin and Chinese alphanumeric license plates, data for Indian License Plates is inadequate. In particular, databases of Indian commercial truck license plates are inadequate, despite the fact that commercial vehicle license plate recognition plays a profound role in terms of logistics management and weighbridge automation. Moreover, models to recognise license plates are not effectively able to generalise to such data due to its challenging nature, and due to the abundant frequency of handwritten license plates, leading to the usage of diverse font styles. Thus, a database and effective models to recognise and detect such license plates are crucial. This paper provides a database on commercial truck license plates, and using state-of-the-art models in real-time object Detection: You Only Look Once Version 7, and SceneText Recognition: Permuted Autoregressive Sequence Models, our method outperforms the other cited references where the maximum accuracy obtained was less than 90%, while we have achieved 95.82% accuracy in our algorithm implementation on the presented challenging license plate dataset. Index Terms- Automatic License Plate Recognition, character recognition, license plate detection, vision transformer.

translated by 谷歌翻译

Performance Analysis of YOLO-based Architectures for Vehicle Detection from Traffic Images in Bangladesh

Refaat Mohammad Alamgir , Ali Abir Shuvro , Mueeze Al Mushabbir , Mohammed Ashfaq Raiyan , Nusrat Jahan Rani , Md. Mushfiqur Rahman , Md. Hasanul Kabir , Sabbir Ahmed

分类：计算机视觉

2022-12-18

The task of locating and classifying different types of vehicles has become a vital element in numerous applications of automation and intelligent systems ranging from traffic surveillance to vehicle identification and many more. In recent times, Deep Learning models have been dominating the field of vehicle detection. Yet, Bangladeshi vehicle detection has remained a relatively unexplored area. One of the main goals of vehicle detection is its real-time application, where `You Only Look Once' (YOLO) models have proven to be the most effective architecture. In this work, intending to find the best-suited YOLO architecture for fast and accurate vehicle detection from traffic images in Bangladesh, we have conducted a performance analysis of different variants of the YOLO-based architectures such as YOLOV3, YOLOV5s, and YOLOV5x. The models were trained on a dataset containing 7390 images belonging to 21 types of vehicles comprising samples from the DhakaAI dataset, the Poribohon-BD dataset, and our self-collected images. After thorough quantitative and qualitative analysis, we found the YOLOV5x variant to be the best-suited model, performing better than YOLOv3 and YOLOv5s models respectively by 7 & 4 percent in mAP, and 12 & 8.5 percent in terms of Accuracy.

translated by 谷歌翻译

Sign-to-Speech Model for Sign Language Understanding: A Case Study of Nigerian Sign Language

Steven Kolawole , Opeyemi Osakuade , Nayan Saxena , Babatunde Kazeem Olorisade

分类：计算机视觉

2021-11-01

通过本文，我们寻求减少听力受损社区与较大社会之间的通信障碍，这些社会通常不熟悉非洲撒哈拉地区的手语，在使用尼日利亚时出现最大的听力残疾人案件案例研究。DataSet是尼日利亚语言的先驱数据集，并与相关利益相关者合作创建。我们预处理数据准备进行两种不同的对象检测模型和分类模型，并采用不同的评估度量来衡量标志语言的模型性能，以文本转换任务。最后，我们将预测的符号文本转换为语音，并在实时工作的轻量级应用程序中部署最佳执行模型，并实现令人印象深刻的结果将标志单词/短语转换为文本，然后转换为语音。

translated by 谷歌翻译

DualCam: A Novel Benchmark Dataset for Fine-grained Real-time Traffic Light Detection

Harindu Jayarathne , Tharindu Samarakoon , Hasara Koralege , Asitha Divisekara , Ranga Rodrigo , Peshala Jayasekara

分类：计算机视觉 | 人工智能 | 机器人

2022-09-03

交通灯检测对于自动驾驶汽车在城市地区安全导航至关重要。公开可用的交通灯数据集不足以开发用于检测提供重要导航信息的遥远交通信号灯的算法。我们介绍了一个新颖的基准交通灯数据集，该数据集使用一对涵盖城市和半城市道路的狭窄角度和广角摄像机捕获。我们提供1032张训练图像和813个同步图像对进行测试。此外，我们提供同步视频对进行定性分析。该数据集包括第1920 $ \ times $ 1080的分辨率图像，覆盖10个不同类别。此外，我们提出了一种用于结合两个相机输出的后处理算法。结果表明，与使用单个相机框架的传统方法相比，我们的技术可以在速度和准确性之间取得平衡。

translated by 谷歌翻译

YOLO and Mask R-CNN for Vehicle Number Plate Identification

Siddharth Ganjoo

分类：计算机视觉

2022-07-26

在过去的几年中，车牌扫描仪在停车场的流行增长。为了快速识别车牌，停车场使用的传统板识别设备采用了固定的光和射击角度来源。对于偏斜的角度，例如用超宽角或鱼眼镜镜拍摄的车牌图像，车牌识别板的变形也可能很严重，从而损害了标准车牌识别系统识别板的能力。蒙版RCNN小工具可以用于倾斜图片和各种拍摄角度。实验的结果表明，建议的设计将能够对大于0/60的斜角角度进行分类。使用建议的蒙版R-CNN方法的角色识别也已显着提高。所提出的蒙版R-CNN方法也在字符识别方面取得了重大进展，与采用Yolov2模型的策略相比，该方法的倾斜度超过45度。实验结果还表明，在开放数据板收集中介绍的方法比其他技术（称为AOLP数据集）更好。

translated by 谷歌翻译

SSD: Single Shot MultiBox Detector

Wei Liu , Dragomir Anguelov , Dumitru Erhan , Christian Szegedy , Scott Reed , Cheng-Yang Fu , Alexander C. Berg

分类：

2015-12-08

We present a method for detecting objects in images using a single deep neural network. Our approach, named SSD, discretizes the output space of bounding boxes into a set of default boxes over different aspect ratios and scales per feature map location. At prediction time, the network generates scores for the presence of each object category in each default box and produces adjustments to the box to better match the object shape. Additionally, the network combines predictions from multiple feature maps with different resolutions to naturally handle objects of various sizes. SSD is simple relative to methods that require object proposals because it completely eliminates proposal generation and subsequent pixel or feature resampling stages and encapsulates all computation in a single network. This makes SSD easy to train and straightforward to integrate into systems that require a detection component. Experimental results on the PASCAL VOC, COCO, and ILSVRC datasets confirm that SSD has competitive accuracy to methods that utilize an additional object proposal step and is much faster, while providing a unified framework for both training and inference. For 300 × 300 input, SSD achieves 74.3% mAP 1 on VOC2007 test at 59 FPS on a Nvidia Titan X and for 512 × 512 input, SSD achieves 76.9% mAP, outperforming a comparable state-of-the-art Faster R-CNN model. Compared to other single stage methods, SSD has much better accuracy even with a smaller input image size. Code is available at: https://github.com/weiliu89/caffe/tree/ssd .

translated by 谷歌翻译

GLARE: A Dataset for Traffic Sign Detection in Sun Glare

Nicholas Gray , Megan Moraes , Jiang Bian , Allen Tian , Alex Wang , Haoyi Xiong , Zhishan Guo

分类：计算机视觉 | 机器学习

2022-09-19

实时机器学习检测算法通常在自动驾驶汽车技术中发现，并依赖优质数据集。这些算法在日常条件以及强烈的阳光下都能正常工作。报告表明，眩光是撞车事故最突出的两个最突出的原因之一。但是，现有的数据集，例如LISA和德国交通标志识别基准，根本不反映Sun Glare的存在。本文介绍了眩光交通标志数据集：在阳光下重大视觉干扰下，具有基于美国的交通标志的图像集合。眩光包含2,157张带有阳光眩光的交通标志图像，从33个美国道路录像带中拉出。它为广泛使用的Lisa流量标志数据集提供了必不可少的丰富。我们的实验研究表明，尽管几种最先进的基线方法在没有太阳眩光的情况下对交通符号数据集进行了训练和测试，但在对眩光进行测试时，它们遭受了极大的痛苦（例如，9％至21％的平均图范围为9％至21％。，它明显低于LISA数据集上的性能）。我们还注意到，当对Sun Glare中的交通标志图像进行培训时，当前的架构具有更好的检测准确性（例如，主流算法平均42％的平均地图增益）。

translated by 谷歌翻译