智能论文笔记

YOLO and Mask R-CNN for Vehicle Number Plate Identification

Siddharth Ganjoo

分类：计算机视觉

2022-07-26

在过去的几年中，车牌扫描仪在停车场的流行增长。为了快速识别车牌，停车场使用的传统板识别设备采用了固定的光和射击角度来源。对于偏斜的角度，例如用超宽角或鱼眼镜镜拍摄的车牌图像，车牌识别板的变形也可能很严重，从而损害了标准车牌识别系统识别板的能力。蒙版RCNN小工具可以用于倾斜图片和各种拍摄角度。实验的结果表明，建议的设计将能够对大于0/60的斜角角度进行分类。使用建议的蒙版R-CNN方法的角色识别也已显着提高。所提出的蒙版R-CNN方法也在字符识别方面取得了重大进展，与采用Yolov2模型的策略相比，该方法的倾斜度超过45度。实验结果还表明，在开放数据板收集中介绍的方法比其他技术（称为AOLP数据集）更好。

translated by 谷歌翻译

Towards End-to-end Car License Plate Location and Recognition in Unconstrained Scenarios

Shuxin Qin , Sijiang Liu

分类：计算机视觉 | 人工智能 | 机器学习

2020-08-25

从卷积神经网络的快速发展中受益，汽车牌照检测和识别的性能得到了很大的改善。但是，大多数现有方法分别解决了检测和识别问题，并专注于特定方案，这阻碍了现实世界应用的部署。为了克服这些挑战，我们提出了一个有效而准确的框架，以同时解决车牌检测和识别任务。这是一个轻巧且统一的深神经网络，可以实时优化端到端。具体而言，对于不受约束的场景，采用了无锚方法来有效检测车牌的边界框和四个角，这些框用于提取和纠正目标区域特征。然后，新型的卷积神经网络分支旨在进一步提取角色的特征而不分割。最后，将识别任务视为序列标记问题，这些问题通过连接派时间分类（CTC）解决。选择了几个公共数据集，包括在各种条件下从不同方案中收集的图像进行评估。实验结果表明，所提出的方法在速度和精度上都显着优于先前的最新方法。

translated by 谷歌翻译

Real-time Bangla License Plate Recognition System for Low Resource Video-based Applications

Alif Ashrafee , Akib Mohammed Khan , Mohammad Sabik Irbaz , MD Abdullah Al Nasim

分类：计算机视觉 | 人工智能

2021-08-18

自动许可板识别系统旨在提供从视频帧中出现的车辆检测，本地化和识别车牌字符的解决方案。但是，在现实世界中部署此类系统需要在低资源环境中实时性能。在我们的论文中，我们提出了一种双级检测管线与视觉API配对，提供实时推理速度以及始终如一的准确检测和识别性能。我们使用Haar-Cascade分类器作为骨干MobileNet SSDv2检测模型顶部的过滤器。这仅通过专注于高置信度检测并使用它们来识别来减少推理时间。我们还施加了一个时间帧分离策略，以区分同一夹子中的多个车辆牌照。此外，没有公开的Bangla许可证板数据集，我们创建了一个图像数据集和野外包含许可板的视频数据集。我们在图像数据集上培训了模型，并达到了86％的AP（0.5）得分，并在视频数据集上测试了我们的管道，并观察到合理的检测和识别性能（82.7％的检测率，60.8％OCR F1得分）具有真实 - 时间处理速度（每秒27.2帧）。

translated by 谷歌翻译

An advanced combination of semi-supervised Normalizing Flow & Yolo (YoloNF) to detect and recognize vehicle license plates

Khalid Oublal , Xinyi Dai

分类：计算机视觉 | 人工智能

2022-07-21

由于多个实际应用，全自动车牌识别（ALPR）一直是一个经常研究的主题。但是，在实际情况下，许多当前的解决方案仍然不够强大，通常取决于许多限制。本文提出了一个基于最先进的Yolo对象检测器和标准化流量的强大而有效的ALPR系统。该模型使用两种新策略。首先，使用YOLO的两阶段网络和基于标准化的基于归一化的模型来检测许可板（LP）并识别具有数字和阿拉伯字符的LP。其次，实施了多尺度图像转换，以解决Yolo裁剪LP检测问题的问题，包括明显的背景噪声。此外，在具有现实情况的新数据集中，我们引入了一个更大的公共注释数据集，该数据集从摩洛哥板上收集到了更大的公共注释数据集。我们证明我们提出的模型可以在没有单个或多个字符的少数样品上学习。该数据集还将公开使用，以鼓励对板检测和识别进行进一步的研究和研究。

translated by 谷歌翻译

Indian Licence Plate Dataset in the wild

Sanchit Tanwar , Ayush Tiwari , Ritesh Chowdhry

分类：计算机视觉

2021-11-11

印度车牌检测是一个问题，它在开源级别尚未探讨。可以使用专有解决方案，但没有大的开源数据集可用于执行实验并测试不同的方法。可用的大型数据集是中国，巴西等国家，但在这些数据集上培训的模型对印度板块表现不佳，因为字体样式和板材设计从国家到国家差异很大。这篇论文介绍了印度车牌数据集使用16192图像和21683板板用每个板的4个点注释，并且相应的板中的每个字符.WE呈现了一种使用语义分割来解决数字板检测的基准模型。我们提出了一种两级方法，其中第一阶段是用于本地化板，第二阶段是读取裁剪板图像中的文本.WE测试的基准对象检测和语义分段模型，用于第二阶段，我们使用了LPRNET基于OCR。

translated by 谷歌翻译

Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes

Pengyuan Lyu , Minghui Liao , Cong Yao , Wenhao Wu , Xiang Bai

分类：

2018-07-06

Recently, models based on deep neural networks have dominated the fields of scene text detection and recognition. In this paper, we investigate the problem of scene text spotting, which aims at simultaneous text detection and recognition in natural images. An end-to-end trainable neural network model for scene text spotting is proposed. The proposed model, named as Mask TextSpotter, is inspired by the newly published work Mask R-CNN. Different from previous methods that also accomplish text spotting with end-to-end trainable deep neural networks, Mask TextSpotter takes advantage of simple and smooth end-to-end learning procedure, in which precise text detection and recognition are acquired via semantic segmentation. Moreover, it is superior to previous methods in handling text instances of irregular shapes, for example, curved text. Experiments on ICDAR2013, ICDAR2015 and Total-Text demonstrate that the proposed method achieves state-of-the-art results in both scene text detection and end-to-end text recognition tasks.

translated by 谷歌翻译

Bounding Box-Free Instance Segmentation Using Semi-Supervised Learning for Generating a City-Scale Vehicle Dataset

Osmar Luiz Ferreira de Carvalho , Osmar Abílio de Carvalho Júnior , Anesmar Olino de Albuquerque , Nickolas Castro Santana , Dibio Leandro Borges , Roberto Arnaldo Trancoso Gomes , Renato Fontes Guimarães

分类：计算机视觉 | 人工智能

2021-11-23

车辆分类是一台热电电脑视觉主题，研究从地面查看到顶视图。在遥感中，顶视图的使用允许了解城市模式，车辆集中，交通管理等。但是，在瞄准像素方面的分类时存在一些困难：（a）大多数车辆分类研究使用对象检测方法，并且最公开的数据集设计用于此任务，（b）创建实例分段数据集是费力的，并且（C ）传统的实例分段方法由于对象很小，因此在此任务上执行此任务。因此，本研究目标是：（1）提出使用GIS软件的新型半监督迭代学习方法，（2）提出一种自由盒实例分割方法，（3）提供城市规模的车辆数据集。考虑的迭代学习程序：（1）标记少数车辆，（2）在这些样本上列车，（3）使用模型对整个图像进行分类，（4）将图像预测转换为多边形shapefile，（5 ）纠正有错误的一些区域，并将其包含在培训数据中，（6）重复，直到结果令人满意。为了单独的情况，我们考虑了车辆内部和车辆边界，DL模型是U-Net，具有高效网络B7骨架。当移除边框时，车辆内部变为隔离，允许唯一的对象识别。要恢复已删除的1像素边框，我们提出了一种扩展每个预测的简单方法。结果显示与掩模-RCNN（IOU中67％的82％）相比的更好的像素 - 明智的指标。关于每个对象分析，整体准确性，精度和召回大于90％。该管道适用于任何遥感目标，对分段和生成数据集非常有效。

translated by 谷歌翻译

Orientation Aware Weapons Detection In Visual Data : A Benchmark Dataset

Nazeef Ul Haq , Muhammad Moazam Fraz , Tufail Sajjad Shah Hashmi , Muhammad Shahzad

分类：计算机视觉

2021-12-04

自动检测武器对于改善个人的安全性和福祉是重要的，仍然是由于各种尺寸，武器形状和外观，这是一项艰巨的任务。查看点变化和遮挡也是使这项任务更加困难的原因。此外，目前的物体检测算法处理矩形区域，但是一个细长和长的步枪可以真正地覆盖区域的一部分区域，其余部分可能包含未经紧的细节。为了克服这些问题，我们提出了一种用于定向意识武器检测的CNN架构，其提供具有改进的武器检测性能的面向边界框。所提出的模型不仅通过将角度作为分类问题的角度分成8个类而且提供方向，而是作为回归问题。对于培训我们的武器检测模型，包括总6400件武器图像的新数据集从网上收集，然后用面向定向的边界框手动注释。我们的数据集不仅提供导向的边界框作为地面真相，还提供了水平边界框。我们还以多种现代对象探测器提供我们的数据集，用于在该领域进一步研究。所提出的模型在该数据集上进行评估，并且与搁板对象检测器的比较分析产生了卓越的拟议模型的性能，以标准评估策略测量。数据集和模型实现在此链接上公开可用：https://bit.ly/2tyzicf。

translated by 谷歌翻译

IR-LPR: Large Scale of Iranian License Plate Recognition Dataset

Mahdi Rahmani , Melika Sabaghian , Seyyede Mahila Moghadami , Mohammad Mohsen Talaie , Mahdi Naghibi , Mohammad Ali Keyvanrad

分类：计算机视觉

2022-09-10

对象检测一直是实用的。我们世界上有很多事情，以至于认识到它们不仅可以增加我们对周围环境的自动知识，而且对于有兴趣开展新业务的人来说也可以很有利润。这些有吸引力的物体之一是车牌（LP）。除了可以使用车牌检测的安全用途外，它还可以用于创建创意业务。随着基于深度学习模型的对象检测方法的开发，适当且全面的数据集变得双重重要。但是，由于频繁使用车牌数据集的商业使用，不仅在伊朗而且在世界范围内也有限。用于检测车牌的最大伊朗数据集具有1,466张图像。此外，识别车牌角色的最大伊朗数据集具有5,000张图像。我们已经准备了一个完整的数据集，其中包括20,967辆汽车图像，以及对整个车牌及其字符的所有检测注释，这对于各种目的都是有用的。此外，字符识别应用程序的车牌图像总数为27,745张图像。

translated by 谷歌翻译

Recognizing License Plates in Real-Time

Michael Yang , Xin Wang

分类：计算机视觉

2019-06-11

车牌检测和认可（LPDR）对于实现智能运输并确保城市的安全性和安全性越来越重要。但是，LPDR在实用环境中面临巨大的挑战。车牌的尺寸，字体和颜色可能非常多样化，板图像通常是由于倾斜的捕获角度，不均匀的照明，遮挡和模糊而引起的质量差。在诸如监视之类的应用中，通常需要快速处理。为了实现实时和准确的车牌识别，在这项工作中，我们提出了一组技术：1）一种轮廓重建方法以及边缘检测，以快速检测候选板； 2）一种简单的零偏置方案，可有效删除板周围的假上和底部边界，以方便更准确地对板上的字符进行分割； 3）一组技术来增强培训数据，将SIFT功能纳入CNN网络，并利用转移学习以获得更有效的培训的初始参数； 4）一个两阶段验证程序，以低成本确定正确的板，在板检测阶段进行统计过滤，以快速去除不需要的候选者，以及在CR过程后的准确CR结果，以执行进一步的板验证而无需进行其他处理。我们根据算法实现完整的LPDR系统。实验结果表明，我们的系统可以实时准确识别车牌。此外，它在各个级别的照明和噪声下以及在有汽车运动的情况下稳健地工作。与同行方案相比，我们的系统不仅属于最准确的系统，而且也是最快的系统，并且可以轻松地应用于其他情况。

translated by 谷歌翻译

Traffic-Net: 3D Traffic Monitoring Using a Single Camera

Mahdi Rezaei , Mohsen Azarmi , Farzam Mohammad Pour Mir

分类：计算机视觉 | 人工智能 | 机器学习

2021-09-19

计算机视觉在智能运输系统（ITS）和交通监视中发挥了重要作用。除了快速增长的自动化车辆和拥挤的城市外，通过实施深层神经网络的实施，可以使用视频监视基础架构进行自动和高级交通管理系统（ATM）。在这项研究中，我们为实时交通监控提供了一个实用的平台，包括3D车辆/行人检测，速度检测，轨迹估算，拥塞检测以及监视车辆和行人的相互作用，都使用单个CCTV交通摄像头。我们适应了定制的Yolov5深神经网络模型，用于车辆/行人检测和增强的排序跟踪算法。还开发了基于混合卫星的基于混合卫星的逆透视图（SG-IPM）方法，用于摄像机自动校准，从而导致准确的3D对象检测和可视化。我们还根据短期和长期的时间视频数据流开发了层次结构的交通建模解决方案，以了解脆弱道路使用者的交通流量，瓶颈和危险景点。关于现实世界情景和与最先进的比较的几项实验是使用各种交通监控数据集进行的，包括从高速公路，交叉路口和城市地区收集的MIO-TCD，UA-DETRAC和GRAM-RTM，在不同的照明和城市地区天气状况。

translated by 谷歌翻译

Vision-Based Environmental Perception for Autonomous Driving

Fei Liu , Zihao Lu , Xianke Lin

分类：计算机视觉

2022-12-22

Visual perception plays an important role in autonomous driving. One of the primary tasks is object detection and identification. Since the vision sensor is rich in color and texture information, it can quickly and accurately identify various road information. The commonly used technique is based on extracting and calculating various features of the image. The recent development of deep learning-based method has better reliability and processing speed and has a greater advantage in recognizing complex elements. For depth estimation, vision sensor is also used for ranging due to their small size and low cost. Monocular camera uses image data from a single viewpoint as input to estimate object depth. In contrast, stereo vision is based on parallax and matching feature points of different views, and the application of deep learning also further improves the accuracy. In addition, Simultaneous Location and Mapping (SLAM) can establish a model of the road environment, thus helping the vehicle perceive the surrounding environment and complete the tasks. In this paper, we introduce and compare various methods of object detection and identification, then explain the development of depth estimation and compare various methods based on monocular, stereo, and RDBG sensors, next review and compare various methods of SLAM, and finally summarize the current problems and present the future development trends of vision technologies.

translated by 谷歌翻译

Automatic counting of mounds on UAV images: combining instance segmentation and patch-level correction

Majid Nikougoftar Nategh , Ahmed Zgaren , Wassim Bouachir , Nizar Bouguila

分类：计算机视觉

2022-09-06

通过丘陵形成的现场制备是一种常用的造林治疗，通过机械地创建称为丘的植物植物物质来改善树木生长条件。在现场准备之后，下一个关键步骤是计算土墩的数量，该堆积的数量为森林经理提供了对给定种植园块所需的幼苗数量的精确估计。计算土墩数量通常是通过林业工人的手动现场调查来进行的，林业工人昂贵且容易出错，尤其是在大面积地区。为了解决这个问题，我们提出了一个新颖的框架，利用无人机成像和计算机视觉的进步，以准确估计种植块上的土墩数量。提出的框架包括两个主要组件。首先，我们利用基于深度学习算法的视觉识别方法来通过基于像素的分割来进行多个对象检测。这使得可见的土墩以及其他经常看到的物体（例如树木，碎屑，水的积累）的初步计数可用于表征种植块。其次，由于视觉识别可能会受到几个扰动因子（例如丘陵侵蚀，遮挡）的限制，因此我们采用机器学习估计功能，该功能可预测基于第一阶段提取的局部块属性的最终数量。我们在新的无人机数据集上评估了所提出的框架，该数据集代表具有不同功能的众多种植块。所提出的方法在相对计数精度方面优于手动计数方法，表明它在困难情况下具有有利和有效的潜力。

translated by 谷歌翻译

OCR-RTPS: An OCR-based real-time positioning system for the valet parking

Zizhang Wu , Xinyuan Chen , Jizheng Wang , Xiaoquan Wang , Yuanzhu Gan , Muqing Fang , Tianhao Xu

分类：计算机视觉 | 机器人

2022-12-08

Obtaining the position of ego-vehicle is a crucial prerequisite for automatic control and path planning in the field of autonomous driving. Most existing positioning systems rely on GPS, RTK, or wireless signals, which are arduous to provide effective localization under weak signal conditions. This paper proposes a real-time positioning system based on the detection of the parking numbers as they are unique positioning marks in the parking lot scene. It does not only can help with the positioning with open area, but also run independently under isolation environment. The result tested on both public datasets and self-collected dataset show that the system outperforms others in both performances and applies in practice. In addition, the code and dataset will release later.

translated by 谷歌翻译

Automatic Signboard Detection and Localization in Densely Populated Developing Cities

Md. Sadrul Islam Toaha , Sakib Bin Asad , Chowdhury Rafeed Rahman , S. M. Shahriar Haque , Mahfuz Ara Proma , Md. Ahsan Habib Shuvo , Tashin Ahmed , Md. Amimul Basher

分类：计算机视觉

2020-03-04

由于缺乏自动注释系统，大多数发展城市的城市机构都是数字未标记的。因此，在此类城市中，位置和轨迹服务（例如Google Maps，Uber等）仍然不足。自然场景图像中的准确招牌检测是从此类城市街道检索无错误的信息的最重要任务。然而，开发准确的招牌本地化系统仍然是尚未解决的挑战，因为它的外观包括文本图像和令人困惑的背景。我们提出了一种新型的对象检测方法，该方法可以自动检测招牌，适合此类城市。我们通过合并两种专业预处理方法和一种运行时效高参数值选择算法来使用更快的基于R-CNN的定位。我们采用了一种增量方法，通过使用我们构造的SVSO（Street View Signboard对象）签名板数据集，通过详细评估和与基线进行比较，以达到最终提出的方法，这些方法包含六个发展中国家的自然场景图像。我们在SVSO数据集和Open Image数据集上展示了我们提出的方法的最新性能。我们提出的方法可以准确地检测招牌（即使图像包含多种形状和颜色的多种嘈杂背景的招牌）在SVSO独立测试集上达到0.90 MAP（平均平均精度）得分。我们的实施可在以下网址获得：https：//github.com/sadrultoaha/signboard-detection

translated by 谷歌翻译

Object Detection with Deep Learning: A Review

Zhong-Qiu Zhao , Peng Zheng , Shou-tao Xu , Xindong Wu

分类：

2018-07-15

Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.

translated by 谷歌翻译

A DCNN-based Arbitrarily-Oriented Object Detector for Quality Control and Inspection Application

Kai Yao , Alberto Ortiz , Francisco Bonnin-Pascual

分类：计算机视觉

2021-01-19

遵循机器视觉系统在线自动化质量控制和检查过程的成功之后，这项工作中为两个不同的特定应用提供了一种对象识别解决方案，即，在医院准备在医院进行消毒的手术工具箱中检测质量控制项目，以及检测血管船体中的缺陷，以防止潜在的结构故障。该解决方案有两个阶段。首先，基于单镜头多伯克斯检测器（SSD）的特征金字塔体系结构用于改善检测性能，并采用基于地面真实的统计分析来选择一系列默认框的参数。其次，利用轻量级神经网络使用回归方法来实现定向检测结果。该方法的第一阶段能够检测两种情况下考虑的小目标。在第二阶段，尽管很简单，但在保持较高的运行效率的同时，检测细长目标是有效的。

translated by 谷歌翻译

Mask r-cnn

分类：

We present a conceptually simple, flexible, and general framework for object instance segmentation. Our approach efficiently detects objects in an image while simultaneously generating a high-quality segmentation mask for each instance. The method, called Mask R-CNN, extends Faster R-CNN by adding a branch for predicting an object mask in parallel with the existing branch for bounding box recognition. Mask R-CNN is simple to train and adds only a small overhead to Faster R-CNN, running at 5 fps. Moreover, Mask R-CNN is easy to generalize to other tasks, e.g., allowing us to estimate human poses in the same framework. We show top results in all three tracks of the COCO suite of challenges, including instance segmentation, bounding-box object detection, and person keypoint detection. Without tricks, Mask R-CNN outperforms all existing, single-model entries on every task, including the COCO 2016 challenge winners. We hope our simple and effective approach will serve as a solid baseline and help ease future research in instance-level recognition. Code will be made available.

translated by 谷歌翻译

Real-time smart vehicle surveillance system

Shantha Kumar S , Vykunth P , Jayanthi D

分类：计算机视觉

2021-11-24

在过去十年中，全球各地的犯罪活动飙升。据印度警察局介绍，车辆盗窃是最不解决的犯罪之一，近19％的录制案件涉及机动车盗窃。为了克服这些对手，我们提出了一个实时车辆监控系统，它使用CCTV视频饲料检测和跟踪可疑车辆。所提出的系统提取车辆的各种属性，例如制作，模型，颜色，牌照号码和牌照的类型。采用各种图像处理和深度学习算法来满足所提出的系统的目标。提取的特征可用作报告违法行为的证据。虽然系统使用更多参数，但它仍然能够以最小的延迟和精度丢失进行实时预测。

translated by 谷歌翻译

An Efficient Target Detection and Recognition Method in Aerial Remote-sensing Images Based on Multiangle Regions-of-Interest

Guangcun Shan , Hongyu Wang , Wei Liang , Congcong Liu , Qizi Ma , Quan Quan

分类：计算机视觉 | 神经与进化计算

2019-07-22

最近，深度学习技术已被广泛用于图像识别领域。但是，其主要应用是对普通图片和常见场景的识别和检测。有效，有效地分析图像采集系统在无人机（UAVS）上获得的遥感图像（UAVS）的遥感图像是一项挑战，其中包括确定目标和其位置的计算。与普通图像或图像相比，空中遥感图像具有不同的拍摄角度和方法，这使得遥感图像在某些区域起着不可替代的作用。在这项研究中，提出了一种新的目标检测和识别方法，该方法是基于深度卷积神经网络（CNN）提出的，用于提供图像的多层次信息，并结合用于生成多式区域的区域建议网络。兴趣。所提出的方法产生的结果比传统方式获得的结果要准确和精确得多。这表明本文提出的模型在遥感图像识别中显示出巨大的适用性潜力。

translated by 谷歌翻译