自动许可板识别系统旨在提供从视频帧中出现的车辆检测,本地化和识别车牌字符的解决方案。但是,在现实世界中部署此类系统需要在低资源环境中实时性能。在我们的论文中,我们提出了一种双级检测管线与视觉API配对,提供实时推理速度以及始终如一的准确检测和识别性能。我们使用Haar-Cascade分类器作为骨干MobileNet SSDv2检测模型顶部的过滤器。这仅通过专注于高置信度检测并使用它们来识别来减少推理时间。我们还施加了一个时间帧分离策略,以区分同一夹子中的多个车辆牌照。此外,没有公开的Bangla许可证板数据集,我们创建了一个图像数据集和野外包含许可板的视频数据集。我们在图像数据集上培训了模型,并达到了86%的AP(0.5)得分,并在视频数据集上测试了我们的管道,并观察到合理的检测和识别性能(82.7%的检测率,60.8%OCR F1得分)具有真实 - 时间处理速度(每秒27.2帧)。
translated by 谷歌翻译
由于多个实际应用,全自动车牌识别(ALPR)一直是一个经常研究的主题。但是,在实际情况下,许多当前的解决方案仍然不够强大,通常取决于许多限制。本文提出了一个基于最先进的Yolo对象检测器和标准化流量的强大而有效的ALPR系统。该模型使用两种新策略。首先,使用YOLO的两阶段网络和基于标准化的基于归一化的模型来检测许可板(LP)并识别具有数字和阿拉伯字符的LP。其次,实施了多尺度图像转换,以解决Yolo裁剪LP检测问题的问题,包括明显的背景噪声。此外,在具有现实情况的新数据集中,我们引入了一个更大的公共注释数据集,该数据集从摩洛哥板上收集到了更大的公共注释数据集。我们证明我们提出的模型可以在没有单个或多个字符的少数样品上学习。该数据集还将公开使用,以鼓励对板检测和识别进行进一步的研究和研究。
translated by 谷歌翻译
印度车牌检测是一个问题,它在开源级别尚未探讨。可以使用专有解决方案,但没有大的开源数据集可用于执行实验并测试不同的方法。可用的大型数据集是中国,巴西等国家,但在这些数据集上培训的模型对印度板块表现不佳,因为字体样式和板材设计从国家到国家差异很大。这篇论文介绍了印度车牌数据集使用16192图像和21683板板用每个板的4个点注释,并且相应的板中的每个字符.WE呈现了一种使用语义分割来解决数字板检测的基准模型。我们提出了一种两级方法,其中第一阶段是用于本地化板,第二阶段是读取裁剪板图像中的文本.WE测试的基准对象检测和语义分段模型,用于第二阶段,我们使用了LPRNET基于OCR。
translated by 谷歌翻译
通过流行和通用的计算机视觉挑战来判断,如想象成或帕斯卡VOC,神经网络已经证明是在识别任务中特别准确。然而,最先进的准确性通常以高计算价格出现,需要硬件加速来实现实时性能,而使用案例(例如智能城市)需要实时分析固定摄像机的图像。由于网络带宽的数量,这些流将生成,我们不能依赖于卸载计算到集中云。因此,预期分布式边缘云将在本地处理图像。但是,边缘是由性质资源约束的,这给了可以执行的计算复杂性限制。然而,需要边缘与准确的实时视频分析之间的会面点。专用轻量级型号在每相机基础上可能有所帮助,但由于相机的数量增长,除非该过程是自动的,否则它很快就会变得不可行。在本文中,我们展示并评估COVA(上下文优化的视频分析),这是一个框架,可以帮助在边缘相机中自动专用模型专业化。 COVA通过专业化自动提高轻质模型的准确性。此外,我们讨论和审查过程中涉及的每个步骤,以了解每个人所带来的不同权衡。此外,我们展示了静态相机的唯一假设如何使我们能够制定一系列考虑因素,这大大简化了问题的范围。最后,实验表明,最先进的模型,即能够概括到看不见的环境,可以有效地用作教师以以恒定的计算成本提高较小网络的教师,提高精度。结果表明,我们的COVA可以平均提高预先训练的型号的准确性,平均为21%。
translated by 谷歌翻译
从卷积神经网络的快速发展中受益,汽车牌照检测和识别的性能得到了很大的改善。但是,大多数现有方法分别解决了检测和识别问题,并专注于特定方案,这阻碍了现实世界应用的部署。为了克服这些挑战,我们提出了一个有效而准确的框架,以同时解决车牌检测和识别任务。这是一个轻巧且统一的深神经网络,可以实时优化端到端。具体而言,对于不受约束的场景,采用了无锚方法来有效检测车牌的边界框和四个角,这些框用于提取和纠正目标区域特征。然后,新型的卷积神经网络分支旨在进一步提取角色的特征而不分割。最后,将识别任务视为序列标记问题,这些问题通过连接派时间分类(CTC)解决。选择了几个公共数据集,包括在各种条件下从不同方案中收集的图像进行评估。实验结果表明,所提出的方法在速度和精度上都显着优于先前的最新方法。
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
在过去的几年中,车牌扫描仪在停车场的流行增长。为了快速识别车牌,停车场使用的传统板识别设备采用了固定的光和射击角度来源。对于偏斜的角度,例如用超宽角或鱼眼镜镜拍摄的车牌图像,车牌识别板的变形也可能很严重,从而损害了标准车牌识别系统识别板的能力。蒙版RCNN小工具可以用于倾斜图片和各种拍摄角度。实验的结果表明,建议的设计将能够对大于0/60的斜角角度进行分类。使用建议的蒙版R-CNN方法的角色识别也已显着提高。所提出的蒙版R-CNN方法也在字符识别方面取得了重大进展,与采用Yolov2模型的策略相比,该方法的倾斜度超过45度。实验结果还表明,在开放数据板收集中介绍的方法比其他技术(称为AOLP数据集)更好。
translated by 谷歌翻译
Detection and recognition of a licence plate is important when automating weighbridge services. While many large databases are available for Latin and Chinese alphanumeric license plates, data for Indian License Plates is inadequate. In particular, databases of Indian commercial truck license plates are inadequate, despite the fact that commercial vehicle license plate recognition plays a profound role in terms of logistics management and weighbridge automation. Moreover, models to recognise license plates are not effectively able to generalise to such data due to its challenging nature, and due to the abundant frequency of handwritten license plates, leading to the usage of diverse font styles. Thus, a database and effective models to recognise and detect such license plates are crucial. This paper provides a database on commercial truck license plates, and using state-of-the-art models in real-time object Detection: You Only Look Once Version 7, and SceneText Recognition: Permuted Autoregressive Sequence Models, our method outperforms the other cited references where the maximum accuracy obtained was less than 90%, while we have achieved 95.82% accuracy in our algorithm implementation on the presented challenging license plate dataset. Index Terms- Automatic License Plate Recognition, character recognition, license plate detection, vision transformer.
translated by 谷歌翻译
在过去十年中,全球各地的犯罪活动飙升。据印度警察局介绍,车辆盗窃是最不解决的犯罪之一,近19%的录制案件涉及机动车盗窃。为了克服这些对手,我们提出了一个实时车辆监控系统,它使用CCTV视频饲料检测和跟踪可疑车辆。所提出的系统提取车辆的各种属性,例如制作,模型,颜色,牌照号码和牌照的类型。采用各种图像处理和深度学习算法来满足所提出的系统的目标。提取的特征可用作报告违法行为的证据。虽然系统使用更多参数,但它仍然能够以最小的延迟和精度丢失进行实时预测。
translated by 谷歌翻译
最近的多目标跟踪(MOT)系统利用高精度的对象探测器;然而,培训这种探测器需要大量标记的数据。虽然这种数据广泛适用于人类和车辆,但其他动物物种显着稀缺。我们目前稳健的置信跟踪(RCT),一种算法,旨在保持鲁棒性能,即使检测质量差。与丢弃检测置信信息的先前方法相比,RCT采用基本上不同的方法,依赖于精确的检测置信度值来初始化曲目,扩展轨道和滤波器轨道。特别地,RCT能够通过有效地使用低置信度检测(以及单个物体跟踪器)来最小化身份切换,以保持对象的连续轨道。为了评估在存在不可靠的检测中的跟踪器,我们提出了一个挑战的现实世界水下鱼跟踪数据集,Fishtrac。在对FISHTRAC以及UA-DETRAC数据集的评估中,我们发现RCT在提供不完美的检测时优于其他算法,包括最先进的深单和多目标跟踪器以及更经典的方法。具体而言,RCT具有跨越方法的最佳平均热量,可以成功返回所有序列的结果,并且具有比其他方法更少的身份交换机。
translated by 谷歌翻译
由于深度学习的进步和数据集的增加,自动许可证板识别(ALPR)系统对来自多个区域的牌照(LPS)的表现显着。对深度ALPR系统的评估通常在每个数据集内完成;因此,如果这种结果是泛化能力的可靠指标,则是可疑的。在本文中,我们提出了一种传统分配的与休假 - 单数据集实验设置,以统一地评估12个光学字符识别(OCR)模型的交叉数据集泛化,其在九个公共数据集上应用于LP识别,具有良好的品种在若干方面(例如,获取设置,图像分辨率和LP布局)。我们还介绍了一个用于端到端ALPR的公共数据集,这是第一个包含带有Mercosur LP的车辆的图像和摩托车图像数量最多的图像。实验结果揭示了传统分离协议的局限性,用于评估ALPR上下文中的方法,因为在训练和测试休假时,大多数数据集在大多数数据集中的性能显着下降。
translated by 谷歌翻译
视频中的自动烟熏车辆检测是用于传统昂贵的遥感遥控器,其中具有紫外线的紫外线设备,用于环境保护机构。但是,将车辆烟雾与后车辆或混乱道路的阴影和湿区域区分开来是一项挑战,并且由于注释数据有限,可能会更糟。在本文中,我们首先引入了一个现实世界中的大型烟熏车数据集,其中有75,000个带注释的烟熏车像图像,从而有助于对先进的深度学习模型进行有效的培训。为了启用公平算法比较,我们还构建了一个烟熏车视频数据集,其中包括163个带有细分级注释的长视频。此外,我们提出了一个新的粗到烟熏车辆检测(代码)框架,以进行有效的烟熏车辆检测。这些代码首先利用轻质的Yolo检测器以高召回率进行快速烟雾检测,然后采用烟极车匹配策略来消除非车辆烟雾,并最终使用精心设计的3D模型进一步完善结果,以进一步完善结果。空间时间空间。四个指标的广泛实验表明,我们的框架比基于手工的特征方法和最新的高级方法要优越。代码和数据集将在https://github.com/pengxj/smokyvehicle上发布。
translated by 谷歌翻译
车牌检测和认可(LPDR)对于实现智能运输并确保城市的安全性和安全性越来越重要。但是,LPDR在实用环境中面临巨大的挑战。车牌的尺寸,字体和颜色可能非常多样化,板图像通常是由于倾斜的捕获角度,不均匀的照明,遮挡和模糊而引起的质量差。在诸如监视之类的应用中,通常需要快速处理。为了实现实时和准确的车牌识别,在这项工作中,我们提出了一组技术:1)一种轮廓重建方法以及边缘检测,以快速检测候选板; 2)一种简单的零偏置方案,可有效删除板周围的假上和底部边界,以方便更准确地对板上的字符进行分割; 3)一组技术来增强培训数据,将SIFT功能纳入CNN网络,并利用转移学习以获得更有效的培训的初始参数; 4)一个两阶段验证程序,以低成本确定正确的板,在板检测阶段进行统计过滤,以快速去除不需要的候选者,以及在CR过程后的准确CR结果,以执行进一步的板验证而无需进行其他处理。我们根据算法实现完整的LPDR系统。实验结果表明,我们的系统可以实时准确识别车牌。此外,它在各个级别的照明和噪声下以及在有汽车运动的情况下稳健地工作。与同行方案相比,我们的系统不仅属于最准确的系统,而且也是最快的系统,并且可以轻松地应用于其他情况。
translated by 谷歌翻译
技术的改进与时间和时间相关的问题线性相关。已经看到,随着时间的推移,人类面临的问题数量也会增加。然而,解决这些问题的技术也往往会改善。最早的现有问题之一开始于车辆的发明内容是停车位。多年来,使用技术的易于解决这个问题已经发展,但停车问题仍然仍未解决。这背后的主要原因是停车不仅涉及一个问题,而且它包括一系列问题。其中一个问题是分布式停车生态系统中停车槽的占用检测。在分布式系统中,用户将找到优选的停车位,而不是随机停车位。在本文中,我们将基于Web的应用提出了一种用于在不同停车位停车空间检测的解决方案。该解决方案基于计算机视觉(CV),并使用Python 3.0中编写的Django框架构建。解决方案用于解决占用检测问题以及提供用户基于可用性和偏好确定块的选项。我们提出的系统的评估结果是有前途和有效的。所提出的系统也可以与不同的系统集成,并用于解决其他相关停车问题。
translated by 谷歌翻译
自动检测飞行无人机是一个关键问题,其存在(特别是未经授权)可以造成风险的情况或损害安全性。在这里,我们设计和评估了多传感器无人机检测系统。结合常见的摄像机和麦克风传感器,我们探索了热红外摄像机的使用,指出是一种可行且有希望的解决方案,在相关文献中几乎没有解决。我们的解决方案还集成了鱼眼相机,以监视天空的更大部分,并将其他摄像机转向感兴趣的对象。传感溶液与ADS-B接收器,GPS接收器和雷达模块相辅相成,尽管由于其有限的检测范围,后者未包含在我们的最终部署中。即使此处使用的摄像机的分辨率较低,热摄像机也被证明是与摄像机一样好的可行解决方案。我们作品的另外两个新颖性是创建一个新的公共数据集的多传感器注释数据,该数据与现有的类别相比扩大了类的数量,以及对探测器性能的研究作为传感器到传感器的函数的研究目标距离。还探索了传感器融合,表明可以以这种方式使系统更强大,从而减轻对单个传感器的虚假检测
translated by 谷歌翻译
宽阔的区域运动图像(瓦米)产生具有大量极小物体的高分辨率图像。目标物体在连续帧中具有大的空间位移。令人讨厌的图像的这种性质使对象跟踪和检测具有挑战性。在本文中,我们介绍了我们基于深度神经网络的组合对象检测和跟踪模型,即热图网络(HM-Net)。 HM-Net明显快于最先进的帧差异和基于背景减法的方法,而不会影响检测和跟踪性能。 HM-Net遵循基于对象的联合检测和跟踪范式。简单的热图的预测支持无限数量的同时检测。所提出的方法使用来自前一帧的两个连续帧和物体检测热图作为输入,这有助于帧之间的HM-Net监视器时空变化并跟踪先前预测的对象。尽管重复使用先前的物体检测热图作为基于生命的反馈的存储器元件,但它可能导致假阳性检测的意外浪涌。为了增加对误报和消除低置信度检测的方法的稳健性,HM-Net采用新的反馈滤波器和高级数据增强。 HM-Net优于最先进的WAMI移动对象检测和跟踪WPAFB数据集的跟踪方法,其96.2%F1和94.4%地图检测分数,同时在同一数据集上实现61.8%的地图跟踪分数。这种性能对应于F1,6.1%的地图分数的增长率为2.1%,而在追踪最先进的地图分数的地图分数为9.5%。
translated by 谷歌翻译
对人类对象相互作用的理解在第一人称愿景(FPV)中至关重要。遵循相机佩戴者操纵的对象的视觉跟踪算法可以提供有效的信息,以有效地建模此类相互作用。在过去的几年中,计算机视觉社区已大大提高了各种目标对象和场景的跟踪算法的性能。尽管以前有几次尝试在FPV域中利用跟踪器,但仍缺少对最先进跟踪器的性能的有条理分析。这项研究差距提出了一个问题,即应使用当前的解决方案``现成''还是应进行更多特定领域的研究。本文旨在为此类问题提供答案。我们介绍了FPV中单个对象跟踪的首次系统研究。我们的研究广泛分析了42个算法的性能,包括通用对象跟踪器和基线FPV特定跟踪器。分析是通过关注FPV设置的不同方面,引入新的绩效指标以及与FPV特定任务有关的。这项研究是通过引入Trek-150(由150个密集注释的视频序列组成的新型基准数据集)来实现的。我们的结果表明,FPV中的对象跟踪对当前的视觉跟踪器构成了新的挑战。我们强调了导致这种行为的因素,并指出了可能的研究方向。尽管遇到了困难,但我们证明了跟踪器为需要短期对象跟踪的FPV下游任务带来好处。我们预计,随着新的和FPV特定的方法学会得到研究,通用对象跟踪将在FPV中受欢迎。
translated by 谷歌翻译
Furigana是日语写作中使用的发音笔记。能够检测到这些可以帮助提高光学特征识别(OCR)性能,或通过正确显示Furigana来制作日本书面媒体的更准确的数字副本。该项目的重点是在日本书籍和漫画中检测Furigana。尽管已经研究了日本文本的检测,但目前尚无提议检测Furigana的方法。我们构建了一个包含日本书面媒体和Furigana注释的新数据集。我们建议对此类数据的评估度量,该度量与对象检测中使用的评估协议类似,除非它允许对象组通过一个注释标记。我们提出了一种基于数学形态和连接组件分析的Furigana检测方法。我们评估数据集的检测,并比较文本提取的不同方法。我们还分别评估了不同类型的图像,例如书籍和漫画,并讨论每种图像的挑战。所提出的方法在数据集上达到76 \%的F1得分。该方法在常规书籍上表现良好,但在漫画和不规则格式的书籍上的表现较少。最后,我们证明所提出的方法可以在漫画109数据集上提高OCR的性能5 \%。源代码可通过\ texttt {\ url {https://github.com/nikolajkb/furiganadetection}}}
translated by 谷歌翻译
近年来,多个对象跟踪引起了研究人员的极大兴趣,它已成为计算机视觉中的趋势问题之一,尤其是随着自动驾驶的最新发展。 MOT是针对不同问题的关键视觉任务之一,例如拥挤的场景中的闭塞,相似的外观,小物体检测难度,ID切换等,以应对这些挑战,因为研究人员试图利用变压器的注意力机制,与田径的相互关系,与田径的相互关系,图形卷积神经网络,与暹罗网络不同帧中对象的外观相似性,他们还尝试了基于IOU匹配的CNN网络,使用LSTM的运动预测。为了将这些零散的技术在雨伞下采用,我们研究了过去三年发表的一百多篇论文,并试图提取近代研究人员更关注的技术来解决MOT的问题。我们已经征集了许多应用,可能性以及MOT如何与现实生活有关。我们的评论试图展示研究人员使用过时的技术的不同观点,并为潜在的研究人员提供了一些未来的方向。此外,我们在这篇评论中包括了流行的基准数据集和指标。
translated by 谷歌翻译