由于深度学习的进步和数据集的增加,自动许可证板识别(ALPR)系统对来自多个区域的牌照(LPS)的表现显着。对深度ALPR系统的评估通常在每个数据集内完成;因此,如果这种结果是泛化能力的可靠指标,则是可疑的。在本文中,我们提出了一种传统分配的与休假 - 单数据集实验设置,以统一地评估12个光学字符识别(OCR)模型的交叉数据集泛化,其在九个公共数据集上应用于LP识别,具有良好的品种在若干方面(例如,获取设置,图像分辨率和LP布局)。我们还介绍了一个用于端到端ALPR的公共数据集,这是第一个包含带有Mercosur LP的车辆的图像和摩托车图像数量最多的图像。实验结果揭示了传统分离协议的局限性,用于评估ALPR上下文中的方法,因为在训练和测试休假时,大多数数据集在大多数数据集中的性能显着下降。
translated by 谷歌翻译
公共数据集在推进车牌识别(LPR)的最新技术方面发挥了关键作用。尽管数据集偏见在计算机视觉社区中被认为是一个严重的问题,但在LPR文献中很大程度上忽略了它。 LPR模型通常在每个数据集上进行训练和评估。在这种情况下,他们经常在接受培训的数据集中证明了强大的证明,但在看不见的数据集中表现出有限的性能。因此,这项工作研究了LPR上下文中的数据集偏差问题。我们在八个数据集上进行了实验,在巴西收集了四个,在中国大陆进行了实验,并观察到每个数据集都有一个独特的,可识别的“签名”,因为轻量级分类模型预测了车牌(LP)图像的源数据集,其图像的源95%的精度。在我们的讨论中,我们提请人们注意以下事实:大多数LPR模型可能正在利用此类签名,以以失去概括能力为代价,以改善每个数据集中的结果。这些结果强调了评估跨数据库设置中LPR模型的重要性,因为它们提供了比数据库内部的更好的概括(因此实际性能)。
translated by 谷歌翻译
更换具有智能电表的模拟仪表昂贵,艰巨,远非完全在发展中国家。ParaNa(Copel)(巴西)的能源公司每月执行超过400万米的读数(几乎完全是非智能设备),我们估计其中850万人来自拨号米。因此,基于图像的自动读取系统可以减少人类错误,创建读取证明,并使客户能够通过移动应用程序执行读取本身。我们提出了用于自动拨号抄表(ADMR)的新方法,并在不约束场景中引入ADMR的新数据集,称为UFPR-ADMR-V2。我们的最佳方法将YOLOV4与新的回归方法(ANGREG)结合起来,探讨了几种后处理技术。与以前的作品相比,它降低了1,343至129的平均绝对误差(MAE),并实现了98.90%的仪表识别率(MRR) - 误差容差为1千瓦时(千瓦时)。
translated by 谷歌翻译
从卷积神经网络的快速发展中受益,汽车牌照检测和识别的性能得到了很大的改善。但是,大多数现有方法分别解决了检测和识别问题,并专注于特定方案,这阻碍了现实世界应用的部署。为了克服这些挑战,我们提出了一个有效而准确的框架,以同时解决车牌检测和识别任务。这是一个轻巧且统一的深神经网络,可以实时优化端到端。具体而言,对于不受约束的场景,采用了无锚方法来有效检测车牌的边界框和四个角,这些框用于提取和纠正目标区域特征。然后,新型的卷积神经网络分支旨在进一步提取角色的特征而不分割。最后,将识别任务视为序列标记问题,这些问题通过连接派时间分类(CTC)解决。选择了几个公共数据集,包括在各种条件下从不同方案中收集的图像进行评估。实验结果表明,所提出的方法在速度和精度上都显着优于先前的最新方法。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
由于多个实际应用,全自动车牌识别(ALPR)一直是一个经常研究的主题。但是,在实际情况下,许多当前的解决方案仍然不够强大,通常取决于许多限制。本文提出了一个基于最先进的Yolo对象检测器和标准化流量的强大而有效的ALPR系统。该模型使用两种新策略。首先,使用YOLO的两阶段网络和基于标准化的基于归一化的模型来检测许可板(LP)并识别具有数字和阿拉伯字符的LP。其次,实施了多尺度图像转换,以解决Yolo裁剪LP检测问题的问题,包括明显的背景噪声。此外,在具有现实情况的新数据集中,我们引入了一个更大的公共注释数据集,该数据集从摩洛哥板上收集到了更大的公共注释数据集。我们证明我们提出的模型可以在没有单个或多个字符的少数样品上学习。该数据集还将公开使用,以鼓励对板检测和识别进行进一步的研究和研究。
translated by 谷歌翻译
自动许可板识别系统旨在提供从视频帧中出现的车辆检测,本地化和识别车牌字符的解决方案。但是,在现实世界中部署此类系统需要在低资源环境中实时性能。在我们的论文中,我们提出了一种双级检测管线与视觉API配对,提供实时推理速度以及始终如一的准确检测和识别性能。我们使用Haar-Cascade分类器作为骨干MobileNet SSDv2检测模型顶部的过滤器。这仅通过专注于高置信度检测并使用它们来识别来减少推理时间。我们还施加了一个时间帧分离策略,以区分同一夹子中的多个车辆牌照。此外,没有公开的Bangla许可证板数据集,我们创建了一个图像数据集和野外包含许可板的视频数据集。我们在图像数据集上培训了模型,并达到了86%的AP(0.5)得分,并在视频数据集上测试了我们的管道,并观察到合理的检测和识别性能(82.7%的检测率,60.8%OCR F1得分)具有真实 - 时间处理速度(每秒27.2帧)。
translated by 谷歌翻译
车牌检测和认可(LPDR)对于实现智能运输并确保城市的安全性和安全性越来越重要。但是,LPDR在实用环境中面临巨大的挑战。车牌的尺寸,字体和颜色可能非常多样化,板图像通常是由于倾斜的捕获角度,不均匀的照明,遮挡和模糊而引起的质量差。在诸如监视之类的应用中,通常需要快速处理。为了实现实时和准确的车牌识别,在这项工作中,我们提出了一组技术:1)一种轮廓重建方法以及边缘检测,以快速检测候选板; 2)一种简单的零偏置方案,可有效删除板周围的假上和底部边界,以方便更准确地对板上的字符进行分割; 3)一组技术来增强培训数据,将SIFT功能纳入CNN网络,并利用转移学习以获得更有效的培训的初始参数; 4)一个两阶段验证程序,以低成本确定正确的板,在板检测阶段进行统计过滤,以快速去除不需要的候选者,以及在CR过程后的准确CR结果,以执行进一步的板验证而无需进行其他处理。我们根据算法实现完整的LPDR系统。实验结果表明,我们的系统可以实时准确识别车牌。此外,它在各个级别的照明和噪声下以及在有汽车运动的情况下稳健地工作。与同行方案相比,我们的系统不仅属于最准确的系统,而且也是最快的系统,并且可以轻松地应用于其他情况。
translated by 谷歌翻译
印度车牌检测是一个问题,它在开源级别尚未探讨。可以使用专有解决方案,但没有大的开源数据集可用于执行实验并测试不同的方法。可用的大型数据集是中国,巴西等国家,但在这些数据集上培训的模型对印度板块表现不佳,因为字体样式和板材设计从国家到国家差异很大。这篇论文介绍了印度车牌数据集使用16192图像和21683板板用每个板的4个点注释,并且相应的板中的每个字符.WE呈现了一种使用语义分割来解决数字板检测的基准模型。我们提出了一种两级方法,其中第一阶段是用于本地化板,第二阶段是读取裁剪板图像中的文本.WE测试的基准对象检测和语义分段模型,用于第二阶段,我们使用了LPRNET基于OCR。
translated by 谷歌翻译
印度车辆板在尺寸,字体,脚本和形状方面的种类繁多。因此,自动数板识别(ANPR)解决方案的开发是具有挑战性的,因此需要一个多样化的数据集作为示例集合。但是,缺少印度情景的全面数据集,从而阻碍了在公开可用和可重现的ANPR解决方案方面的进展。许多国家已经投入了努力,为中国和面向应用程序的车牌(AOLP)数据集开发诸如中国城市停车数据集(CCPD)等全面的ANPR数据集为我们提供了努力。在这项工作中,我们发布了一个扩展的数据集,该数据集目前由1.5K图像组成,以及可扩展且可重复的程序,以增强该数据集以开发印度条件的ANPR解决方案。我们利用此数据集探索了印度场景的端到端(E2E)ANPR体系结构,该架构最初是根据CCPD数据集为中国车辆号码板识别的。当我们为数据集定制体系结构时,我们遇到了见解,我们在本文中讨论了这一点。我们报告了CCPD作者提供的模型直接可重复使用性的障碍,因为印度数字板的极端多样性以及相对于CCPD数据集的分布差异。在将印度数据集的特性与中国数据集对齐后,在LP检测中观察到了42.86%的改善。在这项工作中,我们还将E2E数板检测模型的性能与Yolov5模型进行了比较,并在可可数据集上进行了预训练,并在印度车辆图像上进行了微调。鉴于用于微调检测模块和Yolov5的数量印度车辆图像是相同的,我们得出的结论是,基于COCO数据集而不是CCPD数据集开发针对印度条件的ANPR解决方案更有效。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
尽管个人数据保护方面有法律进展,但未经授权实体滥用的私人数据问题仍然至关重要。为了防止这种情况,通常建议通过设计隐私作为数据保护解决方案。在本文中,使用通常用于提取敏感数据的深度学习技术研究了摄像机失真的效果。为此,我们模拟了对应于具有固定焦距,光圈和焦点的现实摄像机以及来自单色摄像机的灰度图像的现实摄像头的焦点外图像。然后,我们通过一项实验研究证明,我们可以构建一个无法提取个人信息(例如车牌编号)的隐私相机。同时,我们确保仍然可以从变形的图像中提取有用的非敏感数据。代码可在https://github.com/upciti/privacy-by-design-semseg上找到。
translated by 谷歌翻译
已经广泛地研究了使用虹膜和围眼区域作为生物特征,主要是由于虹膜特征的奇异性以及当图像分辨率不足以提取虹膜信息时的奇异区域的使用。除了提供有关个人身份的信息外,还可以探索从这些特征提取的功能,以获得其他信息,例如个人的性别,药物使用的影响,隐形眼镜的使用,欺骗等。这项工作提出了对为眼部识别创建的数据库的调查,详细说明其协议以及如何获取其图像。我们还描述并讨论了最受欢迎的眼镜识别比赛(比赛),突出了所提交的算法,只使用Iris特征和融合虹膜和周边地区信息实现了最佳结果。最后,我们描述了一些相关工程,将深度学习技术应用于眼镜识别,并指出了新的挑战和未来方向。考虑到有大量的眼部数据库,并且每个人通常都设计用于特定问题,我们认为这项调查可以广泛概述眼部生物识别学中的挑战。
translated by 谷歌翻译
对象检测一直是实用的。我们世界上有很多事情,以至于认识到它们不仅可以增加我们对周围环境的自动知识,而且对于有兴趣开展新业务的人来说也可以很有利润。这些有吸引力的物体之一是车牌(LP)。除了可以使用车牌检测的安全用途外,它还可以用于创建创意业务。随着基于深度学习模型的对象检测方法的开发,适当且全面的数据集变得双重重要。但是,由于频繁使用车牌数据集的商业使用,不仅在伊朗而且在世界范围内也有限。用于检测车牌的最大伊朗数据集具有1,466张图像。此外,识别车牌角色的最大伊朗数据集具有5,000张图像。我们已经准备了一个完整的数据集,其中包括20,967辆汽车图像,以及对整个车牌及其字符的所有检测注释,这对于各种目的都是有用的。此外,字符识别应用程序的车牌图像总数为27,745张图像。
translated by 谷歌翻译
在神经网络应用中,不足的培训样本是一个常见的问题。尽管数据增强方法至少需要最少数量的样本,但我们提出了一种基于新颖的,基于渲染的管道来合成带注释的数据集。我们的方法不会修改现有样本,而是合成全新样本。提出的基于渲染的管道能够在全自动过程中生成和注释合成和部分真实的图像和视频数据。此外,管道可以帮助获取真实数据。拟议的管道基于渲染过程。此过程生成综合数据。部分实现的数据使合成序列通过在采集过程中合并真实摄像机使综合序列更接近现实。在自动车牌识别的背景下,广泛的实验验证证明了拟议的数据生成管道的好处,尤其是对于具有有限的可用培训数据的机器学习方案。与仅在实际数据集中训练的OCR算法相比,该实验表明,角色错误率和错过率分别从73.74%和100%和14.11%和41.27%降低。这些改进是通过仅对合成数据训练算法来实现的。当另外合并真实数据时,错误率可以进一步降低。因此,角色错误率和遗漏率可以分别降低至11.90%和39.88%。在实验过程中使用的所有数据以及针对自动数据生成的拟议基于渲染的管道公开可用(URL将在出版时揭示)。
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
地理定位的概念是指确定地球上的某些“实体”的位置的过程,通常使用全球定位系统(GPS)坐标。感兴趣的实体可以是图像,图像序列,视频,卫星图像,甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用,而深入学习已经上升以提高机器学习模型的性能能力,因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用,如增强现实,机器人,自驾驶车辆,道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查,其涉及从捕获图像(图像地理定位)或图像内的地理定位对象(对象地理定位)的地理定位的综合调查。我们将提供深入的研究,包括流行算法的摘要,对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。
translated by 谷歌翻译
本文介绍了用于文档图像分析的图像数据集的系统文献综述,重点是历史文档,例如手写手稿和早期印刷品。寻找适当的数据集进行历史文档分析是促进使用不同机器学习算法进行研究的关键先决条件。但是,由于实际数据非常多(例如,脚本,任务,日期,支持系统和劣化量),数据和标签表示的不同格式以及不同的评估过程和基准,因此找到适当的数据集是一项艰巨的任务。这项工作填补了这一空白,并在现有数据集中介绍了元研究。经过系统的选择过程(根据PRISMA指南),我们选择了56项根据不同因素选择的研究,例如出版年份,文章中实施的方法数量,所选算法的可靠性,数据集大小和期刊的可靠性出口。我们通过将其分配给三个预定义的任务之一来总结每个研究:文档分类,布局结构或语义分析。我们为每个数据集提供统计,文档类型,语言,任务,输入视觉方面和地面真实信息。此外,我们还提供了这些论文或最近竞争的基准任务和结果。我们进一步讨论了该领域的差距和挑战。我们倡导将转换工具提供到通用格式(例如,用于计算机视觉任务的可可格式),并始终提供一组评估指标,而不仅仅是一种评估指标,以使整个研究的结果可比性。
translated by 谷歌翻译
几十年来,手写的中文文本识别(HCTR)一直是一个活跃的研究主题。但是,大多数以前的研究仅关注裁剪文本图像的识别,而忽略了实际应用程序中文本线检测引起的错误。尽管近年来已经提出了一些针对页面文本识别的方法,但它们要么仅限于简单布局,要么需要非常详细的注释,包括昂贵的线条级别甚至角色级边界框。为此,我们建议Pagenet端到端弱监督的页面级HCTR。 Pagenet检测并识别角色并预测其之间的阅读顺序,在处理复杂的布局(包括多方向和弯曲的文本线路)时,这更健壮和灵活。利用所提出的弱监督学习框架,Pagenet只需要对真实数据进行注释。但是,它仍然可以在字符和线级别上输出检测和识别结果,从而避免标记字符和文本线条的界限框的劳动和成本。在五个数据集上进行的广泛实验证明了Pagenet优于现有的弱监督和完全监督的页面级方法。这些实验结果可能会引发进一步的研究,而不是基于连接主义时间分类或注意力的现有方法的领域。源代码可在https://github.com/shannanyinxiang/pagenet上获得。
translated by 谷歌翻译
自动交通事故检测已吸引机器视觉社区,因为它对自动智能运输系统(ITS)的发展产生了影响和对交通安全的重要性。然而,大多数关于有效分析和交通事故预测的研究都使用了覆盖范围有限的小规模数据集,从而限制了其效果和适用性。交通事故中现有的数据集是小规模,不是来自监视摄像机,而不是开源的,或者不是为高速公路场景建造的。由于在高速公路上发生事故,因此往往会造成严重损坏,并且太快了,无法赶上现场。针对从监视摄像机收集的高速公路交通事故的开源数据集非常需要和实际上。为了帮助视觉社区解决这些缺点,我们努力收集涵盖丰富场景的真实交通事故的视频数据。在通过各个维度进行集成和注释后,在这项工作中提出了一个名为TAD的大规模交通事故数据集。在这项工作中,使用公共主流视觉算法或框架进行了有关图像分类,对象检测和视频分类任务的各种实验,以证明不同方法的性能。拟议的数据集以及实验结果将作为改善计算机视觉研究的新基准提出,尤其是在其中。
translated by 谷歌翻译