公共数据集在推进车牌识别(LPR)的最新技术方面发挥了关键作用。尽管数据集偏见在计算机视觉社区中被认为是一个严重的问题,但在LPR文献中很大程度上忽略了它。 LPR模型通常在每个数据集上进行训练和评估。在这种情况下,他们经常在接受培训的数据集中证明了强大的证明,但在看不见的数据集中表现出有限的性能。因此,这项工作研究了LPR上下文中的数据集偏差问题。我们在八个数据集上进行了实验,在巴西收集了四个,在中国大陆进行了实验,并观察到每个数据集都有一个独特的,可识别的“签名”,因为轻量级分类模型预测了车牌(LP)图像的源数据集,其图像的源95%的精度。在我们的讨论中,我们提请人们注意以下事实:大多数LPR模型可能正在利用此类签名,以以失去概括能力为代价,以改善每个数据集中的结果。这些结果强调了评估跨数据库设置中LPR模型的重要性,因为它们提供了比数据库内部的更好的概括(因此实际性能)。
translated by 谷歌翻译
由于深度学习的进步和数据集的增加,自动许可证板识别(ALPR)系统对来自多个区域的牌照(LPS)的表现显着。对深度ALPR系统的评估通常在每个数据集内完成;因此,如果这种结果是泛化能力的可靠指标,则是可疑的。在本文中,我们提出了一种传统分配的与休假 - 单数据集实验设置,以统一地评估12个光学字符识别(OCR)模型的交叉数据集泛化,其在九个公共数据集上应用于LP识别,具有良好的品种在若干方面(例如,获取设置,图像分辨率和LP布局)。我们还介绍了一个用于端到端ALPR的公共数据集,这是第一个包含带有Mercosur LP的车辆的图像和摩托车图像数量最多的图像。实验结果揭示了传统分离协议的局限性,用于评估ALPR上下文中的方法,因为在训练和测试休假时,大多数数据集在大多数数据集中的性能显着下降。
translated by 谷歌翻译
由于多个实际应用,全自动车牌识别(ALPR)一直是一个经常研究的主题。但是,在实际情况下,许多当前的解决方案仍然不够强大,通常取决于许多限制。本文提出了一个基于最先进的Yolo对象检测器和标准化流量的强大而有效的ALPR系统。该模型使用两种新策略。首先,使用YOLO的两阶段网络和基于标准化的基于归一化的模型来检测许可板(LP)并识别具有数字和阿拉伯字符的LP。其次,实施了多尺度图像转换,以解决Yolo裁剪LP检测问题的问题,包括明显的背景噪声。此外,在具有现实情况的新数据集中,我们引入了一个更大的公共注释数据集,该数据集从摩洛哥板上收集到了更大的公共注释数据集。我们证明我们提出的模型可以在没有单个或多个字符的少数样品上学习。该数据集还将公开使用,以鼓励对板检测和识别进行进一步的研究和研究。
translated by 谷歌翻译
更换具有智能电表的模拟仪表昂贵,艰巨,远非完全在发展中国家。ParaNa(Copel)(巴西)的能源公司每月执行超过400万米的读数(几乎完全是非智能设备),我们估计其中850万人来自拨号米。因此,基于图像的自动读取系统可以减少人类错误,创建读取证明,并使客户能够通过移动应用程序执行读取本身。我们提出了用于自动拨号抄表(ADMR)的新方法,并在不约束场景中引入ADMR的新数据集,称为UFPR-ADMR-V2。我们的最佳方法将YOLOV4与新的回归方法(ANGREG)结合起来,探讨了几种后处理技术。与以前的作品相比,它降低了1,343至129的平均绝对误差(MAE),并实现了98.90%的仪表识别率(MRR) - 误差容差为1千瓦时(千瓦时)。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
从卷积神经网络的快速发展中受益,汽车牌照检测和识别的性能得到了很大的改善。但是,大多数现有方法分别解决了检测和识别问题,并专注于特定方案,这阻碍了现实世界应用的部署。为了克服这些挑战,我们提出了一个有效而准确的框架,以同时解决车牌检测和识别任务。这是一个轻巧且统一的深神经网络,可以实时优化端到端。具体而言,对于不受约束的场景,采用了无锚方法来有效检测车牌的边界框和四个角,这些框用于提取和纠正目标区域特征。然后,新型的卷积神经网络分支旨在进一步提取角色的特征而不分割。最后,将识别任务视为序列标记问题,这些问题通过连接派时间分类(CTC)解决。选择了几个公共数据集,包括在各种条件下从不同方案中收集的图像进行评估。实验结果表明,所提出的方法在速度和精度上都显着优于先前的最新方法。
translated by 谷歌翻译
在这项工作中,我们详细描述了深度学习和计算机视觉如何帮助检测AirTender系统的故障事件,AirTender系统是售后摩托车阻尼系统组件。监测飞行员运行的最有效方法之一是在其表面上寻找油污渍。从实时图像开始,首先在摩托车悬架系统中检测到Airtender,然后二进制分类器确定Airtender是否在溢出油。该检测是在YOLO5架构的帮助下进行的,而分类是在适当设计的卷积神经网络油网40的帮助下进行的。为了更清楚地检测油的泄漏,我们用荧光染料稀释了荧光染料,激发波长峰值约为390 nm。然后用合适的紫外线LED照亮飞行员。整个系统是设计低成本检测设置的尝试。船上设备(例如迷你计算机)被放置在悬架系统附近,并连接到全高清摄像头框架架上。板载设备通过我们的神经网络算法,然后能够将AirTender定位并分类为正常功能(非泄漏图像)或异常(泄漏图像)。
translated by 谷歌翻译
Traffic signs are characterized by a wide variability in their visual appearance in real-world environments. For example, changes of illumination, varying weather conditions and partial occlusions impact the perception of road signs. In practice, a large number of different sign classes needs to be recognized with very high accuracy. Traffic signs have been designed to be easily readable for humans, who perform very well at this task. For computer systems, however, classifying traffic signs still seems to pose a challenging pattern recognition problem. Both image processing and machine learning algorithms are continuously refined to improve on this task. But little systematic comparison of such systems exist. What is the status quo? Do today's algorithms reach human performance? For assessing the performance of state-of-the-art machine learning algorithms, we present a publicly available traffic sign dataset with more than 50,000 images of German road signs in 43 classes. The data was considered in the second stage of the German Traffic Sign Recognition Benchmark held at IJCNN 2011. The results of this competition are reported and the best-performing algorithms are briefly described. Convolutional neural networks (CNNs) showed particularly high classification accuracies in the competition. We measured the performance of human subjects on the same data -and the CNNs outperformed the human test persons.
translated by 谷歌翻译
印度车牌检测是一个问题,它在开源级别尚未探讨。可以使用专有解决方案,但没有大的开源数据集可用于执行实验并测试不同的方法。可用的大型数据集是中国,巴西等国家,但在这些数据集上培训的模型对印度板块表现不佳,因为字体样式和板材设计从国家到国家差异很大。这篇论文介绍了印度车牌数据集使用16192图像和21683板板用每个板的4个点注释,并且相应的板中的每个字符.WE呈现了一种使用语义分割来解决数字板检测的基准模型。我们提出了一种两级方法,其中第一阶段是用于本地化板,第二阶段是读取裁剪板图像中的文本.WE测试的基准对象检测和语义分段模型,用于第二阶段,我们使用了LPRNET基于OCR。
translated by 谷歌翻译
印度车辆板在尺寸,字体,脚本和形状方面的种类繁多。因此,自动数板识别(ANPR)解决方案的开发是具有挑战性的,因此需要一个多样化的数据集作为示例集合。但是,缺少印度情景的全面数据集,从而阻碍了在公开可用和可重现的ANPR解决方案方面的进展。许多国家已经投入了努力,为中国和面向应用程序的车牌(AOLP)数据集开发诸如中国城市停车数据集(CCPD)等全面的ANPR数据集为我们提供了努力。在这项工作中,我们发布了一个扩展的数据集,该数据集目前由1.5K图像组成,以及可扩展且可重复的程序,以增强该数据集以开发印度条件的ANPR解决方案。我们利用此数据集探索了印度场景的端到端(E2E)ANPR体系结构,该架构最初是根据CCPD数据集为中国车辆号码板识别的。当我们为数据集定制体系结构时,我们遇到了见解,我们在本文中讨论了这一点。我们报告了CCPD作者提供的模型直接可重复使用性的障碍,因为印度数字板的极端多样性以及相对于CCPD数据集的分布差异。在将印度数据集的特性与中国数据集对齐后,在LP检测中观察到了42.86%的改善。在这项工作中,我们还将E2E数板检测模型的性能与Yolov5模型进行了比较,并在可可数据集上进行了预训练,并在印度车辆图像上进行了微调。鉴于用于微调检测模块和Yolov5的数量印度车辆图像是相同的,我们得出的结论是,基于COCO数据集而不是CCPD数据集开发针对印度条件的ANPR解决方案更有效。
translated by 谷歌翻译
The PASCAL Visual Object Classes (VOC) challenge is a benchmark in visual object category recognition and detection, providing the vision and machine learning communities with a standard dataset of images and annotation, and standard evaluation procedures. Organised annually from 2005 to present, the challenge and its associated dataset has become accepted as the benchmark for object detection.This paper describes the dataset and evaluation procedure. We review the state-of-the-art in evaluated methods for both classification and detection, analyse whether the methods are statistically different, what they are learning from the images (e.g. the object or its context), and what the methods find easy or confuse. The paper concludes with lessons learnt in the three year history of the challenge, and proposes directions for future improvement and extension.
translated by 谷歌翻译
通过摩尔维亚岛与罗马尼亚语方言识别的机器学习模型的看似高精度水平和对这一主题的越来越多的研究兴趣,我们提供了摩尔维亚的跟进与罗马尼亚语交叉方言主题识别(MRC)的Vartial共享任务2019年评估运动。共享任务包括两个子任务类型:一个组成,其中包括摩尔维亚和罗马尼亚语方言的区分,其中一个由罗马尼亚语两条方言进行主题分类文件。参与者实现了令人印象深刻的分数,例如,摩尔维亚州的顶级型号与罗马尼亚语方言识别获得了0.895的宏F1得分。我们对人类注释者进行了主观评估,显示人类与机器学习(ML)模型相比,人类可以获得更低的精度率。因此,还不清楚为什么参与者提出的方法达到这种高精度率的方法。我们的目标是理解(i)为什么所提出的方法如此良好地工作(通过可视化鉴别特征)和(ii)这些方法可以在多大程度上保持其高精度水平,例如,这些方法可以保持高精度水平。当我们将文本样本缩短到单个句子时或我们在推理时间使用推文时。我们工作的二级目标是使用集合学习提出改进的ML模型。我们的实验表明,ML模型可以准确地识别方言,即使在句子水平和不同的域中(新闻文章与推文)。我们还分析了最佳性能模型的最辨别特征,在这些模型所采取的决策背后提供了一些解释。有趣的是,我们学习我们以前未知的新的辩证模式或我们的人为注册者。此外,我们进行实验,表明可以通过基于堆叠的集合来改善MRC共享任务的机器学习性能。
translated by 谷歌翻译
It is desirable for detection and classification algorithms to generalize to unfamiliar environments, but suitable benchmarks for quantitatively studying this phenomenon are not yet available. We present a dataset designed to measure recognition generalization to novel environments. The images in our dataset are harvested from twenty camera traps deployed to monitor animal populations. Camera traps are fixed at one location, hence the background changes little across images; capture is triggered automatically, hence there is no human bias. The challenge is learning recognition in a handful of locations, and generalizing animal detection and classification to new locations where no training data is available. In our experiments state-of-the-art algorithms show excellent performance when tested at the same location where they were trained. However, we find that generalization to new locations is poor, especially for classification systems.
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
We build new test sets for the CIFAR-10 and ImageNet datasets. Both benchmarks have been the focus of intense research for almost a decade, raising the danger of overfitting to excessively re-used test sets. By closely following the original dataset creation processes, we test to what extent current classification models generalize to new data. We evaluate a broad range of models and find accuracy drops of 3% -15% on CIFAR-10 and 11% -14% on ImageNet. However, accuracy gains on the original test sets translate to larger gains on the new test sets. Our results suggest that the accuracy drops are not caused by adaptivity, but by the models' inability to generalize to slightly "harder" images than those found in the original test sets.
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
由于其非参数性,性能良好,性能良好,并且通过诸如TensorFlow等库的可访问性,深度卷积神经网络(DCNNS)已成为自动图像注释的最常见解决方案。在其他领域中,DCNN也是通过数字天空调查获取的大天文图像数据库的常用方法。 DCNN的主要缺点之一是复杂的非直观规则,使DCNNS成为“黑匣子”,以不清楚用户的方式提供注释。因此,用户通常无法知道什么信息DCNN用于分类。在这里,我们证明了DCNN的训练对培训数据的背景敏感,例如天空中的物体的位置。我们表明,对于椭圆形和螺旋星系的基本分类,用于训练的星系的天空位置影响算法的行为,并导致小但一致而且统计学上的偏差。该偏差在宇宙学级各向异性的形式中表现出基本的星系形态的分布。因此,虽然DCNN是用于注释延长源图像的强大工具,但是对于Galaxy形态的培训集的构建应该考虑到比OB的视觉外观更多的方面ject。在任何情况下,使用深度神经网络创建的目录,即表现出宇宙主义各向异性的迹象,应通过一致偏差的可能性来解释。
translated by 谷歌翻译
对象检测一直是实用的。我们世界上有很多事情,以至于认识到它们不仅可以增加我们对周围环境的自动知识,而且对于有兴趣开展新业务的人来说也可以很有利润。这些有吸引力的物体之一是车牌(LP)。除了可以使用车牌检测的安全用途外,它还可以用于创建创意业务。随着基于深度学习模型的对象检测方法的开发,适当且全面的数据集变得双重重要。但是,由于频繁使用车牌数据集的商业使用,不仅在伊朗而且在世界范围内也有限。用于检测车牌的最大伊朗数据集具有1,466张图像。此外,识别车牌角色的最大伊朗数据集具有5,000张图像。我们已经准备了一个完整的数据集,其中包括20,967辆汽车图像,以及对整个车牌及其字符的所有检测注释,这对于各种目的都是有用的。此外,字符识别应用程序的车牌图像总数为27,745张图像。
translated by 谷歌翻译
已经广泛地研究了使用虹膜和围眼区域作为生物特征,主要是由于虹膜特征的奇异性以及当图像分辨率不足以提取虹膜信息时的奇异区域的使用。除了提供有关个人身份的信息外,还可以探索从这些特征提取的功能,以获得其他信息,例如个人的性别,药物使用的影响,隐形眼镜的使用,欺骗等。这项工作提出了对为眼部识别创建的数据库的调查,详细说明其协议以及如何获取其图像。我们还描述并讨论了最受欢迎的眼镜识别比赛(比赛),突出了所提交的算法,只使用Iris特征和融合虹膜和周边地区信息实现了最佳结果。最后,我们描述了一些相关工程,将深度学习技术应用于眼镜识别,并指出了新的挑战和未来方向。考虑到有大量的眼部数据库,并且每个人通常都设计用于特定问题,我们认为这项调查可以广泛概述眼部生物识别学中的挑战。
translated by 谷歌翻译