This paper aims to improve the Warping Planer Object Detection Network (WPOD-Net) using feature engineering to increase accuracy. What problems are solved using the Warping Object Detection Network using feature engineering? More specifically, we think that it makes sense to add knowledge about edges in the image to enhance the information for determining the license plate contour of the original WPOD-Net model. The Sobel filter has been selected experimentally and acts as a Convolutional Neural Network layer, the edge information is combined with the old information of the original network to create the final embedding vector. The proposed model was compared with the original model on a set of data that we collected for evaluation. The results are evaluated through the Quadrilateral Intersection over Union value and demonstrate that the model has a significant improvement in performance.
translated by 谷歌翻译
由于多个实际应用,全自动车牌识别(ALPR)一直是一个经常研究的主题。但是,在实际情况下,许多当前的解决方案仍然不够强大,通常取决于许多限制。本文提出了一个基于最先进的Yolo对象检测器和标准化流量的强大而有效的ALPR系统。该模型使用两种新策略。首先,使用YOLO的两阶段网络和基于标准化的基于归一化的模型来检测许可板(LP)并识别具有数字和阿拉伯字符的LP。其次,实施了多尺度图像转换,以解决Yolo裁剪LP检测问题的问题,包括明显的背景噪声。此外,在具有现实情况的新数据集中,我们引入了一个更大的公共注释数据集,该数据集从摩洛哥板上收集到了更大的公共注释数据集。我们证明我们提出的模型可以在没有单个或多个字符的少数样品上学习。该数据集还将公开使用,以鼓励对板检测和识别进行进一步的研究和研究。
translated by 谷歌翻译
从卷积神经网络的快速发展中受益,汽车牌照检测和识别的性能得到了很大的改善。但是,大多数现有方法分别解决了检测和识别问题,并专注于特定方案,这阻碍了现实世界应用的部署。为了克服这些挑战,我们提出了一个有效而准确的框架,以同时解决车牌检测和识别任务。这是一个轻巧且统一的深神经网络,可以实时优化端到端。具体而言,对于不受约束的场景,采用了无锚方法来有效检测车牌的边界框和四个角,这些框用于提取和纠正目标区域特征。然后,新型的卷积神经网络分支旨在进一步提取角色的特征而不分割。最后,将识别任务视为序列标记问题,这些问题通过连接派时间分类(CTC)解决。选择了几个公共数据集,包括在各种条件下从不同方案中收集的图像进行评估。实验结果表明,所提出的方法在速度和精度上都显着优于先前的最新方法。
translated by 谷歌翻译
印度车牌检测是一个问题,它在开源级别尚未探讨。可以使用专有解决方案,但没有大的开源数据集可用于执行实验并测试不同的方法。可用的大型数据集是中国,巴西等国家,但在这些数据集上培训的模型对印度板块表现不佳,因为字体样式和板材设计从国家到国家差异很大。这篇论文介绍了印度车牌数据集使用16192图像和21683板板用每个板的4个点注释,并且相应的板中的每个字符.WE呈现了一种使用语义分割来解决数字板检测的基准模型。我们提出了一种两级方法,其中第一阶段是用于本地化板,第二阶段是读取裁剪板图像中的文本.WE测试的基准对象检测和语义分段模型,用于第二阶段,我们使用了LPRNET基于OCR。
translated by 谷歌翻译
现在,诸如无人机之类的无人机,从捕获和目标检测的各种目的中,从Ariel Imagery等捕获和目标检测的各种目的很大使用。轻松进入这些小的Ariel车辆到公众可能导致严重的安全威胁。例如,可以通过使用无人机在公共公共场合中混合的间谍来监视关键位置。在手中研究提出了一种改进和高效的深度学习自治系统,可以以极大的精度检测和跟踪非常小的无人机。建议的系统由自定义深度学习模型Tiny Yolov3组成,其中一个非常快速的物体检测模型的口味之一,您只能构建并用于检测一次(YOLO)。物体检测算法将有效地检测无人机。与以前的Yolo版本相比,拟议的架构表现出显着更好的性能。在资源使用和时间复杂性方面观察到改进。使用召回和精度分别为93%和91%的测量来测量性能。
translated by 谷歌翻译
车牌检测和认可(LPDR)对于实现智能运输并确保城市的安全性和安全性越来越重要。但是,LPDR在实用环境中面临巨大的挑战。车牌的尺寸,字体和颜色可能非常多样化,板图像通常是由于倾斜的捕获角度,不均匀的照明,遮挡和模糊而引起的质量差。在诸如监视之类的应用中,通常需要快速处理。为了实现实时和准确的车牌识别,在这项工作中,我们提出了一组技术:1)一种轮廓重建方法以及边缘检测,以快速检测候选板; 2)一种简单的零偏置方案,可有效删除板周围的假上和底部边界,以方便更准确地对板上的字符进行分割; 3)一组技术来增强培训数据,将SIFT功能纳入CNN网络,并利用转移学习以获得更有效的培训的初始参数; 4)一个两阶段验证程序,以低成本确定正确的板,在板检测阶段进行统计过滤,以快速去除不需要的候选者,以及在CR过程后的准确CR结果,以执行进一步的板验证而无需进行其他处理。我们根据算法实现完整的LPDR系统。实验结果表明,我们的系统可以实时准确识别车牌。此外,它在各个级别的照明和噪声下以及在有汽车运动的情况下稳健地工作。与同行方案相比,我们的系统不仅属于最准确的系统,而且也是最快的系统,并且可以轻松地应用于其他情况。
translated by 谷歌翻译
印度车辆板在尺寸,字体,脚本和形状方面的种类繁多。因此,自动数板识别(ANPR)解决方案的开发是具有挑战性的,因此需要一个多样化的数据集作为示例集合。但是,缺少印度情景的全面数据集,从而阻碍了在公开可用和可重现的ANPR解决方案方面的进展。许多国家已经投入了努力,为中国和面向应用程序的车牌(AOLP)数据集开发诸如中国城市停车数据集(CCPD)等全面的ANPR数据集为我们提供了努力。在这项工作中,我们发布了一个扩展的数据集,该数据集目前由1.5K图像组成,以及可扩展且可重复的程序,以增强该数据集以开发印度条件的ANPR解决方案。我们利用此数据集探索了印度场景的端到端(E2E)ANPR体系结构,该架构最初是根据CCPD数据集为中国车辆号码板识别的。当我们为数据集定制体系结构时,我们遇到了见解,我们在本文中讨论了这一点。我们报告了CCPD作者提供的模型直接可重复使用性的障碍,因为印度数字板的极端多样性以及相对于CCPD数据集的分布差异。在将印度数据集的特性与中国数据集对齐后,在LP检测中观察到了42.86%的改善。在这项工作中,我们还将E2E数板检测模型的性能与Yolov5模型进行了比较,并在可可数据集上进行了预训练,并在印度车辆图像上进行了微调。鉴于用于微调检测模块和Yolov5的数量印度车辆图像是相同的,我们得出的结论是,基于COCO数据集而不是CCPD数据集开发针对印度条件的ANPR解决方案更有效。
translated by 谷歌翻译
在过去的几年中,车牌扫描仪在停车场的流行增长。为了快速识别车牌,停车场使用的传统板识别设备采用了固定的光和射击角度来源。对于偏斜的角度,例如用超宽角或鱼眼镜镜拍摄的车牌图像,车牌识别板的变形也可能很严重,从而损害了标准车牌识别系统识别板的能力。蒙版RCNN小工具可以用于倾斜图片和各种拍摄角度。实验的结果表明,建议的设计将能够对大于0/60的斜角角度进行分类。使用建议的蒙版R-CNN方法的角色识别也已显着提高。所提出的蒙版R-CNN方法也在字符识别方面取得了重大进展,与采用Yolov2模型的策略相比,该方法的倾斜度超过45度。实验结果还表明,在开放数据板收集中介绍的方法比其他技术(称为AOLP数据集)更好。
translated by 谷歌翻译
工业X射线分析在需要保证某些零件的结构完整性的航空航天,汽车或核行业中很常见。但是,射线照相图像的解释有时很困难,可能导致两名专家在缺陷分类上不同意。本文介绍的自动缺陷识别(ADR)系统将减少分析时间,还将有助于减少对缺陷的主观解释,同时提高人类检查员的可靠性。我们的卷积神经网络(CNN)模型达到94.2 \%准确性(MAP@iou = 50 \%),当应用于汽车铝铸件数据集(GDXRAR)时,它被认为与预期的人类性能相似,超过了当前状态该数据集的艺术。在工业环境上,其推理时间少于每个DICOM图像,因此可以安装在生产设施上,不会影响交付时间。此外,还进行了对主要高参数的消融研究,以优化从75 \%映射的初始基线结果最高94.2 \%map的模型准确性。
translated by 谷歌翻译
Indonesia holds the second-highest-ranking country for the highest number of malaria cases in Southeast Asia. A different malaria parasite semantic segmentation technique based on a deep learning approach is an alternative to reduce the limitations of traditional methods. However, the main problem of the semantic segmentation technique is raised since large parasites are dominant, and the tiny parasites are suppressed. In addition, the amount and variance of data are important influences in establishing their models. In this study, we conduct two contributions. First, we collect 559 microscopic images containing 691 malaria parasites of thin blood smears. The dataset is named PlasmoID, and most data comes from rural Indonesia. PlasmoID also provides ground truth for parasite detection and segmentation purposes. Second, this study proposes a malaria parasite segmentation and detection scheme by combining Faster RCNN and a semantic segmentation technique. The proposed scheme has been evaluated on the PlasmoID dataset. It has been compared with recent studies of semantic segmentation techniques, namely UNet, ResFCN-18, DeepLabV3, DeepLabV3plus and ResUNet-18. The result shows that our proposed scheme can improve the segmentation and detection of malaria parasite performance compared to original semantic segmentation techniques.
translated by 谷歌翻译
由于缺乏自动注释系统,大多数发展城市的城市机构都是数字未标记的。因此,在此类城市中,位置和轨迹服务(例如Google Maps,Uber等)仍然不足。自然场景图像中的准确招牌检测是从此类城市街道检索无错误的信息的最重要任务。然而,开发准确的招牌本地化系统仍然是尚未解决的挑战,因为它的外观包括文本图像和令人困惑的背景。我们提出了一种新型的对象检测方法,该方法可以自动检测招牌,适合此类城市。我们通过合并两种专业预处理方法和一种运行时效高参数值选择算法来使用更快的基于R-CNN的定位。我们采用了一种增量方法,通过使用我们构造的SVSO(Street View Signboard对象)签名板数据集,通过详细评估和与基线进行比较,以达到最终提出的方法,这些方法包含六个发展中国家的自然场景图像。我们在SVSO数据集和Open Image数据集上展示了我们提出的方法的最新性能。我们提出的方法可以准确地检测招牌(即使图像包含多种形状和颜色的多种嘈杂背景的招牌)在SVSO独立测试集上达到0.90 MAP(平均平均精度)得分。我们的实施可在以下网址获得:https://github.com/sadrultoaha/signboard-detection
translated by 谷歌翻译
Convolutional Neural Networks define an exceptionally powerful class of models, but are still limited by the lack of ability to be spatially invariant to the input data in a computationally and parameter efficient manner. In this work we introduce a new learnable module, the Spatial Transformer, which explicitly allows the spatial manipulation of data within the network. This differentiable module can be inserted into existing convolutional architectures, giving neural networks the ability to actively spatially transform feature maps, conditional on the feature map itself, without any extra training supervision or modification to the optimisation process. We show that the use of spatial transformers results in models which learn invariance to translation, scale, rotation and more generic warping, resulting in state-of-the-art performance on several benchmarks, and for a number of classes of transformations.
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
在这项工作中,我们详细描述了深度学习和计算机视觉如何帮助检测AirTender系统的故障事件,AirTender系统是售后摩托车阻尼系统组件。监测飞行员运行的最有效方法之一是在其表面上寻找油污渍。从实时图像开始,首先在摩托车悬架系统中检测到Airtender,然后二进制分类器确定Airtender是否在溢出油。该检测是在YOLO5架构的帮助下进行的,而分类是在适当设计的卷积神经网络油网40的帮助下进行的。为了更清楚地检测油的泄漏,我们用荧光染料稀释了荧光染料,激发波长峰值约为390 nm。然后用合适的紫外线LED照亮飞行员。整个系统是设计低成本检测设置的尝试。船上设备(例如迷你计算机)被放置在悬架系统附近,并连接到全高清摄像头框架架上。板载设备通过我们的神经网络算法,然后能够将AirTender定位并分类为正常功能(非泄漏图像)或异常(泄漏图像)。
translated by 谷歌翻译
车辆分类是一台热电电脑视觉主题,研究从地面查看到顶视图。在遥感中,顶视图的使用允许了解城市模式,车辆集中,交通管理等。但是,在瞄准像素方面的分类时存在一些困难:(a)大多数车辆分类研究使用对象检测方法,并且最公开的数据集设计用于此任务,(b)创建实例分段数据集是费力的,并且(C )传统的实例分段方法由于对象很小,因此在此任务上执行此任务。因此,本研究目标是:(1)提出使用GIS软件的新型半监督迭代学习方法,(2)提出一种自由盒实例分割方法,(3)提供城市规模的车辆数据集。考虑的迭代学习程序:(1)标记少数车辆,(2)在这些样本上列车,(3)使用模型对整个图像进行分类,(4)将图像预测转换为多边形shapefile,(5 )纠正有错误的一些区域,并将其包含在培训数据中,(6)重复,直到结果令人满意。为了单独的情况,我们考虑了车辆内部和车辆边界,DL模型是U-Net,具有高效网络B7骨架。当移除边框时,车辆内部变为隔离,允许唯一的对象识别。要恢复已删除的1像素边框,我们提出了一种扩展每个预测的简单方法。结果显示与掩模-RCNN(IOU中67%的82%)相比的更好的像素 - 明智的指标。关于每个对象分析,整体准确性,精度和召回大于90%。该管道适用于任何遥感目标,对分段和生成数据集非常有效。
translated by 谷歌翻译
In recent years, object detection has achieved a very large performance improvement, but the detection result of small objects is still not very satisfactory. This work proposes a strategy based on feature fusion and dilated convolution that employs dilated convolution to broaden the receptive field of feature maps at various scales in order to address this issue. On the one hand, it can improve the detection accuracy of larger objects. On the other hand, it provides more contextual information for small objects, which is beneficial to improving the detection accuracy of small objects. The shallow semantic information of small objects is obtained by filtering out the noise in the feature map, and the feature information of more small objects is preserved by using multi-scale fusion feature module and attention mechanism. The fusion of these shallow feature information and deep semantic information can generate richer feature maps for small object detection. Experiments show that this method can have higher accuracy than the traditional YOLOv3 network in the detection of small objects and occluded objects. In addition, we achieve 32.8\% Mean Average Precision on the detection of small objects on MS COCO2017 test set. For 640*640 input, this method has 88.76\% mAP on the PASCAL VOC2012 dataset.
translated by 谷歌翻译
We present an integrated framework for using Convolutional Networks for classification, localization and detection. We show how a multiscale and sliding window approach can be efficiently implemented within a ConvNet. We also introduce a novel deep learning approach to localization by learning to predict object boundaries. Bounding boxes are then accumulated rather than suppressed in order to increase detection confidence. We show that different tasks can be learned simultaneously using a single shared network. This integrated framework is the winner of the localization task of the ImageNet Large Scale Visual Recognition Challenge 2013 (ILSVRC2013) and obtained very competitive results for the detection and classifications tasks. In post-competition work, we establish a new state of the art for the detection task. Finally, we release a feature extractor from our best model called OverFeat.
translated by 谷歌翻译
对象检测一直是实用的。我们世界上有很多事情,以至于认识到它们不仅可以增加我们对周围环境的自动知识,而且对于有兴趣开展新业务的人来说也可以很有利润。这些有吸引力的物体之一是车牌(LP)。除了可以使用车牌检测的安全用途外,它还可以用于创建创意业务。随着基于深度学习模型的对象检测方法的开发,适当且全面的数据集变得双重重要。但是,由于频繁使用车牌数据集的商业使用,不仅在伊朗而且在世界范围内也有限。用于检测车牌的最大伊朗数据集具有1,466张图像。此外,识别车牌角色的最大伊朗数据集具有5,000张图像。我们已经准备了一个完整的数据集,其中包括20,967辆汽车图像,以及对整个车牌及其字符的所有检测注释,这对于各种目的都是有用的。此外,字符识别应用程序的车牌图像总数为27,745张图像。
translated by 谷歌翻译
紧固件在确保机械的各个部位方面起着至关重要的作用。紧固件表面的凹痕,裂缝和划痕等变形是由材料特性和生产过程中设备的错误处理引起的。结果,需要质量控制以确保安全可靠的操作。现有的缺陷检查方法依赖于手动检查,该检查消耗了大量时间,金钱和其他资源;同样,由于人为错误,无法保证准确性。自动缺陷检测系统已证明对缺陷分析的手动检查技术有影响。但是,诸如卷积神经网络(CNN)和基于深度学习的方法之类的计算技术是进化方法。通过仔细选择设计参数值,可以实现CNN的全部电势。使用基于Taguchi的实验和分析设计,已经尝试在本研究中开发强大的自动系统。用于训练系统的数据集是为具有两个标记类别的M14尺寸螺母手动创建的:有缺陷且无缺陷。数据集中共有264张图像。所提出的顺序CNN的验证精度为96.3%,在0.001学习率下的验证损失为0.277。
translated by 谷歌翻译
我们介绍了一种名为RobustAbnet的新表检测和结构识别方法,以检测表的边界并从异质文档图像中重建每个表的细胞结构。为了进行表检测,我们建议将Cornernet用作新的区域建议网络来生成更高质量的表建议,以更快的R-CNN,这显着提高了更快的R-CNN的定位准确性以进行表检测。因此,我们的表检测方法仅使用轻巧的RESNET-18骨干网络,在三个公共表检测基准(即CTDAR TRACKA,PUBLAYNET和IIIT-AR-13K)上实现最新性能。此外,我们提出了一种新的基于分裂和合并的表结构识别方法,其中提出了一个新型的基于CNN的新空间CNN分离线预测模块将每个检测到的表分为单元格,并且基于网格CNN的CNN合并模块是应用用于恢复生成细胞。由于空间CNN模块可以有效地在整个表图像上传播上下文信息,因此我们的表结构识别器可以坚固地识别具有较大的空白空间和几何扭曲(甚至弯曲)表的表。得益于这两种技术,我们的表结构识别方法在包括SCITSR,PubTabnet和CTDAR TrackB2-Modern在内的三个公共基准上实现了最先进的性能。此外,我们进一步证明了我们方法在识别具有复杂结构,大空间以及几何扭曲甚至弯曲形状的表上的表格上的优势。
translated by 谷歌翻译