Automatic Arabic handwritten recognition is one of the recently studied problems in the field of Machine Learning. Unlike Latin languages, Arabic is a Semitic language that forms a harder challenge, especially with variability of patterns caused by factors such as writer age. Most of the studies focused on adults, with only one recent study on children. Moreover, much of the recent Machine Learning methods focused on using Convolutional Neural Networks, a powerful class of neural networks that can extract complex features from images. In this paper we propose a convolutional neural network (CNN) model that recognizes children handwriting with an accuracy of 91% on the Hijja dataset, a recent dataset built by collecting images of the Arabic characters written by children, and 97% on Arabic Handwritten Character Dataset. The results showed a good improvement over the proposed model from the Hijja dataset authors, yet it reveals a bigger challenge to solve for children Arabic handwritten character recognition. Moreover, we proposed a new approach using multi models instead of single model based on the number of strokes in a character, and merged Hijja with AHCD which reached an averaged prediction accuracy of 96%.
translated by 谷歌翻译
Handwriting Recognition has been a field of great interest in the Artificial Intelligence domain. Due to its broad use cases in real life, research has been conducted widely on it. Prominent work has been done in this field focusing mainly on Latin characters. However, the domain of Arabic handwritten character recognition is still relatively unexplored. The inherent cursive nature of the Arabic characters and variations in writing styles across individuals makes the task even more challenging. We identified some probable reasons behind this and proposed a lightweight Convolutional Neural Network-based architecture for recognizing Arabic characters and digits. The proposed pipeline consists of a total of 18 layers containing four layers each for convolution, pooling, batch normalization, dropout, and finally one Global average pooling and a Dense layer. Furthermore, we thoroughly investigated the different choices of hyperparameters such as the choice of the optimizer, kernel initializer, activation function, etc. Evaluating the proposed architecture on the publicly available 'Arabic Handwritten Character Dataset (AHCD)' and 'Modified Arabic handwritten digits Database (MadBase)' datasets, the proposed model respectively achieved an accuracy of 96.93% and 99.35% which is comparable to the state-of-the-art and makes it a suitable solution for real-life end-level applications.
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
侯马联盟书是中国山西博物馆小镇博物馆的国家宝藏之一。它在研究古老的历史方面具有重要的历史意义。迄今为止,关于霍玛联盟书籍的研究一直留在纸质文件的识别中,这是无法识别和难以显示,学习和宣传的纸质文件。因此,霍玛联盟公认的古代角色的数字化可以有效提高识别古代角色并提供更可靠的技术支持和文本数据的效率。本文提出了一个新的Houma Alliance书籍的新数据库。在数据库中,从原始书籍收藏和人类的模仿写作中收集了297个班级和3,547个Houma Alliance古代手写字符样本。此外,决策级分类器融合策略用于融合三个众所周知的深神网络体系结构,以供古代手写角色识别。实验是在我们的新数据库上执行的。实验结果首先为研究界提供了新数据库的基线结果,然后证明了我们提出的方法的效率。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
草书手写文本识别是模式识别领域中一个具有挑战性的研究问题。当前的最新方法包括基于卷积复发性神经网络和多维长期记忆复发性神经网络技术的模型。这些方法在高度计算上是广泛的模型,在设计级别上也很复杂。在最近的研究中,与基于卷积的复发性神经网络相比,基于卷积神经网络和票面卷积神经网络模型的组合显示出较少的参数。在减少要训练的参数总数的方向上,在这项工作中,我们使用了深度卷积代替标准卷积,结合了封闭式跨跨跨性神经网络和双向封闭式复发单元来减少参数总数接受训练。此外,我们还在测试步骤中包括了基于词典的单词梁搜索解码器。它还有助于提高模型的整体准确性。我们在IAM数据集上获得了3.84%的字符错误率和9.40%的单词错误率;乔治·华盛顿数据集的字符错误率和14.56%的字符错误率和14.56%的单词错误率。
translated by 谷歌翻译
手写角色识别一直是模式识别和人工智能领域中的研究中心和基准问题,它仍然是一个充满挑战的研究主题。由于其庞大的应用程序,该领域的许多工作都集中在不同的语言上。阿拉伯语是一种多元化的语言,具有大量的研究范围,并带来了潜在的挑战。本文提出了一种用于识别阿拉伯语手写数字的卷积神经网络模型,该论文的数据集受到各种增强的约束,以增加深度学习方法所需的鲁棒性。提出的方法通过辍学的正则化来授权,以消除数据过度拟合的问题。此外,在激活函数中引入了合适的变化,以克服消失梯度的问题。通过这些修改,所提出的系统的精度为99.4 \%,其性能比数据集上的每项工作都更好。
translated by 谷歌翻译
现代科学和技术进步使植物学家可以使用基于计算机视觉的方法进行植物识别任务。这些方法有自己的挑战。叶片分类是针对自动识别植物物种执行的计算机视觉任务,这是由于叶片形态的变化,包括其大小,质地,形状和静脉,这是一个严重的挑战。由于普及和成功实施图像分析,对象识别和语音识别,研究人员最近越来越倾向于基于深度学习的方法,而不是基于传统特征的方法。在本文中,要拥有一个可解释且可靠的系统,通过提出一种通过三个基于深度学习的模型开发出高效的最大行为相似之处的高效方法,以叶片识别建模。可视化三个模型的不同层,以确保对植物学家的行为进行准确的建模。第一和第二型型号是从头开始设计的。关于第三个模型,采用了预培训的MobilenetV2与转移学习技术一起使用。在两个著名的数据集上评估了所提出的方法:Flavia和Malayakew。根据比较分析,建议的方法比手工制作的特征提取方法和其他深度学习技术更准确,而精度为99.67%和99.81%。与具有自己特定复杂性并依赖数据集的传统技术不同,所提出的方法不需要手工制作的功能提取。同样,与其他深度学习技术相比,它可以提高准确性。此外,SWP叶出现的分布且比其他方法要快得多,因为使用了较少的参数,因此异步使用了较少的参数。
translated by 谷歌翻译
无线电星系的连续排放通常可以分为不同的形态学类,如FRI,Frii,弯曲或紧凑。在本文中,我们根据使用深度学习方法使用小规模数据集的深度学习方法来探讨基于形态的无线电星系分类的任务($ \ SIM 2000 $ Samples)。我们基于双网络应用了几次射击学习技术,并使用预先培训的DENSENET模型进行了先进技术的传输学习技术,如循环学习率和歧视性学习迅速训练模型。我们使用最佳表演模型实现了超过92 \%的分类准确性,其中最大的混乱来源是弯曲和周五型星系。我们的结果表明,专注于一个小但策划数据集随着使用最佳实践来训练神经网络可能会导致良好的结果。自动分类技术对于即将到来的下一代无线电望远镜的调查至关重要,这预计将在不久的将来检测数十万个新的无线电星系。
translated by 谷歌翻译
大多数杂草物种都会通过竞争高价值作物所需的营养而产生对农业生产力的不利影响。手动除草对于大型种植区不实用。已经开展了许多研究,为农业作物制定了自动杂草管理系统。在这个过程中,其中一个主要任务是识别图像中的杂草。但是,杂草的认可是一个具有挑战性的任务。它是因为杂草和作物植物的颜色,纹理和形状类似,可以通过成像条件,当记录图像时的成像条件,地理或天气条件进一步加剧。先进的机器学习技术可用于从图像中识别杂草。在本文中,我们调查了五个最先进的深神经网络,即VGG16,Reset-50,Inception-V3,Inception-Resnet-V2和MobileNetv2,并评估其杂草识别的性能。我们使用了多种实验设置和多个数据集合组合。特别是,我们通过组合几个较小的数据集,通过数据增强构成了一个大型DataSet,缓解了类别不平衡,并在基于深度神经网络的基准测试中使用此数据集。我们通过保留预先训练的权重来调查使用转移学习技术来利用作物和杂草数据集的图像提取特征和微调它们。我们发现VGG16比小规模数据集更好地执行,而ResET-50比其他大型数据集上的其他深网络更好地执行。
translated by 谷歌翻译
机器学习方法实现文本识别的高精度,因此越来越多地用于手写历史来源的转录。然而,在生产中使用机器学习需要简化的端到端管道,该流程将扩展到数据集大小和模型,该模型具有几个手动转录的高精度。还必须验证模型结果的正确性。本文介绍了我们的经验教训,从挪威1950年人口普查中译码了开发,调整和使用互联端到端机器学习管道。我们为自动转录的代码达到97%的准确性,我们向3%的码发送了手动验证。我们核实我们的结果中发现的职业码分布与我们的培训数据中发现的分布相匹配,这应该是整个人口普查的代表。我们相信我们的方法和经验教训可能对计划在生产中使用机器学习的其他转录项目有用。源代码可用于:https://github.com/uit-hdl/rhd-codes
translated by 谷歌翻译
提取手写文本是数字化信息的最重要组成部分之一,并使其可用于大规模设置。手写光学角色读取器(OCR)是计算机视觉和自然语言处理计算的研究问题,对于英语,已经完成了许多工作,但是不幸的是,对于乌尔都语(例如乌尔都语)的低资源语言,几乎没有完成工作。乌尔都语语言脚本非常困难,因为它具有基于其相对位置的角色形状的草书性质和变化,因此,需要提出一个模型,该模型可以理解复杂的特征并将其推广到各种手写样式。在这项工作中,我们提出了一个基于变压器的乌尔都语手写文本提取模型。由于变压器在自然语言理解任务中非常成功,因此我们进一步探索它们以了解复杂的乌尔都语手写。
translated by 谷歌翻译
本文介绍了用于文档图像分析的图像数据集的系统文献综述,重点是历史文档,例如手写手稿和早期印刷品。寻找适当的数据集进行历史文档分析是促进使用不同机器学习算法进行研究的关键先决条件。但是,由于实际数据非常多(例如,脚本,任务,日期,支持系统和劣化量),数据和标签表示的不同格式以及不同的评估过程和基准,因此找到适当的数据集是一项艰巨的任务。这项工作填补了这一空白,并在现有数据集中介绍了元研究。经过系统的选择过程(根据PRISMA指南),我们选择了56项根据不同因素选择的研究,例如出版年份,文章中实施的方法数量,所选算法的可靠性,数据集大小和期刊的可靠性出口。我们通过将其分配给三个预定义的任务之一来总结每个研究:文档分类,布局结构或语义分析。我们为每个数据集提供统计,文档类型,语言,任务,输入视觉方面和地面真实信息。此外,我们还提供了这些论文或最近竞争的基准任务和结果。我们进一步讨论了该领域的差距和挑战。我们倡导将转换工具提供到通用格式(例如,用于计算机视觉任务的可可格式),并始终提供一组评估指标,而不仅仅是一种评估指标,以使整个研究的结果可比性。
translated by 谷歌翻译
Time Series Classification (TSC) is an important and challenging problem in data mining. With the increase of time series data availability, hundreds of TSC algorithms have been proposed. Among these methods, only a few have considered Deep Neural Networks (DNNs) to perform this task. This is surprising as deep learning has seen very successful applications in the last years. DNNs have indeed revolutionized the field of computer vision especially with the advent of novel deeper architectures such as Residual and Convolutional Neural Networks. Apart from images, sequential data such as text and audio can also be processed with DNNs to reach state-of-the-art performance for document classification and speech recognition. In this article, we study the current state-ofthe-art performance of deep learning algorithms for TSC by presenting an empirical study of the most recent DNN architectures for TSC. We give an overview of the most successful deep learning applications in various time series domains under a unified taxonomy of DNNs for TSC. We also provide an open source deep learning framework to the TSC community where we implemented each of the compared approaches and evaluated them on a univariate TSC benchmark (the UCR/UEA archive) and 12 multivariate time series datasets. By training 8,730 deep learning models on 97 time series datasets, we propose the most exhaustive study of DNNs for TSC to date.
translated by 谷歌翻译
Pneumonia, a respiratory infection brought on by bacteria or viruses, affects a large number of people, especially in developing and impoverished countries where high levels of pollution, unclean living conditions, and overcrowding are frequently observed, along with insufficient medical infrastructure. Pleural effusion, a condition in which fluids fill the lung and complicate breathing, is brought on by pneumonia. Early detection of pneumonia is essential for ensuring curative care and boosting survival rates. The approach most usually used to diagnose pneumonia is chest X-ray imaging. The purpose of this work is to develop a method for the automatic diagnosis of bacterial and viral pneumonia in digital x-ray pictures. This article first presents the authors' technique, and then gives a comprehensive report on recent developments in the field of reliable diagnosis of pneumonia. In this study, here tuned a state-of-the-art deep convolutional neural network to classify plant diseases based on images and tested its performance. Deep learning architecture is compared empirically. VGG19, ResNet with 152v2, Resnext101, Seresnet152, Mobilenettv2, and DenseNet with 201 layers are among the architectures tested. Experiment data consists of two groups, sick and healthy X-ray pictures. To take appropriate action against plant diseases as soon as possible, rapid disease identification models are preferred. DenseNet201 has shown no overfitting or performance degradation in our experiments, and its accuracy tends to increase as the number of epochs increases. Further, DenseNet201 achieves state-of-the-art performance with a significantly a smaller number of parameters and within a reasonable computing time. This architecture outperforms the competition in terms of testing accuracy, scoring 95%. Each architecture was trained using Keras, using Theano as the backend.
translated by 谷歌翻译
这项工作提出了一个基于注意力的序列到序列模型,用于手写单词识别,并探讨了用于HTR系统数据有效培训的转移学习。为了克服培训数据稀缺性,这项工作利用了在场景文本图像上预先训练的模型,作为调整手写识别模型的起点。Resnet特征提取和基于双向LSTM的序列建模阶段一起形成编码器。预测阶段由解码器和基于内容的注意机制组成。拟议的端到端HTR系统的有效性已在新型的多作用数据集IMGUR5K和IAM数据集上进行了经验评估。实验结果评估了HTR框架的性能,并通过对误差案例的深入分析进一步支持。源代码和预培训模型可在https://github.com/dmitrijsk/attentionhtr上找到。
translated by 谷歌翻译
目的。手写是日常生活中最常见的模式之一,由于它具有挑战性的应用,例如手写识别(HWR),作家识别和签名验证。与仅使用空间信息(即图像)的离线HWR相反,在线HWR(ONHWR)使用更丰富的时空信息(即轨迹数据或惯性数据)。尽管存在许多离线HWR数据集,但只有很少的数据可用于开发纸质上的ONHWR方法,因为它需要硬件集成的笔。方法。本文为实时序列到序列(SEQ2SEQ)学习和基于单个字符的识别提供了数据和基准模型。我们的数据由传感器增强的圆珠笔记录,从三轴加速度计,陀螺仪,磁力计和力传感器100 \,\ textit {hz}产生传感器数据流。我们建议各种数据集,包括与作者依赖和作者无关的任务的方程式和单词。我们的数据集允许在平板电脑上的经典ONHWR与传感器增强笔之间进行比较。我们使用经常性和时间卷积网络和变压器与连接派时间分类(CTC)损失(CTC)损失(CE)损失,为SEQ2SEQ和基于单个字符的HWR提供了评估基准。结果。我们的卷积网络与Bilstms相结合,优于基于变压器的架构,与基于序列的分类任务的启动时间相提并论,并且与28种最先进的技术相比,结果更好。时间序列扩展方法改善了基于序列的任务,我们表明CE变体可以改善单个分类任务。
translated by 谷歌翻译
车牌检测和认可(LPDR)对于实现智能运输并确保城市的安全性和安全性越来越重要。但是,LPDR在实用环境中面临巨大的挑战。车牌的尺寸,字体和颜色可能非常多样化,板图像通常是由于倾斜的捕获角度,不均匀的照明,遮挡和模糊而引起的质量差。在诸如监视之类的应用中,通常需要快速处理。为了实现实时和准确的车牌识别,在这项工作中,我们提出了一组技术:1)一种轮廓重建方法以及边缘检测,以快速检测候选板; 2)一种简单的零偏置方案,可有效删除板周围的假上和底部边界,以方便更准确地对板上的字符进行分割; 3)一组技术来增强培训数据,将SIFT功能纳入CNN网络,并利用转移学习以获得更有效的培训的初始参数; 4)一个两阶段验证程序,以低成本确定正确的板,在板检测阶段进行统计过滤,以快速去除不需要的候选者,以及在CR过程后的准确CR结果,以执行进一步的板验证而无需进行其他处理。我们根据算法实现完整的LPDR系统。实验结果表明,我们的系统可以实时准确识别车牌。此外,它在各个级别的照明和噪声下以及在有汽车运动的情况下稳健地工作。与同行方案相比,我们的系统不仅属于最准确的系统,而且也是最快的系统,并且可以轻松地应用于其他情况。
translated by 谷歌翻译
由于肿胀和病态增大,人体组织中组织的异常发育被称为肿瘤。它们主要被归类为良性和恶性。大脑中的肿瘤可能是致命的,因为它可能是癌性的,因此可以以附近的健康细胞为食并不断增加大小。这可能会影响大脑中软组织,神经细胞和小血管。因此,有必要以最高的精度在早期阶段检测和分类。脑肿瘤的大小和位置不同,这使得很难理解其性质。由于附近的健康细胞与肿瘤之间的相似性,即使使用先进的MRI(磁共振成像)技术,脑肿瘤的检测和分类过程也可能是一项繁重的任务。在本文中,我们使用Keras和Tensorflow来实施最先进的卷积神经网络(CNN)架构,例如EdgitionNetB0,Resnet50,Xpection,MobilenetV2和VGG16,使用转移学习来检测和分类三种类型的大脑肿瘤,即神经胶质瘤,脑膜瘤和垂体。我们使用的数据集由3264个2-D磁共振图像和4个类组成。由于数据集的尺寸较小,因此使用各种数据增强技术来增加数据集的大小。我们提出的方法不仅包括数据增强,而且还包括各种图像降级技术,头骨剥离,裁剪和偏置校正。在我们提出的工作效率NETB0体系结构中,最佳准确性为97.61%。本文的目的是区分正常和异常像素,并以更好的准确性对它们进行分类。
translated by 谷歌翻译
为了确保全球粮食安全和利益相关者的总体利润,正确检测和分类植物疾病的重要性至关重要。在这方面,基于深度学习的图像分类的出现引入了大量解决方案。但是,这些解决方案在低端设备中的适用性需要快速,准确和计算廉价的系统。这项工作提出了一种基于轻巧的转移学习方法,用于从番茄叶中检测疾病。它利用一种有效的预处理方法来增强具有照明校正的叶片图像,以改善分类。我们的系统使用组合模型来提取功能,该模型由预审计的MobilenETV2体系结构和分类器网络组成,以进行有效的预测。传统的增强方法被运行时的增加取代,以避免数据泄漏并解决类不平衡问题。来自PlantVillage数据集的番茄叶图像的评估表明,所提出的体系结构可实现99.30%的精度,型号大小为9.60mb和4.87亿个浮点操作,使其成为低端设备中现实生活的合适选择。我们的代码和型号可在https://github.com/redwankarimsony/project-tomato中找到。
translated by 谷歌翻译