尽管是世界上最口语(基于人口的6 ^ {Th} $ 6 ^ {Th}),但与其他突出语言相比,还没有探讨关于孟加拉手写的图形(书写系统的最小功能单位)分类。此外,孟加拉语中的大量标记组合使得该分类任务非常具有挑战性。随着贡献这一研究问题,我们参加了一个拍手{kaggle_link}的挑战是分别分类图像中的孟加拉图格图的三个组成元素:石墨烯根,元音形象和辅音又辅音。我们探讨了一些现有神经网络模型的表演,例如多层的Perceptron(MLP)和艺术resnet50的状态。为了进一步提高性能,我们提出了我们自己的卷积神经网络(CNN)模型,用于孟加拉图形分类,具有验证根精度95.32 \%,元音精度98.61 \%,并辅音精度为98.76 \%。我们还使用VGGNet探索区域提案网络(RPN),其中设置有限的设置,可以成为提高性能的潜在未来方向。
translated by 谷歌翻译
手写角色识别一直是模式识别和人工智能领域中的研究中心和基准问题,它仍然是一个充满挑战的研究主题。由于其庞大的应用程序,该领域的许多工作都集中在不同的语言上。阿拉伯语是一种多元化的语言,具有大量的研究范围,并带来了潜在的挑战。本文提出了一种用于识别阿拉伯语手写数字的卷积神经网络模型,该论文的数据集受到各种增强的约束,以增加深度学习方法所需的鲁棒性。提出的方法通过辍学的正则化来授权,以消除数据过度拟合的问题。此外,在激活函数中引入了合适的变化,以克服消失梯度的问题。通过这些修改,所提出的系统的精度为99.4 \%,其性能比数据集上的每项工作都更好。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
Handwriting Recognition has been a field of great interest in the Artificial Intelligence domain. Due to its broad use cases in real life, research has been conducted widely on it. Prominent work has been done in this field focusing mainly on Latin characters. However, the domain of Arabic handwritten character recognition is still relatively unexplored. The inherent cursive nature of the Arabic characters and variations in writing styles across individuals makes the task even more challenging. We identified some probable reasons behind this and proposed a lightweight Convolutional Neural Network-based architecture for recognizing Arabic characters and digits. The proposed pipeline consists of a total of 18 layers containing four layers each for convolution, pooling, batch normalization, dropout, and finally one Global average pooling and a Dense layer. Furthermore, we thoroughly investigated the different choices of hyperparameters such as the choice of the optimizer, kernel initializer, activation function, etc. Evaluating the proposed architecture on the publicly available 'Arabic Handwritten Character Dataset (AHCD)' and 'Modified Arabic handwritten digits Database (MadBase)' datasets, the proposed model respectively achieved an accuracy of 96.93% and 99.35% which is comparable to the state-of-the-art and makes it a suitable solution for real-life end-level applications.
translated by 谷歌翻译
Automatic Arabic handwritten recognition is one of the recently studied problems in the field of Machine Learning. Unlike Latin languages, Arabic is a Semitic language that forms a harder challenge, especially with variability of patterns caused by factors such as writer age. Most of the studies focused on adults, with only one recent study on children. Moreover, much of the recent Machine Learning methods focused on using Convolutional Neural Networks, a powerful class of neural networks that can extract complex features from images. In this paper we propose a convolutional neural network (CNN) model that recognizes children handwriting with an accuracy of 91% on the Hijja dataset, a recent dataset built by collecting images of the Arabic characters written by children, and 97% on Arabic Handwritten Character Dataset. The results showed a good improvement over the proposed model from the Hijja dataset authors, yet it reveals a bigger challenge to solve for children Arabic handwritten character recognition. Moreover, we proposed a new approach using multi models instead of single model based on the number of strokes in a character, and merged Hijja with AHCD which reached an averaged prediction accuracy of 96%.
translated by 谷歌翻译
与RGB图像相比,高光谱图像包含更多数量的通道,因此包含有关图像中实体的更多信息。卷积神经网络(CNN)和多层感知器(MLP)已被证明是一种有效的图像分类方法。但是,他们遭受了长期培训时间和大量标记数据的要求,以达到预期的结果。在处理高光谱图像时,这些问题变得更加复杂。为了减少训练时间并减少对大型标记数据集的依赖性,我们建议使用转移学习方法。使用PCA将高光谱数据集预处理到较低的维度,然后将深度学习模型应用于分类。然后,转移学习模型使用该模型学到的功能来解决看不见的数据集上的新分类问题。进行了CNN和多个MLP体系结构模型的详细比较,以确定最适合目标的最佳体系结构。结果表明,层的缩放并不总是会导致准确性的提高,但通常会导致过度拟合,并增加训练时间。通过应用转移学习方法而不仅仅是解决问题,训练时间更大程度地减少了。通过直接在大型数据集上训练新模型,而不会影响准确性。
translated by 谷歌翻译
Handwritten character recognition is a hot topic for research nowadays. If we can convert a handwritten piece of paper into a text-searchable document using the Optical Character Recognition (OCR) technique, we can easily understand the content and do not need to read the handwritten document. OCR in the English language is very common, but in the Bengali language, it is very hard to find a good quality OCR application. If we can merge machine learning and deep learning with OCR, it could be a huge contribution to this field. Various researchers have proposed a number of strategies for recognizing Bengali handwritten characters. A lot of ML algorithms and deep neural networks were used in their work, but the explanations of their models are not available. In our work, we have used various machine learning algorithms and CNN to recognize handwritten Bengali digits. We have got acceptable accuracy from some ML models, and CNN has given us great testing accuracy. Grad-CAM was used as an XAI method on our CNN model, which gave us insights into the model and helped us detect the origin of interest for recognizing a digit from an image.
translated by 谷歌翻译
草书手写文本识别是模式识别领域中一个具有挑战性的研究问题。当前的最新方法包括基于卷积复发性神经网络和多维长期记忆复发性神经网络技术的模型。这些方法在高度计算上是广泛的模型,在设计级别上也很复杂。在最近的研究中,与基于卷积的复发性神经网络相比,基于卷积神经网络和票面卷积神经网络模型的组合显示出较少的参数。在减少要训练的参数总数的方向上,在这项工作中,我们使用了深度卷积代替标准卷积,结合了封闭式跨跨跨性神经网络和双向封闭式复发单元来减少参数总数接受训练。此外,我们还在测试步骤中包括了基于词典的单词梁搜索解码器。它还有助于提高模型的整体准确性。我们在IAM数据集上获得了3.84%的字符错误率和9.40%的单词错误率;乔治·华盛顿数据集的字符错误率和14.56%的字符错误率和14.56%的单词错误率。
translated by 谷歌翻译
由于缺乏自动注释系统,大多数发展城市的城市机构都是数字未标记的。因此,在此类城市中,位置和轨迹服务(例如Google Maps,Uber等)仍然不足。自然场景图像中的准确招牌检测是从此类城市街道检索无错误的信息的最重要任务。然而,开发准确的招牌本地化系统仍然是尚未解决的挑战,因为它的外观包括文本图像和令人困惑的背景。我们提出了一种新型的对象检测方法,该方法可以自动检测招牌,适合此类城市。我们通过合并两种专业预处理方法和一种运行时效高参数值选择算法来使用更快的基于R-CNN的定位。我们采用了一种增量方法,通过使用我们构造的SVSO(Street View Signboard对象)签名板数据集,通过详细评估和与基线进行比较,以达到最终提出的方法,这些方法包含六个发展中国家的自然场景图像。我们在SVSO数据集和Open Image数据集上展示了我们提出的方法的最新性能。我们提出的方法可以准确地检测招牌(即使图像包含多种形状和颜色的多种嘈杂背景的招牌)在SVSO独立测试集上达到0.90 MAP(平均平均精度)得分。我们的实施可在以下网址获得:https://github.com/sadrultoaha/signboard-detection
translated by 谷歌翻译
阿尔茨海默氏病是一种进行性神经退行性疾病,逐渐剥夺患者的认知功能,并可能以死亡结束。随着当今技术的发展,可以通过磁共振成像(MRI)扫描来检测阿尔茨海默氏病。因此,MRI是最常用于诊断和分析阿尔茨海默氏病进展的技术。有了这项技术,可以使用机器学习自动实现对阿尔茨海默氏病的早期诊断的图像识别。尽管机器学习具有许多优势,但目前使用深度学习的应用更广泛地应用,因为它具有更强的学习能力,并且更适合解决图像识别问题。但是,仍然存在一些挑战以实施深度学习,例如对大型数据集的需求,需要大量的计算资源以及需要仔细的参数设置以防止过度拟合或不足。在应对使用深度学习对阿尔茨海默氏病进行分类的挑战时,本研究提出了使用残留网络18层(RESNET-18)体系结构的卷积神经网络(CNN)方法。为了克服对大型且平衡的数据集的需求,使用来自ImageNet的传输学习并加权损耗函数值,以使每个类具有相同的权重。而且,在这项研究中,通过将网络激活函数更改为MISH激活函数以提高准确性,从而进行了实验。从已经进行的测试结果中,使用转移学习,加权损失和MISH激活函数的模型准确性为88.3%。该准确性值来自基线模型,仅获得69.1%的精度。
translated by 谷歌翻译
小行星主带通过平均动力和世俗共振的网络越过,这在小行星和行星的基本频率之间具有相当性时发生。传统上,这些对象是通过视觉检查其共鸣论点的时间演变来识别的,它们是小行星和扰动星球的轨道元素的结合。由于在某些情况下,受这些共振影响的小行星人口是数千个的顺序,因此对于人类观察者来说,这已成为一项纳税任务。最近的作品使用卷积神经网络(CNN)模型自动执行此类任务。在这项工作中,我们将此类模型的结果与一些最先进和可公开的CNN体​​系结构(如VGG,Inception和Resnet)进行了比较。首先使用验证集和一系列正规化技术(例如数据扩展,辍学和批处理标准)进行测试和优化此类模型的性能。然后使用三个最佳模型来预测包含数千张图像的较大测试数据库的标签。事实证明,有和没有正规化的VGG模型是预测大型数据集标签的最有效方法。由于Vera C. Rubin天文台在未来几年内可能会发现多达四百万个新的小行星,因此这些模型的使用可能会非常有价值,以识别共鸣的次要人群。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
为了确保全球粮食安全和利益相关者的总体利润,正确检测和分类植物疾病的重要性至关重要。在这方面,基于深度学习的图像分类的出现引入了大量解决方案。但是,这些解决方案在低端设备中的适用性需要快速,准确和计算廉价的系统。这项工作提出了一种基于轻巧的转移学习方法,用于从番茄叶中检测疾病。它利用一种有效的预处理方法来增强具有照明校正的叶片图像,以改善分类。我们的系统使用组合模型来提取功能,该模型由预审计的MobilenETV2体系结构和分类器网络组成,以进行有效的预测。传统的增强方法被运行时的增加取代,以避免数据泄漏并解决类不平衡问题。来自PlantVillage数据集的番茄叶图像的评估表明,所提出的体系结构可实现99.30%的精度,型号大小为9.60mb和4.87亿个浮点操作,使其成为低端设备中现实生活的合适选择。我们的代码和型号可在https://github.com/redwankarimsony/project-tomato中找到。
translated by 谷歌翻译
无线电星系的连续排放通常可以分为不同的形态学类,如FRI,Frii,弯曲或紧凑。在本文中,我们根据使用深度学习方法使用小规模数据集的深度学习方法来探讨基于形态的无线电星系分类的任务($ \ SIM 2000 $ Samples)。我们基于双网络应用了几次射击学习技术,并使用预先培训的DENSENET模型进行了先进技术的传输学习技术,如循环学习率和歧视性学习迅速训练模型。我们使用最佳表演模型实现了超过92 \%的分类准确性,其中最大的混乱来源是弯曲和周五型星系。我们的结果表明,专注于一个小但策划数据集随着使用最佳实践来训练神经网络可能会导致良好的结果。自动分类技术对于即将到来的下一代无线电望远镜的调查至关重要,这预计将在不久的将来检测数十万个新的无线电星系。
translated by 谷歌翻译
为了产生最大的影响,必须使用基于证据的决策制定公共卫生计划。创建机器学习算法是为了收集,存储,处理和分析数据以提供知识和指导决策。任何监视系统的关键部分是图像分析。截至最近,计算机视觉和机器学习的社区最终对此感到好奇。这项研究使用各种机器学习和图像处理方法来检测和预测疟疾疾病。在我们的研究中,我们发现了深度学习技术作为具有更广泛适用于疟疾检测的智能工具的潜力,通过协助诊断病情,可以使医生受益。我们研究了针对计算机框架和组织的深度学习的共同限制,计算需要准备数据,准备开销,实时执行和解释能力,并发现对这些限制的轴承的未来询问。
translated by 谷歌翻译
In this paper, deep-learning-based approaches namely fine-tuning of pretrained convolutional neural networks (VGG16 and VGG19), and end-to-end training of a developed CNN model, have been used in order to classify X-Ray images into four different classes that include COVID-19, normal, opacity and pneumonia cases. A dataset containing more than 20,000 X-ray scans was retrieved from Kaggle and used in this experiment. A two-stage classification approach was implemented to be compared to the one-shot classification approach. Our hypothesis was that a two-stage model will be able to achieve better performance than a one-shot model. Our results show otherwise as VGG16 achieved 95% accuracy using one-shot approach over 5-fold of training. Future work will focus on a more robust implementation of the two-stage classification model Covid-TSC. The main improvement will be allowing data to flow from the output of stage-1 to the input of stage-2, where stage-1 and stage-2 models are VGG16 models fine-tuned on the Covid-19 dataset.
translated by 谷歌翻译
With the advancement in computing and robotics, it is necessary to develop fluent and intuitive methods for interacting with digital systems, augmented/virtual reality (AR/VR) interfaces, and physical robotic systems. Hand motion recognition is widely used to enable these interactions. Hand configuration classification and MCP joint angle detection is important for a comprehensive reconstruction of hand motion. sEMG and other technologies have been used for the detection of hand motions. Forearm ultrasound images provide a musculoskeletal visualization that can be used to understand hand motion. Recent work has shown that these ultrasound images can be classified using machine learning to estimate discrete hand configurations. Estimating both hand configuration and MCP joint angles based on forearm ultrasound has not been addressed in the literature. In this paper, we propose a CNN based deep learning pipeline for predicting the MCP joint angles. The results for the hand configuration classification were compared by using different machine learning algorithms. SVC with different kernels, MLP, and the proposed CNN have been used to classify the ultrasound images into 11 hand configurations based on activities of daily living. Forearm ultrasound images were acquired from 6 subjects instructed to move their hands according to predefined hand configurations. Motion capture data was acquired to get the finger angles corresponding to the hand movements at different speeds. Average classification accuracy of 82.7% for the proposed CNN and over 80% for SVC for different kernels was observed on a subset of the dataset. An average RMSE of 7.35 degrees was obtained between the predicted and the true MCP joint angles. A low latency (6.25 - 9.1 Hz) pipeline has been proposed for estimating both MCP joint angles and hand configuration aimed at real-time control of human-machine interfaces.
translated by 谷歌翻译
由于肿胀和病态增大,人体组织中组织的异常发育被称为肿瘤。它们主要被归类为良性和恶性。大脑中的肿瘤可能是致命的,因为它可能是癌性的,因此可以以附近的健康细胞为食并不断增加大小。这可能会影响大脑中软组织,神经细胞和小血管。因此,有必要以最高的精度在早期阶段检测和分类。脑肿瘤的大小和位置不同,这使得很难理解其性质。由于附近的健康细胞与肿瘤之间的相似性,即使使用先进的MRI(磁共振成像)技术,脑肿瘤的检测和分类过程也可能是一项繁重的任务。在本文中,我们使用Keras和Tensorflow来实施最先进的卷积神经网络(CNN)架构,例如EdgitionNetB0,Resnet50,Xpection,MobilenetV2和VGG16,使用转移学习来检测和分类三种类型的大脑肿瘤,即神经胶质瘤,脑膜瘤和垂体。我们使用的数据集由3264个2-D磁共振图像和4个类组成。由于数据集的尺寸较小,因此使用各种数据增强技术来增加数据集的大小。我们提出的方法不仅包括数据增强,而且还包括各种图像降级技术,头骨剥离,裁剪和偏置校正。在我们提出的工作效率NETB0体系结构中,最佳准确性为97.61%。本文的目的是区分正常和异常像素,并以更好的准确性对它们进行分类。
translated by 谷歌翻译
农业是人类社会的支柱,因为它对每个生物体都是必需的。就人类而言,帕迪种植非常重要,主要是亚洲大陆,这是主食食品之一。然而,农业中的植物疾病导致生产力枯竭。植物疾病通常是由害虫,昆虫和病原体引起的,如果在特定时间内不受控制,它们的生产力将大规模降低至大规模。最终,人们看不到稻田产量的增加。准确,及时识别植物疾病可以帮助农民减轻由于害虫和疾病而导致的损失。最近,深度学习技术已被用来识别稻田疾病并克服这些问题。本文基于模型实现了卷积神经网络(CNN),并测试了由636个红外图像样本组成的公共数据集,其中有五个帕迪病类别和一个健康的类别。拟议的模型熟练地识别和分类的五种不同类型的帕迪疾病,准确度为88.28%
translated by 谷歌翻译