智能论文笔记

A new database of Houma Alliance Book ancient handwritten characters and its baseline algorithm

Xiaoyu Yuan , Zhibo Zhang , Yabo Sun , Zekai Xue , Xiuyan Shao , Xiaohua Huang

分类：计算机视觉 | 人工智能

2022-07-13

侯马联盟书是中国山西博物馆小镇博物馆的国家宝藏之一。它在研究古老的历史方面具有重要的历史意义。迄今为止，关于霍玛联盟书籍的研究一直留在纸质文件的识别中，这是无法识别和难以显示，学习和宣传的纸质文件。因此，霍玛联盟公认的古代角色的数字化可以有效提高识别古代角色并提供更可靠的技术支持和文本数据的效率。本文提出了一个新的Houma Alliance书籍的新数据库。在数据库中，从原始书籍收藏和人类的模仿写作中收集了297个班级和3,547个Houma Alliance古代手写字符样本。此外，决策级分类器融合策略用于融合三个众所周知的深神网络体系结构，以供古代手写角色识别。实验是在我们的新数据库上执行的。实验结果首先为研究界提供了新数据库的基线结果，然后证明了我们提出的方法的效率。

translated by 谷歌翻译

Handwritten Arabic Character Recognition for Children Writ-ing Using Convolutional Neural Network and Stroke Identification

Mais Alheraki , Rawan Al-Matham , Hend Al-Khalifa

分类：计算机视觉 | 人工智能

2022-11-03

Automatic Arabic handwritten recognition is one of the recently studied problems in the field of Machine Learning. Unlike Latin languages, Arabic is a Semitic language that forms a harder challenge, especially with variability of patterns caused by factors such as writer age. Most of the studies focused on adults, with only one recent study on children. Moreover, much of the recent Machine Learning methods focused on using Convolutional Neural Networks, a powerful class of neural networks that can extract complex features from images. In this paper we propose a convolutional neural network (CNN) model that recognizes children handwriting with an accuracy of 91% on the Hijja dataset, a recent dataset built by collecting images of the Arabic characters written by children, and 97% on Arabic Handwritten Character Dataset. The results showed a good improvement over the proposed model from the Hijja dataset authors, yet it reveals a bigger challenge to solve for children Arabic handwritten character recognition. Moreover, we proposed a new approach using multi models instead of single model based on the number of strokes in a character, and merged Hijja with AHCD which reached an averaged prediction accuracy of 96%.

translated by 谷歌翻译

Two Decades of Bengali Handwritten Digit Recognition: A Survey

A. B. M. Ashikur Rahman , Md. Bakhtiar Hasan , Sabbir Ahmed , Tasnim Ahmed , Md. Hamjajul Ashmafee , Mohammad Ridwan Kabir , Md. Hasanul Kabir

分类：计算机视觉

2022-06-05

手写数字识别（HDR）是光学特征识别（OCR）领域中最具挑战性的任务之一。不管语言如何，HDR都存在一些固有的挑战，这主要是由于个人跨个人的写作风格的变化，编写媒介和环境的变化，无法在反复编写任何数字等时保持相同的笔触。除此之外，特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来，研究人员开发了许多离线和在线HDR管道，其中不同的图像处理技术与传统的机器学习（ML）基于基于的和/或基于深度学习（DL）的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据，例如：英语，阿拉伯语，印度，法尔西，中文等，但几乎没有对孟加拉人HDR（BHDR）的调查，这缺乏对孟加拉语HDR（BHDR）的研究，而这些调查缺乏对孟加拉语HDR（BHDR）的研究。挑战，基础识别过程以及可能的未来方向。在本文中，已经分析了孟加拉语手写数字的特征和固有的歧义，以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外，还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编，煽动了对相关研究的新途径的探索，这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。

translated by 谷歌翻译

A Survey of Historical Document Image Datasets

Konstantina Nikolaidou , Mathias Seuret , Hamam Mokayed , Marcus Liwicki

分类：计算机视觉

2022-03-16

本文介绍了用于文档图像分析的图像数据集的系统文献综述，重点是历史文档，例如手写手稿和早期印刷品。寻找适当的数据集进行历史文档分析是促进使用不同机器学习算法进行研究的关键先决条件。但是，由于实际数据非常多（例如，脚本，任务，日期，支持系统和劣化量），数据和标签表示的不同格式以及不同的评估过程和基准，因此找到适当的数据集是一项艰巨的任务。这项工作填补了这一空白，并在现有数据集中介绍了元研究。经过系统的选择过程（根据PRISMA指南），我们选择了56项根据不同因素选择的研究，例如出版年份，文章中实施的方法数量，所选算法的可靠性，数据集大小和期刊的可靠性出口。我们通过将其分配给三个预定义的任务之一来总结每个研究：文档分类，布局结构或语义分析。我们为每个数据集提供统计，文档类型，语言，任务，输入视觉方面和地面真实信息。此外，我们还提供了这些论文或最近竞争的基准任务和结果。我们进一步讨论了该领域的差距和挑战。我们倡导将转换工具提供到通用格式（例如，用于计算机视觉任务的可可格式），并始终提供一组评估指标，而不仅仅是一种评估指标，以使整个研究的结果可比性。

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

Multilayer deep feature extraction for visual texture recognition

Lucas O. Lyra , Antonio Elias Fabris , Joao B. Florindo

分类：计算机视觉

2022-08-22

卷积神经网络已在图像分类方面取得了成功的结果，从而实现了超过人类水平的实时结果。但是，纹理图像仍然对这些模型构成一些挑战，例如，在出现这些图像，高层间相似性，没有代表对象的全局观点的几个问题中，培训的数据可用性有限，并且其他。在这种情况下，本文的重点是提高纹理分类中卷积神经网络的准确性。这是通过从验证的神经网络的多个卷积层中提取特征并使用Fisher载体聚集此类特征来完成的。使用较早卷积层的特征的原因是获得了较少域的信息。我们验证方法对基准数据集的纹理分类以及巴西植物物种识别的实际任务的有效性。在这两种情况下，在多层上计算出的Fisher矢量都优于制作方法，证实早期卷积层提供了有关分类纹理图像的重要信息。

translated by 谷歌翻译

Exploiting Multi-Scale Fusion, Spatial Attention and Patch Interaction Techniques for Text-Independent Writer Identification

Abhishek Srivastava , Sukalpa Chanda , Umapada Pal

分类：计算机视觉

2021-11-20

文本独立作者识别是一个具有挑战性的问题，区分不同的笔迹样式来决定手写文本的作者。早期的作家识别依赖于手工制作的功能来揭示作家之间的差异。近期与卷积神经网络的出现，基于深度学习的方法已经发展。在本文中，提出了三种不同的深度学习技术 - 空间注意机制，多尺度特征融合和基于补丁的CNN，以有效地捕获每个作家手写之间的差异。我们的方法基于手写文本图像具有对作家风格更独特的特定空间区域的假设，多尺度特征在各个作家和基于补丁的功能方面传播特征特征，提供更多的一般和强大的表示有助于区分不同作家的笔迹。所提出的方法在三个公开的数据集 - CVL，Firemaker，CETUB-ZEN数据集中优于单词级和页面级写入方法的各种最先进的方法，并在IAM数据集中给出可比性的性能。

translated by 谷歌翻译

Huruf: An Application for Arabic Handwritten Character Recognition Using Deep Learning

Minhaz Kamal , Fairuz Shaiara , Chowdhury Mohammad Abdullah , Sabbir Ahmed , Tasnim Ahmed , Md. Hasanul Kabir

分类：计算机视觉

2022-12-16

Handwriting Recognition has been a field of great interest in the Artificial Intelligence domain. Due to its broad use cases in real life, research has been conducted widely on it. Prominent work has been done in this field focusing mainly on Latin characters. However, the domain of Arabic handwritten character recognition is still relatively unexplored. The inherent cursive nature of the Arabic characters and variations in writing styles across individuals makes the task even more challenging. We identified some probable reasons behind this and proposed a lightweight Convolutional Neural Network-based architecture for recognizing Arabic characters and digits. The proposed pipeline consists of a total of 18 layers containing four layers each for convolution, pooling, batch normalization, dropout, and finally one Global average pooling and a Dense layer. Furthermore, we thoroughly investigated the different choices of hyperparameters such as the choice of the optimizer, kernel initializer, activation function, etc. Evaluating the proposed architecture on the publicly available 'Arabic Handwritten Character Dataset (AHCD)' and 'Modified Arabic handwritten digits Database (MadBase)' datasets, the proposed model respectively achieved an accuracy of 96.93% and 99.35% which is comparable to the state-of-the-art and makes it a suitable solution for real-life end-level applications.

translated by 谷歌翻译

Handwritten text generation and strikethrough characters augmentation

Alex Shonenkov , Denis Karachev , Max Novopoltsev , Mark Potanin , Denis Dimitrov , Andrey Chertok

分类：计算机视觉

2021-12-14

我们介绍了两个数据增强技术，它与Reset-Bilstm-CTC网络一起使用，显着降低了在手写文本识别（HTR）任务上的最佳报告结果之外的字错误率（WER）和字符错误率（CER）。我们应用了一种基于打印文本（StackMix）的删除文本（手写污染）和手写文本生成方法的新型增强，这被证明在HTR任务中非常有效。StackMix使用弱监督框架来获得字符边界。因为这些数据增强技术与所使用的网络无关，所以也可以应用于增强其他网络的性能和HTR的方法。十个手写文本数据集的广泛实验表明，手写墨水增强和StackMix显着提高了HTR模型的质量

translated by 谷歌翻译

Product Re-identification System in Fully Automated Defect Detection

Chenggui Sun , Li Bin Song

分类：计算机视觉

2021-12-20

在这项工作中，我们介绍了一种方法，并提出了一种改进的神经工作，以执行产品重新识别，这是全自动产品缺陷检测系统的必要核心功能。我们的方法基于特征距离。它是特征提取神经网络的组合，如vgg16，alexnet，带图像搜索引擎 - vearch。我们用于开发产品重新识别系统的数据集是一个水瓶数据集，由400种液体瓶装组成。这是一个小型数据集，这是我们工作的最大挑战。然而，与vearch的神经网络的组合显示了解决产品重新识别问题的可能性。特别是，我们的新神经网络 - 基于AlexNet改进的神经网络的AlphaalexNet可以通过四个百分点提高生产识别准确性。这表明当可以引入和重新设计的高效特征提取方法时，可以实现理想的生产识别精度，以用于几乎相同产品的图像特征提取。为了解决由数据集的小尺寸造成的最大挑战以及识别彼此几乎没有差异的产品的困难性质。在我们未来的工作中，我们提出了一种新的路线图来解决几乎 - 相同的生产标识：介绍或开发需要很少的图像以训练自己的新算法。

translated by 谷歌翻译

Deep learning and machine learning for Malaria detection: overview, challenges and future directions

Imen Jdey , Ghazala Hcini , Hela Ltifi

分类：机器学习 | 人工智能

2022-09-27

为了产生最大的影响，必须使用基于证据的决策制定公共卫生计划。创建机器学习算法是为了收集，存储，处理和分析数据以提供知识和指导决策。任何监视系统的关键部分是图像分析。截至最近，计算机视觉和机器学习的社区最终对此感到好奇。这项研究使用各种机器学习和图像处理方法来检测和预测疟疾疾病。在我们的研究中，我们发现了深度学习技术作为具有更广泛适用于疟疾检测的智能工具的潜力，通过协助诊断病情，可以使医生受益。我们研究了针对计算机框架和组织的深度学习的共同限制，计算需要准备数据，准备开销，实时执行和解释能力，并发现对这些限制的轴承的未来询问。

translated by 谷歌翻译

A Comprehensive Review of Visual-Textual Sentiment Analysis from Social Media Networks

Israa Khalaf Salman Al-Tameemi , Mohammad-Reza Feizi-Derakhshi , Saeed Pashazadeh , Mohammad Asadpour

分类：自然语言处理 | 人工智能

2022-07-05

社交媒体网络已成为人们生活的重要方面，它是其思想，观点和情感的平台。因此，自动化情绪分析（SA）对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用，包括品牌评估，YouTube电影评论和医疗保健应用。随着社交媒体的不断发展，人们以不同形式发布大量信息，包括文本，照片，音频和视频。因此，传统的SA算法已变得有限，因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征，这些多模式数据流提供了新的机会，以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域，该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源，我们介绍了文本和视觉SA的全面概述，包括数据预处理，功能提取技术，情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略，并提供了有关Visual Textual SA的现有研究的摘要。最后，我们重点介绍了最重大的挑战，并调查了一些重要的情感应用程序。

translated by 谷歌翻译

SWP-LeafNET: A novel multistage approach for plant leaf identification based on deep CNN

Ali Beikmohammadi , Karim Faez , Ali Motallebi

分类：计算机视觉 | 机器学习

2020-09-10

现代科学和技术进步使植物学家可以使用基于计算机视觉的方法进行植物识别任务。这些方法有自己的挑战。叶片分类是针对自动识别植物物种执行的计算机视觉任务，这是由于叶片形态的变化，包括其大小，质地，形状和静脉，这是一个严重的挑战。由于普及和成功实施图像分析，对象识别和语音识别，研究人员最近越来越倾向于基于深度学习的方法，而不是基于传统特征的方法。在本文中，要拥有一个可解释且可靠的系统，通过提出一种通过三个基于深度学习的模型开发出高效的最大行为相似之处的高效方法，以叶片识别建模。可视化三个模型的不同层，以确保对植物学家的行为进行准确的建模。第一和第二型型号是从头开始设计的。关于第三个模型，采用了预培训的MobilenetV2与转移学习技术一起使用。在两个著名的数据集上评估了所提出的方法：Flavia和Malayakew。根据比较分析，建议的方法比手工制作的特征提取方法和其他深度学习技术更准确，而精度为99.67％和99.81％。与具有自己特定复杂性并依赖数据集的传统技术不同，所提出的方法不需要手工制作的功能提取。同样，与其他深度学习技术相比，它可以提高准确性。此外，SWP叶出现的分布且比其他方法要快得多，因为使用了较少的参数，因此异步使用了较少的参数。

translated by 谷歌翻译

Offline Text-Independent Writer Identification based on word level data

Vineet Kumar , Suresh Sundaram

分类：计算机视觉

2022-02-21

本文提出了一种新的方案，以根据个人的手写输入单词图像来识别文档的作者身份。我们的方法是与文本无关的，并且对所考虑的输入单词图像的大小没有任何限制。首先，我们采用SIFT算法在不同级别的抽象（包括字符的特征或组合）上提取多个关键点。然后，这些关键点通过训练有素的CNN网络，以生成与卷积层相对应的特征图。但是，由于比例对应于SIFT密钥点，生成的特征映射的大小可能会有所不同。为了缓解此问题，将梯度的直方图应用于特征图上以产生固定表示。通常，在CNN中，每个卷积块的过滤器数量增加，具体取决于网络的深度。因此，为每个卷积特征图提取直方图特征增加了尺寸以及计算负载。为了解决这一方面，我们使用基于熵的方法来学习算法的训练阶段中特定CNN层的特征图的权重。我们提出的系统的功效已在两个公开数据库中证明，即CVL和IAM。我们从经验上表明，与以前的作品相比，获得的结果是有希望的。

translated by 谷歌翻译

Breast Cancer Classification using Deep Learned Features Boosted with Handcrafted Features

Unaiza Sajid , Dr. Rizwan Ahmed Khan , Dr. Shahid Munir Shah , Dr. Sheeraz Arif

分类：计算机视觉 | 机器学习

2022-06-26

乳腺癌是全球女性死亡的主要原因之一。如果在高级阶段检测到很难治疗，但是，早期发现可以显着增加生存机会，并改善数百万妇女的生活。鉴于乳腺癌的普遍流行，研究界提出早期检测，分类和诊断的框架至关重要。与医生协调的人工智能研究社区正在开发此类框架以自动化检测任务。随着研究活动的激增，加上大型数据集的可用性和增强的计算能力，预计AI框架结果将有助于更多的临床医生做出正确的预测。在本文中，提出了使用乳房X线照片对乳腺癌进行分类的新框架。所提出的框架结合了从新颖的卷积神经网络（CNN）功能中提取的强大特征，以及手工制作的功能，包括猪（定向梯度的直方图）和LBP（本地二进制图案）。在CBIS-DDSM数据集上获得的结果超过了技术状态。

translated by 谷歌翻译

Applications of Deep Learning in Fish Habitat Monitoring: A Tutorial and Survey

Alzayat Saleh , Marcus Sheaves , Dean Jerry , Mostafa Rahimi Azghadi

分类：计算机视觉

2022-06-11

海洋生态系统及其鱼类栖息地越来越重要，因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然，因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据，这些数据无法通过当前的手动处理方法有效地分析，这些方法涉及人类观察者。 DL是一种尖端的AI技术，在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域，但仍在探索其在水下鱼类栖息地监测中的使用。在本文中，我们提供了一个涵盖DL的关键概念的教程，该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序，讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外，我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查，包括分类，计数，定位和细分。此外，我们对水下鱼类数据集进行了公开调查，并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解，通过遵循我们的分步教程而为其应用开发的海洋科学家的教程，并了解如何发展其研究，以促进他们的研究。努力。同时，它适用于希望调查基于DL的最先进方法的计算机科学家，以进行鱼类栖息地监测。

translated by 谷歌翻译

Counteracting Dark Web Text-Based CAPTCHA with Generative Adversarial Learning for Proactive Cyber Threat Intelligence

Ning Zhang , Mohammadreza Ebrahimi , Weifeng Li , Hsinchun Chen

分类：计算机视觉

2022-01-08

大规模的暗网（DW）平台的自动监测是发展主动网络威胁情报（CTI）的第一步。虽然有高效的方法用于从表面纤维网收集数据，但大规模的暗网络数据收集通常受到防爬爬措施的阻碍。特别是，基于文本的CAPTCHA是暗网中最普遍的和禁止这些措施的最普遍和禁止的类型。基于文本的CAPTCHA通过强制用户输入难以识别的字母数字字符的组合来识别和阻止自动爬虫。在暗网中，CAPTCHA图像被精心设计，具有额外的背景噪声和可变性格长度，以防止自动验证码断裂。现有的自动CAPTCHA断裂方法难以克服这些暗网挑战。因此，解决基于暗网络文本的CAPTCHA一直依赖于人类参与，这是劳动密集型且耗时的人。在这项研究中，我们提出了一种新颖的框架，用于自动破坏暗网CAPTCHA，以促进暗网络数据收集。该框架包括一种新的生成方法，可以识别基于黑色的Web文本的CAPTCHA，其中包含嘈杂的背景和可变字符长度。为了消除对人类参与的需求，所提出的框架利用生成的对抗网络（GaN）来抵消暗网背景噪声并利用增强的字符分割算法来处理具有可变字符长度的CAPTCHA图像。我们提出的框架DW-GaN在多个暗网络CAPTCHA测试台上进行了系统地评估。 DW-GaN在所有数据集中大大表现出最先进的基准方法，在仔细收集的真实世界黑色网络数据集中实现了超过94.4％的成功率......

translated by 谷歌翻译

Touchless Palmprint Recognition based on 3D Gabor Template and Block Feature Refinement

Zhaoqun Li , Xu Liang , Dandan Fan , Jinxing Li , Wei Jia , David Zhang

分类：计算机视觉 | 人工智能

2021-03-03

随着对手工卫生的需求不断增长和使用的便利性，掌上识别最近具有淡淡的发展，为人识别提供了有效的解决方案。尽管已经致力于该地区的许多努力，但仍然不确定无接触棕榈污染的辨别能力，特别是对于大规模数据集。为了解决问题，在本文中，我们构建了一个大型无尺寸的棕榈纹数据集，其中包含了来自1167人的2334个棕榈手机。为了我们的最佳知识，它是有史以来最大的非接触式手掌形象基准，而是关于个人和棕榈树的数量收集。此外，我们提出了一个名为3DCPN（3D卷积棕榈识别网络）的无棕榈识别的新型深度学习框架，它利用3D卷积来动态地集成多个Gabor功能。在3DCPN中，嵌入到第一层中的新颖变体以增强曲线特征提取。通过精心设计的集合方案，然后将低级别的3D功能卷积以提取高级功能。最后在顶部，我们设置了基于地区的损失功能，以加强全局和本地描述符的辨别能力。为了展示我们方法的优越性，在我们的数据集和其他流行数据库同济和IITD上进行了广泛的实验，其中结果显示了所提出的3DCPN实现最先进的或可比性的性能。

translated by 谷歌翻译

Review On Deep Learning Technique For Underwater Object Detection

Radhwan Adnan Dakhil , Ali Retha Hasoon Khayeat

分类：计算机视觉

2022-09-21

水下结构的维修和维护以及海洋科学在很大程度上依赖于水下对象检测的结果，这是图像处理工作流程的关键部分。尽管已经提出了许多基于计算机视觉的方法，但还没有人开发出一种可靠，准确地检测并对深海中发现的物体和动物进行分类的系统。这主要是由于障碍物在水下环境中散射和吸收光线。随着深度学习的引入，科学家们已经能够解决广泛的问题，包括保护海洋生态系统，在紧急情况下挽救生命，防止水下灾难，并发现，汤匙和识别水下目标。但是，这些深度学习系统的好处和缺点仍然未知。因此，本文的目的是提供在水下对象检测中使用的数据集的概述，并介绍为此目的所采用的算法的优势和缺点的讨论。

translated by 谷歌翻译

An Approach for Improving Automatic Mouth Emotion Recognition

Giulio Biondi , Valentina Franzoni , Osvaldo Gervasi , Damiano Perri

分类：计算机视觉

2022-12-12

The study proposes and tests a technique for automated emotion recognition through mouth detection via Convolutional Neural Networks (CNN), meant to be applied for supporting people with health disorders with communication skills issues (e.g. muscle wasting, stroke, autism, or, more simply, pain) in order to recognize emotions and generate real-time feedback, or data feeding supporting systems. The software system starts the computation identifying if a face is present on the acquired image, then it looks for the mouth location and extracts the corresponding features. Both tasks are carried out using Haar Feature-based Classifiers, which guarantee fast execution and promising performance. If our previous works focused on visual micro-expressions for personalized training on a single user, this strategy aims to train the system also on generalized faces data sets.

translated by 谷歌翻译