智能论文笔记

Sign Language to Text Conversion in Real Time using Transfer Learning

Shubham Thakar , Samveg Shah , Bhavya Shah , Anant V. Nimkar

分类：计算机视觉 | 机器学习

2022-11-13

The people in the world who are hearing impaired face many obstacles in communication and require an interpreter to comprehend what a person is saying. There has been constant scientific research and the existing models lack the ability to make accurate predictions. So we propose a deep learning model trained on ASL i.e. American Sign Language which will take actions in the form of ASL as input and translate it into text. To achieve the translation a Convolution Neural Network model and a transfer learning model based on the VGG16 architecture are used. There has been an improvement in accuracy from 94% of CNN to 98.7% of Transfer Learning, an improvement of 5%. An application with the deep learning model integrated has also been built.

translated by 谷歌翻译

Terrain Classification using Transfer Learning on Hyperspectral Images: A Comparative study

Uphar Singh , Kumar Saurabh , Neelaksh Trehan , Ranjana Vyas , O. P. Vyas

分类：计算机视觉 | 人工智能 | 机器学习

2022-06-19

与RGB图像相比，高光谱图像包含更多数量的通道，因此包含有关图像中实体的更多信息。卷积神经网络（CNN）和多层感知器（MLP）已被证明是一种有效的图像分类方法。但是，他们遭受了长期培训时间和大量标记数据的要求，以达到预期的结果。在处理高光谱图像时，这些问题变得更加复杂。为了减少训练时间并减少对大型标记数据集的依赖性，我们建议使用转移学习方法。使用PCA将高光谱数据集预处理到较低的维度，然后将深度学习模型应用于分类。然后，转移学习模型使用该模型学到的功能来解决看不见的数据集上的新分类问题。进行了CNN和多个MLP体系结构模型的详细比较，以确定最适合目标的最佳体系结构。结果表明，层的缩放并不总是会导致准确性的提高，但通常会导致过度拟合，并增加训练时间。通过应用转移学习方法而不仅仅是解决问题，训练时间更大程度地减少了。通过直接在大型数据集上训练新模型，而不会影响准确性。

translated by 谷歌翻译

Sign Language Detection

Shubham Deshmukh , Favin Fernandes , Amey Chavan

分类：计算机视觉

2022-09-08

随着计算机视觉技术的进步，根据其功能对图像进行分类的需求已成为一项巨大的任务和必要性。在此项目中，我们提出了2种模型，即使用ORB和SVM的特征提取和分类，第二个是使用CNN体系结构。该项目的最终结果是了解特征提取和图像分类背后的概念。训练有素的CNN模型还将用于将其转换为用于Android开发的TFLITE格式。

translated by 谷歌翻译

Two Decades of Bengali Handwritten Digit Recognition: A Survey

A. B. M. Ashikur Rahman , Md. Bakhtiar Hasan , Sabbir Ahmed , Tasnim Ahmed , Md. Hamjajul Ashmafee , Mohammad Ridwan Kabir , Md. Hasanul Kabir

分类：计算机视觉

2022-06-05

手写数字识别（HDR）是光学特征识别（OCR）领域中最具挑战性的任务之一。不管语言如何，HDR都存在一些固有的挑战，这主要是由于个人跨个人的写作风格的变化，编写媒介和环境的变化，无法在反复编写任何数字等时保持相同的笔触。除此之外，特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来，研究人员开发了许多离线和在线HDR管道，其中不同的图像处理技术与传统的机器学习（ML）基于基于的和/或基于深度学习（DL）的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据，例如：英语，阿拉伯语，印度，法尔西，中文等，但几乎没有对孟加拉人HDR（BHDR）的调查，这缺乏对孟加拉语HDR（BHDR）的研究，而这些调查缺乏对孟加拉语HDR（BHDR）的研究。挑战，基础识别过程以及可能的未来方向。在本文中，已经分析了孟加拉语手写数字的特征和固有的歧义，以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外，还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编，煽动了对相关研究的新途径的探索，这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。

translated by 谷歌翻译

Automatic COVID-19 disease diagnosis using 1D convolutional neural network and augmentation with human respiratory sound based on parameters: cough, breath, and voice

Kranthi Kumar Lella , Alphonse Pja

分类：机器学习

2021-12-14

呼吸声分类中的问题已在去年的临床科学家和医学研究员团体中获得了良好的关注，以诊断Covid-19疾病。迄今为止，各种模型的人工智能（AI）进入了现实世界，从人类生成的声音等人生成的声音中检测了Covid-19疾病，例如语音/言语，咳嗽和呼吸。实现卷积神经网络（CNN）模型，用于解决基于人工智能（AI）的机器上的许多真实世界问题。在这种情况下，建议并实施一个维度（1D）CNN，以诊断Covid-19的呼吸系统疾病，例如语音，咳嗽和呼吸。应用基于增强的机制来改善Covid-19声音数据集的预处理性能，并使用1D卷积网络自动化Covid-19疾病诊断。此外，使用DDAE（数据去噪自动编码器）技术来产生诸如输入功能的深声特征，而不是采用MFCC（MEL频率跳跃系数）的标准输入，并且它更好地执行比以前的型号的准确性和性能。

translated by 谷歌翻译

Deep learning and machine learning for Malaria detection: overview, challenges and future directions

Imen Jdey , Ghazala Hcini , Hela Ltifi

分类：机器学习 | 人工智能

2022-09-27

为了产生最大的影响，必须使用基于证据的决策制定公共卫生计划。创建机器学习算法是为了收集，存储，处理和分析数据以提供知识和指导决策。任何监视系统的关键部分是图像分析。截至最近，计算机视觉和机器学习的社区最终对此感到好奇。这项研究使用各种机器学习和图像处理方法来检测和预测疟疾疾病。在我们的研究中，我们发现了深度学习技术作为具有更广泛适用于疟疾检测的智能工具的潜力，通过协助诊断病情，可以使医生受益。我们研究了针对计算机框架和组织的深度学习的共同限制，计算需要准备数据，准备开销，实时执行和解释能力，并发现对这些限制的轴承的未来询问。

translated by 谷歌翻译

Hybrid Facial Expression Recognition (FER2013) Model for Real-Time Emotion Classification and Prediction

Ozioma Collins Oguine , Kaleab Alamayehu Kinfu , Kanyifeechukwu Jane Oguine , Hashim Ibrahim Bisallah , Daniel Ofuani

分类：计算机视觉 | 人工智能 | 机器人

2022-06-19

在大多数领域，从人工智能和游戏到人类计算机互动（HCI）和心理学，面部表情识别是一个重要的研究主题。本文提出了一个用于面部表达识别的混合模型，该模型包括深度卷积神经网络（DCNN）和HAAR级联深度学习体系结构。目的是将实时和数字面部图像分类为所考虑的七个面部情感类别之一。这项研究中使用的DCNN具有更多的卷积层，恢复激活功能以及多个内核，以增强滤波深度和面部特征提取。此外，HAAR级联模型还相互用于检测实时图像和视频帧中的面部特征。来自Kaggle存储库（FER-2013）的灰度图像，然后利用图形处理单元（GPU）计算以加快培训和验证过程。预处理和数据增强技术用于提高培训效率和分类性能。实验结果表明，与最先进的实验和研究相比，分类性能有了显着改善的分类性能。同样，与其他常规模型相比，本文验证了所提出的体系结构在分类性能方面表现出色，提高了6％，总计高达70％的精度，并且执行时间较小，为2098.8S。

translated by 谷歌翻译

Real-Time Oil Leakage Detection on Aftermarket Motorcycle Damping System with Convolutional Neural Networks

Federico Bianchi , Stefano Speziali , Andrea Marini , Massimiliano Proietti , Lorenzo Menculini , Alberto Garinei , Gabriele Bellani , Marcello Marconi

分类：计算机视觉

2022-08-10

在这项工作中，我们详细描述了深度学习和计算机视觉如何帮助检测AirTender系统的故障事件，AirTender系统是售后摩托车阻尼系统组件。监测飞行员运行的最有效方法之一是在其表面上寻找油污渍。从实时图像开始，首先在摩托车悬架系统中检测到Airtender，然后二进制分类器确定Airtender是否在溢出油。该检测是在YOLO5架构的帮助下进行的，而分类是在适当设计的卷积神经网络油网40的帮助下进行的。为了更清楚地检测油的泄漏，我们用荧光染料稀释了荧光染料，激发波长峰值约为390 nm。然后用合适的紫外线LED照亮飞行员。整个系统是设计低成本检测设置的尝试。船上设备（例如迷你计算机）被放置在悬架系统附近，并连接到全高清摄像头框架架上。板载设备通过我们的神经网络算法，然后能够将AirTender定位并分类为正常功能（非泄漏图像）或异常（泄漏图像）。

translated by 谷歌翻译

Sign Language Recognition System using TensorFlow Object Detection API

Sharvani Srivastava , Amisha Gangwar , Richa Mishra , Sudhakar Singh

分类：计算机视觉 | 人工智能 | 机器学习

2022-01-05

通信被定义为分享或交换信息，想法或感受的行为。为了建立两个人之间的沟通，他们都需要了解和解共同语言。但在聋人和愚蠢的情况下，通信手段是不同的。聋是无法听到的，愚蠢是无法说话的。他们在自己之间使用手语和正常的人进行沟通，但正常的人不会认真对待手语的重要性。不是每个人都拥有对手语的知识和理解，这使得正常人与聋人和愚蠢的人之间的沟通困难。为了克服这一屏障，可以建立基于机器学习的模型。可以培训模型以识别手语的不同手势并将其转化为英语。这将有助于很多人与聋人和愚蠢的人交流和交谈。现有的印度唱歌语言识别系统是使用单手和双手手势的机器学习算法设计的，但它们不是实时的。在本文中，我们提出了一种使用网络摄像机创建印度手语数据集的方法，然后使用传输学习，训练TensorFlow模型以创建实时标志语言识别系统。即使使用有限的数据集，系统也可以实现良好的准确度。

translated by 谷歌翻译

A Convolutional Neural Network Based Approach to Recognize Bangla Spoken Digits from Speech Signal

Ovishake Sen , Al-Mahmud , Pias Roy

分类：人工智能 | 自然语言处理 | 机器学习

2021-11-12

语音识别是一种技术，它将人类语音信号转换为文本或单词或以任何形式，可以通过计算机或其他机器容易地理解。有一些关于Bangla Digit识别系统的研究，其中大多数使用的小型数据集几乎没有变体，年龄，方言和其他变量。孟加拉国人民的录音，各种性别，年龄和方言，用于在本研究中创造一个大语音数据集。这里，已记录400个噪声和无噪音样本，用于创建数据集。 MEL频率谱系数（MFCC）已被用于从原始语音数据中提取有意义的功能。然后，为了检测Bangla数字，利用卷积神经网络（CNNS）。建议的技术在整个数据集中识别出“0-9”Bangla口语数字，精度为97.1％。还使用10倍的交叉透过来评估模型的效率，其精度为96.7％。

translated by 谷歌翻译

Handwritten Arabic Character Recognition for Children Writ-ing Using Convolutional Neural Network and Stroke Identification

Mais Alheraki , Rawan Al-Matham , Hend Al-Khalifa

分类：计算机视觉 | 人工智能

2022-11-03

Automatic Arabic handwritten recognition is one of the recently studied problems in the field of Machine Learning. Unlike Latin languages, Arabic is a Semitic language that forms a harder challenge, especially with variability of patterns caused by factors such as writer age. Most of the studies focused on adults, with only one recent study on children. Moreover, much of the recent Machine Learning methods focused on using Convolutional Neural Networks, a powerful class of neural networks that can extract complex features from images. In this paper we propose a convolutional neural network (CNN) model that recognizes children handwriting with an accuracy of 91% on the Hijja dataset, a recent dataset built by collecting images of the Arabic characters written by children, and 97% on Arabic Handwritten Character Dataset. The results showed a good improvement over the proposed model from the Hijja dataset authors, yet it reveals a bigger challenge to solve for children Arabic handwritten character recognition. Moreover, we proposed a new approach using multi models instead of single model based on the number of strokes in a character, and merged Hijja with AHCD which reached an averaged prediction accuracy of 96%.

translated by 谷歌翻译

All You Need In Sign Language Production

Razieh Rastgoo , Kourosh Kiani , Sergio Escalera , Vassilis Athitsos , Mohammad Sabokrou

分类：计算机视觉 | 自然语言处理

2022-01-05

手语是聋人和听力受损社区中使用的沟通语言的主要形式。在听力障碍和听力社区之间进行简单互相的沟通，建立一个能够将口语翻译成手语的强大系统，反之亦然是基本的。为此，标志语言识别和生产是制作这种双向系统的两个必要零件。手语识别和生产需要应对一些关键挑战。在这项调查中，我们审查了使用深度学习的手语制作（SLP）和相关领域的最近进展。为了有更现实的观点来签署语言，我们介绍了聋人文化，聋人中心，手语的心理视角，口语和手语之间的主要差异。此外，我们介绍了双向手语翻译系统的基本组成部分，讨论了该领域的主要挑战。此外，简要介绍了SLP中的骨干架构和方法，并提出了拟议的SLP分类物。最后，介绍了SLP和绩效评估的一般框架，也讨论了SLP最近的发展，优势和限制，评论可能的未来研究的可能线条。

translated by 谷歌翻译

GesSure -- A Robust Face-Authentication enabled Dynamic Gesture Recognition GUI Application

Ankit Jha , Ishita Pratham G. Shenwai , Ayush Batra , Siddharth Kotian , Piyush Modi

分类：计算机视觉

2022-07-22

使用物理互动设备（如小鼠和键盘）阻碍了自然主义的人机相互作用，并增加了大流行期间表面接触的可能性。现有的手势识别系统不具备用户身份验证，使其不可靠。当前手势识别技术中的静态手势会引入较长的适应周期并降低用户兼容性。我们的技术非常重视用户识别和安全。我们使用有意义且相关的手势进行任务操作，从而获得更好的用户体验。本文旨在设计一个强大的，具有面部验证的手势识别系统，该系统利用图形用户界面，主要通过用户识别和授权专注于安全性。面部模型使用MTCNN和FACENET来验证用户，而我们的LSTM-CNN体系结构进行手势识别，并以五类的手势获得了95％的精度。通过我们的研究开发的原型已成功执行了上下文依赖性任务，例如保存，打印，控制视频播放器操作和退出以及无上下文的操作系统任务，例如睡眠，关闭和直观地解锁。我们的应用程序和数据集可作为开源。

translated by 谷歌翻译

The Prominence of Artificial Intelligence in COVID-19

MD Abdullah Al Nasim , Aditi Dhali , Faria Afrin , Noshin Tasnim Zaman , Nazmul Karim

分类：机器学习 | 人工智能

2021-11-18

2019年12月，一个名为Covid-19的新型病毒导致了迄今为止的巨大因果关系。与新的冠状病毒的战斗在西班牙语流感后令人振奋和恐怖。虽然前线医生和医学研究人员在控制高度典型病毒的传播方面取得了重大进展，但技术也证明了在战斗中的重要性。此外，许多医疗应用中已采用人工智能，以诊断许多疾病，甚至陷入困境的经验丰富的医生。因此，本调查纸探讨了提议的方法，可以提前援助医生和研究人员，廉价的疾病诊断方法。大多数发展中国家难以使用传统方式进行测试，但机器和深度学习可以采用显着的方式。另一方面，对不同类型的医学图像的访问已经激励了研究人员。结果，提出了一种庞大的技术数量。本文首先详细调了人工智能域中传统方法的背景知识。在此之后，我们会收集常用的数据集及其用例日期。此外，我们还显示了采用深入学习的机器学习的研究人员的百分比。因此，我们对这种情况进行了彻底的分析。最后，在研究挑战中，我们详细阐述了Covid-19研究中面临的问题，我们解决了我们的理解，以建立一个明亮健康的环境。

translated by 谷歌翻译

Integrating Deep Learning and Augmented Reality to Enhance Situational Awareness in Firefighting Environments

Manish Bhattarai

分类：计算机视觉

2021-07-23

我们提出了一种新的四管齐下的方法，在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架，彼此之叠，以提高消防员在紧急首次响应设置中进行的救援任务的安全性，效率和成功完成。首先，我们使用深度卷积神经网络（CNN）系统，以实时地分类和识别来自热图像的感兴趣对象。接下来，我们将此CNN框架扩展了对象检测，跟踪，分割与掩码RCNN框架，以及具有多模级自然语言处理（NLP）框架的场景描述。第三，我们建立了一个深入的Q学习的代理，免受压力引起的迷失方向和焦虑，能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后，我们使用了一种低计算无监督的学习技术，称为张量分解，在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构，我们建立了人工智能系统的骨干，用于消防员的情境意识。要将设计的系统带入消防员的使用，我们设计了一种物理结构，其中处理后的结果被用作创建增强现实的投入，这是一个能够建议他们所在地的消防员和周围的关键特征，这对救援操作至关重要在手头，以及路径规划功能，充当虚拟指南，以帮助迷彩的第一个响应者恢复安全。当组合时，这四种方法呈现了一种新颖的信息理解，转移和综合方法，这可能会大大提高消防员响应和功效，并降低寿命损失。

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

An ensemble deep learning technique for detecting suicidal ideation from posts in social media platforms

Shini Renjith , Annie Abraham , Surya B. Jyothi , Lekshmi Chandran , Jincy Thomson

分类：自然语言处理 | 机器学习

2021-12-17

社交媒体的自杀意图检测是一种不断发展的研究，挑战了巨大的挑战。许多有自杀倾向的人通过社交媒体平台分享他们的思想和意见。作为许多研究的一部分，观察到社交媒体的公开职位包含有价值的标准，以有效地检测有自杀思想的个人。防止自杀的最困难的部分是检测和理解可能导致自杀的复杂风险因素和警告标志。这可以通过自动识别用户行为的突然变化来实现。自然语言处理技术可用于收集社交媒体交互的行为和文本特征，这些功能可以传递给特殊设计的框架，以检测人类交互中的异常，这是自杀意图指标。我们可以使用深度学习和/或基于机器学习的分类方法来实现快速检测自杀式思想。出于这种目的，我们可以采用LSTM和CNN模型的组合来检测来自用户的帖子的这种情绪。为了提高准确性，一些方法可以使用更多数据进行培训，使用注意模型提高现有模型等的效率。本文提出了一种LSTM-Incription-CNN组合模型，用于分析社交媒体提交，以检测任何潜在的自杀意图。在评估期间，所提出的模型的准确性为90.3％，F1分数为92.6％，其大于基线模型。

translated by 谷歌翻译

ViT-ReT: Vision and Recurrent Transformer Neural Networks for Human Activity Recognition in Videos

James Wensel , Hayat Ullah , Arslan Munir , Erik Blasch

分类：计算机视觉

2022-08-16

人类活动识别是计算机视觉中的新出现和重要领域，旨在确定个体或个体正在执行的活动。该领域的应用包括从体育中生成重点视频到智能监视和手势识别。大多数活动识别系统依赖于卷积神经网络（CNN）的组合来从数据和复发性神经网络（RNN）中进行特征提取来确定数据的时间依赖性。本文提出并设计了两个用于人类活动识别的变压器神经网络：一个经常性变压器（RET），这是一个专门的神经网络，用于对数据序列进行预测，以及视觉变压器（VIT），一种用于提取显着的变压器的变压器（VIT）图像的特征，以提高活动识别的速度和可扩展性。我们在速度和准确性方面提供了对拟议的变压器神经网络与现代CNN和基于RNN的人类活动识别模型的广泛比较。

translated by 谷歌翻译

Action Recognition using Transfer Learning and Majority Voting for CSGO

Tasnim Sakib Apon , Abrar Islam , MD. Golam Rabiul Alam

分类：计算机视觉

2021-11-06

目前在线视频游戏已成为逐步最喜欢的娱乐和反击来源：全球攻势（CS：Go）是全球上市的在线第一人称射击游戏之一。通过Esports每年安排许多竞争游戏。尽管如此，（i）没有关于CS的视频分析和行动认可的研究：GO游戏 - 游戏，可以在游戏行业中发挥重要作用，以进行预测模型（ii）在实时申请中没有完成任何工作在CS的行动和结果上：GO匹配（III）匹配的游戏数据通常在HLTV中可用作CSV格式化文件，但它没有开放访问，HLTV倾向于阻止用户采取数据。此手稿旨在开发一种用于精确预测4种不同行动的模型，并与我们的自主开发的深神经网络相比，与我们的自我开发的深神经网络相比，识别最佳型号，并在后面的主要投票包括有资格提供实时预测和该模型的结果有助于建设自动收集和处理更多数据的自动化系统，并解决从HLTV收集数据的问题。

translated by 谷歌翻译

Intelligent 3D Network Protocol for Multimedia Data Classification using Deep Learning

Arslan Syed , Eman A. Aldhahri , Muhammad Munawar Iqbal , Abid Ali , Ammar Muthanna , Harun Jamil , Faisal Jamil

分类：计算机视觉 | 人工智能

2022-07-23

在视频中，人类的行为是三维（3D）信号。这些视频研究了人类行为的时空知识。使用3D卷积神经网络（CNN）研究了有希望的能力。 3D CNN尚未在静止照片中为其建立良好的二维（2D）等效物获得高输出。董事会3D卷积记忆和时空融合面部训练难以防止3D CNN完成非凡的评估。在本文中，我们实施了混合深度学习体系结构，该体系结构结合了Stip和3D CNN功能，以有效地增强3D视频的性能。实施后，在每个时空融合圈中进行训练的较详细和更深的图表。训练模型在处理模型的复杂评估后进一步增强了结果。视频分类模型在此实现模型中使用。引入了使用深度学习的多媒体数据分类的智能3D网络协议，以进一步了解人类努力中的时空关联。在实施结果时，著名的数据集（即UCF101）评估了提出的混合技术的性能。结果击败了提出的混合技术，该混合动力技术基本上超过了最初的3D CNN。将结果与文献的最新框架进行比较，以识别UCF101的行动识别，准确度为95％。

translated by 谷歌翻译