智能论文笔记

Sign Language Recognition System using TensorFlow Object Detection API

Sharvani Srivastava , Amisha Gangwar , Richa Mishra , Sudhakar Singh

分类：计算机视觉 | 人工智能 | 机器学习

2022-01-05

通信被定义为分享或交换信息，想法或感受的行为。为了建立两个人之间的沟通，他们都需要了解和解共同语言。但在聋人和愚蠢的情况下，通信手段是不同的。聋是无法听到的，愚蠢是无法说话的。他们在自己之间使用手语和正常的人进行沟通，但正常的人不会认真对待手语的重要性。不是每个人都拥有对手语的知识和理解，这使得正常人与聋人和愚蠢的人之间的沟通困难。为了克服这一屏障，可以建立基于机器学习的模型。可以培训模型以识别手语的不同手势并将其转化为英语。这将有助于很多人与聋人和愚蠢的人交流和交谈。现有的印度唱歌语言识别系统是使用单手和双手手势的机器学习算法设计的，但它们不是实时的。在本文中，我们提出了一种使用网络摄像机创建印度手语数据集的方法，然后使用传输学习，训练TensorFlow模型以创建实时标志语言识别系统。即使使用有限的数据集，系统也可以实现良好的准确度。

translated by 谷歌翻译

Sign-to-Speech Model for Sign Language Understanding: A Case Study of Nigerian Sign Language

Steven Kolawole , Opeyemi Osakuade , Nayan Saxena , Babatunde Kazeem Olorisade

分类：计算机视觉

2021-11-01

通过本文，我们寻求减少听力受损社区与较大社会之间的通信障碍，这些社会通常不熟悉非洲撒哈拉地区的手语，在使用尼日利亚时出现最大的听力残疾人案件案例研究。DataSet是尼日利亚语言的先驱数据集，并与相关利益相关者合作创建。我们预处理数据准备进行两种不同的对象检测模型和分类模型，并采用不同的评估度量来衡量标志语言的模型性能，以文本转换任务。最后，我们将预测的符号文本转换为语音，并在实时工作的轻量级应用程序中部署最佳执行模型，并实现令人印象深刻的结果将标志单词/短语转换为文本，然后转换为语音。

translated by 谷歌翻译

Real-Time Mask Detection Based on SSD-MobileNetV2

Chen Cheng

分类：计算机视觉

2022-08-29

在Covid-19爆发之后，作为最方便，最有效的预防手段，掩盖检测在流行病预防和控制中起着至关重要的作用。出色的自动实时面具检测系统可以减轻相关人员的大量工作压力。但是，通过分析现有的掩码检测方法，我们发现它们大多是资源密集型的，并且在速度和准确性之间无法达到良好的平衡。目前还没有完美的面膜数据集。在本文中，我们提出了一种用于掩盖检测的新体系结构。我们的系统使用SSD作为掩码定位器和分类器，并用MobilenetV2进一步替换VGG-16来提取图像的功能并减少许多参数。因此，我们的系统可以部署在嵌入式设备上。转移学习方法用于将预训练的模型从其他域转移到我们的模型。我们系统中的数据增强方法（例如混合）有效防止过度拟合。它还有效地减少了对大规模数据集的依赖性。通过在实际情况下进行实验，结果表明我们的系统在实时掩模检测中的表现良好。

translated by 谷歌翻译

Towards Automatic Model Specialization for Edge Video Analytics

Daniel Rivas , Francesc Guim , Jordà Polo , Pubudu M. Silva , Josep Ll. Berral , David Carrera

分类：计算机视觉 | 机器学习

2021-04-14

通过流行和通用的计算机视觉挑战来判断，如想象成或帕斯卡VOC，神经网络已经证明是在识别任务中特别准确。然而，最先进的准确性通常以高计算价格出现，需要硬件加速来实现实时性能，而使用案例（例如智能城市）需要实时分析固定摄像机的图像。由于网络带宽的数量，这些流将生成，我们不能依赖于卸载计算到集中云。因此，预期分布式边缘云将在本地处理图像。但是，边缘是由性质资源约束的，这给了可以执行的计算复杂性限制。然而，需要边缘与准确的实时视频分析之间的会面点。专用轻量级型号在每相机基础上可能有所帮助，但由于相机的数量增长，除非该过程是自动的，否则它很快就会变得不可行。在本文中，我们展示并评估COVA（上下文优化的视频分析），这是一个框架，可以帮助在边缘相机中自动专用模型专业化。 COVA通过专业化自动提高轻质模型的准确性。此外，我们讨论和审查过程中涉及的每个步骤，以了解每个人所带来的不同权衡。此外，我们展示了静态相机的唯一假设如何使我们能够制定一系列考虑因素，这大大简化了问题的范围。最后，实验表明，最先进的模型，即能够概括到看不见的环境，可以有效地用作教师以以恒定的计算成本提高较小网络的教师，提高精度。结果表明，我们的COVA可以平均提高预先训练的型号的准确性，平均为21％。

translated by 谷歌翻译

Sign Language to Text Conversion in Real Time using Transfer Learning

Shubham Thakar , Samveg Shah , Bhavya Shah , Anant V. Nimkar

分类：计算机视觉 | 机器学习

2022-11-13

The people in the world who are hearing impaired face many obstacles in communication and require an interpreter to comprehend what a person is saying. There has been constant scientific research and the existing models lack the ability to make accurate predictions. So we propose a deep learning model trained on ASL i.e. American Sign Language which will take actions in the form of ASL as input and translate it into text. To achieve the translation a Convolution Neural Network model and a transfer learning model based on the VGG16 architecture are used. There has been an improvement in accuracy from 94% of CNN to 98.7% of Transfer Learning, an improvement of 5%. An application with the deep learning model integrated has also been built.

translated by 谷歌翻译

Integrating Deep Learning and Augmented Reality to Enhance Situational Awareness in Firefighting Environments

Manish Bhattarai

分类：计算机视觉

2021-07-23

我们提出了一种新的四管齐下的方法，在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架，彼此之叠，以提高消防员在紧急首次响应设置中进行的救援任务的安全性，效率和成功完成。首先，我们使用深度卷积神经网络（CNN）系统，以实时地分类和识别来自热图像的感兴趣对象。接下来，我们将此CNN框架扩展了对象检测，跟踪，分割与掩码RCNN框架，以及具有多模级自然语言处理（NLP）框架的场景描述。第三，我们建立了一个深入的Q学习的代理，免受压力引起的迷失方向和焦虑，能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后，我们使用了一种低计算无监督的学习技术，称为张量分解，在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构，我们建立了人工智能系统的骨干，用于消防员的情境意识。要将设计的系统带入消防员的使用，我们设计了一种物理结构，其中处理后的结果被用作创建增强现实的投入，这是一个能够建议他们所在地的消防员和周围的关键特征，这对救援操作至关重要在手头，以及路径规划功能，充当虚拟指南，以帮助迷彩的第一个响应者恢复安全。当组合时，这四种方法呈现了一种新颖的信息理解，转移和综合方法，这可能会大大提高消防员响应和功效，并降低寿命损失。

translated by 谷歌翻译

Applications of Deep Learning in Fish Habitat Monitoring: A Tutorial and Survey

Alzayat Saleh , Marcus Sheaves , Dean Jerry , Mostafa Rahimi Azghadi

分类：计算机视觉

2022-06-11

海洋生态系统及其鱼类栖息地越来越重要，因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然，因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据，这些数据无法通过当前的手动处理方法有效地分析，这些方法涉及人类观察者。 DL是一种尖端的AI技术，在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域，但仍在探索其在水下鱼类栖息地监测中的使用。在本文中，我们提供了一个涵盖DL的关键概念的教程，该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序，讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外，我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查，包括分类，计数，定位和细分。此外，我们对水下鱼类数据集进行了公开调查，并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解，通过遵循我们的分步教程而为其应用开发的海洋科学家的教程，并了解如何发展其研究，以促进他们的研究。努力。同时，它适用于希望调查基于DL的最先进方法的计算机科学家，以进行鱼类栖息地监测。

translated by 谷歌翻译

All You Need In Sign Language Production

Razieh Rastgoo , Kourosh Kiani , Sergio Escalera , Vassilis Athitsos , Mohammad Sabokrou

分类：计算机视觉 | 自然语言处理

2022-01-05

手语是聋人和听力受损社区中使用的沟通语言的主要形式。在听力障碍和听力社区之间进行简单互相的沟通，建立一个能够将口语翻译成手语的强大系统，反之亦然是基本的。为此，标志语言识别和生产是制作这种双向系统的两个必要零件。手语识别和生产需要应对一些关键挑战。在这项调查中，我们审查了使用深度学习的手语制作（SLP）和相关领域的最近进展。为了有更现实的观点来签署语言，我们介绍了聋人文化，聋人中心，手语的心理视角，口语和手语之间的主要差异。此外，我们介绍了双向手语翻译系统的基本组成部分，讨论了该领域的主要挑战。此外，简要介绍了SLP中的骨干架构和方法，并提出了拟议的SLP分类物。最后，介绍了SLP和绩效评估的一般框架，也讨论了SLP最近的发展，优势和限制，评论可能的未来研究的可能线条。

translated by 谷歌翻译

Analysis of the hands in egocentric vision: A survey

Andrea Bandini , José Zariffa

分类：计算机视觉

2019-12-23

由于价格合理的可穿戴摄像头和大型注释数据集的可用性，在过去几年中，Egintric Vision（又名第一人称视觉-FPV）的应用程序在过去几年中蓬勃发展。可穿戴摄像机的位置（通常安装在头部上）允许准确记录摄像头佩戴者在其前面的摄像头，尤其是手和操纵物体。这种内在的优势可以从多个角度研究手：将手及其部分定位在图像中；了解双手涉及哪些行动和活动；并开发依靠手势的人类计算机界面。在这项调查中，我们回顾了使用以自我为中心的愿景专注于手的文献，将现有方法分类为：本地化（其中的手或部分在哪里？）；解释（手在做什么？）；和应用程序（例如，使用以上为中心的手提示解决特定问题的系统）。此外，还提供了带有手基注释的最突出的数据集的列表。

translated by 谷歌翻译

A Survey of Task-Based Machine Learning Content Extraction Services for VIDINT

Joshua Brunk , Nathan Jermann , Ryan Sharp , Carl D. Hoover

分类：计算机视觉

2022-07-09

本文提供了当前视频内容提取工具的比较，重点是比较基于任务的机器学习服务。在过去十年中，视频智能（VIDINT）数据已成为关键情报来源。基于AI的分析和自动化工具从视频中提取和构造内容的需求已迅速成为需要大规模搜索，分析和利用视频的组织的优先事项。随着机器学习技术的快速增长，机器转录，机器翻译，主题标签和对象识别任务的成熟度以指数级的速度提高，随着新应用程序的发展，速度和准确性的性能记录破坏了。本文的每个部分审查并根据与机器学习技术从视频中提取信息相关的任务进行了比较产品，软件资源和视频分析功能。

translated by 谷歌翻译

Urdu Speech and Text Based Sentiment Analyzer

Waqar Ahmad , Maryam Edalati

分类：自然语言处理

2022-07-19

发现别人认为是我们信息收集策略的关键方面。现在，人们可以积极利用信息技术来寻找和理解他人的想法，这要归功于越来越多的意见资源（例如在线评论网站和个人博客）的越来越多。由于其在理解人们的意见方面的关键功能，因此情感分析（SA）是一项至关重要的任务。另一方面，现有的研究主要集中在英语上，只有少量研究专门研究低资源语言。对于情感分析，这项工作根据用户评估提供了一个新的多级乌尔都语数据集。高音扬声器网站用于获取乌尔都语数据集。我们提出的数据集包括10,000项评论，这些评论已被人类专家精心归类为两类：正面，负面。这项研究的主要目的是构建一个手动注释的数据集进行乌尔都语情绪分析，并确定基线结果。采用了五种不同的词典和规则的算法，包括NaiveBayes，Stanza，TextBlob，Vader和Flair，实验结果表明，其精度为70％的天赋优于其他经过测试的算法。

translated by 谷歌翻译

An Embarrassingly Pragmatic Introduction to Vision-based Autonomous Robots

Marcos V. Conde

分类：机器人 | 计算机视觉

2021-11-15

自治机器人目前是最受欢迎的人工智能问题之一，在过去十年中，从自动驾驶汽车和人形系统到交付机器人和无人机，这是一项最受欢迎的智能问题。部分问题是获得一个机器人，以模仿人类的感知，我们的视觉感，用诸如神经网络等数学模型用相机和大脑的眼睛替换眼睛。开发一个能够在没有人为干预的情况下驾驶汽车的AI和一个小型机器人在城市中递送包裹可能看起来像不同的问题，因此来自感知和视觉的观点来看，这两个问题都有几种相似之处。我们目前的主要解决方案通过使用计算机视觉技术，机器学习和各种算法来实现对环境感知的关注，使机器人理解环境或场景，移动，调整其轨迹并执行其任务（维护，探索，等。）无需人为干预。在这项工作中，我们从头开始开发一个小型自动车辆，能够仅使用视觉信息理解场景，通过工业环境导航，检测人员和障碍，或执行简单的维护任务。我们审查了基本问题的最先进问题，并证明了小规模采用的许多方法类似于来自特斯拉或Lyft等公司的真正自动驾驶汽车中使用的方法。最后，我们讨论了当前的机器人和自主驾驶状态以及我们在这一领域找到的技术和道德限制。

translated by 谷歌翻译

Efficiency Comparison of AI classification algorithms for Image Detection and Recognition in Real-time

Musarrat Saberin Nipun , Rejwan Bin Sulaiman , Amer Kareem

分类：计算机视觉 | 人工智能

2022-06-12

面部检测和识别是人工智能系统中最困难，经常使用的任务。这项研究的目的是介绍和比较系统中使用的几种面部检测和识别算法的结果。该系统始于人类的训练图像，然后继续进行测试图像，识别面部，将其与受过训练的面部进行比较，最后使用OPENCV分类器对其进行分类。这项研究将讨论系统中使用的最有效，最成功的策略，这些策略是使用Python，OpenCV和Matplotlib实施的。它也可以用于CCTV的位置，例如公共场所，购物中心和ATM摊位。

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

A Review on Visual Privacy Preservation Techniques for Active and Assisted Living

Siddharth Ravi , Pau Climent-Pérez , Francisco Florez-Revuelta

分类：计算机视觉

2021-12-17

本文审查了视觉隐私保护技术中最先进的技术，特别注意适用于主动和辅助生活领域的技术（aal）。介绍了一种新的分类，可以归类最先进的视觉隐私保护方法。突出显示了传教性的感知混淆方法，是分类学中的一个类别。这些是一类视觉隐私保存技术，特别是在考虑基于视频的AAL监控的情况时特别相关。还探讨了对机器学习模型的混淆。设计的不同隐私层面的高级分类方案与视觉隐私保存技术的拟议分类有关。最后，我们注意到现场存在的开放问题，并将读者介绍给一些令人兴奋的途径，以便在视觉隐私区域的未来研究。

translated by 谷歌翻译

Multilingual Communication System with Deaf Individuals Utilizing Natural and Visual Languages

Tuan-Luc Huynh , Khoi-Nguyen Nguyen-Ngoc , Chi-Bien Chu , Minh-Triet Tran , Trung-Nghia Le

分类：计算机视觉

2022-12-01

According to the World Federation of the Deaf, more than two hundred sign languages exist. Therefore, it is challenging to understand deaf individuals, even proficient sign language users, resulting in a barrier between the deaf community and the rest of society. To bridge this language barrier, we propose a novel multilingual communication system, namely MUGCAT, to improve the communication efficiency of sign language users. By converting recognized specific hand gestures into expressive pictures, which is universal usage and language independence, our MUGCAT system significantly helps deaf people convey their thoughts. To overcome the limitation of sign language usage, which is mostly impossible to translate into complete sentences for ordinary people, we propose to reconstruct meaningful sentences from the incomplete translation of sign language. We also measure the semantic similarity of generated sentences with fragmented recognized hand gestures to keep the original meaning. Experimental results show that the proposed system can work in a real-time manner and synthesize exquisite stunning illustrations and meaningful sentences from a few hand gestures of sign language. This proves that our MUGCAT has promising potential in assisting deaf communication.

translated by 谷歌翻译

On Developing Facial Stress Analysis and Expression Recognition Platform

Fabio Cacciatori , Sergei Nikolaev , Dmitrii Grigorev

分类：计算机视觉

2022-09-16

这项工作代表了沉浸式数字学习平台的系统面部表达识别和面部压力分析算法的实验和开发过程。该系统从用户网络摄像头检索，并使用人工神经网络（ANN）算法对其进行评估。 ANN输出信号可用于评分和改进学习过程。将ANN适应新系统可能需要大量的实施工作或重复ANN培训。还存在与运行ANN所需的最小硬件有关的局限性。为了使这些限制超过这些约束，提出了一些可能的面部表达识别和面部压力分析算法的实现。新解决方案的实施使得提高识别面部表情的准确性并提高其响应速度成为可能。实验结果表明，与社交设备相比，使用开发的算法可以以更高的速度检测心率。

translated by 谷歌翻译

Real-Time Oil Leakage Detection on Aftermarket Motorcycle Damping System with Convolutional Neural Networks

Federico Bianchi , Stefano Speziali , Andrea Marini , Massimiliano Proietti , Lorenzo Menculini , Alberto Garinei , Gabriele Bellani , Marcello Marconi

分类：计算机视觉

2022-08-10

在这项工作中，我们详细描述了深度学习和计算机视觉如何帮助检测AirTender系统的故障事件，AirTender系统是售后摩托车阻尼系统组件。监测飞行员运行的最有效方法之一是在其表面上寻找油污渍。从实时图像开始，首先在摩托车悬架系统中检测到Airtender，然后二进制分类器确定Airtender是否在溢出油。该检测是在YOLO5架构的帮助下进行的，而分类是在适当设计的卷积神经网络油网40的帮助下进行的。为了更清楚地检测油的泄漏，我们用荧光染料稀释了荧光染料，激发波长峰值约为390 nm。然后用合适的紫外线LED照亮飞行员。整个系统是设计低成本检测设置的尝试。船上设备（例如迷你计算机）被放置在悬架系统附近，并连接到全高清摄像头框架架上。板载设备通过我们的神经网络算法，然后能够将AirTender定位并分类为正常功能（非泄漏图像）或异常（泄漏图像）。

translated by 谷歌翻译

BDSL 49: A Comprehensive Dataset of Bangla Sign Language

Ayman Hasib , Saqib Sizan Khan , Jannatul Ferdous Eva , Mst. Nipa Khatun , Ashraful Haque , Nishat Shahrin , Rashik Rahman , Hasan Murad , Md. Rajibul Islam , Molla Rashied Hussein

分类：计算机视觉

2022-08-14

语言是个人表达思想的方法。每种语言都有自己的字母和数字字符集。人们可以通过口头或书面交流相互交流。但是，每种语言都有同类语言。聋哑和/或静音的个人通过手语交流。孟加拉语还具有手语，称为BDSL。数据集是关于孟加拉手册图像的。该系列包含49个单独的孟加拉字母图像。 BDSL49是一个数据集，由29,490张具有49个标签的图像组成。在数据收集期间，已经记录了14个不同成年人的图像，每个人都有不同的背景和外观。在准备过程中，已经使用了几种策略来消除数据集中的噪声。该数据集可免费提供给研究人员。他们可以使用机器学习，计算机视觉和深度学习技术开发自动化系统。此外，该数据集使用了两个模型。第一个是用于检测，而第二个是用于识别。

translated by 谷歌翻译

A Survey on Masked Facial Detection Methods and Datasets for Fighting Against COVID-19

Bingshu Wang , Jiangbin Zheng , C. L. Philip Chen

分类：计算机视觉 | 机器学习

2022-01-13

2019年冠状病毒疾病（Covid-19）继续自爆发以来对世界产生巨大挑战。为了对抗这种疾病，开发了一系列人工智能（AI）技术，并应用于现实世界的情景，如安全监测，疾病诊断，感染风险评估，Covid-19 CT扫描的病变细分等。 Coronavirus流行病迫使人们佩戴面膜来抵消病毒的传播，这也带来了监控戴着面具的大群人群的困难。在本文中，我们主要关注蒙面面部检测和相关数据集的AI技术。从蒙面面部检测数据集的描述开始，我们调查了最近的进步。详细描述并详细讨论了十三可用数据集。然后，该方法大致分为两类：传统方法和基于神经网络的方法。常规方法通常通过用手工制作的特征升高算法来训练，该算法占少比例。基于神经网络的方法根据处理阶段的数量进一步归类为三个部分。详细描述了代表性算法，与一些简要描述的一些典型技术耦合。最后，我们总结了最近的基准测试结果，讨论了关于数据集和方法的局限性，并扩大了未来的研究方向。据我们所知，这是关于蒙面面部检测方法和数据集的第一次调查。希望我们的调查可以提供一些帮助对抗流行病的帮助。

translated by 谷歌翻译