智能论文笔记

BDSL 49: A Comprehensive Dataset of Bangla Sign Language

Ayman Hasib , Saqib Sizan Khan , Jannatul Ferdous Eva , Mst. Nipa Khatun , Ashraful Haque , Nishat Shahrin , Rashik Rahman , Hasan Murad , Md. Rajibul Islam , Molla Rashied Hussein

分类：计算机视觉

2022-08-14

语言是个人表达思想的方法。每种语言都有自己的字母和数字字符集。人们可以通过口头或书面交流相互交流。但是，每种语言都有同类语言。聋哑和/或静音的个人通过手语交流。孟加拉语还具有手语，称为BDSL。数据集是关于孟加拉手册图像的。该系列包含49个单独的孟加拉字母图像。 BDSL49是一个数据集，由29,490张具有49个标签的图像组成。在数据收集期间，已经记录了14个不同成年人的图像，每个人都有不同的背景和外观。在准备过程中，已经使用了几种策略来消除数据集中的噪声。该数据集可免费提供给研究人员。他们可以使用机器学习，计算机视觉和深度学习技术开发自动化系统。此外，该数据集使用了两个模型。第一个是用于检测，而第二个是用于识别。

translated by 谷歌翻译

Sign Language Recognition System using TensorFlow Object Detection API

Sharvani Srivastava , Amisha Gangwar , Richa Mishra , Sudhakar Singh

分类：计算机视觉 | 人工智能 | 机器学习

2022-01-05

通信被定义为分享或交换信息，想法或感受的行为。为了建立两个人之间的沟通，他们都需要了解和解共同语言。但在聋人和愚蠢的情况下，通信手段是不同的。聋是无法听到的，愚蠢是无法说话的。他们在自己之间使用手语和正常的人进行沟通，但正常的人不会认真对待手语的重要性。不是每个人都拥有对手语的知识和理解，这使得正常人与聋人和愚蠢的人之间的沟通困难。为了克服这一屏障，可以建立基于机器学习的模型。可以培训模型以识别手语的不同手势并将其转化为英语。这将有助于很多人与聋人和愚蠢的人交流和交谈。现有的印度唱歌语言识别系统是使用单手和双手手势的机器学习算法设计的，但它们不是实时的。在本文中，我们提出了一种使用网络摄像机创建印度手语数据集的方法，然后使用传输学习，训练TensorFlow模型以创建实时标志语言识别系统。即使使用有限的数据集，系统也可以实现良好的准确度。

translated by 谷歌翻译

Sign-to-Speech Model for Sign Language Understanding: A Case Study of Nigerian Sign Language

Steven Kolawole , Opeyemi Osakuade , Nayan Saxena , Babatunde Kazeem Olorisade

分类：计算机视觉

2021-11-01

通过本文，我们寻求减少听力受损社区与较大社会之间的通信障碍，这些社会通常不熟悉非洲撒哈拉地区的手语，在使用尼日利亚时出现最大的听力残疾人案件案例研究。DataSet是尼日利亚语言的先驱数据集，并与相关利益相关者合作创建。我们预处理数据准备进行两种不同的对象检测模型和分类模型，并采用不同的评估度量来衡量标志语言的模型性能，以文本转换任务。最后，我们将预测的符号文本转换为语音，并在实时工作的轻量级应用程序中部署最佳执行模型，并实现令人印象深刻的结果将标志单词/短语转换为文本，然后转换为语音。

translated by 谷歌翻译

ASL-Skeleton3D and ASL-Phono: Two Novel Datasets for the American Sign Language

Cleison Correia de Amorim , Cleber Zanchettin

分类：计算机视觉 | 自然语言处理

2022-01-06

手语是一种基本资源，可以访问遭受遭受禁用听力损失的个人的通信和适当的社会间谍开发。由于该人群预计到2050年的人口达到7亿，因此该语言的重要性变得更加重要，因为它发挥着重要作用，以确保在社会中纳入这些人。标志语言识别领域的目标是弥合用户和非用户的符号语言之间的差距。然而，数据集的数量和质量的稀缺是限制新型方法探索的主要挑战之一，这可能导致该研究区域的显着进步。因此，本文通过引入美国标志语言的两个新数据集：第一个由签名者的三维表示组成，而第二个是由签名的前所未有的语言学的表示组成，其中包含一组标志的语音属性。

translated by 谷歌翻译

IR-LPR: Large Scale of Iranian License Plate Recognition Dataset

Mahdi Rahmani , Melika Sabaghian , Seyyede Mahila Moghadami , Mohammad Mohsen Talaie , Mahdi Naghibi , Mohammad Ali Keyvanrad

分类：计算机视觉

2022-09-10

对象检测一直是实用的。我们世界上有很多事情，以至于认识到它们不仅可以增加我们对周围环境的自动知识，而且对于有兴趣开展新业务的人来说也可以很有利润。这些有吸引力的物体之一是车牌（LP）。除了可以使用车牌检测的安全用途外，它还可以用于创建创意业务。随着基于深度学习模型的对象检测方法的开发，适当且全面的数据集变得双重重要。但是，由于频繁使用车牌数据集的商业使用，不仅在伊朗而且在世界范围内也有限。用于检测车牌的最大伊朗数据集具有1,466张图像。此外，识别车牌角色的最大伊朗数据集具有5,000张图像。我们已经准备了一个完整的数据集，其中包括20,967辆汽车图像，以及对整个车牌及其字符的所有检测注释，这对于各种目的都是有用的。此外，字符识别应用程序的车牌图像总数为27,745张图像。

translated by 谷歌翻译

BanglaWriting: A multi-purpose offline Bangla handwriting dataset

M. F. Mridha , Abu Quwsar Ohi , M. Ameer Ali , Mazedul Islam Emon , Muhammad Mohsin Kabir

分类：计算机视觉 | 机器学习

2020-11-15

本文介绍了一个名为Bangrawriting的孟加拉手写数据集，其中包含260个不同个性和年龄的个人的单页手写。每个页面都包含边界框的边界框以及写作的Unicode表示。该数据集总共包含21,234个单词和32,787个字符。此外，该数据集包括5,470个孟加拉词汇的独特单词。除了通常的单词外，数据集还包括261个可理解的覆盖物和450个手写罢工和错误。所有的边界盒和单词标签都是手动生成的。该数据集可用于复杂的光学字符/单词识别，作者识别，手写单词分割和单词生成。此外，该数据集适用于提取基于年龄的和基于性别的笔迹变化。

translated by 谷歌翻译

HaGRID -- HAnd Gesture Recognition Image Dataset

Alexander Kapitanov , Andrew Makhlyarchuk , Karina Kvanchiani

分类：计算机视觉

2022-06-16

在本文中，我们为手势识别（HGR）系统介绍了一个巨大的数据集海格（手势识别图像数据集）。该数据集包含552,992个样本，分为18类手势。注释包括带有手势标签和领先手的标记的手框。拟议的数据集允许构建HGR系统，该系统可用于视频会议服务，家庭自动化系统，汽车行业，言语和听力障碍者的服务等。我们特别专注于与设备进行管理以管理它们。这就是为什么所有18个选择的手势都具有功能性，大多数人都熟悉的原因，并且可能是采取一些行动的动机。此外，我们使用众包平台来收集数据集并考虑各种参数以确保数据多样性。我们描述了将现有的HGR数据集用于我们的任务的挑战，并提供了详细的概述。此外，提出了手势检测和手势分类任务的基准。

translated by 谷歌翻译

All You Need In Sign Language Production

Razieh Rastgoo , Kourosh Kiani , Sergio Escalera , Vassilis Athitsos , Mohammad Sabokrou

分类：计算机视觉 | 自然语言处理

2022-01-05

手语是聋人和听力受损社区中使用的沟通语言的主要形式。在听力障碍和听力社区之间进行简单互相的沟通，建立一个能够将口语翻译成手语的强大系统，反之亦然是基本的。为此，标志语言识别和生产是制作这种双向系统的两个必要零件。手语识别和生产需要应对一些关键挑战。在这项调查中，我们审查了使用深度学习的手语制作（SLP）和相关领域的最近进展。为了有更现实的观点来签署语言，我们介绍了聋人文化，聋人中心，手语的心理视角，口语和手语之间的主要差异。此外，我们介绍了双向手语翻译系统的基本组成部分，讨论了该领域的主要挑战。此外，简要介绍了SLP中的骨干架构和方法，并提出了拟议的SLP分类物。最后，介绍了SLP和绩效评估的一般框架，也讨论了SLP最近的发展，优势和限制，评论可能的未来研究的可能线条。

translated by 谷歌翻译

Sign Language to Text Conversion in Real Time using Transfer Learning

Shubham Thakar , Samveg Shah , Bhavya Shah , Anant V. Nimkar

分类：计算机视觉 | 机器学习

2022-11-13

The people in the world who are hearing impaired face many obstacles in communication and require an interpreter to comprehend what a person is saying. There has been constant scientific research and the existing models lack the ability to make accurate predictions. So we propose a deep learning model trained on ASL i.e. American Sign Language which will take actions in the form of ASL as input and translate it into text. To achieve the translation a Convolution Neural Network model and a transfer learning model based on the VGG16 architecture are used. There has been an improvement in accuracy from 94% of CNN to 98.7% of Transfer Learning, an improvement of 5%. An application with the deep learning model integrated has also been built.

translated by 谷歌翻译

GLARE: A Dataset for Traffic Sign Detection in Sun Glare

Nicholas Gray , Megan Moraes , Jiang Bian , Allen Tian , Alex Wang , Haoyi Xiong , Zhishan Guo

分类：计算机视觉 | 机器学习

2022-09-19

实时机器学习检测算法通常在自动驾驶汽车技术中发现，并依赖优质数据集。这些算法在日常条件以及强烈的阳光下都能正常工作。报告表明，眩光是撞车事故最突出的两个最突出的原因之一。但是，现有的数据集，例如LISA和德国交通标志识别基准，根本不反映Sun Glare的存在。本文介绍了眩光交通标志数据集：在阳光下重大视觉干扰下，具有基于美国的交通标志的图像集合。眩光包含2,157张带有阳光眩光的交通标志图像，从33个美国道路录像带中拉出。它为广泛使用的Lisa流量标志数据集提供了必不可少的丰富。我们的实验研究表明，尽管几种最先进的基线方法在没有太阳眩光的情况下对交通符号数据集进行了训练和测试，但在对眩光进行测试时，它们遭受了极大的痛苦（例如，9％至21％的平均图范围为9％至21％。，它明显低于LISA数据集上的性能）。我们还注意到，当对Sun Glare中的交通标志图像进行培训时，当前的架构具有更好的检测准确性（例如，主流算法平均42％的平均地图增益）。

translated by 谷歌翻译

A Comprehensive Gold Standard and Benchmark for Comics Text Detection and Recognition

Gürkan Soykan , Deniz Yuret , Tevfik Metin Sezgin

分类：自然语言处理 | 人工智能

2022-12-27

This study focuses on improving the optical character recognition (OCR) data for panels in the COMICS dataset, the largest dataset containing text and images from comic books. To do this, we developed a pipeline for OCR processing and labeling of comic books and created the first text detection and recognition datasets for western comics, called "COMICS Text+: Detection" and "COMICS Text+: Recognition". We evaluated the performance of state-of-the-art text detection and recognition models on these datasets and found significant improvement in word accuracy and normalized edit distance compared to the text in COMICS. We also created a new dataset called "COMICS Text+", which contains the extracted text from the textboxes in the COMICS dataset. Using the improved text data of COMICS Text+ in the comics processing model from resulted in state-of-the-art performance on cloze-style tasks without changing the model architecture. The COMICS Text+ dataset can be a valuable resource for researchers working on tasks including text detection, recognition, and high-level processing of comics, such as narrative understanding, character relations, and story generation. All the data and inference instructions can be accessed in https://github.com/gsoykan/comics_text_plus.

translated by 谷歌翻译

Critical Evaluation of LOCO dataset with Machine Learning

Recep Savas , Johannes Hinckeldeyn

分类：计算机视觉 | 人工智能

2022-09-27

目的：对象检测正在通过自动化系统中的机器学习技术迅速发展。准备好的数据对于训练算法是必要的。因此，本文的目的是描述上下文（Loco）数据集中所谓的物流对象的重新评估，该数据集是内部径流学领域中的第一个用于对象检测的数据集。方法论：我们使用三个步骤的实验研究方法来评估机车数据集。首先，分析了GITHUB上的图像以更好地了解数据集。其次，Google Drive Cloud用于培训目的，以重新访问算法实现和培训。最后，如果可以与原始出版物相比，可以检查机车数据集，如果可以实现相同的培训结果。研究结果：在我们的研究中实现的平均平均精度是对象检测中的常见基准，比最初的研究作者的初步研究显着增加，获得了41％的幅度。但是，在叉车和托盘卡车的物体类型中特别看到改进潜力。独创性：本文介绍了Loco数据集的首次关键复制研究，以用于内凝学中的对象检测。它表明，基于机车的更好参数的培训甚至比原始出版物中提出的更高的精度。但是，还有进一步改善机车数据集的空间。

translated by 谷歌翻译

Unconstrained Face-Mask & Face-Hand Datasets: Building a Computer Vision System to Help Prevent the Transmission of COVID-19

Fevziye Irem Eyiokur , Hazım Kemal Ekenel , Alexander Waibel

分类：计算机视觉

2021-03-16

卫生组织建议社会疏远，佩戴面罩，避免触摸面，以防止冠状病毒的传播。根据这些保护措施，我们开发了一种计算机视觉系统，以帮助防止Covid-19的传输。具体地，开发系统执行面部掩模检测，面部手互动检测，并测量社交距离。要培训和评估发达的系统，我们收集和注释图像，代表现实世界中的面部掩模使用和面部手互动。除了在自己的数据集上评估开发系统的性能外，还在文献中的现有数据集中测试了它，而不会对它们进行任何适应性。此外，我们提出了一个模块，以跟踪人之间的社交距离。实验结果表明，我们的数据集代表了真实世界的多样性。所提出的系统实现了面罩使用检测，面部手互动检测和在看不见的数据的真实情况下测量社会距离的高性能和泛化容量。数据集将在https://github.com/ilemeyiokur/covid-19-preventions-control -system中获得。

translated by 谷歌翻译

Holistic Interpretation of Public Scenes Using Computer Vision and Temporal Graphs to Identify Social Distancing Violations

Gihan Jayatilaka , Jameel Hassan , Suren Sritharan , Janith Bandara Senananayaka , Harshana Weligampola , Roshan Godaliyadda , Parakrama Ekanayake , Vijitha Herath , Janaka Ekanayake , Samath Dharmaratne

分类：计算机视觉

2021-12-13

Covid-19大流行导致了前所未有的全球公共卫生危机。鉴于其固有的性质，建议社会疏散措施作为遏制这种大流行传播的主要策略。因此，识别违反这些协议的情况，对削减疾病的传播并促进可持续生活方式具有影响。本文提出了一种基于电脑视觉的基于计算机视觉的系统，分析了CCTV镜头，为Covid-19传播提供了威胁水平评估。该系统努力捕获跨越多个帧的CCTV镜头的信息内容，以识别各个帧的各种违反社会偏移协议的实例，以及跨空间的识别，以及组行为的识别。该功能主要是通过利用基于时间图的基础结构来实现CCTV镜头的信息和对全能解释图的策略并量化给定场景的威胁级别的策略。在一系列场景中测试并验证各个组件，并针对人类专家意见进行了完整的系统。结果反映了威胁水平对人，其物理接近，相互作用，防护服和群体动力学的依赖。系统性能的准确性为76％，从而在城市进行了可部署的威胁监控系统，以允许社会中的正常和可持续性。

translated by 谷歌翻译

KOLOMVERSE: KRISO open large-scale image dataset for object detection in the maritime universe

Abhilasha Nanda , Sung Won Cho , Hyeopwoo Lee , Jin Hyoung Park

分类：计算机视觉

2022-06-20

多年来，为各种对象检测任务开发了数据集。海事域中的对象检测对于船舶的安全和导航至关重要。但是，在海事域中，仍然缺乏公开可用的大规模数据集。为了克服这一挑战，我们提出了Kolomverse，这是一个开放的大型图像数据集，可在Kriso（韩国研究所和海洋工程研究所）的海事域中进行物体检测。我们收集了从韩国21个领土水域捕获的5,845小时的视频数据。通过精心设计的数据质量评估过程，我们从视频数据中收集了大约2,151,470 4K分辨率的图像。该数据集考虑了各种环境：天气，时间，照明，遮挡，观点，背景，风速和可见性。 Kolomverse由五个类（船，浮标，渔网浮标，灯塔和风电场）组成，用于海上对象检测。该数据集的图像为3840美元$ \ times $ 2160像素，据我们所知，它是迄今为止最大的公开数据集，用于海上域中的对象检测。我们进行了对象检测实验，并在几个预训练的最先进的架构上评估了我们的数据集，以显示我们数据集的有效性和实用性。该数据集可在：\ url {https://github.com/maritimedataset/kolomverse}中获得。

translated by 谷歌翻译

Review On Deep Learning Technique For Underwater Object Detection

Radhwan Adnan Dakhil , Ali Retha Hasoon Khayeat

分类：计算机视觉

2022-09-21

水下结构的维修和维护以及海洋科学在很大程度上依赖于水下对象检测的结果，这是图像处理工作流程的关键部分。尽管已经提出了许多基于计算机视觉的方法，但还没有人开发出一种可靠，准确地检测并对深海中发现的物体和动物进行分类的系统。这主要是由于障碍物在水下环境中散射和吸收光线。随着深度学习的引入，科学家们已经能够解决广泛的问题，包括保护海洋生态系统，在紧急情况下挽救生命，防止水下灾难，并发现，汤匙和识别水下目标。但是，这些深度学习系统的好处和缺点仍然未知。因此，本文的目的是提供在水下对象检测中使用的数据集的概述，并介绍为此目的所采用的算法的优势和缺点的讨论。

translated by 谷歌翻译

Event-based YOLO Object Detection: Proof of Concept for Forward Perception System

Waseem Shariff , Muhammad Ali Farooq , Joe Lemley , Peter Corcoran

分类：计算机视觉

2022-12-14

Neuromorphic vision or event vision is an advanced vision technology, where in contrast to the visible camera that outputs pixels, the event vision generates neuromorphic events every time there is a brightness change which exceeds a specific threshold in the field of view (FOV). This study focuses on leveraging neuromorphic event data for roadside object detection. This is a proof of concept towards building artificial intelligence (AI) based pipelines which can be used for forward perception systems for advanced vehicular applications. The focus is on building efficient state-of-the-art object detection networks with better inference results for fast-moving forward perception using an event camera. In this article, the event-simulated A2D2 dataset is manually annotated and trained on two different YOLOv5 networks (small and large variants). To further assess its robustness, single model testing and ensemble model testing are carried out.

translated by 谷歌翻译

Identifying the exterior image of buildings on a 3D map and extracting elevation information using deep learning and digital image processing

Donghwa Shon , Byeongjoon Noh , Nahyang Byun

分类：计算机视觉

2022-01-04

尽管韩国的架构管理信息已经长时间提供了高质量的信息，但信息的效用水平并不高，因为它专注于行政信息。虽然这是这种情况，但具有更高分辨率的三维（3D）地图随着技术的发展而出现。然而，它不能比视觉传输更好地运行，因为它仅包括聚焦在建筑物外部的图像信息。如果可以从3D地图中提取或识别与建筑物外部相关的信息，则预计信息的效用将更有价值，因为国家架构管理信息可以扩展到包括关于建筑物的这些信息外部到BIM的水平（建筑信息建模）。本研究旨在展示和评估利用深度学习和数字图像处理的3D映射的3D映射的建筑物外观相关信息的基本方法。在从地图中提取和预处理图像之后，使用快速R-CNN（具有卷积神经元网络的区域）模型来识别信息。在从地图中提取和预处理图像后，使用更快的R-CNN模型来识别信息。结果，它在检测到建筑物的高度和窗户部分以及旨在提取建筑物的高程信息的实验中的优异性能方面表现出大约93％和91％的精度。尽管如此，预计将通过补充混合由实验者的误解引起的误报或噪声数据的概率来获得改进的结果，从而与窗户的不明确的界限。

translated by 谷歌翻译

Urdu Speech and Text Based Sentiment Analyzer

Waqar Ahmad , Maryam Edalati

分类：自然语言处理

2022-07-19

发现别人认为是我们信息收集策略的关键方面。现在，人们可以积极利用信息技术来寻找和理解他人的想法，这要归功于越来越多的意见资源（例如在线评论网站和个人博客）的越来越多。由于其在理解人们的意见方面的关键功能，因此情感分析（SA）是一项至关重要的任务。另一方面，现有的研究主要集中在英语上，只有少量研究专门研究低资源语言。对于情感分析，这项工作根据用户评估提供了一个新的多级乌尔都语数据集。高音扬声器网站用于获取乌尔都语数据集。我们提出的数据集包括10,000项评论，这些评论已被人类专家精心归类为两类：正面，负面。这项研究的主要目的是构建一个手动注释的数据集进行乌尔都语情绪分析，并确定基线结果。采用了五种不同的词典和规则的算法，包括NaiveBayes，Stanza，TextBlob，Vader和Flair，实验结果表明，其精度为70％的天赋优于其他经过测试的算法。

translated by 谷歌翻译

Handwritten Arabic Character Recognition for Children Writ-ing Using Convolutional Neural Network and Stroke Identification

Mais Alheraki , Rawan Al-Matham , Hend Al-Khalifa

分类：计算机视觉 | 人工智能

2022-11-03

Automatic Arabic handwritten recognition is one of the recently studied problems in the field of Machine Learning. Unlike Latin languages, Arabic is a Semitic language that forms a harder challenge, especially with variability of patterns caused by factors such as writer age. Most of the studies focused on adults, with only one recent study on children. Moreover, much of the recent Machine Learning methods focused on using Convolutional Neural Networks, a powerful class of neural networks that can extract complex features from images. In this paper we propose a convolutional neural network (CNN) model that recognizes children handwriting with an accuracy of 91% on the Hijja dataset, a recent dataset built by collecting images of the Arabic characters written by children, and 97% on Arabic Handwritten Character Dataset. The results showed a good improvement over the proposed model from the Hijja dataset authors, yet it reveals a bigger challenge to solve for children Arabic handwritten character recognition. Moreover, we proposed a new approach using multi models instead of single model based on the number of strokes in a character, and merged Hijja with AHCD which reached an averaged prediction accuracy of 96%.

translated by 谷歌翻译