智能论文笔记

An Investigation Of Ben-ford's Law Divergence And Machine Learning Techniques For Separability Of Fingerprint Images

Aamo Iorliam , Orgem Emmanuel , Yahaya I. Shehu

分类：计算机视觉

2022-01-05

保护指纹数据库对抗攻击者非常重要，以防止虚假接受率或假拒绝率。区分指纹图像的关键特性是利用这些不同类型的指纹图像的特征。本文的目的是执行指纹图像的分类。

translated by 谷歌翻译

Machine Learning Approaches to Predict Breast Cancer: Bangladesh Perspective

Taminul Islam , Arindom Kundu , Nazmul Islam Khan , Choyon Chandra Bonik , Flora Akter , Md Jihadul Islam

分类：机器学习

2022-06-30

如今，乳腺癌已成为近年来最突出的死亡原因之一。在所有恶性肿瘤中，这是全球妇女最常见和主要的死亡原因。手动诊断这种疾病需要大量的时间和专业知识。乳腺癌的检测是耗时的，并且可以通过开发基于机器的乳腺癌预测来减少疾病的传播。在机器学习中，系统可以从先前的实例中学习，并使用各种统计，概率和优化方法从嘈杂或复杂的数据集中找到难以检测的模式。这项工作比较了几种机器学习算法的分类准确性，精度，灵敏度和新近收集的数据集的特异性。在这种工作决策树，随机森林，逻辑回归，天真的贝叶斯和XGBoost中，已经实施了这五种机器学习方法，以在我们的数据集中获得最佳性能。这项研究的重点是找到最佳的算法，该算法可以预测乳腺癌，以最高的准确性。这项工作在效率和有效性方面评估了每种算法数据分类的质量。并与该领域的其他已发表工作相比。实施模型后，本研究达到了最佳模型准确性，在随机森林和XGBoost上达到94％。

translated by 谷歌翻译

Attention-based Bidirectional LSTM for Deceptive Opinion Spam Classification

Ashish Salunkhe

分类：自然语言处理

2021-12-29

在线评论在电子商务中发挥重要作用进行决策。大部分人口做出了哪些地方，餐厅访问，以根据各自的平台发布的评论来购买的地方，从哪里购买。欺诈性审查或意见垃圾邮件被分类为一个不诚实或欺骗性的审查。产品或餐厅的肯定审查有助于吸引客户，从而导致销售额增加，而负面评论可能会妨碍餐厅或产品销售的进展，从而导致令人害羞的声誉和损失。欺诈性评论是故意发布的各种在线审查平台，以欺骗客户购买，访问或分散产品或餐厅的注意力。它们也被编写或诋毁产品的辩护。该工作旨在检测和分类审查作为欺骗性或真实性。它涉及使用各种深入学习技术来分类审查和概述涉及基于人的双向LSTM的提出的方法，以解决与基线机器学习技术的评论和比较研究中的语义信息有关的问题，以进行审查分类。

translated by 谷歌翻译

Deep convolutional forest: a dynamic deep ensemble approach for spam detection in text

Mai A. Shaaban , Yasser F. Hassan , Shawkat K. Guirguis

分类：自然语言处理 | 人工智能 | 机器学习

2021-10-10

人们使用移动消息传递服务的增加导致了像网络钓鱼一样的社会工程攻击的传播，考虑到垃圾邮件文本是传播网络钓鱼攻击的主要因素之一，以窃取信用卡和密码等敏感数据。此外，关于Covid-19大流行的谣言和不正确的医疗信息在社交媒体上广泛分享，导致人们的恐惧和混乱。因此，过滤垃圾邮件内容对于降低风险和威胁至关重要。以前的研究依赖于机器学习和深入学习的垃圾邮件分类方法，但这些方法有两个限制。机器学习模型需要手动功能工程，而深度神经网络需要高计算成本。本文介绍了一种动态的深度集合模型，用于垃圾邮件检测，调整其复杂性并自动提取功能。所提出的模型利用卷积和汇集层进行特征提取以及基础分类器，如随机森林和极其随机的树木，用于将文本分类为垃圾邮件或合法的树。此外，该模型采用了Boosting和Bagging等集合学习程序。结果，该模型达到了高精度，召回，F1分数和精度为98.38％。

translated by 谷歌翻译

Email Spam Detection Using Hierarchical Attention Hybrid Deep Learning Method

Sultan Zavrak , Seyhmus Yilmaz

分类：自然语言处理 | 机器学习 | 神经与进化计算

2022-04-15

电子邮件是通信最广泛的方法之一，数以百万计的人和企业每天依靠它来交流和分享知识和信息。然而，近年来，电子邮件用户的增长量增加了垃圾邮件的急剧增加。适当地为个人和公司进行处理和管理电子邮件变得越来越困难。本文提出了一种用于电子邮件垃圾邮件检测的新技术，该技术基于卷积神经网络，封闭式复发单元和注意机制的组合。在系统培训期间，网络选择性地关注电子邮件文本的必要部分。卷积层的用法是通过层次表示提取更有意义，抽象和可推广的特征，这是本研究的主要贡献。此外，此贡献还包括交叉数据集评估，从而使模型培训数据集产生了更多独立的绩效。根据跨数据库评估结果，该提出的技术通过使用时间卷积来推动基于注意力的技术的结果，这使我们使用了更灵活的接收场大小。将建议的技术的发现与最先进的模型的发现进行了比较，并表明我们的方法表现优于它们。

translated by 谷歌翻译

A Case Study on the Classification of Lost Circulation Events During Drilling using Machine Learning Techniques on an Imbalanced Large Dataset

Toluwalase A. Olukoga , Yin Feng

分类：机器学习

2022-09-04

这项研究提出了机器学习模型，这些模型使用大型钻探数据集预测和分类循环严重性损失。我们展示了利用易于解释的机器学习方法来应对大型钻井工程挑战的可再现核心技术。我们利用了来自伊朗Azadegan油田组的65,000多个记录数据，其中具有类不平衡问题。数据集的十七个参数中有11个参数用于五个丢失的循环事件的分类。为了生成分类模型，我们使用了六种基本的机器学习算法和四种合奏学习方法。线性判别分析（LDA），逻辑回归（LR），支持向量机（SVM），分类和回归树（CART），K-Nearest Neighbors（KNN）和Gaussian Naive Bayes（GNB）是六个基本技术。我们还在调查解决方案中使用包装和增强集合学习技术，以改善预测性能。这些算法的性能是使用四个指标测量的：精度，精度，回忆和F1得分。选择表示数据不平衡的F1得分作为首选评估标准。发现CART模型是识别钻孔流体循环损失事件的最佳选择，平均加权F1分数为0.9904，标准偏差为0.0015。在应用合奏学习技术后，决策树的随机森林合奏表现出最佳的预测性能。它以1.0的完美加权F1分数确定并分类丢失的循环事件。使用置换功能重要性（PFI），发现测得的深度是准确识别钻孔时丢失的循环事件的最具影响力因素。

translated by 谷歌翻译

Common human diseases prediction using machine learning based on survey data

Jabir Al Nahian , Abu Kaisar Mohammad Masum , Sheikh Abujar , Md. Jueal Mia

分类：机器学习

2022-09-22

在这个时代，作为医疗的主要重点，这一时刻已经到来了。尽管令人印象深刻，但已经开发出来检测疾病的多种技术。此时，有一些类型的疾病COVID-19，正常烟，偏头痛，肺病，心脏病，肾脏疾病，糖尿病，胃病，胃病，胃病，骨骼疾病，自闭症是非常常见的疾病。在此分析中，我们根据疾病的症状进行了分析疾病症状的预测。我们研究了一系列症状，并接受了人们的调查以完成任务。已经采用了几种分类算法来训练模型。此外，使用性能评估矩阵来衡量模型的性能。最后，我们发现零件分类器超过了其他分类器。

translated by 谷歌翻译

FIGO: Enhanced Fingerprint Identification Approach Using GAN and One Shot Learning Techniques

Ibrahim Yilmaz

分类：计算机视觉 | 人工智能

2022-08-11

指纹证据在识别个人的刑事调查中起着重要作用。尽管已经提出了各种指纹分类和特征提取的技术，但指纹的自动指纹识别仍处于最早的阶段。传统\ textIt {自动指纹识别系统}（AFIS）的性能取决于有效的小小的点，并且仍然需要人类的专家协助在功能提取和识别阶段。基于这种动机，我们提出了一种基于生成对抗网络和一声学习技术（FIGO）的指纹识别方法。我们的解决方案包含两个组件：指纹增强层和指纹识别层。首先，我们提出了一个PIX2PIX模型，将低质量的指纹图像转换为直接在指纹增强层中的Pixel的高水平的指纹图像像素。通过提出的增强算法，指纹识别模型的性能得到了显着提高。此外，我们通过观察指纹设备的识别精度来开发基于Gabor过滤器的另一种现有解决方案，作为与建议模型进行比较的基准。实验结果表明，我们提出的PIX2PIX模型比指纹识别的基线方法具有更好的支持。其次，我们使用单次学习方法在指纹识别过程中构建一个完全自动化的指纹特征提取模型。两个具有共享权重和参数的双卷积神经网络（CNN）用于在此过程中获得特征向量。使用提出的方法，我们证明只能以高精度从一个培训样本中学习必要的信息。

translated by 谷歌翻译

Application of Machine Learning to Sleep Stage Classification

Andrew Smith , Hardik Anand , Snezana Milosavljevic , Katherine M. Rentschler , Ana Pocivavsek , Homayoun Valafar

分类：机器学习

2021-11-04

睡眠研究必须携带与睡眠损失相关的表型和有助于精神病理学的露出机制。最常见的是，调查人员手动将多色网络分类为警惕状态，这是耗时的，需要广泛的培训，并且容易出现帧间间变异性。虽然许多作品已经基于多个EEG通道成功开发了自动化状态分类器，但是我们的目标是生产一种自动化和开放式分类器，可以基于来自啮齿动物的单个皮质脑电图（EEG）来可靠地预测警惕状态，以最大限度地减少伴随的缺点通过电线束缚小动物到计算机程序。大约427小时的连续监测的脑电图，电灰度（EMG）和活性由总数据的571小时的域专家标记。在这里，我们评估各种机器学习技术对分类10-秒钟时期的各种机器学习技术的性能，进入三个离散类中的一种：矛盾，慢波或唤醒。我们的调查包括决策树，随机森林，天真贝叶斯分类器，Logistic回归分类器和人工神经网络。这些方法达到了约74％至约96％的精度。最值得注意的是，随机森林和巢穴分别实现了95.78％和93.31％的显着准确性。在这里，我们已经示出了各种机器学习分类器的潜力，以基于单个EEG读数和单一EMG读数自动，准确地和可靠地对警惕状态进行自动。

translated by 谷歌翻译

Deep Learning Based Classification System For Recognizing Local Spinach

Mirajul Islam , Nushrat Jahan Ria , Jannatul Ferdous Ani , Abu Kaisar Mohammad Masum , Sheikh Abujar , Syed Akhter Hossain

分类：计算机视觉 | 机器学习

2022-01-06

深度学习模型通过从训练的数据集学习来提供图像处理的令人难以置信的结果。菠菜是一种含有维生素和营养素的叶蔬菜。在我们的研究中，已经使用了一种可以自动识别菠菜的深度学习方法，并且该方法具有总共五种菠菜的数据集，其中包含3785个图像。四种卷积神经网络（CNN）模型用于对我们的菠菜进行分类。这些模型为图像分类提供更准确的结果。在应用这些模型之前，存在一些预处理图像数据。为了预处理数据，需要发生一些方法。那些是RGB转换，过滤，调整大小和重新划分和分类。应用这些方法后，图像数据被预处理并准备好在分类器算法中使用。这些分类器的准确性在98.68％至99.79％之间。在这些模型中，VGG16实现了99.79％的最高精度。

translated by 谷歌翻译

Impact Learning: A Learning Method from Features Impact and Competition

Nusrat Jahan Prottasha , Saydul Akbar Murad , Abu Jafar Md Muzahid , Masud Rana , Md Kowsher , Apurba Adhikary , Sujit Biswas , Anupam Kumar Bairagi

分类：机器学习 | 人工智能

2022-11-04

Machine learning is the study of computer algorithms that can automatically improve based on data and experience. Machine learning algorithms build a model from sample data, called training data, to make predictions or judgments without being explicitly programmed to do so. A variety of wellknown machine learning algorithms have been developed for use in the field of computer science to analyze data. This paper introduced a new machine learning algorithm called impact learning. Impact learning is a supervised learning algorithm that can be consolidated in both classification and regression problems. It can furthermore manifest its superiority in analyzing competitive data. This algorithm is remarkable for learning from the competitive situation and the competition comes from the effects of autonomous features. It is prepared by the impacts of the highlights from the intrinsic rate of natural increase (RNI). We, moreover, manifest the prevalence of the impact learning over the conventional machine learning algorithm.

translated by 谷歌翻译

A Dependable Hybrid Machine Learning Model for Network Intrusion Detection

Md. Alamin Talukder , Khondokar Fida Hasan , Md. Manowarul Islam , Md Ashraf Uddin , Arnisha Akhter , Mohammand Abu Yousuf , Fares Alharbi , Mohammad Ali Moni

分类：机器学习

2022-12-08

Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.

translated by 谷歌翻译

CovidMis20: COVID-19 Misinformation Detection System on Twitter Tweets using Deep Learning Models

Aos Mulahuwaish , Manish Osti , Kevin Gyorick , Majdi Maabreh , Ajay Gupta , Basheer Qolomany

分类：机器学习 | 自然语言处理

2022-09-13

在线新闻和信息来源是方便且可访问的方法来了解当前问题。例如，超过3亿人在全球Twitter上参与帖子，这提供了传播误导信息的可能性。在许多情况下，由于虚假新闻，已经犯了暴力犯罪。这项研究介绍了Covidmis20数据集（Covid-19误导2020数据集），该数据集由2月至2020年7月收集的1,375,592条推文组成。Covidmis20可以自动更新以获取最新新闻，并在以下网址公开，网址为：HTTPPS://GITHUB.COM./github.com./github.com。/一切guy/covidmis20。这项研究是使用BI-LSTM深度学习和合奏CNN+BI-GRU进行假新闻检测进行的。结果表明，测试精度分别为92.23％和90.56％，集合CNN+BI-GRU模型始终提供了比BI-LSTM模型更高的精度。

translated by 谷歌翻译

Sentiment analysis on electricity twitter posts

Pardeep Kaur , Maryam Edalati

分类：自然语言处理

2022-06-10

在当今的世界中，每个人都以某种方式表现出来，而该项目的重点是人们使用Twitter的数据（一个微博平台）的数据，人们对英国和印度的电价上涨的看法，人们在该平台上发布了消息，人们发布了消息，称为Tweets。因为许多人的收入不好，他们必须缴纳如此多的税款和账单，因此如今，维持房屋已成为有争议的问题。尽管政府提供了补贴计划来补偿人们的电费，但不受人们的欢迎。在这个项目中，目的是对Twitter上表达的人们的表达和观点进行情感分析。为了掌握电价的意见，有必要对能源市场的政府和消费者进行情感分析。此外，这些媒体上存在的文本本质上是非结构化的，因此要处理它们，我们首先需要预处理数据。有很多功能提取技术，例如单词袋，tf-idf（术语频率为单位的文档频率），单词嵌入，基于NLP的功能，例如Word Count。在该项目中，我们分析了特征TF-IDF单词级别对情感分析数据集的影响。我们发现，通过使用TF-IDF单词级别的性能分析的表现比使用N-Gram功能高3-4。使用四种分类算法进行分析，包括幼稚的贝叶斯，决策树，随机森林和逻辑回归，并考虑F评分，准确性，精度和召回性能参数。

translated by 谷歌翻译

Detecting Fake Points of Interest from Location Data

Syed Raza Bashir , Vojislav Misic

分类：机器学习 | 人工智能

2021-11-11

支持GPS的移动设备的普及和基于位置的服务的广泛使用导致了产生大量的地理标记数据。最近，数据分析现在可以访问更多来源，包括评论，新闻和图像，其中还提出了关于兴趣点（POI）数据源的可靠性的问题。虽然以前的研究通过各种安全机制试图检测到假POI数据，但目前的工作试图以更简单的方式捕获假POI数据。拟议的工作侧重于监督的学习方法及其能力，以找到基于位置的数据中的隐藏模式。通过真实数据获得地面真理标签，使用API生成假数据，因此我们将数据集与位置数据上的实际和假标签进行数据集。目的是使用多层Perceptron（MLP）方法来预测关于POI的真实性。在所提出的工作中，基于数据分类技术的MLP用于准确地对位置数据进行分类。将该方法与传统分类和稳健和近期深神经方法进行比较。结果表明，该方法优于基线方法。

translated by 谷歌翻译

Fake Hilsa Fish Detection Using Machine Vision

Mirajul Islam , Jannatul Ferdous Ani , Abdur Rahman , Zakia Zaman

分类：计算机视觉 | 人工智能

2022-01-08

希尔萨是孟加拉国的国家鱼。孟加拉国通过出口这条鱼赚了很多外币。不幸的是，最近几天，一些肆无忌惮的商人正在销售假的HILSA鱼类来获得利润。沙丁鱼和撒丁岛是市场上最销售的希尔萨。孟加拉国政府机构，即孟加拉国食品安全管理局表示，这些假希腊鱼类含有高水平的镉和铅，这对人类有害。在这项研究中，我们提出了一种可以容易地识别原始HILSA鱼和假HILSA鱼的方法。基于在线文学上的研究，我们是第一个识别原始HILSA鱼的研究。我们收集了超过16,000个原装和假冒Hilsa鱼的图像。要对这些图像进行分类，我们使用了几种基于深度学习的模型。然后，在它们之间比较了性能。在这些模型中，Densenet201实现了97.02％的最高精度。

translated by 谷歌翻译

Defect Prediction Using Stylistic Metrics

Rafed Muhammad Yasir , Moumita Asad , Ahmedul Kabir

分类：机器学习

2022-06-22

缺陷预测是最受欢迎的研究主题之一，因为它有可能最大程度地减少软件质量保证工作。现有方法已经从复杂性和开发者指标等各个角度检查了缺陷预测。但是，这些都没有考虑用于缺陷预测的编程样式。本文旨在分析风格指标对项目内部和交叉对象缺陷预测的影响。为了预测，使用了4种广泛使用的机器学习算法，即幼稚的贝叶斯，支持向量机，决策树和逻辑回归。该实验是在5个流行的开源项目的14个版本上进行的。检查F1，精度和召回以评估结果。结果表明，风格指标是缺陷的良好预测指标。

translated by 谷歌翻译

A novel approach to increase scalability while training machine learning algorithms using Bfloat 16 in credit card fraud detection

Bushra Yousuf , Rejwan Bin Sulaiman , Musarrat Saberin Nipun

分类：机器学习 | 人工智能

2022-06-24

如今，随着数字银行业务已成为常态，信用卡的使用已变得很普遍。随着这一增加，信用卡中的欺诈也对银行和客户都有一个巨大的问题和损失。正常的欺诈检测系统无法检测欺诈，因为欺诈者使用新技术出现欺诈。这创造了使用基于机器学习的软件来检测欺诈的需求。当前，可用的机器学习软件仅着眼于检测欺诈的准确性，但不关注检测的成本或时间因素。这项研究重点是银行信用卡欺诈检测系统的机器学习可伸缩性。我们已经比较了新提出的技术可用的现有机器学习算法和方法。目的是证明，使用较少的位训练机器学习算法将导致更可扩展的系统，这将减少时间，并且实施成本也较低。

translated by 谷歌翻译

A Comparison Study of Deep CNN Architecture in Detecting of Pneumonia

Al Mohidur Rahman Porag , Md. Mahedi Hasan , Dr. Md Taimur Ahad

分类：计算机视觉 | 机器学习

2022-12-30

Pneumonia, a respiratory infection brought on by bacteria or viruses, affects a large number of people, especially in developing and impoverished countries where high levels of pollution, unclean living conditions, and overcrowding are frequently observed, along with insufficient medical infrastructure. Pleural effusion, a condition in which fluids fill the lung and complicate breathing, is brought on by pneumonia. Early detection of pneumonia is essential for ensuring curative care and boosting survival rates. The approach most usually used to diagnose pneumonia is chest X-ray imaging. The purpose of this work is to develop a method for the automatic diagnosis of bacterial and viral pneumonia in digital x-ray pictures. This article first presents the authors' technique, and then gives a comprehensive report on recent developments in the field of reliable diagnosis of pneumonia. In this study, here tuned a state-of-the-art deep convolutional neural network to classify plant diseases based on images and tested its performance. Deep learning architecture is compared empirically. VGG19, ResNet with 152v2, Resnext101, Seresnet152, Mobilenettv2, and DenseNet with 201 layers are among the architectures tested. Experiment data consists of two groups, sick and healthy X-ray pictures. To take appropriate action against plant diseases as soon as possible, rapid disease identification models are preferred. DenseNet201 has shown no overfitting or performance degradation in our experiments, and its accuracy tends to increase as the number of epochs increases. Further, DenseNet201 achieves state-of-the-art performance with a significantly a smaller number of parameters and within a reasonable computing time. This architecture outperforms the competition in terms of testing accuracy, scoring 95%. Each architecture was trained using Keras, using Theano as the backend.

translated by 谷歌翻译

Machine Learning-based Efficient Ventricular Tachycardia Detection Model of ECG Signal

Pampa Howladar , Manodipan Sahoo

分类：机器学习

2021-12-24

在初步诊断和分析心脏缺陷，ECG信号发挥着重要作用。本文介绍了使用噪声滤波，独特的心电图特征和基于机器学习的分类器模型预测心室性心动过速心律失常的模型。在信号特征提取之前，我们可以拒绝并使信号脱落以消除正确检测特征的噪声。在提取必要的特征之后，测量与这些特征相关的必要参数。使用这些参数，我们使用的是一种高效的多键级分类器模型，使用机器学习方法可以有效地分类不同类型的心室性心动过速心律失常。我们的结果表明，基于逻辑回归和决策树的模型是用于检测心室性心动过速的最有效的机器学习模型。为了诊断心脏病并为患者寻找护理，需要早期，可靠的不同类型心律失常的诊断。通过实施我们提出的方法，这项工作涉及减少与心室性心动过速有关的关键信号的错误分类问题的问题。实验结果表明了我们提出的算法的令人满意的增强，并表现出高度的恢复力。通过这种帮助，医生可以提前评估这种患者的这种心律失常，并在适当的时间作出正确的决定。

translated by 谷歌翻译