智能论文笔记

Deep convolutional forest: a dynamic deep ensemble approach for spam detection in text

Mai A. Shaaban , Yasser F. Hassan , Shawkat K. Guirguis

分类：自然语言处理 | 人工智能 | 机器学习

2021-10-10

人们使用移动消息传递服务的增加导致了像网络钓鱼一样的社会工程攻击的传播，考虑到垃圾邮件文本是传播网络钓鱼攻击的主要因素之一，以窃取信用卡和密码等敏感数据。此外，关于Covid-19大流行的谣言和不正确的医疗信息在社交媒体上广泛分享，导致人们的恐惧和混乱。因此，过滤垃圾邮件内容对于降低风险和威胁至关重要。以前的研究依赖于机器学习和深入学习的垃圾邮件分类方法，但这些方法有两个限制。机器学习模型需要手动功能工程，而深度神经网络需要高计算成本。本文介绍了一种动态的深度集合模型，用于垃圾邮件检测，调整其复杂性并自动提取功能。所提出的模型利用卷积和汇集层进行特征提取以及基础分类器，如随机森林和极其随机的树木，用于将文本分类为垃圾邮件或合法的树。此外，该模型采用了Boosting和Bagging等集合学习程序。结果，该模型达到了高精度，召回，F1分数和精度为98.38％。

translated by 谷歌翻译

Email Spam Detection Using Hierarchical Attention Hybrid Deep Learning Method

Sultan Zavrak , Seyhmus Yilmaz

分类：自然语言处理 | 机器学习 | 神经与进化计算

2022-04-15

电子邮件是通信最广泛的方法之一，数以百万计的人和企业每天依靠它来交流和分享知识和信息。然而，近年来，电子邮件用户的增长量增加了垃圾邮件的急剧增加。适当地为个人和公司进行处理和管理电子邮件变得越来越困难。本文提出了一种用于电子邮件垃圾邮件检测的新技术，该技术基于卷积神经网络，封闭式复发单元和注意机制的组合。在系统培训期间，网络选择性地关注电子邮件文本的必要部分。卷积层的用法是通过层次表示提取更有意义，抽象和可推广的特征，这是本研究的主要贡献。此外，此贡献还包括交叉数据集评估，从而使模型培训数据集产生了更多独立的绩效。根据跨数据库评估结果，该提出的技术通过使用时间卷积来推动基于注意力的技术的结果，这使我们使用了更灵活的接收场大小。将建议的技术的发现与最先进的模型的发现进行了比较，并表明我们的方法表现优于它们。

translated by 谷歌翻译

A Dependable Hybrid Machine Learning Model for Network Intrusion Detection

Md. Alamin Talukder , Khondokar Fida Hasan , Md. Manowarul Islam , Md Ashraf Uddin , Arnisha Akhter , Mohammand Abu Yousuf , Fares Alharbi , Mohammad Ali Moni

分类：机器学习

2022-12-08

Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.

translated by 谷歌翻译

Deep Learning Architecture for Automatic Essay Scoring

Tsegaye Misikir Tashu , Chandresh Kumar Maurya , Tomas Horvath

分类：自然语言处理 | 人工智能

2022-06-16

由于在线学习和评估平台（例如Coursera，Udemy，Khan Academy等）的兴起，对论文（AES）和自动论文评分的自动评估（AES）已成为一个严重的问题。研究人员最近提出了许多用于自动评估的技术。但是，其中许多技术都使用手工制作的功能，因此从特征表示的角度受到限制。深度学习已成为机器学习中的新范式，可以利用大量数据并确定对论文评估有用的功能。为此，我们提出了一种基于复发网络（RNN）和卷积神经网络（CNN）的新型体系结构。在拟议的体系结构中，多通道卷积层从嵌入矢量和基本语义概念中学习并捕获单词n-gram的上下文特征，并使用max-pooling操作在论文级别形成特征向量。 RNN的变体称为双门复发单元（BGRU），用于访问以前和后续的上下文表示。该实验是对Kaggle上的八个数据集进行的，以实现AES的任务。实验结果表明，我们提出的系统比其他基于深度学习的AES系统以及其他最新AES系统的评分精度明显更高。

translated by 谷歌翻译

Troll Tweet Detection Using Contextualized Word Representations

Seyhmus Yilmaz , Sultan Zavrak

分类：自然语言处理 | 人工智能

2022-07-17

近年来，已经出现了许多巨魔帐户来操纵社交媒体的意见。对于社交网络平台而言，检测和消除巨魔是一个关键问题，因为企业，滥用者和民族国家赞助的巨魔农场使用虚假和自动化的帐户。 NLP技术用于从社交网络文本中提取数据，例如Twitter推文。在许多文本处理应用程序中，诸如BERT之类的单词嵌入表示方法的执行效果要好于先前的NLP技术，从而为各种任务提供了新颖的突破，以精确理解和分类社交网络工作信息。本文实施并比较了九个基于深度学习的巨魔推文检测体系结构，每个bert，elmo和手套词嵌入模型的三个模型。精度，召回，F1分数，AUC和分类精度用于评估每个体系结构。从实验结果中，大多数使用BERT模型的架构改进了巨魔推文检测。具有GRU分类器的基于自定义的基于ELMO的体系结构具有检测巨魔消息的最高AUC。所提出的体系结构可以由各种基于社会的系统用于未来检测巨魔消息。

translated by 谷歌翻译

Automatic Classification of Bug Reports Based on Multiple Text Information and Reports' Intention

Fanqi Meng , Xuesong Wang , Jingdong Wang , Peifang Wang

分类：自然语言处理 | 机器学习

2022-08-02

随着软件量表和复杂性的快速增长，将大量错误报告提交到错误跟踪系统中。为了加快缺陷维修的速度，需要对这些报告进行准确的分类，以便可以将其发送给适当的开发人员。但是，现有的分类方法仅使用错误报告的文本信息，从而导致其性能较低。为了解决上述问题，本文提出了一种用于错误报告的新自动分类方法。创新是，当对错误报告进行分类时，除了使用报告的文本信息外，还考虑了报告的意图（即建议或解释），从而提高了分类的性能。首先，我们从四个生态系统（Apache，Eclipse，Gentoo，Mozilla）收集错误报告，并手动注释它们以构建实验数据集。然后，我们使用自然语言处理技术来预处理数据。在此基础上，BERT和TF-IDF用于提取意图的功能和多个文本信息。最后，这些功能用于训练分类器。对五个分类器（包括k-nearest邻居，天真的贝叶斯，逻辑回归，支持向量机和随机森林）的实验结果表明，我们提出的方法可实现更好的性能，其F量度从87.3％达到95.5％。

translated by 谷歌翻译

Novel Deep Learning Architecture for Heart Disease Prediction using Convolutional Neural Network

Shadab Hussain , Dr. Santosh Kumar Nanda , Susmith Barigidad , Shadab Akhtar , Md Suaib , Niranjan K. Ray

分类：机器学习

2021-05-22

医疗保健是人类生活中最重要的方面之一。众所周知，心脏病是最致命的疾病之一，这些疾病是阻碍了世界各地许多人的生命。必须提前检测心脏病，因此可以防止丧生生命。用于医学诊断的大规模数据的可用性有助于开发复杂的机器学习和基于深度学习的模型，用于自动化早期诊断心脏病。古典方法在没有概括到训练集中没有看到的新数据的概括。这在训练和测试精度方面的差距是巨大的差距。本文提出了一种新的深度学习架构，使用1D卷积神经网络进行健康和非健康人员之间的分类，以克服古典方法的局限性。各种临床参数用于评估有助于早期诊断的患者的风险概况。使用各种技术来避免在所提出的网络中过度装备。该网络在数据集中实现了超过97％的训练精度和96％的测试准确性。使用各种性能参数的其他分类算法详细比较了模型的准确性，这些算法证明了所提出的架构的有效性。

translated by 谷歌翻译

Attention-based Bidirectional LSTM for Deceptive Opinion Spam Classification

Ashish Salunkhe

分类：自然语言处理

2021-12-29

在线评论在电子商务中发挥重要作用进行决策。大部分人口做出了哪些地方，餐厅访问，以根据各自的平台发布的评论来购买的地方，从哪里购买。欺诈性审查或意见垃圾邮件被分类为一个不诚实或欺骗性的审查。产品或餐厅的肯定审查有助于吸引客户，从而导致销售额增加，而负面评论可能会妨碍餐厅或产品销售的进展，从而导致令人害羞的声誉和损失。欺诈性评论是故意发布的各种在线审查平台，以欺骗客户购买，访问或分散产品或餐厅的注意力。它们也被编写或诋毁产品的辩护。该工作旨在检测和分类审查作为欺骗性或真实性。它涉及使用各种深入学习技术来分类审查和概述涉及基于人的双向LSTM的提出的方法，以解决与基线机器学习技术的评论和比较研究中的语义信息有关的问题，以进行审查分类。

translated by 谷歌翻译

Machine Learning in Access Control: A Taxonomy and Survey

Mohammad Nur Nobi , Maanak Gupta , Lopamudra Praharaj , Mahmoud Abdelsalam , Ram Krishnan , Ravi Sandhu

分类：机器学习

2022-07-04

越来越多的工作已经认识到利用机器学习（ML）进步的重要性，以满足提取访问控制属性，策略挖掘，策略验证，访问决策等有效自动化的需求。在这项工作中，我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战，例如缺乏公共现实世界数据集，基于ML的访问控制系统的管理，了解黑盒ML模型的决策等，并列举未来的研究方向。

translated by 谷歌翻译

Automated Identification of Toxic Code Reviews Using ToxiCR

Jaydeb Sarker , Asif Kamal Turzo , Ming Dong , Amiangshu Bosu

分类：自然语言处理 | 机器学习

2022-02-26

软件开发互动期间的有毒对话可能会对免费开源软件（FOSS）开发项目产生严重影响。例如，有毒对话的受害者可能会害怕表达自己，因此会丧失自己的动力，并最终可能离开该项目。自动过滤有毒的对话可能有助于福斯社区保持其成员之间的健康互动。但是，现成的毒性探测器在软件工程（SE）数据集上的表现较差，例如从代码审查评论中策划的一个。为了遇到这一挑战，我们提出了毒性，这是一种基于学习的基于学习的毒性识别工具，用于代码审查互动。有毒物质包括选择一种监督学习算法之一，选择文本矢量化技术，八个预处理步骤以及一个大规模标记的数据集，其中包括19,571个代码评论评论。在这八个预处理步骤中，有两个是特定于SE域。通过对预处理步骤和矢量化技术的各种组合的模型进行严格的评估，我们已经确定了数据集的最佳组合，可提高95.8％的精度和88.9％的F1得分。毒性明显优于我们数据集中的现有毒性探测器。我们已发布了数据集，预处理的模型，评估结果和源代码，网址为：https：//github.com/wsu-seal/toxicr

translated by 谷歌翻译

Fraud Detection Using Optimized Machine Learning Tools Under Imbalance Classes

Mary Isangediok , Kelum Gajamannage

分类：机器学习

2022-09-04

由于欺诈模式随着时间的流逝而变化，并且欺诈示例的可用性有限，以学习这种复杂的模式，因此欺诈检测是一项具有挑战性的任务。因此，借助智能版本的机器学习（ML）工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务；但是，相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外，在不平衡类中的分类非常具有挑战性，因为它在少数群体中导致绩效差，大多数ML分类技术都忽略了。因此，我们研究了四种最先进的ML技术，即逻辑回归，决策树，随机森林和极端梯度提升，它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先，这些分类器经过两个原始基准测试不平衡检测数据集的培训，即网站网站URL和欺诈性信用卡交易。然后，通过实现采样框架，即RandomundSampler，Smote和Smoteenn，为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性，即接收器操作特性（AUC ROC）和精度和召回曲线下的面积（AUC PR）（AUC PR）。对于网络钓鱼网站URL和信用卡欺诈事务数据集，结果表明，对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能，并以AUC ROC和AUC PR来超越其他三种方法。

translated by 谷歌翻译

An ensemble deep learning technique for detecting suicidal ideation from posts in social media platforms

Shini Renjith , Annie Abraham , Surya B. Jyothi , Lekshmi Chandran , Jincy Thomson

分类：自然语言处理 | 机器学习

2021-12-17

社交媒体的自杀意图检测是一种不断发展的研究，挑战了巨大的挑战。许多有自杀倾向的人通过社交媒体平台分享他们的思想和意见。作为许多研究的一部分，观察到社交媒体的公开职位包含有价值的标准，以有效地检测有自杀思想的个人。防止自杀的最困难的部分是检测和理解可能导致自杀的复杂风险因素和警告标志。这可以通过自动识别用户行为的突然变化来实现。自然语言处理技术可用于收集社交媒体交互的行为和文本特征，这些功能可以传递给特殊设计的框架，以检测人类交互中的异常，这是自杀意图指标。我们可以使用深度学习和/或基于机器学习的分类方法来实现快速检测自杀式思想。出于这种目的，我们可以采用LSTM和CNN模型的组合来检测来自用户的帖子的这种情绪。为了提高准确性，一些方法可以使用更多数据进行培训，使用注意模型提高现有模型等的效率。本文提出了一种LSTM-Incription-CNN组合模型，用于分析社交媒体提交，以检测任何潜在的自杀意图。在评估期间，所提出的模型的准确性为90.3％，F1分数为92.6％，其大于基线模型。

translated by 谷歌翻译

Automatic Diagnosis of Schizophrenia in EEG Signals Using CNN-LSTM Models

Afshin Shoeibi , Delaram Sadeghi , Parisa Moridian , Navid Ghassemi , Jonathan Heras , Roohallah Alizadehsani , Ali Khadem , Yinan Kong , Saeid Nahavandi , Yu-Dong Zhang

分类：机器学习

2021-09-02

精神分裂症（SZ）是一种精神障碍，由于大脑中特定化学品的分泌，一些脑区的功能失去平衡，导致思想，行动和情绪之间缺乏协调。本研究提供了通过脑电图（EEG）信号的自动化SZ诊断的各种智能深度学习（DL）方法。将得到的结果与传统智能方法的结果进行比较。为了实施拟议的方法，已经使用了波兰华沙精神病学与神经学研究所的数据集。首先，将EEG信号分成25秒的时间框架，然后通过Z分数或标准L2标准化。在分类步骤中，考虑通过EEG信号考虑两种不同的方法进行SZ诊断。在该步骤中，首先通过传统的机器学习方法进行EEG信号的分类，例如，支持向量机，K-CORMONT邻居，决策树，NA \“IVE贝叶斯，随机森林，极其随机树木和袋装。各种提出的DL模型，即长的短期存储器（LSTMS），一维卷积网络（1D-CNNS）和1D-CNN-LSTMS。在此步骤中，实现并比较了DL模型具有不同的激活功能。在提议的DL模型中，CNN-LSTM架构具有最佳性能。在这种架构中，使用具有Z分数和L2组合标准化的Relu激活功能。所提出的CNN-LSTM模型具有达到99.25％的准确度，比该领域的大多数前研究的结果更好。值得一提的是，为了执行所有模拟，已经使用了具有k = 5的k折叠交叉验证方法。

translated by 谷歌翻译

Multimodal Fake News Detection

Santiago Alonso-Bartolome , Isabel Segura-Bedmar

分类：自然语言处理

2021-12-09

在过去的几年里，假新闻的前所未有的扩散。因此，我们更容易受到误导和消毒蔓延可能在我们社会的不同细分市场的影响。因此，开发自动检测假新闻的工具和在预防其负面影响方面发挥着重要作用。大多数尝试仅在使用文本信息时检测和分类错误内容焦点。多式联运方法频繁不那么频繁，它们通常将新闻分类为真假或假。在这项工作中，我们使用单峰和多模式方法对FakedDit DataSet进行精细的虚假新闻分类。我们的实验表明，基于卷积神经网络（CNN）架构的多模式方法组合文本和图像数据的最佳结果，精度为87％。一些假新闻类别，如操纵内容，讽刺或假连接强烈地受益于图像的使用。使用图像也提高了其他类别的结果，但影响较少。关于仅使用文本的单向方法，来自变压器（BERT）的双向编码器表示是最佳模型，精度为78％。因此，利用文本和图像数据显着提高了假新闻检测的性能。

translated by 谷歌翻译

Early Detection of Security-Relevant Bug Reports using Machine Learning: How Far Are We?

Arthur D. Sawadogo , Quentin Guimard , Tegawendé F. Bissyandé , Abdoul Kader Kaboré , Jacques Klein , Naouel Moha

分类：自然语言处理 | 机器学习

2021-12-19

错误报告是软件开发中的常见文物。它们作为用户与开发人员通信有关使用发布版本的软件程序时遇到的问题的主频道。然而，在对问题的描述中，用户可以故意或不揭示漏洞。在典型的维护方案中，在准备纠正补丁时，开发团队优先考虑此类安全相关错误报告。然而，当安全相关性没有立即表达（例如，通过标签）或通过TRIAJIG团队迅速识别时，开放的安全相关错误报告可能成为攻击者可以利用以执行零日攻击的敏感信息的关键泄漏。为了支持Trizing Bug报告中的从业者，研究社区提出了检测安全相关错误报告的许多方法。近年来，报告了基于机器学习的这方面的方法，具有很有希望的表现。我们的工作侧重于这些方法，并重新审视其积木，为目前的成就提供全面的观点。为此，我们建立了一个大型实验数据集，并在特征集和学习算法中进行了广泛的实验。最终，我们的研究突出了不同的方法配置，从而产生最好的执行分类器。

translated by 谷歌翻译

Improved two-stage hate speech classification for twitter based on Deep Neural Networks

Georgios K. Pitsilis

分类：自然语言处理 | 人工智能

2022-06-08

仇恨言论是一种在线骚扰的形式，涉及使用滥用语言，并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教，性别，种族等的特定群体特征上，如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务，但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展，我们在短文中适当地增强和微调以检测某些形式的仇恨语言，例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络（RNN）分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器（OVR）分类器的输出组合在一起，并用于训练第二阶段分类器，最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较，然后对另一个数据集进行了概括研究。报道的结果表明，与当前的最新技术相比，在仇恨言论检测任务中，所提出的方案的分类质量出色。

translated by 谷歌翻译

Machine learning based disease diagnosis: A comprehensive review

Md Manjurul Ahsan , Zahed Siddique

分类：机器学习

2021-12-31

在全球范围内，有实质性的未满足需要有效地诊断各种疾病。不同疾病机制的复杂性和患者人群的潜在症状具有巨大挑战，以发展早期诊断工具和有效治疗。机器学习（ML），人工智能（AI）区域，使研究人员，医师和患者能够解决这些问题的一些问题。基于相关研究，本综述解释了如何使用机器学习（ML）和深度学习（DL）来帮助早期识别许多疾病。首先，使用来自Scopus和Science（WOS）数据库的数据来给予所述出版物的生物计量研究。对1216个出版物的生物计量研究进行了确定，以确定最多产的作者，国家，组织和最引用的文章。此次审查总结了基于机器学习的疾病诊断（MLBDD）的最新趋势和方法，考虑到以下因素：算法，疾病类型，数据类型，应用和评估指标。最后，该文件突出了关键结果，并向未来的未来趋势和机遇提供了解。

translated by 谷歌翻译

A Unified Training Process for Fake News Detection based on Fine-Tuned BERT Model

Vijay Srinivas Tida , Dr. Sonya Hsu , Dr. Xiali Hei

分类：机器学习

2022-02-03

随着社交媒体平台的可访问性迅速增加，有效的假新闻探测器变得至关重要。

translated by 谷歌翻译

A Comparative Study of Classical and Quantum Machine Learning Models for Sentimental Analysis

Diksha Sharma , Parvinder Singh , Atul Kumar

分类：机器学习

2022-09-12

我们分析和分类从电影评论构建的文本数据的观点。为此，我们使用量子机学习算法的基于内核的方法。为了组合量子内核，我们使用使用不同Pauli旋转门组合构造的电路，其中旋转参数是从文本数据获得的数据点的经典非线性函数。为了分析提出的模型的性能，我们使用决策树，增强分类器以及经典和量子支持向量机分析量子模型。我们的结果表明，就所有评估指标而言，量子内核模型或量子支持向量机优于用于分析的所有其他算法。与经典的支持向量机相比，量子支持向量机也会带来明显更好的结果，即使功能数量增加或尺寸增加。结果清楚地表明，如果功能的数量为$ 15 $，则使用量子支持向量机使用量子支持向量机的精度分数提高了$ 9.4 \％$，而经典支持向量机则将其提高。

translated by 谷歌翻译

CovidMis20: COVID-19 Misinformation Detection System on Twitter Tweets using Deep Learning Models

Aos Mulahuwaish , Manish Osti , Kevin Gyorick , Majdi Maabreh , Ajay Gupta , Basheer Qolomany

分类：机器学习 | 自然语言处理

2022-09-13

在线新闻和信息来源是方便且可访问的方法来了解当前问题。例如，超过3亿人在全球Twitter上参与帖子，这提供了传播误导信息的可能性。在许多情况下，由于虚假新闻，已经犯了暴力犯罪。这项研究介绍了Covidmis20数据集（Covid-19误导2020数据集），该数据集由2月至2020年7月收集的1,375,592条推文组成。Covidmis20可以自动更新以获取最新新闻，并在以下网址公开，网址为：HTTPPS://GITHUB.COM./github.com./github.com。/一切guy/covidmis20。这项研究是使用BI-LSTM深度学习和合奏CNN+BI-GRU进行假新闻检测进行的。结果表明，测试精度分别为92.23％和90.56％，集合CNN+BI-GRU模型始终提供了比BI-LSTM模型更高的精度。

translated by 谷歌翻译