智能论文笔记

A Natural Language Processing and Deep Learning based Model for Automated Vehicle Diagnostics using Free-Text Customer Service Reports

Ali Khodadadi , Soroush Ghandiparsi , Chen-Nee Chuah

分类：自然语言处理

2021-11-29

初始故障检测和诊断是提高车辆运行效率，安全性和稳定性的迫切措施。近年来，许多研究已经调查了使用可用的车辆数据改善车辆诊断过程的数据驱动方法。此外，采用数据驱动方法来增强客户服务代理交互。在这项研究中，我们展示了一种机器学习管道，以改善自动化车辆诊断。首先，自然语言处理（NLP）用于自由文本故障报告中提取至关重要的信息（在客户对服务部门的呼叫中生成）。然后，采用深度学习算法来验证服务请求并过滤模糊或误导性索赔。最终，实现了不同的分类算法以对服务请求进行分类，以便可以针对相关的服务部门进行有效的服务请求。拟议的模型 - 双向短期内存（BILSTM）以及卷积神经网络（CNN） - 显示了与技术人员的能力相比验证服务请求的18倍以上的准确性提高。此外，在预处理和特征提取阶段使用基于域的NLP技术以及基于CNN-BILSTM的请求验证提高了精度（$> 25 \％$），灵敏度（$> 39 \％$），特异性（$> 11 \％$），精度（$> 11 \％$）渐变树升压（GTB）服务分类模型。曲线下（ROC-AUC）下的接收器操作特征区域达到0.82。

translated by 谷歌翻译

Machine Learning in Access Control: A Taxonomy and Survey

Mohammad Nur Nobi , Maanak Gupta , Lopamudra Praharaj , Mahmoud Abdelsalam , Ram Krishnan , Ravi Sandhu

分类：机器学习

2022-07-04

越来越多的工作已经认识到利用机器学习（ML）进步的重要性，以满足提取访问控制属性，策略挖掘，策略验证，访问决策等有效自动化的需求。在这项工作中，我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战，例如缺乏公共现实世界数据集，基于ML的访问控制系统的管理，了解黑盒ML模型的决策等，并列举未来的研究方向。

translated by 谷歌翻译

Intent Recognition in Conversational Recommender Systems

Sahar Moradizeyveh

分类：自然语言处理 | 机器学习

2022-12-06

Any organization needs to improve their products, services, and processes. In this context, engaging with customers and understanding their journey is essential. Organizations have leveraged various techniques and technologies to support customer engagement, from call centres to chatbots and virtual agents. Recently, these systems have used Machine Learning (ML) and Natural Language Processing (NLP) to analyze large volumes of customer feedback and engagement data. The goal is to understand customers in context and provide meaningful answers across various channels. Despite multiple advances in Conversational Artificial Intelligence (AI) and Recommender Systems (RS), it is still challenging to understand the intent behind customer questions during the customer journey. To address this challenge, in this paper, we study and analyze the recent work in Conversational Recommender Systems (CRS) in general and, more specifically, in chatbot-based CRS. We introduce a pipeline to contextualize the input utterances in conversations. We then take the next step towards leveraging reverse feature engineering to link the contextualized input and learning model to support intent recognition. Since performance evaluation is achieved based on different ML models, we use transformer base models to evaluate the proposed approach using a labelled dialogue dataset (MSDialogue) of question-answering interactions between information seekers and answer providers.

translated by 谷歌翻译

Deep convolutional forest: a dynamic deep ensemble approach for spam detection in text

Mai A. Shaaban , Yasser F. Hassan , Shawkat K. Guirguis

分类：自然语言处理 | 人工智能 | 机器学习

2021-10-10

人们使用移动消息传递服务的增加导致了像网络钓鱼一样的社会工程攻击的传播，考虑到垃圾邮件文本是传播网络钓鱼攻击的主要因素之一，以窃取信用卡和密码等敏感数据。此外，关于Covid-19大流行的谣言和不正确的医疗信息在社交媒体上广泛分享，导致人们的恐惧和混乱。因此，过滤垃圾邮件内容对于降低风险和威胁至关重要。以前的研究依赖于机器学习和深入学习的垃圾邮件分类方法，但这些方法有两个限制。机器学习模型需要手动功能工程，而深度神经网络需要高计算成本。本文介绍了一种动态的深度集合模型，用于垃圾邮件检测，调整其复杂性并自动提取功能。所提出的模型利用卷积和汇集层进行特征提取以及基础分类器，如随机森林和极其随机的树木，用于将文本分类为垃圾邮件或合法的树。此外，该模型采用了Boosting和Bagging等集合学习程序。结果，该模型达到了高精度，召回，F1分数和精度为98.38％。

translated by 谷歌翻译

A Comprehensive Review of Visual-Textual Sentiment Analysis from Social Media Networks

Israa Khalaf Salman Al-Tameemi , Mohammad-Reza Feizi-Derakhshi , Saeed Pashazadeh , Mohammad Asadpour

分类：自然语言处理 | 人工智能

2022-07-05

社交媒体网络已成为人们生活的重要方面，它是其思想，观点和情感的平台。因此，自动化情绪分析（SA）对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用，包括品牌评估，YouTube电影评论和医疗保健应用。随着社交媒体的不断发展，人们以不同形式发布大量信息，包括文本，照片，音频和视频。因此，传统的SA算法已变得有限，因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征，这些多模式数据流提供了新的机会，以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域，该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源，我们介绍了文本和视觉SA的全面概述，包括数据预处理，功能提取技术，情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略，并提供了有关Visual Textual SA的现有研究的摘要。最后，我们重点介绍了最重大的挑战，并调查了一些重要的情感应用程序。

translated by 谷歌翻译

Automated Identification of Toxic Code Reviews Using ToxiCR

Jaydeb Sarker , Asif Kamal Turzo , Ming Dong , Amiangshu Bosu

分类：自然语言处理 | 机器学习

2022-02-26

软件开发互动期间的有毒对话可能会对免费开源软件（FOSS）开发项目产生严重影响。例如，有毒对话的受害者可能会害怕表达自己，因此会丧失自己的动力，并最终可能离开该项目。自动过滤有毒的对话可能有助于福斯社区保持其成员之间的健康互动。但是，现成的毒性探测器在软件工程（SE）数据集上的表现较差，例如从代码审查评论中策划的一个。为了遇到这一挑战，我们提出了毒性，这是一种基于学习的基于学习的毒性识别工具，用于代码审查互动。有毒物质包括选择一种监督学习算法之一，选择文本矢量化技术，八个预处理步骤以及一个大规模标记的数据集，其中包括19,571个代码评论评论。在这八个预处理步骤中，有两个是特定于SE域。通过对预处理步骤和矢量化技术的各种组合的模型进行严格的评估，我们已经确定了数据集的最佳组合，可提高95.8％的精度和88.9％的F1得分。毒性明显优于我们数据集中的现有毒性探测器。我们已发布了数据集，预处理的模型，评估结果和源代码，网址为：https：//github.com/wsu-seal/toxicr

translated by 谷歌翻译

Auto Response Generation in Online Medical Chat Services

Hadi Jahanshahi , Syed Kazmi , Mucahit Cevik

分类：自然语言处理 | 机器学习

2021-04-26

通过为患者启用远程医疗服务，远程医疗有助于促进医疗专业人员的机会。随着必要的技术基础设施的出现，这些服务已逐渐流行。自从Covid-19危机开始以来，远程医疗的好处就变得更加明显，因为人们在大流行期间倾向于亲自探望医生。在本文中，我们专注于促进医生和患者之间的聊天课程。我们注意到，随着对远程医疗服务的需求的增加，聊天体验的质量和效率可能至关重要。因此，我们为医学对话开发了一种智能的自动反应生成机制，该机制可帮助医生有效地对咨询请求做出反应，尤其是在繁忙的课程中。我们探索了9个月内收集的医生和患者之间的900,000多个匿名的历史在线信息。我们实施聚类算法，以确定医生最常见的响应，并相应地手动标记数据。然后，我们使用此预处理数据来训练机器学习算法以生成响应。所考虑的算法有两个步骤：过滤（即触发）模型，以滤除不可行的患者消息和一个响应发生器，以建议成功通过触发阶段的响应前3位医生响应。该方法为Precision@3提供了83.28 \％的精度，并显示出其参数的鲁棒性。

translated by 谷歌翻译

Improved two-stage hate speech classification for twitter based on Deep Neural Networks

Georgios K. Pitsilis

分类：自然语言处理 | 人工智能

2022-06-08

仇恨言论是一种在线骚扰的形式，涉及使用滥用语言，并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教，性别，种族等的特定群体特征上，如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务，但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展，我们在短文中适当地增强和微调以检测某些形式的仇恨语言，例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络（RNN）分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器（OVR）分类器的输出组合在一起，并用于训练第二阶段分类器，最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较，然后对另一个数据集进行了概括研究。报道的结果表明，与当前的最新技术相比，在仇恨言论检测任务中，所提出的方案的分类质量出色。

translated by 谷歌翻译

Happy or grumpy? A Machine Learning Approach to Analyze the Sentiment of Airline Passengers' Tweets

Shengyang Wu , Yi Gao

分类：自然语言处理

2022-09-28

作为最广泛的社交网络服务之一，Twitter截至2022年，Twitter拥有超过3亿个活跃用户。在其许多功能中，Twitter现在是消费者分享他们对产品或体验的看法的首选平台之一商业航空公司提供的服务。这项研究旨在通过分析使用机器学习方法提及航空公司的推文的观点来衡量客户满意度。从Twitter的API检索相关推文，并通过令牌化和矢量化处理。之后，这些处理后的向量被传递到预训练的机器学习分类器中以预测情感。除了情感分析外，我们还对收集的推文执行词汇分析，以模拟关键字的频率，这些频率提供了有意义的上下文以促进情感的解释。然后，我们应用时间序列方法，例如鲍林（Bollinger）频段来检测情绪数据中的异常。使用从2022年1月到7月的历史记录，我们的方法被证明能够捕捉乘客情绪的突然变化。这项研究有可能发展为可以帮助航空公司以及其他几家面向客户的企业的应用程序，有效地检测到客户情绪的突然变化，并采取足够的措施来抵消他们。

translated by 谷歌翻译

Early Detection of Security-Relevant Bug Reports using Machine Learning: How Far Are We?

Arthur D. Sawadogo , Quentin Guimard , Tegawendé F. Bissyandé , Abdoul Kader Kaboré , Jacques Klein , Naouel Moha

分类：自然语言处理 | 机器学习

2021-12-19

错误报告是软件开发中的常见文物。它们作为用户与开发人员通信有关使用发布版本的软件程序时遇到的问题的主频道。然而，在对问题的描述中，用户可以故意或不揭示漏洞。在典型的维护方案中，在准备纠正补丁时，开发团队优先考虑此类安全相关错误报告。然而，当安全相关性没有立即表达（例如，通过标签）或通过TRIAJIG团队迅速识别时，开放的安全相关错误报告可能成为攻击者可以利用以执行零日攻击的敏感信息的关键泄漏。为了支持Trizing Bug报告中的从业者，研究社区提出了检测安全相关错误报告的许多方法。近年来，报告了基于机器学习的这方面的方法，具有很有希望的表现。我们的工作侧重于这些方法，并重新审视其积木，为目前的成就提供全面的观点。为此，我们建立了一个大型实验数据集，并在特征集和学习算法中进行了广泛的实验。最终，我们的研究突出了不同的方法配置，从而产生最好的执行分类器。

translated by 谷歌翻译

Natural Language Processing in Customer Service: A Systematic Review

Malak Mashaabi , Areej Alotaibi , Hala Qudaih , Raghad Alnashwan , Hend Al-Khalifa

分类：自然语言处理 | 人工智能

2022-12-16

Artificial intelligence and natural language processing (NLP) are increasingly being used in customer service to interact with users and answer their questions. The goal of this systematic review is to examine existing research on the use of NLP technology in customer service, including the research domain, applications, datasets used, and evaluation methods. The review also looks at the future direction of the field and any significant limitations. The review covers the time period from 2015 to 2022 and includes papers from five major scientific databases. Chatbots and question-answering systems were found to be used in 10 main fields, with the most common use in general, social networking, and e-commerce areas. Twitter was the second most commonly used dataset, with most research also using their own original datasets. Accuracy, precision, recall, and F1 were the most common evaluation methods. Future work aims to improve the performance and understanding of user behavior and emotions, and address limitations such as the volume, diversity, and quality of datasets. This review includes research on different spoken languages and models and techniques.

translated by 谷歌翻译

IoT Data Analytics in Dynamic Environments: From An Automated Machine Learning Perspective

Li Yang , Abdallah Shami

分类：机器学习

2022-09-16

近年来，随着传感器和智能设备的广泛传播，物联网（IoT）系统的数据生成速度已大大增加。在物联网系统中，必须经常处理，转换和分析大量数据，以实现各种物联网服务和功能。机器学习（ML）方法已显示出其物联网数据分析的能力。但是，将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战，特别是有效的模型选择，设计/调整和更新，这给经验丰富的数据科学家带来了巨大的需求。此外，物联网数据的动态性质可能引入概念漂移问题，从而导致模型性能降解。为了减少人类的努力，自动化机器学习（AUTOML）已成为一个流行的领域，旨在自动选择，构建，调整和更新机器学习模型，以在指定任务上实现最佳性能。在本文中，我们对Automl区域中模型选择，调整和更新过程中的现有方法进行了审查，以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法，在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后，我们讨论并分类了该领域的挑战和研究方向。

translated by 谷歌翻译

Deep Learning Architecture for Automatic Essay Scoring

Tsegaye Misikir Tashu , Chandresh Kumar Maurya , Tomas Horvath

分类：自然语言处理 | 人工智能

2022-06-16

由于在线学习和评估平台（例如Coursera，Udemy，Khan Academy等）的兴起，对论文（AES）和自动论文评分的自动评估（AES）已成为一个严重的问题。研究人员最近提出了许多用于自动评估的技术。但是，其中许多技术都使用手工制作的功能，因此从特征表示的角度受到限制。深度学习已成为机器学习中的新范式，可以利用大量数据并确定对论文评估有用的功能。为此，我们提出了一种基于复发网络（RNN）和卷积神经网络（CNN）的新型体系结构。在拟议的体系结构中，多通道卷积层从嵌入矢量和基本语义概念中学习并捕获单词n-gram的上下文特征，并使用max-pooling操作在论文级别形成特征向量。 RNN的变体称为双门复发单元（BGRU），用于访问以前和后续的上下文表示。该实验是对Kaggle上的八个数据集进行的，以实现AES的任务。实验结果表明，我们提出的系统比其他基于深度学习的AES系统以及其他最新AES系统的评分精度明显更高。

translated by 谷歌翻译

Computational Sarcasm Analysis on Social Media: A Systematic Review

Faria Binte Kader , Nafisa Hossain Nujat , Tasmia Binte Sogir , Mohsinul Kabir , Hasan Mahmud , Kamrul Hasan

分类：自然语言处理

2022-09-13

讽刺可以被定义为说或写讽刺与一个人真正想表达的相反，通常是为了侮辱，刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂，因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年，但最近已经取得了一些重大进步，包括在多模式环境中采用了无监督的预训练的预训练的变压器，并整合了环境以识别讽刺。在这项研究中，我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集，方法，趋势，问题，挑战和任务，这些数据集，趋势，问题，挑战和任务是无法检测到的。我们的研究提供了讽刺数据集，讽刺特征及其提取方法以及各种方法的性能分析，这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。

translated by 谷歌翻译

Automatic Classification of Bug Reports Based on Multiple Text Information and Reports' Intention

Fanqi Meng , Xuesong Wang , Jingdong Wang , Peifang Wang

分类：自然语言处理 | 机器学习

2022-08-02

随着软件量表和复杂性的快速增长，将大量错误报告提交到错误跟踪系统中。为了加快缺陷维修的速度，需要对这些报告进行准确的分类，以便可以将其发送给适当的开发人员。但是，现有的分类方法仅使用错误报告的文本信息，从而导致其性能较低。为了解决上述问题，本文提出了一种用于错误报告的新自动分类方法。创新是，当对错误报告进行分类时，除了使用报告的文本信息外，还考虑了报告的意图（即建议或解释），从而提高了分类的性能。首先，我们从四个生态系统（Apache，Eclipse，Gentoo，Mozilla）收集错误报告，并手动注释它们以构建实验数据集。然后，我们使用自然语言处理技术来预处理数据。在此基础上，BERT和TF-IDF用于提取意图的功能和多个文本信息。最后，这些功能用于训练分类器。对五个分类器（包括k-nearest邻居，天真的贝叶斯，逻辑回归，支持向量机和随机森林）的实验结果表明，我们提出的方法可实现更好的性能，其F量度从87.3％达到95.5％。

translated by 谷歌翻译

An ensemble deep learning technique for detecting suicidal ideation from posts in social media platforms

Shini Renjith , Annie Abraham , Surya B. Jyothi , Lekshmi Chandran , Jincy Thomson

分类：自然语言处理 | 机器学习

2021-12-17

社交媒体的自杀意图检测是一种不断发展的研究，挑战了巨大的挑战。许多有自杀倾向的人通过社交媒体平台分享他们的思想和意见。作为许多研究的一部分，观察到社交媒体的公开职位包含有价值的标准，以有效地检测有自杀思想的个人。防止自杀的最困难的部分是检测和理解可能导致自杀的复杂风险因素和警告标志。这可以通过自动识别用户行为的突然变化来实现。自然语言处理技术可用于收集社交媒体交互的行为和文本特征，这些功能可以传递给特殊设计的框架，以检测人类交互中的异常，这是自杀意图指标。我们可以使用深度学习和/或基于机器学习的分类方法来实现快速检测自杀式思想。出于这种目的，我们可以采用LSTM和CNN模型的组合来检测来自用户的帖子的这种情绪。为了提高准确性，一些方法可以使用更多数据进行培训，使用注意模型提高现有模型等的效率。本文提出了一种LSTM-Incription-CNN组合模型，用于分析社交媒体提交，以检测任何潜在的自杀意图。在评估期间，所提出的模型的准确性为90.3％，F1分数为92.6％，其大于基线模型。

translated by 谷歌翻译

Towards Explainable Artificial Intelligence in Banking and Financial Services

Ambreen Hanif

分类：机器学习 | 人工智能

2021-12-14

人工智能（AI）使机器能够从人类经验中学习，适应新的输入，并执行人类的人类任务。 AI正在迅速发展，从过程自动化到认知增强任务和智能流程/数据分析的方式转换业务方式。然而，人类用户的主要挑战是理解和适当地信任AI算法和方法的结果。在本文中，为了解决这一挑战，我们研究并分析了最近在解释的人工智能（XAI）方法和工具中所做的最新工作。我们介绍了一种新颖的XAI进程，便于生产可解释的模型，同时保持高水平的学习性能。我们提出了一种基于互动的证据方法，以帮助人类用户理解和信任启用AI的算法创建的结果和输出。我们在银行域中采用典型方案进行分析客户交易。我们开发数字仪表板以促进与算法的互动结果，并讨论如何提出的XAI方法如何显着提高数据科学家对理解启用AI的算法结果的置信度。

translated by 谷歌翻译

Using attention methods to predict judicial outcomes

Vithor Gomes Ferreira Bertalan , Evandro Eduardo Seron Ruiz

分类：机器学习 | 人工智能 | 自然语言处理

2022-07-18

法律判决预测是NLP，AI和法律联合领域最受欢迎的领域之一。通过法律预测，我们是指能够预测特定司法特征的智能系统，例如司法结果，司法阶级，可以预测特定案例。在这项研究中，我们使用AI分类器来预测巴西法律体系中的司法结果。为此，我们开发了一个文本爬网，以从巴西官方电子法律系统中提取数据。这些文本构成了二级谋杀和主动腐败案件的数据集。我们应用了不同的分类器，例如支持向量机和神经网络，通过分析数据集中的文本功能来预测司法结果。我们的研究表明，回归树，封闭的重复单元和分层注意力网络给出了不同子集的较高指标。作为最终目标，我们探讨了一种算法的权重，即分层注意力网络，以找到用于免除或定罪被告的最重要词的样本。

translated by 谷歌翻译

Actuarial Applications of Natural Language Processing Using Transformers: Case Studies for Using Text Features in an Actuarial Context

Andreas Troxler , Jürg Schelldorfer

分类：自然语言处理

2022-06-04

本教程展示了工作流程，将文本数据纳入精算分类和回归任务。主要重点是采用基于变压器模型的方法。平均长度为400个单词的车祸描述的数据集，英语和德语可用，以及具有简短财产保险索赔的数据集用来证明这些技术。案例研究应对与多语言环境和长输入序列有关的挑战。他们还展示了解释模型输出，评估和改善模型性能的方法，通过将模型调整到应用程序领域或特定预测任务。最后，该教程提供了在没有或仅有少数标记数据的情况下处理分类任务的实用方法。通过使用最少的预处理和微调的现成自然语言处理（NLP）模型的语言理解技能（NLP）模型实现的结果清楚地证明了用于实际应用的转移学习能力。

translated by 谷歌翻译

Deep Learning based Urban Vehicle Trajectory Analytics

Seongjin Choi

分类：机器学习

2021-11-15

“轨迹”是指由地理空间中的移动物体产生的迹线，通常由一系列按时间顺序排列的点表示，其中每个点由地理空间坐标集和时间戳组成。位置感应和无线通信技术的快速进步使我们能够收集和存储大量的轨迹数据。因此，许多研究人员使用轨迹数据来分析各种移动物体的移动性。在本文中，我们专注于“城市车辆轨迹”，这是指城市交通网络中车辆的轨迹，我们专注于“城市车辆轨迹分析”。城市车辆轨迹分析提供了前所未有的机会，可以了解城市交通网络中的车辆运动模式，包括以用户为中心的旅行经验和系统范围的时空模式。城市车辆轨迹数据的时空特征在结构上相互关联，因此，许多先前的研究人员使用了各种方法来理解这种结构。特别是，由于其强大的函数近似和特征表示能力，深度学习模型是由于许多研究人员的注意。因此，本文的目的是开发基于深度学习的城市车辆轨迹分析模型，以更好地了解城市交通网络的移动模式。特别是，本文重点介绍了两项研究主题，具有很高的必要性，重要性和适用性：下一个位置预测，以及合成轨迹生成。在这项研究中，我们向城市车辆轨迹分析提供了各种新型模型，使用深度学习。

translated by 谷歌翻译