作为最广泛的社交网络服务之一,Twitter截至2022年,Twitter拥有超过3亿个活跃用户。在其许多功能中,Twitter现在是消费者分享他们对产品或体验的看法的首选平台之一商业航空公司提供的服务。这项研究旨在通过分析使用机器学习方法提及航空公司的推文的观点来衡量客户满意度。从Twitter的API检索相关推文,并通过令牌化和矢量化处理。之后,这些处理后的向量被传递到预训练的机器学习分类器中以预测情感。除了情感分析外,我们还对收集的推文执行词汇分析,以模拟关键字的频率,这些频率提供了有意义的上下文以促进情感的解释。然后,我们应用时间序列方法,例如鲍林(Bollinger)频段来检测情绪数据中的异常。使用从2022年1月到7月的历史记录,我们的方法被证明能够捕捉乘客情绪的突然变化。这项研究有可能发展为可以帮助航空公司以及其他几家面向客户的企业的应用程序,有效地检测到客户情绪的突然变化,并采取足够的措施来抵消他们。
translated by 谷歌翻译
在当今的世界中,每个人都以某种方式表现出来,而该项目的重点是人们使用Twitter的数据(一个微博平台)的数据,人们对英国和印度的电价上涨的看法,人们在该平台上发布了消息,人们发布了消息,称为Tweets。因为许多人的收入不好,他们必须缴纳如此多的税款和账单,因此如今,维持房屋已成为有争议的问题。尽管政府提供了补贴计划来补偿人们的电费,但不受人们的欢迎。在这个项目中,目的是对Twitter上表达的人们的表达和观点进行情感分析。为了掌握电价的意见,有必要对能源市场的政府和消费者进行情感分析。此外,这些媒体上存在的文本本质上是非结构化的,因此要处理它们,我们首先需要预处理数据。有很多功能提取技术,例如单词袋,tf-idf(术语频率为单位的文档频率),单词嵌入,基于NLP的功能,例如Word Count。在该项目中,我们分析了特征TF-IDF单词级别对情感分析数据集的影响。我们发现,通过使用TF-IDF单词级别的性能分析的表现比使用N-Gram功能高3-4。使用四种分类算法进行分析,包括幼稚的贝叶斯,决策树,随机森林和逻辑回归,并考虑F评分,准确性,精度和召回性能参数。
translated by 谷歌翻译
互联网上的自以为是的数据量正在迅速增加。越来越多的人在评论,讨论论坛,微博和一般社交媒体中分享他们的想法和意见。由于意见在所有人类活动中都是核心,因此已应用情绪分析来获得有关此类数据的见解。有几种情感分类的方法。主要缺点是缺乏用于分类和高级可视化的标准化解决方案。在这项研究中,提出了用于在线社交网络分析的情感分析仪仪表板。这是为了使人们能够获得对他们有趣的主题的见解。该工具允许用户在仪表板中运行所需的情感分析算法。除了提供几种可视化类型外,仪表板还促进了来自情感分类的原始数据结果,可以下载以进行进一步分析。
translated by 谷歌翻译
自Covid-19大流行病开始以来,疫苗一直是公共话语中的重要话题。疫苗周围的讨论被两极分化,因为有些人认为它们是结束大流行的重要措施,而另一些人则犹豫不决或发现它们有害。这项研究调查了与Twitter上的Covid-19疫苗有关的帖子,并着重于对疫苗有负姿态的帖子。收集了与COVID-19疫苗相关的16,713,238个英文推文的数据集,收集了涵盖从2020年3月1日至2021年7月31日的该期间。我们使用Scikit-Learn Python库来应用支持向量机(SVM)分类器针对Covid-19疫苗的推文具有负姿态。总共使用了5,163个推文来训练分类器,其中有2,484个推文由我们手动注释并公开提供。我们使用Berttopic模型来提取和调查负推文中讨论的主题以及它们如何随时间变化。我们表明,随着疫苗的推出,对COVID-19疫苗的负面影响随时间而下降。我们确定了37个讨论主题,并随着时间的推移介绍了各自的重要性。我们表明,流行的主题包括阴谋讨论,例如5G塔和微芯片,但还涉及涉及疫苗接种安全性和副作用以及对政策的担忧。我们的研究表明,即使是不受欢迎的观点或阴谋论,与广受欢迎的讨论主题(例如Covid-19疫苗)配对时,也会变得广泛。了解问题和讨论的主题以及它们如何随着时间的变化对于政策制定者和公共卫生当局提供更好和时间的信息和政策,以促进未来类似危机的人口接种。
translated by 谷歌翻译
少数群体一直在使用社交媒体来组织社会运动,从而产生深远的社会影响。黑人生活问题(BLM)和停止亚洲仇恨(SAH)是两个成功的社会运动,在Twitter上蔓延开来,促进了抗议活动和活动,反对种族主义,并提高公众对少数群体面临的其他社会挑战的认识。但是,以前的研究主要对与用户的推文或访谈进行了定性分析,这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格,量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此,在这项研究中,我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了(1)潜在的DIRICHLET分配模型,以了解顶级高级单词和主题以及(2)开放编码分析,以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文,并比较了它们的主题。我们的发现表明,这些推文在深度上讨论了各种有影响力的话题,社会正义,社会运动和情感情感都是两种运动的共同主题,尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析,以及有关AI,伦理和社会相互作用的文献。
translated by 谷歌翻译
社交媒体使用量增加到今天的数字世界中的历史新高。大多数人口使用社交媒体工具(如Twitter,Facebook,YouTube等)与社区分享他们的思想和经验。分析共同公众的情绪和意见对政府和商界人士来说非常重要。这是在大选时间进行各种民意调查中的大量媒体机构激活的原因。在本文中,我们曾在2019年Lok Sabha选举期间分析了印度人民的情绪,使用该持续时间的推特数据。我们建立了一个自动推文分析仪,使用传输学习技术来处理这个问题的无监督性质。我们在我们的机器学习模型中使用了线性支持向量分类方法,此外,术语频率逆文档频率(TF-IDF)方法用于处理推文的文本数据。此外,我们提高了模型的能力,以解决一些用户发布的讽刺推文,其中一些用户尚未被该领域的研究人员考虑。
translated by 谷歌翻译
发现别人认为是我们信息收集策略的关键方面。现在,人们可以积极利用信息技术来寻找和理解他人的想法,这要归功于越来越多的意见资源(例如在线评论网站和个人博客)的越来越多。由于其在理解人们的意见方面的关键功能,因此情感分析(SA)是一项至关重要的任务。另一方面,现有的研究主要集中在英语上,只有少量研究专门研究低资源语言。对于情感分析,这项工作根据用户评估提供了一个新的多级乌尔都语数据集。高音扬声器网站用于获取乌尔都语数据集。我们提出的数据集包括10,000项评论,这些评论已被人类专家精心归类为两类:正面,负面。这项研究的主要目的是构建一个手动注释的数据集进行乌尔都语情绪分析,并确定基线结果。采用了五种不同的词典和规则的算法,包括NaiveBayes,Stanza,TextBlob,Vader和Flair,实验结果表明,其精度为70%的天赋优于其他经过测试的算法。
translated by 谷歌翻译
本文描述了一个关于人们的话语的大型全球数据集以及在Twitter平台上对Covid-19的大流行的反应。从2020年1月28日至2022年6月1日,我们收集并处理了超过2900万个唯一用户的Twitter帖子,使用了四个关键字:“ Corona”,“ Wuhan”,“ NCOV”和“ COVID”。利用概率主题建模和预训练的基于机器学习的情感识别算法,我们将每个推文标记为具有十七个属性,包括a)十个二进制属性,指示了Tweet的相关性(1)或与前十名检测到的主题,B )五个定量情绪属性表示价或情感的强度程度(从0:极为消极到1:极为积极)以及恐惧,愤怒,悲伤和幸福情感的强度程度(从0:完全不是1到1 :极度强烈),c)两个分类属性表明情绪(非常负面,消极,中立或混合,积极,非常积极)以及主导的情感(恐惧,愤怒,悲伤,幸福,没有特定的情感),主要是推文表达。我们讨论技术有效性,并报告这些属性的描述性统计,其时间分布和地理表示。本文最后讨论了数据集在传播,心理学,公共卫生,经济学和流行病学中的用法。
translated by 谷歌翻译
Large language models have recently attracted significant attention due to their impressive performance on a variety of tasks. ChatGPT developed by OpenAI is one such implementation of a large, pre-trained language model that has gained immense popularity among early adopters, where certain users go to the extent of characterizing it as a disruptive technology in many domains. Understanding such early adopters' sentiments is important because it can provide insights into the potential success or failure of the technology, as well as its strengths and weaknesses. In this paper, we conduct a mixed-method study using 10,732 tweets from early ChatGPT users. We first use topic modelling to identify the main topics and then perform an in-depth qualitative sentiment analysis of each topic. Our results show that the majority of the early adopters have expressed overwhelmingly positive sentiments related to topics such as Disruptions to software development, Entertainment and exercising creativity. Only a limited percentage of users expressed concerns about issues such as the potential for misuse of ChatGPT, especially regarding topics such as Impact on educational aspects. We discuss these findings by providing specific examples for each topic and then detail implications related to addressing these concerns for both researchers and users.
translated by 谷歌翻译
Sentiment analysis or opinion mining help to illustrate the phrase NLP (Natural Language Processing). Sentiment analysis has been the most significant topic in recent years. The goal of this study is to solve the sentiment polarity classification challenges in sentiment analysis. A broad technique for categorizing sentiment opposition is presented, along with comprehensive process explanations. With the results of the analysis, both sentence-level classification and review-level categorization are conducted. Finally, we discuss our plans for future sentiment analysis research.
translated by 谷歌翻译
这篇研究论文提出了COVID-19监测和响应系统,以确定医院患者的数量激增以及关键设备(如东南亚国家的呼吸机),以了解医疗机构的负担。这可以通过资源计划措施来帮助这些地区的当局,以将资源重定向到模型确定的地区。由于缺乏有关医院患者涌入的公开可用数据,或者这些国家可能面临的设备,ICU单元或医院病床的短缺,我们利用Twitter数据来收集此信息。该方法为印度的各州提供了准确的结果,我们正在努力验证其余国家的模型,以便它可以作为当局监控医院负担的可靠工具。
translated by 谷歌翻译
Current research on users` perspectives of cyber security and privacy related to traditional and smart devices at home is very active, but the focus is often more on specific modern devices such as mobile and smart IoT devices in a home context. In addition, most were based on smaller-scale empirical studies such as online surveys and interviews. We endeavour to fill these research gaps by conducting a larger-scale study based on a real-world dataset of 413,985 tweets posted by non-expert users on Twitter in six months of three consecutive years (January and February in 2019, 2020 and 2021). Two machine learning-based classifiers were developed to identify the 413,985 tweets. We analysed this dataset to understand non-expert users` cyber security and privacy perspectives, including the yearly trend and the impact of the COVID-19 pandemic. We applied topic modelling, sentiment analysis and qualitative analysis of selected tweets in the dataset, leading to various interesting findings. For instance, we observed a 54% increase in non-expert users` tweets on cyber security and/or privacy related topics in 2021, compared to before the start of global COVID-19 lockdowns (January 2019 to February 2020). We also observed an increased level of help-seeking tweets during the COVID-19 pandemic. Our analysis revealed a diverse range of topics discussed by non-expert users across the three years, including VPNs, Wi-Fi, smartphones, laptops, smart home devices, financial security, and security and privacy issues involving different stakeholders. Overall negative sentiment was observed across almost all topics non-expert users discussed on Twitter in all the three years. Our results confirm the multi-faceted nature of non-expert users` perspectives on cyber security and privacy and call for more holistic, comprehensive and nuanced research on different facets of such perspectives.
translated by 谷歌翻译
人们最近开始通过社交网站上用户生成的多媒体材料来传达自己的思想和观点。此信息可以是图像,文本,视频或音频。近年来,这种模式的发生频率有所增加。 Twitter是最广泛使用的社交媒体网站之一,它也是最好的地点之一,可以使人们对与蒙基波疾病有关的事件有一种了解。这是因为Twitter上的推文被缩短并经常更新,这两者都促成了平台的角色。这项研究的基本目标是对人们对这种情况的存在的各种反应进行更深入的理解。这项研究重点是找出个人对猴蛋白酶疾病的看法,该疾病介绍了基于CNN和LSTM的混合技术。我们已经考虑了用户推文的所有三个可能的极性:正,负和中立。使用CNN和LSTM构建的架构来确定预测模型的准确性。推荐模型的准确性在Monkeypox Tweet数据集上为94%。其他性能指标(例如准确性,召回和F1得分)也用于测试我们的模型和最大程度和资源有效的方式。然后将发现与更传统的机器学习方法进行比较。这项研究的发现有助于提高对普通人群中蒙基托感染的认识。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
初始故障检测和诊断是提高车辆运行效率,安全性和稳定性的迫切措施。近年来,许多研究已经调查了使用可用的车辆数据改善车辆诊断过程的数据驱动方法。此外,采用数据驱动方法来增强客户服务代理交互。在这项研究中,我们展示了一种机器学习管道,以改善自动化车辆诊断。首先,自然语言处理(NLP)用于自由文本故障报告中提取至关重要的信息(在客户对服务部门的呼叫中生成)。然后,采用深度学习算法来验证服务请求并过滤模糊或误导性索赔。最终,实现了不同的分类算法以对服务请求进行分类,以便可以针对相关的服务部门进行有效的服务请求。拟议的模型 - 双向短期内存(BILSTM)以及卷积神经网络(CNN) - 显示了与技术人员的能力相比验证服务请求的18倍以上的准确性提高。此外,在预处理和特征提取阶段使用基于域的NLP技术以及基于CNN-BILSTM的请求验证提高了精度($> 25 \%$),灵敏度($> 39 \%$),特异性($> 11 \%$),精度($> 11 \%$)渐变树升压(GTB)服务分类模型。曲线下(ROC-AUC)下的接收器操作特征区域达到0.82。
translated by 谷歌翻译
研究表明,与自杀相关的新闻媒体内容的暴露与自杀率相关,具有一些内容特征可能具有有害和其他可能的保护作用。虽然有一些选定的特征存在良好的证据,但是一般缺少系统的大规模调查,特别是社交媒体数据。我们应用机器学习方法以自动标记大量的Twitter数据。我们开发了一种新的注释计划,将与自杀相关的推文分类为不同的消息类型和问题,以解决方案为中心的视角。然后,我们培训了包括多数分类器的机器学习模型的基准,这是一种基于词频率的方法(具有线性SVM的TF-IDF)和两个最先进的深层学习模型(BERT,XLNET)。这两个深入学习模型在两个分类任务中实现了最佳性能:首先,我们分类了六个主要内容类别,包括个人故事,包括自杀意图和尝试或应对,呼吁采取措施传播问题意识或预防相关信息,自杀病例的报告以及其他与自杀相关和偏离主题推文的报告。深度学习模型平均达到73%以上的准确度,遍布六个类别,F1分数为69%和85%,除了自杀意念和尝试类别(55%)。其次,在分离帖子中,在偏离主题推文中指的是实际自杀题,他们正确标记了大约88%的推文,双方达到了F1分数为93%和74%。这些分类性能与类似任务的最先进的性能相当。通过使数据标签更有效,这项工作能够对各种社交媒体内容的有害和保护作用进行自杀率和寻求帮助行为的有害和保护作用。
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
在社交媒体中发现进攻性语言是社交媒体面临的主要挑战之一。研究人员提出了许多高级方法来完成这项任务。在本报告中,我们尝试利用他们的方法中的学习,并结合我们的想法以改进它们。我们在对进攻推文分类中成功实现了74%的准确性。我们还列出了社交媒体界的滥用内容检测中的即将到来的挑战。
translated by 谷歌翻译
Any organization needs to improve their products, services, and processes. In this context, engaging with customers and understanding their journey is essential. Organizations have leveraged various techniques and technologies to support customer engagement, from call centres to chatbots and virtual agents. Recently, these systems have used Machine Learning (ML) and Natural Language Processing (NLP) to analyze large volumes of customer feedback and engagement data. The goal is to understand customers in context and provide meaningful answers across various channels. Despite multiple advances in Conversational Artificial Intelligence (AI) and Recommender Systems (RS), it is still challenging to understand the intent behind customer questions during the customer journey. To address this challenge, in this paper, we study and analyze the recent work in Conversational Recommender Systems (CRS) in general and, more specifically, in chatbot-based CRS. We introduce a pipeline to contextualize the input utterances in conversations. We then take the next step towards leveraging reverse feature engineering to link the contextualized input and learning model to support intent recognition. Since performance evaluation is achieved based on different ML models, we use transformer base models to evaluate the proposed approach using a labelled dialogue dataset (MSDialogue) of question-answering interactions between information seekers and answer providers.
translated by 谷歌翻译
通过使信息生产和复制民主化的技术,社交媒体中每日互动的很大一部分被谣言感染了。尽管对谣言检测和验证进行了广泛的研究,但到目前为止,尚未考虑计算谣言传播力量的问题。为了解决这一研究差距,本研究寻求一个模型来计算谣言(SPR)作为基于内容特征的功能的两类功能:虚假谣言(FR)和真实谣言(TR)。为此,将采用Allport和Postman的理论,它声称重要性和歧义是谣言和谣言的力量的关键变量。引入了两个类别的“重要性”(28个功能)和“歧义”(14个功能)的42个内容功能以计算SPR。提出的模型将在两个数据集(Twitter和Telegram)上进行评估。结果表明,(i)虚假谣言文件的传播力量很少不仅仅是真正的谣言。 (ii)两组虚假谣言和真实谣言的SPR平均值之间存在显着差异。 (iii)SPR作为标准可以对区分虚假谣言和真实谣言产生积极影响。
translated by 谷歌翻译