人们最近开始通过社交网站上用户生成的多媒体材料来传达自己的思想和观点。此信息可以是图像,文本,视频或音频。近年来,这种模式的发生频率有所增加。 Twitter是最广泛使用的社交媒体网站之一,它也是最好的地点之一,可以使人们对与蒙基波疾病有关的事件有一种了解。这是因为Twitter上的推文被缩短并经常更新,这两者都促成了平台的角色。这项研究的基本目标是对人们对这种情况的存在的各种反应进行更深入的理解。这项研究重点是找出个人对猴蛋白酶疾病的看法,该疾病介绍了基于CNN和LSTM的混合技术。我们已经考虑了用户推文的所有三个可能的极性:正,负和中立。使用CNN和LSTM构建的架构来确定预测模型的准确性。推荐模型的准确性在Monkeypox Tweet数据集上为94%。其他性能指标(例如准确性,召回和F1得分)也用于测试我们的模型和最大程度和资源有效的方式。然后将发现与更传统的机器学习方法进行比较。这项研究的发现有助于提高对普通人群中蒙基托感染的认识。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
在当今的世界中,每个人都以某种方式表现出来,而该项目的重点是人们使用Twitter的数据(一个微博平台)的数据,人们对英国和印度的电价上涨的看法,人们在该平台上发布了消息,人们发布了消息,称为Tweets。因为许多人的收入不好,他们必须缴纳如此多的税款和账单,因此如今,维持房屋已成为有争议的问题。尽管政府提供了补贴计划来补偿人们的电费,但不受人们的欢迎。在这个项目中,目的是对Twitter上表达的人们的表达和观点进行情感分析。为了掌握电价的意见,有必要对能源市场的政府和消费者进行情感分析。此外,这些媒体上存在的文本本质上是非结构化的,因此要处理它们,我们首先需要预处理数据。有很多功能提取技术,例如单词袋,tf-idf(术语频率为单位的文档频率),单词嵌入,基于NLP的功能,例如Word Count。在该项目中,我们分析了特征TF-IDF单词级别对情感分析数据集的影响。我们发现,通过使用TF-IDF单词级别的性能分析的表现比使用N-Gram功能高3-4。使用四种分类算法进行分析,包括幼稚的贝叶斯,决策树,随机森林和逻辑回归,并考虑F评分,准确性,精度和召回性能参数。
translated by 谷歌翻译
社交媒体的自杀意图检测是一种不断发展的研究,挑战了巨大的挑战。许多有自杀倾向的人通过社交媒体平台分享他们的思想和意见。作为许多研究的一部分,观察到社交媒体的公开职位包含有价值的标准,以有效地检测有自杀思想的个人。防止自杀的最困难的部分是检测和理解可能导致自杀的复杂风险因素和警告标志。这可以通过自动识别用户行为的突然变化来实现。自然语言处理技术可用于收集社交媒体交互的行为和文本特征,这些功能可以传递给特殊设计的框架,以检测人类交互中的异常,这是自杀意图指标。我们可以使用深度学习和/或基于机器学习的分类方法来实现快速检测自杀式思想。出于这种目的,我们可以采用LSTM和CNN模型的组合来检测来自用户的帖子的这种情绪。为了提高准确性,一些方法可以使用更多数据进行培训,使用注意模型提高现有模型等的效率。本文提出了一种LSTM-Incription-CNN组合模型,用于分析社交媒体提交,以检测任何潜在的自杀意图。在评估期间,所提出的模型的准确性为90.3%,F1分数为92.6%,其大于基线模型。
translated by 谷歌翻译
全球世界正在穿越大流行形势,这是一个灾难性的呼吸综合征爆发被认为是Covid-19。这是212个国家的全球威胁,即人们每天都会遇到强大的情况。相反,成千上万的受感染的人居住丰富的山脉。心理健康也受到全球冠状病毒情况的影响。由于这种情况,在线消息来源使普通人在任何议程中分享他们的意见。如受影响的新闻相关的积极和消极,财务问题,国家和家庭危机,缺乏进出口盈利系统等。不同的情况是最近在任何地方的时尚新闻。因此,在瞬间内产生了大量的文本,在次大陆领域,与其他国家的情况相同,以及文本的人民意见和情况也是相同的,但语言是不同的。本文提出了一些具体的投入以及来自个别来源的孟加拉文本评论,可以确保插图的目标,即机器学习结果能够建立辅助系统。意见挖掘辅助系统可能以可能的所有语言偏好有影响。据我们所知,文章预测了Covid-19问题上的Bangla输入文本,提出了ML算法和深度学习模型分析还通过比较分析检查未来可达性。比较分析规定了关于文本预测精度的报告与ML算法和79%以及深度学习模型以及79%的报告。
translated by 谷歌翻译
在线新闻和信息来源是方便且可访问的方法来了解当前问题。例如,超过3亿人在全球Twitter上参与帖子,这提供了传播误导信息的可能性。在许多情况下,由于虚假新闻,已经犯了暴力犯罪。这项研究介绍了Covidmis20数据集(Covid-19误导2020数据集),该数据集由2月至2020年7月收集的1,375,592条推文组成。Covidmis20可以自动更新以获取最新新闻,并在以下网址公开,网址为:HTTPPS://GITHUB.COM./github.com./github.com。/一切guy/covidmis20。这项研究是使用BI-LSTM深度学习和合奏CNN+BI-GRU进行假新闻检测进行的。结果表明,测试精度分别为92.23%和90.56%,集合CNN+BI-GRU模型始终提供了比BI-LSTM模型更高的精度。
translated by 谷歌翻译
近年来,已经出现了许多巨魔帐户来操纵社交媒体的意见。对于社交网络平台而言,检测和消除巨魔是一个关键问题,因为企业,滥用者和民族国家赞助的巨魔农场使用虚假和自动化的帐户。 NLP技术用于从社交网络文本中提取数据,例如Twitter推文。在许多文本处理应用程序中,诸如BERT之类的单词嵌入表示方法的执行效果要好于先前的NLP技术,从而为各种任务提供了新颖的突破,以精确理解和分类社交网络工作信息。本文实施并比较了九个基于深度学习的巨魔推文检测体系结构,每个bert,elmo和手套词嵌入模型的三个模型。精度,召回,F1分数,AUC和分类精度用于评估每个体系结构。从实验结果中,大多数使用BERT模型的架构改进了巨魔推文检测。具有GRU分类器的基于自定义的基于ELMO的体系结构具有检测巨魔消息的最高AUC。所提出的体系结构可以由各种基于社会的系统用于未来检测巨魔消息。
translated by 谷歌翻译
发现别人认为是我们信息收集策略的关键方面。现在,人们可以积极利用信息技术来寻找和理解他人的想法,这要归功于越来越多的意见资源(例如在线评论网站和个人博客)的越来越多。由于其在理解人们的意见方面的关键功能,因此情感分析(SA)是一项至关重要的任务。另一方面,现有的研究主要集中在英语上,只有少量研究专门研究低资源语言。对于情感分析,这项工作根据用户评估提供了一个新的多级乌尔都语数据集。高音扬声器网站用于获取乌尔都语数据集。我们提出的数据集包括10,000项评论,这些评论已被人类专家精心归类为两类:正面,负面。这项研究的主要目的是构建一个手动注释的数据集进行乌尔都语情绪分析,并确定基线结果。采用了五种不同的词典和规则的算法,包括NaiveBayes,Stanza,TextBlob,Vader和Flair,实验结果表明,其精度为70%的天赋优于其他经过测试的算法。
translated by 谷歌翻译
Labelling a large quantity of social media data for the task of supervised machine learning is not only time-consuming but also difficult and expensive. On the other hand, the accuracy of supervised machine learning models is strongly related to the quality of the labelled data on which they train, and automatic sentiment labelling techniques could reduce the time and cost of human labelling. We have compared three automatic sentiment labelling techniques: TextBlob, Vader, and Afinn to assign sentiments to tweets without any human assistance. We compare three scenarios: one uses training and testing datasets with existing ground truth labels; the second experiment uses automatic labels as training and testing datasets; and the third experiment uses three automatic labelling techniques to label the training dataset and uses the ground truth labels for testing. The experiments were evaluated on two Twitter datasets: SemEval-2013 (DS-1) and SemEval-2016 (DS-2). Results show that the Afinn labelling technique obtains the highest accuracy of 80.17% (DS-1) and 80.05% (DS-2) using a BiLSTM deep learning model. These findings imply that automatic text labelling could provide significant benefits, and suggest a feasible alternative to the time and cost of human labelling efforts.
translated by 谷歌翻译
满意度测量,在今天的每个部门都出现,是许多公司的一个非常重要的因素。在本研究中,旨在通过使用yemek Sepeti的数据和该数据的变化来达到各种机器学习算法的最高精度率。每种算法的精度值都与所使用的各种自然语言处理方法一起计算。在计算这些精度值时,尝试优化使用的算法的参数。在本研究中培训的模型可以在未标记的数据上使用,并且可以在衡量客户满意度时给公司一个想法。观察到施加的3种不同的自然语言处理方法导致大部分开发模型中的大约5%的精度增加。
translated by 谷歌翻译
Sentiment analysis on social media such as Twitter provides organizations and individuals an effective way to monitor public emotions towards them and their competitors. As a result, sentiment analysis has become an important and challenging task. In this work, we have collected seven publicly available and manually annotated twitter sentiment datasets. We create a new training and testing dataset from the collected datasets. We develop an LSTM model to classify sentiment of a tweet and evaluate the model with the new dataset.
translated by 谷歌翻译
研究表明,与自杀相关的新闻媒体内容的暴露与自杀率相关,具有一些内容特征可能具有有害和其他可能的保护作用。虽然有一些选定的特征存在良好的证据,但是一般缺少系统的大规模调查,特别是社交媒体数据。我们应用机器学习方法以自动标记大量的Twitter数据。我们开发了一种新的注释计划,将与自杀相关的推文分类为不同的消息类型和问题,以解决方案为中心的视角。然后,我们培训了包括多数分类器的机器学习模型的基准,这是一种基于词频率的方法(具有线性SVM的TF-IDF)和两个最先进的深层学习模型(BERT,XLNET)。这两个深入学习模型在两个分类任务中实现了最佳性能:首先,我们分类了六个主要内容类别,包括个人故事,包括自杀意图和尝试或应对,呼吁采取措施传播问题意识或预防相关信息,自杀病例的报告以及其他与自杀相关和偏离主题推文的报告。深度学习模型平均达到73%以上的准确度,遍布六个类别,F1分数为69%和85%,除了自杀意念和尝试类别(55%)。其次,在分离帖子中,在偏离主题推文中指的是实际自杀题,他们正确标记了大约88%的推文,双方达到了F1分数为93%和74%。这些分类性能与类似任务的最先进的性能相当。通过使数据标签更有效,这项工作能够对各种社交媒体内容的有害和保护作用进行自杀率和寻求帮助行为的有害和保护作用。
translated by 谷歌翻译
虽然现在几个月有多个Covid-19疫苗,但疫苗犹豫不决在美国的高水平。部分内容也已成为政治化,特别是自11月总统选举以来。在包括Twitter的社交媒体背景下,在此期间理解疫苗犹豫不决,可以为计算社会科学家和决策者提供有价值的指导。本文通过相对研究两个不同的时间段(选举前的一个,另一个月之后的另一个月,另一个月)采用相对研究的两个Twitter数据集,而不是研究单一的Twitter语料库,而不是研究单个Twitter语料库。数据收集和过滤方法。我们的研究结果表明,从2020年到2021年秋天的政治到Covid-19疫苗的讨论中讨论了重大转变。通过使用基于集群和机器学习的方法与采样和定性分析,我们发现了几种细粒度疫苗犹豫不决的原因,其中一些随着时间的推移而变得更加(或更少)。我们的结果还强调了去年这个问题的强烈极化和政治化。
translated by 谷歌翻译
最近受到在线叙述驱动的疫苗犹豫会大大降低了疫苗接种策略的功效,例如Covid-19。尽管医学界对可用疫苗的安全性和有效性达成了广泛的共识,但许多社交媒体使用者仍被有关疫苗的虚假信息淹没,并且柔和或不愿意接种疫苗。这项研究的目的是通过开发能够自动识别负责传播反疫苗叙事的用户的系统来更好地理解反疫苗情绪。我们引入了一个公开可用的Python软件包,能够分析Twitter配置文件,以评估该个人资料将来分享反疫苗情绪的可能性。该软件包是使用文本嵌入方法,神经网络和自动数据集生成的,并接受了数百万条推文培训。我们发现,该模型可以准确地检测出抗疫苗用户,直到他们推文抗Vaccine主题标签或关键字。我们还展示了文本分析如何通过检测Twitter和常规用户之间的抗疫苗传播器之间的道德和情感差异来帮助我们理解反疫苗讨论的示例。我们的结果将帮助研究人员和政策制定者了解用户如何成为反疫苗感以及他们在Twitter上讨论的内容。政策制定者可以利用此信息进行更好的针对性的运动,以揭露有害的反疫苗接种神话。
translated by 谷歌翻译
自Covid-19大流行病开始以来,疫苗一直是公共话语中的重要话题。疫苗周围的讨论被两极分化,因为有些人认为它们是结束大流行的重要措施,而另一些人则犹豫不决或发现它们有害。这项研究调查了与Twitter上的Covid-19疫苗有关的帖子,并着重于对疫苗有负姿态的帖子。收集了与COVID-19疫苗相关的16,713,238个英文推文的数据集,收集了涵盖从2020年3月1日至2021年7月31日的该期间。我们使用Scikit-Learn Python库来应用支持向量机(SVM)分类器针对Covid-19疫苗的推文具有负姿态。总共使用了5,163个推文来训练分类器,其中有2,484个推文由我们手动注释并公开提供。我们使用Berttopic模型来提取和调查负推文中讨论的主题以及它们如何随时间变化。我们表明,随着疫苗的推出,对COVID-19疫苗的负面影响随时间而下降。我们确定了37个讨论主题,并随着时间的推移介绍了各自的重要性。我们表明,流行的主题包括阴谋讨论,例如5G塔和微芯片,但还涉及涉及疫苗接种安全性和副作用以及对政策的担忧。我们的研究表明,即使是不受欢迎的观点或阴谋论,与广受欢迎的讨论主题(例如Covid-19疫苗)配对时,也会变得广泛。了解问题和讨论的主题以及它们如何随着时间的变化对于政策制定者和公共卫生当局提供更好和时间的信息和政策,以促进未来类似危机的人口接种。
translated by 谷歌翻译
仇恨言论是一种在线骚扰的形式,涉及使用滥用语言,并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教,性别,种族等的特定群体特征上,如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务,但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展,我们在短文中适当地增强和微调以检测某些形式的仇恨语言,例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络(RNN)分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器(OVR)分类器的输出组合在一起,并用于训练第二阶段分类器,最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较,然后对另一个数据集进行了概括研究。报道的结果表明,与当前的最新技术相比,在仇恨言论检测任务中,所提出的方案的分类质量出色。
translated by 谷歌翻译
信息通过社交媒体平台的传播可以创造可能对弱势社区的环境和社会中某些群体的沉默。为了减轻此类情况,已经开发了几种模型来检测仇恨和冒犯性言论。由于在社交媒体平台中检测仇恨和冒犯性演讲可能会错误地将个人排除在社交媒体平台之外,从而减少信任,因此有必要创建可解释和可解释的模型。因此,我们基于在Twitter数据上培训的XGBOOST算法建立了一个可解释且可解释的高性能模型。对于不平衡的Twitter数据,XGBoost在仇恨言语检测上的表现优于LSTM,Autogluon和ULMFIT模型,F1得分为0.75,而0.38和0.37分别为0.37和0.38。当我们将数据放到三个单独的类别的大约5000个推文中时,XGBoost的性能优于LSTM,Autogluon和Ulmfit;仇恨言语检测的F1分别为0.79和0.69、0.77和0.66。 XGBOOST在下采样版本中的进攻性语音检测中的F1得分分别为0.83和0.88、0.82和0.79,XGBOOST的表现也比LSTM,Autogluon和Ulmfit更好。我们在XGBoost模型的输出上使用Shapley添加说明(SHAP),以使其与Black-Box模型相比,与LSTM,Autogluon和Ulmfit相比,它可以解释和解释。
translated by 谷歌翻译
预期观众对某些文本的反应是社会的几个方面不可或缺的,包括政治,研究和商业行业。情感分析(SA)是一种有用的自然语言处理(NLP)技术,它利用词汇/统计和深度学习方法来确定不同尺寸的文本是否表现出正面,负面或中立的情绪。但是,目前缺乏工具来分析独立文本的组并从整体中提取主要情感。因此,当前的论文提出了一种新型算法,称为多层推文分析仪(MLTA),该算法使用多层网络(MLN)以图形方式对社交媒体文本进行了图形方式,以便更好地编码跨越独立的推文集的关系。与其他表示方法相比,图结构能够捕获复杂生态系统中有意义的关系。最先进的图形神经网络(GNN)用于从Tweet-MLN中提取信息,并根据提取的图形特征进行预测。结果表明,与标准的正面,负或中性相比,MLTA不仅可以从更大的可能情绪中预测,从而提供了更准确的情感,还允许对Twitter数据进行准确的组级预测。
translated by 谷歌翻译
There is a vast amount of data generated every second due to the rapidly growing technology in the current world. This area of research attempts to determine the feelings or opinions of people on social media posts. The dataset we used was a multi-source dataset from the comment section of various social networking sites like Twitter, Reddit, etc. Natural Language Processing Techniques were employed to perform sentiment analysis on the obtained dataset. In this paper, we provide a comparative analysis using techniques of lexicon-based, machine learning and deep learning approaches. The Machine Learning algorithm used in this work is Naive Bayes, the Lexicon-based approach used in this work is TextBlob, and the deep-learning algorithm used in this work is LSTM.
translated by 谷歌翻译
在撰写本文时,Covid-19(2019年冠状病毒病)已扩散到220多个国家和地区。爆发后,大流行的严肃性使人们在社交媒体上更加活跃,尤其是在Twitter和Weibo等微博平台上。现在,大流行特定的话语一直在这些平台上持续数月。先前的研究证实了这种社会产生的对话对危机事件的情境意识的贡献。案件的早期预测对于当局估算应对病毒的生长所需的资源要求至关重要。因此,这项研究试图将公共话语纳入预测模型的设计中,特别针对正在进行的波浪的陡峭山路区域。我们提出了一种基于情感的主题方法,用于设计与公开可用的Covid-19相关Twitter对话中的多个时间序列。作为用例,我们对澳大利亚Covid-19的日常案例和该国境内产生的Twitter对话实施了拟议的方法。实验结果:(i)显示了Granger导致每日COVID-19确认案例的潜在社交媒体变量的存在,并且(ii)确认这些变量为预测模型提供了其他预测能力。此外,结果表明,用于建模的社交媒体变量包含了48.83--51.38%的RMSE比基线模型的改善。我们还向公众发布了大型Covid-19特定地理标记的全球推文数据集Megocov,预计该量表的地理标记数据将有助于通过其他空间和时间上下文理解大流行的对话动态。
translated by 谷歌翻译