There is a vast amount of data generated every second due to the rapidly growing technology in the current world. This area of research attempts to determine the feelings or opinions of people on social media posts. The dataset we used was a multi-source dataset from the comment section of various social networking sites like Twitter, Reddit, etc. Natural Language Processing Techniques were employed to perform sentiment analysis on the obtained dataset. In this paper, we provide a comparative analysis using techniques of lexicon-based, machine learning and deep learning approaches. The Machine Learning algorithm used in this work is Naive Bayes, the Lexicon-based approach used in this work is TextBlob, and the deep-learning algorithm used in this work is LSTM.
translated by 谷歌翻译
在当今的世界中,每个人都以某种方式表现出来,而该项目的重点是人们使用Twitter的数据(一个微博平台)的数据,人们对英国和印度的电价上涨的看法,人们在该平台上发布了消息,人们发布了消息,称为Tweets。因为许多人的收入不好,他们必须缴纳如此多的税款和账单,因此如今,维持房屋已成为有争议的问题。尽管政府提供了补贴计划来补偿人们的电费,但不受人们的欢迎。在这个项目中,目的是对Twitter上表达的人们的表达和观点进行情感分析。为了掌握电价的意见,有必要对能源市场的政府和消费者进行情感分析。此外,这些媒体上存在的文本本质上是非结构化的,因此要处理它们,我们首先需要预处理数据。有很多功能提取技术,例如单词袋,tf-idf(术语频率为单位的文档频率),单词嵌入,基于NLP的功能,例如Word Count。在该项目中,我们分析了特征TF-IDF单词级别对情感分析数据集的影响。我们发现,通过使用TF-IDF单词级别的性能分析的表现比使用N-Gram功能高3-4。使用四种分类算法进行分析,包括幼稚的贝叶斯,决策树,随机森林和逻辑回归,并考虑F评分,准确性,精度和召回性能参数。
translated by 谷歌翻译
社交媒体使用量增加到今天的数字世界中的历史新高。大多数人口使用社交媒体工具(如Twitter,Facebook,YouTube等)与社区分享他们的思想和经验。分析共同公众的情绪和意见对政府和商界人士来说非常重要。这是在大选时间进行各种民意调查中的大量媒体机构激活的原因。在本文中,我们曾在2019年Lok Sabha选举期间分析了印度人民的情绪,使用该持续时间的推特数据。我们建立了一个自动推文分析仪,使用传输学习技术来处理这个问题的无监督性质。我们在我们的机器学习模型中使用了线性支持向量分类方法,此外,术语频率逆文档频率(TF-IDF)方法用于处理推文的文本数据。此外,我们提高了模型的能力,以解决一些用户发布的讽刺推文,其中一些用户尚未被该领域的研究人员考虑。
translated by 谷歌翻译
Labelling a large quantity of social media data for the task of supervised machine learning is not only time-consuming but also difficult and expensive. On the other hand, the accuracy of supervised machine learning models is strongly related to the quality of the labelled data on which they train, and automatic sentiment labelling techniques could reduce the time and cost of human labelling. We have compared three automatic sentiment labelling techniques: TextBlob, Vader, and Afinn to assign sentiments to tweets without any human assistance. We compare three scenarios: one uses training and testing datasets with existing ground truth labels; the second experiment uses automatic labels as training and testing datasets; and the third experiment uses three automatic labelling techniques to label the training dataset and uses the ground truth labels for testing. The experiments were evaluated on two Twitter datasets: SemEval-2013 (DS-1) and SemEval-2016 (DS-2). Results show that the Afinn labelling technique obtains the highest accuracy of 80.17% (DS-1) and 80.05% (DS-2) using a BiLSTM deep learning model. These findings imply that automatic text labelling could provide significant benefits, and suggest a feasible alternative to the time and cost of human labelling efforts.
translated by 谷歌翻译
信息通过社交媒体平台的传播可以创造可能对弱势社区的环境和社会中某些群体的沉默。为了减轻此类情况,已经开发了几种模型来检测仇恨和冒犯性言论。由于在社交媒体平台中检测仇恨和冒犯性演讲可能会错误地将个人排除在社交媒体平台之外,从而减少信任,因此有必要创建可解释和可解释的模型。因此,我们基于在Twitter数据上培训的XGBOOST算法建立了一个可解释且可解释的高性能模型。对于不平衡的Twitter数据,XGBoost在仇恨言语检测上的表现优于LSTM,Autogluon和ULMFIT模型,F1得分为0.75,而0.38和0.37分别为0.37和0.38。当我们将数据放到三个单独的类别的大约5000个推文中时,XGBoost的性能优于LSTM,Autogluon和Ulmfit;仇恨言语检测的F1分别为0.79和0.69、0.77和0.66。 XGBOOST在下采样版本中的进攻性语音检测中的F1得分分别为0.83和0.88、0.82和0.79,XGBOOST的表现也比LSTM,Autogluon和Ulmfit更好。我们在XGBoost模型的输出上使用Shapley添加说明(SHAP),以使其与Black-Box模型相比,与LSTM,Autogluon和Ulmfit相比,它可以解释和解释。
translated by 谷歌翻译
发现别人认为是我们信息收集策略的关键方面。现在,人们可以积极利用信息技术来寻找和理解他人的想法,这要归功于越来越多的意见资源(例如在线评论网站和个人博客)的越来越多。由于其在理解人们的意见方面的关键功能,因此情感分析(SA)是一项至关重要的任务。另一方面,现有的研究主要集中在英语上,只有少量研究专门研究低资源语言。对于情感分析,这项工作根据用户评估提供了一个新的多级乌尔都语数据集。高音扬声器网站用于获取乌尔都语数据集。我们提出的数据集包括10,000项评论,这些评论已被人类专家精心归类为两类:正面,负面。这项研究的主要目的是构建一个手动注释的数据集进行乌尔都语情绪分析,并确定基线结果。采用了五种不同的词典和规则的算法,包括NaiveBayes,Stanza,TextBlob,Vader和Flair,实验结果表明,其精度为70%的天赋优于其他经过测试的算法。
translated by 谷歌翻译
与普通人群相比,跨性别社区在心理健康状况中遇到巨大差异。解释跨性别者发布的社会中间数据可能会帮助我们更好地了解这些性少数群体的情感并采用早期干预措施。在这项研究中,我们将跨性别者发表的300个社交媒体评论分类为负面,积极和中立的情绪。使用5个机器学习算法和2种深神经网络,以基于带注释的数据来构建情感分析分类器。结果表明,我们的注释是可靠的,在所有三个类别中,Cohen的Kappa得分高0.8。LSTM模型的准确性超过0.85,AUC的最佳性能为0.876。我们的下一步将重点介绍在较大的注释数据集上使用高级自然语言处理算法。
translated by 谷歌翻译
在这个新的社交媒体时代,社交网络正在成为互联网上用户生成内容的越来越重要的来源。这些信息资源包括许多人的感受,意见,反馈和评论,对大型企业,市场,政治,新闻和许多其他领域都非常有用。政治是目前社交媒体网络上最受关注和流行的主题之一。许多政客使用Twitter等微博客服务,因为他们在这些网络上有大量的追随者和支持者。政客,政党,政治组织和基金会使用社交媒体网络提前与公民进行交流。如今,社交媒体已被成千上万的政治团体和政客使用。在这些社交媒体网络上,每个政治家和政党都有数百万追随者,而政客们发现了新的创新方式来敦促个人参与政治。此外,社交媒体通过提供建议,例如根据以前的经验制定政策和策略,推荐并选择适合特定选区的候选人,建议在党中的特定职位,并选择合适的候选人,并选择合适的候选人,并选择合适的候选人,并选择合适的候选人,以及基于对各种问题和争议的公民情绪发起政治运动。这项研究是关于在Twitter平台上使用社交网络分析(SNA)和语义分析(SA)的综述,以研究政治领导者的支持者网络,因为它可以在预测其政治未来时有助于决策。
translated by 谷歌翻译
Sentiment analysis on social media such as Twitter provides organizations and individuals an effective way to monitor public emotions towards them and their competitors. As a result, sentiment analysis has become an important and challenging task. In this work, we have collected seven publicly available and manually annotated twitter sentiment datasets. We create a new training and testing dataset from the collected datasets. We develop an LSTM model to classify sentiment of a tweet and evaluate the model with the new dataset.
translated by 谷歌翻译
Media bias can significantly impact the formation and development of opinions and sentiments in a population. It is thus important to study the emergence and development of partisan media and political polarization. However, it is challenging to quantitatively infer the ideological positions of media outlets. In this paper, we present a quantitative framework to infer both political bias and content quality of media outlets from text, and we illustrate this framework with empirical experiments with real-world data. We apply a bidirectional long short-term memory (LSTM) neural network to a data set of more than 1 million tweets to generate a two-dimensional ideological-bias and content-quality measurement for each tweet. We then infer a ``media-bias chart'' of (bias, quality) coordinates for the media outlets by integrating the (bias, quality) measurements of the tweets of the media outlets. We also apply a variety of baseline machine-learning methods, such as a naive-Bayes method and a support-vector machine (SVM), to infer the bias and quality values for each tweet. All of these baseline approaches are based on a bag-of-words approach. We find that the LSTM-network approach has the best performance of the examined methods. Our results illustrate the importance of leveraging word order into machine-learning methods in text analysis.
translated by 谷歌翻译
满意度测量,在今天的每个部门都出现,是许多公司的一个非常重要的因素。在本研究中,旨在通过使用yemek Sepeti的数据和该数据的变化来达到各种机器学习算法的最高精度率。每种算法的精度值都与所使用的各种自然语言处理方法一起计算。在计算这些精度值时,尝试优化使用的算法的参数。在本研究中培训的模型可以在未标记的数据上使用,并且可以在衡量客户满意度时给公司一个想法。观察到施加的3种不同的自然语言处理方法导致大部分开发模型中的大约5%的精度增加。
translated by 谷歌翻译
随着YouTube频道的增长,每个视频都可以收集从观众提供直接反馈的巨大评论。这些评论是了解观众期望和改善渠道参与的主要手段。但是,评论仅代表了关于频道和内容的用户意见的一般集合。许多评论构造不当,微不足道,拼写不当和语法错误。因此,确定最有利息的评论是一个繁琐的工作。在本文中,我们根据情绪和句子类型提取并将原始评论分类为不同类别,这将帮助您能够帮助您查找相关评论以越来越多的信息。现有的研究在文本语料库上的相同句子类型(例如,问题类型)中的情感分析(正面和负数)或分类的分类集中在一起。这些对非传统文本语料库有限,如Youtube评论。我们使用众所周知的统计测量和机器学习模型来解决YouTube评论的文本提取和分类的这一挑战。我们使用交叉验证和$ F_1 $分数评估统计测量和机器学习模型的每个组合。结果表明,我们在分类任务中融入了传统方法的方法,验证其在辅助内容创作者中的潜力会增加他们的渠道的观看者参与。
translated by 谷歌翻译
Sentiment analysis or opinion mining help to illustrate the phrase NLP (Natural Language Processing). Sentiment analysis has been the most significant topic in recent years. The goal of this study is to solve the sentiment polarity classification challenges in sentiment analysis. A broad technique for categorizing sentiment opposition is presented, along with comprehensive process explanations. With the results of the analysis, both sentence-level classification and review-level categorization are conducted. Finally, we discuss our plans for future sentiment analysis research.
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
在线新闻和信息来源是方便且可访问的方法来了解当前问题。例如,超过3亿人在全球Twitter上参与帖子,这提供了传播误导信息的可能性。在许多情况下,由于虚假新闻,已经犯了暴力犯罪。这项研究介绍了Covidmis20数据集(Covid-19误导2020数据集),该数据集由2月至2020年7月收集的1,375,592条推文组成。Covidmis20可以自动更新以获取最新新闻,并在以下网址公开,网址为:HTTPPS://GITHUB.COM./github.com./github.com。/一切guy/covidmis20。这项研究是使用BI-LSTM深度学习和合奏CNN+BI-GRU进行假新闻检测进行的。结果表明,测试精度分别为92.23%和90.56%,集合CNN+BI-GRU模型始终提供了比BI-LSTM模型更高的精度。
translated by 谷歌翻译
社交媒体的自杀意图检测是一种不断发展的研究,挑战了巨大的挑战。许多有自杀倾向的人通过社交媒体平台分享他们的思想和意见。作为许多研究的一部分,观察到社交媒体的公开职位包含有价值的标准,以有效地检测有自杀思想的个人。防止自杀的最困难的部分是检测和理解可能导致自杀的复杂风险因素和警告标志。这可以通过自动识别用户行为的突然变化来实现。自然语言处理技术可用于收集社交媒体交互的行为和文本特征,这些功能可以传递给特殊设计的框架,以检测人类交互中的异常,这是自杀意图指标。我们可以使用深度学习和/或基于机器学习的分类方法来实现快速检测自杀式思想。出于这种目的,我们可以采用LSTM和CNN模型的组合来检测来自用户的帖子的这种情绪。为了提高准确性,一些方法可以使用更多数据进行培训,使用注意模型提高现有模型等的效率。本文提出了一种LSTM-Incription-CNN组合模型,用于分析社交媒体提交,以检测任何潜在的自杀意图。在评估期间,所提出的模型的准确性为90.3%,F1分数为92.6%,其大于基线模型。
translated by 谷歌翻译
在线评论在电子商务中发挥重要作用进行决策。大部分人口做出了哪些地方,餐厅访问,以根据各自的平台发布的评论来购买的地方,从哪里购买。欺诈性审查或意见垃圾邮件被分类为一个不诚实或欺骗性的审查。产品或餐厅的肯定审查有助于吸引客户,从而导致销售额增加,而负面评论可能会妨碍餐厅或产品销售的进展,从而导致令人害羞的声誉和损失。欺诈性评论是故意发布的各种在线审查平台,以欺骗客户购买,访问或分散产品或餐厅的注意力。它们也被编写或诋毁产品的辩护。该工作旨在检测和分类审查作为欺骗性或真实性。它涉及使用各种深入学习技术来分类审查和概述涉及基于人的双向LSTM的提出的方法,以解决与基线机器学习技术的评论和比较研究中的语义信息有关的问题,以进行审查分类。
translated by 谷歌翻译
人们最近开始通过社交网站上用户生成的多媒体材料来传达自己的思想和观点。此信息可以是图像,文本,视频或音频。近年来,这种模式的发生频率有所增加。 Twitter是最广泛使用的社交媒体网站之一,它也是最好的地点之一,可以使人们对与蒙基波疾病有关的事件有一种了解。这是因为Twitter上的推文被缩短并经常更新,这两者都促成了平台的角色。这项研究的基本目标是对人们对这种情况的存在的各种反应进行更深入的理解。这项研究重点是找出个人对猴蛋白酶疾病的看法,该疾病介绍了基于CNN和LSTM的混合技术。我们已经考虑了用户推文的所有三个可能的极性:正,负和中立。使用CNN和LSTM构建的架构来确定预测模型的准确性。推荐模型的准确性在Monkeypox Tweet数据集上为94%。其他性能指标(例如准确性,召回和F1得分)也用于测试我们的模型和最大程度和资源有效的方式。然后将发现与更传统的机器学习方法进行比较。这项研究的发现有助于提高对普通人群中蒙基托感染的认识。
translated by 谷歌翻译
仇恨言论是一种在线骚扰的形式,涉及使用滥用语言,并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教,性别,种族等的特定群体特征上,如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务,但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展,我们在短文中适当地增强和微调以检测某些形式的仇恨语言,例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络(RNN)分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器(OVR)分类器的输出组合在一起,并用于训练第二阶段分类器,最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较,然后对另一个数据集进行了概括研究。报道的结果表明,与当前的最新技术相比,在仇恨言论检测任务中,所提出的方案的分类质量出色。
translated by 谷歌翻译
社会渗目偏见是自然语言处理的常见问题,影响其应用的公平性和完整性。在情绪分析中,这些偏差可能会破坏提到个人属性的文本的情感预测,即个人属性,即非偏见的人类读者会考虑中立。这种歧视可能对公共和私营部门的情感分析应用有很大的后果。例如,在线滥用和社交媒体平台的在线滥用和意见分析等应用中的不正确推断可能导致不必要的后索,例如错误的审查,以某些人口。在本文中,我们通过情感分析和毒性分类模型来解决残疾人PWD的歧视。我们提供对情绪和毒性分析模型的检查,详细了解它们如何辨别PWD。我们在情绪(比特)中展示了偏见识别试验,这是一个1,126句话的语料库,旨在探测残疾偏差的情绪分析模型。我们使用此语料库来展示四种广泛使用的情绪分析工具(TextBlob,Vader,Google云天然语言API和Distilbert)以及培训的两种毒性分析模型,以预测对拼图挑战的毒性评论(毒性评论分类和意外偏见毒性评论)。结果表明,所有在提及残疾的句子上表现出强烈的负面偏见。我们公开释放其他人的位语法,以识别任何情绪分析工具中的潜在偏见,以及更新要用作其他社会阶段变量的测试。
translated by 谷歌翻译