智能论文笔记

Social Media Engagement and Cryptocurrency Performance

Khizar Qureshi , Tauhid Zaman

分类：人工智能

2022-09-07

我们研究了使用社交媒体数据预测加密货币未来表现的问题。我们提出了一个新模型，以根据与社交媒体帖子的互动来衡量用户与社交媒体讨论的主题的参与。该模型克服了以前的卷和基于情感的方法的局限性。我们使用此模型来估计2019年至2021年之间使用来自加密货币存在的第一个月的数据在2019年至2021年之间创建的48个加密货币的参与系数。我们发现加密货币的未来回报取决于参与系数。参与系数太低或太高的加密货币的回报较低。低参与系数表明缺乏兴趣，而高参与系数信号是人工活动，这可能来自自动化的bot。我们测量了加密货币的机器人柱数量，并发现通常，具有更多机器人柱的加密货币的未来回报较低。尽管未来的回报取决于机器人活动和参与系数，但依赖性对于参与系数最强，尤其是对于短期收益。我们显示，以超过固定阈值的参与系数选择加密货币的简单投资策略在几个月的固定时间内表现良好。

translated by 谷歌翻译

EmTract: Investor Emotions and Market Behavior

Domonkos Vamossy , Rolf Skog

分类：自然语言处理

2021-12-07

我们开发一个从社交媒体文本数据中提取情绪的工具。我们的方法有三个主要优势。首先，它适用于财务背景;其次，它包含社交媒体数据的关键方面，例如非标准短语，表情符号和表情符号;第三，它通过顺序地学习潜在的表示来操作，该潜在表示包括单词顺序，单词使用和本地上下文等功能。此工具以及用户指南可供选择：https://github.com/dvamossy/mtract。使用大学，我们探讨了社会媒体和资产价格表达的投资者情绪之间的关系。我们记录了一些有趣的见解。首先，我们确认了一些受控实验室实验的调查结果，将投资者情绪与资产价格变动相关联。其次，我们表明投资者的情绪是预测日常价格变动的预测。当波动率或短暂的兴趣更高，当机构所有权或流动性降低时，这些影响更大。第三，在IPO之前增加了投资者的热情，促进了大量的第一天返回，并长期不足的IPO股票。为了证实我们的结果，我们提供了许多稳健性检查，包括使用替代情感模型。我们的研究结果强化了情绪和市场动态密切相关的直觉，并突出了在评估股票的短期价值时考虑投资者情绪的重要性。

translated by 谷歌翻译

Evaluating Impact of Social Media Posts by Executives on Stock Prices

Anubhav Sarkar , Swagata Chakraborty , Sohom Ghosh , Sudip Kumar Naskar

分类：自然语言处理

2022-11-01

Predicting stock market movements has always been of great interest to investors and an active area of research. Research has proven that popularity of products is highly influenced by what people talk about. Social media like Twitter, Reddit have become hotspots of such influences. This paper investigates the impact of social media posts on close price prediction of stocks using Twitter and Reddit posts. Our objective is to integrate sentiment of social media data with historical stock data and study its effect on closing prices using time series models. We carried out rigorous experiments and deep analysis using multiple deep learning based models on different datasets to study the influence of posts by executives and general people on the close price. Experimental results on multiple stocks (Apple and Tesla) and decentralised currencies (Bitcoin and Ethereum) consistently show improvements in prediction on including social media data and greater improvements on including executive posts.

translated by 谷歌翻译

Detecing Anti-Vaccine Users on Twitter

Matheus Schmitz , Goran Murić , Keith Burghardt

分类：自然语言处理

2021-10-21

最近受到在线叙述驱动的疫苗犹豫会大大降低了疫苗接种策略的功效，例如Covid-19。尽管医学界对可用疫苗的安全性和有效性达成了广泛的共识，但许多社交媒体使用者仍被有关疫苗的虚假信息淹没，并且柔和或不愿意接种疫苗。这项研究的目的是通过开发能够自动识别负责传播反疫苗叙事的用户的系统来更好地理解反疫苗情绪。我们引入了一个公开可用的Python软件包，能够分析Twitter配置文件，以评估该个人资料将来分享反疫苗情绪的可能性。该软件包是使用文本嵌入方法，神经网络和自动数据集生成的，并接受了数百万条推文培训。我们发现，该模型可以准确地检测出抗疫苗用户，直到他们推文抗Vaccine主题标签或关键字。我们还展示了文本分析如何通过检测Twitter和常规用户之间的抗疫苗传播器之间的道德和情感差异来帮助我们理解反疫苗讨论的示例。我们的结果将帮助研究人员和政策制定者了解用户如何成为反疫苗感以及他们在Twitter上讨论的内容。政策制定者可以利用此信息进行更好的针对性的运动，以揭露有害的反疫苗接种神话。

translated by 谷歌翻译

Opinion Market Model: Stemming Far-Right Opinion Spread using Positive Interventions

Pio Calderon , Rohit Ram , Marian-Andrei Rizoiu

分类：机器学习

2022-08-13

近年来，在我们称之为社交媒体的意见生态系统中，极端主义观点的兴起。允许在线极端主义坚持会带来可怕的社会后果，并不断探索减轻它的努力。积极的干预措施，受控信号，以提高某些意见的目的增加了对意见生态系统的关注，这就是缓解途径的一种途径。这项工作提出了一个平台，通过意见市场模型（OMM）测试积极干预措施的有效性，这是一个在线意见生态系统的两层模型，共同考虑了开幕式的相互作用和积极干预的作用。第一层使用多元离散时间霍克斯流程模拟了意见注意市场的规模；第二层利用市场份额吸引模型来模拟合作的意见并竞争市场份额，但注意力有限。在合成数据集上，我们显示了我们提出的估计方案的收敛性。在Facebook和Twitter讨论的数据集中，其中包含有关丛林大火和气候变化的中等和极右翼意见，我们在最先进的表现以及揭示潜在意见互动的能力上表现出了优越的预测性能。最后，我们使用OMM来证明主流媒体报道的有效性是抑制极右翼意见的积极干预措施。

translated by 谷歌翻译

Ask "Who", Not "What": Bitcoin Volatility Forecasting with Twitter Data

M. Eren Akbiyik , Mert Erkul , Killian Kaempf , Vaiva Vasiliauskaite , Nino Antulov-Fantulin

分类：机器学习

2021-10-27

Understanding the variations in trading price (volatility), and its response to exogenous information, is a well-researched topic in finance. In this study, we focus on finding stable and accurate volatility predictors for a relatively new asset class of cryptocurrencies, in particular Bitcoin, using deep learning representations of public social media data obtained from Twitter. For our experiments, we extracted semantic information and user statistics from over 30 million Bitcoin-related tweets, in conjunction with 15-minute frequency price data over a horizon of 144 days. Using this data, we built several deep learning architectures that utilized different combinations of the gathered information. For each model, we conducted ablation studies to assess the influence of different components and feature sets over the prediction accuracy. We found statistical evidences for the hypotheses that: (i) temporal convolutional networks perform significantly better than both classical autoregressive models and other deep learning-based architectures in the literature, and (ii) tweet author meta-information, even detached from the tweet itself, is a better predictor of volatility than the semantic content and tweet volume statistics. We demonstrate how different information sets gathered from social media can be utilized in different architectures and how they affect the prediction results. As an additional contribution, we make our dataset public for future research.

translated by 谷歌翻译

What are People Talking about in #BlackLivesMatter and #StopAsianHate? Exploring and Categorizing Twitter Topics Emerging in Online Social Movements through the Latent Dirichlet Allocation Model

Xin Tong , Yixuan Li , Jiayi Li , Rongqi Bei , Luyao Zhang

分类：自然语言处理 | 机器学习

2022-05-29

少数群体一直在使用社交媒体来组织社会运动，从而产生深远的社会影响。黑人生活问题（BLM）和停止亚洲仇恨（SAH）是两个成功的社会运动，在Twitter上蔓延开来，促进了抗议活动和活动，反对种族主义，并提高公众对少数群体面临的其他社会挑战的认识。但是，以前的研究主要对与用户的推文或访谈进行了定性分析，这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格，量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此，在这项研究中，我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了（1）潜在的DIRICHLET分配模型，以了解顶级高级单词和主题以及（2）开放编码分析，以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文，并比较了它们的主题。我们的发现表明，这些推文在深度上讨论了各种有影响力的话题，社会正义，社会运动和情感情感都是两种运动的共同主题，尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析，以及有关AI，伦理和社会相互作用的文献。

translated by 谷歌翻译

Twitter conversations predict the daily confirmed COVID-19 cases

Rabindra Lamsala , Aaron Harwood , Maria Rodriguez Read

分类：自然语言处理

2022-06-21

在撰写本文时，Covid-19（2019年冠状病毒病）已扩散到220多个国家和地区。爆发后，大流行的严肃性使人们在社交媒体上更加活跃，尤其是在Twitter和Weibo等微博平台上。现在，大流行特定的话语一直在这些平台上持续数月。先前的研究证实了这种社会产生的对话对危机事件的情境意识的贡献。案件的早期预测对于当局估算应对病毒的生长所需的资源要求至关重要。因此，这项研究试图将公共话语纳入预测模型的设计中，特别针对正在进行的波浪的陡峭山路区域。我们提出了一种基于情感的主题方法，用于设计与公开可用的Covid-19相关Twitter对话中的多个时间序列。作为用例，我们对澳大利亚Covid-19的日常案例和该国境内产生的Twitter对话实施了拟议的方法。实验结果：（i）显示了Granger导致每日COVID-19确认案例的潜在社交媒体变量的存在，并且（ii）确认这些变量为预测模型提供了其他预测能力。此外，结果表明，用于建模的社交媒体变量包含了48.83--51.38％的RMSE比基线模型的改善。我们还向公众发布了大型Covid-19特定地理标记的全球推文数据集Megocov，预计该量表的地理标记数据将有助于通过其他空间和时间上下文理解大流行的对话动态。

translated by 谷歌翻译

Twitter Corpus of the #BlackLivesMatter Movement And Counter Protests: 2013 to 2021

Salvatore Giorgi , Sharath Chandra Guntuku , McKenzie Himelein-Wachowiak , Amy Kwarteng , Sy Hwang , Muhammad Rahman , Brenda Curtis

分类：自然语言处理

2020-09-01

黑人生活问题（BLM）是一项分散的社会运动，抗议对黑人个人和社区的暴力行为，重点是警察暴力。 2020年，艾哈迈德·阿贝里（Ahmaud Arbery），布雷纳·泰勒（Breonna Taylor）和乔治·弗洛伊德（George Floyd）的杀害后，该运动引起了人们的关注。#BlackLivesMatter社交媒体标签已经代表了基层运动，并以类似的标签来抗议BLM运动，例如#AllllivesMatter和#allllivesmatter和#allllivesmatter，以及#bluelivesmatter。我们介绍了来自100多个国家 /地区的1,300万用户的6390万推文的数据集，其中包含以下关键字之一：BlackLivesMatter，AlllivesMatter和BluelivesMatter。该数据集包含从2013年BLM运动开始到2021年的所有当前可用推文。我们总结了数据集并显示了使用BlackLivesMatter关键字和与反向运动相关的关键字的时间趋势。此外，对于每个关键字，我们创建并发布了一组潜在的Dirichlet分配（LDA）主题（即自动聚集了语义上共同共的单词的组），以帮助研究人员识别这三个关键字的语言模式。

translated by 谷歌翻译

Twitter Data Analysis: Izmir Earthquake Case

Özgür Agrali , Hakan Sökün , Enis Karaarslan

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-02

T\"urkiye is located on a fault line; earthquakes often occur on a large and small scale. There is a need for effective solutions for gathering current information during disasters. We can use social media to get insight into public opinion. This insight can be used in public relations and disaster management. In this study, Twitter posts on Izmir Earthquake that took place on October 2020 are analyzed. We question if this analysis can be used to make social inferences on time. Data mining and natural language processing (NLP) methods are used for this analysis. NLP is used for sentiment analysis and topic modelling. The latent Dirichlet Allocation (LDA) algorithm is used for topic modelling. We used the Bidirectional Encoder Representations from Transformers (BERT) model working with Transformers architecture for sentiment analysis. It is shown that the users shared their goodwill wishes and aimed to contribute to the initiated aid activities after the earthquake. The users desired to make their voices heard by competent institutions and organizations. The proposed methods work effectively. Future studies are also discussed.

translated by 谷歌翻译

Quantifying How Hateful Communities Radicalize Online Users

Matheus Schmitz , Keith Burghardt , Goran Muric

分类：自然语言处理 | 机器学习

2022-09-19

虽然在线社交媒体提供了一种忽略或窒息的声音的方式，但它还使用户可以平台传播可恨的言论。这种讲话通常起源于边缘社区，但它可以溢出到主流渠道中。在本文中，我们衡量加入边缘仇恨社区的影响，以仇恨言论传播到社交网络的其余部分。我们利用Reddit的数据来评估加入一种回声室的效果：一个志趣相投的用户，表现出仇恨行为的数字社区。我们在成为积极参与者之前和之后衡量成员在研究社区之外的仇恨言论的用法。使用中断的时间序列（ITS）分析作为因果推理方法，我们衡量了溢出效应，其中某个社区内的可恨语言可以通过使用社区外的仇恨单词用作代理，可以通过使用社区的层次来传播该社区之外的效果对于博学的仇恨。我们研究了涵盖仇恨言论的三个领域的四个不同的Reddit子社区（子红）：种族主义，厌女症和脂肪欺骗。在所有三种情况下，我们发现在原始社区之外的仇恨言论都在增加，这意味着加入此类社区会导致仇恨言论在整个平台中传播。此外，在最初加入社区后的几个月后，发现用户可以在几个月内接受这种新的仇恨演讲。我们表明，有害的言论不保留在社区中。我们的结果提供了回声室有害影响的新证据，以及调节它们以减少仇恨言论的潜在好处。

translated by 谷歌翻译

Design and analysis of tweet-based election models for the 2021 Mexican legislative election

Alejandro Vigna-Gómez , Javier Murillo , Manelik Ramirez , Alberto Borbolla , Ian Márquez , Prasun K. Ray

分类：自然语言处理

2023-01-02

Modelling and forecasting real-life human behaviour using online social media is an active endeavour of interest in politics, government, academia, and industry. Since its creation in 2006, Twitter has been proposed as a potential laboratory that could be used to gauge and predict social behaviour. During the last decade, the user base of Twitter has been growing and becoming more representative of the general population. Here we analyse this user base in the context of the 2021 Mexican Legislative Election. To do so, we use a dataset of 15 million election-related tweets in the six months preceding election day. We explore different election models that assign political preference to either the ruling parties or the opposition. We find that models using data with geographical attributes determine the results of the election with better precision and accuracy than conventional polling methods. These results demonstrate that analysis of public online data can outperform conventional polling methods, and that political analysis and general forecasting would likely benefit from incorporating such data in the immediate future. Moreover, the same Twitter dataset with geographical attributes is positively correlated with results from official census data on population and internet usage in Mexico. These findings suggest that we have reached a period in time when online activity, appropriately curated, can provide an accurate representation of offline behaviour.

translated by 谷歌翻译

Politics, Sentiment and Virality: A Large-Scale Multilingual Twitter Analysis in Greece, Spain and United Kingdom

Dimosthenis Antypas , Alun Preece , Jose Camacho-Collados

分类：自然语言处理 | 机器学习

2022-02-01

社交媒体在现代社会中尤其是在西方世界中的政策制定方面已经变得极其影响力（例如，48％的欧洲人每天或几乎每天都使用社交媒体）。 Twitter之类的平台使用户可以关注政客，从而使公民更多地参与政治讨论。同样，政客们使用Twitter来表达他们的观点，在当前主题上进行辩论，并促进其政治议程，以影响选民行为。先前的研究表明，传达负面情绪的推文可能会更频繁地转发。在本文中，我们试图分析来自不同国家的政客的推文，并探索他们的推文是否遵循相同的趋势。利用最先进的预训练的语言模型，我们对从希腊，西班牙和英国的成千上万的推文进行了情感分析，包括权威的行政部门。我们通过系统地探索和分析有影响力和不流行的推文之间的差异来实现这一目标。我们的分析表明，政治家的负面推文更广泛地传播，尤其是在最近的时代，并突出了情感和受欢迎程度相交的有趣趋势。

translated by 谷歌翻译

COVID-19 Twitter Dataset with Latent Topics, Sentiments and Emotions Attributes

Raj Kumar Gupta , Ajay Vishwanath , Yinping Yang

分类：自然语言处理

2020-07-14

本文描述了一个关于人们的话语的大型全球数据集以及在Twitter平台上对Covid-19的大流行的反应。从2020年1月28日至2022年6月1日，我们收集并处理了超过2900万个唯一用户的Twitter帖子，使用了四个关键字：“ Corona”，“ Wuhan”，“ NCOV”和“ COVID”。利用概率主题建模和预训练的基于机器学习的情感识别算法，我们将每个推文标记为具有十七个属性，包括a）十个二进制属性，指示了Tweet的相关性（1）或与前十名检测到的主题，B ）五个定量情绪属性表示价或情感的强度程度（从0：极为消极到1：极为积极）以及恐惧，愤怒，悲伤和幸福情感的强度程度（从0：完全不是1到1 ：极度强烈），c）两个分类属性表明情绪（非常负面，消极，中立或混合，积极，非常积极）以及主导的情感（恐惧，愤怒，悲伤，幸福，没有特定的情感），主要是推文表达。我们讨论技术有效性，并报告这些属性的描述性统计，其时间分布和地理表示。本文最后讨论了数据集在传播，心理学，公共卫生，经济学和流行病学中的用法。

translated by 谷歌翻译

Demystifying the COVID-19 vaccine discourse on Twitter

Zainab Zaidi , Mengbin Ye , Fergus John Samon , Abdisalam Jama , Binduja Gopalakrishnan , Chenhao Gu , Shanika Karunasekera , Jamie Evans , Yoshihisa Kashima

分类：自然语言处理

2022-08-29

对社交媒体上的COVID-19疫苗接种的公众讨论不仅对于解决当前的Covid-19-19大流行，而且对于未来的病原体爆发而言至关重要。我们检查了一个Twitter数据集，其中包含7500万英文推文，讨论2020年3月至2021年3月的Covid-19疫苗接种。我们使用自然语言处理（NLP）技术培训了一种立场检测算法，以将推文分为“反Vax”或“ pro-Vax”或“ Pro-Vax” '，并使用主题建模技术检查话语的主要主题。虽然Pro-Vax推文（3700万）远远超过反VAX推文（1000万），但两种姿态的大多数推文（63％的反VAX和53％的Pro-Vax推文）都来自双稳定的用户，他们都发布了两者在观察期间，亲和反VAX推文。 Pro-Vax推文主要集中在疫苗开发上，而反VAX推文则涵盖了广泛的主题，其中一些主题包括真正的问题，尽管存在很大的虚假性。尽管从相反的角度讨论了这两个立场，但两种立场都是常见的。模因和笑话是最转推消息之一。尽管对反vax话语的两极分化和在线流行的担忧是毫无根据的，但针对虚假的有针对性的反驳很重要。

translated by 谷歌翻译

HTML版本

Author Clustering and Topic Estimation for Short Texts

Graham Tierney , Christopher Bail , Alexander Volfovsky

分类：机器学习 | (统计)机器学习

2021-06-15

分析短文（例如社交媒体帖子）由于其固有的简洁而非常困难。除了对此类帖子的主题进行分类之外，一个常见的下游任务是将这些文档的作者分组以进行后续分析。我们提出了一个新颖的模型，该模型通过对同一文档中的单词之间的强大依赖进行建模以及用户级主题分布来扩展潜在的Dirichlet分配。我们还同时群集用户，消除了对事后集群估计的需求，并通过将嘈杂的用户级主题分布缩小到典型值来改善主题估计。我们的方法的性能和比传统方法的性能（或更好），我们在美国参议员的推文数据集中证明了它的有用性，恢复了反映党派意识形态的有意义的主题和群集。我们还通过表征参议员群体讨论并提供不确定性量化的主题的遗产，从而在这些政治家中开发了一种新的回声室衡量标准。

translated by 谷歌翻译

Breaking the Communities: Characterizing community changing users using text mining and graph machine learning on Twitter

Federico Albanese , Leandro Lombardi , Esteban Feuerstein , Pablo Balenzuela

分类：机器学习

2020-08-24

即使互联网和社交媒体增加了人们可能会消耗的新闻和信息量，大多数用户才会暴露于加强其职位的内容，并将其与其他思想社区隔离。这种环境对我们的生活产生了极大的影响，如严重的政治极化，轻松传播的假新闻，政治极端主义，仇恨团体以及缺乏丰富的辩论等。因此，鼓励不同的用户组之间的对话并打破封闭的社区对健康社会的重要性。在本文中，我们使用自然语言处理技术和图形机学习算法来表征和研究在Twitter上打破社区的用户。特别是，我们从150万用户收集了900万个Twitter消息，并构建了转发网络。我们确定了他们的社区和与他们相关的讨论主题。通过这些数据，我们为社交媒体用户分类提供了一种机器学习框架，该分类检测到“社区分手”，即从他们的封闭社区到另一个用户的用户。三个Twitter极化政治数据集中的一个特征重要性分析表明，这些用户的PageRank值低，表明改变是推动的，因为他们的消息在其社区中没有响应。这种方法还允许我们确定其特定的兴趣主题，提供了这种用户的全面表征。

translated by 谷歌翻译

Estimating Topic Exposure for Under-Represented Users on Social Media

Mansooreh Karami , Ahmadreza Mosallanezhad , Paras Sheth , Huan Liu

分类：机器学习

2022-08-07

在线社交网络（OSN）有助于访问各种数据，使研究人员能够分析用户的行为并开发用户行为分析模型。这些模型在很大程度上依赖于观察到的数据，这些数据通常由于参与不平等而产生偏差。这种不平等由三组在线用户组成：潜伏者 - 仅消耗内容的用户，招聘者 - 对内容创建的用户和贡献者很少贡献 - 负责创建大多数在线内容的用户。在解释人口水平的利益或情感的同时，未能考虑所有群体的贡献，可能会产生偏见的结果。为了减少贡献者引起的偏见，在这项工作中，我们专注于强调参与者在观察到的数据中的贡献，因为与潜伏者相比，它们更有可能贡献，与贡献者相比，它们的人口更大。这些用户行为分析的第一步是找到他们接触但没有互动的主题。为此，我们提出了一个新颖的框架，有助于识别这些用户并估算其主题曝光。暴露估计机制是通过合并来自类似贡献者的行为模式以及用户的人口统计学和个人资料信息来建模的。

translated by 谷歌翻译

Top Gear or Black Mirror: Inferring Political Leaning From Non-Political Content

Ahmet Kurnaz , Scott A. Hale

分类：自然语言处理

2022-08-11

在明确的政治事件（例如选举）的背景下，经常对两极分化和回声室进行研究，而在非政治背景下，很少有学术研究检查了政治团体的混合。在非政治背景下研究政治两极分化的一个主要障碍是，政治倾向（即左派与右取向）通常是未知的。尽管如此，众所周知，政治倾向与许多生活方式选择相关联（有时很强），导致刻板印象，例如“拿铁咖啡自由主义者”。我们开发了一个机器学习分类器，以推断出从非政治文本中倾斜的政治倾向，并且可以选择地，用户在社交媒体上关注的帐户。我们使用在Twitter上共享的选民建议申请结果作为我们的地面图，并在Twitter数据集上训练并测试我们的分类器，其中包括3200个用户的3200个最新推文，此前删除了任何有政治文本的推文。我们将大多数用户的政治倾向正确分类（F1分数从0.70到0.85，具体取决于覆盖范围）。我们发现政治活动水平与我们的分类结果之间没有关系。我们将分类器应用于英国新闻共享的案例研究，发现一般而言，政治新闻的共享表现出独特的左右鸿沟，而体育新闻则没有。

translated by 谷歌翻译

Sentiment analysis on electricity twitter posts

Pardeep Kaur , Maryam Edalati

分类：自然语言处理

2022-06-10

在当今的世界中，每个人都以某种方式表现出来，而该项目的重点是人们使用Twitter的数据（一个微博平台）的数据，人们对英国和印度的电价上涨的看法，人们在该平台上发布了消息，人们发布了消息，称为Tweets。因为许多人的收入不好，他们必须缴纳如此多的税款和账单，因此如今，维持房屋已成为有争议的问题。尽管政府提供了补贴计划来补偿人们的电费，但不受人们的欢迎。在这个项目中，目的是对Twitter上表达的人们的表达和观点进行情感分析。为了掌握电价的意见，有必要对能源市场的政府和消费者进行情感分析。此外，这些媒体上存在的文本本质上是非结构化的，因此要处理它们，我们首先需要预处理数据。有很多功能提取技术，例如单词袋，tf-idf（术语频率为单位的文档频率），单词嵌入，基于NLP的功能，例如Word Count。在该项目中，我们分析了特征TF-IDF单词级别对情感分析数据集的影响。我们发现，通过使用TF-IDF单词级别的性能分析的表现比使用N-Gram功能高3-4。使用四种分类算法进行分析，包括幼稚的贝叶斯，决策树，随机森林和逻辑回归，并考虑F评分，准确性，精度和召回性能参数。

translated by 谷歌翻译