智能论文笔记

DiPD: Disruptive event Prediction Dataset from Twitter

Sanskar Soni , Dev Mehta , Vinush Vishwanath , Aditi Seetha , Satyendra Singh Chouhan

分类：自然语言处理 | 机器学习

2021-11-25

如果失去控制，骚乱和抗议可能会在一个国家造成严重破坏。我们已经看到了这一点，例如BLM运动，气候罢工，CAA运动等等，在很大程度上引起了破坏。我们的动机落后于创建此数据集是使用它来开发机器学习系统，可以让用户能够深入了解正在进行的趋势事件，并提醒他们可能导致国家中断的事件。如果任何事件开始失控，可以通过在升级之前监控它来处理和减轻它。此数据集收集已知已知造成的过去或正在进行的事件的推文，并将这些推文标记为1.我们还收集了被认为是非最终的并且将它们标记为0，以便它们也可用于培训分类系统。数据集包含94855个独特事件的记录和168706个独特事件的记录，从而给出了总数据集263561记录。我们从推文中提取多个功能，例如用户的跟随计数和用户的位置，以了解推文的影响和范围。此数据集可能在各种事件相关机器学习问题（如事件分类，事件识别等）中有用。

translated by 谷歌翻译

Twitter Corpus of the #BlackLivesMatter Movement And Counter Protests: 2013 to 2021

Salvatore Giorgi , Sharath Chandra Guntuku , McKenzie Himelein-Wachowiak , Amy Kwarteng , Sy Hwang , Muhammad Rahman , Brenda Curtis

分类：自然语言处理

2020-09-01

黑人生活问题（BLM）是一项分散的社会运动，抗议对黑人个人和社区的暴力行为，重点是警察暴力。 2020年，艾哈迈德·阿贝里（Ahmaud Arbery），布雷纳·泰勒（Breonna Taylor）和乔治·弗洛伊德（George Floyd）的杀害后，该运动引起了人们的关注。#BlackLivesMatter社交媒体标签已经代表了基层运动，并以类似的标签来抗议BLM运动，例如#AllllivesMatter和#allllivesmatter和#allllivesmatter，以及#bluelivesmatter。我们介绍了来自100多个国家 /地区的1,300万用户的6390万推文的数据集，其中包含以下关键字之一：BlackLivesMatter，AlllivesMatter和BluelivesMatter。该数据集包含从2013年BLM运动开始到2021年的所有当前可用推文。我们总结了数据集并显示了使用BlackLivesMatter关键字和与反向运动相关的关键字的时间趋势。此外，对于每个关键字，我们创建并发布了一组潜在的Dirichlet分配（LDA）主题（即自动聚集了语义上共同共的单词的组），以帮助研究人员识别这三个关键字的语言模式。

translated by 谷歌翻译

COVID-19 Twitter Dataset with Latent Topics, Sentiments and Emotions Attributes

Raj Kumar Gupta , Ajay Vishwanath , Yinping Yang

分类：自然语言处理

2020-07-14

本文描述了一个关于人们的话语的大型全球数据集以及在Twitter平台上对Covid-19的大流行的反应。从2020年1月28日至2022年6月1日，我们收集并处理了超过2900万个唯一用户的Twitter帖子，使用了四个关键字：“ Corona”，“ Wuhan”，“ NCOV”和“ COVID”。利用概率主题建模和预训练的基于机器学习的情感识别算法，我们将每个推文标记为具有十七个属性，包括a）十个二进制属性，指示了Tweet的相关性（1）或与前十名检测到的主题，B ）五个定量情绪属性表示价或情感的强度程度（从0：极为消极到1：极为积极）以及恐惧，愤怒，悲伤和幸福情感的强度程度（从0：完全不是1到1 ：极度强烈），c）两个分类属性表明情绪（非常负面，消极，中立或混合，积极，非常积极）以及主导的情感（恐惧，愤怒，悲伤，幸福，没有特定的情感），主要是推文表达。我们讨论技术有效性，并报告这些属性的描述性统计，其时间分布和地理表示。本文最后讨论了数据集在传播，心理学，公共卫生，经济学和流行病学中的用法。

translated by 谷歌翻译

Twitter Data Analysis: Izmir Earthquake Case

Özgür Agrali , Hakan Sökün , Enis Karaarslan

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-02

T\"urkiye is located on a fault line; earthquakes often occur on a large and small scale. There is a need for effective solutions for gathering current information during disasters. We can use social media to get insight into public opinion. This insight can be used in public relations and disaster management. In this study, Twitter posts on Izmir Earthquake that took place on October 2020 are analyzed. We question if this analysis can be used to make social inferences on time. Data mining and natural language processing (NLP) methods are used for this analysis. NLP is used for sentiment analysis and topic modelling. The latent Dirichlet Allocation (LDA) algorithm is used for topic modelling. We used the Bidirectional Encoder Representations from Transformers (BERT) model working with Transformers architecture for sentiment analysis. It is shown that the users shared their goodwill wishes and aimed to contribute to the initiated aid activities after the earthquake. The users desired to make their voices heard by competent institutions and organizations. The proposed methods work effectively. Future studies are also discussed.

translated by 谷歌翻译

AI Ethics on Blockchain: Topic Analysis on Twitter Data for Blockchain Security

Yihang Fu , Zesen Zhuang , Luyao Zhang

分类：人工智能 | 机器学习

2022-12-14

Blockchain has empowered computer systems to be more secure using a distributed network. However, the current blockchain design suffers from fairness issues in transaction ordering. Miners are able to reorder transactions to generate profits, the so-called miner extractable value (MEV). Existing research recognizes MEV as a severe security issue and proposes potential solutions, including prominent Flashbots. However, previous studies have mostly analyzed blockchain data, which might not capture the impacts of MEV in a much broader AI society. Thus, in this research, we applied natural language processing (NLP) methods to comprehensively analyze topics in tweets on MEV. We collected more than 20000 tweets with \#MEV and \#Flashbots hashtags and analyzed their topics. Our results show that the tweets discussed profound topics of ethical concern, including security, equity, emotional sentiments, and the desire for solutions to MEV. We also identify the co-movements of MEV activities on blockchain and social media platforms. Our study contributes to the literature at the interface of blockchain security, MEV solutions, and AI ethics.

translated by 谷歌翻译

A Python Library for Exploratory Data Analysis on Twitter Data based on Tokens and Aggregated Origin-Destination Information

Mario Graff , Daniela Moctezuma , Sabino Miranda-Jiménez , Eric S. Tellez

分类：自然语言处理

2020-09-03

Twitter也许是社交媒体更适合研究。它只需要几个步骤来获取信息，并且有很多库可以帮助这方面。尽管如此，知道特定事件是否在Twitter上表达是一个具有挑战性的任务，需要相当多的推文集合。该提案旨在促进研究员对自从2015年12月以来推出的Twitter采集的加工信息收集到Twitter上采矿活动的过程。事件可能与自然灾害，健康问题和人民的流动相关，等等可以与图书馆一起追求的研究。在这一贡献中提出了不同的应用程序，以说明图书馆的能力：对推文中发现的主题的探索性分析，这是西班牙语方言中的相似性研究以及不同国家的移动性报告。总之，呈现的Python库应用于不同的域，并在以阿拉伯语，英语，西班牙语和俄语的单词和双克单词的频率下检索一系列信息。以及与200多个国家或地区的地点之间的旅行数量有关的移动性信息。

translated by 谷歌翻译

Automated Fake News Detection using cross-checking with reliable sources

Zahra Ghadiri , Milad Ranjbar , Fakhteh Ghanbarnejad , Sadegh Raeisi

分类：自然语言处理

2022-01-01

在过去十年中，假新闻和错误信息变成了一个主要问题，影响了我们生活的不同方面，包括政治和公共卫生。灵感来自自然人类行为，我们提出了一种自动检测假新闻的方法。自然人行为是通过可靠的来源交叉检查新信息。我们使用自然语言处理（NLP）并构建机器学习（ML）模型，可自动执行与一组预定义的可靠源进行交叉检查新信息的过程。我们为Twitter实施了此功能，并构建标记假推送的模型。具体而言，对于给定的推文，我们使用其文本来查找来自可靠的新闻机构的相关新闻。然后，我们培训一个随机森林模型，检查推文的文本内容是否与可信新闻对齐。如果不是，则推文被归类为假。这种方法通常可以应用于任何类型的信息，并且不限于特定的新闻故事或信息类别。我们的实施此方法提供了70美元的$ 70 \％$准确性，这优于其他通用假新闻分类模型。这些结果为假新闻检测提供了更明智和自然的方法。

translated by 谷歌翻译

Detecing Anti-Vaccine Users on Twitter

Matheus Schmitz , Goran Murić , Keith Burghardt

分类：自然语言处理

2021-10-21

最近受到在线叙述驱动的疫苗犹豫会大大降低了疫苗接种策略的功效，例如Covid-19。尽管医学界对可用疫苗的安全性和有效性达成了广泛的共识，但许多社交媒体使用者仍被有关疫苗的虚假信息淹没，并且柔和或不愿意接种疫苗。这项研究的目的是通过开发能够自动识别负责传播反疫苗叙事的用户的系统来更好地理解反疫苗情绪。我们引入了一个公开可用的Python软件包，能够分析Twitter配置文件，以评估该个人资料将来分享反疫苗情绪的可能性。该软件包是使用文本嵌入方法，神经网络和自动数据集生成的，并接受了数百万条推文培训。我们发现，该模型可以准确地检测出抗疫苗用户，直到他们推文抗Vaccine主题标签或关键字。我们还展示了文本分析如何通过检测Twitter和常规用户之间的抗疫苗传播器之间的道德和情感差异来帮助我们理解反疫苗讨论的示例。我们的结果将帮助研究人员和政策制定者了解用户如何成为反疫苗感以及他们在Twitter上讨论的内容。政策制定者可以利用此信息进行更好的针对性的运动，以揭露有害的反疫苗接种神话。

translated by 谷歌翻译

TweetDIS: A Large Twitter Dataset for Natural Disasters Built using Weak Supervision

Ramya Tekumalla , Juan M. Banda

分类：自然语言处理 | 机器学习

2022-07-11

社交媒体通常被用作自然灾害期间交流的生命线。传统上，自然灾害推文使用自然灾害的名称从Twitter流进行过滤，并将过滤的推文发送以进行人体注释。人类注释创建用于机器学习模型的标签集的过程是费力的，耗时的，有时不准确的，更重要的是，在大小和实时使用方面不可扩展。在这项工作中，我们使用薄弱的监督来策划一个银标准数据集。为了验证其效用，我们在弱监督的数据上训练机器学习模型，以识别三种不同类型的自然灾害，即地震，飓风和洪水。我们的结果表明，在对手动策划的金标准数据集进行分类时，经过银标准数据集训练的模型大于90％。为了启用可重现的研究和其他下游公用事业，我们为科学界发布了银标准数据集。

translated by 谷歌翻译

Sentiment analysis on electricity twitter posts

Pardeep Kaur , Maryam Edalati

分类：自然语言处理

2022-06-10

在当今的世界中，每个人都以某种方式表现出来，而该项目的重点是人们使用Twitter的数据（一个微博平台）的数据，人们对英国和印度的电价上涨的看法，人们在该平台上发布了消息，人们发布了消息，称为Tweets。因为许多人的收入不好，他们必须缴纳如此多的税款和账单，因此如今，维持房屋已成为有争议的问题。尽管政府提供了补贴计划来补偿人们的电费，但不受人们的欢迎。在这个项目中，目的是对Twitter上表达的人们的表达和观点进行情感分析。为了掌握电价的意见，有必要对能源市场的政府和消费者进行情感分析。此外，这些媒体上存在的文本本质上是非结构化的，因此要处理它们，我们首先需要预处理数据。有很多功能提取技术，例如单词袋，tf-idf（术语频率为单位的文档频率），单词嵌入，基于NLP的功能，例如Word Count。在该项目中，我们分析了特征TF-IDF单词级别对情感分析数据集的影响。我们发现，通过使用TF-IDF单词级别的性能分析的表现比使用N-Gram功能高3-4。使用四种分类算法进行分析，包括幼稚的贝叶斯，决策树，随机森林和逻辑回归，并考虑F评分，准确性，精度和召回性能参数。

translated by 谷歌翻译

A Multilingual Dataset of COVID-19 Vaccination Attitudes on Twitter

Ninghan Chen , Xihui Chen , Jun Pang

分类：自然语言处理 | 机器学习

2022-06-27

疫苗的犹豫被认为是欧洲和美国在欧洲疫苗充足疫苗的疫苗停滞比率停滞的主要原因之一。快速准确地掌握公众对疫苗接种的态度对于解决疫苗犹豫至关重要，社交媒体平台已被证明是公众意见的有效来源。在本文中，我们描述了与Covid-19疫苗有关的推文数据集的收集和发布。该数据集由从西欧收集的2,198,090条推文组成，其中17,934条带有发起者的疫苗接种立场。我们的注释将有助于使用和开发数据驱动的模型来从社交媒体帖子中提取疫苗接种态度，从而进一步确认社交媒体在公共卫生监视中的力量。为了为未来的研究奠定基础，我们不仅对数据集进行了统计分析和可视化，而且还评估和比较了疫苗接种立场提取中已建立的基于文本的基准测试的性能。我们在实践中证明了我们的数据的一种潜在用途，以跟踪公共Covid-19-19疫苗接种态度的时间变化。

translated by 谷歌翻译

CoVaxNet: An Online-Offline Data Repository for COVID-19 Vaccine Hesitancy Research

Bohan Jiang , Paras Sheth , Baoxin Li , Huan Liu

分类：机器学习

2022-06-30

尽管Covid-19疫苗对病毒取得了惊人的成功，但很大一部分人口仍然不愿接受疫苗接种，这破坏了政府控制该病毒的努力。为了解决这个问题，我们需要了解导致这种行为的不同因素，包括社交媒体话语，新闻媒体宣传，政府的回应，人口统计和社会经济地位以及COVID-19统计等等。涵盖所有这些方面，使得在推断疫苗犹豫的问题时很难形成完整的情况。在本文中，我们构建了一个多源，多模式和多功能在线数据存储库Covaxnet。我们提供描述性分析和见解，以说明Covaxnet中的关键模式。此外，我们提出了一种新颖的方法来连接在线和离线数据，以促进利用互补信息源的推理任务。

translated by 谷歌翻译

Vaccine Discourse on Twitter During the COVID-19 Pandemic

Gabriel Lindelöf , Talayeh Aledavood , Barbara Keller

分类：自然语言处理

2022-07-23

自Covid-19大流行病开始以来，疫苗一直是公共话语中的重要话题。疫苗周围的讨论被两极分化，因为有些人认为它们是结束大流行的重要措施，而另一些人则犹豫不决或发现它们有害。这项研究调查了与Twitter上的Covid-19疫苗有关的帖子，并着重于对疫苗有负姿态的帖子。收集了与COVID-19疫苗相关的16,713,238个英文推文的数据集，收集了涵盖从2020年3月1日至2021年7月31日的该期间。我们使用Scikit-Learn Python库来应用支持向量机（SVM）分类器针对Covid-19疫苗的推文具有负姿态。总共使用了5,163个推文来训练分类器，其中有2,484个推文由我们手动注释并公开提供。我们使用Berttopic模型来提取和调查负推文中讨论的主题以及它们如何随时间变化。我们表明，随着疫苗的推出，对COVID-19疫苗的负面影响随时间而下降。我们确定了37个讨论主题，并随着时间的推移介绍了各自的重要性。我们表明，流行的主题包括阴谋讨论，例如5G塔和微芯片，但还涉及涉及疫苗接种安全性和副作用以及对政策的担忧。我们的研究表明，即使是不受欢迎的观点或阴谋论，与广受欢迎的讨论主题（例如Covid-19疫苗）配对时，也会变得广泛。了解问题和讨论的主题以及它们如何随着时间的变化对于政策制定者和公共卫生当局提供更好和时间的信息和政策，以促进未来类似危机的人口接种。

translated by 谷歌翻译

What are People Talking about in #BlackLivesMatter and #StopAsianHate? Exploring and Categorizing Twitter Topics Emerging in Online Social Movements through the Latent Dirichlet Allocation Model

Xin Tong , Yixuan Li , Jiayi Li , Rongqi Bei , Luyao Zhang

分类：自然语言处理 | 机器学习

2022-05-29

少数群体一直在使用社交媒体来组织社会运动，从而产生深远的社会影响。黑人生活问题（BLM）和停止亚洲仇恨（SAH）是两个成功的社会运动，在Twitter上蔓延开来，促进了抗议活动和活动，反对种族主义，并提高公众对少数群体面临的其他社会挑战的认识。但是，以前的研究主要对与用户的推文或访谈进行了定性分析，这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格，量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此，在这项研究中，我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了（1）潜在的DIRICHLET分配模型，以了解顶级高级单词和主题以及（2）开放编码分析，以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文，并比较了它们的主题。我们的发现表明，这些推文在深度上讨论了各种有影响力的话题，社会正义，社会运动和情感情感都是两种运动的共同主题，尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析，以及有关AI，伦理和社会相互作用的文献。

translated by 谷歌翻译

PHEMEPlus: Enriching Social Media Rumour Verification with External Evidence

John Dougrez-Lewis , Elena Kochkina , M. Arana-Catania , Maria Liakata , Yulan He

分类：自然语言处理 | 人工智能 | 机器学习

2022-07-28

在社交媒体上的工作谣言验证利用了帖子，传播和所涉及的用户的信号。基于Wikipedia的信息或值得信赖的新闻文章而无需考虑社交媒体环境，其他工作目标是识别和核实事实检查的主张。但是，缺乏将社交媒体的信息与更广泛网络的外部证据相结合的工作。为了促进这个方向的研究，我们发布了一个新颖的数据集Phemeplus，Phemeplus是Pheme基准的扩展，该数据集包含社交媒体对话以及每个谣言的相关外部证据。我们证明了将这种证据纳入改进谣言验证模型的有效性。此外，作为证据收集的一部分，我们评估了各种查询公式的方法，以识别最有效的方法。

translated by 谷歌翻译

Extracting a Knowledge Base of COVID-19 Events from Social Media

Shi Zong , Ashutosh Baheti , Wei Xu , Alan Ritter

分类：自然语言处理

2020-06-03

在本文中，我们提出了一个手动注释的10,000名推文载有五个Covid-19事件的公开报告，包括积极和消极的测试，死亡，拒绝获得测试，索赔治愈和预防。我们为每种事件类型设计了插槽填充问题，并注释了总共31个细粒度的插槽，例如事件的位置，最近的旅行和密切联系人。我们表明我们的语料库可以支持微调基于伯特的分类器，以自动提取公共报告的事件，并帮助跟踪新疾病的传播。我们还证明，通过从数百万推文中提取的事件汇总，我们在回答复杂的查询时达到令人惊讶的高精度，例如“哪些组织在费城在费城测试的员工？”我们将释放我们的语料库（使用用户信息被删除），自动提取模型以及研究社区的相应知识库。

translated by 谷歌翻译

Evaluating Impact of Social Media Posts by Executives on Stock Prices

Anubhav Sarkar , Swagata Chakraborty , Sohom Ghosh , Sudip Kumar Naskar

分类：自然语言处理

2022-11-01

Predicting stock market movements has always been of great interest to investors and an active area of research. Research has proven that popularity of products is highly influenced by what people talk about. Social media like Twitter, Reddit have become hotspots of such influences. This paper investigates the impact of social media posts on close price prediction of stocks using Twitter and Reddit posts. Our objective is to integrate sentiment of social media data with historical stock data and study its effect on closing prices using time series models. We carried out rigorous experiments and deep analysis using multiple deep learning based models on different datasets to study the influence of posts by executives and general people on the close price. Experimental results on multiple stocks (Apple and Tesla) and decentralised currencies (Bitcoin and Ethereum) consistently show improvements in prediction on including social media data and greater improvements on including executive posts.

translated by 谷歌翻译

Twitter Topic Classification

Dimosthenis Antypas , Asahi Ushio , Jose Camacho-Collados , Leonardo Neves , Vítor Silva , Francesco Barbieri

分类：自然语言处理

2022-09-20

社交媒体平台主持了有关每天出现的各种主题的讨论。理解所有内容并将其组织成类别是一项艰巨的任务。处理此问题的一种常见方法是依靠主题建模，但是使用此技术发现的主题很难解释，并且从语料库到语料库可能会有所不同。在本文中，我们提出了基于推文主题分类的新任务，并发布两个相关的数据集。鉴于涵盖社交媒体中最重要的讨论点的广泛主题，我们提供了最近时间段的培训和测试数据，可用于评估推文分类模型。此外，我们在任务上对当前的通用和领域特定语言模型进行定量评估和分析，这为任务的挑战和性质提供了更多见解。

translated by 谷歌翻译

An LSTM model for Twitter Sentiment Analysis

Md Parvez Mollah

分类：自然语言处理

2022-12-04

Sentiment analysis on social media such as Twitter provides organizations and individuals an effective way to monitor public emotions towards them and their competitors. As a result, sentiment analysis has become an important and challenging task. In this work, we have collected seven publicly available and manually annotated twitter sentiment datasets. We create a new training and testing dataset from the collected datasets. We develop an LSTM model to classify sentiment of a tweet and evaluate the model with the new dataset.

translated by 谷歌翻译

AI-based Monitoring and Response System for Hospital Preparedness towards COVID-19 in Southeast Asia

Tushar Goswamy , Naishadh Parmar , Ayush Gupta , Raunak Shah , Vatsalya Tandon , Varun Goyal , Sanyog Gupta , Karishma Laud , Shivam Gupta , Sudhanshu Mishra

分类：自然语言处理 | 机器学习

2020-07-30

这篇研究论文提出了COVID-19监测和响应系统，以确定医院患者的数量激增以及关键设备（如东南亚国家的呼吸机），以了解医疗机构的负担。这可以通过资源计划措施来帮助这些地区的当局，以将资源重定向到模型确定的地区。由于缺乏有关医院患者涌入的公开可用数据，或者这些国家可能面临的设备，ICU单元或医院病床的短缺，我们利用Twitter数据来收集此信息。该方法为印度的各州提供了准确的结果，我们正在努力验证其余国家的模型，以便它可以作为当局监控医院负担的可靠工具。

translated by 谷歌翻译