智能论文笔记

Twitter conversations predict the daily confirmed COVID-19 cases

Rabindra Lamsala , Aaron Harwood , Maria Rodriguez Read

分类：自然语言处理

2022-06-21

在撰写本文时，Covid-19（2019年冠状病毒病）已扩散到220多个国家和地区。爆发后，大流行的严肃性使人们在社交媒体上更加活跃，尤其是在Twitter和Weibo等微博平台上。现在，大流行特定的话语一直在这些平台上持续数月。先前的研究证实了这种社会产生的对话对危机事件的情境意识的贡献。案件的早期预测对于当局估算应对病毒的生长所需的资源要求至关重要。因此，这项研究试图将公共话语纳入预测模型的设计中，特别针对正在进行的波浪的陡峭山路区域。我们提出了一种基于情感的主题方法，用于设计与公开可用的Covid-19相关Twitter对话中的多个时间序列。作为用例，我们对澳大利亚Covid-19的日常案例和该国境内产生的Twitter对话实施了拟议的方法。实验结果：（i）显示了Granger导致每日COVID-19确认案例的潜在社交媒体变量的存在，并且（ii）确认这些变量为预测模型提供了其他预测能力。此外，结果表明，用于建模的社交媒体变量包含了48.83--51.38％的RMSE比基线模型的改善。我们还向公众发布了大型Covid-19特定地理标记的全球推文数据集Megocov，预计该量表的地理标记数据将有助于通过其他空间和时间上下文理解大流行的对话动态。

translated by 谷歌翻译

Data-Centric Epidemic Forecasting: A Survey

Alexander Rodríguez , Harshavardhan Kamarthi , Pulak Agarwal , Javen Ho , Mira Patel , Suchet Sapre , B. Aditya Prakash

分类：机器学习

2022-07-19

COVID-19的大流行提出了对多个领域决策者的流行预测的重要性，从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测，但是它具有一些关键的差异，并且仍然是一项非平凡的任务。疾病的传播受到人类行为，病原体动态，天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议，捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作，这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步，并介绍了一个概念框架来导航它们。首先，我们列举了与流行病预测相关的大量流行病学数据集和新的数据流，捕获了各种因素，例如有症状的在线调查，零售和商业，流动性，基因组学数据等。接下来，我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式，以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战，包括预测信息。最后，我们重点介绍了整个预测管道中发现的一些挑战和开放问题。

translated by 谷歌翻译

COVID-19 Twitter Dataset with Latent Topics, Sentiments and Emotions Attributes

Raj Kumar Gupta , Ajay Vishwanath , Yinping Yang

分类：自然语言处理

2020-07-14

本文描述了一个关于人们的话语的大型全球数据集以及在Twitter平台上对Covid-19的大流行的反应。从2020年1月28日至2022年6月1日，我们收集并处理了超过2900万个唯一用户的Twitter帖子，使用了四个关键字：“ Corona”，“ Wuhan”，“ NCOV”和“ COVID”。利用概率主题建模和预训练的基于机器学习的情感识别算法，我们将每个推文标记为具有十七个属性，包括a）十个二进制属性，指示了Tweet的相关性（1）或与前十名检测到的主题，B ）五个定量情绪属性表示价或情感的强度程度（从0：极为消极到1：极为积极）以及恐惧，愤怒，悲伤和幸福情感的强度程度（从0：完全不是1到1 ：极度强烈），c）两个分类属性表明情绪（非常负面，消极，中立或混合，积极，非常积极）以及主导的情感（恐惧，愤怒，悲伤，幸福，没有特定的情感），主要是推文表达。我们讨论技术有效性，并报告这些属性的描述性统计，其时间分布和地理表示。本文最后讨论了数据集在传播，心理学，公共卫生，经济学和流行病学中的用法。

translated by 谷歌翻译

What are People Talking about in #BlackLivesMatter and #StopAsianHate? Exploring and Categorizing Twitter Topics Emerging in Online Social Movements through the Latent Dirichlet Allocation Model

Xin Tong , Yixuan Li , Jiayi Li , Rongqi Bei , Luyao Zhang

分类：自然语言处理 | 机器学习

2022-05-29

少数群体一直在使用社交媒体来组织社会运动，从而产生深远的社会影响。黑人生活问题（BLM）和停止亚洲仇恨（SAH）是两个成功的社会运动，在Twitter上蔓延开来，促进了抗议活动和活动，反对种族主义，并提高公众对少数群体面临的其他社会挑战的认识。但是，以前的研究主要对与用户的推文或访谈进行了定性分析，这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格，量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此，在这项研究中，我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了（1）潜在的DIRICHLET分配模型，以了解顶级高级单词和主题以及（2）开放编码分析，以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文，并比较了它们的主题。我们的发现表明，这些推文在深度上讨论了各种有影响力的话题，社会正义，社会运动和情感情感都是两种运动的共同主题，尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析，以及有关AI，伦理和社会相互作用的文献。

translated by 谷歌翻译

Variance of Twitter Embeddings and Temporal Trends of COVID-19 cases

Mayank Sethi , Ambika Sadhu , Khushbu Pahwa , Sargun Nagpal , Tavpritesh Sethi

分类：自然语言处理

2021-09-30

冠状病毒大流行的严重程度需要有效的行政决定。在印度超过4万人的人屈服于Covid-19，拥有超过3亿卢比的确认案例，仍然计数。合理的第三波的威胁继续困扰数百万。在这种不断变化的病毒动态中，预测性建模方法可以用作整体工具。大流行进一步引发了一个前所未有的社交媒体使用。本文旨在提出一种利用社交媒体，特别推特的方法来预测与Covid-19案件相关的即将发生的情景。在这项研究中，我们寻求了解Covid-19相关推文的潮流如何表明案件的增加。这种前瞻性分析可用于帮助管理员及时资源分配，以减少损坏的严重程度。使用Word Embeddings来捕获推文的语义含义，我们识别大量尺寸（SDS）.Or方法，预测患情况的上升时间为15天，30天，R2分别为0.80和0.62。最后，我们解释了SDS的主题效用。

translated by 谷歌翻译

Vaccine Discourse on Twitter During the COVID-19 Pandemic

Gabriel Lindelöf , Talayeh Aledavood , Barbara Keller

分类：自然语言处理

2022-07-23

自Covid-19大流行病开始以来，疫苗一直是公共话语中的重要话题。疫苗周围的讨论被两极分化，因为有些人认为它们是结束大流行的重要措施，而另一些人则犹豫不决或发现它们有害。这项研究调查了与Twitter上的Covid-19疫苗有关的帖子，并着重于对疫苗有负姿态的帖子。收集了与COVID-19疫苗相关的16,713,238个英文推文的数据集，收集了涵盖从2020年3月1日至2021年7月31日的该期间。我们使用Scikit-Learn Python库来应用支持向量机（SVM）分类器针对Covid-19疫苗的推文具有负姿态。总共使用了5,163个推文来训练分类器，其中有2,484个推文由我们手动注释并公开提供。我们使用Berttopic模型来提取和调查负推文中讨论的主题以及它们如何随时间变化。我们表明，随着疫苗的推出，对COVID-19疫苗的负面影响随时间而下降。我们确定了37个讨论主题，并随着时间的推移介绍了各自的重要性。我们表明，流行的主题包括阴谋讨论，例如5G塔和微芯片，但还涉及涉及疫苗接种安全性和副作用以及对政策的担忧。我们的研究表明，即使是不受欢迎的观点或阴谋论，与广受欢迎的讨论主题（例如Covid-19疫苗）配对时，也会变得广泛。了解问题和讨论的主题以及它们如何随着时间的变化对于政策制定者和公共卫生当局提供更好和时间的信息和政策，以促进未来类似危机的人口接种。

translated by 谷歌翻译

From Twitter to Traffic Predictor: Next-Day Morning Traffic Prediction Using Social Media Data

Weiran Yao , Sean Qian

分类：机器学习 | (统计)机器学习

2020-09-29

在清晨预测交通动态时，传统交通预测方法的有效性通常非常有限。原因是在清晨通勤期间交通可能会彻底分解，这个分解的时间和持续时间大幅度从日常生活中变化。清晨的交通预测是通知午餐的交通管理至关重要，但他们通常会提前预测，特别是在午夜预测。在本文中，我们建议将Twitter消息作为探测方法，了解在前一天晚上/午夜的人们工作和休息模式的影响到下一天的早晨交通。该模型在匹兹堡的高速公路网络上进行了测试，作为实验。由此产生的关系令人惊讶地简单且强大。我们发现，一般来说，早些时候的人休息如推文所示，即第二天早上就越拥挤的道路就越多。之前的大事发生了大事，由更高或更低的Tweet情绪表示，比正常，通常意味着在第二天早上的旅行需求较低。此外，人们在前一天晚上和清晨的鸣叫活动与早晨高峰时段的拥堵有统计学相关。我们利用这种关系来构建一个预测框架，预测早晨的通勤充血使用5时或早晨午夜提取的人的推特型材。匹兹堡研究支持我们的框架可以精确预测早晨拥塞，特别是对于具有大型日常充血变异的道路瓶颈上游的一些道路段。我们的方法在没有Twitter消息功能的情况下大大差异，可以从提供管理洞察力的推文配置文件中学习有意义的需求表示。

translated by 谷歌翻译

What Are You Anxious About? Examining Subjects of Anxiety during the COVID-19 Pandemic

Lucia L. Chen , Steven R. Wilson , Sophie Lohmann , Daniela V. Negraia

分类：自然语言处理

2022-09-27

Covid-19在大流行的不同阶段对公众构成了不成比例的心理健康后果。我们使用一种计算方法来捕获引发在线社区对大流行的焦虑的特定方面，并研究这些方面如何随时间变化。首先，我们使用主题分析在R/covid19 \ _support的Reddit帖子样本（$ n $ = 86）中确定了九个焦虑（SOA）。然后，我们通过在手动注释的样本（$ n $ = 793）上训练Reddit用户的焦虑来自动将SOA标记在较大的年代样本中（$ n $ = 6,535）。 9个SOA与最近开发的大流行焦虑测量量表中的项目保持一致。我们观察到，在大流行的前八个月，Reddit用户对健康风险的担忧仍然很高。尽管案件激增稍后发生，但这些担忧却大大减少了。通常，随着大流行的进展，用户的语言披露了SOA的强烈强度。但是，在本研究涵盖的整个期间，人们对心理健康的担忧和未来稳步增长。人们还倾向于使用更强烈的语言来描述心理健康问题，而不是健康风险或死亡问题。我们的结果表明，尽管Covid-19逐渐削弱，但由于适当的对策而逐渐削弱了作为健康威胁，但该在线小组的心理健康状况并不一定会改善。我们的系统为人口健康和流行病学学者奠定了基础，以及时检查引起大流行焦虑的方面。

translated by 谷歌翻译

"Double vaccinated, 5G boosted!": Learning Attitudes towards COVID-19 Vaccination from Social Media

Ninghan Chen , Xihui Chen , Zhiqiang Zhong , Jun Pang

分类：机器学习

2022-06-27

为了解决疫苗犹豫不决，这会损害COVID-19疫苗接种运动的努力，必须了解公共疫苗接种态度并及时掌握其变化。尽管具有可靠性和可信赖性，但基于调查的传统态度收集是耗时且昂贵的，无法遵循疫苗接种态度的快速发展。我们利用社交媒体上的文本帖子通过提出深入学习框架来实时提取和跟踪用户的疫苗接种立场。为了解决与疫苗相关话语中常用的讽刺和讽刺性的语言特征的影响，我们将用户社交网络邻居的最新帖子集成到框架中，以帮助检测用户的真实态度。根据我们从Twitter的注释数据集，与最新的仅文本模型相比，从我们框架实例化的模型可以提高态度提取的性能高达23％。使用此框架，我们成功地验证了使用社交媒体跟踪现实生活中疫苗接种态度的演变的可行性。我们进一步显示了对我们的框架的一种实际用途，它可以通过从社交媒体中感知到的信息来预测用户疫苗犹豫的变化的可能性。

translated by 谷歌翻译

Politics, Sentiment and Virality: A Large-Scale Multilingual Twitter Analysis in Greece, Spain and United Kingdom

Dimosthenis Antypas , Alun Preece , Jose Camacho-Collados

分类：自然语言处理 | 机器学习

2022-02-01

社交媒体在现代社会中尤其是在西方世界中的政策制定方面已经变得极其影响力（例如，48％的欧洲人每天或几乎每天都使用社交媒体）。 Twitter之类的平台使用户可以关注政客，从而使公民更多地参与政治讨论。同样，政客们使用Twitter来表达他们的观点，在当前主题上进行辩论，并促进其政治议程，以影响选民行为。先前的研究表明，传达负面情绪的推文可能会更频繁地转发。在本文中，我们试图分析来自不同国家的政客的推文，并探索他们的推文是否遵循相同的趋势。利用最先进的预训练的语言模型，我们对从希腊，西班牙和英国的成千上万的推文进行了情感分析，包括权威的行政部门。我们通过系统地探索和分析有影响力和不流行的推文之间的差异来实现这一目标。我们的分析表明，政治家的负面推文更广泛地传播，尤其是在最近的时代，并突出了情感和受欢迎程度相交的有趣趋势。

translated by 谷歌翻译

A spatiotemporal machine learning approach to forecasting COVID-19 incidence at the county level in the United States

Benjamin Lucas , Behzad Vahedi , Morteza Karimzadeh

分类： (统计)机器学习 | 机器学习

2021-09-24

随着Covid-19影响每个国家的全球和改变日常生活，预测疾病的传播的能力比任何先前的流行病更重要。常规的疾病 - 展开建模方法，隔间模型，基于对病毒的扩散的时空均匀性的假设，这可能导致预测到欠低，特别是在高空间分辨率下。本文采用替代技术 - 时空机器学习方法。我们提出了Covid-LSTM，一种基于长期短期内存深度学习架构的数据驱动模型，用于预测Covid-19在美国县级的发病率。我们使用每周数量的新阳性案例作为时间输入，以及来自Facebook运动和连通数据集的手工工程空间特征，以捕捉时间和空间的疾病的传播。 Covid-LSTM在我们的17周的评估期间优于Covid-19预测集线器集合模型（CovidHub-Ensemble），使其首先比一个或多个预测期更准确的模型。在4周的预测地平线上，我们的型号平均每县平均50例比CovidHub-Ensemble更准确。我们强调，在Covid-19之前，在Covid-19之前的数据驱动预测的未充分利用疾病传播的预测可能是由于以前疾病缺乏足够的数据，除了最近的时尚预测方法的机器学习方法的进步。我们讨论了更广泛的数据驱动预测的障碍，以及将来将使用更多的基于学习的模型。

translated by 谷歌翻译

Evaluating Impact of Social Media Posts by Executives on Stock Prices

Anubhav Sarkar , Swagata Chakraborty , Sohom Ghosh , Sudip Kumar Naskar

分类：自然语言处理

2022-11-01

Predicting stock market movements has always been of great interest to investors and an active area of research. Research has proven that popularity of products is highly influenced by what people talk about. Social media like Twitter, Reddit have become hotspots of such influences. This paper investigates the impact of social media posts on close price prediction of stocks using Twitter and Reddit posts. Our objective is to integrate sentiment of social media data with historical stock data and study its effect on closing prices using time series models. We carried out rigorous experiments and deep analysis using multiple deep learning based models on different datasets to study the influence of posts by executives and general people on the close price. Experimental results on multiple stocks (Apple and Tesla) and decentralised currencies (Bitcoin and Ethereum) consistently show improvements in prediction on including social media data and greater improvements on including executive posts.

translated by 谷歌翻译

A Python Library for Exploratory Data Analysis on Twitter Data based on Tokens and Aggregated Origin-Destination Information

Mario Graff , Daniela Moctezuma , Sabino Miranda-Jiménez , Eric S. Tellez

分类：自然语言处理

2020-09-03

Twitter也许是社交媒体更适合研究。它只需要几个步骤来获取信息，并且有很多库可以帮助这方面。尽管如此，知道特定事件是否在Twitter上表达是一个具有挑战性的任务，需要相当多的推文集合。该提案旨在促进研究员对自从2015年12月以来推出的Twitter采集的加工信息收集到Twitter上采矿活动的过程。事件可能与自然灾害，健康问题和人民的流动相关，等等可以与图书馆一起追求的研究。在这一贡献中提出了不同的应用程序，以说明图书馆的能力：对推文中发现的主题的探索性分析，这是西班牙语方言中的相似性研究以及不同国家的移动性报告。总之，呈现的Python库应用于不同的域，并在以阿拉伯语，英语，西班牙语和俄语的单词和双克单词的频率下检索一系列信息。以及与200多个国家或地区的地点之间的旅行数量有关的移动性信息。

translated by 谷歌翻译

Perspectives of Non-Expert Users on Cyber Security and Privacy: An Analysis of Online Discussions on Twitter

Nandita Pattnaik , Shujun Li , Jason R. C. Nurse

分类：机器学习

2022-06-05

Current research on users` perspectives of cyber security and privacy related to traditional and smart devices at home is very active, but the focus is often more on specific modern devices such as mobile and smart IoT devices in a home context. In addition, most were based on smaller-scale empirical studies such as online surveys and interviews. We endeavour to fill these research gaps by conducting a larger-scale study based on a real-world dataset of 413,985 tweets posted by non-expert users on Twitter in six months of three consecutive years (January and February in 2019, 2020 and 2021). Two machine learning-based classifiers were developed to identify the 413,985 tweets. We analysed this dataset to understand non-expert users` cyber security and privacy perspectives, including the yearly trend and the impact of the COVID-19 pandemic. We applied topic modelling, sentiment analysis and qualitative analysis of selected tweets in the dataset, leading to various interesting findings. For instance, we observed a 54% increase in non-expert users` tweets on cyber security and/or privacy related topics in 2021, compared to before the start of global COVID-19 lockdowns (January 2019 to February 2020). We also observed an increased level of help-seeking tweets during the COVID-19 pandemic. Our analysis revealed a diverse range of topics discussed by non-expert users across the three years, including VPNs, Wi-Fi, smartphones, laptops, smart home devices, financial security, and security and privacy issues involving different stakeholders. Overall negative sentiment was observed across almost all topics non-expert users discussed on Twitter in all the three years. Our results confirm the multi-faceted nature of non-expert users` perspectives on cyber security and privacy and call for more holistic, comprehensive and nuanced research on different facets of such perspectives.

translated by 谷歌翻译

Twitter Corpus of the #BlackLivesMatter Movement And Counter Protests: 2013 to 2021

Salvatore Giorgi , Sharath Chandra Guntuku , McKenzie Himelein-Wachowiak , Amy Kwarteng , Sy Hwang , Muhammad Rahman , Brenda Curtis

分类：自然语言处理

2020-09-01

黑人生活问题（BLM）是一项分散的社会运动，抗议对黑人个人和社区的暴力行为，重点是警察暴力。 2020年，艾哈迈德·阿贝里（Ahmaud Arbery），布雷纳·泰勒（Breonna Taylor）和乔治·弗洛伊德（George Floyd）的杀害后，该运动引起了人们的关注。#BlackLivesMatter社交媒体标签已经代表了基层运动，并以类似的标签来抗议BLM运动，例如#AllllivesMatter和#allllivesmatter和#allllivesmatter，以及#bluelivesmatter。我们介绍了来自100多个国家 /地区的1,300万用户的6390万推文的数据集，其中包含以下关键字之一：BlackLivesMatter，AlllivesMatter和BluelivesMatter。该数据集包含从2013年BLM运动开始到2021年的所有当前可用推文。我们总结了数据集并显示了使用BlackLivesMatter关键字和与反向运动相关的关键字的时间趋势。此外，对于每个关键字，我们创建并发布了一组潜在的Dirichlet分配（LDA）主题（即自动聚集了语义上共同共的单词的组），以帮助研究人员识别这三个关键字的语言模式。

translated by 谷歌翻译

Understanding COVID-19 Vaccine Reaction through Comparative Analysis on Twitter

Yuesheng Luo , Mayank Kejriwal

分类：自然语言处理

2021-11-10

虽然现在几个月有多个Covid-19疫苗，但疫苗犹豫不决在美国的高水平。部分内容也已成为政治化，特别是自11月总统选举以来。在包括Twitter的社交媒体背景下，在此期间理解疫苗犹豫不决，可以为计算社会科学家和决策者提供有价值的指导。本文通过相对研究两个不同的时间段（选举前的一个，另一个月之后的另一个月，另一个月）采用相对研究的两个Twitter数据集，而不是研究单一的Twitter语料库，而不是研究单个Twitter语料库。数据收集和过滤方法。我们的研究结果表明，从2020年到2021年秋天的政治到Covid-19疫苗的讨论中讨论了重大转变。通过使用基于集群和机器学习的方法与采样和定性分析，我们发现了几种细粒度疫苗犹豫不决的原因，其中一些随着时间的推移而变得更加（或更少）。我们的结果还强调了去年这个问题的强烈极化和政治化。

translated by 谷歌翻译

Dynamics of information flow and engaging power of narratives in the polarised debate on vaccines

Emanuele Brugnoli , Marco Delmastro

分类：机器学习

2022-07-25

在这项研究中，我们从新的全面角度处理了疫苗辩论的复杂性。为了关注意大利环境，我们研究了两个来源在2016 - 2021年期间产生的所有在线信息，这些信息符合误解的声誉，而没有声誉。尽管可靠的消息来源可以依靠更大的新闻编辑室，并涵盖更多的新闻，但对相应时间序列的转移熵分析表明，前者并不总是在疫苗主题上向后者占据主导地位。的确，流行前时期认为，即使是因果关系，错误的信息也使自己成为过程的领导者，并且比可靠来源的新闻更大程度地获得了用户参与。尽管在Covid-19爆发期间填补了这些信息差距，但可靠来源作为信息生态系统的驱动力的新发现的主要作用仅部分对减少用户对疫苗的错误信息的参与而产生了有益的效果。我们的结果确实表明，除了疫苗接种的有效性外，可靠的来源从未充分反对反vax的叙述，特别是在大大阶段的时期，因此有助于加剧科学否认和对阴谋论的信仰。然而，与此同时，他们确认了刻意提出令人信服的反叙事的错误信息传播的功效。确实，与其他两极分化的论点（例如安全问题，法律问题和疫苗业务）相比，疫苗接种的有效性是在大流行期间通过错误信息讨论的最不吸引人的话题。通过强调制度和主流交流的优势和劣势，我们的发现可能是改善和更好地针对疫苗错误信息的推动运动的宝贵资产。

translated by 谷歌翻译

AI Ethics on Blockchain: Topic Analysis on Twitter Data for Blockchain Security

Yihang Fu , Zesen Zhuang , Luyao Zhang

分类：人工智能 | 机器学习

2022-12-14

Blockchain has empowered computer systems to be more secure using a distributed network. However, the current blockchain design suffers from fairness issues in transaction ordering. Miners are able to reorder transactions to generate profits, the so-called miner extractable value (MEV). Existing research recognizes MEV as a severe security issue and proposes potential solutions, including prominent Flashbots. However, previous studies have mostly analyzed blockchain data, which might not capture the impacts of MEV in a much broader AI society. Thus, in this research, we applied natural language processing (NLP) methods to comprehensively analyze topics in tweets on MEV. We collected more than 20000 tweets with \#MEV and \#Flashbots hashtags and analyzed their topics. Our results show that the tweets discussed profound topics of ethical concern, including security, equity, emotional sentiments, and the desire for solutions to MEV. We also identify the co-movements of MEV activities on blockchain and social media platforms. Our study contributes to the literature at the interface of blockchain security, MEV solutions, and AI ethics.

translated by 谷歌翻译

AI-based Monitoring and Response System for Hospital Preparedness towards COVID-19 in Southeast Asia

Tushar Goswamy , Naishadh Parmar , Ayush Gupta , Raunak Shah , Vatsalya Tandon , Varun Goyal , Sanyog Gupta , Karishma Laud , Shivam Gupta , Sudhanshu Mishra

分类：自然语言处理 | 机器学习

2020-07-30

这篇研究论文提出了COVID-19监测和响应系统，以确定医院患者的数量激增以及关键设备（如东南亚国家的呼吸机），以了解医疗机构的负担。这可以通过资源计划措施来帮助这些地区的当局，以将资源重定向到模型确定的地区。由于缺乏有关医院患者涌入的公开可用数据，或者这些国家可能面临的设备，ICU单元或医院病床的短缺，我们利用Twitter数据来收集此信息。该方法为印度的各州提供了准确的结果，我们正在努力验证其余国家的模型，以便它可以作为当局监控医院负担的可靠工具。

translated by 谷歌翻译

How Much Hate with #china? A Preliminary Analysis on China-related Hateful Tweets Two Years After the Covid Pandemic Began

Jinghua Xu , Zarah Weiss

分类：自然语言处理

2022-11-11

Following the outbreak of a global pandemic, online content is filled with hate speech. Donald Trump's ''Chinese Virus'' tweet shifted the blame for the spread of the Covid-19 virus to China and the Chinese people, which triggered a new round of anti-China hate both online and offline. This research intends to examine China-related hate speech on Twitter during the two years following the burst of the pandemic (2020 and 2021). Through Twitter's API, in total 2,172,333 tweets hashtagged #china posted during the time were collected. By employing multiple state-of-the-art pretrained language models for hate speech detection, we identify a wide range of hate of various types, resulting in an automatically labeled anti-China hate speech dataset. We identify a hateful rate in #china tweets of 2.5% in 2020 and 1.9% in 2021. This is well above the average rate of online hate speech on Twitter at 0.6% identified in Gao et al., 2017. We further analyzed the longitudinal development of #china tweets and those identified as hateful in 2020 and 2021 through visualizing the daily number and hate rate over the two years. Our keyword analysis of hate speech in #china tweets reveals the most frequently mentioned terms in the hateful #china tweets, which can be used for further social science studies.

translated by 谷歌翻译