智能论文笔记

Vaccine Discourse on Twitter During the COVID-19 Pandemic

Gabriel Lindelöf , Talayeh Aledavood , Barbara Keller

分类：自然语言处理

2022-07-23

自Covid-19大流行病开始以来，疫苗一直是公共话语中的重要话题。疫苗周围的讨论被两极分化，因为有些人认为它们是结束大流行的重要措施，而另一些人则犹豫不决或发现它们有害。这项研究调查了与Twitter上的Covid-19疫苗有关的帖子，并着重于对疫苗有负姿态的帖子。收集了与COVID-19疫苗相关的16,713,238个英文推文的数据集，收集了涵盖从2020年3月1日至2021年7月31日的该期间。我们使用Scikit-Learn Python库来应用支持向量机（SVM）分类器针对Covid-19疫苗的推文具有负姿态。总共使用了5,163个推文来训练分类器，其中有2,484个推文由我们手动注释并公开提供。我们使用Berttopic模型来提取和调查负推文中讨论的主题以及它们如何随时间变化。我们表明，随着疫苗的推出，对COVID-19疫苗的负面影响随时间而下降。我们确定了37个讨论主题，并随着时间的推移介绍了各自的重要性。我们表明，流行的主题包括阴谋讨论，例如5G塔和微芯片，但还涉及涉及疫苗接种安全性和副作用以及对政策的担忧。我们的研究表明，即使是不受欢迎的观点或阴谋论，与广受欢迎的讨论主题（例如Covid-19疫苗）配对时，也会变得广泛。了解问题和讨论的主题以及它们如何随着时间的变化对于政策制定者和公共卫生当局提供更好和时间的信息和政策，以促进未来类似危机的人口接种。

translated by 谷歌翻译

Demystifying the COVID-19 vaccine discourse on Twitter

Zainab Zaidi , Mengbin Ye , Fergus John Samon , Abdisalam Jama , Binduja Gopalakrishnan , Chenhao Gu , Shanika Karunasekera , Jamie Evans , Yoshihisa Kashima

分类：自然语言处理

2022-08-29

对社交媒体上的COVID-19疫苗接种的公众讨论不仅对于解决当前的Covid-19-19大流行，而且对于未来的病原体爆发而言至关重要。我们检查了一个Twitter数据集，其中包含7500万英文推文，讨论2020年3月至2021年3月的Covid-19疫苗接种。我们使用自然语言处理（NLP）技术培训了一种立场检测算法，以将推文分为“反Vax”或“ pro-Vax”或“ Pro-Vax” '，并使用主题建模技术检查话语的主要主题。虽然Pro-Vax推文（3700万）远远超过反VAX推文（1000万），但两种姿态的大多数推文（63％的反VAX和53％的Pro-Vax推文）都来自双稳定的用户，他们都发布了两者在观察期间，亲和反VAX推文。 Pro-Vax推文主要集中在疫苗开发上，而反VAX推文则涵盖了广泛的主题，其中一些主题包括真正的问题，尽管存在很大的虚假性。尽管从相反的角度讨论了这两个立场，但两种立场都是常见的。模因和笑话是最转推消息之一。尽管对反vax话语的两极分化和在线流行的担忧是毫无根据的，但针对虚假的有针对性的反驳很重要。

translated by 谷歌翻译

HTML版本

Understanding COVID-19 Vaccine Reaction through Comparative Analysis on Twitter

Yuesheng Luo , Mayank Kejriwal

分类：自然语言处理

2021-11-10

虽然现在几个月有多个Covid-19疫苗，但疫苗犹豫不决在美国的高水平。部分内容也已成为政治化，特别是自11月总统选举以来。在包括Twitter的社交媒体背景下，在此期间理解疫苗犹豫不决，可以为计算社会科学家和决策者提供有价值的指导。本文通过相对研究两个不同的时间段（选举前的一个，另一个月之后的另一个月，另一个月）采用相对研究的两个Twitter数据集，而不是研究单一的Twitter语料库，而不是研究单个Twitter语料库。数据收集和过滤方法。我们的研究结果表明，从2020年到2021年秋天的政治到Covid-19疫苗的讨论中讨论了重大转变。通过使用基于集群和机器学习的方法与采样和定性分析，我们发现了几种细粒度疫苗犹豫不决的原因，其中一些随着时间的推移而变得更加（或更少）。我们的结果还强调了去年这个问题的强烈极化和政治化。

translated by 谷歌翻译

What Are You Anxious About? Examining Subjects of Anxiety during the COVID-19 Pandemic

Lucia L. Chen , Steven R. Wilson , Sophie Lohmann , Daniela V. Negraia

分类：自然语言处理

2022-09-27

Covid-19在大流行的不同阶段对公众构成了不成比例的心理健康后果。我们使用一种计算方法来捕获引发在线社区对大流行的焦虑的特定方面，并研究这些方面如何随时间变化。首先，我们使用主题分析在R/covid19 \ _support的Reddit帖子样本（$ n $ = 86）中确定了九个焦虑（SOA）。然后，我们通过在手动注释的样本（$ n $ = 793）上训练Reddit用户的焦虑来自动将SOA标记在较大的年代样本中（$ n $ = 6,535）。 9个SOA与最近开发的大流行焦虑测量量表中的项目保持一致。我们观察到，在大流行的前八个月，Reddit用户对健康风险的担忧仍然很高。尽管案件激增稍后发生，但这些担忧却大大减少了。通常，随着大流行的进展，用户的语言披露了SOA的强烈强度。但是，在本研究涵盖的整个期间，人们对心理健康的担忧和未来稳步增长。人们还倾向于使用更强烈的语言来描述心理健康问题，而不是健康风险或死亡问题。我们的结果表明，尽管Covid-19逐渐削弱，但由于适当的对策而逐渐削弱了作为健康威胁，但该在线小组的心理健康状况并不一定会改善。我们的系统为人口健康和流行病学学者奠定了基础，以及时检查引起大流行焦虑的方面。

translated by 谷歌翻译

What are People Talking about in #BlackLivesMatter and #StopAsianHate? Exploring and Categorizing Twitter Topics Emerging in Online Social Movements through the Latent Dirichlet Allocation Model

Xin Tong , Yixuan Li , Jiayi Li , Rongqi Bei , Luyao Zhang

分类：自然语言处理 | 机器学习

2022-05-29

少数群体一直在使用社交媒体来组织社会运动，从而产生深远的社会影响。黑人生活问题（BLM）和停止亚洲仇恨（SAH）是两个成功的社会运动，在Twitter上蔓延开来，促进了抗议活动和活动，反对种族主义，并提高公众对少数群体面临的其他社会挑战的认识。但是，以前的研究主要对与用户的推文或访谈进行了定性分析，这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格，量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此，在这项研究中，我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了（1）潜在的DIRICHLET分配模型，以了解顶级高级单词和主题以及（2）开放编码分析，以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文，并比较了它们的主题。我们的发现表明，这些推文在深度上讨论了各种有影响力的话题，社会正义，社会运动和情感情感都是两种运动的共同主题，尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析，以及有关AI，伦理和社会相互作用的文献。

translated by 谷歌翻译

Perspectives of Non-Expert Users on Cyber Security and Privacy: An Analysis of Online Discussions on Twitter

Nandita Pattnaik , Shujun Li , Jason R. C. Nurse

分类：机器学习

2022-06-05

Current research on users` perspectives of cyber security and privacy related to traditional and smart devices at home is very active, but the focus is often more on specific modern devices such as mobile and smart IoT devices in a home context. In addition, most were based on smaller-scale empirical studies such as online surveys and interviews. We endeavour to fill these research gaps by conducting a larger-scale study based on a real-world dataset of 413,985 tweets posted by non-expert users on Twitter in six months of three consecutive years (January and February in 2019, 2020 and 2021). Two machine learning-based classifiers were developed to identify the 413,985 tweets. We analysed this dataset to understand non-expert users` cyber security and privacy perspectives, including the yearly trend and the impact of the COVID-19 pandemic. We applied topic modelling, sentiment analysis and qualitative analysis of selected tweets in the dataset, leading to various interesting findings. For instance, we observed a 54% increase in non-expert users` tweets on cyber security and/or privacy related topics in 2021, compared to before the start of global COVID-19 lockdowns (January 2019 to February 2020). We also observed an increased level of help-seeking tweets during the COVID-19 pandemic. Our analysis revealed a diverse range of topics discussed by non-expert users across the three years, including VPNs, Wi-Fi, smartphones, laptops, smart home devices, financial security, and security and privacy issues involving different stakeholders. Overall negative sentiment was observed across almost all topics non-expert users discussed on Twitter in all the three years. Our results confirm the multi-faceted nature of non-expert users` perspectives on cyber security and privacy and call for more holistic, comprehensive and nuanced research on different facets of such perspectives.

translated by 谷歌翻译

How Much Hate with #china? A Preliminary Analysis on China-related Hateful Tweets Two Years After the Covid Pandemic Began

Jinghua Xu , Zarah Weiss

分类：自然语言处理

2022-11-11

Following the outbreak of a global pandemic, online content is filled with hate speech. Donald Trump's ''Chinese Virus'' tweet shifted the blame for the spread of the Covid-19 virus to China and the Chinese people, which triggered a new round of anti-China hate both online and offline. This research intends to examine China-related hate speech on Twitter during the two years following the burst of the pandemic (2020 and 2021). Through Twitter's API, in total 2,172,333 tweets hashtagged #china posted during the time were collected. By employing multiple state-of-the-art pretrained language models for hate speech detection, we identify a wide range of hate of various types, resulting in an automatically labeled anti-China hate speech dataset. We identify a hateful rate in #china tweets of 2.5% in 2020 and 1.9% in 2021. This is well above the average rate of online hate speech on Twitter at 0.6% identified in Gao et al., 2017. We further analyzed the longitudinal development of #china tweets and those identified as hateful in 2020 and 2021 through visualizing the daily number and hate rate over the two years. Our keyword analysis of hate speech in #china tweets reveals the most frequently mentioned terms in the hateful #china tweets, which can be used for further social science studies.

translated by 谷歌翻译

Two-Stage Classifier for COVID-19 Misinformation Detection Using BERT: a Study on Indonesian Tweets

Douglas Raevan Faisal , Rahmad Mahendra

分类：自然语言处理

2022-06-30

自2020年初以来，Covid-19-19造成了全球重大影响。这给社会带来了很多困惑，尤其是由于错误信息通过社交媒体传播。尽管已经有几项与在社交媒体数据中发现错误信息有关的研究，但大多数研究都集中在英语数据集上。印度尼西亚的COVID-19错误信息检测的研究仍然很少。因此，通过这项研究，我们收集和注释印尼语的数据集，并通过考虑该推文的相关性来构建用于检测COVID-19错误信息的预测模型。数据集构造是由一组注释者进行的，他们标记了推文数据的相关性和错误信息。在这项研究中，我们使用印度培训预培训的语言模型提出了两阶段分类器模型，以进行推文错误信息检测任务。我们还尝试了其他几种基线模型进行文本分类。实验结果表明，对于相关性预测，BERT序列分类器的组合和用于错误信息检测的BI-LSTM的组合优于其他机器学习模型，精度为87.02％。总体而言，BERT利用率有助于大多数预测模型的更高性能。我们发布了高质量的Covid-19错误信息推文语料库，用高通道一致性表示。

translated by 谷歌翻译

Detecting Potentially Harmful and Protective Suicide-related Content on Twitter: A Machine Learning Approach

Hannah Metzler , Hubert Baginski , Thomas Niederkrotenthaler , David Garcia

分类：自然语言处理 | 机器学习

2021-12-09

研究表明，与自杀相关的新闻媒体内容的暴露与自杀率相关，具有一些内容特征可能具有有害和其他可能的保护作用。虽然有一些选定的特征存在良好的证据，但是一般缺少系统的大规模调查，特别是社交媒体数据。我们应用机器学习方法以自动标记大量的Twitter数据。我们开发了一种新的注释计划，将与自杀相关的推文分类为不同的消息类型和问题，以解决方案为中心的视角。然后，我们培训了包括多数分类器的机器学习模型的基准，这是一种基于词频率的方法（具有线性SVM的TF-IDF）和两个最先进的深层学习模型（BERT，XLNET）。这两个深入学习模型在两个分类任务中实现了最佳性能：首先，我们分类了六个主要内容类别，包括个人故事，包括自杀意图和尝试或应对，呼吁采取措施传播问题意识或预防相关信息，自杀病例的报告以及其他与自杀相关和偏离主题推文的报告。深度学习模型平均达到73％以上的准确度，遍布六个类别，F1分数为69％和85％，除了自杀意念和尝试类别（55％）。其次，在分离帖子中，在偏离主题推文中指的是实际自杀题，他们正确标记了大约88％的推文，双方达到了F1分数为93％和74％。这些分类性能与类似任务的最先进的性能相当。通过使数据标签更有效，这项工作能够对各种社交媒体内容的有害和保护作用进行自杀率和寻求帮助行为的有害和保护作用。

translated by 谷歌翻译

Twitter Topic Classification

Dimosthenis Antypas , Asahi Ushio , Jose Camacho-Collados , Leonardo Neves , Vítor Silva , Francesco Barbieri

分类：自然语言处理

2022-09-20

社交媒体平台主持了有关每天出现的各种主题的讨论。理解所有内容并将其组织成类别是一项艰巨的任务。处理此问题的一种常见方法是依靠主题建模，但是使用此技术发现的主题很难解释，并且从语料库到语料库可能会有所不同。在本文中，我们提出了基于推文主题分类的新任务，并发布两个相关的数据集。鉴于涵盖社交媒体中最重要的讨论点的广泛主题，我们提供了最近时间段的培训和测试数据，可用于评估推文分类模型。此外，我们在任务上对当前的通用和领域特定语言模型进行定量评估和分析，这为任务的挑战和性质提供了更多见解。

translated by 谷歌翻译

Multi-dimensional Racism Classification during COVID-19: Stigmatization, Offensiveness, Blame, and Exclusion

Xin Pei , Deval Mehta

分类：人工智能

2022-08-29

超越种族主义文本的二元分类，我们的研究从社会科学理论中获取线索，以开发一种用于种族主义检测的多维模型，即污名化，进攻性，责备和排斥。在BERT和主题建模的帮助下，这种分类检测可以洞悉Covid-19期间数字平台上种族主义讨论的基本细节。我们的研究有助于丰富有关社交媒体上种族主义行为的学术讨论。首先，采用阶段分析来捕捉在Covid-19的早期阶段的主题变化的动态，该阶段从国内流行病转变为国际公共卫生紧急情况，后来转变为全球大流行。此外，映射这一趋势可以更准确地预测有关离线世界中种族主义的公众舆论发展，同时，制定了规定的干预策略，以打击像Covid-19这样的全球公共卫生危机期间的种族主义兴起。此外，这项跨学科研究还指出了关于社交网络分析和采矿的未来研究的方向。将社会科学观点整合到计算方法的发展中，为更准确的数据检测和分析提供了见解。

translated by 谷歌翻译

Detecing Anti-Vaccine Users on Twitter

Matheus Schmitz , Goran Murić , Keith Burghardt

分类：自然语言处理

2021-10-21

最近受到在线叙述驱动的疫苗犹豫会大大降低了疫苗接种策略的功效，例如Covid-19。尽管医学界对可用疫苗的安全性和有效性达成了广泛的共识，但许多社交媒体使用者仍被有关疫苗的虚假信息淹没，并且柔和或不愿意接种疫苗。这项研究的目的是通过开发能够自动识别负责传播反疫苗叙事的用户的系统来更好地理解反疫苗情绪。我们引入了一个公开可用的Python软件包，能够分析Twitter配置文件，以评估该个人资料将来分享反疫苗情绪的可能性。该软件包是使用文本嵌入方法，神经网络和自动数据集生成的，并接受了数百万条推文培训。我们发现，该模型可以准确地检测出抗疫苗用户，直到他们推文抗Vaccine主题标签或关键字。我们还展示了文本分析如何通过检测Twitter和常规用户之间的抗疫苗传播器之间的道德和情感差异来帮助我们理解反疫苗讨论的示例。我们的结果将帮助研究人员和政策制定者了解用户如何成为反疫苗感以及他们在Twitter上讨论的内容。政策制定者可以利用此信息进行更好的针对性的运动，以揭露有害的反疫苗接种神话。

translated by 谷歌翻译

2020 U.S. presidential election in swing states: Gender differences in Twitter conversations

Amir Karami , Spring B. Clark , Anderson Mackenzie , Dorathea Lee , Michael Zhu , Hannah R. Boyajieff , Bailey Goldschmidt

分类：自然语言处理

2021-08-21

社交媒体通常在选举活动中被公众使用，以表达他们对不同问题的看法。在各种社交媒体渠道中，Twitter为研究人员和政客提供了一个有效的平台，以探索有关经济和外交政策等广泛主题的公众舆论。当前的文献主要集中于分析推文的内容而无需考虑用户的性别。这项研究收集和分析了大量推文，并使用计算，人类编码和统计分析来识别2020年美国总统选举期间发布的300,000多个推文中的主题。我们的发现是基于广泛的主题，例如税收，气候变化和Covid-19-19。在主题中，女性和男性用户之间存在着显着差异，超过70％的主题。

translated by 谷歌翻译

Using Twitter Data to Understand Public Perceptions of Approved versus Off-label Use for COVID-19-related Medications

Yining Hua , Hang Jiang , Shixu Lin , Jie Yang , Joseph M. Plasek , David W. Bates , Li Zhou

分类：自然语言处理 | 机器学习

2022-06-29

了解公众关于紧急使用未经证实的治疗剂的论述对于监视安全使用和打击错误信息至关重要。我们开发了一种基于自然语言处理（NLP）的管道，以了解公众对COVID-19与19与COVID相关药物的立场的看法。这项回顾性研究包括2020年1月29日，2020年至2021年11月30日之间的609,189个基于美国的推文，涉及四种药物，这些药物在19日期期间在流行期间引起了广泛关注：1）羟基氯喹和伊维菌素，毒品疗法，具有轶事证据； 2）Molnupiravir和Remdesivir，适合合格患者的FDA批准的治疗选择。时间趋势分析用于了解受欢迎程度和相关事件。进行了内容和人口统计分析，以探讨人们对每种药物的立场的潜在理由。时间趋势分析表明，羟氯喹和伊维菌素的讨论比Molnupiravir和Remdesivir更多，尤其是在Covid-19-19潮中期。羟氯喹和伊维菌素高度政治化，与阴谋论，传闻，名人效应等有关。美国两个主要政党之间立场的分布大不相同（p <0.001）；共和党人比民主党人更有可能支持羟氯喹（+55％）和伊维菌素（+30％）。具有医疗保健背景的人倾向于比普通人群多反对羟氯喹（+7％）。相比之下，普通人群更有可能支持伊维菌素（+14％）。我们在https://github.com/ningkko/covid-drug上提供所有数据，代码和模型。

translated by 谷歌翻译

Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media during the COVID-19 Crisis

Bing He , Caleb Ziems , Sandeep Soni , Naren Ramakrishnan , Diyi Yang , Srijan Kumar

分类：自然语言处理

2020-05-25

Covid-19的传播引发了针对亚洲社区的社交媒体的种族主义和仇恨。然而，关于种族仇恨在大流行期间的差异和柜台垂直在减轻这种蔓延的角色时，很少见过。在这项工作中，我们研究了通过推特镜头的反亚洲仇恨演讲的演变和传播。我们创建了Covid-讨厌，这是一个跨越14个月的反亚洲仇恨和柜台的最大数据集，含有超过2.06亿推文，以及超过1.27亿节节点的社交网络。通过创建一个新的手工标记数据集，3,355推文，我们培训文本分类器以识别仇恨和柜台jeech推文，以实现0.832的平均宏F1得分。使用此数据集，我们对推文和用户进行纵向分析。社交网络的分析揭示了可恨和柜台的用户互相互动，彼此广泛地互动，而不是生活在孤立的极化社区中。我们发现在暴露于仇恨内容后，节点很可能变得仇恨。值得注意的是，柜台椎间目可能会阻止用户转向仇恨，可能暗示在Web和社交媒体平台上遏制讨厌的解决方案。数据和代码是在http://claws.cc.gatech.edu/covid。

translated by 谷歌翻译

"Double vaccinated, 5G boosted!": Learning Attitudes towards COVID-19 Vaccination from Social Media

Ninghan Chen , Xihui Chen , Zhiqiang Zhong , Jun Pang

分类：机器学习

2022-06-27

为了解决疫苗犹豫不决，这会损害COVID-19疫苗接种运动的努力，必须了解公共疫苗接种态度并及时掌握其变化。尽管具有可靠性和可信赖性，但基于调查的传统态度收集是耗时且昂贵的，无法遵循疫苗接种态度的快速发展。我们利用社交媒体上的文本帖子通过提出深入学习框架来实时提取和跟踪用户的疫苗接种立场。为了解决与疫苗相关话语中常用的讽刺和讽刺性的语言特征的影响，我们将用户社交网络邻居的最新帖子集成到框架中，以帮助检测用户的真实态度。根据我们从Twitter的注释数据集，与最新的仅文本模型相比，从我们框架实例化的模型可以提高态度提取的性能高达23％。使用此框架，我们成功地验证了使用社交媒体跟踪现实生活中疫苗接种态度的演变的可行性。我们进一步显示了对我们的框架的一种实际用途，它可以通过从社交媒体中感知到的信息来预测用户疫苗犹豫的变化的可能性。

translated by 谷歌翻译

COVID-19 Twitter Dataset with Latent Topics, Sentiments and Emotions Attributes

Raj Kumar Gupta , Ajay Vishwanath , Yinping Yang

分类：自然语言处理

2020-07-14

本文描述了一个关于人们的话语的大型全球数据集以及在Twitter平台上对Covid-19的大流行的反应。从2020年1月28日至2022年6月1日，我们收集并处理了超过2900万个唯一用户的Twitter帖子，使用了四个关键字：“ Corona”，“ Wuhan”，“ NCOV”和“ COVID”。利用概率主题建模和预训练的基于机器学习的情感识别算法，我们将每个推文标记为具有十七个属性，包括a）十个二进制属性，指示了Tweet的相关性（1）或与前十名检测到的主题，B ）五个定量情绪属性表示价或情感的强度程度（从0：极为消极到1：极为积极）以及恐惧，愤怒，悲伤和幸福情感的强度程度（从0：完全不是1到1 ：极度强烈），c）两个分类属性表明情绪（非常负面，消极，中立或混合，积极，非常积极）以及主导的情感（恐惧，愤怒，悲伤，幸福，没有特定的情感），主要是推文表达。我们讨论技术有效性，并报告这些属性的描述性统计，其时间分布和地理表示。本文最后讨论了数据集在传播，心理学，公共卫生，经济学和流行病学中的用法。

translated by 谷歌翻译

Politics, Sentiment and Virality: A Large-Scale Multilingual Twitter Analysis in Greece, Spain and United Kingdom

Dimosthenis Antypas , Alun Preece , Jose Camacho-Collados

分类：自然语言处理 | 机器学习

2022-02-01

社交媒体在现代社会中尤其是在西方世界中的政策制定方面已经变得极其影响力（例如，48％的欧洲人每天或几乎每天都使用社交媒体）。 Twitter之类的平台使用户可以关注政客，从而使公民更多地参与政治讨论。同样，政客们使用Twitter来表达他们的观点，在当前主题上进行辩论，并促进其政治议程，以影响选民行为。先前的研究表明，传达负面情绪的推文可能会更频繁地转发。在本文中，我们试图分析来自不同国家的政客的推文，并探索他们的推文是否遵循相同的趋势。利用最先进的预训练的语言模型，我们对从希腊，西班牙和英国的成千上万的推文进行了情感分析，包括权威的行政部门。我们通过系统地探索和分析有影响力和不流行的推文之间的差异来实现这一目标。我们的分析表明，政治家的负面推文更广泛地传播，尤其是在最近的时代，并突出了情感和受欢迎程度相交的有趣趋势。

translated by 谷歌翻译

CAVES: A Dataset to facilitate Explainable Classification and Summarization of Concerns towards COVID Vaccines

Soham Poddar , Azlaan Mustafa Samad , Rajdeep Mukherjee , Niloy Ganguly , Saptarshi Ghosh

分类：自然语言处理 | 机器学习

2022-04-28

Convincing people to get vaccinated against COVID-19 is a key societal challenge in the present times. As a first step towards this goal, many prior works have relied on social media analysis to understand the specific concerns that people have towards these vaccines, such as potential side-effects, ineffectiveness, political factors, and so on. Though there are datasets that broadly classify social media posts into Anti-vax and Pro-Vax labels, there is no dataset (to our knowledge) that labels social media posts according to the specific anti-vaccine concerns mentioned in the posts. In this paper, we have curated CAVES, the first large-scale dataset containing about 10k COVID-19 anti-vaccine tweets labelled into various specific anti-vaccine concerns in a multi-label setting. This is also the first multi-label classification dataset that provides explanations for each of the labels. Additionally, the dataset also provides class-wise summaries of all the tweets. We also perform preliminary experiments on the dataset and show that this is a very challenging dataset for multi-label explainable classification and tweet summarization, as is evident by the moderate scores achieved by some state-of-the-art models. Our dataset and codes are available at: https://github.com/sohampoddar26/caves-data

translated by 谷歌翻译

Classifying COVID-19 vaccine narratives

Yue Li , Carolina Scarton , Xingyi Song , Kalina Bontcheva

分类：自然语言处理

2022-07-18

尽管政府的信息运动和谁努力，但Covid-19疫苗犹豫不决是广泛的。其背后的原因之一是疫苗虚假信息在社交媒体中广泛传播。特别是，最近的调查确定，疫苗的虚假信息正在影响COVID-19-19疫苗接种的负面信任。同时，由于大规模的社交媒体，事实检查者正在努力检测和跟踪疫苗虚假信息。为了帮助事实检查员在线监视疫苗叙事，本文研究了一项新的疫苗叙事分类任务，该任务将Covid-19疫苗主张的疫苗索赔分为七个类别之一。遵循数据增强方法，我们首先为这项新的分类任务构建了一个新颖的数据集，重点是少数群体。我们还利用事实检查器注释的数据。该论文还提出了神经疫苗叙事分类器，在交叉验证下达到84％的精度。分类器可公开用于研究人员和记者。

translated by 谷歌翻译