智能论文笔记

Perspectives of Non-Expert Users on Cyber Security and Privacy: An Analysis of Online Discussions on Twitter

Nandita Pattnaik , Shujun Li , Jason R. C. Nurse

分类：机器学习

2022-06-05

Current research on users` perspectives of cyber security and privacy related to traditional and smart devices at home is very active, but the focus is often more on specific modern devices such as mobile and smart IoT devices in a home context. In addition, most were based on smaller-scale empirical studies such as online surveys and interviews. We endeavour to fill these research gaps by conducting a larger-scale study based on a real-world dataset of 413,985 tweets posted by non-expert users on Twitter in six months of three consecutive years (January and February in 2019, 2020 and 2021). Two machine learning-based classifiers were developed to identify the 413,985 tweets. We analysed this dataset to understand non-expert users` cyber security and privacy perspectives, including the yearly trend and the impact of the COVID-19 pandemic. We applied topic modelling, sentiment analysis and qualitative analysis of selected tweets in the dataset, leading to various interesting findings. For instance, we observed a 54% increase in non-expert users` tweets on cyber security and/or privacy related topics in 2021, compared to before the start of global COVID-19 lockdowns (January 2019 to February 2020). We also observed an increased level of help-seeking tweets during the COVID-19 pandemic. Our analysis revealed a diverse range of topics discussed by non-expert users across the three years, including VPNs, Wi-Fi, smartphones, laptops, smart home devices, financial security, and security and privacy issues involving different stakeholders. Overall negative sentiment was observed across almost all topics non-expert users discussed on Twitter in all the three years. Our results confirm the multi-faceted nature of non-expert users` perspectives on cyber security and privacy and call for more holistic, comprehensive and nuanced research on different facets of such perspectives.

translated by 谷歌翻译

An Empirical Study of IoT Security Aspects at Sentence-Level in Developer Textual Discussions

Nibir Chandra Mandal , Gias Uddin

分类：机器学习

2022-06-07

物联网是一个快速新兴的范式，现在几乎涵盖了我们现代生活的各个方面。因此，确保物联网设备的安全至关重要。物联网设备与传统计算可能有所不同，从而在物联网设备中设计和实施适当的安全措施可能具有挑战性。我们观察到，物联网开发人员在堆栈溢出（SO）等开发人员论坛中讨论了与安全相关的挑战。但是，我们发现，在SO中，物联网安全讨论也可以埋葬在非安全性讨论中。在本文中，我们旨在了解物联网开发人员在将安全实践和技术应用于IoT设备时面临的挑战。我们有两个目标：（1）开发一个模型，该模型可以自动在SO中找到与安全有关的物联网讨论，并且（2）研究模型输出以了解与IoT开发人员安全相关的挑战。首先，我们从中下载了53k帖子，因此包含有关物联网的讨论。其次，我们手动将53K帖子的5,919个句子标记为1或0。第三，我们使用此基准测试来研究一套深度学习变压器模型。最佳性能模型称为SECBOT。第四，我们将SECBOT应用于整个帖子，并找到大约30K安全性的句子。第五，我们将主题建模应用于与安全有关的句子。然后，我们标记并分类主题。第六，我们分析了主题的演变。我们发现（1）SECBOT是基于深度学习模型Roberta的重建。 SECBOT提供的最佳F1分数为0.935，（2）SECBOT错误分类的样本中有六个错误类别。当关键字/上下文是模棱两可的（例如，网关可以是安全网关或简单网关）时，SECBOT主要是错误的，（3）有9个安全主题分为三个类别：软件，硬件和网络，以及（4）最多的主题属于软件安全性，然后是网络安全。

translated by 谷歌翻译

Vaccine Discourse on Twitter During the COVID-19 Pandemic

Gabriel Lindelöf , Talayeh Aledavood , Barbara Keller

分类：自然语言处理

2022-07-23

自Covid-19大流行病开始以来，疫苗一直是公共话语中的重要话题。疫苗周围的讨论被两极分化，因为有些人认为它们是结束大流行的重要措施，而另一些人则犹豫不决或发现它们有害。这项研究调查了与Twitter上的Covid-19疫苗有关的帖子，并着重于对疫苗有负姿态的帖子。收集了与COVID-19疫苗相关的16,713,238个英文推文的数据集，收集了涵盖从2020年3月1日至2021年7月31日的该期间。我们使用Scikit-Learn Python库来应用支持向量机（SVM）分类器针对Covid-19疫苗的推文具有负姿态。总共使用了5,163个推文来训练分类器，其中有2,484个推文由我们手动注释并公开提供。我们使用Berttopic模型来提取和调查负推文中讨论的主题以及它们如何随时间变化。我们表明，随着疫苗的推出，对COVID-19疫苗的负面影响随时间而下降。我们确定了37个讨论主题，并随着时间的推移介绍了各自的重要性。我们表明，流行的主题包括阴谋讨论，例如5G塔和微芯片，但还涉及涉及疫苗接种安全性和副作用以及对政策的担忧。我们的研究表明，即使是不受欢迎的观点或阴谋论，与广受欢迎的讨论主题（例如Covid-19疫苗）配对时，也会变得广泛。了解问题和讨论的主题以及它们如何随着时间的变化对于政策制定者和公共卫生当局提供更好和时间的信息和政策，以促进未来类似危机的人口接种。

translated by 谷歌翻译

What are People Talking about in #BlackLivesMatter and #StopAsianHate? Exploring and Categorizing Twitter Topics Emerging in Online Social Movements through the Latent Dirichlet Allocation Model

Xin Tong , Yixuan Li , Jiayi Li , Rongqi Bei , Luyao Zhang

分类：自然语言处理 | 机器学习

2022-05-29

少数群体一直在使用社交媒体来组织社会运动，从而产生深远的社会影响。黑人生活问题（BLM）和停止亚洲仇恨（SAH）是两个成功的社会运动，在Twitter上蔓延开来，促进了抗议活动和活动，反对种族主义，并提高公众对少数群体面临的其他社会挑战的认识。但是，以前的研究主要对与用户的推文或访谈进行了定性分析，这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格，量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此，在这项研究中，我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了（1）潜在的DIRICHLET分配模型，以了解顶级高级单词和主题以及（2）开放编码分析，以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文，并比较了它们的主题。我们的发现表明，这些推文在深度上讨论了各种有影响力的话题，社会正义，社会运动和情感情感都是两种运动的共同主题，尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析，以及有关AI，伦理和社会相互作用的文献。

translated by 谷歌翻译

"I think this is the most disruptive technology": Exploring Sentiments of ChatGPT Early Adopters using Twitter Data

Mubin Ul Haque , Isuru Dharmadasa , Zarrin Tasnim Sworna , Roshan Namal Rajapakse , Hussain Ahmad

分类：自然语言处理

2022-12-12

Large language models have recently attracted significant attention due to their impressive performance on a variety of tasks. ChatGPT developed by OpenAI is one such implementation of a large, pre-trained language model that has gained immense popularity among early adopters, where certain users go to the extent of characterizing it as a disruptive technology in many domains. Understanding such early adopters' sentiments is important because it can provide insights into the potential success or failure of the technology, as well as its strengths and weaknesses. In this paper, we conduct a mixed-method study using 10,732 tweets from early ChatGPT users. We first use topic modelling to identify the main topics and then perform an in-depth qualitative sentiment analysis of each topic. Our results show that the majority of the early adopters have expressed overwhelmingly positive sentiments related to topics such as Disruptions to software development, Entertainment and exercising creativity. Only a limited percentage of users expressed concerns about issues such as the potential for misuse of ChatGPT, especially regarding topics such as Impact on educational aspects. We discuss these findings by providing specific examples for each topic and then detail implications related to addressing these concerns for both researchers and users.

translated by 谷歌翻译

What Are You Anxious About? Examining Subjects of Anxiety during the COVID-19 Pandemic

Lucia L. Chen , Steven R. Wilson , Sophie Lohmann , Daniela V. Negraia

分类：自然语言处理

2022-09-27

Covid-19在大流行的不同阶段对公众构成了不成比例的心理健康后果。我们使用一种计算方法来捕获引发在线社区对大流行的焦虑的特定方面，并研究这些方面如何随时间变化。首先，我们使用主题分析在R/covid19 \ _support的Reddit帖子样本（$ n $ = 86）中确定了九个焦虑（SOA）。然后，我们通过在手动注释的样本（$ n $ = 793）上训练Reddit用户的焦虑来自动将SOA标记在较大的年代样本中（$ n $ = 6,535）。 9个SOA与最近开发的大流行焦虑测量量表中的项目保持一致。我们观察到，在大流行的前八个月，Reddit用户对健康风险的担忧仍然很高。尽管案件激增稍后发生，但这些担忧却大大减少了。通常，随着大流行的进展，用户的语言披露了SOA的强烈强度。但是，在本研究涵盖的整个期间，人们对心理健康的担忧和未来稳步增长。人们还倾向于使用更强烈的语言来描述心理健康问题，而不是健康风险或死亡问题。我们的结果表明，尽管Covid-19逐渐削弱，但由于适当的对策而逐渐削弱了作为健康威胁，但该在线小组的心理健康状况并不一定会改善。我们的系统为人口健康和流行病学学者奠定了基础，以及时检查引起大流行焦虑的方面。

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Understanding COVID-19 Vaccine Reaction through Comparative Analysis on Twitter

Yuesheng Luo , Mayank Kejriwal

分类：自然语言处理

2021-11-10

虽然现在几个月有多个Covid-19疫苗，但疫苗犹豫不决在美国的高水平。部分内容也已成为政治化，特别是自11月总统选举以来。在包括Twitter的社交媒体背景下，在此期间理解疫苗犹豫不决，可以为计算社会科学家和决策者提供有价值的指导。本文通过相对研究两个不同的时间段（选举前的一个，另一个月之后的另一个月，另一个月）采用相对研究的两个Twitter数据集，而不是研究单一的Twitter语料库，而不是研究单个Twitter语料库。数据收集和过滤方法。我们的研究结果表明，从2020年到2021年秋天的政治到Covid-19疫苗的讨论中讨论了重大转变。通过使用基于集群和机器学习的方法与采样和定性分析，我们发现了几种细粒度疫苗犹豫不决的原因，其中一些随着时间的推移而变得更加（或更少）。我们的结果还强调了去年这个问题的强烈极化和政治化。

translated by 谷歌翻译

Detecting Potentially Harmful and Protective Suicide-related Content on Twitter: A Machine Learning Approach

Hannah Metzler , Hubert Baginski , Thomas Niederkrotenthaler , David Garcia

分类：自然语言处理 | 机器学习

2021-12-09

研究表明，与自杀相关的新闻媒体内容的暴露与自杀率相关，具有一些内容特征可能具有有害和其他可能的保护作用。虽然有一些选定的特征存在良好的证据，但是一般缺少系统的大规模调查，特别是社交媒体数据。我们应用机器学习方法以自动标记大量的Twitter数据。我们开发了一种新的注释计划，将与自杀相关的推文分类为不同的消息类型和问题，以解决方案为中心的视角。然后，我们培训了包括多数分类器的机器学习模型的基准，这是一种基于词频率的方法（具有线性SVM的TF-IDF）和两个最先进的深层学习模型（BERT，XLNET）。这两个深入学习模型在两个分类任务中实现了最佳性能：首先，我们分类了六个主要内容类别，包括个人故事，包括自杀意图和尝试或应对，呼吁采取措施传播问题意识或预防相关信息，自杀病例的报告以及其他与自杀相关和偏离主题推文的报告。深度学习模型平均达到73％以上的准确度，遍布六个类别，F1分数为69％和85％，除了自杀意念和尝试类别（55％）。其次，在分离帖子中，在偏离主题推文中指的是实际自杀题，他们正确标记了大约88％的推文，双方达到了F1分数为93％和74％。这些分类性能与类似任务的最先进的性能相当。通过使数据标签更有效，这项工作能够对各种社交媒体内容的有害和保护作用进行自杀率和寻求帮助行为的有害和保护作用。

translated by 谷歌翻译

Taking a Language Detour: How International Migrants Speaking a Minority Language Seek COVID-Related Information in Their Host Countries

Ge Gao , Jian Zheng , Eun Kyoung Choe , Naomi Yamashita

分类：自然语言处理

2022-09-07

在公共危机时期，寻求信息对于人们的自我保健和福祉至关重要。广泛的研究调查了经验理解和技术解决方案，以促进受影响地区的家庭公民寻求信息。但是，建立有限的知识是为了支持需要在其东道国发生危机的国际移民。当前的论文对居住在日本和美国（n = 14）的两名中国移民（n = 14）进行了访谈研究。参与者反思了他们在共同大流行期间寻求经验的信息。反思补充了两周的自我追踪，参与者保持了相关信息寻求实践的记录。我们的数据表明，参与者经常绕开语言绕道，或访问普通话资源以获取有关其东道国疫情爆发的信息。他们还进行了战略性利用普通话信息，以进行选择性阅读，交叉检查以及对日语或英语的共同信息的上下文化解释。尽管这种做法增强了参与者对共同相关信息收集和感官的有效性，但他们有时会通过有时认识的方式使人们处于不利地位。此外，参与者缺乏对审查以移民为导向的信息的认识或偏爱，尽管该信息可用，这些信息是由东道国公共当局发布的。在这些发现的基础上，我们讨论了改善国际移民在非本地语言和文化环境中寻求共同相关信息的解决方案。我们主张包容性危机基础设施，这些基础设施将吸引以当地语言流利程度，信息素养和利用公共服务的经验的不同水平的人们。

translated by 谷歌翻译

Two-Stage Classifier for COVID-19 Misinformation Detection Using BERT: a Study on Indonesian Tweets

Douglas Raevan Faisal , Rahmad Mahendra

分类：自然语言处理

2022-06-30

自2020年初以来，Covid-19-19造成了全球重大影响。这给社会带来了很多困惑，尤其是由于错误信息通过社交媒体传播。尽管已经有几项与在社交媒体数据中发现错误信息有关的研究，但大多数研究都集中在英语数据集上。印度尼西亚的COVID-19错误信息检测的研究仍然很少。因此，通过这项研究，我们收集和注释印尼语的数据集，并通过考虑该推文的相关性来构建用于检测COVID-19错误信息的预测模型。数据集构造是由一组注释者进行的，他们标记了推文数据的相关性和错误信息。在这项研究中，我们使用印度培训预培训的语言模型提出了两阶段分类器模型，以进行推文错误信息检测任务。我们还尝试了其他几种基线模型进行文本分类。实验结果表明，对于相关性预测，BERT序列分类器的组合和用于错误信息检测的BI-LSTM的组合优于其他机器学习模型，精度为87.02％。总体而言，BERT利用率有助于大多数预测模型的更高性能。我们发布了高质量的Covid-19错误信息推文语料库，用高通道一致性表示。

translated by 谷歌翻译

COVID-19 Twitter Dataset with Latent Topics, Sentiments and Emotions Attributes

Raj Kumar Gupta , Ajay Vishwanath , Yinping Yang

分类：自然语言处理

2020-07-14

本文描述了一个关于人们的话语的大型全球数据集以及在Twitter平台上对Covid-19的大流行的反应。从2020年1月28日至2022年6月1日，我们收集并处理了超过2900万个唯一用户的Twitter帖子，使用了四个关键字：“ Corona”，“ Wuhan”，“ NCOV”和“ COVID”。利用概率主题建模和预训练的基于机器学习的情感识别算法，我们将每个推文标记为具有十七个属性，包括a）十个二进制属性，指示了Tweet的相关性（1）或与前十名检测到的主题，B ）五个定量情绪属性表示价或情感的强度程度（从0：极为消极到1：极为积极）以及恐惧，愤怒，悲伤和幸福情感的强度程度（从0：完全不是1到1 ：极度强烈），c）两个分类属性表明情绪（非常负面，消极，中立或混合，积极，非常积极）以及主导的情感（恐惧，愤怒，悲伤，幸福，没有特定的情感），主要是推文表达。我们讨论技术有效性，并报告这些属性的描述性统计，其时间分布和地理表示。本文最后讨论了数据集在传播，心理学，公共卫生，经济学和流行病学中的用法。

translated by 谷歌翻译

Detecing Anti-Vaccine Users on Twitter

Matheus Schmitz , Goran Murić , Keith Burghardt

分类：自然语言处理

2021-10-21

最近受到在线叙述驱动的疫苗犹豫会大大降低了疫苗接种策略的功效，例如Covid-19。尽管医学界对可用疫苗的安全性和有效性达成了广泛的共识，但许多社交媒体使用者仍被有关疫苗的虚假信息淹没，并且柔和或不愿意接种疫苗。这项研究的目的是通过开发能够自动识别负责传播反疫苗叙事的用户的系统来更好地理解反疫苗情绪。我们引入了一个公开可用的Python软件包，能够分析Twitter配置文件，以评估该个人资料将来分享反疫苗情绪的可能性。该软件包是使用文本嵌入方法，神经网络和自动数据集生成的，并接受了数百万条推文培训。我们发现，该模型可以准确地检测出抗疫苗用户，直到他们推文抗Vaccine主题标签或关键字。我们还展示了文本分析如何通过检测Twitter和常规用户之间的抗疫苗传播器之间的道德和情感差异来帮助我们理解反疫苗讨论的示例。我们的结果将帮助研究人员和政策制定者了解用户如何成为反疫苗感以及他们在Twitter上讨论的内容。政策制定者可以利用此信息进行更好的针对性的运动，以揭露有害的反疫苗接种神话。

translated by 谷歌翻译

Location reference recognition from texts: A survey and comparison

Xuke Hu , Zhiyong Zhou , Hao Li , Yingjie Hu , Fuqiang Gu , Jens Kersten , Hongchao Fan , Friederike Klan

分类：自然语言处理

2022-07-04

非结构化的文本中存在大量的位置信息，例如社交媒体帖子，新闻报道，科学文章，网页，旅行博客和历史档案。地理学是指识别文本中的位置参考并识别其地理空间表示的过程。虽然地理标准可以使许多领域受益，但仍缺少特定应用程序的摘要。此外，缺乏对位置参考识别方法的现有方法的全面审查和比较，这是地理验证的第一个和核心步骤。为了填补这些研究空白，这篇综述首先总结了七个典型的地理应用程序域：地理信息检索，灾难管理，疾病监视，交通管理，空间人文，旅游管理和犯罪管理。然后，我们通过将这些方法分类为四个组，以基于规则的基于规则，基于统计学学习的基于统计学学习和混合方法将这些方法分类为四个组，从而回顾了现有的方法参考识别方法。接下来，我们彻底评估了27种最广泛使用的方法的正确性和计算效率，该方法基于26个公共数据集，其中包含不同类型的文本（例如，社交媒体帖子和新闻报道），包含39,736个位置参考。这项彻底评估的结果可以帮助未来的方法论发展以获取位置参考识别，并可以根据应用需求指导选择适当方法的选择。

translated by 谷歌翻译

Data-Centric Epidemic Forecasting: A Survey

Alexander Rodríguez , Harshavardhan Kamarthi , Pulak Agarwal , Javen Ho , Mira Patel , Suchet Sapre , B. Aditya Prakash

分类：机器学习

2022-07-19

COVID-19的大流行提出了对多个领域决策者的流行预测的重要性，从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测，但是它具有一些关键的差异，并且仍然是一项非平凡的任务。疾病的传播受到人类行为，病原体动态，天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议，捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作，这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步，并介绍了一个概念框架来导航它们。首先，我们列举了与流行病预测相关的大量流行病学数据集和新的数据流，捕获了各种因素，例如有症状的在线调查，零售和商业，流动性，基因组学数据等。接下来，我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式，以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战，包括预测信息。最后，我们重点介绍了整个预测管道中发现的一些挑战和开放问题。

translated by 谷歌翻译

Computational Sarcasm Analysis on Social Media: A Systematic Review

Faria Binte Kader , Nafisa Hossain Nujat , Tasmia Binte Sogir , Mohsinul Kabir , Hasan Mahmud , Kamrul Hasan

分类：自然语言处理

2022-09-13

讽刺可以被定义为说或写讽刺与一个人真正想表达的相反，通常是为了侮辱，刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂，因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年，但最近已经取得了一些重大进步，包括在多模式环境中采用了无监督的预训练的预训练的变压器，并整合了环境以识别讽刺。在这项研究中，我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集，方法，趋势，问题，挑战和任务，这些数据集，趋势，问题，挑战和任务是无法检测到的。我们的研究提供了讽刺数据集，讽刺特征及其提取方法以及各种方法的性能分析，这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。

translated by 谷歌翻译

OSN Dashboard Tool For Sentiment Analysis

Andreas Kilde Lien , Lars Martin Randem , Hans Petter Fauchald Taralrud , Maryam Edalati

分类：自然语言处理

2022-06-14

互联网上的自以为是的数据量正在迅速增加。越来越多的人在评论，讨论论坛，微博和一般社交媒体中分享他们的想法和意见。由于意见在所有人类活动中都是核心，因此已应用情绪分析来获得有关此类数据的见解。有几种情感分类的方法。主要缺点是缺乏用于分类和高级可视化的标准化解决方案。在这项研究中，提出了用于在线社交网络分析的情感分析仪仪表板。这是为了使人们能够获得对他们有趣的主题的见解。该工具允许用户在仪表板中运行所需的情感分析算法。除了提供几种可视化类型外，仪表板还促进了来自情感分类的原始数据结果，可以下载以进行进一步分析。

translated by 谷歌翻译

Analyzing social media with crowdsourcing in Crowd4SDG

Carlo Bono , Mehmet Oğuz Mülâyim , Cinzia Cappiello , Mark Carman , Jesus Cerquides , Jose Luis Fernandez-Marquez , Rosy Mondardini , Edoardo Ramalli , Barbara Pernici

分类：人工智能

2022-08-04

社交媒体有可能提供有关紧急情况和突然事件的及时信息。但是，在每天发布的数百万帖子中找到相关信息可能很困难，并且开发数据分析项目通常需要时间和技术技能。这项研究提出了一种为分析社交媒体的灵活支持的方法，尤其是在紧急情况下。引入了可以采用社交媒体分析的不同用例，并讨论了从大量帖子中检索信息的挑战。重点是分析社交媒体帖子中包含的图像和文本，以及一组自动数据处理工具，用于过滤，分类和使用人类的方法来支持数据分析师的内容。这种支持包括配置自动化工具的反馈和建议，以及众包收集公民的投入。通过讨论Crowd4SDG H2020欧洲项目中开发的三个案例研究来验证结果。

translated by 谷歌翻译

Generalizable Natural Language Processing Framework for Migraine Reporting from Social Media

Yuting Guo , Swati Rajwal , Sahithi Lakamana , Chia-Chun Chiang , Paul C. Menell , Adnan H. Shahid , Yi-Chieh Chen , Nikita Chhabra , Wan-Ju Chao , Chieh-Ju Chao

分类：自然语言处理

2022-12-23

Migraine is a high-prevalence and disabling neurological disorder. However, information migraine management in real-world settings could be limited to traditional health information sources. In this paper, we (i) verify that there is substantial migraine-related chatter available on social media (Twitter and Reddit), self-reported by migraine sufferers; (ii) develop a platform-independent text classification system for automatically detecting self-reported migraine-related posts, and (iii) conduct analyses of the self-reported posts to assess the utility of social media for studying this problem. We manually annotated 5750 Twitter posts and 302 Reddit posts. Our system achieved an F1 score of 0.90 on Twitter and 0.93 on Reddit. Analysis of information posted by our 'migraine cohort' revealed the presence of a plethora of relevant information about migraine therapies and patient sentiments associated with them. Our study forms the foundation for conducting an in-depth analysis of migraine-related information using social media data.

translated by 谷歌翻译

How Much Hate with #china? A Preliminary Analysis on China-related Hateful Tweets Two Years After the Covid Pandemic Began

Jinghua Xu , Zarah Weiss

分类：自然语言处理

2022-11-11

Following the outbreak of a global pandemic, online content is filled with hate speech. Donald Trump's ''Chinese Virus'' tweet shifted the blame for the spread of the Covid-19 virus to China and the Chinese people, which triggered a new round of anti-China hate both online and offline. This research intends to examine China-related hate speech on Twitter during the two years following the burst of the pandemic (2020 and 2021). Through Twitter's API, in total 2,172,333 tweets hashtagged #china posted during the time were collected. By employing multiple state-of-the-art pretrained language models for hate speech detection, we identify a wide range of hate of various types, resulting in an automatically labeled anti-China hate speech dataset. We identify a hateful rate in #china tweets of 2.5% in 2020 and 1.9% in 2021. This is well above the average rate of online hate speech on Twitter at 0.6% identified in Gao et al., 2017. We further analyzed the longitudinal development of #china tweets and those identified as hateful in 2020 and 2021 through visualizing the daily number and hate rate over the two years. Our keyword analysis of hate speech in #china tweets reveals the most frequently mentioned terms in the hateful #china tweets, which can be used for further social science studies.

translated by 谷歌翻译