智能论文笔记

Social Media Reveals Urban-Rural Differences in Stress across China

Jesse Cui , Tingdan Zhang , Kokil Jaidka , Dandan Pang , Garrick Sherman , Vinit Jakhetiya , Lyle Ungar , Sharath Chandra Guntuku

分类：自然语言处理 | 人工智能

2021-10-19

中国城乡地区建模差分应力表达可以更好地了解城市化对心理福祉的影响，在过去二十年中迅速发展的国家。本文研究了使用等级混合效应模型从329个县中超过65,000名用户在中国城乡压力的经验和表达的语言差异。我们分析了微博职位中的短语，题目主题和心理语言学的选择，提及压力，以更好地了解中国城乡社区心理压力的评价差异;然后我们将它们与盖子的大规模民意调查进行了比较。在控制社会经济和性别差异之后，我们发现农村社区倾向于表达情感和个人主题，如关系，健康和机会，而在城市地区的用户使用相对，时间和外部主题，如工作，政治和经济学。这些差异存在于对GDP和城市化的控制之外，表明在非常具体的环境中农村和城市居民之间的基本不同的生活方式，可以说是具有不同的压力来源。我们在盖洛普民意调查中找到了与城市化的身体，金融和社会健康的腐败趋势。

translated by 谷歌翻译

What Are You Anxious About? Examining Subjects of Anxiety during the COVID-19 Pandemic

Lucia L. Chen , Steven R. Wilson , Sophie Lohmann , Daniela V. Negraia

分类：自然语言处理

2022-09-27

Covid-19在大流行的不同阶段对公众构成了不成比例的心理健康后果。我们使用一种计算方法来捕获引发在线社区对大流行的焦虑的特定方面，并研究这些方面如何随时间变化。首先，我们使用主题分析在R/covid19 \ _support的Reddit帖子样本（$ n $ = 86）中确定了九个焦虑（SOA）。然后，我们通过在手动注释的样本（$ n $ = 793）上训练Reddit用户的焦虑来自动将SOA标记在较大的年代样本中（$ n $ = 6,535）。 9个SOA与最近开发的大流行焦虑测量量表中的项目保持一致。我们观察到，在大流行的前八个月，Reddit用户对健康风险的担忧仍然很高。尽管案件激增稍后发生，但这些担忧却大大减少了。通常，随着大流行的进展，用户的语言披露了SOA的强烈强度。但是，在本研究涵盖的整个期间，人们对心理健康的担忧和未来稳步增长。人们还倾向于使用更强烈的语言来描述心理健康问题，而不是健康风险或死亡问题。我们的结果表明，尽管Covid-19逐渐削弱，但由于适当的对策而逐渐削弱了作为健康威胁，但该在线小组的心理健康状况并不一定会改善。我们的系统为人口健康和流行病学学者奠定了基础，以及时检查引起大流行焦虑的方面。

translated by 谷歌翻译

We Are in This Together: Quantifying Community Subjective Wellbeing and Resilience

MeiXing Dong , Ruixuan Sun , Laura Biester , Rada Mihalcea

分类：自然语言处理

2022-08-23

19009年的大流行破坏了世界上每个人的生活。在这项工作中，我们表征了在疫苗可用性之前，在大流行期间，美国112个城市的主观福祉模式，如与城市相对应的亚列表所示。我们使用积极和负面影响量化主观健康。然后，我们通过将社区观察到的健康与预期的健康进行比较，衡量大流行的影响，如大流行前的时间序列模型所预测的那样。我们表明，语言反映的一般社区特征可以预测社区的能力。我们预测大流行将如何基于正常时间\ textit {之前的语言和互动特征{}大流行的语言和互动特征影响每个社区的福祉。我们发现，具有与更紧密联系的用户相对应的互动特征的社区，并且更高的参与度受到显着影响。值得注意的是，我们发现更多谈论通常经验丰富的社会关系的社区，例如朋友，家人和隶属关系，实际上更有可能受到影响。此外，我们还使用相同的功能来预测大流行初次发作后每个社区将恢复的速度。我们同样发现，更多地谈论家庭，隶属关系和确定为团体一部分的社区的康复较慢。

translated by 谷歌翻译

What are People Talking about in #BlackLivesMatter and #StopAsianHate? Exploring and Categorizing Twitter Topics Emerging in Online Social Movements through the Latent Dirichlet Allocation Model

Xin Tong , Yixuan Li , Jiayi Li , Rongqi Bei , Luyao Zhang

分类：自然语言处理 | 机器学习

2022-05-29

少数群体一直在使用社交媒体来组织社会运动，从而产生深远的社会影响。黑人生活问题（BLM）和停止亚洲仇恨（SAH）是两个成功的社会运动，在Twitter上蔓延开来，促进了抗议活动和活动，反对种族主义，并提高公众对少数群体面临的其他社会挑战的认识。但是，以前的研究主要对与用户的推文或访谈进行了定性分析，这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格，量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此，在这项研究中，我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了（1）潜在的DIRICHLET分配模型，以了解顶级高级单词和主题以及（2）开放编码分析，以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文，并比较了它们的主题。我们的发现表明，这些推文在深度上讨论了各种有影响力的话题，社会正义，社会运动和情感情感都是两种运动的共同主题，尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析，以及有关AI，伦理和社会相互作用的文献。

translated by 谷歌翻译

Understanding Postpartum Parents' Experiences via Two Digital Platforms

Xuewen Yao , Miriam Mikhelson , Megan Micheletti , Eunsol Choi , S Craig Watkins , Edison Thomaz , Kaya De Barbaro

分类：自然语言处理

2022-12-22

Digital platforms, including online forums and helplines, have emerged as avenues of support for caregivers suffering from postpartum mental health distress. Understanding support seekers' experiences as shared on these platforms could provide crucial insight into caregivers' needs during this vulnerable time. In the current work, we provide a descriptive analysis of the concerns, psychological states, and motivations shared by healthy and distressed postpartum support seekers on two digital platforms, a one-on-one digital helpline and a publicly available online forum. Using a combination of human annotations, dictionary models and unsupervised techniques, we find stark differences between the experiences of distressed and healthy mothers. Distressed mothers described interpersonal problems and a lack of support, with 8.60% - 14.56% reporting severe symptoms including suicidal ideation. In contrast, the majority of healthy mothers described childcare issues, such as questions about breastfeeding or sleeping, and reported no severe mental health concerns. Across the two digital platforms, we found that distressed mothers shared similar content. However, the patterns of speech and affect shared by distressed mothers differed between the helpline vs. the online forum, suggesting the design of these platforms may shape meaningful measures of their support-seeking experiences. Our results provide new insight into the experiences of caregivers suffering from postpartum mental health distress. We conclude by discussing methodological considerations for understanding content shared by support seekers and design considerations for the next generation of support tools for postpartum parents.

translated by 谷歌翻译

Non-Suicidal Self-Injury Online Posts: Implications for Mental Health Professionals

Mandy M. Greaves , Cass Dykeman

分类：自然语言处理

2019-02-02

虽然非自杀自我受伤（NSSI）不是一个新的现象，但仍有有限的有限仍然符合对行为的理解，行为背后的意图以及个人自己对他们的行为所说的。本研究从Pro-NSSI上的Reddit收集了Pro-NSSI公共博客帖子，并使用LIWC软件对内容进行了分析，以检查NSSI特定词，语言特性和心理语言学属性的使用。检查了。结果通过消除神话来告知现有的咨询实践，并向参与使用NSSII的人们的内心世界提供洞察力。在Reddit博客中，对于NSSI特定单词类别的最常见类别的类别，是Reddit博客中最常使用的NSSI的一个接触的原因。分析中发现的语言特性反映了预测结果; Pro-NSSI帖子的作者使用广泛展示了一人奇异代词的预期结果，这表明高水平的心理健康窘迫和隔离。在这些公共Reddit帖子中可以观察到的心理语言学属性在负面情绪中，展示了青年和冲动的负面情绪。当分析这些帖子时发现的语言特性支持早期研究的工作，这些研究剥夺了在心理健康界中流传的NSSI的常见神话。这些调查结果表明，参与NSSI的人的语言支持在宣布关于NSSI的常见神话中的研究发现。

translated by 谷歌翻译

Then and Now: Quantifying the Longitudinal Validity of Self-Disclosed Depression Diagnoses

Keith Harrigian , Mark Dredze

分类：机器学习 | 自然语言处理

2022-06-22

自我披露的心理健康诊断是在没有临床措施的情况下用作心理健康状况的基础真理注释，这是过去十年来大多数心理健康语言计算研究背后的结论。但是，精神病是动态的。先前的抑郁诊断可能不再表明个人的心理健康，无论是由于治疗还是其他缓解因素。我们问：随着时间的推移，心理健康诊断的自我诊断的自我限制在多大程度上？我们分析了五年前在社交媒体上披露抑郁症诊断的个人的最新活动，反过来又对社交媒体上心理健康状况的表现有了新的了解。我们还提供了扩展的证据，证明使用自被诊断的数据集中存在与人格相关的偏差。我们的发现激发了三个实用建议，用于改善使用自lif诊诊断策划的心理健康数据集：1）注释诊断日期和精神病合并症； 2）使用倾向得分匹配的样本对照组； 3）识别和删除选择偏差引入的虚假相关性。

translated by 谷歌翻译

A repeated-measures study on emotional responses after a year in the pandemic

Maximilian Mozes , Isabelle van der Vegt , Bennett Kleinberg

分类：自然语言处理

2021-07-07

Covid-19锁定措施的引入和返回正常性的展望要求社会变化。最紧迫的问题是个人如何适应大流行。本文在重复措施设计中审查了对大流行的情绪反应。数据（n = 1698）于2020年4月（严格锁定措施期间），并于2021年4月（当疫苗接种计划获得牵引时）。我们要求参与者报告他们的情绪并在文本数据中表达这些。统计测试揭示了更好地调整大流行的平均趋势。然而，聚类分析建议更复杂的异构模式，具有良好的应对和辞职的参与者子组。语言计算分析发现，主题和N-GRAM频率转移到关注疫苗接种程序，远离一般担忧。讨论了对公共心理健康努力在识别风险上识别人们的努力的影响。数据集是公开可用的。

translated by 谷歌翻译

Taking a Language Detour: How International Migrants Speaking a Minority Language Seek COVID-Related Information in Their Host Countries

Ge Gao , Jian Zheng , Eun Kyoung Choe , Naomi Yamashita

分类：自然语言处理

2022-09-07

在公共危机时期，寻求信息对于人们的自我保健和福祉至关重要。广泛的研究调查了经验理解和技术解决方案，以促进受影响地区的家庭公民寻求信息。但是，建立有限的知识是为了支持需要在其东道国发生危机的国际移民。当前的论文对居住在日本和美国（n = 14）的两名中国移民（n = 14）进行了访谈研究。参与者反思了他们在共同大流行期间寻求经验的信息。反思补充了两周的自我追踪，参与者保持了相关信息寻求实践的记录。我们的数据表明，参与者经常绕开语言绕道，或访问普通话资源以获取有关其东道国疫情爆发的信息。他们还进行了战略性利用普通话信息，以进行选择性阅读，交叉检查以及对日语或英语的共同信息的上下文化解释。尽管这种做法增强了参与者对共同相关信息收集和感官的有效性，但他们有时会通过有时认识的方式使人们处于不利地位。此外，参与者缺乏对审查以移民为导向的信息的认识或偏爱，尽管该信息可用，这些信息是由东道国公共当局发布的。在这些发现的基础上，我们讨论了改善国际移民在非本地语言和文化环境中寻求共同相关信息的解决方案。我们主张包容性危机基础设施，这些基础设施将吸引以当地语言流利程度，信息素养和利用公共服务的经验的不同水平的人们。

translated by 谷歌翻译

Characterizing Multi-Domain False News and Underlying User Effects on Chinese Weibo

Qiang Sheng , Juan Cao , H. Russell Bernard , Kai Shu , Jintao Li , Huan Liu

分类：自然语言处理

2022-05-06

在过去几年中，社交媒体上传播的错误消息激增，并导致了现实世界中的多种威胁。尽管有关于特定领域的虚假新闻（例如政治或医疗保健）的研究，但比较跨领域的虚假新闻几乎没有工作。在本文中，我们调查了2009年至2019年中国最大的Twitter式社交媒体平台的微博上的九个领域的虚假新闻。新收集的数据包含44,728个帖子，由40,215个用户发布，并重新发布了。 340万次。基于多域数据集的分布和传播，我们观察到，在诸如健康和医学之类的日常生活的领域中，虚假的消息比政治等其他领域的帖子更有效，但有效地传播的帖子较少，而政治虚假新闻具有最有效的扩散能力。关于微博上广泛散布的虚假新闻帖子与某些类型的用户（按性别，年龄等。此外，这些帖子都引起了重新播放的强烈情绪，并随着False-News启动器的积极参与而进一步扩散。我们的发现有可能在可疑新闻发现，真实性预测以及显示和解释中帮助设计错误的新闻检测系统。微博上的发现与现有作品的发现表明了细微的模式，这表明需要对来自不同平台，国家或语言的数据进行更多研究，以解决全球错误新闻。代码和新的匿名数据集可在https://github.com/ictmcg/characterizing-weibo-multi-domain-false-news上找到。

translated by 谷歌翻译

Dimensional Modeling of Emotions in Text with Appraisal Theories: Corpus Creation, Annotation Reliability, and Prediction

Enrica Troiano , Laura Oberländer , Roman Klinger

分类：自然语言处理

2022-06-10

情绪分析中最突出的任务是为文本分配情绪，并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是，即使没有明确提及情感名称，也可以通过单独参考事件来隐式传达情绪。在心理学中，被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量，通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的，如果该人认为自己负责，是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的，例如，新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性，目的是理解注释者是否可以可靠地重建评估概念，如果可以通过文本分类器预测，以及评估概念是否有助于识别情感类别。为了实现这一目标，我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后，我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估，并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明，两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明，评估概念改善了文本中情绪的分类。

translated by 谷歌翻译

Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection

Maarten Sap , Swabha Swayamdipta , Laura Vianna , Xuhui Zhou , Yejin Choi , Noah A. Smith

分类：自然语言处理

2021-11-15

语言的感知毒性可能会因某人的身份和信仰而有所不同，但是在收集有毒语言数据集时往往忽略这种变化，从而导致数据集和模型偏差。我们寻求理解谁，为什么，以及毒性注释的偏见背后。在两个在线研究中具有人口统计地和政治上的参与者，我们调查了注释者身份（世卫组织）和信仰的影响（为什么），从社会心理学研究中汲取仇恨言语，自由言论，种族主义信念，政治倾向等。我们解除了通过考虑三个特征的帖子作为毒性的毒性：反黑色语言，非洲裔美国英语（AAE）方言和粗俗。我们的结果显示了注释者身份和信仰之间的强有力的协会及其毒性评级。值得注意的是，更保守的注释者和那些对我们的种族信仰规模的评分的人不太可能对毒黑语言归因于毒性，但更有可能将AAE归因于毒性。我们还提供了一个案例研究，说明了流行的毒性检测系统的评级如何自然地反映特定的信念和观点。我们的调查结果要求社会变量中的毒性标签，这提高了对有毒语言注释和检测的巨大影响。

translated by 谷歌翻译

Twitter Corpus of the #BlackLivesMatter Movement And Counter Protests: 2013 to 2021

Salvatore Giorgi , Sharath Chandra Guntuku , McKenzie Himelein-Wachowiak , Amy Kwarteng , Sy Hwang , Muhammad Rahman , Brenda Curtis

分类：自然语言处理

2020-09-01

黑人生活问题（BLM）是一项分散的社会运动，抗议对黑人个人和社区的暴力行为，重点是警察暴力。 2020年，艾哈迈德·阿贝里（Ahmaud Arbery），布雷纳·泰勒（Breonna Taylor）和乔治·弗洛伊德（George Floyd）的杀害后，该运动引起了人们的关注。#BlackLivesMatter社交媒体标签已经代表了基层运动，并以类似的标签来抗议BLM运动，例如#AllllivesMatter和#allllivesmatter和#allllivesmatter，以及#bluelivesmatter。我们介绍了来自100多个国家 /地区的1,300万用户的6390万推文的数据集，其中包含以下关键字之一：BlackLivesMatter，AlllivesMatter和BluelivesMatter。该数据集包含从2013年BLM运动开始到2021年的所有当前可用推文。我们总结了数据集并显示了使用BlackLivesMatter关键字和与反向运动相关的关键字的时间趋势。此外，对于每个关键字，我们创建并发布了一组潜在的Dirichlet分配（LDA）主题（即自动聚集了语义上共同共的单词的组），以帮助研究人员识别这三个关键字的语言模式。

translated by 谷歌翻译

Quantifying the Suicidal Tendency on Social Media: A Survey

Muskan Garg

分类：自然语言处理

2021-10-04

在锁定时期，由于第三名封闭，越来越多的人对社交媒体平台表达了自己的感受，学术研究人员目睹了心理保健和社交媒体帖子之间的密切联系。短时间内的压力可能会导致临床凹陷，而普遍抑郁症的长期特征可能会以自杀念头作为可能的结果来威胁生命。对自杀案件数量增加的越来越关注是因为它是过早但可预防死亡的主要原因之一。最近的研究表明，采矿社交媒体数据有助于量化有风险的用户的自杀趋势。这种潜在的手稿阐明了心理保健的分类法，并强调了最近的一些尝试，以研究量化社交媒体数据上的自杀趋势的潜力。该手稿介绍了社交媒体数据和处理功能向量表示的异质特征的分类。旨在确定机器学习开发（ML）和基于深度学习（DL）模型的新研究方向和进步，对与压力，抑郁症相关的77多个潜在的研究文章进行了定量合成和定性审查从2013年到2021年的自杀风险。

translated by 谷歌翻译

Multi-aspect Multilingual and Cross-lingual Parliamentary Speech Analysis

Kristian Miok , Encarnacion Hidalgo-Tenorio , Petya Osenova , Miguel-Angel Benitez-Castro , Marko Robnik-Sikonja

分类：自然语言处理

2022-07-03

对于政治和社会科学以及语言学和自然语言处理（NLP），它们都很有趣。退出研究涵盖了各个议会内的讨论。相比之下，我们将高级NLP方法应用于2017年至2020年之间的六个国家议会（保加利亚，捷克语，法语，斯洛文尼亚，西班牙语和英国）的联合和比较分析，其笔录是Parlamint数据集收集的一部分。使用统一的方法，我们分析了讨论，情感和情感的主题。我们评估说话者的年龄，性别和政治取向是否可以从演讲中检测到。结果表明，分析国家之间的一些共同点和许多令人惊讶的差异。

translated by 谷歌翻译

Perspectives of Non-Expert Users on Cyber Security and Privacy: An Analysis of Online Discussions on Twitter

Nandita Pattnaik , Shujun Li , Jason R. C. Nurse

分类：机器学习

2022-06-05

Current research on users` perspectives of cyber security and privacy related to traditional and smart devices at home is very active, but the focus is often more on specific modern devices such as mobile and smart IoT devices in a home context. In addition, most were based on smaller-scale empirical studies such as online surveys and interviews. We endeavour to fill these research gaps by conducting a larger-scale study based on a real-world dataset of 413,985 tweets posted by non-expert users on Twitter in six months of three consecutive years (January and February in 2019, 2020 and 2021). Two machine learning-based classifiers were developed to identify the 413,985 tweets. We analysed this dataset to understand non-expert users` cyber security and privacy perspectives, including the yearly trend and the impact of the COVID-19 pandemic. We applied topic modelling, sentiment analysis and qualitative analysis of selected tweets in the dataset, leading to various interesting findings. For instance, we observed a 54% increase in non-expert users` tweets on cyber security and/or privacy related topics in 2021, compared to before the start of global COVID-19 lockdowns (January 2019 to February 2020). We also observed an increased level of help-seeking tweets during the COVID-19 pandemic. Our analysis revealed a diverse range of topics discussed by non-expert users across the three years, including VPNs, Wi-Fi, smartphones, laptops, smart home devices, financial security, and security and privacy issues involving different stakeholders. Overall negative sentiment was observed across almost all topics non-expert users discussed on Twitter in all the three years. Our results confirm the multi-faceted nature of non-expert users` perspectives on cyber security and privacy and call for more holistic, comprehensive and nuanced research on different facets of such perspectives.

translated by 谷歌翻译

Relationship Between Online Harmful Behaviors and Social Network Message Writing Style

Talia Sanchez Viera , Richard Khoury

分类：自然语言处理

2022-12-14

In this paper, we explore the relationship between an individual's writing style and the risk that they will engage in online harmful behaviors (such as cyberbullying). In particular, we consider whether measurable differences in writing style relate to different personality types, as modeled by the Big-Five personality traits and the Dark Triad traits, and can differentiate between users who do or do not engage in harmful behaviors. We study messages from nearly 2,500 users from two online communities (Twitter and Reddit) and find that we can measure significant personality differences between regular and harmful users from the writing style of as few as 100 tweets or 40 Reddit posts, aggregate these values to distinguish between healthy and harmful communities, and also use style attributes to predict which users will engage in harmful behaviors.

translated by 谷歌翻译

2020 U.S. presidential election in swing states: Gender differences in Twitter conversations

Amir Karami , Spring B. Clark , Anderson Mackenzie , Dorathea Lee , Michael Zhu , Hannah R. Boyajieff , Bailey Goldschmidt

分类：自然语言处理

2021-08-21

社交媒体通常在选举活动中被公众使用，以表达他们对不同问题的看法。在各种社交媒体渠道中，Twitter为研究人员和政客提供了一个有效的平台，以探索有关经济和外交政策等广泛主题的公众舆论。当前的文献主要集中于分析推文的内容而无需考虑用户的性别。这项研究收集和分析了大量推文，并使用计算，人类编码和统计分析来识别2020年美国总统选举期间发布的300,000多个推文中的主题。我们的发现是基于广泛的主题，例如税收，气候变化和Covid-19-19。在主题中，女性和男性用户之间存在着显着差异，超过70％的主题。

translated by 谷歌翻译

The Moral Foundations Reddit Corpus

Jackson Trager , Alireza S. Ziabari , Aida Mostafazadeh Davani , Preni Golazazian , Farzan Karimi-Malekabadi , Ali Omrani , Zhihe Li , Brendan Kennedy , Nils Karl Reimer , Melissa Reyes

分类：自然语言处理 | 机器学习

2022-08-10

道德框架和情感会影响各种在线和离线行为，包括捐赠，亲环境行动，政治参与，甚至参与暴力抗议活动。自然语言处理中的各种计算方法（NLP）已被用来从文本数据中检测道德情绪，但是为了在此类主观任务中取得更好的性能，需要大量的手工注销训练数据。事实证明，以前对道德情绪注释的语料库已被证明是有价值的，并且在NLP和整个社会科学中都产生了新的见解，但仅限于Twitter。为了促进我们对道德修辞的作用的理解，我们介绍了道德基础Reddit语料库，收集了16,123个reddit评论，这些评论已从12个不同的子雷迪维特策划，由至少三个训练有素的注释者手工注释，用于8种道德情绪（即护理，相称性，平等，纯洁，权威，忠诚，瘦道，隐含/明确的道德）基于更新的道德基础理论（MFT）框架。我们使用一系列方法来为这种新的语料库（例如跨域分类和知识转移）提供基线道德句子分类结果。

translated by 谷歌翻译

COVID-19 Twitter Dataset with Latent Topics, Sentiments and Emotions Attributes

Raj Kumar Gupta , Ajay Vishwanath , Yinping Yang

分类：自然语言处理

2020-07-14

本文描述了一个关于人们的话语的大型全球数据集以及在Twitter平台上对Covid-19的大流行的反应。从2020年1月28日至2022年6月1日，我们收集并处理了超过2900万个唯一用户的Twitter帖子，使用了四个关键字：“ Corona”，“ Wuhan”，“ NCOV”和“ COVID”。利用概率主题建模和预训练的基于机器学习的情感识别算法，我们将每个推文标记为具有十七个属性，包括a）十个二进制属性，指示了Tweet的相关性（1）或与前十名检测到的主题，B ）五个定量情绪属性表示价或情感的强度程度（从0：极为消极到1：极为积极）以及恐惧，愤怒，悲伤和幸福情感的强度程度（从0：完全不是1到1 ：极度强烈），c）两个分类属性表明情绪（非常负面，消极，中立或混合，积极，非常积极）以及主导的情感（恐惧，愤怒，悲伤，幸福，没有特定的情感），主要是推文表达。我们讨论技术有效性，并报告这些属性的描述性统计，其时间分布和地理表示。本文最后讨论了数据集在传播，心理学，公共卫生，经济学和流行病学中的用法。

translated by 谷歌翻译