本文描述了一个关于人们的话语的大型全球数据集以及在Twitter平台上对Covid-19的大流行的反应。从2020年1月28日至2022年6月1日,我们收集并处理了超过2900万个唯一用户的Twitter帖子,使用了四个关键字:“ Corona”,“ Wuhan”,“ NCOV”和“ COVID”。利用概率主题建模和预训练的基于机器学习的情感识别算法,我们将每个推文标记为具有十七个属性,包括a)十个二进制属性,指示了Tweet的相关性(1)或与前十名检测到的主题,B )五个定量情绪属性表示价或情感的强度程度(从0:极为消极到1:极为积极)以及恐惧,愤怒,悲伤和幸福情感的强度程度(从0:完全不是1到1 :极度强烈),c)两个分类属性表明情绪(非常负面,消极,中立或混合,积极,非常积极)以及主导的情感(恐惧,愤怒,悲伤,幸福,没有特定的情感),主要是推文表达。我们讨论技术有效性,并报告这些属性的描述性统计,其时间分布和地理表示。本文最后讨论了数据集在传播,心理学,公共卫生,经济学和流行病学中的用法。
translated by 谷歌翻译
少数群体一直在使用社交媒体来组织社会运动,从而产生深远的社会影响。黑人生活问题(BLM)和停止亚洲仇恨(SAH)是两个成功的社会运动,在Twitter上蔓延开来,促进了抗议活动和活动,反对种族主义,并提高公众对少数群体面临的其他社会挑战的认识。但是,以前的研究主要对与用户的推文或访谈进行了定性分析,这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格,量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此,在这项研究中,我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了(1)潜在的DIRICHLET分配模型,以了解顶级高级单词和主题以及(2)开放编码分析,以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文,并比较了它们的主题。我们的发现表明,这些推文在深度上讨论了各种有影响力的话题,社会正义,社会运动和情感情感都是两种运动的共同主题,尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析,以及有关AI,伦理和社会相互作用的文献。
translated by 谷歌翻译
在撰写本文时,Covid-19(2019年冠状病毒病)已扩散到220多个国家和地区。爆发后,大流行的严肃性使人们在社交媒体上更加活跃,尤其是在Twitter和Weibo等微博平台上。现在,大流行特定的话语一直在这些平台上持续数月。先前的研究证实了这种社会产生的对话对危机事件的情境意识的贡献。案件的早期预测对于当局估算应对病毒的生长所需的资源要求至关重要。因此,这项研究试图将公共话语纳入预测模型的设计中,特别针对正在进行的波浪的陡峭山路区域。我们提出了一种基于情感的主题方法,用于设计与公开可用的Covid-19相关Twitter对话中的多个时间序列。作为用例,我们对澳大利亚Covid-19的日常案例和该国境内产生的Twitter对话实施了拟议的方法。实验结果:(i)显示了Granger导致每日COVID-19确认案例的潜在社交媒体变量的存在,并且(ii)确认这些变量为预测模型提供了其他预测能力。此外,结果表明,用于建模的社交媒体变量包含了48.83--51.38%的RMSE比基线模型的改善。我们还向公众发布了大型Covid-19特定地理标记的全球推文数据集Megocov,预计该量表的地理标记数据将有助于通过其他空间和时间上下文理解大流行的对话动态。
translated by 谷歌翻译
虽然现在几个月有多个Covid-19疫苗,但疫苗犹豫不决在美国的高水平。部分内容也已成为政治化,特别是自11月总统选举以来。在包括Twitter的社交媒体背景下,在此期间理解疫苗犹豫不决,可以为计算社会科学家和决策者提供有价值的指导。本文通过相对研究两个不同的时间段(选举前的一个,另一个月之后的另一个月,另一个月)采用相对研究的两个Twitter数据集,而不是研究单一的Twitter语料库,而不是研究单个Twitter语料库。数据收集和过滤方法。我们的研究结果表明,从2020年到2021年秋天的政治到Covid-19疫苗的讨论中讨论了重大转变。通过使用基于集群和机器学习的方法与采样和定性分析,我们发现了几种细粒度疫苗犹豫不决的原因,其中一些随着时间的推移而变得更加(或更少)。我们的结果还强调了去年这个问题的强烈极化和政治化。
translated by 谷歌翻译
黑人生活问题(BLM)是一项分散的社会运动,抗议对黑人个人和社区的暴力行为,重点是警察暴力。 2020年,艾哈迈德·阿贝里(Ahmaud Arbery),布雷纳·泰勒(Breonna Taylor)和乔治·弗洛伊德(George Floyd)的杀害后,该运动引起了人们的关注。#BlackLivesMatter社交媒体标签已经代表了基层运动,并以类似的标签来抗议BLM运动,例如#AllllivesMatter和#allllivesmatter和#allllivesmatter,以及#bluelivesmatter。我们介绍了来自100多个国家 /地区的1,300万用户的6390万推文的数据集,其中包含以下关键字之一:BlackLivesMatter,AlllivesMatter和BluelivesMatter。该数据集包含从2013年BLM运动开始到2021年的所有当前可用推文。我们总结了数据集并显示了使用BlackLivesMatter关键字和与反向运动相关的关键字的时间趋势。此外,对于每个关键字,我们创建并发布了一组潜在的Dirichlet分配(LDA)主题(即自动聚集了语义上共同共的单词的组),以帮助研究人员识别这三个关键字的语言模式。
translated by 谷歌翻译
最近受到在线叙述驱动的疫苗犹豫会大大降低了疫苗接种策略的功效,例如Covid-19。尽管医学界对可用疫苗的安全性和有效性达成了广泛的共识,但许多社交媒体使用者仍被有关疫苗的虚假信息淹没,并且柔和或不愿意接种疫苗。这项研究的目的是通过开发能够自动识别负责传播反疫苗叙事的用户的系统来更好地理解反疫苗情绪。我们引入了一个公开可用的Python软件包,能够分析Twitter配置文件,以评估该个人资料将来分享反疫苗情绪的可能性。该软件包是使用文本嵌入方法,神经网络和自动数据集生成的,并接受了数百万条推文培训。我们发现,该模型可以准确地检测出抗疫苗用户,直到他们推文抗Vaccine主题标签或关键字。我们还展示了文本分析如何通过检测Twitter和常规用户之间的抗疫苗传播器之间的道德和情感差异来帮助我们理解反疫苗讨论的示例。我们的结果将帮助研究人员和政策制定者了解用户如何成为反疫苗感以及他们在Twitter上讨论的内容。政策制定者可以利用此信息进行更好的针对性的运动,以揭露有害的反疫苗接种神话。
translated by 谷歌翻译
自Covid-19大流行病开始以来,疫苗一直是公共话语中的重要话题。疫苗周围的讨论被两极分化,因为有些人认为它们是结束大流行的重要措施,而另一些人则犹豫不决或发现它们有害。这项研究调查了与Twitter上的Covid-19疫苗有关的帖子,并着重于对疫苗有负姿态的帖子。收集了与COVID-19疫苗相关的16,713,238个英文推文的数据集,收集了涵盖从2020年3月1日至2021年7月31日的该期间。我们使用Scikit-Learn Python库来应用支持向量机(SVM)分类器针对Covid-19疫苗的推文具有负姿态。总共使用了5,163个推文来训练分类器,其中有2,484个推文由我们手动注释并公开提供。我们使用Berttopic模型来提取和调查负推文中讨论的主题以及它们如何随时间变化。我们表明,随着疫苗的推出,对COVID-19疫苗的负面影响随时间而下降。我们确定了37个讨论主题,并随着时间的推移介绍了各自的重要性。我们表明,流行的主题包括阴谋讨论,例如5G塔和微芯片,但还涉及涉及疫苗接种安全性和副作用以及对政策的担忧。我们的研究表明,即使是不受欢迎的观点或阴谋论,与广受欢迎的讨论主题(例如Covid-19疫苗)配对时,也会变得广泛。了解问题和讨论的主题以及它们如何随着时间的变化对于政策制定者和公共卫生当局提供更好和时间的信息和政策,以促进未来类似危机的人口接种。
translated by 谷歌翻译
Covid-19锁定措施的引入和返回正常性的展望要求社会变化。最紧迫的问题是个人如何适应大流行。本文在重复措施设计中审查了对大流行的情绪反应。数据(n = 1698)于2020年4月(严格锁定措施期间),并于2021年4月(当疫苗接种计划获得牵引时)。我们要求参与者报告他们的情绪并在文本数据中表达这些。统计测试揭示了更好地调整大流行的平均趋势。然而,聚类分析建议更复杂的异构模式,具有良好的应对和辞职的参与者子组。语言计算分析发现,主题和N-GRAM频率转移到关注疫苗接种程序,远离一般担忧。讨论了对公共心理健康努力在识别风险上识别人们的努力的影响。数据集是公开可用的。
translated by 谷歌翻译
疫苗的犹豫被认为是欧洲和美国在欧洲疫苗充足疫苗的疫苗停滞比率停滞的主要原因之一。快速准确地掌握公众对疫苗接种的态度对于解决疫苗犹豫至关重要,社交媒体平台已被证明是公众意见的有效来源。在本文中,我们描述了与Covid-19疫苗有关的推文数据集的收集和发布。该数据集由从西欧收集的2,198,090条推文组成,其中17,934条带有发起者的疫苗接种立场。我们的注释将有助于使用和开发数据驱动的模型来从社交媒体帖子中提取疫苗接种态度,从而进一步确认社交媒体在公共卫生监视中的力量。为了为未来的研究奠定基础,我们不仅对数据集进行了统计分析和可视化,而且还评估和比较了疫苗接种立场提取中已建立的基于文本的基准测试的性能。我们在实践中证明了我们的数据的一种潜在用途,以跟踪公共Covid-19-19疫苗接种态度的时间变化。
translated by 谷歌翻译
Current research on users` perspectives of cyber security and privacy related to traditional and smart devices at home is very active, but the focus is often more on specific modern devices such as mobile and smart IoT devices in a home context. In addition, most were based on smaller-scale empirical studies such as online surveys and interviews. We endeavour to fill these research gaps by conducting a larger-scale study based on a real-world dataset of 413,985 tweets posted by non-expert users on Twitter in six months of three consecutive years (January and February in 2019, 2020 and 2021). Two machine learning-based classifiers were developed to identify the 413,985 tweets. We analysed this dataset to understand non-expert users` cyber security and privacy perspectives, including the yearly trend and the impact of the COVID-19 pandemic. We applied topic modelling, sentiment analysis and qualitative analysis of selected tweets in the dataset, leading to various interesting findings. For instance, we observed a 54% increase in non-expert users` tweets on cyber security and/or privacy related topics in 2021, compared to before the start of global COVID-19 lockdowns (January 2019 to February 2020). We also observed an increased level of help-seeking tweets during the COVID-19 pandemic. Our analysis revealed a diverse range of topics discussed by non-expert users across the three years, including VPNs, Wi-Fi, smartphones, laptops, smart home devices, financial security, and security and privacy issues involving different stakeholders. Overall negative sentiment was observed across almost all topics non-expert users discussed on Twitter in all the three years. Our results confirm the multi-faceted nature of non-expert users` perspectives on cyber security and privacy and call for more holistic, comprehensive and nuanced research on different facets of such perspectives.
translated by 谷歌翻译
互联网上的自以为是的数据量正在迅速增加。越来越多的人在评论,讨论论坛,微博和一般社交媒体中分享他们的想法和意见。由于意见在所有人类活动中都是核心,因此已应用情绪分析来获得有关此类数据的见解。有几种情感分类的方法。主要缺点是缺乏用于分类和高级可视化的标准化解决方案。在这项研究中,提出了用于在线社交网络分析的情感分析仪仪表板。这是为了使人们能够获得对他们有趣的主题的见解。该工具允许用户在仪表板中运行所需的情感分析算法。除了提供几种可视化类型外,仪表板还促进了来自情感分类的原始数据结果,可以下载以进行进一步分析。
translated by 谷歌翻译
Following the outbreak of a global pandemic, online content is filled with hate speech. Donald Trump's ''Chinese Virus'' tweet shifted the blame for the spread of the Covid-19 virus to China and the Chinese people, which triggered a new round of anti-China hate both online and offline. This research intends to examine China-related hate speech on Twitter during the two years following the burst of the pandemic (2020 and 2021). Through Twitter's API, in total 2,172,333 tweets hashtagged #china posted during the time were collected. By employing multiple state-of-the-art pretrained language models for hate speech detection, we identify a wide range of hate of various types, resulting in an automatically labeled anti-China hate speech dataset. We identify a hateful rate in #china tweets of 2.5% in 2020 and 1.9% in 2021. This is well above the average rate of online hate speech on Twitter at 0.6% identified in Gao et al., 2017. We further analyzed the longitudinal development of #china tweets and those identified as hateful in 2020 and 2021 through visualizing the daily number and hate rate over the two years. Our keyword analysis of hate speech in #china tweets reveals the most frequently mentioned terms in the hateful #china tweets, which can be used for further social science studies.
translated by 谷歌翻译
Covid-19在大流行的不同阶段对公众构成了不成比例的心理健康后果。我们使用一种计算方法来捕获引发在线社区对大流行的焦虑的特定方面,并研究这些方面如何随时间变化。首先,我们使用主题分析在R/covid19 \ _support的Reddit帖子样本($ n $ = 86)中确定了九个焦虑(SOA)。然后,我们通过在手动注释的样本($ n $ = 793)上训练Reddit用户的焦虑来自动将SOA标记在较大的年代样本中($ n $ = 6,535)。 9个SOA与最近开发的大流行焦虑测量量表中的项目保持一致。我们观察到,在大流行的前八个月,Reddit用户对健康风险的担忧仍然很高。尽管案件激增稍后发生,但这些担忧却大大减少了。通常,随着大流行的进展,用户的语言披露了SOA的强烈强度。但是,在本研究涵盖的整个期间,人们对心理健康的担忧和未来稳步增长。人们还倾向于使用更强烈的语言来描述心理健康问题,而不是健康风险或死亡问题。我们的结果表明,尽管Covid-19逐渐削弱,但由于适当的对策而逐渐削弱了作为健康威胁,但该在线小组的心理健康状况并不一定会改善。我们的系统为人口健康和流行病学学者奠定了基础,以及时检查引起大流行焦虑的方面。
translated by 谷歌翻译
这篇研究论文提出了COVID-19监测和响应系统,以确定医院患者的数量激增以及关键设备(如东南亚国家的呼吸机),以了解医疗机构的负担。这可以通过资源计划措施来帮助这些地区的当局,以将资源重定向到模型确定的地区。由于缺乏有关医院患者涌入的公开可用数据,或者这些国家可能面临的设备,ICU单元或医院病床的短缺,我们利用Twitter数据来收集此信息。该方法为印度的各州提供了准确的结果,我们正在努力验证其余国家的模型,以便它可以作为当局监控医院负担的可靠工具。
translated by 谷歌翻译
Covid-19的传播引发了针对亚洲社区的社交媒体的种族主义和仇恨。然而,关于种族仇恨在大流行期间的差异和柜台垂直在减轻这种蔓延的角色时,很少见过。在这项工作中,我们研究了通过推特镜头的反亚洲仇恨演讲的演变和传播。我们创建了Covid-讨厌,这是一个跨越14个月的反亚洲仇恨和柜台的最大数据集,含有超过2.06亿推文,以及超过1.27亿节节点的社交网络。通过创建一个新的手工标记数据集,3,355推文,我们培训文本分类器以识别仇恨和柜台jeech推文,以实现0.832的平均宏F1得分。使用此数据集,我们对推文和用户进行纵向分析。社交网络的分析揭示了可恨和柜台的用户互相互动,彼此广泛地互动,而不是生活在孤立的极化社区中。我们发现在暴露于仇恨内容后,节点很可能变得仇恨。值得注意的是,柜台椎间目可能会阻止用户转向仇恨,可能暗示在Web和社交媒体平台上遏制讨厌的解决方案。数据和代码是在http://claws.cc.gatech.edu/covid。
translated by 谷歌翻译
我们开发一个从社交媒体文本数据中提取情绪的工具。我们的方法有三个主要优势。首先,它适用于财务背景;其次,它包含社交媒体数据的关键方面,例如非标准短语,表情符号和表情符号;第三,它通过顺序地学习潜在的表示来操作,该潜在表示包括单词顺序,单词使用和本地上下文等功能。此工具以及用户指南可供选择:https://github.com/dvamossy/mtract。使用大学,我们探讨了社会媒体和资产价格表达的投资者情绪之间的关系。我们记录了一些有趣的见解。首先,我们确认了一些受控实验室实验的调查结果,将投资者情绪与资产价格变动相关联。其次,我们表明投资者的情绪是预测日常价格变动的预测。当波动率或短暂的兴趣更高,当机构所有权或流动性降低时,这些影响更大。第三,在IPO之前增加了投资者的热情,促进了大量的第一天返回,并长期不足的IPO股票。为了证实我们的结果,我们提供了许多稳健性检查,包括使用替代情感模型。我们的研究结果强化了情绪和市场动态密切相关的直觉,并突出了在评估股票的短期价值时考虑投资者情绪的重要性。
translated by 谷歌翻译
对于政治和社会科学以及语言学和自然语言处理(NLP),它们都很有趣。退出研究涵盖了各个议会内的讨论。相比之下,我们将高级NLP方法应用于2017年至2020年之间的六个国家议会(保加利亚,捷克语,法语,斯洛文尼亚,西班牙语和英国)的联合和比较分析,其笔录是Parlamint数据集收集的一部分。使用统一的方法,我们分析了讨论,情感和情感的主题。我们评估说话者的年龄,性别和政治取向是否可以从演讲中检测到。结果表明,分析国家之间的一些共同点和许多令人惊讶的差异。
translated by 谷歌翻译
在本文中,我们提出了一个手动注释的10,000名推文载有五个Covid-19事件的公开报告,包括积极和消极的测试,死亡,拒绝获得测试,索赔治愈和预防。我们为每种事件类型设计了插槽填充问题,并注释了总共31个细粒度的插槽,例如事件的位置,最近的旅行和密切联系人。我们表明我们的语料库可以支持微调基于伯特的分类器,以自动提取公共报告的事件,并帮助跟踪新疾病的传播。我们还证明,通过从数百万推文中提取的事件汇总,我们在回答复杂的查询时达到令人惊讶的高精度,例如“哪些组织在费城在费城测试的员工?”我们将释放我们的语料库(使用用户信息被删除),自动提取模型以及研究社区的相应知识库。
translated by 谷歌翻译
为了解决疫苗犹豫不决,这会损害COVID-19疫苗接种运动的努力,必须了解公共疫苗接种态度并及时掌握其变化。尽管具有可靠性和可信赖性,但基于调查的传统态度收集是耗时且昂贵的,无法遵循疫苗接种态度的快速发展。我们利用社交媒体上的文本帖子通过提出深入学习框架来实时提取和跟踪用户的疫苗接种立场。为了解决与疫苗相关话语中常用的讽刺和讽刺性的语言特征的影响,我们将用户社交网络邻居的最新帖子集成到框架中,以帮助检测用户的真实态度。根据我们从Twitter的注释数据集,与最新的仅文本模型相比,从我们框架实例化的模型可以提高态度提取的性能高达23%。使用此框架,我们成功地验证了使用社交媒体跟踪现实生活中疫苗接种态度的演变的可行性。我们进一步显示了对我们的框架的一种实际用途,它可以通过从社交媒体中感知到的信息来预测用户疫苗犹豫的变化的可能性。
translated by 谷歌翻译
社交媒体平台主持了有关每天出现的各种主题的讨论。理解所有内容并将其组织成类别是一项艰巨的任务。处理此问题的一种常见方法是依靠主题建模,但是使用此技术发现的主题很难解释,并且从语料库到语料库可能会有所不同。在本文中,我们提出了基于推文主题分类的新任务,并发布两个相关的数据集。鉴于涵盖社交媒体中最重要的讨论点的广泛主题,我们提供了最近时间段的培训和测试数据,可用于评估推文分类模型。此外,我们在任务上对当前的通用和领域特定语言模型进行定量评估和分析,这为任务的挑战和性质提供了更多见解。
translated by 谷歌翻译