在明确的政治事件(例如选举)的背景下,经常对两极分化和回声室进行研究,而在非政治背景下,很少有学术研究检查了政治团体的混合。在非政治背景下研究政治两极分化的一个主要障碍是,政治倾向(即左派与右取向)通常是未知的。尽管如此,众所周知,政治倾向与许多生活方式选择相关联(有时很强),导致刻板印象,例如“拿铁咖啡自由主义者”。我们开发了一个机器学习分类器,以推断出从非政治文本中倾斜的政治倾向,并且可以选择地,用户在社交媒体上关注的帐户。我们使用在Twitter上共享的选民建议申请结果作为我们的地面图,并在Twitter数据集上训练并测试我们的分类器,其中包括3200个用户的3200个最新推文,此前删除了任何有政治文本的推文。我们将大多数用户的政治倾向正确分类(F1分数从0.70到0.85,具体取决于覆盖范围)。我们发现政治活动水平与我们的分类结果之间没有关系。我们将分类器应用于英国新闻共享的案例研究,发现一般而言,政治新闻的共享表现出独特的左右鸿沟,而体育新闻则没有。
translated by 谷歌翻译
最近受到在线叙述驱动的疫苗犹豫会大大降低了疫苗接种策略的功效,例如Covid-19。尽管医学界对可用疫苗的安全性和有效性达成了广泛的共识,但许多社交媒体使用者仍被有关疫苗的虚假信息淹没,并且柔和或不愿意接种疫苗。这项研究的目的是通过开发能够自动识别负责传播反疫苗叙事的用户的系统来更好地理解反疫苗情绪。我们引入了一个公开可用的Python软件包,能够分析Twitter配置文件,以评估该个人资料将来分享反疫苗情绪的可能性。该软件包是使用文本嵌入方法,神经网络和自动数据集生成的,并接受了数百万条推文培训。我们发现,该模型可以准确地检测出抗疫苗用户,直到他们推文抗Vaccine主题标签或关键字。我们还展示了文本分析如何通过检测Twitter和常规用户之间的抗疫苗传播器之间的道德和情感差异来帮助我们理解反疫苗讨论的示例。我们的结果将帮助研究人员和政策制定者了解用户如何成为反疫苗感以及他们在Twitter上讨论的内容。政策制定者可以利用此信息进行更好的针对性的运动,以揭露有害的反疫苗接种神话。
translated by 谷歌翻译
社交媒体在现代社会中尤其是在西方世界中的政策制定方面已经变得极其影响力(例如,48%的欧洲人每天或几乎每天都使用社交媒体)。 Twitter之类的平台使用户可以关注政客,从而使公民更多地参与政治讨论。同样,政客们使用Twitter来表达他们的观点,在当前主题上进行辩论,并促进其政治议程,以影响选民行为。先前的研究表明,传达负面情绪的推文可能会更频繁地转发。在本文中,我们试图分析来自不同国家的政客的推文,并探索他们的推文是否遵循相同的趋势。利用最先进的预训练的语言模型,我们对从希腊,西班牙和英国的成千上万的推文进行了情感分析,包括权威的行政部门。我们通过系统地探索和分析有影响力和不流行的推文之间的差异来实现这一目标。我们的分析表明,政治家的负面推文更广泛地传播,尤其是在最近的时代,并突出了情感和受欢迎程度相交的有趣趋势。
translated by 谷歌翻译
美国的意识形态分裂在日常交流中变得越来越突出。因此,关于政治两极分化的许多研究,包括最近采取计算观点的许多努力。通过检测文本语料库中的政治偏见,可以尝试描述和辨别该文本的两极分性。从直觉上讲,命名的实体(即,用作名词的名词和短语)和文本中的标签经常带有有关政治观点的信息。例如,使用“支持选择”一词的人可能是自由的,而使用“亲生生命”一词的人可能是保守的。在本文中,我们试图揭示社交媒体文本数据中的政治极性,并通过将极性得分分配给实体和标签来量化这些极性。尽管这个想法很简单,但很难以可信赖的定量方式进行这种推论。关键挑战包括少数已知标签,连续的政治观点,以及在嵌入单词媒介中的极性得分和极性中性语义含义的保存。为了克服这些挑战,我们提出了极性感知的嵌入多任务学习(PEM)模型。该模型包括(1)自制的上下文保护任务,(2)基于注意力的推文级别的极性推导任务,以及(3)对抗性学习任务,可促进嵌入式的极性维度及其语义之间的独立性方面。我们的实验结果表明,我们的PEM模型可以成功学习极性感知的嵌入。我们检查了各种应用,从而证明了PEM模型的有效性。我们还讨论了我们的工作的重要局限性,并在将PEM模型应用于现实世界情景时的压力谨慎。
translated by 谷歌翻译
随着共同群众在社交媒体中的参与不断上升,政策制定者/记者在社交媒体上进行在线民意调查以了解人们在特定地点的政治倾向是越来越普遍的。这里的警告是,只有有影响力的人才能进行这样的在线民意调查并大规模伸展。此外,在这种情况下,选民的分配是不可控制的,实际上可能是有偏见的。另一方面,如果我们可以通过社交媒体解释公开可用的数据来探究用户的政治倾向,我们将能够对调查人群有可控的见解,保持低调的成本,并在没有公开数据的情况下收集公开可用的数据涉及有关人员。因此,我们引入了一个自我牵键的半监督框架,以进一步进一步实现这一目标。我们模型的优点是它既不需要大量的培训数据,也不需要存储社交网络参数。然而,它在没有带注释的数据的情况下达到了93.7 \%的精度。此外,每个课程只有几个注释的示例可以实现竞争性能。我们发现,即使在资源约束的设置中,该模型也是高效的,并且从其预测中得出的见解与手动调查结果相匹配时,将其应用于不同的现实生活中。
translated by 谷歌翻译
自Covid-19大流行病开始以来,疫苗一直是公共话语中的重要话题。疫苗周围的讨论被两极分化,因为有些人认为它们是结束大流行的重要措施,而另一些人则犹豫不决或发现它们有害。这项研究调查了与Twitter上的Covid-19疫苗有关的帖子,并着重于对疫苗有负姿态的帖子。收集了与COVID-19疫苗相关的16,713,238个英文推文的数据集,收集了涵盖从2020年3月1日至2021年7月31日的该期间。我们使用Scikit-Learn Python库来应用支持向量机(SVM)分类器针对Covid-19疫苗的推文具有负姿态。总共使用了5,163个推文来训练分类器,其中有2,484个推文由我们手动注释并公开提供。我们使用Berttopic模型来提取和调查负推文中讨论的主题以及它们如何随时间变化。我们表明,随着疫苗的推出,对COVID-19疫苗的负面影响随时间而下降。我们确定了37个讨论主题,并随着时间的推移介绍了各自的重要性。我们表明,流行的主题包括阴谋讨论,例如5G塔和微芯片,但还涉及涉及疫苗接种安全性和副作用以及对政策的担忧。我们的研究表明,即使是不受欢迎的观点或阴谋论,与广受欢迎的讨论主题(例如Covid-19疫苗)配对时,也会变得广泛。了解问题和讨论的主题以及它们如何随着时间的变化对于政策制定者和公共卫生当局提供更好和时间的信息和政策,以促进未来类似危机的人口接种。
translated by 谷歌翻译
本文介绍了SocialVEC,这是一种从社交网络引出社会世界知识的一般框架,并将此框架应用于Twitter。 SocialVEC了解流行账户的低维嵌入,这代表了一般兴趣的实体,基于其账户内的共同发生模式,然后是个别用户,从而在社会人口统计术语中建模实体相似性。类似于Word Embeddings,这促进了涉及文本处理的任务,我们预计社会实体嵌入将使社会味道的任务受益。我们从推特网络的样本中学习了大约200,000个受欢迎的帐户的社交嵌入,其中包括超过130万用户和他们遵循的帐户,并在两个不同的任务中评估结果嵌入。第一个任务涉及从社交媒体简介中自动推动用户的个人特征。在另一个研究中,我们利用SocialVEC嵌入来衡量Twitter中新闻来源的政治偏见。在这两种情况下,与现有实体嵌入方案相比,我们证明SocialVEC嵌入是有利的。我们将公开为社会顾客实体嵌入而挪用,以支持在Twitter中反映的社会世界知识进一步探索。
translated by 谷歌翻译
鉴于社交媒体消费的增加,估计社交媒体使用者的政治倾向是一个具有挑战性且越来越紧迫的问题。我们介绍了retweet-bert,这是一个简单且可扩展的模型,以估算Twitter用户的政治倾向。 retweet-bert利用转发网络结构和用户配置文件描述中使用的语言。我们的假设源于具有类似意识形态的人的网络和语言学的模式。 retweet-bert表现出对其他最先进的基线的竞争性能,在最近的两个Twitter数据集(COVID-19数据集和2020年美国总统选举数据集)中,达到96%-97%的宏观F1。我们还执行手动验证,以验证培训数据中不在培训数据中的用户的retweet-bert的性能。最后,在Covid-19的案例研究中,我们说明了Twitter上政治回声室的存在,并表明它主要存在于正确的倾斜用户中。我们的代码是开源的,我们的数据已公开可用。
translated by 谷歌翻译
社交媒体平台主持了有关每天出现的各种主题的讨论。理解所有内容并将其组织成类别是一项艰巨的任务。处理此问题的一种常见方法是依靠主题建模,但是使用此技术发现的主题很难解释,并且从语料库到语料库可能会有所不同。在本文中,我们提出了基于推文主题分类的新任务,并发布两个相关的数据集。鉴于涵盖社交媒体中最重要的讨论点的广泛主题,我们提供了最近时间段的培训和测试数据,可用于评估推文分类模型。此外,我们在任务上对当前的通用和领域特定语言模型进行定量评估和分析,这为任务的挑战和性质提供了更多见解。
translated by 谷歌翻译
研究表明,与自杀相关的新闻媒体内容的暴露与自杀率相关,具有一些内容特征可能具有有害和其他可能的保护作用。虽然有一些选定的特征存在良好的证据,但是一般缺少系统的大规模调查,特别是社交媒体数据。我们应用机器学习方法以自动标记大量的Twitter数据。我们开发了一种新的注释计划,将与自杀相关的推文分类为不同的消息类型和问题,以解决方案为中心的视角。然后,我们培训了包括多数分类器的机器学习模型的基准,这是一种基于词频率的方法(具有线性SVM的TF-IDF)和两个最先进的深层学习模型(BERT,XLNET)。这两个深入学习模型在两个分类任务中实现了最佳性能:首先,我们分类了六个主要内容类别,包括个人故事,包括自杀意图和尝试或应对,呼吁采取措施传播问题意识或预防相关信息,自杀病例的报告以及其他与自杀相关和偏离主题推文的报告。深度学习模型平均达到73%以上的准确度,遍布六个类别,F1分数为69%和85%,除了自杀意念和尝试类别(55%)。其次,在分离帖子中,在偏离主题推文中指的是实际自杀题,他们正确标记了大约88%的推文,双方达到了F1分数为93%和74%。这些分类性能与类似任务的最先进的性能相当。通过使数据标签更有效,这项工作能够对各种社交媒体内容的有害和保护作用进行自杀率和寻求帮助行为的有害和保护作用。
translated by 谷歌翻译
即使互联网和社交媒体增加了人们可能会消耗的新闻和信息量,大多数用户才会暴露于加强其职位的内容,并将其与其他思想社区隔离。这种环境对我们的生活产生了极大的影响,如严重的政治极化,轻松传播的假新闻,政治极端主义,仇恨团体以及缺乏丰富的辩论等。因此,鼓励不同的用户组之间的对话并打破封闭的社区对健康社会的重要性。在本文中,我们使用自然语言处理技术和图形机学习算法来表征和研究在Twitter上打破社区的用户。特别是,我们从150万用户收集了900万个Twitter消息,并构建了转发网络。我们确定了他们的社区和与他们相关的讨论主题。通过这些数据,我们为社交媒体用户分类提供了一种机器学习框架,该分类检测到“社区分手”,即从他们的封闭社区到另一个用户的用户。三个Twitter极化政治数据集中的一个特征重要性分析表明,这些用户的PageRank值低,表明改变是推动的,因为他们的消息在其社区中没有响应。这种方法还允许我们确定其特定的兴趣主题,提供了这种用户的全面表征。
translated by 谷歌翻译
Media bias can significantly impact the formation and development of opinions and sentiments in a population. It is thus important to study the emergence and development of partisan media and political polarization. However, it is challenging to quantitatively infer the ideological positions of media outlets. In this paper, we present a quantitative framework to infer both political bias and content quality of media outlets from text, and we illustrate this framework with empirical experiments with real-world data. We apply a bidirectional long short-term memory (LSTM) neural network to a data set of more than 1 million tweets to generate a two-dimensional ideological-bias and content-quality measurement for each tweet. We then infer a ``media-bias chart'' of (bias, quality) coordinates for the media outlets by integrating the (bias, quality) measurements of the tweets of the media outlets. We also apply a variety of baseline machine-learning methods, such as a naive-Bayes method and a support-vector machine (SVM), to infer the bias and quality values for each tweet. All of these baseline approaches are based on a bag-of-words approach. We find that the LSTM-network approach has the best performance of the examined methods. Our results illustrate the importance of leveraging word order into machine-learning methods in text analysis.
translated by 谷歌翻译
道德框架和情感会影响各种在线和离线行为,包括捐赠,亲环境行动,政治参与,甚至参与暴力抗议活动。自然语言处理中的各种计算方法(NLP)已被用来从文本数据中检测道德情绪,但是为了在此类主观任务中取得更好的性能,需要大量的手工注销训练数据。事实证明,以前对道德情绪注释的语料库已被证明是有价值的,并且在NLP和整个社会科学中都产生了新的见解,但仅限于Twitter。为了促进我们对道德修辞的作用的理解,我们介绍了道德基础Reddit语料库,收集了16,123个reddit评论,这些评论已从12个不同的子雷迪维特策划,由至少三个训练有素的注释者手工注释,用于8种道德情绪(即护理,相称性,平等,纯洁,权威,忠诚,瘦道,隐含/明确的道德)基于更新的道德基础理论(MFT)框架。我们使用一系列方法来为这种新的语料库(例如跨域分类和知识转移)提供基线道德句子分类结果。
translated by 谷歌翻译
在过去十年中,假新闻和错误信息变成了一个主要问题,影响了我们生活的不同方面,包括政治和公共卫生。灵感来自自然人类行为,我们提出了一种自动检测假新闻的方法。自然人行为是通过可靠的来源交叉检查新信息。我们使用自然语言处理(NLP)并构建机器学习(ML)模型,可自动执行与一组预定义的可靠源进行交叉检查新信息的过程。我们为Twitter实施了此功能,并构建标记假推送的模型。具体而言,对于给定的推文,我们使用其文本来查找来自可靠的新闻机构的相关新闻。然后,我们培训一个随机森林模型,检查推文的文本内容是否与可信新闻对齐。如果不是,则推文被归类为假。这种方法通常可以应用于任何类型的信息,并且不限于特定的新闻故事或信息类别。我们的实施此方法提供了70美元的$ 70 \%$准确性,这优于其他通用假新闻分类模型。这些结果为假新闻检测提供了更明智和自然的方法。
translated by 谷歌翻译
从文本数据中推断出具有政治收费的信息是文本和作者级别的自然语言处理(NLP)的流行研究主题。近年来,对这种研究的研究是在伯特等变形金刚的代表性的帮助下进行的。尽管取得了很大的成功,但我们可能会询问是否通过将基于转换的模型与其他知识表示形式相结合,是否可以进一步改善结果。为了阐明这个问题,本工作描述了一系列实验,以比较英语和葡萄牙语中文本的政治推断的替代模型配置。结果表明,某些文本表示形式 - 特别是,BERT预训练的语言模型与句法依赖模型的联合使用可能胜过多个实验环境的替代方案,这是进一步研究异质文本表示的潜在强大案例在这些以及可能的其他NLP任务中。
translated by 谷歌翻译
少数群体一直在使用社交媒体来组织社会运动,从而产生深远的社会影响。黑人生活问题(BLM)和停止亚洲仇恨(SAH)是两个成功的社会运动,在Twitter上蔓延开来,促进了抗议活动和活动,反对种族主义,并提高公众对少数群体面临的其他社会挑战的认识。但是,以前的研究主要对与用户的推文或访谈进行了定性分析,这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格,量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此,在这项研究中,我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了(1)潜在的DIRICHLET分配模型,以了解顶级高级单词和主题以及(2)开放编码分析,以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文,并比较了它们的主题。我们的发现表明,这些推文在深度上讨论了各种有影响力的话题,社会正义,社会运动和情感情感都是两种运动的共同主题,尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析,以及有关AI,伦理和社会相互作用的文献。
translated by 谷歌翻译
分析短文(例如社交媒体帖子)由于其固有的简洁而非常困难。除了对此类帖子的主题进行分类之外,一个常见的下游任务是将这些文档的作者分组以进行后续分析。我们提出了一个新颖的模型,该模型通过对同一文档中的单词之间的强大依赖进行建模以及用户级主题分布来扩展潜在的Dirichlet分配。我们还同时群集用户,消除了对事后集群估计的需求,并通过将嘈杂的用户级主题分布缩小到典型值来改善主题估计。我们的方法的性能和比传统方法的性能(或更好),我们在美国参议员的推文数据集中证明了它的有用性,恢复了反映党派意识形态的有意义的主题和群集。我们还通过表征参议员群体讨论并提供不确定性量化的主题的遗产,从而在这些政治家中开发了一种新的回声室衡量标准。
translated by 谷歌翻译
黑人生活问题(BLM)是一项分散的社会运动,抗议对黑人个人和社区的暴力行为,重点是警察暴力。 2020年,艾哈迈德·阿贝里(Ahmaud Arbery),布雷纳·泰勒(Breonna Taylor)和乔治·弗洛伊德(George Floyd)的杀害后,该运动引起了人们的关注。#BlackLivesMatter社交媒体标签已经代表了基层运动,并以类似的标签来抗议BLM运动,例如#AllllivesMatter和#allllivesmatter和#allllivesmatter,以及#bluelivesmatter。我们介绍了来自100多个国家 /地区的1,300万用户的6390万推文的数据集,其中包含以下关键字之一:BlackLivesMatter,AlllivesMatter和BluelivesMatter。该数据集包含从2013年BLM运动开始到2021年的所有当前可用推文。我们总结了数据集并显示了使用BlackLivesMatter关键字和与反向运动相关的关键字的时间趋势。此外,对于每个关键字,我们创建并发布了一组潜在的Dirichlet分配(LDA)主题(即自动聚集了语义上共同共的单词的组),以帮助研究人员识别这三个关键字的语言模式。
translated by 谷歌翻译
尽管试图提高政治性别平等,但全球努力仍在努力确保女性的同等代表。这很可能与对权威妇女的性别偏见有关。在这项工作中,我们介绍了在线政治讨论中出现的性别偏见的全面研究。为此,我们在有关男性和女性政客的对话中收集了1000万条有关Reddit的评论,这使得对自动性别偏见检测进行了详尽的研究。我们不仅讨论了厌恶女性的语言,还解决了其他偏见的表现,例如以看似积极的情绪和主导地位归因于女性政客或描述符归因的差异的形式的仁慈性别歧视。最后,我们对调查语言和语言外暗示的政客进行了多方面的性别偏见研究。我们评估了5种不同类型的性别偏见,评估社交媒体语言和话语中存在的覆盖范围,组合,名义,感性和词汇偏见。总体而言,我们发现,与以前的研究相反,覆盖范围和情感偏见表明对女性政客的公共兴趣平等。名义和词汇分析的结果并没有明显的敌对或仁慈的性别歧视,这表明这种兴趣不像男性政客那样专业或尊重。女性政客通常以其名字命名,并与他们的身体,衣服或家庭有关。这是一种与男性相似的治疗方法。在现在被禁止的极右翼子列表中,这种差异最大,尽管性别偏见的差异仍然出现在右和左倾的子列表中。我们将策划的数据集释放给公众以进行未来研究。
translated by 谷歌翻译
在当今的世界中,每个人都以某种方式表现出来,而该项目的重点是人们使用Twitter的数据(一个微博平台)的数据,人们对英国和印度的电价上涨的看法,人们在该平台上发布了消息,人们发布了消息,称为Tweets。因为许多人的收入不好,他们必须缴纳如此多的税款和账单,因此如今,维持房屋已成为有争议的问题。尽管政府提供了补贴计划来补偿人们的电费,但不受人们的欢迎。在这个项目中,目的是对Twitter上表达的人们的表达和观点进行情感分析。为了掌握电价的意见,有必要对能源市场的政府和消费者进行情感分析。此外,这些媒体上存在的文本本质上是非结构化的,因此要处理它们,我们首先需要预处理数据。有很多功能提取技术,例如单词袋,tf-idf(术语频率为单位的文档频率),单词嵌入,基于NLP的功能,例如Word Count。在该项目中,我们分析了特征TF-IDF单词级别对情感分析数据集的影响。我们发现,通过使用TF-IDF单词级别的性能分析的表现比使用N-Gram功能高3-4。使用四种分类算法进行分析,包括幼稚的贝叶斯,决策树,随机森林和逻辑回归,并考虑F评分,准确性,精度和召回性能参数。
translated by 谷歌翻译