近年来,《虚假新闻》的数据科学研究已经筹集了很大的势头,可以说是大型公共基准数据集的出现。尽管在媒体研究中,性别偏见是一个遍布新闻媒体的问题,但对性别偏见与虚假新闻之间的关系几乎没有探索。在这项工作中,我们提供了对假新闻的性别偏见的首次实证分析,利用公共基准数据集利用简单且基于透明的词典的方法。我们的分析确定了在三个方面的假新闻中,性别偏见的普遍性增加,即丰富,情感和近端单词。我们分析中的见解提供了一个强有力的论点,即性别偏见需要成为对假新闻研究的重要考虑因素。
translated by 谷歌翻译
尽管试图提高政治性别平等,但全球努力仍在努力确保女性的同等代表。这很可能与对权威妇女的性别偏见有关。在这项工作中,我们介绍了在线政治讨论中出现的性别偏见的全面研究。为此,我们在有关男性和女性政客的对话中收集了1000万条有关Reddit的评论,这使得对自动性别偏见检测进行了详尽的研究。我们不仅讨论了厌恶女性的语言,还解决了其他偏见的表现,例如以看似积极的情绪和主导地位归因于女性政客或描述符归因的差异的形式的仁慈性别歧视。最后,我们对调查语言和语言外暗示的政客进行了多方面的性别偏见研究。我们评估了5种不同类型的性别偏见,评估社交媒体语言和话语中存在的覆盖范围,组合,名义,感性和词汇偏见。总体而言,我们发现,与以前的研究相反,覆盖范围和情感偏见表明对女性政客的公共兴趣平等。名义和词汇分析的结果并没有明显的敌对或仁慈的性别歧视,这表明这种兴趣不像男性政客那样专业或尊重。女性政客通常以其名字命名,并与他们的身体,衣服或家庭有关。这是一种与男性相似的治疗方法。在现在被禁止的极右翼子列表中,这种差异最大,尽管性别偏见的差异仍然出现在右和左倾的子列表中。我们将策划的数据集释放给公众以进行未来研究。
translated by 谷歌翻译
在过去几年中,社交媒体上传播的错误消息激增,并导致了现实世界中的多种威胁。尽管有关于特定领域的虚假新闻(例如政治或医疗保健)的研究,但比较跨领域的虚假新闻几乎没有工作。在本文中,我们调查了2009年至2019年中国最大的Twitter式社交媒体平台的微博上的九个领域的虚假新闻。新收集的数据包含44,728个帖子,由40,215个用户发布,并重新发布了。 340万次。基于多域数据集的分布和传播,我们观察到,在诸如健康和医学之类的日常生活的领域中,虚假的消息比政治等其他领域的帖子更有效,但有效地传播的帖子较少,而政治虚假新闻具有最有效的扩散能力。关于微博上广泛散布的虚假新闻帖子与某些类型的用户(按性别,年龄等。此外,这些帖子都引起了重新播放的强烈情绪,并随着False-News启动器的积极参与而进一步扩散。我们的发现有可能在可疑新闻发现,真实性预测以及显示和解释中帮助设计错误的新闻检测系统。微博上的发现与现有作品的发现表明了细微的模式,这表明需要对来自不同平台,国家或语言的数据进行更多研究,以解决全球错误新闻。代码和新的匿名数据集可在https://github.com/ictmcg/characterizing-weibo-multi-domain-false-news上找到。
translated by 谷歌翻译
在过去十年中,假新闻和错误信息变成了一个主要问题,影响了我们生活的不同方面,包括政治和公共卫生。灵感来自自然人类行为,我们提出了一种自动检测假新闻的方法。自然人行为是通过可靠的来源交叉检查新信息。我们使用自然语言处理(NLP)并构建机器学习(ML)模型,可自动执行与一组预定义的可靠源进行交叉检查新信息的过程。我们为Twitter实施了此功能,并构建标记假推送的模型。具体而言,对于给定的推文,我们使用其文本来查找来自可靠的新闻机构的相关新闻。然后,我们培训一个随机森林模型,检查推文的文本内容是否与可信新闻对齐。如果不是,则推文被归类为假。这种方法通常可以应用于任何类型的信息,并且不限于特定的新闻故事或信息类别。我们的实施此方法提供了70美元的$ 70 \%$准确性,这优于其他通用假新闻分类模型。这些结果为假新闻检测提供了更明智和自然的方法。
translated by 谷歌翻译
语言可以用作再现和执行有害刻板印象和偏差的手段,并被分析在许多研究中。在本文中,我们对自然语言处理中的性别偏见进行了304篇论文。我们分析了社会科学中性别及其类别的定义,并将其连接到NLP研究中性别偏见的正式定义。我们调查了在对性别偏见的研究中应用的Lexica和数据集,然后比较和对比方法来检测和减轻性别偏见。我们发现对性别偏见的研究遭受了四个核心限制。 1)大多数研究将性别视为忽视其流动性和连续性的二元变量。 2)大部分工作都在单机设置中进行英语或其他高资源语言进行。 3)尽管在NLP方法中对性别偏见进行了无数的论文,但我们发现大多数新开发的算法都没有测试他们的偏见模型,并无视他们的工作的伦理考虑。 4)最后,在这一研究线上发展的方法基本缺陷涵盖性别偏差的非常有限的定义,缺乏评估基线和管道。我们建议建议克服这些限制作为未来研究的指导。
translated by 谷歌翻译
News articles both shape and reflect public opinion across the political spectrum. Analyzing them for social bias can thus provide valuable insights, such as prevailing stereotypes in society and the media, which are often adopted by NLP models trained on respective data. Recent work has relied on word embedding bias measures, such as WEAT. However, several representation issues of embeddings can harm the measures' accuracy, including low-resource settings and token frequency differences. In this work, we study what kind of embedding algorithm serves best to accurately measure types of social bias known to exist in US online news articles. To cover the whole spectrum of political bias in the US, we collect 500k articles and review psychology literature with respect to expected social bias. We then quantify social bias using WEAT along with embedding algorithms that account for the aforementioned issues. We compare how models trained with the algorithms on news articles represent the expected social bias. Our results suggest that the standard way to quantify bias does not align well with knowledge from psychology. While the proposed algorithms reduce the~gap, they still do not fully match the literature.
translated by 谷歌翻译
情感是引人入胜的叙事的关键部分:文学向我们讲述了有目标,欲望,激情和意图的人。情绪分析是情感分析更广泛,更大的领域的一部分,并且在文学研究中受到越来越多的关注。过去,文学的情感维度主要在文学诠释学的背景下进行了研究。但是,随着被称为数字人文科学(DH)的研究领域的出现,在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实,这一研究方向可以相对较新。在这项调查中,我们概述了现有的情感分析研究机构,以适用于文献。所评论的研究涉及各种主题,包括跟踪情节发展的巨大变化,对文学文本的网络分析以及了解文本的情感以及其他主题。
translated by 谷歌翻译
社交媒体通常在选举活动中被公众使用,以表达他们对不同问题的看法。在各种社交媒体渠道中,Twitter为研究人员和政客提供了一个有效的平台,以探索有关经济和外交政策等广泛主题的公众舆论。当前的文献主要集中于分析推文的内容而无需考虑用户的性别。这项研究收集和分析了大量推文,并使用计算,人类编码和统计分析来识别2020年美国总统选举期间发布的300,000多个推文中的主题。我们的发现是基于广泛的主题,例如税收,气候变化和Covid-19-19。在主题中,女性和男性用户之间存在着显着差异,超过70%的主题。
translated by 谷歌翻译
对于政治和社会科学以及语言学和自然语言处理(NLP),它们都很有趣。退出研究涵盖了各个议会内的讨论。相比之下,我们将高级NLP方法应用于2017年至2020年之间的六个国家议会(保加利亚,捷克语,法语,斯洛文尼亚,西班牙语和英国)的联合和比较分析,其笔录是Parlamint数据集收集的一部分。使用统一的方法,我们分析了讨论,情感和情感的主题。我们评估说话者的年龄,性别和政治取向是否可以从演讲中检测到。结果表明,分析国家之间的一些共同点和许多令人惊讶的差异。
translated by 谷歌翻译
人们普遍认为,美国政治语言的语气最近变得更加消极,尤其是当唐纳德·特朗普(Donald Trump)进入政治时。同时,关于特朗普是改变还是仅仅持续以前的趋势存在分歧。迄今为止,关于这些问题的数据驱动证据很少,部分原因是很难获得政客话语的全面,纵向记录。在这里,我们将心理语言工具应用于一个新闻中的2400万报价的新颖,全面的语料库,归因于18,627位美国政治家,以分析美国政客语言的语气在2008年至2020年之间的演变。我们表明,负面的频率在奥巴马任职期间,情感词不断下降,随着2016年主要运动的突然且持续增加了挑战前的标准偏差,即竞选前平均值的8%,以跨各方出现的模式。当省略特朗普的报价时,效果的规模下降了40%,当平均说话者而不是报价时,效果的规模下降了50%,这意味着著名的说话者,尤其是特朗普,尽管并不仅仅限于负面语言的贡献。这项工作提供了第一个大规模数据驱动的证据,表明特朗普的竞选活动开始作为催化剂,朝着更负面的政治语调转变,对有关美国政治状况的辩论产生了重要影响。
translated by 谷歌翻译
假新闻的迅速增加,这对社会造成重大损害,触发了许多假新闻相关研究,包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集:(1)假新闻检测,(2)事实验证,(3)其他任务;例如,假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后,我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究,而无需重新发明轮子,从而提高了深度的假新闻研究。
translated by 谷歌翻译
随着社交网络的发展,用于各种商业和政治目的的虚假新闻已经大量出现,并在在线世界中广泛存在。有了欺骗性的话,人们可以很容易地被假新闻感染,并会在没有任何事实检查的情况下分享它们。例如,在2016年美国总统选举期间,有关候选人的各种虚假新闻在官方新闻媒体和在线社交网络中都广泛传播。这些假新闻通常会发布以涂抹对手或支持候选人的身边。假新闻中的错误信息通常是为了激励选民的非理性情感和热情。这样的虚假新闻有时会带来毁灭性的影响,改善在线社交网络的信誉的一个重要目标是及时确定假新闻。在本文中,我们建议研究假新闻检测问题。自动假新闻标识非常困难,因为新闻的基于纯模型的事实检查仍然是一个开放问题,并且很少使用现有模型来解决该问题。通过对虚假新闻数据进行彻底的调查,从假新闻中使用的文本单词和图像都可以确定许多有用的明确功能。除了明确的功能外,假新闻中使用的单词和图像中还存在一些隐藏的模式,可以用我们模型中的多个卷积层提取的一组潜在特征来捕获。本文提出了一种称为Ti-CNN的模型(基于文本和图像信息的综合神经网络)。通过将显式和潜在功能投射到统一的特征空间中,Ti-CNN可以同时培训文本和图像信息。在现实世界中的假新闻数据集进行的广泛实验证明了Ti-CNN的有效性。
translated by 谷歌翻译
信息操作的目标是要更改整体信息环境VIS-\'A-VIS特定行为者。例如,“拖钓活动”寻求破坏特定公众人物的可信度,导致其他人不信任他们并将这些数字融为一体。为了完成这些目标,信息操作经常利用“巨魔” - 在这些数字上瞄准言语滥用的恶意在线演员。特别是在巴西,巴西现任总统的盟友被指控经营“仇恨内阁” - 这是一个拖钓的行动,这些行动是针对这位政治家和他政权的其他成员所称腐败的记者。检测有害言论的主要方法,例如Google的透视API,寻求识别具有有害内容的特定消息。虽然这种方法有助于将内容识别到下降,标志或删除,但是已知是脆弱的,并且可能会错过尝试将更加微妙的偏见引入话语。在这里,我们的目标是制定可能用于评估有针对性信息如何如何寻求改变特定行为者的整体价值或评估的措施。初步结果表明,众所周知的竞选活动比男性记者更多地是女性记者,而且这些运动可以在整体推特话语中留下可检测的痕迹。
translated by 谷歌翻译
这项工作介绍了一种新方法,以考虑文本分析中的主观性和一般上下文依赖性,并用作示例检测文本中传达的情绪。所提出的方法通过Marvin Minsky(1974)利用Mikolov等人的文本向量化的框架理论的计算版本来考虑主观性。 (2013),用于基于它们出现的上下文生成单词的分布式表示。我们的方法是基于三个组成部分:1。代表观点的框架/“房间”; 2.代表分析标准的基准 - 在这种情况下,情绪分类,从罗伯特·普特金(1980)的人类情绪研究; 3.要分析的文件。通过使用单词之间的相似性测量,我们能够在我们的案例研究中提取基准中的元素中的元素的相对相关性 - 对于要分析的文件。我们的方法提供了一种措施,考虑到读取文档的实体的角度。该方法可以应用于评估主体性与理解文本的相对值或含义相关的所有情况。主观性可以不限于人体反应,但它可用于提供具有与给定域(“房间”)相关的解释的文本。为了评估我们的方法,我们在政治领域中使用了测试案例。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
本文提出了一种新方法,用于在大规模语言数据集中自动检测具有词汇性别的单词。目前,对自然语言处理中性别偏见的评估取决于手动编译的性别表达词典,例如代词('He','She'等)和具有词汇性别的名词(“母亲”,“男友”,''女警等)。但是,如果没有定期更新这些列表的手动汇编,则可以导致静态信息,并且通常涉及单个注释者和研究人员的价值判断。此外,列表中未包含的术语不超出分析范围。为了解决这些问题,我们设计了一种基于词典的可扩展方法,以自动检测词汇性别,该性别可以提供具有高覆盖范围的动态,最新分析。我们的方法在确定从Wikipedia样本中随机检索的名词的词汇性别以及在先前研究中使用的性别单词列表中进行测试时达到了超过80%的精度。
translated by 谷歌翻译
We present the Verifee Dataset: a novel dataset of news articles with fine-grained trustworthiness annotations. We develop a detailed methodology that assesses the texts based on their parameters encompassing editorial transparency, journalist conventions, and objective reporting while penalizing manipulative techniques. We bring aboard a diverse set of researchers from social, media, and computer sciences to overcome barriers and limited framing of this interdisciplinary problem. We collect over $10,000$ unique articles from almost $60$ Czech online news sources. These are categorized into one of the $4$ classes across the credibility spectrum we propose, raging from entirely trustworthy articles all the way to the manipulative ones. We produce detailed statistics and study trends emerging throughout the set. Lastly, we fine-tune multiple popular sequence-to-sequence language models using our dataset on the trustworthiness classification task and report the best testing F-1 score of $0.52$. We open-source the dataset, annotation methodology, and annotators' instructions in full length at https://verifee.ai/research to enable easy build-up work. We believe similar methods can help prevent disinformation and educate in the realm of media literacy.
translated by 谷歌翻译
人们依靠新闻来了解世界各地正在发生的事情并告知他们的日常生活。在当今的世界中,当假新闻的扩散猖ramp时,拥有大规模且高质量的真实新闻文章来源,其中包含出版类别的信息对于学习真实新闻的自然语言语法和语义是有价值的。作为这项工作的一部分,我们提供了一个新闻类别数据集,其中包含从HuffPost获得的2012年至2018年的200K新闻头条,以及有用的元数据以实现各种NLP任务。在本文中,我们还从数据集中产生了一些新颖的见解,并描述了数据集的各种现有和潜在应用。
translated by 谷歌翻译
了解文本中表达的态度,也称为姿态检测,在旨在在线检测虚假信息的系统中起重要作用,无论是错误信息(无意的假)或虚假信息(故意错误地蔓延,恶意意图)。姿态检测已经以不同的方式在文献中框架,包括(a)作为事实检查,谣言检测和检测先前的事实检查的权利要求,或(b)作为其自己的任务的组件;在这里,我们看看两者。虽然已经进行了与其他相关任务的突出姿态检测,但诸如论证挖掘和情绪分析之类的其他相关任务,但没有调查姿态检测和错误和缺陷检测之间的关系。在这里,我们的目标是弥合这个差距。特别是,我们在焦点中审查和分析了该领域的现有工作,焦点中的错误和不忠实,然后我们讨论了汲取的经验教训和未来的挑战。
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译