智能论文笔记

Characterizing Multi-Domain False News and Underlying User Effects on Chinese Weibo

Qiang Sheng , Juan Cao , H. Russell Bernard , Kai Shu , Jintao Li , Huan Liu

分类：自然语言处理

2022-05-06

在过去几年中，社交媒体上传播的错误消息激增，并导致了现实世界中的多种威胁。尽管有关于特定领域的虚假新闻（例如政治或医疗保健）的研究，但比较跨领域的虚假新闻几乎没有工作。在本文中，我们调查了2009年至2019年中国最大的Twitter式社交媒体平台的微博上的九个领域的虚假新闻。新收集的数据包含44,728个帖子，由40,215个用户发布，并重新发布了。 340万次。基于多域数据集的分布和传播，我们观察到，在诸如健康和医学之类的日常生活的领域中，虚假的消息比政治等其他领域的帖子更有效，但有效地传播的帖子较少，而政治虚假新闻具有最有效的扩散能力。关于微博上广泛散布的虚假新闻帖子与某些类型的用户（按性别，年龄等。此外，这些帖子都引起了重新播放的强烈情绪，并随着False-News启动器的积极参与而进一步扩散。我们的发现有可能在可疑新闻发现，真实性预测以及显示和解释中帮助设计错误的新闻检测系统。微博上的发现与现有作品的发现表明了细微的模式，这表明需要对来自不同平台，国家或语言的数据进行更多研究，以解决全球错误新闻。代码和新的匿名数据集可在https://github.com/ictmcg/characterizing-weibo-multi-domain-false-news上找到。

translated by 谷歌翻译

Dataset of Fake News Detection and Fact Verification: A Survey

Taichi Murayama

分类：机器学习 | 自然语言处理

2021-11-05

假新闻的迅速增加，这对社会造成重大损害，触发了许多假新闻相关研究，包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集：（1）假新闻检测，（2）事实验证，（3）其他任务;例如，假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后，我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究，而无需重新发明轮子，从而提高了深度的假新闻研究。

translated by 谷歌翻译

Combating Health Misinformation in Social Media: Characterization, Detection, Intervention, and Open Issues

Canyu Chen , Haoran Wang , Matthew Shapiro , Yunyu Xiao , Fei Wang , Kai Shu

分类：人工智能

2022-11-10

Social media has been one of the main information consumption sources for the public, allowing people to seek and spread information more quickly and easily. However, the rise of various social media platforms also enables the proliferation of online misinformation. In particular, misinformation in the health domain has significant impacts on our society such as the COVID-19 infodemic. Therefore, health misinformation in social media has become an emerging research direction that attracts increasing attention from researchers of different disciplines. Compared to misinformation in other domains, the key differences of health misinformation include the potential of causing actual harm to humans' bodies and even lives, the hardness to identify for normal people, and the deep connection with medical science. In addition, health misinformation on social media has distinct characteristics from conventional channels such as television on multiple dimensions including the generation, dissemination, and consumption paradigms. Because of the uniqueness and importance of combating health misinformation in social media, we conduct this survey to further facilitate interdisciplinary research on this problem. In this survey, we present a comprehensive review of existing research about online health misinformation in different disciplines. Furthermore, we also systematically organize the related literature from three perspectives: characterization, detection, and intervention. Lastly, we conduct a deep discussion on the pressing open issues of combating health misinformation in social media and provide future directions for multidisciplinary researchers.

translated by 谷歌翻译

A Survey on Echo Chambers on Social Media: Description, Detection and Mitigation

Faisal Alatawi , Lu Cheng , Anique Tahir , Mansooreh Karami , Bohan Jiang , Tyler Black , Huan Liu

分类：机器学习

2021-12-09

社交媒体的回声室是一个重要的问题，可以引起许多负面后果，最近影响对Covid-19的响应。回声室促进病毒的阴谋理论，发现与疫苗犹豫不决，较少遵守面具授权，以及社会疏散的实践。此外，回声室的问题与政治极化等其他相关问题相连，以及误导的传播。回声室被定义为用户网络，用户只与支持其预先存在的信仰和意见的意见相互作用，并且他们排除和诋毁其他观点。本调查旨在从社会计算的角度检查社交媒体上的回声室现象，并为可能的解决方案提供蓝图。我们调查了相关文献，了解回声室的属性以及它们如何影响个人和社会。此外，我们展示了算法和心理的机制，这导致了回声室的形成。这些机制可以以两种形式表现出：（1）社交媒体推荐系统的偏见和（2）内部偏见，如确认偏见和精梳性。虽然减轻内部偏见是非常挑战的，但努力消除推荐系统的偏见。这些推荐系统利用我们自己的偏见来个性化内容建议，以使我们参与其中才能观看更多广告。因此，我们进一步研究了回声室检测和预防的不同计算方法，主要基于推荐系统。

translated by 谷歌翻译

A Survey on Multimodal Disinformation Detection

Firoj Alam , Stefano Cresci , Tanmoy Chakraborty , Fabrizio Silvestri , Dimiter Dimitrov , Giovanni Da San Martino , Shaden Shaar , Hamed Firooz , Preslav Nakov

分类：人工智能 | 自然语言处理 | 机器学习

2021-03-13

近年来，在网上见证了令人反感的内容的泛滥，例如假新闻，宣传，错误信息和虚假信息。虽然最初这主要是关于文本内容，但随着时间的流逝，图像和视频越来越受欢迎，因为它们更容易消费，吸引更多的关注并比文本更广泛地传播。结果，研究人员开始利用不同的方式及其组合来解决在线多模式进攻内容。在这项研究中，我们提供了有关最新的多模式虚假信息检测的调查，该检测涵盖了各种模式组合：文本，图像，语音，视频，社交媒体网络结构和时间信息。此外，尽管有些研究集中于事实，但其他研究调查了内容的有害性。尽管虚假信息定义中的这两个组成部分（i）事实和（ii）有害性同样重要，但通常会孤立地研究它们。因此，我们主张在同一框架中考虑多种方式以及事实和有害性来解决虚假信息检测。最后，我们讨论当前的挑战和未来的研究方向

translated by 谷歌翻译

A Survey on Stance Detection for Mis- and Disinformation Identification

Momchil Hardalov , Arnav Arora , Preslav Nakov , Isabelle Augenstein

分类：自然语言处理

2021-02-27

了解文本中表达的态度，也称为姿态检测，在旨在在线检测虚假信息的系统中起重要作用，无论是错误信息（无意的假）或虚假信息（故意错误地蔓延，恶意意图）。姿态检测已经以不同的方式在文献中框架，包括（a）作为事实检查，谣言检测和检测先前的事实检查的权利要求，或（b）作为其自己的任务的组件;在这里，我们看看两者。虽然已经进行了与其他相关任务的突出姿态检测，但诸如论证挖掘和情绪分析之类的其他相关任务，但没有调查姿态检测和错误和缺陷检测之间的关系。在这里，我们的目标是弥合这个差距。特别是，我们在焦点中审查和分析了该领域的现有工作，焦点中的错误和不忠实，然后我们讨论了汲取的经验教训和未来的挑战。

translated by 谷歌翻译

Taking a Language Detour: How International Migrants Speaking a Minority Language Seek COVID-Related Information in Their Host Countries

Ge Gao , Jian Zheng , Eun Kyoung Choe , Naomi Yamashita

分类：自然语言处理

2022-09-07

在公共危机时期，寻求信息对于人们的自我保健和福祉至关重要。广泛的研究调查了经验理解和技术解决方案，以促进受影响地区的家庭公民寻求信息。但是，建立有限的知识是为了支持需要在其东道国发生危机的国际移民。当前的论文对居住在日本和美国（n = 14）的两名中国移民（n = 14）进行了访谈研究。参与者反思了他们在共同大流行期间寻求经验的信息。反思补充了两周的自我追踪，参与者保持了相关信息寻求实践的记录。我们的数据表明，参与者经常绕开语言绕道，或访问普通话资源以获取有关其东道国疫情爆发的信息。他们还进行了战略性利用普通话信息，以进行选择性阅读，交叉检查以及对日语或英语的共同信息的上下文化解释。尽管这种做法增强了参与者对共同相关信息收集和感官的有效性，但他们有时会通过有时认识的方式使人们处于不利地位。此外，参与者缺乏对审查以移民为导向的信息的认识或偏爱，尽管该信息可用，这些信息是由东道国公共当局发布的。在这些发现的基础上，我们讨论了改善国际移民在非本地语言和文化环境中寻求共同相关信息的解决方案。我们主张包容性危机基础设施，这些基础设施将吸引以当地语言流利程度，信息素养和利用公共服务的经验的不同水平的人们。

translated by 谷歌翻译

A Survey on Automated Fact-Checking

Zhijiang Guo , Michael Schlichtkrull , Andreas Vlachos

分类：自然语言处理

2021-08-26

由于信息和错误信息都可以在现代媒体生态系统中传播的速度，事实检查变得越来越重要。因此，研究人员一直在探索如何自动检查，使用基于自然语言处理，机器学习，知识表示以及数据库来自动检查的技术，以自动预测所称的索赔的真实性。在本文中，我们从自然语言处理中调查了自动检查源，并讨论其与相关任务和学科的联系。在此过程中，我们概述了现有数据集和模型，旨在统一给出的各种定义和识别共同概念。最后，我们突出了未来研究的挑战。

translated by 谷歌翻译

Automated Fake News Detection using cross-checking with reliable sources

Zahra Ghadiri , Milad Ranjbar , Fakhteh Ghanbarnejad , Sadegh Raeisi

分类：自然语言处理

2022-01-01

在过去十年中，假新闻和错误信息变成了一个主要问题，影响了我们生活的不同方面，包括政治和公共卫生。灵感来自自然人类行为，我们提出了一种自动检测假新闻的方法。自然人行为是通过可靠的来源交叉检查新信息。我们使用自然语言处理（NLP）并构建机器学习（ML）模型，可自动执行与一组预定义的可靠源进行交叉检查新信息的过程。我们为Twitter实施了此功能，并构建标记假推送的模型。具体而言，对于给定的推文，我们使用其文本来查找来自可靠的新闻机构的相关新闻。然后，我们培训一个随机森林模型，检查推文的文本内容是否与可信新闻对齐。如果不是，则推文被归类为假。这种方法通常可以应用于任何类型的信息，并且不限于特定的新闻故事或信息类别。我们的实施此方法提供了70美元的$ 70 \％$准确性，这优于其他通用假新闻分类模型。这些结果为假新闻检测提供了更明智和自然的方法。

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Dimensional Modeling of Emotions in Text with Appraisal Theories: Corpus Creation, Annotation Reliability, and Prediction

Enrica Troiano , Laura Oberländer , Roman Klinger

分类：自然语言处理

2022-06-10

情绪分析中最突出的任务是为文本分配情绪，并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是，即使没有明确提及情感名称，也可以通过单独参考事件来隐式传达情绪。在心理学中，被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量，通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的，如果该人认为自己负责，是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的，例如，新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性，目的是理解注释者是否可以可靠地重建评估概念，如果可以通过文本分类器预测，以及评估概念是否有助于识别情感类别。为了实现这一目标，我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后，我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估，并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明，两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明，评估概念改善了文本中情绪的分类。

translated by 谷歌翻译

Short Video Uprising: How #BlackLivesMatter Content on TikTok Challenges the Protest Paradigm

Yanru Jiang , Xin Jin , Qinhao Deng

分类：计算机视觉

2022-06-20

这项研究使用Tiktok（n = 8,173）来研究最近黑人生活问题运动中抗议范式的短形式视频平台。采用计算机介导的视觉分析，计算机视觉，以确定多媒体内容中的四个视觉抗议（RIOT，COMPRANTATION，COMPROTATION，COMPAINCALE和DEBATE）的存在。描述性统计和t检验的结果表明，在Tiktok上很少发现三个合法化框架 - 暴动，对抗和奇观 - 而辩论框架（赋予边缘化社区）的辩论框架占据了公共领域的主导。但是，尽管三个合法化框架获得了较低的社交媒体可见性，但按照观点，喜欢，分享，追随者和持续时间衡量，但合法化的要素，例如辩论框架，少数群体身份和非正式来源，通常不受Tiktok受众的青睐。。这项研究得出的结论是，尽管简短的视频平台可能会挑战内容创作者方面的抗议范式，但社交媒体可见性衡量的受众偏爱仍可能与抗议范式相关。

translated by 谷歌翻译

The Moral Foundations Reddit Corpus

Jackson Trager , Alireza S. Ziabari , Aida Mostafazadeh Davani , Preni Golazazian , Farzan Karimi-Malekabadi , Ali Omrani , Zhihe Li , Brendan Kennedy , Nils Karl Reimer , Melissa Reyes

分类：自然语言处理 | 机器学习

2022-08-10

道德框架和情感会影响各种在线和离线行为，包括捐赠，亲环境行动，政治参与，甚至参与暴力抗议活动。自然语言处理中的各种计算方法（NLP）已被用来从文本数据中检测道德情绪，但是为了在此类主观任务中取得更好的性能，需要大量的手工注销训练数据。事实证明，以前对道德情绪注释的语料库已被证明是有价值的，并且在NLP和整个社会科学中都产生了新的见解，但仅限于Twitter。为了促进我们对道德修辞的作用的理解，我们介绍了道德基础Reddit语料库，收集了16,123个reddit评论，这些评论已从12个不同的子雷迪维特策划，由至少三个训练有素的注释者手工注释，用于8种道德情绪（即护理，相称性，平等，纯洁，权威，忠诚，瘦道，隐含/明确的道德）基于更新的道德基础理论（MFT）框架。我们使用一系列方法来为这种新的语料库（例如跨域分类和知识转移）提供基线道德句子分类结果。

translated by 谷歌翻译

Quantifying Gender Biases Towards Politicians on Reddit

Sara Marjanovic , Karolina Stańczak , Isabelle Augenstein

分类：自然语言处理

2021-12-22

尽管试图提高政治性别平等，但全球努力仍在努力确保女性的同等代表。这很可能与对权威妇女的性别偏见有关。在这项工作中，我们介绍了在线政治讨论中出现的性别偏见的全面研究。为此，我们在有关男性和女性政客的对话中收集了1000万条有关Reddit的评论，这使得对自动性别偏见检测进行了详尽的研究。我们不仅讨论了厌恶女性的语言，还解决了其他偏见的表现，例如以看似积极的情绪和主导地位归因于女性政客或描述符归因的差异的形式的仁慈性别歧视。最后，我们对调查语言和语言外暗示的政客进行了多方面的性别偏见研究。我们评估了5种不同类型的性别偏见，评估社交媒体语言和话语中存在的覆盖范围，组合，名义，感性和词汇偏见。总体而言，我们发现，与以前的研究相反，覆盖范围和情感偏见表明对女性政客的公共兴趣平等。名义和词汇分析的结果并没有明显的敌对或仁慈的性别歧视，这表明这种兴趣不像男性政客那样专业或尊重。女性政客通常以其名字命名，并与他们的身体，衣服或家庭有关。这是一种与男性相似的治疗方法。在现在被禁止的极右翼子列表中，这种差异最大，尽管性别偏见的差异仍然出现在右和左倾的子列表中。我们将策划的数据集释放给公众以进行未来研究。

translated by 谷歌翻译

Human Brains Can't Detect Fake News: A Neuro-Cognitive Study of Textual Disinformation Susceptibility

Cagri Arisoy , Anuradha Mandal , Nitesh Saxena

分类：自然语言处理

2022-07-18

数字虚假信息的传播（又称“假新闻”）可以说是互联网上最重要的威胁之一，它可能造成大规模的个人和社会伤害。虚假新闻攻击的敏感性取决于互联网用户在阅读后是否认为虚假新闻文章/摘要是合法的。在本文中，我们试图通过神经认知方法来深入了解用户对以文本为中心的假新闻攻击的敏感性。我们通过脑电图调查了与假/真实新闻有关的神经基础。我们与人类用户进行实验，以彻底调查用户对假/真实新闻的认知处理和认知处理。我们分析了不同类别新闻文章的假/真实新闻检测任务相关的神经活动。我们的结果表明，在人脑处理假新闻与真实新闻的方式上可能没有统计学意义或自动可推断的差异，而当人们受到（真实/假）新闻与安息状态甚至之间的差异时，会观察到明显的差异一些不同类别的假新闻。这一神经认知发现可能有助于证明用户对假新闻攻击的敏感性，这也从行为分析中得到了证实。换句话说，假新闻文章似乎与行为和神经领域的真实新闻文章几乎没有区别。我们的作品旨在剖析假新闻攻击的基本神经现象，并通过人类生物学的极限解释了用户对这些攻击的敏感性。我们认为，对于研究人员和从业者来说，这可能是一个显着的见解楷模

translated by 谷歌翻译

2020 U.S. presidential election in swing states: Gender differences in Twitter conversations

Amir Karami , Spring B. Clark , Anderson Mackenzie , Dorathea Lee , Michael Zhu , Hannah R. Boyajieff , Bailey Goldschmidt

分类：自然语言处理

2021-08-21

社交媒体通常在选举活动中被公众使用，以表达他们对不同问题的看法。在各种社交媒体渠道中，Twitter为研究人员和政客提供了一个有效的平台，以探索有关经济和外交政策等广泛主题的公众舆论。当前的文献主要集中于分析推文的内容而无需考虑用户的性别。这项研究收集和分析了大量推文，并使用计算，人类编码和统计分析来识别2020年美国总统选举期间发布的300,000多个推文中的主题。我们的发现是基于广泛的主题，例如税收，气候变化和Covid-19-19。在主题中，女性和男性用户之间存在着显着差异，超过70％的主题。

translated by 谷歌翻译

A Survey on Sentiment and Emotion Analysis for Computational Literary Studies

Evgeny Kim , Roman Klinger

分类：自然语言处理

2018-08-09

情感是引人入胜的叙事的关键部分：文学向我们讲述了有目标，欲望，激情和意图的人。情绪分析是情感分析更广泛，更大的领域的一部分，并且在文学研究中受到越来越多的关注。过去，文学的情感维度主要在文学诠释学的背景下进行了研究。但是，随着被称为数字人文科学（DH）的研究领域的出现，在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实，这一研究方向可以相对较新。在这项调查中，我们概述了现有的情感分析研究机构，以适用于文献。所评论的研究涉及各种主题，包括跟踪情节发展的巨大变化，对文学文本的网络分析以及了解文本的情感以及其他主题。

translated by 谷歌翻译

Dynamics of information flow and engaging power of narratives in the polarised debate on vaccines

Emanuele Brugnoli , Marco Delmastro

分类：机器学习

2022-07-25

在这项研究中，我们从新的全面角度处理了疫苗辩论的复杂性。为了关注意大利环境，我们研究了两个来源在2016 - 2021年期间产生的所有在线信息，这些信息符合误解的声誉，而没有声誉。尽管可靠的消息来源可以依靠更大的新闻编辑室，并涵盖更多的新闻，但对相应时间序列的转移熵分析表明，前者并不总是在疫苗主题上向后者占据主导地位。的确，流行前时期认为，即使是因果关系，错误的信息也使自己成为过程的领导者，并且比可靠来源的新闻更大程度地获得了用户参与。尽管在Covid-19爆发期间填补了这些信息差距，但可靠来源作为信息生态系统的驱动力的新发现的主要作用仅部分对减少用户对疫苗的错误信息的参与而产生了有益的效果。我们的结果确实表明，除了疫苗接种的有效性外，可靠的来源从未充分反对反vax的叙述，特别是在大大阶段的时期，因此有助于加剧科学否认和对阴谋论的信仰。然而，与此同时，他们确认了刻意提出令人信服的反叙事的错误信息传播的功效。确实，与其他两极分化的论点（例如安全问题，法律问题和疫苗业务）相比，疫苗接种的有效性是在大流行期间通过错误信息讨论的最不吸引人的话题。通过强调制度和主流交流的优势和劣势，我们的发现可能是改善和更好地针对疫苗错误信息的推动运动的宝贵资产。

translated by 谷歌翻译

Graphical Models of False Information and Fact Checking Ecosystems

Haiyue Yuan , Enes Altuncu , Shujun Li , Can Baskent

分类：人工智能

2022-08-24

在网上进行的虚假信息广泛传播，包括错误信息和虚假信息已成为我们高度数字化和全球化社会的主要问题。已经进行了大量研究来更好地理解在线虚假信息的不同方面，例如不同参与者的行为和传播模式，以及使用技术和社会技术手段更好地检测和预防此类信息。在线检测和揭穿虚假信息的一种主要方法是使用人类事实检查器，这些事实检查器可以通过自动化工具来帮助。尽管进行了大量研究，但我们注意到缺乏描述虚假信息和事实检查的复杂生态系统的概念模型存在很大的差距。在本文中，我们报告了此类生态系统的第一批图形模型，这些模型重点介绍了在多种情况下在线的虚假信息，包括传统媒体和用户生成的内容。拟议的模型涵盖了广泛的实体类型和关系，可以成为研究人员和从业者在线研究虚假信息以及事实检查的效果的新工具。

translated by 谷歌翻译

HTML版本

Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media during the COVID-19 Crisis

Bing He , Caleb Ziems , Sandeep Soni , Naren Ramakrishnan , Diyi Yang , Srijan Kumar

分类：自然语言处理

2020-05-25

Covid-19的传播引发了针对亚洲社区的社交媒体的种族主义和仇恨。然而，关于种族仇恨在大流行期间的差异和柜台垂直在减轻这种蔓延的角色时，很少见过。在这项工作中，我们研究了通过推特镜头的反亚洲仇恨演讲的演变和传播。我们创建了Covid-讨厌，这是一个跨越14个月的反亚洲仇恨和柜台的最大数据集，含有超过2.06亿推文，以及超过1.27亿节节点的社交网络。通过创建一个新的手工标记数据集，3,355推文，我们培训文本分类器以识别仇恨和柜台jeech推文，以实现0.832的平均宏F1得分。使用此数据集，我们对推文和用户进行纵向分析。社交网络的分析揭示了可恨和柜台的用户互相互动，彼此广泛地互动，而不是生活在孤立的极化社区中。我们发现在暴露于仇恨内容后，节点很可能变得仇恨。值得注意的是，柜台椎间目可能会阻止用户转向仇恨，可能暗示在Web和社交媒体平台上遏制讨厌的解决方案。数据和代码是在http://claws.cc.gatech.edu/covid。

translated by 谷歌翻译