智能论文笔记

Style Matters! Investigating Linguistic Style in Online Communities

Osama Khalid , Padmini Srinivasan

分类：自然语言处理

2022-09-27

历史上，内容一直是用于研究在线社区语言的主要镜头。相反，本文重点介绍了社区的语言风格。虽然我们知道个人具有可区分的风格，但我们在这里询问社区是否具有可区分的风格。此外，尽管先前的工作依赖于风格的狭义定义，但我们采用了一个广泛的定义，涉及262个功能来分析来自3个社交媒体平台的9个在线社区的语言风格，讨论政治，电视和旅行。我们发现社区确实具有不同的风格。此外，样式是小组成员资格的出色预测指标（F-评分0.952和准确性96.09％）。虽然平均而言，它在统计学上等同于仅使用内容的预测，但它对于减少培训数据的弹性更具弹性。

translated by 谷歌翻译

What Are You Anxious About? Examining Subjects of Anxiety during the COVID-19 Pandemic

Lucia L. Chen , Steven R. Wilson , Sophie Lohmann , Daniela V. Negraia

分类：自然语言处理

2022-09-27

Covid-19在大流行的不同阶段对公众构成了不成比例的心理健康后果。我们使用一种计算方法来捕获引发在线社区对大流行的焦虑的特定方面，并研究这些方面如何随时间变化。首先，我们使用主题分析在R/covid19 \ _support的Reddit帖子样本（$ n $ = 86）中确定了九个焦虑（SOA）。然后，我们通过在手动注释的样本（$ n $ = 793）上训练Reddit用户的焦虑来自动将SOA标记在较大的年代样本中（$ n $ = 6,535）。 9个SOA与最近开发的大流行焦虑测量量表中的项目保持一致。我们观察到，在大流行的前八个月，Reddit用户对健康风险的担忧仍然很高。尽管案件激增稍后发生，但这些担忧却大大减少了。通常，随着大流行的进展，用户的语言披露了SOA的强烈强度。但是，在本研究涵盖的整个期间，人们对心理健康的担忧和未来稳步增长。人们还倾向于使用更强烈的语言来描述心理健康问题，而不是健康风险或死亡问题。我们的结果表明，尽管Covid-19逐渐削弱，但由于适当的对策而逐渐削弱了作为健康威胁，但该在线小组的心理健康状况并不一定会改善。我们的系统为人口健康和流行病学学者奠定了基础，以及时检查引起大流行焦虑的方面。

translated by 谷歌翻译

Smells like Teen Spirit: An Exploration of Sensorial Style in Literary Genres

Osama Khalid , Padmini Srinivasan

分类：自然语言处理

2022-09-26

人们认识到，感官感知和语言通过心理学，神经科学和感官语言学的众多研究具有互连。在这种丰富的背景下，我们询问在著作中使用感官语言是否是语言风格的一部分？从样式计量学研究的角度来看，这个问题很重要，在该研究中，已经探索了丰富的语言功能，但对与感觉语言相关的功能的关注不足。以此为目标，我们探索了关于歌词，小说和诗歌集合中的感官语言和风格的几个角度。例如，我们发现个人使用感官语言不是一种随机现象。选择可能涉及。同样，感官风格通常会随着时间的推移而稳定 - 转移非常小。此外，只需从具有感官术语的几百个句子中提取样式。我们还确定每种类型中的代表性和独特特征。例如，我们观察到，小说收集的前6个代表性特征中有4个涉及使用嗅觉语言的个人，我们希望他们使用非富特语言。

translated by 谷歌翻译

Quantifying How Hateful Communities Radicalize Online Users

Matheus Schmitz , Keith Burghardt , Goran Muric

分类：自然语言处理 | 机器学习

2022-09-19

虽然在线社交媒体提供了一种忽略或窒息的声音的方式，但它还使用户可以平台传播可恨的言论。这种讲话通常起源于边缘社区，但它可以溢出到主流渠道中。在本文中，我们衡量加入边缘仇恨社区的影响，以仇恨言论传播到社交网络的其余部分。我们利用Reddit的数据来评估加入一种回声室的效果：一个志趣相投的用户，表现出仇恨行为的数字社区。我们在成为积极参与者之前和之后衡量成员在研究社区之外的仇恨言论的用法。使用中断的时间序列（ITS）分析作为因果推理方法，我们衡量了溢出效应，其中某个社区内的可恨语言可以通过使用社区外的仇恨单词用作代理，可以通过使用社区的层次来传播该社区之外的效果对于博学的仇恨。我们研究了涵盖仇恨言论的三个领域的四个不同的Reddit子社区（子红）：种族主义，厌女症和脂肪欺骗。在所有三种情况下，我们发现在原始社区之外的仇恨言论都在增加，这意味着加入此类社区会导致仇恨言论在整个平台中传播。此外，在最初加入社区后的几个月后，发现用户可以在几个月内接受这种新的仇恨演讲。我们表明，有害的言论不保留在社区中。我们的结果提供了回声室有害影响的新证据，以及调节它们以减少仇恨言论的潜在好处。

translated by 谷歌翻译

We Are in This Together: Quantifying Community Subjective Wellbeing and Resilience

MeiXing Dong , Ruixuan Sun , Laura Biester , Rada Mihalcea

分类：自然语言处理

2022-08-23

19009年的大流行破坏了世界上每个人的生活。在这项工作中，我们表征了在疫苗可用性之前，在大流行期间，美国112个城市的主观福祉模式，如与城市相对应的亚列表所示。我们使用积极和负面影响量化主观健康。然后，我们通过将社区观察到的健康与预期的健康进行比较，衡量大流行的影响，如大流行前的时间序列模型所预测的那样。我们表明，语言反映的一般社区特征可以预测社区的能力。我们预测大流行将如何基于正常时间\ textit {之前的语言和互动特征{}大流行的语言和互动特征影响每个社区的福祉。我们发现，具有与更紧密联系的用户相对应的互动特征的社区，并且更高的参与度受到显着影响。值得注意的是，我们发现更多谈论通常经验丰富的社会关系的社区，例如朋友，家人和隶属关系，实际上更有可能受到影响。此外，我们还使用相同的功能来预测大流行初次发作后每个社区将恢复的速度。我们同样发现，更多地谈论家庭，隶属关系和确定为团体一部分的社区的康复较慢。

translated by 谷歌翻译

The Moral Foundations Reddit Corpus

Jackson Trager , Alireza S. Ziabari , Aida Mostafazadeh Davani , Preni Golazazian , Farzan Karimi-Malekabadi , Ali Omrani , Zhihe Li , Brendan Kennedy , Nils Karl Reimer , Melissa Reyes

分类：自然语言处理 | 机器学习

2022-08-10

道德框架和情感会影响各种在线和离线行为，包括捐赠，亲环境行动，政治参与，甚至参与暴力抗议活动。自然语言处理中的各种计算方法（NLP）已被用来从文本数据中检测道德情绪，但是为了在此类主观任务中取得更好的性能，需要大量的手工注销训练数据。事实证明，以前对道德情绪注释的语料库已被证明是有价值的，并且在NLP和整个社会科学中都产生了新的见解，但仅限于Twitter。为了促进我们对道德修辞的作用的理解，我们介绍了道德基础Reddit语料库，收集了16,123个reddit评论，这些评论已从12个不同的子雷迪维特策划，由至少三个训练有素的注释者手工注释，用于8种道德情绪（即护理，相称性，平等，纯洁，权威，忠诚，瘦道，隐含/明确的道德）基于更新的道德基础理论（MFT）框架。我们使用一系列方法来为这种新的语料库（例如跨域分类和知识转移）提供基线道德句子分类结果。

translated by 谷歌翻译

Dataset for Identification of Homophobia and Transophobia in Multilingual YouTube Comments

Bharathi Raja Chakravarthi , Ruba Priyadharshini , Rahul Ponnusamy , Prasanna Kumar Kumaresan , Kayalvizhi Sampath , Durairaj Thenmozhi , Sathiyaraj Thangasamy , Rajendran Nallathambi , John Phillip McCrae

分类：自然语言处理

2021-09-01

社交媒体平台上的滥用内容的增长增加对在线用户的负面影响。对女同性恋，同性恋者，跨性别或双性恋者的恐惧，不喜欢，不适或不疑虑被定义为同性恋/转铁症。同性恋/翻译语音是一种令人反感的语言，可以总结为针对LGBT +人的仇恨语音，近年来越来越受到兴趣。在线同性恋恐惧症/ Transphobobia是一个严重的社会问题，可以使网上平台与LGBT +人有毒和不受欢迎，同时还试图消除平等，多样性和包容性。我们为在线同性恋和转鸟以及专家标记的数据集提供了新的分类分类，这将允许自动识别出具有同种异体/传递内容的数据集。我们受过教育的注释器并以综合的注释规则向他们提供，因为这是一个敏感的问题，我们以前发现未受训练的众包注释者因文化和其他偏见而诊断倡导性的群体。数据集包含15,141个注释的多语言评论。本文介绍了构建数据集，数据的定性分析和注册间协议的过程。此外，我们为数据集创建基线模型。据我们所知，我们的数据集是第一个已创建的数据集。警告：本文含有明确的同性恋，转基因症，刻板印象的明确陈述，这可能对某些读者令人痛苦。

translated by 谷歌翻译

Understanding Postpartum Parents' Experiences via Two Digital Platforms

Xuewen Yao , Miriam Mikhelson , Megan Micheletti , Eunsol Choi , S Craig Watkins , Edison Thomaz , Kaya De Barbaro

分类：自然语言处理

2022-12-22

Digital platforms, including online forums and helplines, have emerged as avenues of support for caregivers suffering from postpartum mental health distress. Understanding support seekers' experiences as shared on these platforms could provide crucial insight into caregivers' needs during this vulnerable time. In the current work, we provide a descriptive analysis of the concerns, psychological states, and motivations shared by healthy and distressed postpartum support seekers on two digital platforms, a one-on-one digital helpline and a publicly available online forum. Using a combination of human annotations, dictionary models and unsupervised techniques, we find stark differences between the experiences of distressed and healthy mothers. Distressed mothers described interpersonal problems and a lack of support, with 8.60% - 14.56% reporting severe symptoms including suicidal ideation. In contrast, the majority of healthy mothers described childcare issues, such as questions about breastfeeding or sleeping, and reported no severe mental health concerns. Across the two digital platforms, we found that distressed mothers shared similar content. However, the patterns of speech and affect shared by distressed mothers differed between the helpline vs. the online forum, suggesting the design of these platforms may shape meaningful measures of their support-seeking experiences. Our results provide new insight into the experiences of caregivers suffering from postpartum mental health distress. We conclude by discussing methodological considerations for understanding content shared by support seekers and design considerations for the next generation of support tools for postpartum parents.

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Relationship Between Online Harmful Behaviors and Social Network Message Writing Style

Talia Sanchez Viera , Richard Khoury

分类：自然语言处理

2022-12-14

In this paper, we explore the relationship between an individual's writing style and the risk that they will engage in online harmful behaviors (such as cyberbullying). In particular, we consider whether measurable differences in writing style relate to different personality types, as modeled by the Big-Five personality traits and the Dark Triad traits, and can differentiate between users who do or do not engage in harmful behaviors. We study messages from nearly 2,500 users from two online communities (Twitter and Reddit) and find that we can measure significant personality differences between regular and harmful users from the writing style of as few as 100 tweets or 40 Reddit posts, aggregate these values to distinguish between healthy and harmful communities, and also use style attributes to predict which users will engage in harmful behaviors.

translated by 谷歌翻译

Quantifying Gender Biases Towards Politicians on Reddit

Sara Marjanovic , Karolina Stańczak , Isabelle Augenstein

分类：自然语言处理

2021-12-22

尽管试图提高政治性别平等，但全球努力仍在努力确保女性的同等代表。这很可能与对权威妇女的性别偏见有关。在这项工作中，我们介绍了在线政治讨论中出现的性别偏见的全面研究。为此，我们在有关男性和女性政客的对话中收集了1000万条有关Reddit的评论，这使得对自动性别偏见检测进行了详尽的研究。我们不仅讨论了厌恶女性的语言，还解决了其他偏见的表现，例如以看似积极的情绪和主导地位归因于女性政客或描述符归因的差异的形式的仁慈性别歧视。最后，我们对调查语言和语言外暗示的政客进行了多方面的性别偏见研究。我们评估了5种不同类型的性别偏见，评估社交媒体语言和话语中存在的覆盖范围，组合，名义，感性和词汇偏见。总体而言，我们发现，与以前的研究相反，覆盖范围和情感偏见表明对女性政客的公共兴趣平等。名义和词汇分析的结果并没有明显的敌对或仁慈的性别歧视，这表明这种兴趣不像男性政客那样专业或尊重。女性政客通常以其名字命名，并与他们的身体，衣服或家庭有关。这是一种与男性相似的治疗方法。在现在被禁止的极右翼子列表中，这种差异最大，尽管性别偏见的差异仍然出现在右和左倾的子列表中。我们将策划的数据集释放给公众以进行未来研究。

translated by 谷歌翻译

From words to connections: Word use similarity as an honest signal conducive to employees' digital communication

A. Fronzetti Colladon , J. Saint-Charles , P. Mongeau

分类：自然语言处理

2021-11-11

从三个研究趋势中汇集了考虑（合作的诚实信号，社会语义网络和同性恋理论），我们假设字词使用相似性并具有类似的社交网络位置与员工数字交互的水平相关联。为了验证我们的假设，我们分析了近1600名员工的沟通，在大公司的Intranet通信论坛上互动。我们研究了他们的社会动态和“诚实信号”，在过去的研究中证明有利于员工的参与和合作。我们发现这个词使用相似性是交互的主要驱动因素，远远超过网络位置的其他语言特征或相似性。我们的结果表明根据目标受众仔细选择语言，并对公司经理和在线社区管理员进行实际影响。例如，了解如何更好的使用语言可以支持开发知识共享实践或内部通信活动。

translated by 谷歌翻译

Understanding Online Migration Decisions Following the Banning of Radical Communities

Giuseppe Russo , Manoel Horta Ribeiro , Giona Casiraghi , Luca Verginer

分类：自然语言处理

2022-12-09

The proliferation of radical online communities and their violent offshoots has sparked great societal concern. However, the current practice of banning such communities from mainstream platforms has unintended consequences: (I) the further radicalization of their members in fringe platforms where they migrate; and (ii) the spillover of harmful content from fringe back onto mainstream platforms. Here, in a large observational study on two banned subreddits, r/The\_Donald and r/fatpeoplehate, we examine how factors associated with the RECRO radicalization framework relate to users' migration decisions. Specifically, we quantify how these factors affect users' decisions to post on fringe platforms and, for those who do, whether they continue posting on the mainstream platform. Our results show that individual-level factors, those relating to the behavior of users, are associated with the decision to post on the fringe platform. Whereas social-level factors, users' connection with the radical community, only affect the propensity to be coactive on both platforms. Overall, our findings pave the way for evidence-based moderation policies, as the decisions to migrate and remain coactive amplify unintended consequences of community bans.

translated by 谷歌翻译

Top Gear or Black Mirror: Inferring Political Leaning From Non-Political Content

Ahmet Kurnaz , Scott A. Hale

分类：自然语言处理

2022-08-11

在明确的政治事件（例如选举）的背景下，经常对两极分化和回声室进行研究，而在非政治背景下，很少有学术研究检查了政治团体的混合。在非政治背景下研究政治两极分化的一个主要障碍是，政治倾向（即左派与右取向）通常是未知的。尽管如此，众所周知，政治倾向与许多生活方式选择相关联（有时很强），导致刻板印象，例如“拿铁咖啡自由主义者”。我们开发了一个机器学习分类器，以推断出从非政治文本中倾斜的政治倾向，并且可以选择地，用户在社交媒体上关注的帐户。我们使用在Twitter上共享的选民建议申请结果作为我们的地面图，并在Twitter数据集上训练并测试我们的分类器，其中包括3200个用户的3200个最新推文，此前删除了任何有政治文本的推文。我们将大多数用户的政治倾向正确分类（F1分数从0.70到0.85，具体取决于覆盖范围）。我们发现政治活动水平与我们的分类结果之间没有关系。我们将分类器应用于英国新闻共享的案例研究，发现一般而言，政治新闻的共享表现出独特的左右鸿沟，而体育新闻则没有。

translated by 谷歌翻译

LibertyMFD: A Lexicon to Assess the Moral Foundation of Liberty

Oscar Araque , Lorenzo Gatti , Kyriaki Kalimeri

分类：自然语言处理

2022-09-14

量化在用户生成的文本，新闻或公共话语中表达的道德叙事对于理解个人的关注点和观点并防止暴力抗议和社会两极分化至关重要。发展道德基础理论（MFT）是为了在五维规模系统中运行道德。该理论的最新发展敦促引入新的基础，即自由基金会。直到最近才添加到理论中，没有可用的语言资源来评估文本语料库中是否存在自由。鉴于它对当前的社会问题（例如疫苗接种辩论）的重要性，我们提出了两种数据驱动的方法，这些方法是根据来自具有不同世界观的在线新闻来源的校准文档生成的两个候选词典。经过广泛的实验，我们为研究界做出了贡献，这是一个新颖的词典，它以对比观点对比的个人通过书面文本表达自己的方式来评估自由道德基础。 LibertyMFD词典可以成为政策制定者了解有争议的社会问题（例如疫苗接种，堕胎甚至起义）的各种观点的宝贵工具，并且大规模发生。

translated by 谷歌翻译

On the Evolution of (Hateful) Memes by Means of Multimodal Contrastive Learning

Yiting Qu , Xinlei He , Shannon Pierson , Michael Backes , Yang Zhang , Savvas Zannettou

分类：机器学习

2022-12-13

The dissemination of hateful memes online has adverse effects on social media platforms and the real world. Detecting hateful memes is challenging, one of the reasons being the evolutionary nature of memes; new hateful memes can emerge by fusing hateful connotations with other cultural ideas or symbols. In this paper, we propose a framework that leverages multimodal contrastive learning models, in particular OpenAI's CLIP, to identify targets of hateful content and systematically investigate the evolution of hateful memes. We find that semantic regularities exist in CLIP-generated embeddings that describe semantic relationships within the same modality (images) or across modalities (images and text). Leveraging this property, we study how hateful memes are created by combining visual elements from multiple images or fusing textual information with a hateful image. We demonstrate the capabilities of our framework for analyzing the evolution of hateful memes by focusing on antisemitic memes, particularly the Happy Merchant meme. Using our framework on a dataset extracted from 4chan, we find 3.3K variants of the Happy Merchant meme, with some linked to specific countries, persons, or organizations. We envision that our framework can be used to aid human moderators by flagging new variants of hateful memes so that moderators can manually verify them and mitigate the problem of hateful content online.

translated by 谷歌翻译

Style, Content, and the Success of Ideas

Reihane Boghrati , Jonah Berger , Grant Packard

分类：自然语言处理

2022-01-10

为什么有些事情在想法的市场中取得成功？虽然一些人认为内容推动成功，但其他人建议展示风格，或者思想的方式，也起到了重要作用。为了提供严谨的风格的重要性，我们将其审视内容应该是至关重要的：学术研究。虽然科学家们经常看到作为一种无私的方式，但多种方法调查表明写作风格的影响。从内容中分离风格可能是易于使用某些语言的论文也可能写出某些主题。因此，我们专注于链接到风格的独特单词（即，诸如“的功能词，”，“和”开启“），这些单词完全没有内容。来自一系列学科的自然语言处理近30,000篇文章发现功能词解释了13-27％的语言对引用的影响。辅助分析探讨了特定类别的功能词语，以表达风格的重要事项，突出了写作简单，个人声音和时间视角的作用。实验进一步强调了风格的因果影响。结果表明如何提高通信的影响并突出自然语言处理的价值，以了解思想成功。

translated by 谷歌翻译

Enriching Abusive Language Detection with Community Context

Jana Kurrek , Haji Mohammad Saleem , Derek Ruths

分类：自然语言处理

2022-06-16

贬值表达的使用可以是良性或积极赋予能力的。当滥用检测模型将这些表达式错误分类为贬义时，它们无意中审查了边缘化群体进行的生产性对话。参与非主导观点的一种方法是添加围绕对话的上下文。先前的研究利用了用户和线程级别的功能，但它经常忽略了发生生产性对话的空间。我们的论文强调了社区环境如何改善滥用语言检测的分类结果。我们为此做出了两个主要贡献。首先，我们证明，在线社区以他们对虐待受害者的支持的性质聚集。其次，我们确定社区环境如何提高准确性并降低最先进的滥用语言分类器的假阳性率。这些发现暗示了在滥用语言研究中的上下文感知模型的有希望的方向。

translated by 谷歌翻译

An Information Retrieval Approach to Building Datasets for Hate Speech Detection

Md Mustafizur Rahman , Dinesh Balakrishnan , Dhiraj Murthy , Mucahid Kutlu , Matthew Lease

分类：自然语言处理

2021-06-17

构建用于仇恨语音检测的基准数据集具有各种挑战。首先，因为仇恨的言论相对少见，随机抽样对诠释的推文是非常效率的发现仇恨。为了解决此问题，先前的数据集通常仅包含匹配已知的“讨厌字”的推文。然而，将数据限制为预定义的词汇表可能排除我们寻求模型的现实世界现象的部分。第二个挑战是仇恨言论的定义往往是高度不同和主观的。具有多种讨论仇恨言论的注释者可能不仅可能不同意彼此不同意，而且还努力符合指定的标签指南。我们的重点识别是仇恨语音的罕见和主体性类似于信息检索（IR）中的相关性。此连接表明，可以有效地应用创建IR测试集合的良好方法，以创建更好的基准数据集以进行仇恨语音。为了智能和有效地选择要注释的推文，我们应用{\ em汇集}和{em主动学习}的标准IR技术。为了提高注释的一致性和价值，我们应用{\ EM任务分解}和{\ EM注释器理由}技术。我们在Twitter上共享一个用于仇恨语音检测的新基准数据集，其提供比以前的数据集更广泛的仇恨覆盖。在这些更广泛形式的仇恨中测试时，我们还表现出现有检测模型的准确性的戏剧性降低。注册器理由我们不仅可以证明标签决策证明，而且还可以在建模中实现未来的双重监督和/或解释生成的工作机会。我们的方法的进一步细节可以在补充材料中找到。

translated by 谷歌翻译

Non-Suicidal Self-Injury Online Posts: Implications for Mental Health Professionals

Mandy M. Greaves , Cass Dykeman

分类：自然语言处理

2019-02-02

虽然非自杀自我受伤（NSSI）不是一个新的现象，但仍有有限的有限仍然符合对行为的理解，行为背后的意图以及个人自己对他们的行为所说的。本研究从Pro-NSSI上的Reddit收集了Pro-NSSI公共博客帖子，并使用LIWC软件对内容进行了分析，以检查NSSI特定词，语言特性和心理语言学属性的使用。检查了。结果通过消除神话来告知现有的咨询实践，并向参与使用NSSII的人们的内心世界提供洞察力。在Reddit博客中，对于NSSI特定单词类别的最常见类别的类别，是Reddit博客中最常使用的NSSI的一个接触的原因。分析中发现的语言特性反映了预测结果; Pro-NSSI帖子的作者使用广泛展示了一人奇异代词的预期结果，这表明高水平的心理健康窘迫和隔离。在这些公共Reddit帖子中可以观察到的心理语言学属性在负面情绪中，展示了青年和冲动的负面情绪。当分析这些帖子时发现的语言特性支持早期研究的工作，这些研究剥夺了在心理健康界中流传的NSSI的常见神话。这些调查结果表明，参与NSSI的人的语言支持在宣布关于NSSI的常见神话中的研究发现。

translated by 谷歌翻译