智能论文笔记

Relationship Between Online Harmful Behaviors and Social Network Message Writing Style

Talia Sanchez Viera , Richard Khoury

分类：自然语言处理

2022-12-14

In this paper, we explore the relationship between an individual's writing style and the risk that they will engage in online harmful behaviors (such as cyberbullying). In particular, we consider whether measurable differences in writing style relate to different personality types, as modeled by the Big-Five personality traits and the Dark Triad traits, and can differentiate between users who do or do not engage in harmful behaviors. We study messages from nearly 2,500 users from two online communities (Twitter and Reddit) and find that we can measure significant personality differences between regular and harmful users from the writing style of as few as 100 tweets or 40 Reddit posts, aggregate these values to distinguish between healthy and harmful communities, and also use style attributes to predict which users will engage in harmful behaviors.

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Politics, Sentiment and Virality: A Large-Scale Multilingual Twitter Analysis in Greece, Spain and United Kingdom

Dimosthenis Antypas , Alun Preece , Jose Camacho-Collados

分类：自然语言处理 | 机器学习

2022-02-01

社交媒体在现代社会中尤其是在西方世界中的政策制定方面已经变得极其影响力（例如，48％的欧洲人每天或几乎每天都使用社交媒体）。 Twitter之类的平台使用户可以关注政客，从而使公民更多地参与政治讨论。同样，政客们使用Twitter来表达他们的观点，在当前主题上进行辩论，并促进其政治议程，以影响选民行为。先前的研究表明，传达负面情绪的推文可能会更频繁地转发。在本文中，我们试图分析来自不同国家的政客的推文，并探索他们的推文是否遵循相同的趋势。利用最先进的预训练的语言模型，我们对从希腊，西班牙和英国的成千上万的推文进行了情感分析，包括权威的行政部门。我们通过系统地探索和分析有影响力和不流行的推文之间的差异来实现这一目标。我们的分析表明，政治家的负面推文更广泛地传播，尤其是在最近的时代，并突出了情感和受欢迎程度相交的有趣趋势。

translated by 谷歌翻译

Thread With Caution: Proactively Helping Users Assess and Deescalate Tension in Their Online Discussions

Jonathan P. Chang , Charlotte Schluger , Cristian Danescu-Niculescu-Mizil

分类：人工智能 | 自然语言处理

2022-12-02

Incivility remains a major challenge for online discussion platforms, to such an extent that even conversations between well-intentioned users can often derail into uncivil behavior. Traditionally, platforms have relied on moderators to -- with or without algorithmic assistance -- take corrective actions such as removing comments or banning users. In this work we propose a complementary paradigm that directly empowers users by proactively enhancing their awareness about existing tension in the conversation they are engaging in and actively guides them as they are drafting their replies to avoid further escalation. As a proof of concept for this paradigm, we design an algorithmic tool that provides such proactive information directly to users, and conduct a user study in a popular discussion platform. Through a mixed methods approach combining surveys with a randomized controlled experiment, we uncover qualitative and quantitative insights regarding how the participants utilize and react to this information. Most participants report finding this proactive paradigm valuable, noting that it helps them to identify tension that they may have otherwise missed and prompts them to further reflect on their own replies and to revise them. These effects are corroborated by a comparison of how the participants draft their reply when our tool warns them that their conversation is at risk of derailing into uncivil behavior versus in a control condition where the tool is disabled. These preliminary findings highlight the potential of this user-centered paradigm and point to concrete directions for future implementations.

translated by 谷歌翻译

Social Media Reveals Urban-Rural Differences in Stress across China

Jesse Cui , Tingdan Zhang , Kokil Jaidka , Dandan Pang , Garrick Sherman , Vinit Jakhetiya , Lyle Ungar , Sharath Chandra Guntuku

分类：自然语言处理 | 人工智能

2021-10-19

中国城乡地区建模差分应力表达可以更好地了解城市化对心理福祉的影响，在过去二十年中迅速发展的国家。本文研究了使用等级混合效应模型从329个县中超过65,000名用户在中国城乡压力的经验和表达的语言差异。我们分析了微博职位中的短语，题目主题和心理语言学的选择，提及压力，以更好地了解中国城乡社区心理压力的评价差异;然后我们将它们与盖子的大规模民意调查进行了比较。在控制社会经济和性别差异之后，我们发现农村社区倾向于表达情感和个人主题，如关系，健康和机会，而在城市地区的用户使用相对，时间和外部主题，如工作，政治和经济学。这些差异存在于对GDP和城市化的控制之外，表明在非常具体的环境中农村和城市居民之间的基本不同的生活方式，可以说是具有不同的压力来源。我们在盖洛普民意调查中找到了与城市化的身体，金融和社会健康的腐败趋势。

translated by 谷歌翻译

EmTract: Investor Emotions and Market Behavior

Domonkos Vamossy , Rolf Skog

分类：自然语言处理

2021-12-07

我们开发一个从社交媒体文本数据中提取情绪的工具。我们的方法有三个主要优势。首先，它适用于财务背景;其次，它包含社交媒体数据的关键方面，例如非标准短语，表情符号和表情符号;第三，它通过顺序地学习潜在的表示来操作，该潜在表示包括单词顺序，单词使用和本地上下文等功能。此工具以及用户指南可供选择：https://github.com/dvamossy/mtract。使用大学，我们探讨了社会媒体和资产价格表达的投资者情绪之间的关系。我们记录了一些有趣的见解。首先，我们确认了一些受控实验室实验的调查结果，将投资者情绪与资产价格变动相关联。其次，我们表明投资者的情绪是预测日常价格变动的预测。当波动率或短暂的兴趣更高，当机构所有权或流动性降低时，这些影响更大。第三，在IPO之前增加了投资者的热情，促进了大量的第一天返回，并长期不足的IPO股票。为了证实我们的结果，我们提供了许多稳健性检查，包括使用替代情感模型。我们的研究结果强化了情绪和市场动态密切相关的直觉，并突出了在评估股票的短期价值时考虑投资者情绪的重要性。

translated by 谷歌翻译

Characterizing Multi-Domain False News and Underlying User Effects on Chinese Weibo

Qiang Sheng , Juan Cao , H. Russell Bernard , Kai Shu , Jintao Li , Huan Liu

分类：自然语言处理

2022-05-06

在过去几年中，社交媒体上传播的错误消息激增，并导致了现实世界中的多种威胁。尽管有关于特定领域的虚假新闻（例如政治或医疗保健）的研究，但比较跨领域的虚假新闻几乎没有工作。在本文中，我们调查了2009年至2019年中国最大的Twitter式社交媒体平台的微博上的九个领域的虚假新闻。新收集的数据包含44,728个帖子，由40,215个用户发布，并重新发布了。 340万次。基于多域数据集的分布和传播，我们观察到，在诸如健康和医学之类的日常生活的领域中，虚假的消息比政治等其他领域的帖子更有效，但有效地传播的帖子较少，而政治虚假新闻具有最有效的扩散能力。关于微博上广泛散布的虚假新闻帖子与某些类型的用户（按性别，年龄等。此外，这些帖子都引起了重新播放的强烈情绪，并随着False-News启动器的积极参与而进一步扩散。我们的发现有可能在可疑新闻发现，真实性预测以及显示和解释中帮助设计错误的新闻检测系统。微博上的发现与现有作品的发现表明了细微的模式，这表明需要对来自不同平台，国家或语言的数据进行更多研究，以解决全球错误新闻。代码和新的匿名数据集可在https://github.com/ictmcg/characterizing-weibo-multi-domain-false-news上找到。

translated by 谷歌翻译

Quantifying Gender Biases Towards Politicians on Reddit

Sara Marjanovic , Karolina Stańczak , Isabelle Augenstein

分类：自然语言处理

2021-12-22

尽管试图提高政治性别平等，但全球努力仍在努力确保女性的同等代表。这很可能与对权威妇女的性别偏见有关。在这项工作中，我们介绍了在线政治讨论中出现的性别偏见的全面研究。为此，我们在有关男性和女性政客的对话中收集了1000万条有关Reddit的评论，这使得对自动性别偏见检测进行了详尽的研究。我们不仅讨论了厌恶女性的语言，还解决了其他偏见的表现，例如以看似积极的情绪和主导地位归因于女性政客或描述符归因的差异的形式的仁慈性别歧视。最后，我们对调查语言和语言外暗示的政客进行了多方面的性别偏见研究。我们评估了5种不同类型的性别偏见，评估社交媒体语言和话语中存在的覆盖范围，组合，名义，感性和词汇偏见。总体而言，我们发现，与以前的研究相反，覆盖范围和情感偏见表明对女性政客的公共兴趣平等。名义和词汇分析的结果并没有明显的敌对或仁慈的性别歧视，这表明这种兴趣不像男性政客那样专业或尊重。女性政客通常以其名字命名，并与他们的身体，衣服或家庭有关。这是一种与男性相似的治疗方法。在现在被禁止的极右翼子列表中，这种差异最大，尽管性别偏见的差异仍然出现在右和左倾的子列表中。我们将策划的数据集释放给公众以进行未来研究。

translated by 谷歌翻译

The language and social behavior of innovators

A. Fronzetti Colladon , L. Toschi , E. Ughetto , F. Greco

分类：自然语言处理

2022-09-20

创新者是有创造力的人，他们可以唤起代表创新组织主要引擎的开创性思想。过去的研究已广泛调查了谁是创新者以及他们在与工作有关的活动中的行为。在本文中，我们建议有必要分析创新者在其他情况下的行为，例如在非正式沟通空间中，在没有正式结构，规则和工作义务的情况下共享知识。利用通信和网络理论，我们分析了大型跨国公司的Intranet论坛上可用的38,000个帖子。由此，我们解释了创新者在社交网络行为和语言特征方面与其他员工的不同。通过文本挖掘，我们发现创新者编写更多，使用更复杂的语言，介绍新的概念/想法，并使用积极但基于事实的语言。了解创新者的行为和沟通如何支持想要促进创新的经理的决策过程。

translated by 谷歌翻译

From words to connections: Word use similarity as an honest signal conducive to employees' digital communication

A. Fronzetti Colladon , J. Saint-Charles , P. Mongeau

分类：自然语言处理

2021-11-11

从三个研究趋势中汇集了考虑（合作的诚实信号，社会语义网络和同性恋理论），我们假设字词使用相似性并具有类似的社交网络位置与员工数字交互的水平相关联。为了验证我们的假设，我们分析了近1600名员工的沟通，在大公司的Intranet通信论坛上互动。我们研究了他们的社会动态和“诚实信号”，在过去的研究中证明有利于员工的参与和合作。我们发现这个词使用相似性是交互的主要驱动因素，远远超过网络位置的其他语言特征或相似性。我们的结果表明根据目标受众仔细选择语言，并对公司经理和在线社区管理员进行实际影响。例如，了解如何更好的使用语言可以支持开发知识共享实践或内部通信活动。

translated by 谷歌翻译

We Are in This Together: Quantifying Community Subjective Wellbeing and Resilience

MeiXing Dong , Ruixuan Sun , Laura Biester , Rada Mihalcea

分类：自然语言处理

2022-08-23

19009年的大流行破坏了世界上每个人的生活。在这项工作中，我们表征了在疫苗可用性之前，在大流行期间，美国112个城市的主观福祉模式，如与城市相对应的亚列表所示。我们使用积极和负面影响量化主观健康。然后，我们通过将社区观察到的健康与预期的健康进行比较，衡量大流行的影响，如大流行前的时间序列模型所预测的那样。我们表明，语言反映的一般社区特征可以预测社区的能力。我们预测大流行将如何基于正常时间\ textit {之前的语言和互动特征{}大流行的语言和互动特征影响每个社区的福祉。我们发现，具有与更紧密联系的用户相对应的互动特征的社区，并且更高的参与度受到显着影响。值得注意的是，我们发现更多谈论通常经验丰富的社会关系的社区，例如朋友，家人和隶属关系，实际上更有可能受到影响。此外，我们还使用相同的功能来预测大流行初次发作后每个社区将恢复的速度。我们同样发现，更多地谈论家庭，隶属关系和确定为团体一部分的社区的康复较慢。

translated by 谷歌翻译

Compromised account detection using authorship verification: a novel approach

Forough Farazmanesh , Fateme Foroutan , Amir Jalaly Bidgoly

分类：人工智能

2022-06-02

妥协的合法帐户是将恶意内容传播到在线社交网络（OSN）中的大型用户基础的一种方式。由于这些报告对用户以及OSN上其他用户造成了很多损害，因此早期检测非常重要。本文提出了一种基于作者身份验证的新方法，以识别受损的Twitter帐户。由于该方法仅使用从上一个用户的帖子中提取的功能，因此有助于尽早检测以控制损坏。结果，可以以令人满意的精度检测到没有用户配置文件的恶意消息。实验是使用Twitter上折衷帐户的现实世界数据集构建的。结果表明该模型适用于由于达到89％的精度而适用于检测。

translated by 谷歌翻译

"Double vaccinated, 5G boosted!": Learning Attitudes towards COVID-19 Vaccination from Social Media

Ninghan Chen , Xihui Chen , Zhiqiang Zhong , Jun Pang

分类：机器学习

2022-06-27

为了解决疫苗犹豫不决，这会损害COVID-19疫苗接种运动的努力，必须了解公共疫苗接种态度并及时掌握其变化。尽管具有可靠性和可信赖性，但基于调查的传统态度收集是耗时且昂贵的，无法遵循疫苗接种态度的快速发展。我们利用社交媒体上的文本帖子通过提出深入学习框架来实时提取和跟踪用户的疫苗接种立场。为了解决与疫苗相关话语中常用的讽刺和讽刺性的语言特征的影响，我们将用户社交网络邻居的最新帖子集成到框架中，以帮助检测用户的真实态度。根据我们从Twitter的注释数据集，与最新的仅文本模型相比，从我们框架实例化的模型可以提高态度提取的性能高达23％。使用此框架，我们成功地验证了使用社交媒体跟踪现实生活中疫苗接种态度的演变的可行性。我们进一步显示了对我们的框架的一种实际用途，它可以通过从社交媒体中感知到的信息来预测用户疫苗犹豫的变化的可能性。

translated by 谷歌翻译

AI-enabled exploration of Instagram profiles predicts soft skills and personality traits to empower hiring decisions

Mercedeh Harirchian , Fereshteh Amin , Saeed Rouhani , Aref Aligholipour , Vahid Amiri Lord

分类：机器学习

2022-12-14

It does not matter whether it is a job interview with Tech Giants, Wall Street firms, or a small startup; all candidates want to demonstrate their best selves or even present themselves better than they really are. Meanwhile, recruiters want to know the candidates' authentic selves and detect soft skills that prove an expert candidate would be a great fit in any company. Recruiters worldwide usually struggle to find employees with the highest level of these skills. Digital footprints can assist recruiters in this process by providing candidates' unique set of online activities, while social media delivers one of the largest digital footprints to track people. In this study, for the first time, we show that a wide range of behavioral competencies consisting of 16 in-demand soft skills can be automatically predicted from Instagram profiles based on the following lists and other quantitative features using machine learning algorithms. We also provide predictions on Big Five personality traits. Models were built based on a sample of 400 Iranian volunteer users who answered an online questionnaire and provided their Instagram usernames which allowed us to crawl the public profiles. We applied several machine learning algorithms to the uniformed data. Deep learning models mostly outperformed by demonstrating 70% and 69% average Accuracy in two-level and three-level classifications respectively. Creating a large pool of people with the highest level of soft skills, and making more accurate evaluations of job candidates is possible with the application of AI on social media user-generated data.

translated by 谷歌翻译

What are People Talking about in #BlackLivesMatter and #StopAsianHate? Exploring and Categorizing Twitter Topics Emerging in Online Social Movements through the Latent Dirichlet Allocation Model

Xin Tong , Yixuan Li , Jiayi Li , Rongqi Bei , Luyao Zhang

分类：自然语言处理 | 机器学习

2022-05-29

少数群体一直在使用社交媒体来组织社会运动，从而产生深远的社会影响。黑人生活问题（BLM）和停止亚洲仇恨（SAH）是两个成功的社会运动，在Twitter上蔓延开来，促进了抗议活动和活动，反对种族主义，并提高公众对少数群体面临的其他社会挑战的认识。但是，以前的研究主要对与用户的推文或访谈进行了定性分析，这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格，量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此，在这项研究中，我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了（1）潜在的DIRICHLET分配模型，以了解顶级高级单词和主题以及（2）开放编码分析，以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文，并比较了它们的主题。我们的发现表明，这些推文在深度上讨论了各种有影响力的话题，社会正义，社会运动和情感情感都是两种运动的共同主题，尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析，以及有关AI，伦理和社会相互作用的文献。

translated by 谷歌翻译

Understanding Aesthetics with Language: A Photo Critique Dataset for Aesthetic Assessment

Daniel Vera Nieto , Luigi Celona , Clara Fernandez-Labrador

分类：计算机视觉 | 自然语言处理

2022-06-17

由于其主观性质，美学的计算推断是一项不确定的任务。已经提出了许多数据集来通过根据人类评级提供成对的图像和美学得分来解决问题。但是，人类更好地通过语言表达自己的观点，品味和情感，而不是单个数字总结他们。实际上，照片评论提供了更丰富的信息，因为它们揭示了用户如何以及为什么对视觉刺激的美学评价。在这方面，我们提出了Reddit照片评论数据集（RPCD），其中包含图像和照片评论的元素。 RPCD由74K图像和220k评论组成，并从业余爱好者和专业摄影师使用的Reddit社区收集，以利用建设性的社区反馈来提高其摄影技巧。所提出的数据集与以前的美学数据集不同，主要是三个方面，即（i）数据集的大规模数据集和批评图像不同方面的评论的扩展，（ii）它主要包含Ultrahd映像，以及（iii）它通过自动管道收集，可以轻松地扩展到新数据。据我们所知，在这项工作中，我们提出了首次尝试估算批评的视觉刺激质量的尝试。为此，我们利用批评情绪的极性为美学判断的指标。我们证明了情感如何与可用于两种美学评估基准的美学判断正相关。最后，我们通过使用情感得分作为排名图像的目标进行了几种模型。提供数据集和基准（https://github.com/mediatechnologycenter/aestheval）。

translated by 谷歌翻译

A Model to Measure the Spread Power of Rumors

Zoleikha Jahanbakhsh-Nagadeh , Mohammad-Reza Feizi-Derakhshi , Majid Ramezani , Taymaz Akan , Meysam Asgari-Chenaghlu , Narjes Nikzad-Khasmakhi , Ali-Reza Feizi-Derakhshi , Mehrdad Ranjbar-Khadivi , Elnaz Zafarani-Moattar , Mohammad-Ali Balafar

分类：自然语言处理

2020-02-18

通过使信息生产和复制民主化的技术，社交媒体中每日互动的很大一部分被谣言感染了。尽管对谣言检测和验证进行了广泛的研究，但到目前为止，尚未考虑计算谣言传播力量的问题。为了解决这一研究差距，本研究寻求一个模型来计算谣言（SPR）作为基于内容特征的功能的两类功能：虚假谣言（FR）和真实谣言（TR）。为此，将采用Allport和Postman的理论，它声称重要性和歧义是谣言和谣言的力量的关键变量。引入了两个类别的“重要性”（28个功能）和“歧义”（14个功能）的42个内容功能以计算SPR。提出的模型将在两个数据集（Twitter和Telegram）上进行评估。结果表明，（i）虚假谣言文件的传播力量很少不仅仅是真正的谣言。（ii）两组虚假谣言和真实谣言的SPR平均值之间存在显着差异。（iii）SPR作为标准可以对区分虚假谣言和真实谣言产生积极影响。

translated by 谷歌翻译

A Survey on Echo Chambers on Social Media: Description, Detection and Mitigation

Faisal Alatawi , Lu Cheng , Anique Tahir , Mansooreh Karami , Bohan Jiang , Tyler Black , Huan Liu

分类：机器学习

2021-12-09

社交媒体的回声室是一个重要的问题，可以引起许多负面后果，最近影响对Covid-19的响应。回声室促进病毒的阴谋理论，发现与疫苗犹豫不决，较少遵守面具授权，以及社会疏散的实践。此外，回声室的问题与政治极化等其他相关问题相连，以及误导的传播。回声室被定义为用户网络，用户只与支持其预先存在的信仰和意见的意见相互作用，并且他们排除和诋毁其他观点。本调查旨在从社会计算的角度检查社交媒体上的回声室现象，并为可能的解决方案提供蓝图。我们调查了相关文献，了解回声室的属性以及它们如何影响个人和社会。此外，我们展示了算法和心理的机制，这导致了回声室的形成。这些机制可以以两种形式表现出：（1）社交媒体推荐系统的偏见和（2）内部偏见，如确认偏见和精梳性。虽然减轻内部偏见是非常挑战的，但努力消除推荐系统的偏见。这些推荐系统利用我们自己的偏见来个性化内容建议，以使我们参与其中才能观看更多广告。因此，我们进一步研究了回声室检测和预防的不同计算方法，主要基于推荐系统。

translated by 谷歌翻译

Ethics Sheet for Automatic Emotion Recognition and Sentiment Analysis

Saif M. Mohammad

分类：自然语言处理 | 人工智能

2021-09-17

我们生活中情绪的重要性和普及性使得情感计算了一个非常重要和充满活力的工作。自动情感识别（AER）和情感分析的系统可以是巨大进展的促进者（例如，改善公共卫生和商业），而且还有巨大伤害的推动者（例如，用于抑制持不同政见者和操纵选民）。因此，情感计算社区必须积极地与其创作的道德后果搞。在本文中，我已经从AI伦理和情感认可文学中综合和组织信息，以提出与AER相关的五十个道德考虑因素。值得注意的是，纸张捏出了隐藏在如何框架的假设，并且在经常对数据，方法和评估的选择中的选择。特别关注在隐私和社会群体上的AER对AER的影响。沿途，关键建议是针对负责任的航空制作的。纸张的目标是促进和鼓励更加思考为什么自动化，如何自动化，以及如何在建立AER系统之前判断成功。此外，该纸张作为情感认可的有用介绍文件（补充调查文章）。

translated by 谷歌翻译

Detecting Potentially Harmful and Protective Suicide-related Content on Twitter: A Machine Learning Approach

Hannah Metzler , Hubert Baginski , Thomas Niederkrotenthaler , David Garcia

分类：自然语言处理 | 机器学习

2021-12-09

研究表明，与自杀相关的新闻媒体内容的暴露与自杀率相关，具有一些内容特征可能具有有害和其他可能的保护作用。虽然有一些选定的特征存在良好的证据，但是一般缺少系统的大规模调查，特别是社交媒体数据。我们应用机器学习方法以自动标记大量的Twitter数据。我们开发了一种新的注释计划，将与自杀相关的推文分类为不同的消息类型和问题，以解决方案为中心的视角。然后，我们培训了包括多数分类器的机器学习模型的基准，这是一种基于词频率的方法（具有线性SVM的TF-IDF）和两个最先进的深层学习模型（BERT，XLNET）。这两个深入学习模型在两个分类任务中实现了最佳性能：首先，我们分类了六个主要内容类别，包括个人故事，包括自杀意图和尝试或应对，呼吁采取措施传播问题意识或预防相关信息，自杀病例的报告以及其他与自杀相关和偏离主题推文的报告。深度学习模型平均达到73％以上的准确度，遍布六个类别，F1分数为69％和85％，除了自杀意念和尝试类别（55％）。其次，在分离帖子中，在偏离主题推文中指的是实际自杀题，他们正确标记了大约88％的推文，双方达到了F1分数为93％和74％。这些分类性能与类似任务的最先进的性能相当。通过使数据标签更有效，这项工作能够对各种社交媒体内容的有害和保护作用进行自杀率和寻求帮助行为的有害和保护作用。

translated by 谷歌翻译