近几十年来,随着数据的可用,统计语言学已大大提高。这使研究人员能够研究语言的统计特性如何随时间变化。在这项工作中,我们使用来自Twitter的数据来探索英语和西班牙语,考虑到不同尺度的排名多样性:时间(从3到96小时),空间(从3公里到3000+km Radii)和语法(从字母组到五角形到Pentagrams) )。我们发现所有三个量表都是相关的。但是,最大的变化来自语法量表的变化。在最低的语法量表(会标)上,排名多样性曲线最相似,独立于其他量表,语言和国家的价值。随着语法量表的增长,等级多样性曲线的变化更大,具体取决于时间和空间量表以及语言和国家。我们还研究了Twitter特定令牌的统计数据:表情符号,主题标签和用户提及。这些特殊类型的令牌表现出一种sigmoid的行为作为等级多样性函数。我们的结果有助于量化似乎普遍存在的语言统计数据的各个方面,这可能导致变化。
translated by 谷歌翻译
大型语言数据集的可用性使数据驱动的方法能够研究语言改变。 Google Books Corpus Unigram频率数据集用于以八种语言调查排名动态。我们观察了1900年至2008年的Unigrams的等级变化,并将其与我们为分析开发的赖特 - 费舍尔灵感的模型进行了比较。该模型模拟中性进化过程,限制没有消失并添加单词。这项工作解释了模型的数学框架 - 用多项式过渡概率写作马尔可夫链 - 以展示单词频率如何变化。从我们的数据和我们的模型中的观察开始,Word Rank稳定性显示出两种类型的特点:(1)排名的增加/减少是单调,或(2)排名保持不变。基于我们的模型,高级词语往往更稳定,而低级词语往往更易挥发。有些词语以两种方式在两种方面发生变化:(a)通过累积小/减少等级和(b)的累积,通过增加/减少等级的冲击。我们所展示的所有语言中的大多数单词都是排名稳定,但并不像中立模型一样稳定。观察到的秒表和斯沃拉斯图单词在八种语言中排名稳定,这表明既定语言的语言符合性。这些签名提示所有语言的Unigram频率都以与纯粹中立的进化过程不一致的方式发生了变化。
translated by 谷歌翻译
Spanish is one of the most spoken languages in the globe, but not necessarily Spanish is written and spoken in the same way in different countries. Understanding local language variations can help to improve model performances on regional tasks, both understanding local structures and also improving the message's content. For instance, think about a machine learning engineer who automatizes some language classification task on a particular region or a social scientist trying to understand a regional event with echoes on social media; both can take advantage of dialect-based language models to understand what is happening with more contextual information hence more precision. This manuscript presents and describes a set of regionalized resources for the Spanish language built on four-year Twitter public messages geotagged in 26 Spanish-speaking countries. We introduce word embeddings based on FastText, language models based on BERT, and per-region sample corpora. We also provide a broad comparison among regions covering lexical and semantical similarities; as well as examples of using regional resources on message classification tasks.
translated by 谷歌翻译
文化领域代表了一个有用的概念,该概念在社会科学领域进行了交叉侵占。了解人类如何在社会中组织和联系他们的思想和行为有助于了解他们对不同问题的行为和态度。但是,塑造文化领域的共同特征的选择是任意的。所需的方法是一种可以利用大量在线数据(尤其是通过社交媒体)来识别没有临时假设,偏见或偏见的文化区域的方法。在这项工作中,我们通过引入一种基于微博帖子对大型数据集的自动分析来推断文化区域的方法来朝着这个方向迈出关键一步。我们的方法是基于以下原则:从人们之间讨论的主题可以推断出文化隶属关系。具体来说,我们衡量了美国社交媒体产生的书面话语中的区域差异。从地理标记的推文中内容词的频率分布,我们找到了“用法”区域热点,从那里我们得出了区域变化的主要成分。通过在这个较低维空间中数据的层次聚类,我们的方法得出了清晰的文化领域和定义它们的讨论主题。我们获得了一个明显的南北分离,主要受非裔美国人文化的影响,并进一步连续(东西方)和不连续的(城市农村)分裂,这些师为当今美国的文化领域提供了全面的了解。
translated by 谷歌翻译
少数群体一直在使用社交媒体来组织社会运动,从而产生深远的社会影响。黑人生活问题(BLM)和停止亚洲仇恨(SAH)是两个成功的社会运动,在Twitter上蔓延开来,促进了抗议活动和活动,反对种族主义,并提高公众对少数群体面临的其他社会挑战的认识。但是,以前的研究主要对与用户的推文或访谈进行了定性分析,这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格,量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此,在这项研究中,我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了(1)潜在的DIRICHLET分配模型,以了解顶级高级单词和主题以及(2)开放编码分析,以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文,并比较了它们的主题。我们的发现表明,这些推文在深度上讨论了各种有影响力的话题,社会正义,社会运动和情感情感都是两种运动的共同主题,尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析,以及有关AI,伦理和社会相互作用的文献。
translated by 谷歌翻译
社交媒体在现代社会中尤其是在西方世界中的政策制定方面已经变得极其影响力(例如,48%的欧洲人每天或几乎每天都使用社交媒体)。 Twitter之类的平台使用户可以关注政客,从而使公民更多地参与政治讨论。同样,政客们使用Twitter来表达他们的观点,在当前主题上进行辩论,并促进其政治议程,以影响选民行为。先前的研究表明,传达负面情绪的推文可能会更频繁地转发。在本文中,我们试图分析来自不同国家的政客的推文,并探索他们的推文是否遵循相同的趋势。利用最先进的预训练的语言模型,我们对从希腊,西班牙和英国的成千上万的推文进行了情感分析,包括权威的行政部门。我们通过系统地探索和分析有影响力和不流行的推文之间的差异来实现这一目标。我们的分析表明,政治家的负面推文更广泛地传播,尤其是在最近的时代,并突出了情感和受欢迎程度相交的有趣趋势。
translated by 谷歌翻译
我们研究了使用社交媒体数据预测加密货币未来表现的问题。我们提出了一个新模型,以根据与社交媒体帖子的互动来衡量用户与社交媒体讨论的主题的参与。该模型克服了以前的卷和基于情感的方法的局限性。我们使用此模型来估计2019年至2021年之间使用来自加密货币存在的第一个月的数据在2019年至2021年之间创建的48个加密货币的参与系数。我们发现加密货币的未来回报取决于参与系数。参与系数太低或太高的加密货币的回报较低。低参与系数表明缺乏兴趣,而高参与系数信号是人工活动,这可能来自自动化的bot。我们测量了加密货币的机器人柱数量,并发现通常,具有更多机器人柱的加密货币的未来回报较低。尽管未来的回报取决于机器人活动和参与系数,但依赖性对于参与系数最强,尤其是对于短期收益。我们显示,以超过固定阈值的参与系数选择加密货币的简单投资策略在几个月的固定时间内表现良好。
translated by 谷歌翻译
Twitter也许是社交媒体更适合研究。它只需要几个步骤来获取信息,并且有很多库可以帮助这方面。尽管如此,知道特定事件是否在Twitter上表达是一个具有挑战性的任务,需要相当多的推文集合。该提案旨在促进研究员对自从2015年12月以来推出的Twitter采集的加工信息收集到Twitter上采矿活动的过程。事件可能与自然灾害,健康问题和人民的流动相关,等等可以与图书馆一起追求的研究。在这一贡献中提出了不同的应用程序,以说明图书馆的能力:对推文中发现的主题的探索性分析,这是西班牙语方言中的相似性研究以及不同国家的移动性报告。总之,呈现的Python库应用于不同的域,并在以阿拉伯语,英语,西班牙语和俄语的单词和双克单词的频率下检索一系列信息。以及与200多个国家或地区的地点之间的旅行数量有关的移动性信息。
translated by 谷歌翻译
在世界上语言中编码的文化多样性有风险,因为在越来越多的全球化的背景下,许多语言在过去几十年中濒临灭绝。为了保留这种多样性,首先是必要了解推动语言灭绝的东西,以及哪些机制可能能够共存。在这里,我们使用理论和数据驱动的角度研究语言转换机制。使用Twitter和人口普查数据对多语种社团进行大规模实证分析,产生了广泛的语言共存空间模式。它根据语言扬声器的混合来分离,在不相交语言域的边界上进行多种语言。要了解这些不同的国家如何出现,特别是变得稳定,我们提出了一种在学习其他语言时达到语言共存的模型,并且当双语有利于使用濒危语言时。在比例框架中进行的模拟突出了人们流动性引起的空间相互作用的重要性,以解释混合状态的稳定性或两个语言区域之间的边界的存在。此外,我们发现语言的历史至关重要,了解他们现在的状态。
translated by 谷歌翻译
我们开发一个从社交媒体文本数据中提取情绪的工具。我们的方法有三个主要优势。首先,它适用于财务背景;其次,它包含社交媒体数据的关键方面,例如非标准短语,表情符号和表情符号;第三,它通过顺序地学习潜在的表示来操作,该潜在表示包括单词顺序,单词使用和本地上下文等功能。此工具以及用户指南可供选择:https://github.com/dvamossy/mtract。使用大学,我们探讨了社会媒体和资产价格表达的投资者情绪之间的关系。我们记录了一些有趣的见解。首先,我们确认了一些受控实验室实验的调查结果,将投资者情绪与资产价格变动相关联。其次,我们表明投资者的情绪是预测日常价格变动的预测。当波动率或短暂的兴趣更高,当机构所有权或流动性降低时,这些影响更大。第三,在IPO之前增加了投资者的热情,促进了大量的第一天返回,并长期不足的IPO股票。为了证实我们的结果,我们提供了许多稳健性检查,包括使用替代情感模型。我们的研究结果强化了情绪和市场动态密切相关的直觉,并突出了在评估股票的短期价值时考虑投资者情绪的重要性。
translated by 谷歌翻译
尽管试图提高政治性别平等,但全球努力仍在努力确保女性的同等代表。这很可能与对权威妇女的性别偏见有关。在这项工作中,我们介绍了在线政治讨论中出现的性别偏见的全面研究。为此,我们在有关男性和女性政客的对话中收集了1000万条有关Reddit的评论,这使得对自动性别偏见检测进行了详尽的研究。我们不仅讨论了厌恶女性的语言,还解决了其他偏见的表现,例如以看似积极的情绪和主导地位归因于女性政客或描述符归因的差异的形式的仁慈性别歧视。最后,我们对调查语言和语言外暗示的政客进行了多方面的性别偏见研究。我们评估了5种不同类型的性别偏见,评估社交媒体语言和话语中存在的覆盖范围,组合,名义,感性和词汇偏见。总体而言,我们发现,与以前的研究相反,覆盖范围和情感偏见表明对女性政客的公共兴趣平等。名义和词汇分析的结果并没有明显的敌对或仁慈的性别歧视,这表明这种兴趣不像男性政客那样专业或尊重。女性政客通常以其名字命名,并与他们的身体,衣服或家庭有关。这是一种与男性相似的治疗方法。在现在被禁止的极右翼子列表中,这种差异最大,尽管性别偏见的差异仍然出现在右和左倾的子列表中。我们将策划的数据集释放给公众以进行未来研究。
translated by 谷歌翻译
即使互联网和社交媒体增加了人们可能会消耗的新闻和信息量,大多数用户才会暴露于加强其职位的内容,并将其与其他思想社区隔离。这种环境对我们的生活产生了极大的影响,如严重的政治极化,轻松传播的假新闻,政治极端主义,仇恨团体以及缺乏丰富的辩论等。因此,鼓励不同的用户组之间的对话并打破封闭的社区对健康社会的重要性。在本文中,我们使用自然语言处理技术和图形机学习算法来表征和研究在Twitter上打破社区的用户。特别是,我们从150万用户收集了900万个Twitter消息,并构建了转发网络。我们确定了他们的社区和与他们相关的讨论主题。通过这些数据,我们为社交媒体用户分类提供了一种机器学习框架,该分类检测到“社区分手”,即从他们的封闭社区到另一个用户的用户。三个Twitter极化政治数据集中的一个特征重要性分析表明,这些用户的PageRank值低,表明改变是推动的,因为他们的消息在其社区中没有响应。这种方法还允许我们确定其特定的兴趣主题,提供了这种用户的全面表征。
translated by 谷歌翻译
In this paper, we explore the relationship between an individual's writing style and the risk that they will engage in online harmful behaviors (such as cyberbullying). In particular, we consider whether measurable differences in writing style relate to different personality types, as modeled by the Big-Five personality traits and the Dark Triad traits, and can differentiate between users who do or do not engage in harmful behaviors. We study messages from nearly 2,500 users from two online communities (Twitter and Reddit) and find that we can measure significant personality differences between regular and harmful users from the writing style of as few as 100 tweets or 40 Reddit posts, aggregate these values to distinguish between healthy and harmful communities, and also use style attributes to predict which users will engage in harmful behaviors.
translated by 谷歌翻译
虽然在线社交媒体提供了一种忽略或窒息的声音的方式,但它还使用户可以平台传播可恨的言论。这种讲话通常起源于边缘社区,但它可以溢出到主流渠道中。在本文中,我们衡量加入边缘仇恨社区的影响,以仇恨言论传播到社交网络的其余部分。我们利用Reddit的数据来评估加入一种回声室的效果:一个志趣相投的用户,表现出仇恨行为的数字社区。我们在成为积极参与者之前和之后衡量成员在研究社区之外的仇恨言论的用法。使用中断的时间序列(ITS)分析作为因果推理方法,我们衡量了溢出效应,其中某个社区内的可恨语言可以通过使用社区外的仇恨单词用作代理,可以通过使用社区的层次来传播该社区之外的效果对于博学的仇恨。我们研究了涵盖仇恨言论的三个领域的四个不同的Reddit子社区(子红):种族主义,厌女症和脂肪欺骗。在所有三种情况下,我们发现在原始社区之外的仇恨言论都在增加,这意味着加入此类社区会导致仇恨言论在整个平台中传播。此外,在最初加入社区后的几个月后,发现用户可以在几个月内接受这种新的仇恨演讲。我们表明,有害的言论不保留在社区中。我们的结果提供了回声室有害影响的新证据,以及调节它们以减少仇恨言论的潜在好处。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
尽管可解释的AI的大量研究重点是产生有效的解释,但较少的工作致力于人们如何理解和解释解释的问题。在这项工作中,我们通过研究基于显着性数据的解释来关注这个问题。文本模型的特征属性解释旨在传达输入文本的哪些部分比其他部分更具影响力。许多当前的解释方法,例如基于梯度或基于沙普利价值的方法,都提供了重要的衡量标准,这些方法在数学上是众所周知的。但是,一个人接受解释(解释)如何理解它?他们的理解是否与解释试图交流的内容相匹配?我们从经验上研究了输入的各种因素,特征 - 贡献解释和可视化程序对Laypeople对解释的解释的影响。我们询问人群工人对英语和德语的任务进行解释,并根据感兴趣的因素适合他们的回答。我们发现人们经常误解解释:尽管有直接传达重要性的解释,但肤浅和无关的因素(例如单词长度)影响了解释者的重要性分配。然后,我们证明其中一些失真可以减弱:我们提出了一种基于过度感受和低估的模型估计的方法来调整销售的方法,并探索条形图作为热图显着性可视化的替代方法。我们发现两种方法都可以减轻特定因素的扭曲作用,从而使对解释的理解更好地理解。
translated by 谷歌翻译
自Covid-19大流行病开始以来,疫苗一直是公共话语中的重要话题。疫苗周围的讨论被两极分化,因为有些人认为它们是结束大流行的重要措施,而另一些人则犹豫不决或发现它们有害。这项研究调查了与Twitter上的Covid-19疫苗有关的帖子,并着重于对疫苗有负姿态的帖子。收集了与COVID-19疫苗相关的16,713,238个英文推文的数据集,收集了涵盖从2020年3月1日至2021年7月31日的该期间。我们使用Scikit-Learn Python库来应用支持向量机(SVM)分类器针对Covid-19疫苗的推文具有负姿态。总共使用了5,163个推文来训练分类器,其中有2,484个推文由我们手动注释并公开提供。我们使用Berttopic模型来提取和调查负推文中讨论的主题以及它们如何随时间变化。我们表明,随着疫苗的推出,对COVID-19疫苗的负面影响随时间而下降。我们确定了37个讨论主题,并随着时间的推移介绍了各自的重要性。我们表明,流行的主题包括阴谋讨论,例如5G塔和微芯片,但还涉及涉及疫苗接种安全性和副作用以及对政策的担忧。我们的研究表明,即使是不受欢迎的观点或阴谋论,与广受欢迎的讨论主题(例如Covid-19疫苗)配对时,也会变得广泛。了解问题和讨论的主题以及它们如何随着时间的变化对于政策制定者和公共卫生当局提供更好和时间的信息和政策,以促进未来类似危机的人口接种。
translated by 谷歌翻译
本文是Covid-19数据主题检测的背景下的比较研究。主题检测有各种方法,其中在本文中选择了聚类方法。聚类需要距离和计算距离需求嵌入。该研究的目的是同时研究嵌入方法,距离度量和聚类方法及其互动的三个因素。数据集包括与Covid-19相关的Hashtags收集的一个月推文用于本研究。从嵌入方法中选择五种方法,从早期到新方法:Word2Vec,FastText,Glove,BERT和T5。在本文中调查了五种聚类方法,即:K-Means,DBSCAN,光学,光谱和Jarvis-Patrick。还检查了欧几里德距离和余弦距离作为该领域中最重要的距离指标。首先,执行超过7,500个测试来调整参数。然后,通过剪影度量来研究具有距离度量和聚类方法的所有不同组合方法。这些组合的数量是50例。首先,检查这些50个测试的结果。然后,在该方法的所有测试中考虑了每种方法的等级。最后,分别研究了研究的主要变量(嵌入方法,距离度量和聚类方法)。对控制变量进行平均以中和它们的效果。实验结果表明,T5在轮廓度量方面强烈优于其他嵌入方法。在距离度量标准方面,余弦距离弱得多。 DBSCAN在聚类方法方面也优于其他方法。
translated by 谷歌翻译
黑人生活问题(BLM)是一项分散的社会运动,抗议对黑人个人和社区的暴力行为,重点是警察暴力。 2020年,艾哈迈德·阿贝里(Ahmaud Arbery),布雷纳·泰勒(Breonna Taylor)和乔治·弗洛伊德(George Floyd)的杀害后,该运动引起了人们的关注。#BlackLivesMatter社交媒体标签已经代表了基层运动,并以类似的标签来抗议BLM运动,例如#AllllivesMatter和#allllivesmatter和#allllivesmatter,以及#bluelivesmatter。我们介绍了来自100多个国家 /地区的1,300万用户的6390万推文的数据集,其中包含以下关键字之一:BlackLivesMatter,AlllivesMatter和BluelivesMatter。该数据集包含从2013年BLM运动开始到2021年的所有当前可用推文。我们总结了数据集并显示了使用BlackLivesMatter关键字和与反向运动相关的关键字的时间趋势。此外,对于每个关键字,我们创建并发布了一组潜在的Dirichlet分配(LDA)主题(即自动聚集了语义上共同共的单词的组),以帮助研究人员识别这三个关键字的语言模式。
translated by 谷歌翻译
从三个研究趋势中汇集了考虑(合作的诚实信号,社会语义网络和同性恋理论),我们假设字词使用相似性并具有类似的社交网络位置与员工数字交互的水平相关联。为了验证我们的假设,我们分析了近1600名员工的沟通,在大公司的Intranet通信论坛上互动。我们研究了他们的社会动态和“诚实信号”,在过去的研究中证明有利于员工的参与和合作。我们发现这个词使用相似性是交互的主要驱动因素,远远超过网络位置的其他语言特征或相似性。我们的结果表明根据目标受众仔细选择语言,并对公司经理和在线社区管理员进行实际影响。例如,了解如何更好的使用语言可以支持开发知识共享实践或内部通信活动。
translated by 谷歌翻译