近年来,在我们称之为社交媒体的意见生态系统中,极端主义观点的兴起。允许在线极端主义坚持会带来可怕的社会后果,并不断探索减轻它的努力。积极的干预措施,受控信号,以提高某些意见的目的增加了对意见生态系统的关注,这就是缓解途径的一种途径。这项工作提出了一个平台,通过意见市场模型(OMM)测试积极干预措施的有效性,这是一个在线意见生态系统的两层模型,共同考虑了开幕式的相互作用和积极干预的作用。第一层使用多元离散时间霍克斯流程模拟了意见注意市场的规模;第二层利用市场份额吸引模型来模拟合作的意见并竞争市场份额,但注意力有限。在合成数据集上,我们显示了我们提出的估计方案的收敛性。在Facebook和Twitter讨论的数据集中,其中包含有关丛林大火和气候变化的中等和极右翼意见,我们在最先进的表现以及揭示潜在意见互动的能力上表现出了优越的预测性能。最后,我们使用OMM来证明主流媒体报道的有效性是抑制极右翼意见的积极干预措施。
translated by 谷歌翻译
这项工作引入了一种新颖的多变量时间点过程,部分均值行为泊松(PMBP)过程,可以利用以将多变量霍克斯过程适合部分间隔删除的数据,该数据包括在尺寸和间隔子集上的事件时间戳的混合中组成的数据。 - 委员会互补尺寸的事件计数。首先,我们通过其条件强度定义PMBP过程,并导出子临界性的规律性条件。我们展示了鹰过程和MBP过程(Rizoiu等人)是PMBP过程的特殊情况。其次,我们提供了能够计算PMBP过程的条件强度和采样事件历史的数字方案。第三,我们通过使用合成和现实世界数据集来证明PMBP过程的适用性:我们测试PMBP过程的能力,以恢复多变量霍克参数给出鹰过程的样本事件历史。接下来,我们在YouTube流行预测任务上评估PMBP过程,并表明它优于当前最先进的鹰强度过程(Rizoiu等人。(2017b))。最后,在Covid19的策划数据集上,关于国家样本的Covid19每日案例计数和Covid19相关的新闻文章,我们展示了PMBP拟合参数上的聚类使各国的分类能够分类案件和新闻的国家级互动报告。
translated by 谷歌翻译
我们研究了使用社交媒体数据预测加密货币未来表现的问题。我们提出了一个新模型,以根据与社交媒体帖子的互动来衡量用户与社交媒体讨论的主题的参与。该模型克服了以前的卷和基于情感的方法的局限性。我们使用此模型来估计2019年至2021年之间使用来自加密货币存在的第一个月的数据在2019年至2021年之间创建的48个加密货币的参与系数。我们发现加密货币的未来回报取决于参与系数。参与系数太低或太高的加密货币的回报较低。低参与系数表明缺乏兴趣,而高参与系数信号是人工活动,这可能来自自动化的bot。我们测量了加密货币的机器人柱数量,并发现通常,具有更多机器人柱的加密货币的未来回报较低。尽管未来的回报取决于机器人活动和参与系数,但依赖性对于参与系数最强,尤其是对于短期收益。我们显示,以超过固定阈值的参与系数选择加密货币的简单投资策略在几个月的固定时间内表现良好。
translated by 谷歌翻译
我们开发一个从社交媒体文本数据中提取情绪的工具。我们的方法有三个主要优势。首先,它适用于财务背景;其次,它包含社交媒体数据的关键方面,例如非标准短语,表情符号和表情符号;第三,它通过顺序地学习潜在的表示来操作,该潜在表示包括单词顺序,单词使用和本地上下文等功能。此工具以及用户指南可供选择:https://github.com/dvamossy/mtract。使用大学,我们探讨了社会媒体和资产价格表达的投资者情绪之间的关系。我们记录了一些有趣的见解。首先,我们确认了一些受控实验室实验的调查结果,将投资者情绪与资产价格变动相关联。其次,我们表明投资者的情绪是预测日常价格变动的预测。当波动率或短暂的兴趣更高,当机构所有权或流动性降低时,这些影响更大。第三,在IPO之前增加了投资者的热情,促进了大量的第一天返回,并长期不足的IPO股票。为了证实我们的结果,我们提供了许多稳健性检查,包括使用替代情感模型。我们的研究结果强化了情绪和市场动态密切相关的直觉,并突出了在评估股票的短期价值时考虑投资者情绪的重要性。
translated by 谷歌翻译
社交媒体的回声室是一个重要的问题,可以引起许多负面后果,最近影响对Covid-19的响应。回声室促进病毒的阴谋理论,发现与疫苗犹豫不决,较少遵守面具授权,以及社会疏散的实践。此外,回声室的问题与政治极化等其他相关问题相连,以及误导的传播。回声室被定义为用户网络,用户只与支持其预先存在的信仰和意见的意见相互作用,并且他们排除和诋毁其他观点。本调查旨在从社会计算的角度检查社交媒体上的回声室现象,并为可能的解决方案提供蓝图。我们调查了相关文献,了解回声室的属性以及它们如何影响个人和社会。此外,我们展示了算法和心理的机制,这导致了回声室的形成。这些机制可以以两种形式表现出:(1)社交媒体推荐系统的偏见和(2)内部偏见,如确认偏见和精梳性。虽然减轻内部偏见是非常挑战的,但努力消除推荐系统的偏见。这些推荐系统利用我们自己的偏见来个性化内容建议,以使我们参与其中才能观看更多广告。因此,我们进一步研究了回声室检测和预防的不同计算方法,主要基于推荐系统。
translated by 谷歌翻译
Predicting stock market movements has always been of great interest to investors and an active area of research. Research has proven that popularity of products is highly influenced by what people talk about. Social media like Twitter, Reddit have become hotspots of such influences. This paper investigates the impact of social media posts on close price prediction of stocks using Twitter and Reddit posts. Our objective is to integrate sentiment of social media data with historical stock data and study its effect on closing prices using time series models. We carried out rigorous experiments and deep analysis using multiple deep learning based models on different datasets to study the influence of posts by executives and general people on the close price. Experimental results on multiple stocks (Apple and Tesla) and decentralised currencies (Bitcoin and Ethereum) consistently show improvements in prediction on including social media data and greater improvements on including executive posts.
translated by 谷歌翻译
分析短文(例如社交媒体帖子)由于其固有的简洁而非常困难。除了对此类帖子的主题进行分类之外,一个常见的下游任务是将这些文档的作者分组以进行后续分析。我们提出了一个新颖的模型,该模型通过对同一文档中的单词之间的强大依赖进行建模以及用户级主题分布来扩展潜在的Dirichlet分配。我们还同时群集用户,消除了对事后集群估计的需求,并通过将嘈杂的用户级主题分布缩小到典型值来改善主题估计。我们的方法的性能和比传统方法的性能(或更好),我们在美国参议员的推文数据集中证明了它的有用性,恢复了反映党派意识形态的有意义的主题和群集。我们还通过表征参议员群体讨论并提供不确定性量化的主题的遗产,从而在这些政治家中开发了一种新的回声室衡量标准。
translated by 谷歌翻译
We consider a sequential decision making problem where the agent faces the environment characterized by the stochastic discrete events and seeks an optimal intervention policy such that its long-term reward is maximized. This problem exists ubiquitously in social media, finance and health informatics but is rarely investigated by the conventional research in reinforcement learning. To this end, we present a novel framework of the model-based reinforcement learning where the agent's actions and observations are asynchronous stochastic discrete events occurring in continuous-time. We model the dynamics of the environment by Hawkes process with external intervention control term and develop an algorithm to embed such process in the Bellman equation which guides the direction of the value gradient. We demonstrate the superiority of our method in both synthetic simulator and real-world problem.
translated by 谷歌翻译
为了解决疫苗犹豫不决,这会损害COVID-19疫苗接种运动的努力,必须了解公共疫苗接种态度并及时掌握其变化。尽管具有可靠性和可信赖性,但基于调查的传统态度收集是耗时且昂贵的,无法遵循疫苗接种态度的快速发展。我们利用社交媒体上的文本帖子通过提出深入学习框架来实时提取和跟踪用户的疫苗接种立场。为了解决与疫苗相关话语中常用的讽刺和讽刺性的语言特征的影响,我们将用户社交网络邻居的最新帖子集成到框架中,以帮助检测用户的真实态度。根据我们从Twitter的注释数据集,与最新的仅文本模型相比,从我们框架实例化的模型可以提高态度提取的性能高达23%。使用此框架,我们成功地验证了使用社交媒体跟踪现实生活中疫苗接种态度的演变的可行性。我们进一步显示了对我们的框架的一种实际用途,它可以通过从社交媒体中感知到的信息来预测用户疫苗犹豫的变化的可能性。
translated by 谷歌翻译
自Covid-19大流行病开始以来,疫苗一直是公共话语中的重要话题。疫苗周围的讨论被两极分化,因为有些人认为它们是结束大流行的重要措施,而另一些人则犹豫不决或发现它们有害。这项研究调查了与Twitter上的Covid-19疫苗有关的帖子,并着重于对疫苗有负姿态的帖子。收集了与COVID-19疫苗相关的16,713,238个英文推文的数据集,收集了涵盖从2020年3月1日至2021年7月31日的该期间。我们使用Scikit-Learn Python库来应用支持向量机(SVM)分类器针对Covid-19疫苗的推文具有负姿态。总共使用了5,163个推文来训练分类器,其中有2,484个推文由我们手动注释并公开提供。我们使用Berttopic模型来提取和调查负推文中讨论的主题以及它们如何随时间变化。我们表明,随着疫苗的推出,对COVID-19疫苗的负面影响随时间而下降。我们确定了37个讨论主题,并随着时间的推移介绍了各自的重要性。我们表明,流行的主题包括阴谋讨论,例如5G塔和微芯片,但还涉及涉及疫苗接种安全性和副作用以及对政策的担忧。我们的研究表明,即使是不受欢迎的观点或阴谋论,与广受欢迎的讨论主题(例如Covid-19疫苗)配对时,也会变得广泛。了解问题和讨论的主题以及它们如何随着时间的变化对于政策制定者和公共卫生当局提供更好和时间的信息和政策,以促进未来类似危机的人口接种。
translated by 谷歌翻译
少数群体一直在使用社交媒体来组织社会运动,从而产生深远的社会影响。黑人生活问题(BLM)和停止亚洲仇恨(SAH)是两个成功的社会运动,在Twitter上蔓延开来,促进了抗议活动和活动,反对种族主义,并提高公众对少数群体面临的其他社会挑战的认识。但是,以前的研究主要对与用户的推文或访谈进行了定性分析,这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格,量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此,在这项研究中,我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了(1)潜在的DIRICHLET分配模型,以了解顶级高级单词和主题以及(2)开放编码分析,以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文,并比较了它们的主题。我们的发现表明,这些推文在深度上讨论了各种有影响力的话题,社会正义,社会运动和情感情感都是两种运动的共同主题,尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析,以及有关AI,伦理和社会相互作用的文献。
translated by 谷歌翻译
在这项研究中,我们从新的全面角度处理了疫苗辩论的复杂性。为了关注意大利环境,我们研究了两个来源在2016 - 2021年期间产生的所有在线信息,这些信息符合误解的声誉,而没有声誉。尽管可靠的消息来源可以依靠更大的新闻编辑室,并涵盖更多的新闻,但对相应时间序列的转移熵分析表明,前者并不总是在疫苗主题上向后者占据主导地位。的确,流行前时期认为,即使是因果关系,错误的信息也使自己成为过程的领导者,并且比可靠来源的新闻更大程度地获得了用户参与。尽管在Covid-19爆发期间填补了这些信息差距,但可靠来源作为信息生态系统的驱动力的新发现的主要作用仅部分对减少用户对疫苗的错误信息的参与而产生了有益的效果。我们的结果确实表明,除了疫苗接种的有效性外,可靠的来源从未充分反对反vax的叙述,特别是在大大阶段的时期,因此有助于加剧科学否认和对阴谋论的信仰。然而,与此同时,他们确认了刻意提出令人信服的反叙事的错误信息传播的功效。确实,与其他两极分化的论点(例如安全问题,法律问题和疫苗业务)相比,疫苗接种的有效性是在大流行期间通过错误信息讨论的最不吸引人的话题。通过强调制度和主流交流的优势和劣势,我们的发现可能是改善和更好地针对疫苗错误信息的推动运动的宝贵资产。
translated by 谷歌翻译
COVID-19的大流行提出了对多个领域决策者的流行预测的重要性,从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测,但是它具有一些关键的差异,并且仍然是一项非平凡的任务。疾病的传播受到人类行为,病原体动态,天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议,捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作,这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步,并介绍了一个概念框架来导航它们。首先,我们列举了与流行病预测相关的大量流行病学数据集和新的数据流,捕获了各种因素,例如有症状的在线调查,零售和商业,流动性,基因组学数据等。接下来,我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式,以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战,包括预测信息。最后,我们重点介绍了整个预测管道中发现的一些挑战和开放问题。
translated by 谷歌翻译
在撰写本文时,Covid-19(2019年冠状病毒病)已扩散到220多个国家和地区。爆发后,大流行的严肃性使人们在社交媒体上更加活跃,尤其是在Twitter和Weibo等微博平台上。现在,大流行特定的话语一直在这些平台上持续数月。先前的研究证实了这种社会产生的对话对危机事件的情境意识的贡献。案件的早期预测对于当局估算应对病毒的生长所需的资源要求至关重要。因此,这项研究试图将公共话语纳入预测模型的设计中,特别针对正在进行的波浪的陡峭山路区域。我们提出了一种基于情感的主题方法,用于设计与公开可用的Covid-19相关Twitter对话中的多个时间序列。作为用例,我们对澳大利亚Covid-19的日常案例和该国境内产生的Twitter对话实施了拟议的方法。实验结果:(i)显示了Granger导致每日COVID-19确认案例的潜在社交媒体变量的存在,并且(ii)确认这些变量为预测模型提供了其他预测能力。此外,结果表明,用于建模的社交媒体变量包含了48.83--51.38%的RMSE比基线模型的改善。我们还向公众发布了大型Covid-19特定地理标记的全球推文数据集Megocov,预计该量表的地理标记数据将有助于通过其他空间和时间上下文理解大流行的对话动态。
translated by 谷歌翻译
虽然在线社交媒体提供了一种忽略或窒息的声音的方式,但它还使用户可以平台传播可恨的言论。这种讲话通常起源于边缘社区,但它可以溢出到主流渠道中。在本文中,我们衡量加入边缘仇恨社区的影响,以仇恨言论传播到社交网络的其余部分。我们利用Reddit的数据来评估加入一种回声室的效果:一个志趣相投的用户,表现出仇恨行为的数字社区。我们在成为积极参与者之前和之后衡量成员在研究社区之外的仇恨言论的用法。使用中断的时间序列(ITS)分析作为因果推理方法,我们衡量了溢出效应,其中某个社区内的可恨语言可以通过使用社区外的仇恨单词用作代理,可以通过使用社区的层次来传播该社区之外的效果对于博学的仇恨。我们研究了涵盖仇恨言论的三个领域的四个不同的Reddit子社区(子红):种族主义,厌女症和脂肪欺骗。在所有三种情况下,我们发现在原始社区之外的仇恨言论都在增加,这意味着加入此类社区会导致仇恨言论在整个平台中传播。此外,在最初加入社区后的几个月后,发现用户可以在几个月内接受这种新的仇恨演讲。我们表明,有害的言论不保留在社区中。我们的结果提供了回声室有害影响的新证据,以及调节它们以减少仇恨言论的潜在好处。
translated by 谷歌翻译
假新闻的迅速增加,这对社会造成重大损害,触发了许多假新闻相关研究,包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集:(1)假新闻检测,(2)事实验证,(3)其他任务;例如,假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后,我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究,而无需重新发明轮子,从而提高了深度的假新闻研究。
translated by 谷歌翻译
Covid-19的传播引发了针对亚洲社区的社交媒体的种族主义和仇恨。然而,关于种族仇恨在大流行期间的差异和柜台垂直在减轻这种蔓延的角色时,很少见过。在这项工作中,我们研究了通过推特镜头的反亚洲仇恨演讲的演变和传播。我们创建了Covid-讨厌,这是一个跨越14个月的反亚洲仇恨和柜台的最大数据集,含有超过2.06亿推文,以及超过1.27亿节节点的社交网络。通过创建一个新的手工标记数据集,3,355推文,我们培训文本分类器以识别仇恨和柜台jeech推文,以实现0.832的平均宏F1得分。使用此数据集,我们对推文和用户进行纵向分析。社交网络的分析揭示了可恨和柜台的用户互相互动,彼此广泛地互动,而不是生活在孤立的极化社区中。我们发现在暴露于仇恨内容后,节点很可能变得仇恨。值得注意的是,柜台椎间目可能会阻止用户转向仇恨,可能暗示在Web和社交媒体平台上遏制讨厌的解决方案。数据和代码是在http://claws.cc.gatech.edu/covid。
translated by 谷歌翻译
Understanding the variations in trading price (volatility), and its response to exogenous information, is a well-researched topic in finance. In this study, we focus on finding stable and accurate volatility predictors for a relatively new asset class of cryptocurrencies, in particular Bitcoin, using deep learning representations of public social media data obtained from Twitter. For our experiments, we extracted semantic information and user statistics from over 30 million Bitcoin-related tweets, in conjunction with 15-minute frequency price data over a horizon of 144 days. Using this data, we built several deep learning architectures that utilized different combinations of the gathered information. For each model, we conducted ablation studies to assess the influence of different components and feature sets over the prediction accuracy. We found statistical evidences for the hypotheses that: (i) temporal convolutional networks perform significantly better than both classical autoregressive models and other deep learning-based architectures in the literature, and (ii) tweet author meta-information, even detached from the tweet itself, is a better predictor of volatility than the semantic content and tweet volume statistics. We demonstrate how different information sets gathered from social media can be utilized in different architectures and how they affect the prediction results. As an additional contribution, we make our dataset public for future research.
translated by 谷歌翻译
大量量化在线用户活动数据,例如每周网络搜索量,这些数据与几个查询和位置的相互影响共同进化,是一个重要的社交传感器。通过从此类数据中发现潜在的相互作用,即每个查询之间的生态系统和每个区域之间的影响流,可以准确预测未来的活动。但是,就数据数量和涵盖动力学的复杂模式而言,这是一个困难的问题。为了解决这个问题,我们提出了FluxCube,这是一种有效的采矿方法,可预测大量共同发展的在线用户活动并提供良好的解释性。我们的模型是两个数学模型的组合的扩展:一个反应扩散系统为建模局部群体之间的影响流和生态系统建模的框架提供了一个模拟每个查询之间的潜在相互作用。同样,通过利用物理知识的神经网络的概念,FluxCube可以共同获得从参数和高预测性能获得的高解释性。在实际数据集上进行的广泛实验表明,从预测准确性方面,FluxCube优于可比较的模型,而FluxCube中的每个组件都会有助于增强性能。然后,我们展示了一些案例研究,即FluxCube可以在查询和区域组之间提取有用的潜在相互作用。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译