在过去的几十年里,互联网用户在网上举办了实时事件并与现场,互动受众分享经历的日益增长的需求。像抽搐一样的在线流媒体服务吸引了数百万用户来流并窥视。关于抽搐对流动性普及的预测有很少的研究。在本文中,我们看起来可能有助于娱乐的潜在因素。在4周时段期间,通过使用Twitch的API一致的跟踪收集娱乐数据。收集每个用户的流信息,例如当前观看者和追随者的数量,流类型等。从结果中,我们发现流媒体会话的频率,内容的类型和流的长度是确定在会话期间可以获得多少观众和订户的垃圾媒体。
translated by 谷歌翻译
在过去的十年中,视频通信一直在迅速增加,YouTube提供了一种媒介,用户可以在其中发布,发现,共享和反应视频。引用研究文章的视频数量也有所增加,尤其是因为学术会议需要进行视频提交已变得相对普遍。但是,研究文章与YouTube视频之间的关系尚不清楚,本文的目的是解决此问题。我们使用YouTube视频创建了新的数据集,并在各种在线平台上提到了研究文章。我们发现,视频中引用的大多数文章都与医学和生物化学有关。我们通过统计技术和可视化分析了这些数据集,并建立了机器学习模型,以预测(1)视频中是否引用了研究文章,(2)视频中引用的研究文章是否达到了一定程度的知名度,以及(3)引用研究文章的视频是否流行。最佳模型的F1得分在80%至94%之间。根据我们的结果,在更多推文和新闻报道中提到的研究文章有更高的机会接收视频引用。我们还发现,视频观点对于预测引用和增加研究文章的普及和公众参与科学很重要。
translated by 谷歌翻译
短片已成为年轻一代使用的领先媒体之一,以便在线表达自己,从而塑造在线文化中的驱动力。在这方面,Tiktok已成为往往首先发布病毒视频的平台。在本文中,我们研究了在Tiktok上发布的短片内容有助于他们的病毒。我们应用一种混合方法方法来开发码本并识别重要的病毒功能。我们这样做是如此vis- \'a-vis三个研究假设;即:1)视频内容,2)Tiktok的推荐算法,以及3)视频创建者的普及有助于病毒性。我们收集并标记400个Tiktok视频和火车分类器的数据集,以帮助我们确定最多影响景象的功能。虽然追随者的数量是最强大的预测因子,但特写和中射尺度也起到重要作用。因此视频的寿命,文本的存在以及观点。我们的研究突出了与非病毒Tiktok视频区分病毒的特征,奠定了制定额外方法来创建更多聘用的在线内容,并主动地确定可能达到大量受众的风险内容。
translated by 谷歌翻译
少数群体一直在使用社交媒体来组织社会运动,从而产生深远的社会影响。黑人生活问题(BLM)和停止亚洲仇恨(SAH)是两个成功的社会运动,在Twitter上蔓延开来,促进了抗议活动和活动,反对种族主义,并提高公众对少数群体面临的其他社会挑战的认识。但是,以前的研究主要对与用户的推文或访谈进行了定性分析,这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格,量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此,在这项研究中,我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了(1)潜在的DIRICHLET分配模型,以了解顶级高级单词和主题以及(2)开放编码分析,以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文,并比较了它们的主题。我们的发现表明,这些推文在深度上讨论了各种有影响力的话题,社会正义,社会运动和情感情感都是两种运动的共同主题,尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析,以及有关AI,伦理和社会相互作用的文献。
translated by 谷歌翻译
社交媒体,职业运动和视频游戏正在推动实时视频流的快速增长,在抽搐和YouTube Live等平台上。自动流媒体经验非常易于短时间级网络拥塞,因为客户端播放缓冲区通常不超过几秒钟。不幸的是,识别这些流和测量他们的QoE进行网络管理是具有挑战性的,因为内容提供商在很大程度上使用相同的交付基础设施来用于实时和视频点播(VOD)流,并且不能提供数据包检查技术(包括SNI / DNS查询监控)始终区分两者。在本文中,我们设计,构建和部署康复:基于网络级行为特征的实时视频检测和QoE测量的机器学习方法。我们的贡献是四倍:(1)我们从抽搐和YouTube分析约23,000个视频流,并在其流量配置文件中识别区分实时和按需流的关键功能。我们将我们的交通迹线释放为公众的开放数据; (2)我们开发基于LSTM的二进制分类器模型,该模型将Live从按需流实时区分,在提供商的高度超过95%的准确度; (3)我们开发了一种方法,估计实时流动流动的QoE度量,分辨率和缓冲率分别分别为93%和90%的总体精度; (4)最后,我们将我们的解决方案原型,将其培训在实验室中,并在服务于7,000多名订阅者的Live ISP网络中部署它。我们的方法提供了ISP,具有细粒度的可视性,进入实时视频流,使它们能够测量和改善用户体验。
translated by 谷歌翻译
电报是全球最常用的即时消息传递应用之一。其成功之所以在于提供高隐私保护和社交网络,如频道 - 虚拟房间,其中只有管理员可以发布和广播到所有订户的消息。然而,这些相同的功能促成了边界活动的出现,并且与在线社交网络一样常见,假账户的沉重存在。通过引入频道的验证和诈骗标记,电报开始解决这些问题。不幸的是,问题远未解决。在这项工作中,我们通过收集35,382个不同的渠道和超过130,000,000消息来进行大规模分析电报。我们研究电报标记为验证或骗局的渠道,突出显示类比和差异。然后,我们转到未标记的频道。在这里,我们发现一些臭名昭着的活动也存在于虚拟网络的隐私保存服务,例如梳理,共享非法成人和版权保护内容。此外,我们还确定并分析了另外两种类型的渠道:克隆和假货。克隆是发布另一个频道确切内容的频道,以获得订阅者和促进服务。相反,假货是试图冒充名人或知名服务的渠道。即使是最先进的用户甚至很难确定。要自动检测假频道,我们提出了一种机器学习模型,可以以86%的准确性识别它们。最后,我们研究了Sabmyk,这是一种阴谋理论,即利用假货和克隆在达到超过1000万用户的平台上迅速传播。
translated by 谷歌翻译
社交媒体平台上的滥用内容的增长增加对在线用户的负面影响。对女同性恋,同性恋者,跨性别或双性恋者的恐惧,不喜欢,不适或不疑虑被定义为同性恋/转铁症。同性恋/翻译语音是一种令人反感的语言,可以总结为针对LGBT +人的仇恨语音,近年来越来越受到兴趣。在线同性恋恐惧症/ Transphobobia是一个严重的社会问题,可以使网上平台与LGBT +人有毒和不受欢迎,同时还试图消除平等,多样性和包容性。我们为在线同性恋和转鸟以及专家标记的数据集提供了新的分类分类,这将允许自动识别出具有同种异体/传递内容的数据集。我们受过教育的注释器并以综合的注释规则向他们提供,因为这是一个敏感的问题,我们以前发现未受训练的众包注释者因文化和其他偏见而诊断倡导性的群体。数据集包含15,141个注释的多语言评论。本文介绍了构建数据集,数据的定性分析和注册间协议的过程。此外,我们为数据集创建基线模型。据我们所知,我们的数据集是第一个已创建的数据集。警告:本文含有明确的同性恋,转基因症,刻板印象的明确陈述,这可能对某些读者令人痛苦。
translated by 谷歌翻译
关于日益增长的直播媒介的一种普遍信念是,其价值在于其“实时”组成部分。我们通过比较实时事件需求的价格弹性如何在直播中和之后的生活中进行了比较,从而研究了这种信念。我们使用来自大型直播平台的独特且丰富的数据来做到这一点,该数据使消费者可以在流中期后购买录制版本的直播版本。在我们背景下的一个挑战是,存在高维混杂因素,其与治疗政策(即价格)和兴趣结果(即需求)的关系是复杂的,并且仅部分知道。我们通过使用广义正交随机森林框架来解决这一挑战,以进行异质治疗效果估计。我们发现在整个事件生命周期中,需求价格弹性的时间弹性都显着。具体而言,随着时间的流逝,需求变得越来越敏感,直到直播一天,那天就变成了无弹性。在生活后的时期,对录制版本的需求仍然对价格敏感,但远低于在播放前的时期。我们进一步表明,价格弹性的这种时间变化是由此类事件固有的质量不确定性以及在直播过程中与内容创建者进行实时互动的机会所驱动的。
translated by 谷歌翻译
这项研究使用Tiktok(n = 8,173)来研究最近黑人生活问题运动中抗议范式的短形式视频平台。采用计算机介导的视觉分析,计算机视觉,以确定多媒体内容中的四个视觉抗议(RIOT,COMPRANTATION,COMPROTATION,COMPAINCALE和DEBATE)的存在。描述性统计和t检验的结果表明,在Tiktok上很少发现三个合法化框架 - 暴动,对抗和奇观 - 而辩论框架(赋予边缘化社区)的辩论框架占据了公共领域的主导。但是,尽管三个合法化框架获得了较低的社交媒体可见性,但按照观点,喜欢,分享,追随者和持续时间衡量,但合法化的要素,例如辩论框架,少数群体身份和非正式来源,通常不受Tiktok受众的青睐。 。这项研究得出的结论是,尽管简短的视频平台可能会挑战内容创作者方面的抗议范式,但社交媒体可见性衡量的受众偏爱仍可能与抗议范式相关。
translated by 谷歌翻译
由于传统的社交媒体平台继续禁止演员传播仇恨言论或其他形式的滥用语言(称为令人作为令人作为的过程),因此这些演员迁移到不适中用户内容的替代平台。一个流行的平台与德国Hater社区相关,是迄今为止已经有限的研究工作的电报。本研究旨在开发一个广泛的框架,包括(i)用于德国电报消息的滥用语言分类模型和(ii)电报频道仇恨性的分类模型。对于第一部分,我们使用包含来自其他平台的帖子的现有滥用语言数据集来开发我们的分类模型。对于信道分类模型,我们开发了一种方法,该方法将从主题模型中收集的信道特定内容信息与社会图组合以预测频道的仇恨性。此外,我们补充了这两种仇恨语音检测方法,并在德国电报上的呼吸群落演变。我们还提出了对仇恨语音研究界进行可扩展网络分析的方法。作为本研究的额外输出,我们提供了包含1,149个注释电报消息的注释滥用语言数据集。
translated by 谷歌翻译
Following the outbreak of a global pandemic, online content is filled with hate speech. Donald Trump's ''Chinese Virus'' tweet shifted the blame for the spread of the Covid-19 virus to China and the Chinese people, which triggered a new round of anti-China hate both online and offline. This research intends to examine China-related hate speech on Twitter during the two years following the burst of the pandemic (2020 and 2021). Through Twitter's API, in total 2,172,333 tweets hashtagged #china posted during the time were collected. By employing multiple state-of-the-art pretrained language models for hate speech detection, we identify a wide range of hate of various types, resulting in an automatically labeled anti-China hate speech dataset. We identify a hateful rate in #china tweets of 2.5% in 2020 and 1.9% in 2021. This is well above the average rate of online hate speech on Twitter at 0.6% identified in Gao et al., 2017. We further analyzed the longitudinal development of #china tweets and those identified as hateful in 2020 and 2021 through visualizing the daily number and hate rate over the two years. Our keyword analysis of hate speech in #china tweets reveals the most frequently mentioned terms in the hateful #china tweets, which can be used for further social science studies.
translated by 谷歌翻译
在清晨预测交通动态时,传统交通预测方法的有效性通常非常有限。原因是在清晨通勤期间交通可能会彻底分解,这个分解的时间和持续时间大幅度从日常生活中变化。清晨的交通预测是通知午餐的交通管理至关重要,但他们通常会提前预测,特别是在午夜预测。在本文中,我们建议将Twitter消息作为探测方法,了解在前一天晚上/午夜的人们工作和休息模式的影响到下一天的早晨交通。该模型在匹兹堡的高速公路网络上进行了测试,作为实验。由此产生的关系令人惊讶地简单且强大。我们发现,一般来说,早些时候的人休息如推文所示,即第二天早上就越拥挤的道路就越多。之前的大事发生了大事,由更高或更低的Tweet情绪表示,比正常,通常意味着在第二天早上的旅行需求较低。此外,人们在前一天晚上和清晨的鸣叫活动与早晨高峰时段的拥堵有统计学相关。我们利用这种关系来构建一个预测框架,预测早晨的通勤充血使用5时或早晨午夜提取的人的推特型材。匹兹堡研究支持我们的框架可以精确预测早晨拥塞,特别是对于具有大型日常充血变异的道路瓶颈上游的一些道路段。我们的方法在没有Twitter消息功能的情况下大大差异,可以从提供管理洞察力的推文配置文件中学习有意义的需求表示。
translated by 谷歌翻译
社交媒体的回声室是一个重要的问题,可以引起许多负面后果,最近影响对Covid-19的响应。回声室促进病毒的阴谋理论,发现与疫苗犹豫不决,较少遵守面具授权,以及社会疏散的实践。此外,回声室的问题与政治极化等其他相关问题相连,以及误导的传播。回声室被定义为用户网络,用户只与支持其预先存在的信仰和意见的意见相互作用,并且他们排除和诋毁其他观点。本调查旨在从社会计算的角度检查社交媒体上的回声室现象,并为可能的解决方案提供蓝图。我们调查了相关文献,了解回声室的属性以及它们如何影响个人和社会。此外,我们展示了算法和心理的机制,这导致了回声室的形成。这些机制可以以两种形式表现出:(1)社交媒体推荐系统的偏见和(2)内部偏见,如确认偏见和精梳性。虽然减轻内部偏见是非常挑战的,但努力消除推荐系统的偏见。这些推荐系统利用我们自己的偏见来个性化内容建议,以使我们参与其中才能观看更多广告。因此,我们进一步研究了回声室检测和预防的不同计算方法,主要基于推荐系统。
translated by 谷歌翻译
我们开发一个从社交媒体文本数据中提取情绪的工具。我们的方法有三个主要优势。首先,它适用于财务背景;其次,它包含社交媒体数据的关键方面,例如非标准短语,表情符号和表情符号;第三,它通过顺序地学习潜在的表示来操作,该潜在表示包括单词顺序,单词使用和本地上下文等功能。此工具以及用户指南可供选择:https://github.com/dvamossy/mtract。使用大学,我们探讨了社会媒体和资产价格表达的投资者情绪之间的关系。我们记录了一些有趣的见解。首先,我们确认了一些受控实验室实验的调查结果,将投资者情绪与资产价格变动相关联。其次,我们表明投资者的情绪是预测日常价格变动的预测。当波动率或短暂的兴趣更高,当机构所有权或流动性降低时,这些影响更大。第三,在IPO之前增加了投资者的热情,促进了大量的第一天返回,并长期不足的IPO股票。为了证实我们的结果,我们提供了许多稳健性检查,包括使用替代情感模型。我们的研究结果强化了情绪和市场动态密切相关的直觉,并突出了在评估股票的短期价值时考虑投资者情绪的重要性。
translated by 谷歌翻译
It does not matter whether it is a job interview with Tech Giants, Wall Street firms, or a small startup; all candidates want to demonstrate their best selves or even present themselves better than they really are. Meanwhile, recruiters want to know the candidates' authentic selves and detect soft skills that prove an expert candidate would be a great fit in any company. Recruiters worldwide usually struggle to find employees with the highest level of these skills. Digital footprints can assist recruiters in this process by providing candidates' unique set of online activities, while social media delivers one of the largest digital footprints to track people. In this study, for the first time, we show that a wide range of behavioral competencies consisting of 16 in-demand soft skills can be automatically predicted from Instagram profiles based on the following lists and other quantitative features using machine learning algorithms. We also provide predictions on Big Five personality traits. Models were built based on a sample of 400 Iranian volunteer users who answered an online questionnaire and provided their Instagram usernames which allowed us to crawl the public profiles. We applied several machine learning algorithms to the uniformed data. Deep learning models mostly outperformed by demonstrating 70% and 69% average Accuracy in two-level and three-level classifications respectively. Creating a large pool of people with the highest level of soft skills, and making more accurate evaluations of job candidates is possible with the application of AI on social media user-generated data.
translated by 谷歌翻译
在多个在线平台上的数量越来越多。尽管这些文章的学术影响得到了广泛的研究,但在线分享的在线兴趣仍不清楚。认识到在线提到的研究文章的时间对研究人员来说可能是有价值的信息。在本文中,我们分析了用户共享和/或讨论学术文章的多个社交媒体平台。我们建立了三个论文集群,根据年度在线提及的出版日期,范围从1920年到2016年。使用这三个群集中的每个集群使用在线社交媒体指标,我们构建了机器学习模型来预测长期的机器学习模型在线对研究文章的兴趣。我们采用两种不同的方法来解决预测任务:回归和分类。对于回归方法,多层感知器模型表现最好,对于分类方法,基于树的模型的性能比其他模型更好。我们发现,在经济和工业的背景下(即专利),旧文章最为明显。相比之下,最近发表的文章在研究平台(即Mendeley)之后是社交媒体平台(即Twitter)最为明显。
translated by 谷歌翻译
Social media has been one of the main information consumption sources for the public, allowing people to seek and spread information more quickly and easily. However, the rise of various social media platforms also enables the proliferation of online misinformation. In particular, misinformation in the health domain has significant impacts on our society such as the COVID-19 infodemic. Therefore, health misinformation in social media has become an emerging research direction that attracts increasing attention from researchers of different disciplines. Compared to misinformation in other domains, the key differences of health misinformation include the potential of causing actual harm to humans' bodies and even lives, the hardness to identify for normal people, and the deep connection with medical science. In addition, health misinformation on social media has distinct characteristics from conventional channels such as television on multiple dimensions including the generation, dissemination, and consumption paradigms. Because of the uniqueness and importance of combating health misinformation in social media, we conduct this survey to further facilitate interdisciplinary research on this problem. In this survey, we present a comprehensive review of existing research about online health misinformation in different disciplines. Furthermore, we also systematically organize the related literature from three perspectives: characterization, detection, and intervention. Lastly, we conduct a deep discussion on the pressing open issues of combating health misinformation in social media and provide future directions for multidisciplinary researchers.
translated by 谷歌翻译
为了解决疫苗犹豫不决,这会损害COVID-19疫苗接种运动的努力,必须了解公共疫苗接种态度并及时掌握其变化。尽管具有可靠性和可信赖性,但基于调查的传统态度收集是耗时且昂贵的,无法遵循疫苗接种态度的快速发展。我们利用社交媒体上的文本帖子通过提出深入学习框架来实时提取和跟踪用户的疫苗接种立场。为了解决与疫苗相关话语中常用的讽刺和讽刺性的语言特征的影响,我们将用户社交网络邻居的最新帖子集成到框架中,以帮助检测用户的真实态度。根据我们从Twitter的注释数据集,与最新的仅文本模型相比,从我们框架实例化的模型可以提高态度提取的性能高达23%。使用此框架,我们成功地验证了使用社交媒体跟踪现实生活中疫苗接种态度的演变的可行性。我们进一步显示了对我们的框架的一种实际用途,它可以通过从社交媒体中感知到的信息来预测用户疫苗犹豫的变化的可能性。
translated by 谷歌翻译
在公共危机时期,寻求信息对于人们的自我保健和福祉至关重要。广泛的研究调查了经验理解和技术解决方案,以促进受影响地区的家庭公民寻求信息。但是,建立有限的知识是为了支持需要在其东道国发生危机的国际移民。当前的论文对居住在日本和美国(n = 14)的两名中国移民(n = 14)进行了访谈研究。参与者反思了他们在共同大流行期间寻求经验的信息。反思补充了两周的自我追踪,参与者保持了相关信息寻求实践的记录。我们的数据表明,参与者经常绕开语言绕道,或访问普通话资源以获取有关其东道国疫情爆发的信息。他们还进行了战略性利用普通话信息,以进行选择性阅读,交叉检查以及对日语或英语的共同信息的上下文化解释。尽管这种做法增强了参与者对共同相关信息收集和感官的有效性,但他们有时会通过有时认识的方式使人们处于不利地位。此外,参与者缺乏对审查以移民为导向的信息的认识或偏爱,尽管该信息可用,这些信息是由东道国公共当局发布的。在这些发现的基础上,我们讨论了改善国际移民在非本地语言和文化环境中寻求共同相关信息的解决方案。我们主张包容性危机基础设施,这些基础设施将吸引以当地语言流利程度,信息素养和利用公共服务的经验的不同水平的人们。
translated by 谷歌翻译
在当今的世界中,每个人都以某种方式表现出来,而该项目的重点是人们使用Twitter的数据(一个微博平台)的数据,人们对英国和印度的电价上涨的看法,人们在该平台上发布了消息,人们发布了消息,称为Tweets。因为许多人的收入不好,他们必须缴纳如此多的税款和账单,因此如今,维持房屋已成为有争议的问题。尽管政府提供了补贴计划来补偿人们的电费,但不受人们的欢迎。在这个项目中,目的是对Twitter上表达的人们的表达和观点进行情感分析。为了掌握电价的意见,有必要对能源市场的政府和消费者进行情感分析。此外,这些媒体上存在的文本本质上是非结构化的,因此要处理它们,我们首先需要预处理数据。有很多功能提取技术,例如单词袋,tf-idf(术语频率为单位的文档频率),单词嵌入,基于NLP的功能,例如Word Count。在该项目中,我们分析了特征TF-IDF单词级别对情感分析数据集的影响。我们发现,通过使用TF-IDF单词级别的性能分析的表现比使用N-Gram功能高3-4。使用四种分类算法进行分析,包括幼稚的贝叶斯,决策树,随机森林和逻辑回归,并考虑F评分,准确性,精度和召回性能参数。
translated by 谷歌翻译