使用Twitter进行事件检测的小调查。这项工作首先定义了问题陈述,然后总结并整理了解决问题的不同研究工作。
translated by 谷歌翻译
新闻库中的自动事件检测是开采快速发展的结构化知识的至关重要的任务。由于现实世界事件具有不同的粒度,从顶级主题到关键事件,然后再提及与具体行动相对应的事件,因此通常有两条研究:(1)主题检测从新闻语料库的主要主题中标识(例如,。 ,“ 2019年香港抗议活动”与“ 2020年美国总统大选”),具有非常不同的语义; (2)从一份文件提取的行动提取提取级别的行动(例如,“警察击中抗议者的左臂”),无法理解该事件。在本文中,我们提出了一项新任务,即在中间级别的关键事件检测,目的是从新闻语料库的关键事件(例如,“ 8月12日至14日的HK机场抗议”)中进行检测,每一次都发生在特定时间/位置并专注于同一主题。由于新闻文章的快速发展性质,这项任务可以弥合事件的理解和结构,并且由于关键事件的主题和时间紧密以及标记的数据的稀缺而具有固有的挑战。为了应对这些挑战,我们开发了一个无监督的关键事件检测框架Evmine,(1)使用新颖的TTF-ITF分数提取时间频繁的峰值短语,(2)将峰值短语合并为事件 - 指示特征集,通过从我们的我们检测我们的社区中。设计的峰短语图可以捕获文档的共发生,语义相似性和时间亲密信号,以及(3)迭代地检索与每个关键事件相关的文档,通过训练具有从事件指标特征集中自动生成的伪标签的分类器,并完善该分类器使用检索的文档检测到关键事件。广泛的实验和案例研究表明,Evmine的表现优于所有基线方法及其在两个现实世界新闻机构上的消融。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
人口级社会事件,如民事骚乱和犯罪,往往对我们的日常生活产生重大影响。预测此类事件对于决策和资源分配非常重要。由于缺乏关于事件发生的真实原因和潜在机制的知识,事件预测传统上具有挑战性。近年来,由于两个主要原因,研究事件预测研究取得了重大进展:(1)机器学习和深度学习算法的开发和(2)社交媒体,新闻来源,博客,经济等公共数据的可访问性指标和其他元数据源。软件/硬件技术中的数据的爆炸性增长导致了社会事件研究中的深度学习技巧的应用。本文致力于提供社会事件预测的深层学习技术的系统和全面概述。我们专注于两个社会事件的域名:\ Texit {Civil unrest}和\ texit {犯罪}。我们首先介绍事件预测问题如何作为机器学习预测任务制定。然后,我们总结了这些问题的数据资源,传统方法和最近的深度学习模型的发展。最后,我们讨论了社会事件预测中的挑战,并提出了一些有希望的未来研究方向。
translated by 谷歌翻译
COVID-19的大流行提出了对多个领域决策者的流行预测的重要性,从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测,但是它具有一些关键的差异,并且仍然是一项非平凡的任务。疾病的传播受到人类行为,病原体动态,天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议,捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作,这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步,并介绍了一个概念框架来导航它们。首先,我们列举了与流行病预测相关的大量流行病学数据集和新的数据流,捕获了各种因素,例如有症状的在线调查,零售和商业,流动性,基因组学数据等。接下来,我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式,以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战,包括预测信息。最后,我们重点介绍了整个预测管道中发现的一些挑战和开放问题。
translated by 谷歌翻译
除了以实体为中心的知识之外,通常组织为知识图(千克),事件也是世界上的必不可少的知识,这触发了活动以kg(ekg)等事件为中心的知识表示形式的春天。它在许多机器学习和人工智能应用中起着越来越重要的作用,例如智能搜索,问答,推荐和文本生成。本文提供了历史,本体实例和应用视图的ekg综合调查。具体而言,要彻底地表征EKG,我们专注于其历史,定义,架构归纳,获取,相关代表图形/系统和应用程序。其中研究了发展过程和趋势。我们进一步总结了透视方向,以促进对EKG的未来研究。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
科学出版物的产出成倍增长。因此,跟踪趋势和变化越来越具有挑战性。了解科学文档是下游任务的重要一步,例如知识图构建,文本挖掘和纪律分类。在这个研讨会中,我们从科学出版物的摘要中可以更好地理解关键字和键形酶提取。
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
分析短文(例如社交媒体帖子)由于其固有的简洁而非常困难。除了对此类帖子的主题进行分类之外,一个常见的下游任务是将这些文档的作者分组以进行后续分析。我们提出了一个新颖的模型,该模型通过对同一文档中的单词之间的强大依赖进行建模以及用户级主题分布来扩展潜在的Dirichlet分配。我们还同时群集用户,消除了对事后集群估计的需求,并通过将嘈杂的用户级主题分布缩小到典型值来改善主题估计。我们的方法的性能和比传统方法的性能(或更好),我们在美国参议员的推文数据集中证明了它的有用性,恢复了反映党派意识形态的有意义的主题和群集。我们还通过表征参议员群体讨论并提供不确定性量化的主题的遗产,从而在这些政治家中开发了一种新的回声室衡量标准。
translated by 谷歌翻译
科学世界正在快速改变,新技术正在开发,新的趋势正在进行频率增加。本文介绍了对学术出版物进行科学分析的框架,这对监测研究趋势并确定潜在的创新至关重要。该框架采用并结合了各种自然语言处理技术,例如Word Embedding和主题建模。嵌入单词嵌入用于捕获特定于域的单词的语义含义。我们提出了两种新颖的科学出版物嵌入,即PUB-G和PUB-W,其能够在各种研究领域学习一般的语义含义以及特定于域的单词。此后,主题建模用于识别这些更大的研究领域内的研究主题集群。我们策划了一个出版物数据集,由两条会议组成,并从1995年到2020年的两项期刊从两个研究领域组成。实验结果表明,与其他基线嵌入式的基于主题连贯性,我们的PUB-G和PUB-W嵌入式与其他基线嵌入式相比优越。
translated by 谷歌翻译
关键词提取是在文本文档中查找几个有趣的短语的任务,它提供了文档中的主要主题列表。大多数现有的基于图形的模型使用共同发生链接作为凝聚指示器来模拟语法元素的关系。但是,单词可能在文档中具有不同形式的表达式,也可能有几个同义词。只需使用共同发生信息无法捕获此信息。在本文中,我们通过利用Word Embeddings作为背景知识来增强基于图形的排名模型,以将语义信息添加到词语图。我们的方法是在既定的基准数据集和经验结果上评估的,表明嵌入邻域信息的单词提高了模型性能。
translated by 谷歌翻译
在清晨预测交通动态时,传统交通预测方法的有效性通常非常有限。原因是在清晨通勤期间交通可能会彻底分解,这个分解的时间和持续时间大幅度从日常生活中变化。清晨的交通预测是通知午餐的交通管理至关重要,但他们通常会提前预测,特别是在午夜预测。在本文中,我们建议将Twitter消息作为探测方法,了解在前一天晚上/午夜的人们工作和休息模式的影响到下一天的早晨交通。该模型在匹兹堡的高速公路网络上进行了测试,作为实验。由此产生的关系令人惊讶地简单且强大。我们发现,一般来说,早些时候的人休息如推文所示,即第二天早上就越拥挤的道路就越多。之前的大事发生了大事,由更高或更低的Tweet情绪表示,比正常,通常意味着在第二天早上的旅行需求较低。此外,人们在前一天晚上和清晨的鸣叫活动与早晨高峰时段的拥堵有统计学相关。我们利用这种关系来构建一个预测框架,预测早晨的通勤充血使用5时或早晨午夜提取的人的推特型材。匹兹堡研究支持我们的框架可以精确预测早晨拥塞,特别是对于具有大型日常充血变异的道路瓶颈上游的一些道路段。我们的方法在没有Twitter消息功能的情况下大大差异,可以从提供管理洞察力的推文配置文件中学习有意义的需求表示。
translated by 谷歌翻译
The dissemination of hateful memes online has adverse effects on social media platforms and the real world. Detecting hateful memes is challenging, one of the reasons being the evolutionary nature of memes; new hateful memes can emerge by fusing hateful connotations with other cultural ideas or symbols. In this paper, we propose a framework that leverages multimodal contrastive learning models, in particular OpenAI's CLIP, to identify targets of hateful content and systematically investigate the evolution of hateful memes. We find that semantic regularities exist in CLIP-generated embeddings that describe semantic relationships within the same modality (images) or across modalities (images and text). Leveraging this property, we study how hateful memes are created by combining visual elements from multiple images or fusing textual information with a hateful image. We demonstrate the capabilities of our framework for analyzing the evolution of hateful memes by focusing on antisemitic memes, particularly the Happy Merchant meme. Using our framework on a dataset extracted from 4chan, we find 3.3K variants of the Happy Merchant meme, with some linked to specific countries, persons, or organizations. We envision that our framework can be used to aid human moderators by flagging new variants of hateful memes so that moderators can manually verify them and mitigate the problem of hateful content online.
translated by 谷歌翻译
规划自行车共享站的布局是一个复杂的过程,特别是在刚刚实施自行车共享系统的城市。城市规划者通常必须根据公开可用的数据并私下提供来自管理的数据,然后使用现场流行的位置分配模型。较小城市的许多城市可能难以招聘专家进行此类规划。本文提出了一种新的解决方案来简化和促进通过使用空间嵌入方法来实现这种规划的过程。仅基于来自OpenStreetMap的公开数据,以及来自欧洲34个城市的站布局,已经开发了一种使用优步H3离散全球电网系统将城市分成微区域的方法,并指示其值得放置站的区域在不同城市使用转移学习的现有系统。工作的结果是在规划驻地布局的决策中支持规划者的机制,以选择参考城市。
translated by 谷歌翻译
The increasing reliance on online communities for healthcare information by patients and caregivers has led to the increase in the spread of misinformation, or subjective, anecdotal and inaccurate or non-specific recommendations, which, if acted on, could cause serious harm to the patients. Hence, there is an urgent need to connect users with accurate and tailored health information in a timely manner to prevent such harm. This paper proposes an innovative approach to suggesting reliable information to participants in online communities as they move through different stages in their disease or treatment. We hypothesize that patients with similar histories of disease progression or course of treatment would have similar information needs at comparable stages. Specifically, we pose the problem of predicting topic tags or keywords that describe the future information needs of users based on their profiles, traces of their online interactions within the community (past posts, replies) and the profiles and traces of online interactions of other users with similar profiles and similar traces of past interaction with the target users. The result is a variant of the collaborative information filtering or recommendation system tailored to the needs of users of online health communities. We report results of our experiments on an expert curated data set which demonstrate the superiority of the proposed approach over the state of the art baselines with respect to accurate and timely prediction of topic tags (and hence information sources of interest).
translated by 谷歌翻译
少数群体一直在使用社交媒体来组织社会运动,从而产生深远的社会影响。黑人生活问题(BLM)和停止亚洲仇恨(SAH)是两个成功的社会运动,在Twitter上蔓延开来,促进了抗议活动和活动,反对种族主义,并提高公众对少数群体面临的其他社会挑战的认识。但是,以前的研究主要对与用户的推文或访谈进行了定性分析,这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格,量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此,在这项研究中,我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了(1)潜在的DIRICHLET分配模型,以了解顶级高级单词和主题以及(2)开放编码分析,以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文,并比较了它们的主题。我们的发现表明,这些推文在深度上讨论了各种有影响力的话题,社会正义,社会运动和情感情感都是两种运动的共同主题,尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析,以及有关AI,伦理和社会相互作用的文献。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
非结构化的文本中存在大量的位置信息,例如社交媒体帖子,新闻报道,科学文章,网页,旅行博客和历史档案。地理学是指识别文本中的位置参考并识别其地理空间表示的过程。虽然地理标准可以使许多领域受益,但仍缺少特定应用程序的摘要。此外,缺乏对位置参考识别方法的现有方法的全面审查和比较,这是地理验证的第一个和核心步骤。为了填补这些研究空白,这篇综述首先总结了七个典型的地理应用程序域:地理信息检索,灾难管理,疾病监视,交通管理,空间人文,旅游管理和犯罪管理。然后,我们通过将这些方法分类为四个组,以基于规则的基于规则,基于统计学学习的基于统计学学习和混合方法将这些方法分类为四个组,从而回顾了现有的方法参考识别方法。接下来,我们彻底评估了27种最广泛使用的方法的正确性和计算效率,该方法基于26个公共数据集,其中包含不同类型的文本(例如,社交媒体帖子和新闻报道),包含39,736个位置参考。这项彻底评估的结果可以帮助未来的方法论发展以获取位置参考识别,并可以根据应用需求指导选择适当方法的选择。
translated by 谷歌翻译
我们为在不平衡的短文本数据集中发现稀缺主题提供了一个简单而通用的解决方案,即基于共同发生的网络模型CWIBTD,可以同时解决短文本主题的稀疏和不平衡的问题并减轻效果的效果。偶尔成对的单词出现,使模型更多地集中在发现稀缺主题上。与以前的方法不同,CWIBTD使用共发生的单词网络对每个单词的主题分布进行建模,从而改善了数据空间的语义密度,并确保其在识别稀有主题方面的敏感性,通过改善计算节点活动的方式和正常方式。在某种程度上,稀缺的话题和大主题。此外,使用与LDA相同的Gibbs采样使CWIBTD易于扩展到Viri-OUS应用程序方案。在不夸张的短文本数据集中进行的广泛实验验证证实了CWIBTD在发现稀有主题时的优越性。我们的模型可用于早期,准确地发现社交平台上新兴主题或意外事件。
translated by 谷歌翻译