训练前轨迹嵌入是空间轨迹挖掘中的一个基本和关键程序,对各种下游任务都是有益的。产生有效轨迹嵌入的关键是从轨迹(包括运动模式和旅行目的)中提取高级旅行语义,并考虑轨迹的长期空间时间相关性。尽管有现有的努力,但训练前轨迹嵌入仍存在重大挑战。首先,常用的生成借个任务不适合从轨迹中提取高级语义。其次,现有的数据增强方法非常适合轨迹数据集。第三,当前的编码器设计无法完全合并轨迹中隐藏的长期时空相关性。为了应对这些挑战,我们提出了一种新型的对比性时空轨迹嵌入(CSTTE)模型,用于学习全面的轨迹嵌入。 CSTTE采用了对比度学习框架,以使其借口任务对噪音具有牢固的态度。一种专门设计的轨迹数据增强方法与对比度借口任务相结合,以保留高级旅行语义。我们还构建了有效的时空轨迹编码器,以有效,全面地对轨迹中的长期空间 - 周期性相关性进行建模。与现有的轨迹嵌入方法相比,对两个下游任务和三个现实世界数据集进行了广泛的实验证明了我们的模型的优势。
translated by 谷歌翻译
道路网络和轨迹表示学习对于交通系统至关重要,因为学习的表示形式可以直接用于各种下游任务(例如,交通速度推理和旅行时间估计)。但是,大多数现有方法仅在同一规模内对比,即分别处理道路网络和轨迹,这些方法忽略了有价值的相互关系。在本文中,我们旨在提出一个统一的框架,该框架共同学习道路网络和轨迹表示端到端。我们为公路对比度和轨迹 - 轨迹对比度分别设计了特定领域的增强功能,即路段及其上下文邻居和轨迹分别替换和丢弃了替代方案。最重要的是,我们进一步引入了路面跨尺度对比,与最大化总互信息桥接了这两个尺度。与仅在形成对比的图形及其归属节点上的现有跨尺度对比度学习方法不同,路段和轨迹之间的对比是通过新颖的正面抽样和适应性加权策略精心量身定制的。我们基于两个实际数据集进行了审慎的实验,这些数据集具有四个下游任务,证明了性能和有效性的提高。该代码可在https://github.com/mzy94/jclrnt上找到。
translated by 谷歌翻译
GPS trajectories are the essential foundations for many trajectory-based applications, such as travel time estimation, traffic prediction and trajectory similarity measurement. Most applications require a large amount of high sample rate trajectories to achieve a good performance. However, many real-life trajectories are collected with low sample rate due to energy concern or other constraints.We study the task of trajectory recovery in this paper as a means for increasing the sample rate of low sample trajectories. Currently, most existing works on trajectory recovery follow a sequence-to-sequence diagram, with an encoder to encode a trajectory and a decoder to recover real GPS points in the trajectory. However, these works ignore the topology of road network and only use grid information or raw GPS points as input. Therefore, the encoder model is not able to capture rich spatial information of the GPS points along the trajectory, making the prediction less accurate and lack spatial consistency. In this paper, we propose a road network enhanced transformer-based framework, namely RNTrajRec, for trajectory recovery. RNTrajRec first uses a graph model, namely GridGNN, to learn the embedding features of each road segment. It next develops a spatial-temporal transformer model, namely GPSFormer, to learn rich spatial and temporal features along with a Sub-Graph Generation module to capture the spatial features for each GPS point in the trajectory. It finally forwards the outputs of encoder model into a multi-task decoder model to recover the missing GPS points. Extensive experiments based on three large-scale real-life trajectory datasets confirm the effectiveness of our approach.
translated by 谷歌翻译
Accurate activity location prediction is a crucial component of many mobility applications and is particularly required to develop personalized, sustainable transportation systems. Despite the widespread adoption of deep learning models, next location prediction models lack a comprehensive discussion and integration of mobility-related spatio-temporal contexts. Here, we utilize a multi-head self-attentional (MHSA) neural network that learns location transition patterns from historical location visits, their visit time and activity duration, as well as their surrounding land use functions, to infer an individual's next location. Specifically, we adopt point-of-interest data and latent Dirichlet allocation for representing locations' land use contexts at multiple spatial scales, generate embedding vectors of the spatio-temporal features, and learn to predict the next location with an MHSA network. Through experiments on two large-scale GNSS tracking datasets, we demonstrate that the proposed model outperforms other state-of-the-art prediction models, and reveal the contribution of various spatio-temporal contexts to the model's performance. Moreover, we find that the model trained on population data achieves higher prediction performance with fewer parameters than individual-level models due to learning from collective movement patterns. We also reveal mobility conducted in the recent past and one week before has the largest influence on the current prediction, showing that learning from a subset of the historical mobility is sufficient to obtain an accurate location prediction result. We believe that the proposed model is vital for context-aware mobility prediction. The gained insights will help to understand location prediction models and promote their implementation for mobility applications.
translated by 谷歌翻译
多元时间序列(MTS)预测在广泛的应用中起着至关重要的作用。最近,时空图神经网络(STGNN)已成为越来越流行的MTS预测方法。 STGNN通过图神经网络和顺序模型共同对MTS的空间和时间模式进行建模,从而显着提高了预测准确性。但是受模型复杂性的限制,大多数STGNN仅考虑短期历史MTS数据,例如过去一个小时的数据。但是,需要根据长期的历史MTS数据来分析时间序列的模式及其之间的依赖关系(即时间和空间模式)。为了解决这个问题,我们提出了一个新颖的框架,其中STGNN通过可扩展的时间序列预训练模型(步骤)增强。具体而言,我们设计了一个预训练模型,以从非常长期的历史时间序列(例如,过去两周)中有效地学习时间模式并生成细分级表示。这些表示为短期时间序列输入到STGNN提供了上下文信息,并促进了时间序列之间的建模依赖关系。三个公共现实世界数据集的实验表明,我们的框架能够显着增强下游STGNN,并且我们的训练前模型可恰当地捕获时间模式。
translated by 谷歌翻译
目前,下一个位置推荐在基于位置的社交网络应用程序和服务中起着重要作用。虽然已经提出了许多方法来解决这个问题,但到目前为止,三个重要挑战尚未得到很好的解决:(1)大多数现有方法基于经常性网络,这是耗费训练长期序列,因为不允许完整的平行度; (2)个性化偏好通常不被认为是合理的; (3)现有方法很少系统地研究了如何在轨迹数据中有效地利用各种辅助信息(例如,用户ID和时间戳)和非连续位置之间的时空关系。为了解决上述挑战,我们提出了一种名为SANMOVE的新型方法,是一种自我关注网络的模型,通过捕获用户的长期和短期移动模式来预测下一个位置。具体而言,SANMOVE引入了一个长期偏好学习模块,它使用自我关注模块来捕获用户的长期移动模式,可以代表用户的个性化位置偏好。同时,SanMove使用空间延伸的非侵入自我关注(Stnova)来利用辅助信息来学习短期偏好。我们使用两个真实世界数据集进行评估SANMOVE,并演示SANMOVE不仅比基于最先进的RNN的预测模型更快,而且还优于下一个位置预测的基线。
translated by 谷歌翻译
随着移动通信技术的快速发展,人类的移动轨迹由互联网服务提供商(ISP)和应用服务提供商(ASP)大规模收集。另一方面,知识图(kg)的上升范式为我们提供了一个有希望的解决方案,可以从大规模轨迹数据提取结构化的“知识”。在本文中,我们基于知识图技术专注于建模用户的时空移动模式,并根据从多个源以凝聚力的方式提取的“知识”,预测用户的未来运动。具体来说,我们提出了一种新型知识图中,即时空城市知识图(STKG),其中活动轨迹,场地的类别信息和时间信息都是由STKG中不同关系类型的事实共同建模。移动预测问题转换为知识图表在STKG中完成问题。此外,提出了一种具有精心设计的评分功能的复杂嵌入模型,以衡量STKG中的事实的合理性,以解决知识图形完成问题,这考虑了移动性模式的时间动态,并利用POI类别作为辅助信息和背景知识。广泛的评估确认我们模型在预测用户方面的高精度与最先进的算法相比,S'Mobility,即,提高了5.04%的准确性。此外,POI类别作为背景知识和辅助信息被证实通过在准确性方面提高了3.85%的性能,有助于提高。另外,实验表明,与现有方法相比,我们的所提出的方法通过将计算时间降低43.12%以上。
translated by 谷歌翻译
人和车辆轨迹体现了运输基础设施的重要信息,轨迹相似性计算是许多涉及轨迹数据分析的现实世界应用中的功能。最近,基于深度学习的轨迹相似性技术使得能够提高传统相似性技术提高效率和适应性。然而,现有的轨迹相似度学习提案强调了时间相似性的空间相似性,使得它们次开用于时光分析。为此,我们提出了ST2VEC,这是一种基于轨迹表示的学习架构,其考虑了道路网络中的时空相似度学习的对轨迹对之间的细粒度的空间和时间相关性。据我们所知,这是第一个用于时空轨迹相似性分析的深学习建议。具体而言,ST2VEC包含三个阶段:(i)培训选择代表性培训样本的数据准备; (ii)设计轨迹的空间和时间建模,其中设计了通用时间建模模块(TMM)的轨迹的空间和时间特征; (iii)时空共关节融合(STCF),其中开发了统一的融合(UF)方法,以帮助产生统一的时空轨迹嵌入,以捕获轨迹之间的时空相似关系。此外,由课程概念启发,ST2VEC采用课程学习进行模型优化,以提高融合和有效性。实验研究提供了证据表明,ST2VEC显着胜过了所有最先进的竞争对手,在有效性,效率和可扩展性方面,同时显示出低参数敏感性和良好的模型稳健性。
translated by 谷歌翻译
“轨迹”是指由地理空间中的移动物体产生的迹线,通常由一系列按时间顺序排列的点表示,其中每个点由地理空间坐标集和时间戳组成。位置感应和无线通信技术的快速进步使我们能够收集和存储大量的轨迹数据。因此,许多研究人员使用轨迹数据来分析各种移动物体的移动性。在本文中,我们专注于“城市车辆轨迹”,这是指城市交通网络中车辆的轨迹,我们专注于“城市车辆轨迹分析”。城市车辆轨迹分析提供了前所未有的机会,可以了解城市交通网络中的车辆运动模式,包括以用户为中心的旅行经验和系统范围的时空模式。城市车辆轨迹数据的时空特征在结构上相互关联,因此,许多先前的研究人员使用了各种方法来理解这种结构。特别是,由于其强大的函数近似和特征表示能力,深度学习模型是由于许多研究人员的注意。因此,本文的目的是开发基于深度学习的城市车辆轨迹分析模型,以更好地了解城市交通网络的移动模式。特别是,本文重点介绍了两项研究主题,具有很高的必要性,重要性和适用性:下一个位置预测,以及合成轨迹生成。在这项研究中,我们向城市车辆轨迹分析提供了各种新型模型,使用深度学习。
translated by 谷歌翻译
对人类流动性进行建模有助于了解人们如何访问资源并在城市中彼此进行身体接触,从而有助于各种应用,例如城市规划,流行病控制和基于位置的广告。下一个位置预测是单个人类移动性建模中的一项决定性任务,通常被视为序列建模,用Markov或基于RNN的方法解决。但是,现有模型几乎不关注单个旅行决策的逻辑和人口集体行为的可重复性。为此,我们提出了一个因果关系和空间约束的长期和短期学习者(CSLSL),以进行下一个位置预测。 CSLSL利用基于多任务学习的因果结构来明确对“ $ \ rightarrow $ wher wher wher wher whit $ \ rightarrow $ where where where”,a.k.a.”接下来,我们提出一个空间约束损失函数作为辅助任务,以确保旅行者目的地的预测和实际空间分布之间的一致性。此外,CSLSL采用了名为Long and Short-Charturer(LSC)的模块,以了解不同时间跨度的过渡规律。在三个现实世界数据集上进行的广泛实验表明,CSLSL的性能改善了基准,并确认引入因果关系和一致性约束的有效性。该实现可在https://github.com/urbanmobility/cslsl上获得。
translated by 谷歌翻译
图表上的交通流量预测在许多字段(例如运输系统和计算机网络)中具有现实世界应用。由于复杂的时空相关性和非线性交通模式,交通预测可能是高度挑战的。现有的作品主要是通过分别考虑空间相关性和时间相关性来模拟此类时空依赖性的模型,并且无法对直接的时空相关性进行建模。受到图形域中变形金刚最近成功的启发,在本文中,我们建议使用局部多头自我攻击直接建模时空图上的跨空间相关性。为了降低时间的复杂性,我们将注意力接收场设置为空间相邻的节点,还引入了自适应图以捕获隐藏的空间范围依赖性。基于这些注意机制,我们提出了一种新型的自适应图形时空变压器网络(ASTTN),该网络堆叠了多个时空注意层以在输入图上应用自我注意力,然后是线性层进行预测。公共交通网络数据集,Metr-La PEMS-Bay,PEMSD4和PEMSD7的实验结果证明了我们模型的出色性能。
translated by 谷歌翻译
尽管完全监督的人类骨架序列建模成功,但使用自我监督的预训练进行骨架序列表示学习一直是一个活跃的领域,因为很难在大规模上获取特定于任务的骨骼注释。最近的研究重点是使用对比学习学习视频级别的时间和歧视性信息,但忽略了人类骨骼的层次空间时间。与视频级别的这种表面监督不同,我们提出了一种自我监督的分层预训练方案,该方案纳入了基于层次变压器的骨骼骨骼序列编码器(HI-TRS),以明确捕获空间,短期和长期和长期框架,剪辑和视频级别的时间依赖性分别。为了通过HI-TR评估提出的自我监督预训练方案,我们进行了广泛的实验,涵盖了三个基于骨架的下游任务,包括动作识别,动作检测和运动预测。根据监督和半监督评估协议,我们的方法实现了最新的性能。此外,我们证明了我们的模型在训练阶段中学到的先验知识具有强大的下游任务的转移能力。
translated by 谷歌翻译
Transformer models have shown great success handling long-range interactions, making them a promising tool for modeling video. However they lack inductive biases and scale quadratically with input length. These limitations are further exacerbated when dealing with the high dimensionality introduced with the temporal dimension. While there are surveys analyzing the advances of Transformers for vision, none focus on an in-depth analysis of video-specific designs. In this survey we analyze main contributions and trends of works leveraging Transformers to model video. Specifically, we delve into how videos are handled as input-level first. Then, we study the architectural changes made to deal with video more efficiently, reduce redundancy, re-introduce useful inductive biases, and capture long-term temporal dynamics. In addition we provide an overview of different training regimes and explore effective self-supervised learning strategies for video. Finally, we conduct a performance comparison on the most common benchmark for Video Transformers (i.e., action classification), finding them to outperform 3D ConvNets even with less computational complexity.
translated by 谷歌翻译
动态图形表示学习是具有广泛应用程序的重要任务。以前关于动态图形学习的方法通常对嘈杂的图形信息(如缺失或虚假连接)敏感,可以产生退化的性能和泛化。为了克服这一挑战,我们提出了一种基于变换器的动态图表学习方法,命名为动态图形变换器(DGT),带有空间 - 时间编码,以有效地学习图形拓扑并捕获隐式链接。为了提高泛化能力,我们介绍了两个补充自我监督的预训练任务,并表明共同优化了两种预训练任务,通过信息理论分析导致较小的贝叶斯错误率。我们还提出了一个时间联盟图形结构和目标 - 上下文节点采样策略,用于高效和可扩展的培训。与现实世界数据集的广泛实验说明了与几个最先进的基线相比,DGT呈现出优异的性能。
translated by 谷歌翻译
估计到达时间(ETA)预测时间(也称为旅行时间估计)是针对各种智能运输应用程序(例如导航,路线规划和乘车服务)的基本任务。为了准确预测一条路线的旅行时间,必须考虑到上下文和预测因素,例如空间 - 周期性的互动,驾驶行为和交通拥堵传播的推断。先前在百度地图上部署的ETA预测模型已经解决了时空相互作用(constgat)和驾驶行为(SSML)的因素。在这项工作中,我们专注于建模交通拥堵传播模式以提高ETA性能。交通拥堵的传播模式建模具有挑战性,它需要考虑到随着时间的推移影响区域的影响区域,以及延迟变化随时间变化的累积影响,这是由于道路网络上的流量事件引起的。在本文中,我们提出了一个实用的工业级ETA预测框架,名为Dueta。具体而言,我们基于交通模式的相关性构建了一个对拥堵敏感的图,并开发了一种路线感知图形变压器,以直接学习路段的长距离相关性。该设计使Dueta能够捕获空间遥远但与交通状况高度相关的路段对之间的相互作用。广泛的实验是在从百度地图收集的大型现实世界数据集上进行的。实验结果表明,ETA预测可以从学习的交通拥堵传播模式中显着受益。此外,Dueta已经在Baidu Maps的生产中部署,每天都有数十亿个请求。这表明Dueta是用于大规模ETA预测服务的工业级和强大的解决方案。
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
准确性和可解释性是犯罪预测模型的两个基本属性。由于犯罪可能对人类生命,经济和安全的不利影响,我们需要一个可以尽可能准确地预测未来犯罪的模型,以便可以采取早期步骤来避免犯罪。另一方面,可解释的模型揭示了模型预测背后的原因,确保其透明度并允许我们相应地规划预防犯罪步骤。开发模型的关键挑战是捕获特定犯罪类别的非线性空间依赖和时间模式,同时保持模型的底层结构可解释。在本文中,我们开发AIST,一种用于犯罪预测的注意力的可解释的时空时间网络。基于过去的犯罪发生,外部特征(例如,流量流量和兴趣点(POI)信息)和犯罪趋势,AICT模拟了犯罪类别的动态时空相关性。广泛的实验在使用真实数据集的准确性和解释性方面表现出我们模型的优越性。
translated by 谷歌翻译
用户表示对于在工业中提供高质量的商业服务至关重要。最近普遍的用户表示已经获得了许多兴趣,我们可以摆脱训练每个下游应用程序的繁琐工作的繁琐工作。在本文中,我们试图改善来自两个观点的通用用户表示。首先,提出了一种对比的自我监督学习范式来指导代表模型培训。它提供了一个统一的框架,允许以数据驱动的方式进行长期或短期兴趣表示学习。此外,提出了一种新型多息提取模块。该模块介绍了兴趣字典以捕获给定用户的主要兴趣,然后通过行为聚合生成其兴趣的面向的表示。实验结果证明了学习用户陈述的有效性和适用性。
translated by 谷歌翻译
聚类是一项基本的机器学习任务,在文献中已广泛研究。经典聚类方法遵循以下假设:数据通过各种表示的学习技术表示为矢量化形式的特征。随着数据变得越来越复杂和复杂,浅(传统)聚类方法无法再处理高维数据类型。随着深度学习的巨大成功,尤其是深度无监督的学习,在过去的十年中,已经提出了许多具有深层建筑的代表性学习技术。最近,已经提出了深层聚类的概念,即共同优化表示的学习和聚类,因此引起了社区的日益关注。深度学习在聚类中的巨大成功,最基本的机器学习任务之一以及该方向的最新进展的巨大成功所激发。 - 艺术方法。我们总结了深度聚类的基本组成部分,并通过设计深度表示学习和聚类之间的交互方式对现有方法进行了分类。此外,该调查还提供了流行的基准数据集,评估指标和开源实现,以清楚地说明各种实验设置。最后但并非最不重要的一点是,我们讨论了深度聚类的实际应用,并提出了应有的挑战性主题,应将进一步的研究作为未来的方向。
translated by 谷歌翻译
视频自我监督的学习是一项挑战的任务,这需要模型的显着表达力量来利用丰富的空间时间知识,并从大量未标记的视频产生有效的监督信号。但是,现有方法未能提高未标记视频的时间多样性,并以明确的方式忽略精心建模的多尺度时间依赖性。为了克服这些限制,我们利用视频中的多尺度时间依赖性,并提出了一个名为时间对比图学习(TCGL)的新型视频自我监督学习框架,该框架共同模拟了片段间和片段间的时间依赖性用混合图对比学习策略学习的时间表示学习。具体地,首先引入空间 - 时间知识发现(STKD)模块以基于离散余弦变换的频域分析从视频中提取运动增强的空间时间表。为了显式模拟未标记视频的多尺度时间依赖性,我们的TCGL将关于帧和片段命令的先前知识集成到图形结构中,即片段/间隙间时间对比图(TCG)。然后,特定的对比学习模块旨在最大化不同图形视图中节点之间的协议。为了为未标记的视频生成监控信号,我们介绍了一种自适应片段订购预测(ASOP)模块,它利用视频片段之间的关系知识来学习全局上下文表示并自适应地重新校准通道明智的功能。实验结果表明我们的TCGL在大规模行动识别和视频检索基准上的最先进方法中的优势。
translated by 谷歌翻译