Trajectory-User Linking (TUL) is a relatively new mobility classification task in which anonymous trajectories are linked to the users who generated them. With applications ranging from personalized recommendations to criminal activity detection, TUL has received increasing attention over the past five years. While research has focused mainly on learning deep representations that capture complex spatio-temporal mobility patterns unique to individual users, we demonstrate that visit patterns are highly unique among users and thus simple heuristics applied directly to the raw data are sufficient to solve TUL. More specifically, we demonstrate that a single check-in per trajectory is enough to correctly predict the identity of the user up to 85% of the time. Moreover, by using a non-parametric classifier, we scale up TUL to over 100k users which is an increase over state-of-the-art by three orders of magnitude. Extensive empirical analysis on four real-world datasets (Brightkite, Foursquare, Gowalla and Weeplaces) compares our findings to state-of-the-art results, and more importantly validates our claim that TUL is easier than commonly believed.
translated by 谷歌翻译
Transportation mode classification, the process of predicting the class labels of moving objects transportation modes, has been widely applied to a variety of real world applications, such as traffic management, urban computing, and behavior study. However, existing studies of transportation mode classification typically extract the explicit features of trajectory data but fail to capture the implicit features that affect the classification performance. In addition, most of the existing studies also prefer to apply RNN-based models to embed trajectories, which is only suitable for classifying small-scale data. To tackle the above challenges, we propose an effective and scalable framework for transportation mode classification over GPS trajectories, abbreviated Estimator. Estimator is established on a developed CNN-TCN architecture, which is capable of leveraging the spatial and temporal hidden features of trajectories to achieve high effectiveness and efficiency. Estimator partitions the entire traffic space into disjointed spatial regions according to traffic conditions, which enhances the scalability significantly and thus enables parallel transportation classification. Extensive experiments using eight public real-life datasets offer evidence that Estimator i) achieves superior model effectiveness (i.e., 99% Accuracy and 0.98 F1-score), which outperforms state-of-the-arts substantially; ii) exhibits prominent model efficiency, and obtains 7-40x speedups up over state-of-the-arts learning-based methods; and iii) shows high model scalability and robustness that enables large-scale classification analytics.
translated by 谷歌翻译
随着移动通信技术的快速发展,人类的移动轨迹由互联网服务提供商(ISP)和应用服务提供商(ASP)大规模收集。另一方面,知识图(kg)的上升范式为我们提供了一个有希望的解决方案,可以从大规模轨迹数据提取结构化的“知识”。在本文中,我们基于知识图技术专注于建模用户的时空移动模式,并根据从多个源以凝聚力的方式提取的“知识”,预测用户的未来运动。具体来说,我们提出了一种新型知识图中,即时空城市知识图(STKG),其中活动轨迹,场地的类别信息和时间信息都是由STKG中不同关系类型的事实共同建模。移动预测问题转换为知识图表在STKG中完成问题。此外,提出了一种具有精心设计的评分功能的复杂嵌入模型,以衡量STKG中的事实的合理性,以解决知识图形完成问题,这考虑了移动性模式的时间动态,并利用POI类别作为辅助信息和背景知识。广泛的评估确认我们模型在预测用户方面的高精度与最先进的算法相比,S'Mobility,即,提高了5.04%的准确性。此外,POI类别作为背景知识和辅助信息被证实通过在准确性方面提高了3.85%的性能,有助于提高。另外,实验表明,与现有方法相比,我们的所提出的方法通过将计算时间降低43.12%以上。
translated by 谷歌翻译
Accurate activity location prediction is a crucial component of many mobility applications and is particularly required to develop personalized, sustainable transportation systems. Despite the widespread adoption of deep learning models, next location prediction models lack a comprehensive discussion and integration of mobility-related spatio-temporal contexts. Here, we utilize a multi-head self-attentional (MHSA) neural network that learns location transition patterns from historical location visits, their visit time and activity duration, as well as their surrounding land use functions, to infer an individual's next location. Specifically, we adopt point-of-interest data and latent Dirichlet allocation for representing locations' land use contexts at multiple spatial scales, generate embedding vectors of the spatio-temporal features, and learn to predict the next location with an MHSA network. Through experiments on two large-scale GNSS tracking datasets, we demonstrate that the proposed model outperforms other state-of-the-art prediction models, and reveal the contribution of various spatio-temporal contexts to the model's performance. Moreover, we find that the model trained on population data achieves higher prediction performance with fewer parameters than individual-level models due to learning from collective movement patterns. We also reveal mobility conducted in the recent past and one week before has the largest influence on the current prediction, showing that learning from a subset of the historical mobility is sufficient to obtain an accurate location prediction result. We believe that the proposed model is vital for context-aware mobility prediction. The gained insights will help to understand location prediction models and promote their implementation for mobility applications.
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
对自然和人制过程的研究通常会导致长时间有序值的长序列,也就是时间序列(TS)。这样的过程通常由多个状态组成,例如机器的操作模式,使观测过程中的状态变化会导致测量值形状的分布变化。时间序列分割(TSS)试图发现TS事后的这种变化,以推断数据生成过程的变化。通常将TSS视为无监督的学习问题,目的是识别某些统计属性可区分的细分。 TSS的当前算法要求用户设置依赖域的超参数,对TS值分布进行假设或可检测更改的类型,以限制其适用性。常见的超参数是段均匀性和变更点的数量的度量,对于每个数据集,这尤其难以调节。我们提出了TSS的一种新颖,高度准确,无参数和域的无义方法的方法。扣子分层将TS分为两个部分。更改点是通过训练每个可能的拆分点的二进制TS分类器来确定的,并选择最能识别从任何一个分区的子序列的一个拆分。 CLASP使用两种新颖的定制算法从数据中学习了其主要的两个模型参数。在我们使用115个数据集的基准测试的实验评估中,我们表明,扣子优于准确性,并且可以快速且可扩展。此外,我们使用几个现实世界的案例研究强调了扣子的特性。
translated by 谷歌翻译
在智能交通系统中,交通拥堵异常检测至关重要。运输机构的目标有两个方面:监视感兴趣领域的一般交通状况,并在异常拥堵状态下定位道路细分市场。建模拥塞模式可以实现这些目标,以实现全市道路的目标,相当于学习多元时间序列(MTS)的分布。但是,现有作品要么不可伸缩,要么无法同时捕获MTS中的空间信息。为此,我们提出了一个由数据驱动的生成方法组成的原则性和全面的框架,该方法可以执行可拖动的密度估计来检测流量异常。我们的方法在特征空间中的第一群段段,然后使用条件归一化流以在无监督的设置下在群集级别识别异常的时间快照。然后,我们通过在异常群集上使用内核密度估计器来识别段级别的异常。关于合成数据集的广泛实验表明,我们的方法在召回和F1得分方面显着优于几种最新的拥塞异常检测和诊断方法。我们还使用生成模型来采样标记的数据,该数据可以在有监督的环境中训练分类器,从而减轻缺乏在稀疏设置中进行异常检测的标记数据。
translated by 谷歌翻译
规划自行车共享站的布局是一个复杂的过程,特别是在刚刚实施自行车共享系统的城市。城市规划者通常必须根据公开可用的数据并私下提供来自管理的数据,然后使用现场流行的位置分配模型。较小城市的许多城市可能难以招聘专家进行此类规划。本文提出了一种新的解决方案来简化和促进通过使用空间嵌入方法来实现这种规划的过程。仅基于来自OpenStreetMap的公开数据,以及来自欧洲34个城市的站布局,已经开发了一种使用优步H3离散全球电网系统将城市分成微区域的方法,并指示其值得放置站的区域在不同城市使用转移学习的现有系统。工作的结果是在规划驻地布局的决策中支持规划者的机制,以选择参考城市。
translated by 谷歌翻译
The detection of state-sponsored trolls acting in information operations is an unsolved and critical challenge for the research community, with repercussions that go beyond the online realm. In this paper, we propose a novel AI-based solution for the detection of state-sponsored troll accounts, which consists of two steps. The first step aims at classifying trajectories of accounts' online activities as belonging to either a state-sponsored troll or to an organic user account. In the second step, we exploit the classified trajectories to compute a metric, namely "troll score", which allows us to quantify the extent to which an account behaves like a state-sponsored troll. As a study case, we consider the troll accounts involved in the Russian interference campaign during the 2016 US Presidential election, identified as Russian trolls by the US Congress. Experimental results show that our approach identifies accounts' trajectories with an AUC close to 99\% and, accordingly, classify Russian trolls and organic users with an AUC of 97\%. Finally, we evaluate whether the proposed solution can be generalized to different contexts (e.g., discussions about Covid-19) and generic misbehaving users, showing promising results that will be further expanded in our future endeavors.
translated by 谷歌翻译
训练前轨迹嵌入是空间轨迹挖掘中的一个基本和关键程序,对各种下游任务都是有益的。产生有效轨迹嵌入的关键是从轨迹(包括运动模式和旅行目的)中提取高级旅行语义,并考虑轨迹的长期空间时间相关性。尽管有现有的努力,但训练前轨迹嵌入仍存在重大挑战。首先,常用的生成借个任务不适合从轨迹中提取高级语义。其次,现有的数据增强方法非常适合轨迹数据集。第三,当前的编码器设计无法完全合并轨迹中隐藏的长期时空相关性。为了应对这些挑战,我们提出了一种新型的对比性时空轨迹嵌入(CSTTE)模型,用于学习全面的轨迹嵌入。 CSTTE采用了对比度学习框架,以使其借口任务对噪音具有牢固的态度。一种专门设计的轨迹数据增强方法与对比度借口任务相结合,以保留高级旅行语义。我们还构建了有效的时空轨迹编码器,以有效,全面地对轨迹中的长期空间 - 周期性相关性进行建模。与现有的轨迹嵌入方法相比,对两个下游任务和三个现实世界数据集进行了广泛的实验证明了我们的模型的优势。
translated by 谷歌翻译
时间序列的建模在各种应用中变得越来越重要。总体而言,数据通过遵循不同的模式而演变,这些模式通常是由不同的用户行为引起的。给定时间序列,我们定义了进化基因以捕获潜在用户行为,并描述行为如何导致时间序列的产生。特别是,我们提出了一个统一的框架,该框架通过学习分类器来识别片段的不同演化基因,并通过估计片段的分布来实现对抗发电机来实现进化基因。基于合成数据集和五个现实世界数据集的实验结果表明,我们的方法不仅可以实现良好的预测结果(例如,在F1方面 +10.56%),还可以提供结果的解释。
translated by 谷歌翻译
“轨迹”是指由地理空间中的移动物体产生的迹线,通常由一系列按时间顺序排列的点表示,其中每个点由地理空间坐标集和时间戳组成。位置感应和无线通信技术的快速进步使我们能够收集和存储大量的轨迹数据。因此,许多研究人员使用轨迹数据来分析各种移动物体的移动性。在本文中,我们专注于“城市车辆轨迹”,这是指城市交通网络中车辆的轨迹,我们专注于“城市车辆轨迹分析”。城市车辆轨迹分析提供了前所未有的机会,可以了解城市交通网络中的车辆运动模式,包括以用户为中心的旅行经验和系统范围的时空模式。城市车辆轨迹数据的时空特征在结构上相互关联,因此,许多先前的研究人员使用了各种方法来理解这种结构。特别是,由于其强大的函数近似和特征表示能力,深度学习模型是由于许多研究人员的注意。因此,本文的目的是开发基于深度学习的城市车辆轨迹分析模型,以更好地了解城市交通网络的移动模式。特别是,本文重点介绍了两项研究主题,具有很高的必要性,重要性和适用性:下一个位置预测,以及合成轨迹生成。在这项研究中,我们向城市车辆轨迹分析提供了各种新型模型,使用深度学习。
translated by 谷歌翻译
整数序列对于承认完整描述的概念的建模至关重要。我们介绍了有关学习此类概念的新颖观点,并放下一组基准测试任务,旨在通过机器学习模型进行概念理解。这些任务间接评估模型的抽象能力,并挑战它们,以在观察代表性示例中获得的知识,从插值和外向上进行推理。为了进一步研究知识代表和推理的研究,我们介绍了事实,即“精选抽象理解工具包”。该工具包围绕着包含有机和合成条目的整数序列的大型数据集,用于数据预处理和生成的库,一组模型性能评估工具以及基线模型实现的集合,从而实现了未来的进步,以实现未来的进步舒适。
translated by 谷歌翻译
目前,下一个位置推荐在基于位置的社交网络应用程序和服务中起着重要作用。虽然已经提出了许多方法来解决这个问题,但到目前为止,三个重要挑战尚未得到很好的解决:(1)大多数现有方法基于经常性网络,这是耗费训练长期序列,因为不允许完整的平行度; (2)个性化偏好通常不被认为是合理的; (3)现有方法很少系统地研究了如何在轨迹数据中有效地利用各种辅助信息(例如,用户ID和时间戳)和非连续位置之间的时空关系。为了解决上述挑战,我们提出了一种名为SANMOVE的新型方法,是一种自我关注网络的模型,通过捕获用户的长期和短期移动模式来预测下一个位置。具体而言,SANMOVE引入了一个长期偏好学习模块,它使用自我关注模块来捕获用户的长期移动模式,可以代表用户的个性化位置偏好。同时,SanMove使用空间延伸的非侵入自我关注(Stnova)来利用辅助信息来学习短期偏好。我们使用两个真实世界数据集进行评估SANMOVE,并演示SANMOVE不仅比基于最先进的RNN的预测模型更快,而且还优于下一个位置预测的基线。
translated by 谷歌翻译
行业分配根据预定义的行业分类系统(ICS)将公司分配给行业,这对于大量关键业务实践至关重要,从公司的运营和战略决策到政府机构的经济分析。三种专家知识对于有效行业分配至关重要:基于定义的知识(即每个行业的专家定义),基于结构的知识(即ICS中指定的行业之间的结构关系)和基于任务的知识(即,域专家执行的事先公司行业任务)。现有的行业分配方法仅利用基于任务的知识来学习将未分配的公司分类为行业的模型,并忽略基于定义和基于结构的知识。此外,这些方法仅考虑已分配了公司的哪个行业,但忽略了基于分配的知识的时间特异性,即在任务发生时。为了解决现有方法的局限性,我们提出了一种新颖的基于深度学习的方法,该方法不仅无缝整合了三种类型的行业分配知识,而且还考虑了基于分配的知识的特定时间。从方法上讲,我们的方法具有两种创新:动态行业表示和分层分配。前者通过通过我们提出的时间和空间聚集机制整合了三种类型的知识,将行业代表为一系列特定时间的向量。后者将行业和公司的表现作为投入,计算将公司分配给不同行业的可能性,并将公司分配给具有最高概率的行业。
translated by 谷歌翻译
在线社交网络由于其在低质量信息的传播中的作用而积极参与删除恶意社交机器人。但是,大多数现有的机器人检测器都是监督分类器,无法捕获复杂机器人的不断发展的行为。在这里,我们提出了Mulbot,这是一种基于多元时间序列(MTS)的无监督的机器人检测器。我们第一次利用从用户时间表中提取的多维时间功能。我们使用LSTM AutoCododer管理多维性,该模块将MTS投射在合适的潜在空间中。然后,我们对此编码表示形式执行聚类步骤,以识别非常相似用户的密集组 - 一种已知的自动化迹象。最后,我们执行一项二进制分类任务,以达到F1得分$ = 0.99 $,表现优于最先进的方法(F1分数$ \ le 0.97 $)。 Mulbot不仅在二进制分类任务中取得了出色的成果,而且我们还在一项新颖且实际上相关的任务中证明了它的优势:检测和分离不同的僵尸网络。在此多级分类任务中,我们实现了F1得分$ = 0.96 $。我们通过估计模型中使用的不同特征的重要性,并通过评估Mulbot推广到新看不见的机器人的能力,从而提出了解决监督机器人探测器的概括性缺陷的解决方案。
translated by 谷歌翻译
本文提出了一个低成本且高度准确的ECG监测系统,用于针对可穿戴移动传感器的个性化早期心律不齐检测。对个性化心电图监测的早期监督方法需要异常和正常的心跳来训练专用分类器。但是,在真实的情况下,个性化算法嵌入了可穿戴设备中,这种训练数据不适合没有心脏障碍史的健康人。在这项研究中,(i)我们对通过稀疏字典学习获得的健康信号空间进行了无空间分析,并研究了如何简单的无效空间投影或基于最小二乘的规范性分类方法可以降低计算复杂性,而无需牺牲牺牲计算的复杂性。与基于稀疏表示的分类相比,检测准确性。 (ii)然后,我们引入了基于稀疏表示的域适应技术,以便将其他现有用户的异常和正常信号投射到新用户的信号空间上,使我们能够训练专用的分类器而无需​​新用户的任何异常心跳。因此,无需合成异常的心跳产生,可以实现零射学习。在基准MIT-BIH ECG数据集上执行的一组大量实验表明,当该基于域的基于域的训练数据生成器与简单的1-D CNN分类器一起使用时,该方法以明显的差距优于先前的工作。 (iii)然后,通过组合(i)和(ii),我们提出了一个整体分类器,以进一步提高性能。这种零射门心律失常检测的方法的平均准确性水平为98.2%,F1得分为92.8%。最后,使用上述创新提出了一个个性化的节能ECG监测计划。
translated by 谷歌翻译
入侵检测是汽车通信安全的重要防御措施。准确的框架检测模型有助于车辆避免恶意攻击。攻击方法的不确定性和多样性使此任务具有挑战性。但是,现有作品仅考虑本地功能或多功能的弱特征映射的限制。为了解决这些局限性,我们提出了一个新型的模型,用于通过车载通信流量(STC-IDS)的时空相关特征(STC-IDS)进行汽车入侵检测。具体而言,提出的模型利用编码检测体系结构。在编码器部分中,空间关系和时间关系是同时编码的。为了加强特征之间的关系,基于注意力的卷积网络仍然捕获空间和频道特征以增加接受场,而注意力LSTM则建立了以前的时间序列或关键字节的有意义的关系。然后将编码的信息传递给检测器,以产生有力的时空注意力特征并实现异常分类。特别是,构建了单帧和多帧模型,分别呈现不同的优势。在基于贝叶斯优化的自动超参数选择下,该模型经过培训以达到最佳性能。基于现实世界中车辆攻击数据集的广泛实证研究表明,STC-IDS优于基线方法,并且在保持效率的同时获得了较少的假警报率。
translated by 谷歌翻译
随着移动设备和基于位置的服务越来越多地在不同的智能城市场景和应用程序中开发,由于数据收集和共享,许多意外的隐私泄漏已经出现。当与云辅助应用程序共享地理位置数据时,用户重新识别和其他敏感的推论是主要的隐私威胁。值得注意的是,四个时空点足以唯一地识别95%的个人,这加剧了个人信息泄漏。为了解决诸如用户重新识别之类的恶意目的,我们提出了一种基于LSTM的对抗机制,具有代表性学习,以实现原始地理位置数据(即移动性数据)的隐私权特征表示,以共享目的。这些表示旨在以最小的公用事业预算(即损失)最大程度地减少用户重新识别和完整数据重建的机会。我们通过量化轨迹重建风险,用户重新识别风险和移动性可预测性来量化移动性数据集的隐私性权衡权衡来训练该机制。我们报告了探索性分析,使用户能够通过特定的损失功能及其权重参数评估此权衡。四个代表性移动数据集的广泛比较结果证明了我们提出的在移动性隐私保护方面的架构的优越性以及提议的隐私权提取器提取器的效率。我们表明,流动痕迹的隐私能够以边际移动公用事业为代价获得体面的保护。我们的结果还表明,通过探索帕累托最佳设置,我们可以同时增加隐私(45%)和实用程序(32%)。
translated by 谷歌翻译
图提供了一种自然的方式来制定多个对象跟踪(MOT)和多个对象跟踪和分割(MOTS),逐个检测范式中。但是,他们还引入了学习方法的主要挑战,因为定义可以在这种结构化领域运行的模型并不是微不足道的。在这项工作中,我们利用MOT的经典网络流程公式来定义基于消息传递网络(MPN)的完全微分框架。通过直接在图形域上操作,我们的方法可以在整个检测和利用上下文特征上全球推理。然后,它共同预测了数据关联问题的最终解决方案和场景中所有对象的分割掩码,同时利用这两个任务之间的协同作用。我们在几个公开可用的数据集中获得跟踪和细分的最新结果。我们的代码可在github.com/ocetintas/mpntrackseg上找到。
translated by 谷歌翻译