We propose a novel approach for trip prediction by analyzing user's trip histories. We augment users' (self-) trip histories by adding 'similar' trips from other users, which could be informative and useful for predicting future trips for a given user. This also helps to cope with noisy or sparse trip histories, where the self-history by itself does not provide a reliable prediction of future trips. We show empirical evidence that by enriching the users' trip histories with additional trips, one can improve the prediction error by 15%-40%, evaluated on multiple subsets of the Nancy2012 dataset. This real-world dataset is collected from public transportation ticket validations in the city of Nancy, France. Our prediction tool is a central component of a trip simulator system designed to analyze the functionality of public transportation in the city of Nancy.
translated by 谷歌翻译
We investigate the use of Minimax distances to extract in a nonparametric way the features that capture the unknown underlying patterns and structures in the data. We develop a general-purpose and computationally efficient framework to employ Minimax distances with many machine learning methods that perform on numerical data. We study both computing the pairwise Minimax distances for all pairs of objects and as well as computing the Minimax distances of all the objects to/from a fixed (test) object. We first efficiently compute the pairwise Minimax distances between the objects, using the equivalence of Minimax distances over a graph and over a minimum spanning tree constructed on that. Then, we perform an embedding of the pairwise Minimax distances into a new vector space, such that their squared Euclidean distances in the new space equal to the pairwise Minimax distances in the original space. We also study the case of having multiple pairwise Minimax matrices, instead of a single one. Thereby, we propose an embedding via first summing up the centered matrices and then performing an eigenvalue decomposition to obtain the relevant features. In the following, we study computing Minimax distances from a fixed (test) object which can be used for instance in K-nearest neighbor search. Similar to the case of all-pair pairwise Minimax distances, we develop an efficient and general-purpose algorithm that is applicable with any arbitrary base distance measure. Moreover, we investigate in detail the edges selected by the Minimax distances and thereby explore the ability of Minimax distances in detecting outlier objects. Finally, for each setting, we perform several experiments to demonstrate the effectiveness of our framework.
translated by 谷歌翻译
“轨迹”是指由地理空间中的移动物体产生的迹线,通常由一系列按时间顺序排列的点表示,其中每个点由地理空间坐标集和时间戳组成。位置感应和无线通信技术的快速进步使我们能够收集和存储大量的轨迹数据。因此,许多研究人员使用轨迹数据来分析各种移动物体的移动性。在本文中,我们专注于“城市车辆轨迹”,这是指城市交通网络中车辆的轨迹,我们专注于“城市车辆轨迹分析”。城市车辆轨迹分析提供了前所未有的机会,可以了解城市交通网络中的车辆运动模式,包括以用户为中心的旅行经验和系统范围的时空模式。城市车辆轨迹数据的时空特征在结构上相互关联,因此,许多先前的研究人员使用了各种方法来理解这种结构。特别是,由于其强大的函数近似和特征表示能力,深度学习模型是由于许多研究人员的注意。因此,本文的目的是开发基于深度学习的城市车辆轨迹分析模型,以更好地了解城市交通网络的移动模式。特别是,本文重点介绍了两项研究主题,具有很高的必要性,重要性和适用性:下一个位置预测,以及合成轨迹生成。在这项研究中,我们向城市车辆轨迹分析提供了各种新型模型,使用深度学习。
translated by 谷歌翻译
在本文中,我们提出了一种方法,用于预测社交媒体对等体之间的信任链接,其中一个是在多识别信任建模的人工智能面积。特别是,我们提出了一种数据驱动的多面信任信任建模,该信任建模包括许多不同的特征以进行全面分析。我们专注于展示类似用户的聚类如何实现关键新功能:支持更个性化的,从而为用户提供更准确的预测。在信任感知项目推荐任务中说明,我们在大yelp数据集的上下文中评估所提出的框架。然后,我们讨论如何提高社交媒体的可信关系的检测可以帮助在最近爆发的社交网络环境中支持在线用户的违法行为和谣言的传播。我们的结论是关于一个特别易受资助的用户基础,老年人的反思,以说明关于用户组的推理价值,期望通过通过数据分析获得的洞察力集成已知偏好的一些未来方向。
translated by 谷歌翻译
旅行者可能会前往他们从未访问过的地点,我们将其称为潜在的目的地。尤其是在非常有限的观察结果下,旅行者倾向于显示随机运动模式,并且通常具有大量潜在目的地,这使得它们难以处理移动性预测(例如,目的地预测)。在本文中,我们开发了一个新的基于知识图的框架(PDPFKG),以通过考虑旅行之间的关联关系来潜在的目的地发现低可预测性旅行者。我们首先构建了旅行知识图(TKG),以通过实体(例如旅行者,目的地和时间信息)及其关系对旅行方案进行建模,我们在其中介绍了私人关系的概念以减少复杂性。然后,实现了修改的知识图嵌入算法以优化整体图表。根据Trip知识图嵌入模型(TKGEM),可以通过计算三元组的距离来获得个人未来未观察到的目的地的可能排名。经验。 PDPFKG使用来自中国Xuancheng City配备基于视频的车辆检测系统的138个交叉口的匿名车辆数据集进行了测试。结果表明,(i)所提出的方法显着优于基线方法,并且(ii)结果在选择潜在目的地中表现出与旅行者行为的强烈一致性。最后,我们对方法论的创新点进行了全面讨论。
translated by 谷歌翻译
空间数据在应对与城市相关的任务中的作用近年来一直在增长。要在机器学习模型中使用它们,通常需要将它们转换为向量表示,这导致了空间数据表示学习领域的开发。还有一种越来越多的各种空间数据类型,提出了一种表示学习方法。迄今为止,公共交通时间表迄今未被用于一个城市地区的学习陈述的任务。在这项工作中,开发了一种方法来将公共交通可用性信息嵌入到矢量空间中。要对其申请进行实验,从48个城市收集公共交通时间表。使用H3空间索引方法,它们被分成微区域。还提出了一种方法来识别具有类似公共交通报价特征的地区。在其基础上,定义了该地区的公共交通报价的多层次类型。本文表明,所提出的表示方法可以识别城市之间具有相似公共交通特性的微区域,并且可用于评估城市中可用的公共交通的质量。
translated by 谷歌翻译
规划自行车共享站的布局是一个复杂的过程,特别是在刚刚实施自行车共享系统的城市。城市规划者通常必须根据公开可用的数据并私下提供来自管理的数据,然后使用现场流行的位置分配模型。较小城市的许多城市可能难以招聘专家进行此类规划。本文提出了一种新的解决方案来简化和促进通过使用空间嵌入方法来实现这种规划的过程。仅基于来自OpenStreetMap的公开数据,以及来自欧洲34个城市的站布局,已经开发了一种使用优步H3离散全球电网系统将城市分成微区域的方法,并指示其值得放置站的区域在不同城市使用转移学习的现有系统。工作的结果是在规划驻地布局的决策中支持规划者的机制,以选择参考城市。
translated by 谷歌翻译
We propose unsupervised representation learning and feature extraction from dendrograms. The commonly used Minimax distance measures correspond to building a dendrogram with single linkage criterion, with defining specific forms of a level function and a distance function over that. Therefore, we extend this method to arbitrary dendrograms. We develop a generalized framework wherein different distance measures and representations can be inferred from different types of dendrograms, level functions and distance functions. Via an appropriate embedding, we compute a vector-based representation of the inferred distances, in order to enable many numerical machine learning algorithms to employ such distances. Then, to address the model selection problem, we study the aggregation of different dendrogram-based distances respectively in solution space and in representation space in the spirit of deep representations. In the first approach, for example for the clustering problem, we build a graph with positive and negative edge weights according to the consistency of the clustering labels of different objects among different solutions, in the context of ensemble methods. Then, we use an efficient variant of correlation clustering to produce the final clusters. In the second approach, we investigate the combination of different distances and features sequentially in the spirit of multi-layered architectures to obtain the final features. Finally, we demonstrate the effectiveness of our approach via several numerical studies.
translated by 谷歌翻译
推荐系统(RSS)旨在模拟和预测用户偏好,同时与诸如兴趣点(POI)的项目进行交互。这些系统面临着几种挑战,例如数据稀疏性,限制了它们的有效性。在本文中,我们通过将社会,地理和时间信息纳入矩阵分解(MF)技术来解决这个问题。为此,我们基于两个因素模拟社会影响:用户之间的相似之处在常见的办理登机手续和它们之间的友谊方面。我们根据明确的友谊网络和用户之间的高支票重叠介绍了两个友谊。我们基于用户的地理活动中心友好算法。结果表明,我们所提出的模型在两个真实的数据集中优于最先进的。更具体地说,我们的消融研究表明,社会模式在精确的@ 10分别在Gowalla和Yelp数据集中提高了我们所提出的POI推荐系统的表现。
translated by 谷歌翻译
Trip destination prediction is an area of increasing importance in many applications such as trip planning, autonomous driving and electric vehicles. Even though this problem could be naturally addressed in an online learning paradigm where data is arriving in a sequential fashion, the majority of research has rather considered the offline setting. In this paper, we present a unified framework for trip destination prediction in an online setting, which is suitable for both online training and online prediction. For this purpose, we develop two clustering algorithms and integrate them within two online prediction models for this problem. We investigate the different configurations of clustering algorithms and prediction models on a real-world dataset. We demonstrate that both the clustering and the entire framework yield consistent results compared to the offline setting. Finally, we propose a novel regret metric for evaluating the entire online framework in comparison to its offline counterpart. This metric makes it possible to relate the source of erroneous predictions to either the clustering or the prediction model. Using this metric, we show that the proposed methods converge to a probability distribution resembling the true underlying distribution with a lower regret than all of the baselines.
translated by 谷歌翻译
在这个大数据时代,当前一代很难从在线平台中包含的大量数据中找到正确的数据。在这种情况下,需要一个信息过滤系统,可以帮助他们找到所需的信息。近年来,出现了一个称为推荐系统的研究领域。推荐人变得重要,因为他们拥有许多现实生活应用。本文回顾了推荐系统在电子商务,电子商务,电子资源,电子政务,电子学习和电子生活中的不同技术和发展。通过分析有关该主题的最新工作,我们将能够详细概述当前的发展,并确定建议系统中的现有困难。最终结果为从业者和研究人员提供了对建议系统及其应用的必要指导和见解。
translated by 谷歌翻译
下一个利益点(POI)的建议已成为基于位置的社交网络(LBSN)中必不可少的功能,因为它在帮助人们决定下一个POI访问方面有效。但是,准确的建议需要大量的历史检查数据,因此威胁用户隐私,因为云服务器需要处理位置敏感的数据。尽管有几个用于保护隐私的POI建议的设备框架,但在存储和计算方面,它们仍然是资源密集的,并且对用户POI交互的高稀疏性表现出有限的鲁棒性。在此基础上,我们为POI推荐(DCLR)提出了一个新颖的分散协作学习框架,该框架允许用户以协作方式在本地培训其个性化模型。 DCLR大大降低了本地模型对云的依赖性训练,并可用于扩展任意的集中建议模型。为了抵消在学习每个本地模型时在设备用户数据的稀疏性,我们设计了两个自学信号,以通过POI的地理和分类相关性在服务器上预处理POI表示。为了促进协作学习,我们创新建议将来自地理或语义上类似用户的知识纳入每个本地模型,并以细心的聚合和相互信息最大化。协作学习过程可利用设备之间的通信,同时仅需要中央服务器的少量参与来识别用户组,并且与诸如差异隐私之类的常见隐私保护机制兼容。我们使用两个现实世界数据集评估了DCLR,结果表明,与集中式同行相比,DCLR的表现优于最先进的设备框架,并产生竞争结果。
translated by 谷歌翻译
Standard agglomerative clustering suggests establishing a new reliable linkage at every step. However, in order to provide adaptive, density-consistent and flexible solutions, we study extracting all the reliable linkages at each step, instead of the smallest one. Such a strategy can be applied with all common criteria for agglomerative hierarchical clustering. We also study that this strategy with the single linkage criterion yields a minimum spanning tree algorithm. We perform experiments on several real-world datasets to demonstrate the performance of this strategy compared to the standard alternative.
translated by 谷歌翻译
Embedding based product recommendations have gained popularity in recent years due to its ability to easily integrate to large-scale systems and allowing nearest neighbor searches in real-time. The bulk of studies in this area has predominantly been focused on similar item recommendations. Research on complementary item recommendations, on the other hand, still remains considerably under-explored. We define similar items as items that are interchangeable in terms of their utility and complementary items as items that serve different purposes, yet are compatible when used with one another. In this paper, we apply a novel approach to finding complementary items by leveraging dual embedding representations for products. We demonstrate that the notion of relatedness discovered in NLP for skip-gram negative sampling (SGNS) models translates effectively to the concept of complementarity when training item representations using co-purchase data. Since sparsity of purchase data is a major challenge in real-world scenarios, we further augment the model using synthetic samples to extend coverage. This allows the model to provide complementary recommendations for items that do not share co-purchase data by leveraging other abundantly available data modalities such as images, text, clicks etc. We establish the effectiveness of our approach in improving both coverage and quality of recommendations on real world data for a major online retail company. We further show the importance of task specific hyperparameter tuning in training SGNS. Our model is effective yet simple to implement, making it a great candidate for generating complementary item recommendations at any e-commerce website.
translated by 谷歌翻译
自行车共享系统(BSSS)作为创新的运输服务。鉴于这些系统致力于通过促进环境和经济可持续性以及改善人口的生活质量,这些系统致力于消除当前全球担忧的许多担忧,确保BSS的正常运作至关重要。良好的用户过渡模式知识是对服务的质量和可操作性的决定性贡献。类似的和不平衡的用户的过渡模式导致这些系统遭受自行车不平衡,从长远来看,导致客户损失很大。自行车重新平衡的策略变得重要,以解决这个问题,为此,自行车交通预测至关重要,因为它允许更有效地运行并提前做出反应。在这项工作中,我们提出了一种基于图形神经网络嵌入的自行车TRIPS预测因子,考虑到站分组,气象条件,地理距离和旅行模式。我们在纽约市BSS(CITIBIKE)数据中评估了我们的方法,并将其与四个基线进行比较,包括非聚类方法。为了解决我们的问题的特殊性,我们开发了自适应转换约束聚类加(ADATC +)算法,消除了以前的工作的缺点。我们的实验证据证据细胞化(88%的准确性,而无需聚类83%),哪种聚类技术最适合这个问题。对于ADATC +,链路预测任务的准确性总是较高,而不是基于基准群集方法,而当网站相同,虽然在升级网络时不会降低性能,但在训练有素的模型中不匹配。
translated by 谷歌翻译
我们提出了一种基于机器学习的新型方法来解决涉及大量独立关注者的二重性程序,作为一种特殊情况,其中包括两阶段随机编程。我们提出了一个优化模型,该模型明确考虑了追随者的采样子集,并利用机器学习模型来估计未采样关注者的客观值。与现有方法不同,我们将机器学习模型培训嵌入到优化问题中,这使我们能够采用无法使用领导者决策来表示的一般追随者功能。我们证明了由原始目标函数衡量的生成领导者决策的最佳差距,该目标函数考虑了整个追随者集。然后,我们开发追随者采样算法来收紧界限和一种表示追随者功能的表示方法,可以用作嵌入式机器学习模型的输入。使用骑自行车网络设计问题的合成实例,我们比较方法的计算性能与基线方法。我们的方法为追随者的目标价值观提供了更准确的预测,更重要的是,产生了更高质量的领导者决策。最后,我们对骑自行车基础设施计划进行了现实世界中的案例研究,我们采用方法来解决超过一百万关注者的网络设计问题。与当前的自行车网络扩展实践相比,我们的方法提出了有利的性能。
translated by 谷歌翻译
目前,下一个位置推荐在基于位置的社交网络应用程序和服务中起着重要作用。虽然已经提出了许多方法来解决这个问题,但到目前为止,三个重要挑战尚未得到很好的解决:(1)大多数现有方法基于经常性网络,这是耗费训练长期序列,因为不允许完整的平行度; (2)个性化偏好通常不被认为是合理的; (3)现有方法很少系统地研究了如何在轨迹数据中有效地利用各种辅助信息(例如,用户ID和时间戳)和非连续位置之间的时空关系。为了解决上述挑战,我们提出了一种名为SANMOVE的新型方法,是一种自我关注网络的模型,通过捕获用户的长期和短期移动模式来预测下一个位置。具体而言,SANMOVE引入了一个长期偏好学习模块,它使用自我关注模块来捕获用户的长期移动模式,可以代表用户的个性化位置偏好。同时,SanMove使用空间延伸的非侵入自我关注(Stnova)来利用辅助信息来学习短期偏好。我们使用两个真实世界数据集进行评估SANMOVE,并演示SANMOVE不仅比基于最先进的RNN的预测模型更快,而且还优于下一个位置预测的基线。
translated by 谷歌翻译
随着移动设备和基于位置的服务越来越多地在不同的智能城市场景和应用程序中开发,由于数据收集和共享,许多意外的隐私泄漏已经出现。当与云辅助应用程序共享地理位置数据时,用户重新识别和其他敏感的推论是主要的隐私威胁。值得注意的是,四个时空点足以唯一地识别95%的个人,这加剧了个人信息泄漏。为了解决诸如用户重新识别之类的恶意目的,我们提出了一种基于LSTM的对抗机制,具有代表性学习,以实现原始地理位置数据(即移动性数据)的隐私权特征表示,以共享目的。这些表示旨在以最小的公用事业预算(即损失)最大程度地减少用户重新识别和完整数据重建的机会。我们通过量化轨迹重建风险,用户重新识别风险和移动性可预测性来量化移动性数据集的隐私性权衡权衡来训练该机制。我们报告了探索性分析,使用户能够通过特定的损失功能及其权重参数评估此权衡。四个代表性移动数据集的广泛比较结果证明了我们提出的在移动性隐私保护方面的架构的优越性以及提议的隐私权提取器提取器的效率。我们表明,流动痕迹的隐私能够以边际移动公用事业为代价获得体面的保护。我们的结果还表明,通过探索帕累托最佳设置,我们可以同时增加隐私(45%)和实用程序(32%)。
translated by 谷歌翻译
在本文中,我们重点介绍了在流中为在线POI推荐的动态地球人类相互作用建模的问题。具体而言,我们将式的地球人类相互作用建模问题提出到一个新颖的深层交互式增强学习框架中,在该框架中,代理是推荐的,而动作是下一个要访问的POI。我们将强化学习环境独特地建模为用户和地理空间环境(POI,POI类别,功能区)的联合组成和连接的组成。用户在流中访问POI的事件更新了用户和地理空间环境的状态;代理商认为更新的环境状态可以提出在线建议。具体而言,我们通过将所有用户,访问和地理空间上下文统一为动态知识图流来对混合用户事件流进行建模,以模拟人类,地理 - 人类,地理geo互动的建模。我们设计了一种解决过期信息挑战的退出机制,设计了一种元路径方法来应对推荐候选人的生成挑战,并开发了一种新的深层政策网络结构来应对不同的行动空间挑战,最后提出有效的对抗性优化的培训方法。最后,我们提出了广泛的实验,以证明方法的增强性能。
translated by 谷歌翻译
在清晨预测交通动态时,传统交通预测方法的有效性通常非常有限。原因是在清晨通勤期间交通可能会彻底分解,这个分解的时间和持续时间大幅度从日常生活中变化。清晨的交通预测是通知午餐的交通管理至关重要,但他们通常会提前预测,特别是在午夜预测。在本文中,我们建议将Twitter消息作为探测方法,了解在前一天晚上/午夜的人们工作和休息模式的影响到下一天的早晨交通。该模型在匹兹堡的高速公路网络上进行了测试,作为实验。由此产生的关系令人惊讶地简单且强大。我们发现,一般来说,早些时候的人休息如推文所示,即第二天早上就越拥挤的道路就越多。之前的大事发生了大事,由更高或更低的Tweet情绪表示,比正常,通常意味着在第二天早上的旅行需求较低。此外,人们在前一天晚上和清晨的鸣叫活动与早晨高峰时段的拥堵有统计学相关。我们利用这种关系来构建一个预测框架,预测早晨的通勤充血使用5时或早晨午夜提取的人的推特型材。匹兹堡研究支持我们的框架可以精确预测早晨拥塞,特别是对于具有大型日常充血变异的道路瓶颈上游的一些道路段。我们的方法在没有Twitter消息功能的情况下大大差异,可以从提供管理洞察力的推文配置文件中学习有意义的需求表示。
translated by 谷歌翻译