对于各种现实生活中的应用,例如自动驾驶和机器人运动计划,行人轨迹预测是一项重要且具有挑战性的任务。除了生成一条未来的路径外,预测多个合理的未来路径在最近的一些轨迹预测方面变得流行。但是,现有方法通常强调行人与周边地区之间的空间相互作用,但忽略了预测的平稳性和时间一致性。我们的模型旨在通过建模基于历史轨迹的多路径来预测多个基于图形的空间变压器与使用内存图的轨迹平滑算法相结合的轨迹平滑算法。我们的方法可以全面利用空间信息,并纠正时间上不一致的轨迹(例如,尖锐的转弯)。我们还提出了一个名为“轨迹使用百分比”的新评估度量,以评估各种多未实现预测的全面性。我们的广泛实验表明,所提出的模型在多未来的预测和单一预测的竞争结果上实现了最先进的表现。在https://github.com/jacobieee/st-mr上发布的代码。
translated by 谷歌翻译
行人轨迹预测是自动驾驶的重要技术,近年来已成为研究热点。以前的方法主要依靠行人的位置关系来模型社交互动,这显然不足以代表实际情况中的复杂病例。此外,大多数现有工作通常通常将场景交互模块作为独立分支介绍,并在轨迹生成过程中嵌入社交交互功能,而不是同时执行社交交互和场景交互,这可能破坏轨迹预测的合理性。在本文中,我们提出了一个名为社会软关注图卷积网络(SSAGCN)的一个新的预测模型,旨在同时处理行人和环境之间的行人和场景相互作用之间的社交互动。详细说明,在建模社交互动时,我们提出了一种新的\ EMPH {社会软关注功能},其充分考虑了行人之间的各种交互因素。并且它可以基于各种情况下的不同因素来区分行人周围的人行力的影响。对于物理互动,我们提出了一个新的\ emph {顺序场景共享机制}。每个时刻在每个时刻对一个代理的影响可以通过社会柔和关注与其他邻居共享,因此场景的影响在空间和时间尺寸中都是扩展。在这些改进的帮助下,我们成功地获得了社会和身体上可接受的预测轨迹。公共可用数据集的实验证明了SSAGCN的有效性,并取得了最先进的结果。
translated by 谷歌翻译
为了安全和合理地参与密集和异质的交通,自动驾驶汽车需要充分分析周围交通代理的运动模式,并准确预测其未来的轨迹。这是具有挑战性的,因为交通代理的轨迹不仅受交通代理本身的影响,而且还受到彼此的空间互动的影响。以前的方法通常依赖于长期短期存储网络(LSTMS)的顺序逐步处理,并仅提取单型交通代理之间的空间邻居之间的相互作用。我们提出了时空变压器网络(S2TNET),该网络通过时空变压器对时空相互作用进行建模,并通过时间变压器处理颞序序列。我们将其他类别,形状和标题信息输入到我们的网络中,以处理交通代理的异质性。在Apolloscape轨迹数据集上,所提出的方法在平均值和最终位移误差的加权总和上优于Apolloscape轨迹数据集的最先进方法。我们的代码可在https://github.com/chenghuang66/s2tnet上找到。
translated by 谷歌翻译
在智能系统(例如自动驾驶和机器人导航)中,轨迹预测一直是一个长期存在的问题。最近在大规模基准测试的最新模型一直在迅速推动性能的极限,主要集中于提高预测准确性。但是,这些模型对效率的强调较少,这对于实时应用至关重要。本文提出了一个名为Gatraj的基于注意力的图形模型,其预测速度要高得多。代理的时空动力学,例如行人或车辆,是通过注意机制建模的。代理之间的相互作用是通过图卷积网络建模的。我们还实施了拉普拉斯混合物解码器,以减轻模式崩溃,并为每个代理生成多种模式预测。我们的模型以在多个开放数据集上测试的更高预测速度与最先进的模型相同的性能。
translated by 谷歌翻译
在复杂的场景中,尤其是在城市交通交叉点,对实体关系和运动行为的深刻理解对于实现高质量的计划非常重要。我们提出了有关交通信号灯D2-Tpred的轨迹预测方法,该方法使用空间动态交互图(SDG)和行为依赖图(BDG)来处理空间空间中不连续依赖的问题。具体而言,SDG用于通过在每帧中具有动态和可变特征的不同试剂的子图来捕获空间相互作用。 BDG用于通过建模当前状态对先验行为的隐式依赖性来推断运动趋势,尤其是与加速度,减速或转向方向相对应的不连续运动。此外,我们提出了一个新的数据集,用于在称为VTP-TL的交通信号灯下进行车辆轨迹预测。我们的实验结果表明,与其他轨迹预测算法相比,我们的模型在ADE和FDE方面分别获得了{20.45%和20.78%}的改善。数据集和代码可在以下网址获得:https://github.com/vtp-tl/d2-tpred。
translated by 谷歌翻译
了解代理之间的复杂社交互动是轨迹预测的关键挑战。大多数现有方法考虑成对交通代理或在局域之间的相互作用,而相互作用的性质是无限的,涉及同时不确定的代理和非局部区域。此外,它们对不同类别的代理商来说,它们同样对待异质的交通代理,同时忽视人们在IFFerent类别的交通代理中的多种反应模式。为了解决这些问题,我们提出了一个简单但有效的无限邻域交互网络(UNIN),其预测多个类别中异构代理的轨迹。具体地,所提出的无限邻域交互模块同时产生相互作用涉及的所有代理的融合特征,其适用于任何数量的代理和任何范围的交互区域。同时,提出了一个分层图注意模块,以获取类别到类别的交互和代理到代理交互。最后,估计高斯混合模型的参数用于产生未来轨迹。基准数据集的广泛实验结果表明,通过最先进的方法对我们的方法进行了显着改进。
translated by 谷歌翻译
人群中的人类轨迹预测提出了建模社交相互作用和输出无碰撞多模式分布的挑战。在社会生成对抗网络(SGAN)成功之后,最近的作品提出了各种基于GAN的设计,以更好地模拟人群中的人类运动。尽管在降低基于距离的指标方面的性能卓越,但当前网络仍无法输出社会可接受的轨迹,这是模型预测中的高碰撞所证明的。为此,我们介绍了SGANV2:改进的符合安全性的SGAN架构,配备了时空交互模型和基于变压器的鉴别器。时空建模能力有助于更好地学习人类的社交互动,而基于变压器的歧视器设计改善了时间序列建模。此外,SGANV2即使在测试时间也通过协作抽样策略来利用学到的歧视者,该策略不仅完善了碰撞轨迹,而且还可以防止模式崩溃,这是GAN训练中的常见现象。通过对多个现实世界和合成数据集进行广泛的实验,我们证明了SGANV2提供社会兼容的多模式轨迹的功效。
translated by 谷歌翻译
Path prediction is an essential task for many real-world Cyber-Physical Systems (CPS) applications, from autonomous driving and traffic monitoring/management to pedestrian/worker safety. These real-world CPS applications need a robust, lightweight path prediction that can provide a universal network architecture for multiple subjects (e.g., pedestrians and vehicles) from different perspectives. However, most existing algorithms are tailor-made for a unique subject with a specific camera perspective and scenario. This article presents Pishgu, a universal lightweight network architecture, as a robust and holistic solution for path prediction. Pishgu's architecture can adapt to multiple path prediction domains with different subjects (vehicles, pedestrians), perspectives (bird's-eye, high-angle), and scenes (sidewalk, highway). Our proposed architecture captures the inter-dependencies within the subjects in each frame by taking advantage of Graph Isomorphism Networks and the attention module. We separately train and evaluate the efficacy of our architecture on three different CPS domains across multiple perspectives (vehicle bird's-eye view, pedestrian bird's-eye view, and human high-angle view). Pishgu outperforms state-of-the-art solutions in the vehicle bird's-eye view domain by 42% and 61% and pedestrian high-angle view domain by 23% and 22% in terms of ADE and FDE, respectively. Additionally, we analyze the domain-specific details for various datasets to understand their effect on path prediction and model interpretation. Finally, we report the latency and throughput for all three domains on multiple embedded platforms showcasing the robustness and adaptability of Pishgu for real-world integration into CPS applications.
translated by 谷歌翻译
建模人行走的动力是对计算机视觉的长期兴趣的问题。许多涉及行人轨迹预测的以前的作品将一组特定的单个动作定义为隐式模型组动作。在本文中,我们介绍了一个名为GP-GRAPH的新颖架构,该架构具有集体的小组表示,用于在拥挤的环境中有效的人行道轨迹预测,并且与所有类型的现有方法兼容。 GP-GRAPH的一个关键思想是将个人和小组关系的关系作为图表表示。为此,GP-Graph首先学会将每个行人分配给最可能的行为组。然后,使用此分配信息,GP编写是图形的组内和组间相互作用,分别考虑了组和群体关系中的人类关系。要具体,对于小组内相互作用,我们掩盖了相关组中的行人图边缘。我们还建议小组合并和不致密操作,以代表一个具有多个行人作为一个图节点的小组。最后,GP-GRAPH从两个组相互作用的综合特征中渗透了一个可获得社会上可接受的未来轨迹的概率图。此外,我们介绍了一个小组潜在的矢量抽样,以确保对一系列可能的未来轨迹的集体推断。进行了广泛的实验来验证我们的体系结构的有效性,该实验证明了通过公开可用的基准测试的绩效一致。代码可在https://github.com/inhwanbae/gpgraph上公开获取。
translated by 谷歌翻译
Understanding human motion behavior is critical for autonomous moving platforms (like self-driving cars and social robots) if they are to navigate human-centric environments. This is challenging because human motion is inherently multimodal: given a history of human motion paths, there are many socially plausible ways that people could move in the future. We tackle this problem by combining tools from sequence prediction and generative adversarial networks: a recurrent sequence-to-sequence model observes motion histories and predicts future behavior, using a novel pooling mechanism to aggregate information across people. We predict socially plausible futures by training adversarially against a recurrent discriminator, and encourage diverse predictions with a novel variety loss. Through experiments on several datasets we demonstrate that our approach outperforms prior work in terms of accuracy, variety, collision avoidance, and computational complexity.
translated by 谷歌翻译
预测公路参与者的未来运动对于自动驾驶至关重要,但由于令人震惊的运动不确定性,因此极具挑战性。最近,大多数运动预测方法求助于基于目标的策略,即预测运动轨迹的终点,作为回归整个轨迹的条件,以便可以减少解决方案的搜索空间。但是,准确的目标坐标很难预测和评估。此外,目的地的点表示限制了丰富的道路环境的利用,从而导致预测不准确。目标区域,即可能的目的地区域,而不是目标坐标,可以通过涉及更多的容忍度和指导来提供更软的限制,以搜索潜在的轨迹。考虑到这一点,我们提出了一个新的基于目标区域的框架,名为“目标区域网络”(GANET)进行运动预测,该框架对目标区域进行了建模,而不是确切的目标坐标作为轨迹预测的先决条件,更加可靠,更准确地执行。具体而言,我们建议一个goicrop(目标的目标区域)操作员有效地提取目标区域中的语义巷特征,并在目标区域和模型演员的未来互动中提取语义巷,这对未来的轨迹估计很大。 Ganet在所有公共文献(直到论文提交)中排名第一个,将其源代码排在第一位。
translated by 谷歌翻译
作为自主驱动系统的核心技术,行人轨迹预测可以显着提高主动车辆安全性的功能,减少道路交通损伤。在交通场景中,当遇到迎面而来的人时,行人可能会立即转动或停止,这通常会导致复杂的轨迹。为了预测这种不可预测的轨迹,我们可以深入了解行人之间的互动。在本文中,我们提出了一种名为Spatial Interaction Transformer(SIT)的新型生成方法,其通过注意机制学习行人轨迹的时空相关性。此外,我们介绍了条件变形Autiachoder(CVAE)框架来模拟未来行人的潜在行动状态。特别是,基于大规模的TRAFC数据集NUSCENES [2]的实验显示,坐下的性能优于最先进的(SOTA)方法。对挑战性的Eth和UCY数据集的实验评估概述了我们提出的模型的稳健性
translated by 谷歌翻译
Motion prediction systems aim to capture the future behavior of traffic scenarios enabling autonomous vehicles to perform safe and efficient planning. The evolution of these scenarios is highly uncertain and depends on the interactions of agents with static and dynamic objects in the scene. GNN-based approaches have recently gained attention as they are well suited to naturally model these interactions. However, one of the main challenges that remains unexplored is how to address the complexity and opacity of these models in order to deal with the transparency requirements for autonomous driving systems, which includes aspects such as interpretability and explainability. In this work, we aim to improve the explainability of motion prediction systems by using different approaches. First, we propose a new Explainable Heterogeneous Graph-based Policy (XHGP) model based on an heterograph representation of the traffic scene and lane-graph traversals, which learns interaction behaviors using object-level and type-level attention. This learned attention provides information about the most important agents and interactions in the scene. Second, we explore this same idea with the explanations provided by GNNExplainer. Third, we apply counterfactual reasoning to provide explanations of selected individual scenarios by exploring the sensitivity of the trained model to changes made to the input data, i.e., masking some elements of the scene, modifying trajectories, and adding or removing dynamic agents. The explainability analysis provided in this paper is a first step towards more transparent and reliable motion prediction systems, important from the perspective of the user, developers and regulatory agencies. The code to reproduce this work is publicly available at https://github.com/sancarlim/Explainable-MP/tree/v1.1.
translated by 谷歌翻译
轨迹预测在智能车辆或社会机器人领域发挥着关键作用。最近的作品侧重于建模空间社会影响或时间运动注意,但忽视了运动的固有特征,即移动趋势和驾驶意图。本文提出了一种用于车辆轨迹预测的无背景的分层运动编码器 - 解码器网络(HMNET)。 HMNET首先揭示了运动的分层差异,以编码具有高富有动态趋势和驾驶意图的高效力的物理兼容模式。然后,根据位置 - 速度 - 加速相关模式分层地分层地构建多模式预测的目标(端点)。此外,我们介绍了一个修改的社交池模块,它考虑了某些运动属性来代表社交交互。 HMNET可以实现准确,单峰/多模式和物理上兼容的预测。三个公共轨迹预测数据集的实验,即NGSIM,高达和交互表明,我们的模型定量和定性地实现了最先进的性能。我们将在此处发布我们的代码:https://github.com/xuedashuai/hmnet。
translated by 谷歌翻译
Pedestrians follow different trajectories to avoid obstacles and accommodate fellow pedestrians. Any autonomous vehicle navigating such a scene should be able to foresee the future positions of pedestrians and accordingly adjust its path to avoid collisions. This problem of trajectory prediction can be viewed as a sequence generation task, where we are interested in predicting the future trajectory of people based on their past positions. Following the recent success of Recurrent Neural Network (RNN) models for sequence prediction tasks, we propose an LSTM model which can learn general human movement and predict their future trajectories. This is in contrast to traditional approaches which use hand-crafted functions such as Social forces. We demonstrate the performance of our method on several public datasets. Our model outperforms state-of-the-art methods on some of these datasets . We also analyze the trajectories predicted by our model to demonstrate the motion behaviour learned by our model.
translated by 谷歌翻译
GPS trajectories are the essential foundations for many trajectory-based applications, such as travel time estimation, traffic prediction and trajectory similarity measurement. Most applications require a large amount of high sample rate trajectories to achieve a good performance. However, many real-life trajectories are collected with low sample rate due to energy concern or other constraints.We study the task of trajectory recovery in this paper as a means for increasing the sample rate of low sample trajectories. Currently, most existing works on trajectory recovery follow a sequence-to-sequence diagram, with an encoder to encode a trajectory and a decoder to recover real GPS points in the trajectory. However, these works ignore the topology of road network and only use grid information or raw GPS points as input. Therefore, the encoder model is not able to capture rich spatial information of the GPS points along the trajectory, making the prediction less accurate and lack spatial consistency. In this paper, we propose a road network enhanced transformer-based framework, namely RNTrajRec, for trajectory recovery. RNTrajRec first uses a graph model, namely GridGNN, to learn the embedding features of each road segment. It next develops a spatial-temporal transformer model, namely GPSFormer, to learn rich spatial and temporal features along with a Sub-Graph Generation module to capture the spatial features for each GPS point in the trajectory. It finally forwards the outputs of encoder model into a multi-task decoder model to recover the missing GPS points. Extensive experiments based on three large-scale real-life trajectory datasets confirm the effectiveness of our approach.
translated by 谷歌翻译
Predicting the future motion of dynamic agents is of paramount importance to ensure safety or assess risks in motion planning for autonomous robots. In this paper, we propose a two-stage motion prediction method, referred to as R-Pred, that effectively utilizes both the scene and interaction context using a cascade of the initial trajectory proposal network and the trajectory refinement network. The initial trajectory proposal network produces M trajectory proposals corresponding to M modes of a future trajectory distribution. The trajectory refinement network enhances each of M proposals using 1) the tube-query scene attention (TQSA) and 2) the proposal-level interaction attention (PIA). TQSA uses tube-queries to aggregate the local scene context features pooled from proximity around the trajectory proposals of interest. PIA further enhances the trajectory proposals by modeling inter-agent interactions using a group of trajectory proposals selected based on their distances from neighboring agents. Our experiments conducted on the Argoverse and nuScenes datasets demonstrate that the proposed refinement network provides significant performance improvements compared to the single-stage baseline and that R-Pred achieves state-of-the-art performance in some categories of the benchmark.
translated by 谷歌翻译
预测动态场景中的行人轨迹仍然是各种应用中的关键问题,例如自主驾驶和社会意识的机器人。由于人类和人类对象的相互作用和人类随机性引起的未来不确定性,这种预测是挑战。基于生成式模型的方法通过采样潜在变量来处理未来的不确定性。然而,很少有研究探索了潜在变量的产生。在这项工作中,我们提出了具有伪Oracle(TPPO)的轨迹预测器,这是一种基于模型的基于模型的轨迹预测因子。第一个伪甲骨文是行人的移动方向,第二个是从地面真理轨迹估计的潜在变量。社会注意力模块用于基于行人移动方向与未来轨迹之间的相关性聚集邻居的交互。这种相关性受到行人的未来轨迹往往受到前方行人的影响。提出了一种潜在的变量预测器来估计观察和地面轨迹的潜在可变分布。此外,在训练期间,这两个分布之间的间隙最小化。因此,潜在的变量预测器可以估计观察到的轨迹的潜变量,以近似从地面真理轨迹估计。我们将TPPO与在几个公共数据集上的相关方法进行比较。结果表明,TPPO优于最先进的方法,具有低平均和最终位移误差。作为测试期间的采样时间下降,消融研究表明预测性能不会显着降低。
translated by 谷歌翻译
预测场景中代理的未来位置是自动驾驶中的一个重要问题。近年来,在代表现场及其代理商方面取得了重大进展。代理与场景和彼此之间的相互作用通常由图神经网络建模。但是,图形结构主要是静态的,无法表示高度动态场景中的时间变化。在这项工作中,我们提出了一个时间图表示,以更好地捕获流量场景中的动态。我们用两种类型的内存模块补充表示形式。一个专注于感兴趣的代理,另一个专注于整个场景。这使我们能够学习暂时意识的表示,即使对多个未来进行简单回归,也可以取得良好的结果。当与目标条件预测结合使用时,我们会显示出更好的结果,可以在Argoverse基准中达到最先进的性能。
translated by 谷歌翻译
安全可靠的自主驾驶堆栈(AD)的设计是我们时代最具挑战性的任务之一。预计这些广告将在具有完全自主权的高度动态环境中驱动,并且比人类更大的可靠性。从这个意义上讲,要高效,安全地浏览任意复杂的流量情景,广告必须具有预测周围参与者的未来轨迹的能力。当前的最新模型通常基于复发,图形和卷积网络,在车辆预测的背景下取得了明显的结果。在本文中,我们探讨了在生成模型进行运动预测中注意力的影响,考虑到物理和社会环境以计算最合理的轨迹。我们首先使用LSTM网络对过去的轨迹进行编码,该网络是计算社会背景的多头自我发言模块的输入。另一方面,我们制定了一个加权插值来计算最后一个观测框中的速度和方向,以便计算可接受的目标点,从HDMAP信息的可驱动的HDMAP信息中提取,这代表了我们的物理环境。最后,我们的发电机的输入是从多元正态分布采样的白噪声矢量,而社会和物理环境则是其条件,以预测可行的轨迹。我们使用Argoverse运动预测基准1.1验证我们的方法,从而实现竞争性的单峰结果。
translated by 谷歌翻译