周围代理的运动预测是自主驾驶背景下的重要任务,因为它与驾驶员的安全密切相关。车辆运动预测(VMP)转变挑战赛追踪侧重于开发模型,该模型具有稳健的分支,能够衡量其预测的不确定性。在这项工作中,我们提出了在排行榜上提供的基准和第2位提高的方法。
translated by 谷歌翻译
预测交通参与者的多模式未来行为对于机器人车辆做出安全决策至关重要。现有作品探索以直接根据潜在特征预测未来的轨迹,或利用密集的目标候选者来识别代理商的目的地,在这种情况下,由于所有运动模式均来自相同的功能,而后者的策略具有效率问题,因此前者策略的收敛缓慢,因为其性能高度依赖关于候选目标的密度。在本文中,我们提出了运动变压器(MTR)框架,该框架将运动预测模拟为全球意图定位和局部运动改进的联合优化。 MTR不使用目标候选者,而是通过采用一系列可学习的运动查询对来结合空间意图。每个运动查询对负责特定运动模式的轨迹预测和完善,这可以稳定训练过程并促进更好的多模式预测。实验表明,MTR在边际和联合运动预测挑战上都达到了最新的性能,在Waymo Open Motion DataSet排行榜上排名第一。代码将在https://github.com/sshaoshuai/mtr上找到。
translated by 谷歌翻译
Behavior prediction in dynamic, multi-agent systems is an important problem in the context of self-driving cars, due to the complex representations and interactions of road components, including moving agents (e.g. pedestrians and vehicles) and road context information (e.g. lanes, traffic lights). This paper introduces VectorNet, a hierarchical graph neural network that first exploits the spatial locality of individual road components represented by vectors and then models the high-order interactions among all components. In contrast to most recent approaches, which render trajectories of moving agents and road context information as bird-eye images and encode them with convolutional neural networks (ConvNets), our approach operates on a vector representation. By operating on the vectorized high definition (HD) maps and agent trajectories, we avoid lossy rendering and computationally intensive ConvNet encoding steps. To further boost VectorNet's capability in learning context features, we propose a novel auxiliary task to recover the randomly masked out map entities and agent trajectories based on their context. We evaluate VectorNet on our in-house behavior prediction benchmark and the recently released Argoverse forecasting dataset. Our method achieves on par or better performance than the competitive rendering approach on both benchmarks while saving over 70% of the model parameters with an order of magnitude reduction in FLOPs. It also outperforms the state of the art on the Argoverse dataset.
translated by 谷歌翻译
预测周围动态剂的未来轨迹是自动驾驶中的必要要求。这些轨迹主要取决于周围的静态环境以及这些动态剂的过去运动。此外,代理意图的多模式性质使轨迹预测问题更具挑战性。所有现有模型都同样考虑目标剂以及周围的剂,而无需考虑物理特性的变化。在本文中,我们为自动驾驶中的多模式轨迹预测提供了一个新颖的基于深度学习的框架,该框架考虑了目标及周围车辆的物理特性,例如对象类及其物理尺寸通过加权注意模块,从而改善预测的准确性。我们的模型在Nuscenes轨迹预测基准测试中取得了最高的结果,这些模型是使用栅格图来输入环境信息的模型。此外,我们的模型能够实时运行,达到300 fps的高推理率。
translated by 谷歌翻译
The task of motion forecasting is critical for self-driving vehicles (SDVs) to be able to plan a safe maneuver. Towards this goal, modern approaches reason about the map, the agents' past trajectories and their interactions in order to produce accurate forecasts. The predominant approach has been to encode the map and other agents in the reference frame of each target agent. However, this approach is computationally expensive for multi-agent prediction as inference needs to be run for each agent. To tackle the scaling challenge, the solution thus far has been to encode all agents and the map in a shared coordinate frame (e.g., the SDV frame). However, this is sample inefficient and vulnerable to domain shift (e.g., when the SDV visits uncommon states). In contrast, in this paper, we propose an efficient shared encoding for all agents and the map without sacrificing accuracy or generalization. Towards this goal, we leverage pair-wise relative positional encodings to represent geometric relationships between the agents and the map elements in a heterogeneous spatial graph. This parameterization allows us to be invariant to scene viewpoint, and save online computation by re-using map embeddings computed offline. Our decoder is also viewpoint agnostic, predicting agent goals on the lane graph to enable diverse and context-aware multimodal prediction. We demonstrate the effectiveness of our approach on the urban Argoverse 2 benchmark as well as a novel highway dataset.
translated by 谷歌翻译
在这项工作中,我们提出了一种新的多模态多代理轨迹预测架构,专注于使用图形表示的地图和交互建模。出于地图建模的目的,我们将丰富的拓扑结构捕获到基于向量的星形图中,使代理能够直接参加用于代表地图的折线上的相关区域。我们表示此架构Starnet,并将其集成在单次代理预测设置中。作为主要结果,我们将此架构扩展到联合场景级预测,同时产生多个代理的预测。联合赛斯网的关键思想在自己的参考框中将一个代理的意识与其他代理人的观点察觉到。我们通过蒙面的自我关注实现这一目标。两个提出的架构都建立在我们以前的工作中介绍的动作空间预测框架之上,这确保了运动学上可行的轨迹预测。我们评估了富含互动的IND和交互数据集的方法,其中STARNET和联合星网实现了最先进的技术。
translated by 谷歌翻译
Level 5 Autonomous Driving, a technology that a fully automated vehicle (AV) requires no human intervention, has raised serious concerns on safety and stability before widespread use. The capability of understanding and predicting future motion trajectory of road objects can help AV plan a path that is safe and easy to control. In this paper, we propose a network architecture that parallelizes multiple convolutional neural network backbones and fuses features to make multi-mode trajectory prediction. In the 2020 ICRA Nuscene Prediction challenge, our model ranks 15th on the leaderboard across all teams.
translated by 谷歌翻译
预测道路用户的未来行为是自主驾驶中最具挑战性和最重要的问题之一。应用深度学习对此问题需要以丰富的感知信号和地图信息的形式融合异构世界状态,并在可能的期货上推断出高度多模态分布。在本文中,我们呈现MultiPath ++,这是一个未来的预测模型,实现了在流行的基准上实现最先进的性能。 MultiPath ++通过重新访问许多设计选择来改善多径架构。第一关键设计差异是偏离基于图像的基于输入世界状态的偏离,有利于异构场景元素的稀疏编码:多径++消耗紧凑且有效的折线,直接描述道路特征和原始代理状态信息(例如,位置,速度,加速)。我们提出了一种背景感知这些元素的融合,并开发可重用的多上下文选通融合组件。其次,我们重新考虑了预定义,静态锚点的选择,并开发了一种学习模型端到端的潜在锚嵌入的方法。最后,我们在其他ML域中探索合奏和输出聚合技术 - 常见的常见域 - 并为我们的概率多模式输出表示找到有效的变体。我们对这些设计选择进行了广泛的消融,并表明我们所提出的模型在协会运动预测竞争和Waymo开放数据集运动预测挑战上实现了最先进的性能。
translated by 谷歌翻译
自动驾驶的运动预测是一项艰巨的任务,因为复杂的驾驶场景导致静态和动态输入的异质组合。这是一个开放的问题,如何最好地表示和融合有关道路几何,车道连接,时变的交通信号状态以及动态代理的历史及其相互作用的历史。为了模拟这一不同的输入功能集,许多提出的方法旨在设计具有多种模态模块的同样复杂系统。这导致难以按严格的方式进行扩展,扩展或调整的系统以进行质量和效率。在本文中,我们介绍了Wayformer,这是一个基于注意力的运动架构,用于运动预测,简单而均匀。 Wayformer提供了一个紧凑的模型描述,该描述由基于注意力的场景编码器和解码器组成。在场景编码器中,我们研究了输入方式的早期,晚和等级融合的选择。对于每种融合类型,我们通过分解的注意力或潜在的查询关注来探索策略来折衷效率和质量。我们表明,尽管早期融合的结构简单,但不仅是情感不可知论,而且还取得了最先进的结果。
translated by 谷歌翻译
关于车辆路径预测的推理是自动驾驶系统安全运行的必不可少的问题。有许多用于路径预测的研究工作。但是,其中大多数不使用车道信息,也不基于变压器体系结构。通过利用从配备自动驾驶车辆的传感器收集的不同类型的数据,我们提出了一个名为多模式变压器路径预测(MTPP)的路径预测系统,该系统旨在预测目标试剂的长期未来轨迹。为了实现更准确的路径预测,在我们的模型中采用了变压器体系结构。为了更好地利用车道信息,目标试剂不太可能采用与目标试剂相反的车道,因此被过滤掉。另外,将连续的车道块组合在一起,以确保车道输入足够长以进行路径预测。进行了广泛的评估,以显示使用Nuscene(现实世界中的轨迹预测数据集)的拟议系统的功效。
translated by 谷歌翻译
在本报告中,我们介绍了2022 Waymo Open DataSet挑战中运动预测轨迹的第一名解决方案。我们为多模式运动预测提出了一个新型的运动变压器框架,该框架引入了一组新型运动查询对,用于通过共同执行意图定位和迭代运动改进来产生更好的多模式未来轨迹。采用了一种简单的模型合奏策略,并采用了非最大抑制作用,以进一步提高最终性能。我们的方法在2022 Waymo打开数据集挑战的运动预测排行榜上取得了第一名,优于其他利润率的其他方法。代码将在https://github.com/sshaoshuai/mtr上找到。
translated by 谷歌翻译
在交通场景中的道路使用者的运动预测对于必须在复杂的动态环境中采取安全和强大决策的自动驾驶系统至关重要。我们提出了一种新型的运动预测系统,用于自动驾驶。我们的系统基于贝叶斯逆计划框架,该框架有效地精心策划了基于地图的目标提取,基于经典的基于控制的轨迹发生器以及专家集合轻巧神经网络的混合物,专门针对运动概况预测。与许多替代方法相反,这种模块化有助于隔离性能因素并更好地解释结果,而不会损害性能。该系统解决了感兴趣的多个方面,即多模式,运动概况不确定性和轨迹物理可行性。我们报告了流行的高速公路数据集NGSIM的几个实验,这在轨迹误差方面证明了最先进的性能。我们还对系统组件进行了详细的分析,以及基于行为(例如变更车道与跟随车道)对数据进行分层的实验,以提供对该域中挑战的见解。最后,我们提出了定性分析,以显示我们方法的其他好处,例如解释产出的能力。
translated by 谷歌翻译
预测附近代理商的合理的未来轨迹是自治车辆安全的核心挑战,主要取决于两个外部线索:动态邻居代理和静态场景上下文。最近的方法在分别表征两个线索方面取得了很大进展。然而,它们忽略了两个线索之间的相关性,并且大多数很难实现地图自适应预测。在本文中,我们使用Lane作为场景数据,并提出一个分阶段网络,即共同学习代理和车道信息,用于多模式轨迹预测(JAL-MTP)。 JAL-MTP使用社交到LANE(S2L)模块来共同代表静态道和相邻代理的动态运动作为实例级车道,一种用于利用实例级车道来预测的反复出的车道注意力(RLA)机制来预测Map-Adaptive Future Trajections和两个选择器,可识别典型和合理的轨迹。在公共协议数据集上进行的实验表明JAL-MTP在定量和定性中显着优于现有模型。
translated by 谷歌翻译
为了规划一个安全有效的路线,自主车辆应该预测其周围其他代理的未来动作。运动预测是一个极其具有挑战性的任务,最近获得了研究界的重大关注。在这项工作中,我们对纯粹基于变压器神经网络的不确定性意识的运动预测,为其呈现了一个简单而强烈的基线,这在域变化条件下表明了其有效性。虽然易于实施,所提出的方法实现了竞争性能,并在2021转移车辆运动预测竞争中获得1美元$ ^ {St}美元。
translated by 谷歌翻译
变量自动编码器(VAE)已广泛用于建模数据分布,因为它在理论上优雅,易于训练并且具有不错的多种形式表示。但是,当应用于图像重建和合成任务时,VAE显示了生成样品往往模糊的局限性。我们观察到一个类似的问题,其中生成的轨迹位于相邻的车道之间,通常是在基于VAE的轨迹预测模型中出现的。为了减轻此问题,我们将层次潜在结构引入基于VAE的预测模型。基于以下假设,即可以将轨迹分布近似为简单分布(或模式)的混合物,因此使用低级潜在变量来对混合物的每种模式进行建模,并采用了高级潜在变量来表示权重代表权重对于模式。为了准确地对每个模式进行建模,我们使用以新颖方式计算的两个车道级别上下文向量来调节低级潜在变量,一种对应于车道相互作用,另一个对应于车辆车辆的相互作用。上下文向量还用于通过建议的模式选择网络对权重进行建模。为了评估我们的预测模型,我们使用两个大型现实世界数据集。实验结果表明,我们的模型不仅能够生成清晰的多模式轨迹分布,而且还可以优于最新模型(SOTA)模型。我们的代码可在https://github.com/d1024choi/hlstrajforecast上找到。
translated by 谷歌翻译
预测场景中代理的未来位置是自动驾驶中的一个重要问题。近年来,在代表现场及其代理商方面取得了重大进展。代理与场景和彼此之间的相互作用通常由图神经网络建模。但是,图形结构主要是静态的,无法表示高度动态场景中的时间变化。在这项工作中,我们提出了一个时间图表示,以更好地捕获流量场景中的动态。我们用两种类型的内存模块补充表示形式。一个专注于感兴趣的代理,另一个专注于整个场景。这使我们能够学习暂时意识的表示,即使对多个未来进行简单回归,也可以取得良好的结果。当与目标条件预测结合使用时,我们会显示出更好的结果,可以在Argoverse基准中达到最先进的性能。
translated by 谷歌翻译
交通参与者的运动预测对于安全和强大的自动化驾驶系统至关重要,特别是在杂乱的城市环境中。然而,由于复杂的道路拓扑以及其他代理的不确定意图,这是强大的挑战。在本文中,我们介绍了一种基于图形的轨迹预测网络,其命名为双级预测器(DSP),其以分层方式编码静态和动态驾驶环境。与基于光栅状地图或稀疏车道图的方法不同,我们将驾驶环境视为具有两层的图形,专注于几何和拓扑功能。图形神经网络(GNNS)应用于提取具有不同粒度级别的特征,随后通过基于关注的层间网络聚合,实现更好的本地全局特征融合。在最近的目标驱动的轨迹预测管道之后,提取了目标代理的高可能性的目标候选者,并在这些目标上产生预测的轨迹。由于提出的双尺度上下文融合网络,我们的DSP能够产生准确和人类的多模态轨迹。我们评估了大规模协会运动预测基准测试的提出方法,实现了有希望的结果,优于最近的最先进的方法。
translated by 谷歌翻译
自治车辆的评估和改善规划需要可扩展的长尾交通方案。有用的是,这些情景必须是现实的和挑战性的,但不能安全地开车。在这项工作中,我们介绍努力,一种自动生成具有挑战性的场景的方法,导致给定的计划者产生不良行为,如冲突。为了维护情景合理性,关键的想法是利用基于图形的条件VAE的形式利用学习的交通运动模型。方案生成在该流量模型的潜在空间中制定了优化,通过扰乱初始的真实世界的场景来产生与给定计划者碰撞的轨迹。随后的优化用于找到“解决方案”的场景,确保改进给定的计划者是有用的。进一步的分析基于碰撞类型的群集生成的场景。我们攻击两名策划者并展示争取在这两种情况下成功地产生了现实,具有挑战性的情景。我们另外“关闭循环”并使用这些方案优化基于规则的策划器的超参数。
translated by 谷歌翻译
为了安全和合理地参与密集和异质的交通,自动驾驶汽车需要充分分析周围交通代理的运动模式,并准确预测其未来的轨迹。这是具有挑战性的,因为交通代理的轨迹不仅受交通代理本身的影响,而且还受到彼此的空间互动的影响。以前的方法通常依赖于长期短期存储网络(LSTMS)的顺序逐步处理,并仅提取单型交通代理之间的空间邻居之间的相互作用。我们提出了时空变压器网络(S2TNET),该网络通过时空变压器对时空相互作用进行建模,并通过时间变压器处理颞序序列。我们将其他类别,形状和标题信息输入到我们的网络中,以处理交通代理的异质性。在Apolloscape轨迹数据集上,所提出的方法在平均值和最终位移误差的加权总和上优于Apolloscape轨迹数据集的最先进方法。我们的代码可在https://github.com/chenghuang66/s2tnet上找到。
translated by 谷歌翻译
We propose JFP, a Joint Future Prediction model that can learn to generate accurate and consistent multi-agent future trajectories. For this task, many different methods have been proposed to capture social interactions in the encoding part of the model, however, considerably less focus has been placed on representing interactions in the decoder and output stages. As a result, the predicted trajectories are not necessarily consistent with each other, and often result in unrealistic trajectory overlaps. In contrast, we propose an end-to-end trainable model that learns directly the interaction between pairs of agents in a structured, graphical model formulation in order to generate consistent future trajectories. It sets new state-of-the-art results on Waymo Open Motion Dataset (WOMD) for the interactive setting. We also investigate a more complex multi-agent setting for both WOMD and a larger internal dataset, where our approach improves significantly on the trajectory overlap metrics while obtaining on-par or better performance on single-agent trajectory metrics.
translated by 谷歌翻译