智能论文笔记

S2TNet: Spatio-Temporal Transformer Networks for Trajectory Prediction in Autonomous Driving

Weihuang Chen , Fangfang Wang , Hongbin Sun

分类：计算机视觉 | 机器学习 | 机器人

2022-06-22

为了安全和合理地参与密集和异质的交通，自动驾驶汽车需要充分分析周围交通代理的运动模式，并准确预测其未来的轨迹。这是具有挑战性的，因为交通代理的轨迹不仅受交通代理本身的影响，而且还受到彼此的空间互动的影响。以前的方法通常依赖于长期短期存储网络（LSTMS）的顺序逐步处理，并仅提取单型交通代理之间的空间邻居之间的相互作用。我们提出了时空变压器网络（S2TNET），该网络通过时空变压器对时空相互作用进行建模，并通过时间变压器处理颞序序列。我们将其他类别，形状和标题信息输入到我们的网络中，以处理交通代理的异质性。在Apolloscape轨迹数据集上，所提出的方法在平均值和最终位移误差的加权总和上优于Apolloscape轨迹数据集的最先进方法。我们的代码可在https://github.com/chenghuang66/s2tnet上找到。

translated by 谷歌翻译

Pedestrian Trajectory Prediction via Spatial Interaction Transformer Network

Tong Su , Yu Meng , Yan Xu

分类：计算机视觉 | 机器学习

2021-12-13

作为自主驱动系统的核心技术，行人轨迹预测可以显着提高主动车辆安全性的功能，减少道路交通损伤。在交通场景中，当遇到迎面而来的人时，行人可能会立即转动或停止，这通常会导致复杂的轨迹。为了预测这种不可预测的轨迹，我们可以深入了解行人之间的互动。在本文中，我们提出了一种名为Spatial Interaction Transformer（SIT）的新型生成方法，其通过注意机制学习行人轨迹的时空相关性。此外，我们介绍了条件变形Autiachoder（CVAE）框架来模拟未来行人的潜在行动状态。特别是，基于大规模的TRAFC数据集NUSCENES [2]的实验显示，坐下的性能优于最先进的（SOTA）方法。对挑战性的Eth和UCY数据集的实验评估概述了我们提出的模型的稳健性

translated by 谷歌翻译

Unlimited Neighborhood Interaction for Heterogeneous Trajectory Prediction

Fang Zheng , Le Wang , Sanping Zhou , Wei Tang , Zhenxing Niu , Nanning Zheng , Gang Hua

分类：人工智能 | 计算机视觉

2021-07-31

了解代理之间的复杂社交互动是轨迹预测的关键挑战。大多数现有方法考虑成对交通代理或在局域之间的相互作用，而相互作用的性质是无限的，涉及同时不确定的代理和非局部区域。此外，它们对不同类别的代理商来说，它们同样对待异质的交通代理，同时忽视人们在IFFerent类别的交通代理中的多种反应模式。为了解决这些问题，我们提出了一个简单但有效的无限邻域交互网络（UNIN），其预测多个类别中异构代理的轨迹。具体地，所提出的无限邻域交互模块同时产生相互作用涉及的所有代理的融合特征，其适用于任何数量的代理和任何范围的交互区域。同时，提出了一个分层图注意模块，以获取类别到类别的交互和代理到代理交互。最后，估计高斯混合模型的参数用于产生未来轨迹。基准数据集的广泛实验结果表明，通过最先进的方法对我们的方法进行了显着改进。

translated by 谷歌翻译

SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian Trajectory Prediction

Pei Lv , Wentong Wang , Yunxin Wang , Yuzhen Zhang , Mingliang Xu , Changsheng Xu

分类：计算机视觉

2021-12-05

行人轨迹预测是自动驾驶的重要技术，近年来已成为研究热点。以前的方法主要依靠行人的位置关系来模型社交互动，这显然不足以代表实际情况中的复杂病例。此外，大多数现有工作通常通常将场景交互模块作为独立分支介绍，并在轨迹生成过程中嵌入社交交互功能，而不是同时执行社交交互和场景交互，这可能破坏轨迹预测的合理性。在本文中，我们提出了一个名为社会软关注图卷积网络（SSAGCN）的一个新的预测模型，旨在同时处理行人和环境之间的行人和场景相互作用之间的社交互动。详细说明，在建模社交互动时，我们提出了一种新的\ EMPH {社会软关注功能}，其充分考虑了行人之间的各种交互因素。并且它可以基于各种情况下的不同因素来区分行人周围的人行力的影响。对于物理互动，我们提出了一个新的\ emph {顺序场景共享机制}。每个时刻在每个时刻对一个代理的影响可以通过社会柔和关注与其他邻居共享，因此场景的影响在空间和时间尺寸中都是扩展。在这些改进的帮助下，我们成功地获得了社会和身体上可接受的预测轨迹。公共可用数据集的实验证明了SSAGCN的有效性，并取得了最先进的结果。

translated by 谷歌翻译

Exploring Attention GAN for Vehicle Motion Prediction

Carlos Gómez-Huélamo , Marcos V. Conde , Miguel Ortiz , Santiago Montiel , Rafael Barea , Luis M. Bergasa

分类：计算机视觉 | 人工智能 | 机器人

2022-09-26

安全可靠的自主驾驶堆栈（AD）的设计是我们时代最具挑战性的任务之一。预计这些广告将在具有完全自主权的高度动态环境中驱动，并且比人类更大的可靠性。从这个意义上讲，要高效，安全地浏览任意复杂的流量情景，广告必须具有预测周围参与者的未来轨迹的能力。当前的最新模型通常基于复发，图形和卷积网络，在车辆预测的背景下取得了明显的结果。在本文中，我们探讨了在生成模型进行运动预测中注意力的影响，考虑到物理和社会环境以计算最合理的轨迹。我们首先使用LSTM网络对过去的轨迹进行编码，该网络是计算社会背景的多头自我发言模块的输入。另一方面，我们制定了一个加权插值来计算最后一个观测框中的速度和方向，以便计算可接受的目标点，从HDMAP信息的可驱动的HDMAP信息中提取，这代表了我们的物理环境。最后，我们的发电机的输入是从多元正态分布采样的白噪声矢量，而社会和物理环境则是其条件，以预测可行的轨迹。我们使用Argoverse运动预测基准1.1验证我们的方法，从而实现竞争性的单峰结果。

translated by 谷歌翻译

CDGNet: A Cross-Time Dynamic Graph-based Deep Learning Model for Traffic Forecasting

Yuchen Fang , Yanjun Qin , Haiyong Luo , Fang Zhao , Liang Zeng , Bo Hui , Chenxing Wang

分类：机器学习

2021-12-06

交通预测在智能交通系统中很重要，有利于交通安全，但由于现实世界交通系统中的复杂和动态的时空依赖性，这是非常具有挑战性的。先前的方法使用预定义或学习的静态图来提取空间相关性。但是，基于静态图形的方法无法挖掘交通网络的演变。研究人员随后为每次切片生成动态图形以反映空间相关性的变化，但它们遵循独立建模的时空依赖性的范例，忽略了串行空间影响。在本文中，我们提出了一种新的基于跨时动态图形的深度学习模型，名为CDGNet，用于交通预测。该模型能够通过利用横行动态图来有效地捕获每个时切片和其历史时片之间的串联空间依赖性。同时，我们设计了稀疏横行动态图的浇注机制，符合现实世界中的稀疏空间相关性。此外，我们提出了一种新颖的编码器解码器架构，用于结合基于交叉时间动态图形的GCN，用于多步行量预测。三个现实世界公共交通数据集的实验结果表明CDGNET优于最先进的基线。我们还提供了一种定性研究来分析我们建筑的有效性。

translated by 谷歌翻译

GATraj: A Graph- and Attention-based Multi-Agent Trajectory Prediction Model

Hao Cheng , Mengmeng Liu , Lin Chen , Hellward Broszio , Monika Sester , Michael Ying Yang

分类：机器人 | 计算机视觉

2022-09-16

在智能系统（例如自动驾驶和机器人导航）中，轨迹预测一直是一个长期存在的问题。最近在大规模基准测试的最新模型一直在迅速推动性能的极限，主要集中于提高预测准确性。但是，这些模型对效率的强调较少，这对于实时应用至关重要。本文提出了一个名为Gatraj的基于注意力的图形模型，其预测速度要高得多。代理的时空动力学，例如行人或车辆，是通过注意机制建模的。代理之间的相互作用是通过图卷积网络建模的。我们还实施了拉普拉斯混合物解码器，以减轻模式崩溃，并为每个代理生成多种模式预测。我们的模型以在多个开放数据集上测试的更高预测速度与最先进的模型相同的性能。

translated by 谷歌翻译

D2-TPred: Discontinuous Dependency for Trajectory Prediction under Traffic Lights

Yuzhen Zhang , Wentong Wang , Weizhi Guo , Pei Lv , Mingliang Xu , Wei Chen , Dinesh Manocha

分类：计算机视觉

2022-07-21

在复杂的场景中，尤其是在城市交通交叉点，对实体关系和运动行为的深刻理解对于实现高质量的计划非常重要。我们提出了有关交通信号灯D2-Tpred的轨迹预测方法，该方法使用空间动态交互图（SDG）和行为依赖图（BDG）来处理空间空间中不连续依赖的问题。具体而言，SDG用于通过在每帧中具有动态和可变特征的不同试剂的子图来捕获空间相互作用。 BDG用于通过建模当前状态对先验行为的隐式依赖性来推断运动趋势，尤其是与加速度，减速或转向方向相对应的不连续运动。此外，我们提出了一个新的数据集，用于在称为VTP-TL的交通信号灯下进行车辆轨迹预测。我们的实验结果表明，与其他轨迹预测算法相比，我们的模型在ADE和FDE方面分别获得了{20.45％和20.78％}的改善。数据集和代码可在以下网址获得：https：//github.com/vtp-tl/d2-tpred。

translated by 谷歌翻译

View Vertically: A Hierarchical Network for Trajectory Prediction via Fourier Spectrums

Conghao Wong , Beihao Xia , Ziming Hong , Qinmu Peng , Wei Yuan , Qiong Cao , Yibo Yang , Xinge You

分类：计算机视觉

2021-10-14

理解和预测代理的未来轨迹对于行为分析，机器人导航，自动驾驶汽车和其他相关应用至关重要。先前的方法主要将轨迹预测视为时间序列的产生。与它们不同的是，这项工作在“垂直”视图中研究了代理的轨迹，即来自光谱域的建模和预测轨迹。轨迹光谱中的不同频带可以分层反映不同尺度上的代理运动偏好。低频和高频部分可以分别代表其粗糙运动趋势和细胞运动变化。因此，我们提出了一个层次网络v $^2 $ -NET，其中包含两个子网络，以层次模型并预测具有轨迹谱的代理的轨迹。粗级关键点估计子网络首先预测了代理轨迹在几个“密钥”频率部分上的“最小”频谱。然后，高级频谱插值子网络插值将这些光谱重建最终预测。实验结果表明，在ETH-COY基准和Stanford Drone DataSet上，V $^2 $ -NET的竞争力和优势。

translated by 谷歌翻译

Graph-based Spatial Transformer with Memory Replay for Multi-future Pedestrian Trajectory Prediction

Lihuan Li , Maurice Pagnucco , Yang Song

分类：计算机视觉

2022-06-12

对于各种现实生活中的应用，例如自动驾驶和机器人运动计划，行人轨迹预测是一项重要且具有挑战性的任务。除了生成一条未来的路径外，预测多个合理的未来路径在最近的一些轨迹预测方面变得流行。但是，现有方法通常强调行人与周边地区之间的空间相互作用，但忽略了预测的平稳性和时间一致性。我们的模型旨在通过建模基于历史轨迹的多路径来预测多个基于图形的空间变压器与使用内存图的轨迹平滑算法相结合的轨迹平滑算法。我们的方法可以全面利用空间信息，并纠正时间上不一致的轨迹（例如，尖锐的转弯）。我们还提出了一个名为“轨迹使用百分比”的新评估度量，以评估各种多未实现预测的全面性。我们的广泛实验表明，所提出的模型在多未来的预测和单一预测的竞争结果上实现了最先进的表现。在https://github.com/jacobieee/st-mr上发布的代码。

translated by 谷歌翻译

Holistic Transformer: A Joint Neural Network for Trajectory Prediction and Decision-Making of Autonomous Vehicles

Hongyu Hu , Qi Wang , Zhengguang Zhang , Zhengyi Li , Zhenhai Gao

分类：机器学习 | 人工智能 | 机器人

2022-06-17

轨迹预测和行为决策是自动驾驶汽车的两项重要任务，他们需要对环境环境有良好的了解；通过参考轨迹预测的输出，可以更好地做出行为决策。但是，大多数当前解决方案分别执行这两个任务。因此，提出了结合多个线索的联合神经网络，并将其命名为整体变压器，以预测轨迹并同时做出行为决策。为了更好地探索线索之间的内在关系，网络使用现有知识并采用三种注意力机制：稀疏的多头类型用于减少噪声影响，特征选择稀疏类型，可最佳地使用部分先验知识，并与Sigmoid多头激活类型，用于最佳使用后验知识。与其他轨迹预测模型相比，所提出的模型具有更好的综合性能和良好的解释性。感知噪声稳健性实验表明，所提出的模型具有良好的噪声稳健性。因此，结合多个提示的同时轨迹预测和行为决策可以降低计算成本并增强场景与代理之间的语义关系。

translated by 谷歌翻译

STJLA: A Multi-Context Aware Spatio-Temporal Joint Linear Attention Network for Traffic Forecasting

Yuchen Fang , Yanjun Qin , Haiyong Luo , Fang Zhao , Chenxing Wang

分类：机器学习

2021-12-04

由于流量大数据的增加，交通预测逐渐引起了研究人员的注意力。因此，如何在交通数据中挖掘复杂的时空相关性以预测交通状况更准确地成为难题。以前的作品组合图形卷积网络（GCNS）和具有深度序列模型的自我关注机制（例如，复发性神经网络），分别捕获时空相关性，忽略时间和空间的关系。此外，GCNS受到过平滑问题的限制，自我关注受到二次问题的限制，导致GCN缺乏全局代表能力，自我注意力效率低下捕获全球空间依赖性。在本文中，我们提出了一种新颖的交通预测深入学习模型，命名为多语境意识的时空关节线性关注（STJLA），其对时空关节图应用线性关注以捕获所有时空之间的全球依赖性节点有效。更具体地，STJLA利用静态结构上下文和动态语义上下文来提高模型性能。基于Node2VEC和单热编码的静态结构上下文丰富了时空位置信息。此外，基于多头扩散卷积网络的动态空间上下文增强了局部空间感知能力，并且基于GRU的动态时间上下文分别稳定了线性关注的序列位置信息。在两个现实世界交通数据集，英格兰和PEMSD7上的实验表明，我们的Stjla可以获得高达9.83％和3.08％，在最先进的基线上的衡量标准的准确性提高。

translated by 谷歌翻译

StarNet: Joint Action-Space Prediction with Star Graphs and Implicit Global Frame Self-Attention

Faris Janjoš , Maxim Dolgov , J. Marius Zöllner

分类：机器人

2021-11-26

在这项工作中，我们提出了一种新的多模态多代理轨迹预测架构，专注于使用图形表示的地图和交互建模。出于地图建模的目的，我们将丰富的拓扑结构捕获到基于向量的星形图中，使代理能够直接参加用于代表地图的折线上的相关区域。我们表示此架构Starnet，并将其集成在单次代理预测设置中。作为主要结果，我们将此架构扩展到联合场景级预测，同时产生多个代理的预测。联合赛斯网的关键思想在自己的参考框中将一个代理的意识与其他代理人的观点察觉到。我们通过蒙面的自我关注实现这一目标。两个提出的架构都建立在我们以前的工作中介绍的动作空间预测框架之上，这确保了运动学上可行的轨迹预测。我们评估了富含互动的IND和交互数据集的方法，其中STARNET和联合星网实现了最先进的技术。

translated by 谷歌翻译

Exploring Map-based Features for Efficient Attention-based Vehicle Motion Prediction

Carlos Gómez-Huélamo , Marcos V. Conde , Miguel Ortiz

分类：机器人 | 计算机视觉

2022-05-25

从社交机器人到自动驾驶汽车，多种代理的运动预测（MP）是任意复杂环境中的至关重要任务。当前方法使用端到端网络解决了此问题，其中输入数据通常是场景的最高视图和所有代理的过去轨迹；利用此信息是获得最佳性能的必不可少的。从这个意义上讲，可靠的自动驾驶（AD）系统必须按时产生合理的预测，但是，尽管其中许多方法使用了简单的Convnets和LSTM，但在使用两个信息源时，模型对于实时应用程序可能不够有效（地图和轨迹历史）。此外，这些模型的性能在很大程度上取决于训练数据的数量，这可能很昂贵（尤其是带注释的HD地图）。在这项工作中，我们探讨了如何使用有效的基于注意力的模型在Argoverse 1.0基准上实现竞争性能，该模型将其作为最小地图信息的过去轨迹和基于地图的功能的输入，以确保有效且可靠的MP。这些功能代表可解释的信息作为可驱动区域和合理的目标点，与基于黑框CNN的地图处理方法相反。

translated by 谷歌翻译

Wayformer: Motion Forecasting via Simple & Efficient Attention Networks

Nigamaa Nayakanti , Rami Al-Rfou , Aurick Zhou , Kratarth Goel , Khaled S. Refaat , Benjamin Sapp

分类：计算机视觉

2022-07-12

自动驾驶的运动预测是一项艰巨的任务，因为复杂的驾驶场景导致静态和动态输入的异质组合。这是一个开放的问题，如何最好地表示和融合有关道路几何，车道连接，时变的交通信号状态以及动态代理的历史及其相互作用的历史。为了模拟这一不同的输入功能集，许多提出的方法旨在设计具有多种模态模块的同样复杂系统。这导致难以按严格的方式进行扩展，扩展或调整的系统以进行质量和效率。在本文中，我们介绍了Wayformer，这是一个基于注意力的运动架构，用于运动预测，简单而均匀。 Wayformer提供了一个紧凑的模型描述，该描述由基于注意力的场景编码器和解码器组成。在场景编码器中，我们研究了输入方式的早期，晚和等级融合的选择。对于每种融合类型，我们通过分解的注意力或潜在的查询关注来探索策略来折衷效率和质量。我们表明，尽管早期融合的结构简单，但不仅是情感不可知论，而且还取得了最先进的结果。

translated by 谷歌翻译

ReCoAt: A Deep Learning-based Framework for Multi-Modal Motion Prediction in Autonomous Driving Application

Zhiyu Huang , Xiaoyu Mo , Chen Lv

分类：机器人

2022-07-02

本文提出了一个新型的深度学习框架，用于多模式运动预测。该框架由三个部分组成：经常性神经网络，以处理目标代理的运动过程，卷积神经网络处理栅格化环境表示以及一种基于距离的注意机制，以处理不同代理之间的相互作用。我们在大规模的真实驾驶数据集，Waymo Open Motion数据集上验证了所提出的框架，并将其性能与标准测试基准上的其他方法进行比较。定性结果表明，我们的模型给出的预测轨迹是准确，多样的，并且根据道路结构。标准基准测试的定量结果表明，我们的模型在预测准确性和其他评估指标方面优于其他基线方法。拟议的框架是2021 Waymo Open DataSet运动预测挑战的第二名。

translated by 谷歌翻译

SoMoFormer: Social-Aware Motion Transformer for Multi-Person Motion Prediction

Xiaogang Peng , Yaodi Shen , Haoran Wang , Binling Nie , Yigang Wang , Zizhao Wu

分类：计算机视觉

2022-08-19

多人运动预测仍然是一个具有挑战性的问题，尤其是在个人运动和社会互动的共同表示中。大多数先前的方法仅涉及学习局部姿势动态以进行单个运动（没有全球身体轨迹），并难以捕获社交互动的复杂互动依赖性。在本文中，我们提出了一种新颖的社会意识运动变压器（SOM形态），以共同的方式有效地模拟个人运动和社会互动。具体而言，Somoformer提取了位移轨迹空间中子序列的运动特征，以有效地学习每个人的局部和全局姿势动力学。此外，我们设计了一种新型的SOM机制中新型的社交运动注意机制，以通过跨时间和社会维度的运动相似性计算同时优化动态表示并捕获相互作用依赖性。在短期和长期视野上，我们在多人运动数据集上进行了经验评估我们的框架，并证明我们的方法极大地优于单人和多人运动预测的最先进方法。接受后将公开提供代码。

translated by 谷歌翻译

Towards Explainable Motion Prediction using Heterogeneous Graph Representations

Sandra Carrasco Limeros , Sylwia Majchrowska , Joakim Johnander , Christoffer Petersson , David Fernández Llorca

分类：人工智能 | 机器人

2022-12-07

Motion prediction systems aim to capture the future behavior of traffic scenarios enabling autonomous vehicles to perform safe and efficient planning. The evolution of these scenarios is highly uncertain and depends on the interactions of agents with static and dynamic objects in the scene. GNN-based approaches have recently gained attention as they are well suited to naturally model these interactions. However, one of the main challenges that remains unexplored is how to address the complexity and opacity of these models in order to deal with the transparency requirements for autonomous driving systems, which includes aspects such as interpretability and explainability. In this work, we aim to improve the explainability of motion prediction systems by using different approaches. First, we propose a new Explainable Heterogeneous Graph-based Policy (XHGP) model based on an heterograph representation of the traffic scene and lane-graph traversals, which learns interaction behaviors using object-level and type-level attention. This learned attention provides information about the most important agents and interactions in the scene. Second, we explore this same idea with the explanations provided by GNNExplainer. Third, we apply counterfactual reasoning to provide explanations of selected individual scenarios by exploring the sensitivity of the trained model to changes made to the input data, i.e., masking some elements of the scene, modifying trajectories, and adding or removing dynamic agents. The explainability analysis provided in this paper is a first step towards more transparent and reliable motion prediction systems, important from the perspective of the user, developers and regulatory agencies. The code to reproduce this work is publicly available at https://github.com/sancarlim/Explainable-MP/tree/v1.1.

translated by 谷歌翻译

Review of Pedestrian Trajectory Prediction Methods: Comparing Deep Learning and Knowledge-based Approaches

Raphael Korbmacher , Antoine Tordeux

分类：机器学习 | (统计)机器学习

2021-11-11

在人群情景中，根据许多外部因素，预测行人的轨迹是一个复杂和具有挑战性的任务。场景的拓扑和行人之间的相互作用只是其中一些。由于数据 - 科学和数据收集技术的进步，深入学习方法最近成为众多域中的研究热点。因此，越来越多的研究人员对预测行人的轨迹应用这些方法并不令人惊讶。本文将这些相对较新的深度学习算法与基于经典知识的模型进行了比较，这些算法被广泛用于模拟行人动态。它为两种方法提供了全面的文献综述，探索了技术和应用面向差异，并解决了未来的问题以及未来的发展方向。我们的调查指出，由于深度学习算法的高准确性，现在，基于知识的模型来预测局部轨迹的内容是可疑的。然而，深度学习算法用于大规模模拟的能力和集体动态的描述仍有待证明。此外，比较表明，两种方法（混合方法）的组合似乎很有希望克服像深度学习方法的缺失解释性等缺点。

translated by 谷歌翻译

Entry-Flipped Transformer for Inference and Prediction of Participant Behavior

Bo Hu , Tat-Jen Cham

分类：计算机视觉

2022-07-13

一些小组活动，例如团队运动和编排的舞蹈，涉及参与者之间的互动。在这里，我们研究了在这种情况下，根据运动路径和行动来推断和预测参与者行为的任务。我们将问题范围缩小到估计集合目标参与者对其他观察到的参与者的行为的反应。我们的关键思想是以一种在框架推断和预测期间对误差积累的稳健积累的方式建模参与者之间的时空关系。我们提出了一种新型的入门变压器（EF-Transformer），该变压器通过在空间和时间域上的注意机制来对参与者的关系进行建模。与典型的变压器不同，我们通过翻转查询，钥匙和价值条目的顺序来解决错误积累的问题，以提高当前框架中观察到的特征的重要性和保真度。比较实验表明，我们的EF转换器在新收集的网球双打数据集，一个CEILIDH舞蹈数据集和两个行人数据集上实现了最佳性能。此外，还证明我们的EF转换器更好地限制了累积错误并从错误的估计中恢复。

translated by 谷歌翻译