智能论文笔记

View Vertically: A Hierarchical Network for Trajectory Prediction via Fourier Spectrums

Conghao Wong , Beihao Xia , Ziming Hong , Qinmu Peng , Wei Yuan , Qiong Cao , Yibo Yang , Xinge You

分类：计算机视觉

2021-10-14

理解和预测代理的未来轨迹对于行为分析，机器人导航，自动驾驶汽车和其他相关应用至关重要。先前的方法主要将轨迹预测视为时间序列的产生。与它们不同的是，这项工作在“垂直”视图中研究了代理的轨迹，即来自光谱域的建模和预测轨迹。轨迹光谱中的不同频带可以分层反映不同尺度上的代理运动偏好。低频和高频部分可以分别代表其粗糙运动趋势和细胞运动变化。因此，我们提出了一个层次网络v $^2 $ -NET，其中包含两个子网络，以层次模型并预测具有轨迹谱的代理的轨迹。粗级关键点估计子网络首先预测了代理轨迹在几个“密钥”频率部分上的“最小”频谱。然后，高级频谱插值子网络插值将这些光谱重建最终预测。实验结果表明，在ETH-COY基准和Stanford Drone DataSet上，V $^2 $ -NET的竞争力和优势。

translated by 谷歌翻译

MSN: Multi-Style Network for Trajectory Prediction

Conghao Wong , Beihao Xia , Qinmu Peng , Wei Yuan , Xinge You

分类：计算机视觉

2021-07-02

轨迹预测旨在预测代理商可能的未来位置，考虑到他们的观察以及视频背景。这是许多自主平台所要求的，如跟踪，检测，机器人导航，自动驾驶汽车和许多其他电脑视觉应用。无论是代理人的内部人格因素，与社区的互动行为，还是周围环境的影响，所有这些都可能代表对代理商的未来计划的影响。然而，许多以前的方法模型和预测具有相同策略或“单曲”特征分布的代理商的行为，使其具有挑战性地给出足够的风格差异的预测。该稿件提出了利用风格假设和程式化预测的两个子网的多种式网络（MSN），以共同地以新颖的分类方式提供代理多种准式预测。我们使用代理人的终点计划及其交互上下文作为行为分类的基础，以便通过网络中的一系列样式通道自适应地学习多种不同的行为样式。然后，我们假设目标代理将根据这些分类样式中的每一个规划他们未来的行为，从而利用不同的风格频道，以便并行地提供具有重要风格差异的一系列预测。实验表明，所提出的MSN在两个广泛使用的数据集上以最新的最先进的方法优于10 \％-20 \％，并且定性地提出了更好的多样式特性。

translated by 谷歌翻译

S2TNet: Spatio-Temporal Transformer Networks for Trajectory Prediction in Autonomous Driving

Weihuang Chen , Fangfang Wang , Hongbin Sun

分类：计算机视觉 | 机器学习 | 机器人

2022-06-22

为了安全和合理地参与密集和异质的交通，自动驾驶汽车需要充分分析周围交通代理的运动模式，并准确预测其未来的轨迹。这是具有挑战性的，因为交通代理的轨迹不仅受交通代理本身的影响，而且还受到彼此的空间互动的影响。以前的方法通常依赖于长期短期存储网络（LSTMS）的顺序逐步处理，并仅提取单型交通代理之间的空间邻居之间的相互作用。我们提出了时空变压器网络（S2TNET），该网络通过时空变压器对时空相互作用进行建模，并通过时间变压器处理颞序序列。我们将其他类别，形状和标题信息输入到我们的网络中，以处理交通代理的异质性。在Apolloscape轨迹数据集上，所提出的方法在平均值和最终位移误差的加权总和上优于Apolloscape轨迹数据集的最先进方法。我们的代码可在https://github.com/chenghuang66/s2tnet上找到。

translated by 谷歌翻译

Multi-Person 3D Motion Prediction with Multi-Range Transformers

Jiashun Wang , Huazhe Xu , Medhini Narasimhan , Xiaolong Wang

分类：计算机视觉

2021-11-23

我们向多人3D运动轨迹预测提出了一种新颖的框架。我们的主要观察是，人类的行动和行为可能高度依赖于其他人。因此，不是以隔离预测每个人类姿势轨迹，我们引入了一种多范围变压器模型，该模型包含用于各个运动的局部运动和用于社交交互的全局范围编码器。然后，通过将相应的姿势作为查询来参加本地和全球范围编码器特征，对变压器解码器对每个人进行预测。我们的模型不仅优于长期3D运动预测的最先进的方法，而且还产生了不同的社交互动。更有趣的是，我们的模型甚至可以通过自动将人分为不同的交互组来同时预测15人运动。具有代码的项目页面可在https://jiahunwang.github.io/mrt/处获得。

translated by 谷歌翻译

SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian Trajectory Prediction

Pei Lv , Wentong Wang , Yunxin Wang , Yuzhen Zhang , Mingliang Xu , Changsheng Xu

分类：计算机视觉

2021-12-05

行人轨迹预测是自动驾驶的重要技术，近年来已成为研究热点。以前的方法主要依靠行人的位置关系来模型社交互动，这显然不足以代表实际情况中的复杂病例。此外，大多数现有工作通常通常将场景交互模块作为独立分支介绍，并在轨迹生成过程中嵌入社交交互功能，而不是同时执行社交交互和场景交互，这可能破坏轨迹预测的合理性。在本文中，我们提出了一个名为社会软关注图卷积网络（SSAGCN）的一个新的预测模型，旨在同时处理行人和环境之间的行人和场景相互作用之间的社交互动。详细说明，在建模社交互动时，我们提出了一种新的\ EMPH {社会软关注功能}，其充分考虑了行人之间的各种交互因素。并且它可以基于各种情况下的不同因素来区分行人周围的人行力的影响。对于物理互动，我们提出了一个新的\ emph {顺序场景共享机制}。每个时刻在每个时刻对一个代理的影响可以通过社会柔和关注与其他邻居共享，因此场景的影响在空间和时间尺寸中都是扩展。在这些改进的帮助下，我们成功地获得了社会和身体上可接受的预测轨迹。公共可用数据集的实验证明了SSAGCN的有效性，并取得了最先进的结果。

translated by 谷歌翻译

Pedestrian Trajectory Prediction via Spatial Interaction Transformer Network

Tong Su , Yu Meng , Yan Xu

分类：计算机视觉 | 机器学习

2021-12-13

作为自主驱动系统的核心技术，行人轨迹预测可以显着提高主动车辆安全性的功能，减少道路交通损伤。在交通场景中，当遇到迎面而来的人时，行人可能会立即转动或停止，这通常会导致复杂的轨迹。为了预测这种不可预测的轨迹，我们可以深入了解行人之间的互动。在本文中，我们提出了一种名为Spatial Interaction Transformer（SIT）的新型生成方法，其通过注意机制学习行人轨迹的时空相关性。此外，我们介绍了条件变形Autiachoder（CVAE）框架来模拟未来行人的潜在行动状态。特别是，基于大规模的TRAFC数据集NUSCENES [2]的实验显示，坐下的性能优于最先进的（SOTA）方法。对挑战性的Eth和UCY数据集的实验评估概述了我们提出的模型的稳健性

translated by 谷歌翻译

SoMoFormer: Social-Aware Motion Transformer for Multi-Person Motion Prediction

Xiaogang Peng , Yaodi Shen , Haoran Wang , Binling Nie , Yigang Wang , Zizhao Wu

分类：计算机视觉

2022-08-19

多人运动预测仍然是一个具有挑战性的问题，尤其是在个人运动和社会互动的共同表示中。大多数先前的方法仅涉及学习局部姿势动态以进行单个运动（没有全球身体轨迹），并难以捕获社交互动的复杂互动依赖性。在本文中，我们提出了一种新颖的社会意识运动变压器（SOM形态），以共同的方式有效地模拟个人运动和社会互动。具体而言，Somoformer提取了位移轨迹空间中子序列的运动特征，以有效地学习每个人的局部和全局姿势动力学。此外，我们设计了一种新型的SOM机制中新型的社交运动注意机制，以通过跨时间和社会维度的运动相似性计算同时优化动态表示并捕获相互作用依赖性。在短期和长期视野上，我们在多人运动数据集上进行了经验评估我们的框架，并证明我们的方法极大地优于单人和多人运动预测的最先进方法。接受后将公开提供代码。

translated by 谷歌翻译

TPPO: A Novel Trajectory Predictor with Pseudo Oracle

Biao Yang , Caizhen He , Pin Wang , Ching-yao Chan , Xiaofeng Liu , Yang Chen

分类：计算机视觉

2020-02-04

预测动态场景中的行人轨迹仍然是各种应用中的关键问题，例如自主驾驶和社会意识的机器人。由于人类和人类对象的相互作用和人类随机性引起的未来不确定性，这种预测是挑战。基于生成式模型的方法通过采样潜在变量来处理未来的不确定性。然而，很少有研究探索了潜在变量的产生。在这项工作中，我们提出了具有伪Oracle（TPPO）的轨迹预测器，这是一种基于模型的基于模型的轨迹预测因子。第一个伪甲骨文是行人的移动方向，第二个是从地面真理轨迹估计的潜在变量。社会注意力模块用于基于行人移动方向与未来轨迹之间的相关性聚集邻居的交互。这种相关性受到行人的未来轨迹往往受到前方行人的影响。提出了一种潜在的变量预测器来估计观察和地面轨迹的潜在可变分布。此外，在训练期间，这两个分布之间的间隙最小化。因此，潜在的变量预测器可以估计观察到的轨迹的潜变量，以近似从地面真理轨迹估计。我们将TPPO与在几个公共数据集上的相关方法进行比较。结果表明，TPPO优于最先进的方法，具有低平均和最终位移误差。作为测试期间的采样时间下降，消融研究表明预测性能不会显着降低。

translated by 谷歌翻译

Safety-compliant Generative Adversarial Networks for Human Trajectory Forecasting

Parth Kothari , Alexandre Alahi

分类：计算机视觉

2022-09-25

人群中的人类轨迹预测提出了建模社交相互作用和输出无碰撞多模式分布的挑战。在社会生成对抗网络（SGAN）成功之后，最近的作品提出了各种基于GAN的设计，以更好地模拟人群中的人类运动。尽管在降低基于距离的指标方面的性能卓越，但当前网络仍无法输出社会可接受的轨迹，这是模型预测中的高碰撞所证明的。为此，我们介绍了SGANV2：改进的符合安全性的SGAN架构，配备了时空交互模型和基于变压器的鉴别器。时空建模能力有助于更好地学习人类的社交互动，而基于变压器的歧视器设计改善了时间序列建模。此外，SGANV2即使在测试时间也通过协作抽样策略来利用学到的歧视者，该策略不仅完善了碰撞轨迹，而且还可以防止模式崩溃，这是GAN训练中的常见现象。通过对多个现实世界和合成数据集进行广泛的实验，我们证明了SGANV2提供社会兼容的多模式轨迹的功效。

translated by 谷歌翻译

Exploring Attention GAN for Vehicle Motion Prediction

Carlos Gómez-Huélamo , Marcos V. Conde , Miguel Ortiz , Santiago Montiel , Rafael Barea , Luis M. Bergasa

分类：计算机视觉 | 人工智能 | 机器人

2022-09-26

安全可靠的自主驾驶堆栈（AD）的设计是我们时代最具挑战性的任务之一。预计这些广告将在具有完全自主权的高度动态环境中驱动，并且比人类更大的可靠性。从这个意义上讲，要高效，安全地浏览任意复杂的流量情景，广告必须具有预测周围参与者的未来轨迹的能力。当前的最新模型通常基于复发，图形和卷积网络，在车辆预测的背景下取得了明显的结果。在本文中，我们探讨了在生成模型进行运动预测中注意力的影响，考虑到物理和社会环境以计算最合理的轨迹。我们首先使用LSTM网络对过去的轨迹进行编码，该网络是计算社会背景的多头自我发言模块的输入。另一方面，我们制定了一个加权插值来计算最后一个观测框中的速度和方向，以便计算可接受的目标点，从HDMAP信息的可驱动的HDMAP信息中提取，这代表了我们的物理环境。最后，我们的发电机的输入是从多元正态分布采样的白噪声矢量，而社会和物理环境则是其条件，以预测可行的轨迹。我们使用Argoverse运动预测基准1.1验证我们的方法，从而实现竞争性的单峰结果。

translated by 谷歌翻译

Graph-based Spatial Transformer with Memory Replay for Multi-future Pedestrian Trajectory Prediction

Lihuan Li , Maurice Pagnucco , Yang Song

分类：计算机视觉

2022-06-12

对于各种现实生活中的应用，例如自动驾驶和机器人运动计划，行人轨迹预测是一项重要且具有挑战性的任务。除了生成一条未来的路径外，预测多个合理的未来路径在最近的一些轨迹预测方面变得流行。但是，现有方法通常强调行人与周边地区之间的空间相互作用，但忽略了预测的平稳性和时间一致性。我们的模型旨在通过建模基于历史轨迹的多路径来预测多个基于图形的空间变压器与使用内存图的轨迹平滑算法相结合的轨迹平滑算法。我们的方法可以全面利用空间信息，并纠正时间上不一致的轨迹（例如，尖锐的转弯）。我们还提出了一个名为“轨迹使用百分比”的新评估度量，以评估各种多未实现预测的全面性。我们的广泛实验表明，所提出的模型在多未来的预测和单一预测的竞争结果上实现了最先进的表现。在https://github.com/jacobieee/st-mr上发布的代码。

translated by 谷歌翻译

Trajectory Prediction with Graph-based Dual-scale Context Fusion

Lu Zhang , Peiliang Li , Jing Chen , Shaojie Shen

分类：机器人 | 计算机视觉

2021-11-02

交通参与者的运动预测对于安全和强大的自动化驾驶系统至关重要，特别是在杂乱的城市环境中。然而，由于复杂的道路拓扑以及其他代理的不确定意图，这是强大的挑战。在本文中，我们介绍了一种基于图形的轨迹预测网络，其命名为双级预测器（DSP），其以分层方式编码静态和动态驾驶环境。与基于光栅状地图或稀疏车道图的方法不同，我们将驾驶环境视为具有两层的图形，专注于几何和拓扑功能。图形神经网络（GNNS）应用于提取具有不同粒度级别的特征，随后通过基于关注的层间网络聚合，实现更好的本地全局特征融合。在最近的目标驱动的轨迹预测管道之后，提取了目标代理的高可能性的目标候选者，并在这些目标上产生预测的轨迹。由于提出的双尺度上下文融合网络，我们的DSP能够产生准确和人类的多模态轨迹。我们评估了大规模协会运动预测基准测试的提出方法，实现了有希望的结果，优于最近的最先进的方法。

translated by 谷歌翻译

Hierarchical Motion Encoder-Decoder Network for Trajectory Forecasting

Qifan Xue , Shengyi Li , Xuanpeng Li , Jingwen Zhao , Weigong Zhang

分类：计算机视觉

2021-11-26

轨迹预测在智能车辆或社会机器人领域发挥着关键作用。最近的作品侧重于建模空间社会影响或时间运动注意，但忽视了运动的固有特征，即移动趋势和驾驶意图。本文提出了一种用于车辆轨迹预测的无背景的分层运动编码器 - 解码器网络（HMNET）。 HMNET首先揭示了运动的分层差异，以编码具有高富有动态趋势和驾驶意图的高效力的物理兼容模式。然后，根据位置 - 速度 - 加速相关模式分层地分层地构建多模式预测的目标（端点）。此外，我们介绍了一个修改的社交池模块，它考虑了某些运动属性来代表社交交互。 HMNET可以实现准确，单峰/多模式和物理上兼容的预测。三个公共轨迹预测数据集的实验，即NGSIM，高达和交互表明，我们的模型定量和定性地实现了最先进的性能。我们将在此处发布我们的代码：https：//github.com/xuedashuai/hmnet。

translated by 谷歌翻译

Exploring Map-based Features for Efficient Attention-based Vehicle Motion Prediction

Carlos Gómez-Huélamo , Marcos V. Conde , Miguel Ortiz

分类：机器人 | 计算机视觉

2022-05-25

从社交机器人到自动驾驶汽车，多种代理的运动预测（MP）是任意复杂环境中的至关重要任务。当前方法使用端到端网络解决了此问题，其中输入数据通常是场景的最高视图和所有代理的过去轨迹；利用此信息是获得最佳性能的必不可少的。从这个意义上讲，可靠的自动驾驶（AD）系统必须按时产生合理的预测，但是，尽管其中许多方法使用了简单的Convnets和LSTM，但在使用两个信息源时，模型对于实时应用程序可能不够有效（地图和轨迹历史）。此外，这些模型的性能在很大程度上取决于训练数据的数量，这可能很昂贵（尤其是带注释的HD地图）。在这项工作中，我们探讨了如何使用有效的基于注意力的模型在Argoverse 1.0基准上实现竞争性能，该模型将其作为最小地图信息的过去轨迹和基于地图的功能的输入，以确保有效且可靠的MP。这些功能代表可解释的信息作为可驱动区域和合理的目标点，与基于黑框CNN的地图处理方法相反。

translated by 谷歌翻译

ReCoAt: A Deep Learning-based Framework for Multi-Modal Motion Prediction in Autonomous Driving Application

Zhiyu Huang , Xiaoyu Mo , Chen Lv

分类：机器人

2022-07-02

本文提出了一个新型的深度学习框架，用于多模式运动预测。该框架由三个部分组成：经常性神经网络，以处理目标代理的运动过程，卷积神经网络处理栅格化环境表示以及一种基于距离的注意机制，以处理不同代理之间的相互作用。我们在大规模的真实驾驶数据集，Waymo Open Motion数据集上验证了所提出的框架，并将其性能与标准测试基准上的其他方法进行比较。定性结果表明，我们的模型给出的预测轨迹是准确，多样的，并且根据道路结构。标准基准测试的定量结果表明，我们的模型在预测准确性和其他评估指标方面优于其他基线方法。拟议的框架是2021 Waymo Open DataSet运动预测挑战的第二名。

translated by 谷歌翻译

Unlimited Neighborhood Interaction for Heterogeneous Trajectory Prediction

Fang Zheng , Le Wang , Sanping Zhou , Wei Tang , Zhenxing Niu , Nanning Zheng , Gang Hua

分类：人工智能 | 计算机视觉

2021-07-31

了解代理之间的复杂社交互动是轨迹预测的关键挑战。大多数现有方法考虑成对交通代理或在局域之间的相互作用，而相互作用的性质是无限的，涉及同时不确定的代理和非局部区域。此外，它们对不同类别的代理商来说，它们同样对待异质的交通代理，同时忽视人们在IFFerent类别的交通代理中的多种反应模式。为了解决这些问题，我们提出了一个简单但有效的无限邻域交互网络（UNIN），其预测多个类别中异构代理的轨迹。具体地，所提出的无限邻域交互模块同时产生相互作用涉及的所有代理的融合特征，其适用于任何数量的代理和任何范围的交互区域。同时，提出了一个分层图注意模块，以获取类别到类别的交互和代理到代理交互。最后，估计高斯混合模型的参数用于产生未来轨迹。基准数据集的广泛实验结果表明，通过最先进的方法对我们的方法进行了显着改进。

translated by 谷歌翻译

SoMoFormer: Multi-Person Pose Forecasting with Transformers

Edward Vendrow , Satyajit Kumar , Ehsan Adeli , Hamid Rezatofighi

分类：计算机视觉

2022-08-30

人类姿势预测是一个充满挑战的问题，涉及复杂的人体运动和姿势动态。在环境中有多个人的情况下，一个人的运动也可能受到他人的运动和动态运动的影响。尽管以前有一些针对多人动态姿势预测问题的作品，但它们通常将整个姿势序列作为时间序列（忽略关节之间的基本关系）建模，或者仅一次输出一个人的未来姿势序列。在本文中，我们提出了一种新方法，称为社会运动变压器（SOM形态），用于多人3D姿势预测。我们的变压器架构独特地将人类运动输入作为关节序列而不是时间序列建模，从而使我们能够对关节进行注意，同时预测并联每个关节的整个未来运动序列。我们表明，通过这种问题重新进行，Somoformer自然会通过使用场景中所有人的关节作为输入查询来扩展到多人场景。我们的模型使用学识渊博的嵌入来表示关节，人身份和全球地位的类型，了解关节之间和人之间的关系，更强烈地参加了来自同一或附近的人的关节。 Somoformer的表现优于SOMOF基准以及CMU-MOCAP和MUPOTS-3D数据集的长期运动预测的最先进方法。出版后将提供代码。

translated by 谷歌翻译

Motion Transformer with Global Intention Localization and Local Movement Refinement

Shaoshuai Shi , Li Jiang , Dengxin Dai , Bernt Schiele

分类：计算机视觉

2022-09-27

预测交通参与者的多模式未来行为对于机器人车辆做出安全决策至关重要。现有作品探索以直接根据潜在特征预测未来的轨迹，或利用密集的目标候选者来识别代理商的目的地，在这种情况下，由于所有运动模式均来自相同的功能，而后者的策略具有效率问题，因此前者策略的收敛缓慢，因为其性能高度依赖关于候选目标的密度。在本文中，我们提出了运动变压器（MTR）框架，该框架将运动预测模拟为全球意图定位和局部运动改进的联合优化。 MTR不使用目标候选者，而是通过采用一系列可学习的运动查询对来结合空间意图。每个运动查询对负责特定运动模式的轨迹预测和完善，这可以稳定训练过程并促进更好的多模式预测。实验表明，MTR在边际和联合运动预测挑战上都达到了最新的性能，在Waymo Open Motion DataSet排行榜上排名第一。代码将在https://github.com/sshaoshuai/mtr上找到。

translated by 谷歌翻译

SocialVAE: Human Trajectory Prediction using Timewise Latents

Pei Xu , Jean-Bernard Hayet , Ioannis Karamouzas

分类：计算机视觉 | 机器学习

2022-03-15

预测行人运动对于人类行为分析以及安全有效的人类代理相互作用至关重要。但是，尽管取得了重大进展，但对于捕捉人类导航决策的不确定性和多模式的现有方法仍然具有挑战性。在本文中，我们提出了SocialVae，这是一种新颖的人类轨迹预测方法。社会节的核心是一种时间上的变性自动编码器体系结构，它利用随机反复的神经网络进行预测，结合社会注意力机制和向后的后近似值，以更好地提取行人导航策略。我们表明，社交活动改善了几个步行轨迹预测基准的最新性能，包括ETH/UCY基准，Stanford Drone DataSet和Sportvu NBA运动数据集。代码可在以下网址获得：https：//github.com/xupei0610/socialvae。

translated by 谷歌翻译

GANet: Goal Area Network for Motion Forecasting

Mingkun Wang , Xinge Zhu , Changqian Yu , Wei Li , Yuexin Ma , Ruochun Jin , Xiaoguang Ren , Dongchun Ren , Mingxu Wang , Wenjing Yang

分类：计算机视觉

2022-09-20

预测公路参与者的未来运动对于自动驾驶至关重要，但由于令人震惊的运动不确定性，因此极具挑战性。最近，大多数运动预测方法求助于基于目标的策略，即预测运动轨迹的终点，作为回归整个轨迹的条件，以便可以减少解决方案的搜索空间。但是，准确的目标坐标很难预测和评估。此外，目的地的点表示限制了丰富的道路环境的利用，从而导致预测不准确。目标区域，即可能的目的地区域，而不是目标坐标，可以通过涉及更多的容忍度和指导来提供更软的限制，以搜索潜在的轨迹。考虑到这一点，我们提出了一个新的基于目标区域的框架，名为“目标区域网络”（GANET）进行运动预测，该框架对目标区域进行了建模，而不是确切的目标坐标作为轨迹预测的先决条件，更加可靠，更准确地执行。具体而言，我们建议一个goicrop（目标的目标区域）操作员有效地提取目标区域中的语义巷特征，并在目标区域和模型演员的未来互动中提取语义巷，这对未来的轨迹估计很大。 Ganet在所有公共文献（直到论文提交）中排名第一个，将其源代码排在第一位。

translated by 谷歌翻译