Deep motion forecasting models have achieved great success when trained on a massive amount of data. Yet, they often perform poorly when training data is limited. To address this challenge, we propose a transfer learning approach for efficiently adapting pre-trained forecasting models to new domains, such as unseen agent types and scene contexts. Unlike the conventional fine-tuning approach that updates the whole encoder, our main idea is to reduce the amount of tunable parameters that can precisely account for the target domain-specific motion style. To this end, we introduce two components that exploit our prior knowledge of motion style shifts: (i) a low-rank motion style adapter that projects and adjusts the style features at a low-dimensional bottleneck; and (ii) a modular adapter strategy that disentangles the features of scene context and motion history to facilitate a fine-grained choice of adaptation layers. Through extensive experimentation, we show that our proposed adapter design, coined MoSA, outperforms prior methods on several forecasting benchmarks.
translated by 谷歌翻译
学习来自观察数据的行为模式一直是运动预测的遗传方法。然而,目前的范式遭受了两种缺点:协会变化下的脆性和知识转移的低效。在这项工作中,我们建议从因果表现形式解决这些挑战。我们首先介绍了运动预测的因果形式主义,这将问题作为一种动态过程,其中三组潜在变量,即不变的机制,风格混乱和虚假功能。然后我们介绍一个学习框架,分别对待每个组:(i)与从不同地点收集的数据集的共同做法不同,我们通过不变性的损失来利用它们的微妙区分,鼓励模型抑制虚假相关; (ii)我们设计了一种模块化的架构,可以修理不变机制和风格混淆的表示,以近似因果图; (iii)我们介绍了一种风格的一致性损失,不仅强制实施了风格表示的结构,而且还用作自我监控信号,以便在飞行中进行测试时间改进。合成和实时数据集的实验结果表明,我们的三个提出的组件显着提高了学习运动表示的鲁棒性和可重用性,优于出现的先前最先进的运动预测模型,用于分发外概括和低次转移。
translated by 谷歌翻译
自我监督学习(SSL)是一种新兴技术,已成功地用于培训卷积神经网络(CNNS)和图形神经网络(GNNS),以进行更可转移,可转换,可推广和稳健的代表性学习。然而,很少探索其对自动驾驶的运动预测。在这项研究中,我们报告了将自学纳入运动预测的首次系统探索和评估。我们首先建议研究四项新型的自我监督学习任务,以通过理论原理以及对挑战性的大规模argoverse数据集进行运动预测以及定量和定性比较。其次,我们指出,基于辅助SSL的学习设置不仅胜过预测方法,这些方法在性能准确性方面使用变压器,复杂的融合机制和复杂的在线密集目标候选优化算法,而且具有较低的推理时间和建筑复杂性。最后,我们进行了几项实验,以了解为什么SSL改善运动预测。代码在\ url {https://github.com/autovision-cloud/ssl-lanes}上开源。
translated by 谷歌翻译
基于学习的行为预测方法越来越多地被部署在现实世界的自治系统中,例如,在全球主要城市的自动驾驶汽车舰队中开始商业运营。但是,尽管有进步,但绝大多数预测系统专门针对一组经过验证的地理区域或操作设计领域,使部署到其他城市,国家或大陆。为此,我们提出了一种新颖的方法,可以有效地将行为预测模型适应新环境。我们的方法利用了元学习的最新进展,特别是贝叶斯回归,以使用自适应层增强现有的行为预测模型,该模型可以通过离线微调,在线适应或两者兼而有之有效的域传输。多个现实世界数据集的实验表明,我们的方法可以有效地适应各种看不见的环境。
translated by 谷歌翻译
轨迹预测旨在预测代理商可能的未来位置,考虑到他们的观察以及视频背景。这是许多自主平台所要求的,如跟踪,检测,机器人导航,自动驾驶汽车和许多其他电脑视觉应用。无论是代理人的内部人格因素,与社区的互动行为,还是周围环境的影响,所有这些都可能代表对代理商的未来计划的影响。然而,许多以前的方法模型和预测具有相同策略或“单曲”特征分布的代理商的行为,使其具有挑战性地给出足够的风格差异的预测。该稿件提出了利用风格假设和程式化预测的两个子网的多种式网络(MSN),以共同地以新颖的分类方式提供代理多种准式预测。我们使用代理人的终点计划及其交互上下文作为行为分类的基础,以便通过网络中的一系列样式通道自适应地学习多种不同的行为样式。然后,我们假设目标代理将根据这些分类样式中的每一个规划他们未来的行为,从而利用不同的风格频道,以便并行地提供具有重要风格差异的一系列预测。实验表明,所提出的MSN在两个广泛使用的数据集上以最新的最先进的方法优于10 \%-20 \%,并且定性地提出了更好的多样式特性。
translated by 谷歌翻译
当前的深度学习模型预测与概括的斗争。它们只能在特定域中预测,并且当应用于具有不同参数,外部力或边界条件的系统时失败。我们提出了一种基于模型的元学习方法,称为dyad,可以通过将它们划分为不同的任务,从而在异质域进行概括。 Dyad有两个部分:一个编码器,可在弱监督下渗透任务的时间不变的隐藏功能,并且一个预报员可以学习整个域的共享动力学。编码器使用自适应实例归一化和自适应填充在推理过程中适应并控制预报器。从理论上讲,我们证明了此类过程的概括误差与源域中的任务相关性以及源和目标之间的域差异有关。在实验上,我们证明了我们的模型在湍流和现实海洋数据预测任务上都优于最先进的方法。
translated by 谷歌翻译
仿真是对机器人系统(例如自动驾驶汽车)进行扩展验证和验证的关键。尽管高保真物理和传感器模拟取得了进步,但在模拟道路使用者的现实行为方面仍然存在一个危险的差距。这是因为,与模拟物理和图形不同,设计人类行为的第一个原理模型通常是不可行的。在这项工作中,我们采用了一种数据驱动的方法,并提出了一种可以学会从现实世界驱动日志中产生流量行为的方法。该方法通过将交通仿真问题分解为高级意图推理和低级驾驶行为模仿,通过利用驾驶行为的双层层次结构来实现高样本效率和行为多样性。该方法还结合了一个计划模块,以获得稳定的长马行为。我们从经验上验证了我们的方法,即交通模拟(位)的双层模仿,并具有来自两个大规模驾驶数据集的场景,并表明位表明,在现实主义,多样性和长途稳定性方面可以达到平衡的交通模拟性能。我们还探索了评估行为现实主义的方法,并引入了一套评估指标以进行交通模拟。最后,作为我们的核心贡献的一部分,我们开发和开源一个软件工具,该工具将跨不同驱动数据集的数据格式统一,并将现有数据集将场景转换为交互式仿真环境。有关其他信息和视频,请参见https://sites.google.com/view/nvr-bits2022/home
translated by 谷歌翻译
Domain adaptation has been vastly investigated in computer vision but still requires access to target images at train time, which might be intractable in some conditions, especially for long-tail samples. In this paper, we propose the task of `Prompt-driven Zero-shot Domain Adaptation', where we adapt a model trained on a source domain using only a general textual description of the target domain, i.e., a prompt. First, we leverage a pretrained contrastive vision-language model (CLIP) to optimize affine transformations of source features, bringing them closer to target text embeddings, while preserving their content and semantics. Second, we show that augmented features can be used to perform zero-shot domain adaptation for semantic segmentation. Experiments demonstrate that our method significantly outperforms CLIP-based style transfer baselines on several datasets for the downstream task at hand. Our prompt-driven approach even outperforms one-shot unsupervised domain adaptation on some datasets, and gives comparable results on others. The code is available at https://github.com/astra-vision/PODA.
translated by 谷歌翻译
测试时间的域变化在实践中是不可避免的。测试时间适应性通过在部署过程中调整模型来解决此问题。从理论上讲,最近的工作表明,自我训练可能是逐渐域移动的强大方法。在这项工作中,我们显示了渐进域适应与测试时间适应之间的自然联系。我们发布了一个名为Carlatta的新合成数据集,该数据集允许在测试时间期间探索渐进的域移动,并评估无监督域适应和测试时间适应的几种方法。我们提出了一种基于自我训练和样式转移的新方法GTTA。GTTA明确利用渐进域移动并在该区域设置新标准。我们进一步证明了我们的方法对连续和逐渐的CIFAR10C,CIFAR100C和Imagenet-C基准的有效性。
translated by 谷歌翻译
Modern autonomous driving system is characterized as modular tasks in sequential order, i.e., perception, prediction and planning. As sensors and hardware get improved, there is trending popularity to devise a system that can perform a wide diversity of tasks to fulfill higher-level intelligence. Contemporary approaches resort to either deploying standalone models for individual tasks, or designing a multi-task paradigm with separate heads. These might suffer from accumulative error or negative transfer effect. Instead, we argue that a favorable algorithm framework should be devised and optimized in pursuit of the ultimate goal, i.e. planning of the self-driving-car. Oriented at this goal, we revisit the key components within perception and prediction. We analyze each module and prioritize the tasks hierarchically, such that all these tasks contribute to planning (the goal). To this end, we introduce Unified Autonomous Driving (UniAD), the first comprehensive framework up-to-date that incorporates full-stack driving tasks in one network. It is exquisitely devised to leverage advantages of each module, and provide complementary feature abstractions for agent interaction from a global perspective. Tasks are communicated with unified query design to facilitate each other toward planning. We instantiate UniAD on the challenging nuScenes benchmark. With extensive ablations, the effectiveness of using such a philosophy is proven to surpass previous state-of-the-arts by a large margin in all aspects. The full suite of codebase and models would be available to facilitate future research in the community.
translated by 谷歌翻译
准确预测交通参与者的可能行为是自治车辆的基本能力。由于自主车辆需要在动态变化的环境中导航,因此它们预计无论它们在哪里以及它们遇到的驾驶环境如何,它们都会准确。因此,当在现实世界中部署自动车辆时,对看不见域的概念能力对于预测模型至关重要。在本文中,我们旨在解决车辆意图预测任务的域泛化问题,提出了基于因果序列域泛化(CTSDG)模型。我们构建用于车辆意图预测任务的结构因果模型,以学习域泛型输入驱动数据的不变表示。我们进一步将反复潜变量模型进一步集成到我们的结构因果模型中,以更好地捕获时间序列输入数据的时间潜在依赖关系。我们的方法的有效性通过现实世界的驾驶数据进行评估。我们证明,与其他最新的域泛化和行为预测方法相比,我们所提出的方法对预测精度一致地改善。
translated by 谷歌翻译
人群中的人类轨迹预测提出了建模社交相互作用和输出无碰撞多模式分布的挑战。在社会生成对抗网络(SGAN)成功之后,最近的作品提出了各种基于GAN的设计,以更好地模拟人群中的人类运动。尽管在降低基于距离的指标方面的性能卓越,但当前网络仍无法输出社会可接受的轨迹,这是模型预测中的高碰撞所证明的。为此,我们介绍了SGANV2:改进的符合安全性的SGAN架构,配备了时空交互模型和基于变压器的鉴别器。时空建模能力有助于更好地学习人类的社交互动,而基于变压器的歧视器设计改善了时间序列建模。此外,SGANV2即使在测试时间也通过协作抽样策略来利用学到的歧视者,该策略不仅完善了碰撞轨迹,而且还可以防止模式崩溃,这是GAN训练中的常见现象。通过对多个现实世界和合成数据集进行广泛的实验,我们证明了SGANV2提供社会兼容的多模式轨迹的功效。
translated by 谷歌翻译
以前通过一个位置的历史轨迹可能有助于推断该位置当前代理的未来轨迹。尽管在高清图的指导下进行了轨迹预测的大大改善,但只有少数作品探讨了这种当地历史信息。在这项工作中,我们将这些信息重新引入了轨迹预测系统的新类型的输入数据:本地行为数据,我们将其概念化为特定于位置的历史轨迹的集合。局部行为数据有助于系统强调预测区域,并更好地了解静态地图对象对移动代理的影响。我们提出了一个新型的本地行为感知(LBA)预测框架,该框架通过从观察到的轨迹,高清图和局部行为数据中融合信息来提高预测准确性。同样,如果这种历史数据不足或不可用,我们采用了本地行为(LBF)预测框架,该框架采用了基于知识依据的架构来推断缺失数据的影响。广泛的实验表明,通过这两个框架升级现有方法可显着提高其性能。特别是,LBA框架将SOTA方法在Nuscenes数据集上的性能提高了至少14%的K = 1度量。
translated by 谷歌翻译
Reasoning about human motion is an important prerequisite to safe and socially-aware robotic navigation. As a result, multi-agent behavior prediction has become a core component of modern human-robot interactive systems, such as self-driving cars. While there exist many methods for trajectory forecasting, most do not enforce dynamic constraints and do not account for environmental information (e.g., maps). Towards this end, we present Trajectron++, a modular, graph-structured recurrent model that forecasts the trajectories of a general number of diverse agents while incorporating agent dynamics and heterogeneous data (e.g., semantic maps). Trajectron++ is designed to be tightly integrated with robotic planning and control frameworks; for example, it can produce predictions that are optionally conditioned on ego-agent motion plans. We demonstrate its performance on several challenging real-world trajectory forecasting datasets, outperforming a wide array of state-ofthe-art deterministic and generative methods.
translated by 谷歌翻译
自治车辆的评估和改善规划需要可扩展的长尾交通方案。有用的是,这些情景必须是现实的和挑战性的,但不能安全地开车。在这项工作中,我们介绍努力,一种自动生成具有挑战性的场景的方法,导致给定的计划者产生不良行为,如冲突。为了维护情景合理性,关键的想法是利用基于图形的条件VAE的形式利用学习的交通运动模型。方案生成在该流量模型的潜在空间中制定了优化,通过扰乱初始的真实世界的场景来产生与给定计划者碰撞的轨迹。随后的优化用于找到“解决方案”的场景,确保改进给定的计划者是有用的。进一步的分析基于碰撞类型的群集生成的场景。我们攻击两名策划者并展示争取在这两种情况下成功地产生了现实,具有挑战性的情景。我们另外“关闭循环”并使用这些方案优化基于规则的策划器的超参数。
translated by 谷歌翻译
We introduce a Deep Stochastic IOC 1 RNN Encoderdecoder framework, DESIRE, for the task of future predictions of multiple interacting agents in dynamic scenes. DESIRE effectively predicts future locations of objects in multiple scenes by 1) accounting for the multi-modal nature of the future prediction (i.e., given the same context, future may vary), 2) foreseeing the potential future outcomes and make a strategic prediction based on that, and 3) reasoning not only from the past motion history, but also from the scene context as well as the interactions among the agents. DESIRE achieves these in a single end-to-end trainable neural network model, while being computationally efficient. The model first obtains a diverse set of hypothetical future prediction samples employing a conditional variational autoencoder, which are ranked and refined by the following RNN scoring-regression module. Samples are scored by accounting for accumulated future rewards, which enables better long-term strategic decisions similar to IOC frameworks. An RNN scene context fusion module jointly captures past motion histories, the semantic scene context and interactions among multiple agents. A feedback mechanism iterates over the ranking and refinement to further boost the prediction accuracy. We evaluate our model on two publicly available datasets: KITTI and Stanford Drone Dataset. Our experiments show that the proposed model significantly improves the prediction accuracy compared to other baseline methods.
translated by 谷歌翻译
这项工作提出了一种新的方法,可以使用有效的鸟类视图表示和卷积神经网络在高速公路场景中预测车辆轨迹。使用基本的视觉表示,很容易将车辆位置,运动历史,道路配置和车辆相互作用轻松包含在预测模型中。 U-NET模型已被选为预测内核,以使用图像到图像回归方法生成场景的未来视觉表示。已经实施了一种方法来从生成的图形表示中提取车辆位置以实现子像素分辨率。该方法已通过预防数据集(一个板载传感器数据集)进行了培训和评估。已经评估了不同的网络配置和场景表示。这项研究发现,使用线性终端层和车辆的高斯表示,具有6个深度水平的U-NET是最佳性能配置。发现使用车道标记不会改善预测性能。平均预测误差为0.47和0.38米,对于纵向和横向坐标的最终预测误差分别为0.76和0.53米,预测轨迹长度为2.0秒。与基线方法相比,预测误差低至50%。
translated by 谷歌翻译
轨迹预测已在许多领域广泛追求,并且已经探索了许多基于模型和模型的方法。前者包括基于规则的,几何或基于优化的模型,后者主要由深度学习方法组成。在本文中,我们提出了一种基于新的神经微分方程模型的新方法,结合了两种方法。我们的新模型(神经社会物理或NSP)是一个深层神经网络,我们在其中使用具有可学习参数的显式物理模型。显式物理模型在建模行人行为时是强大的感应偏见,而网络的其余部分就系统参数估计和动力学随机性建模提供了强大的数据拟合能力。我们将NSP与6个数据集上的15种深度学习方法进行了比较,并将最新性能提高了5.56%-70%。此外,我们表明NSP在预测截然不同的情况下的合理轨迹方面具有更好的概括性,其中密度的密度是测试数据的2-5倍。最后,我们表明NSP中的物理模型可以为行人行为提供合理的解释,而不是黑盒深度学习。可用代码:https://github.com/realcrane/human-trajectory-prediction-via-noral-social-physics。
translated by 谷歌翻译
自动驾驶依赖于大量的现实数据被标记为高精度。替代解决方案寻求利用驾驶模拟器,该模拟器可以使用多种内容变体产生大量标记数据。但是,合成和实际数据之间的域间隙仍然存在,提高以下重要问题:利用自动驾驶模拟器进行感知任务的最佳方法是什么?在这项工作中,我们建立了域 - 适应理论的最近进步之上,从这个角度来看,提出了最小化现实差距的方法。我们主要专注于单独使用合成域中的标签。我们的方法介绍了学习神经不变的表示的原则方法以及关于如何从模拟器对数据进行采样的理论上灵感的视图。我们的方法在实践中易于实施,因为它是网络架构的不可知论由和模拟器的选择。我们在使用开源模拟器(Carla)的多传感器数据(摄像机,LIDAR)上展示了我们的方法,使用开源模拟器(Carla),并在真实世界数据集(NUSCENES)上评估整个框架。最后但并非最不重要的是,在用驾驶模拟器训练时,我们展示了在感知网络中对感知网络的任何类型的变化(例如天气状况,资产,地图设计和色彩分集),并且可以使用我们的域适配技术来补偿这些类型。
translated by 谷歌翻译
自动驾驶的运动预测是一项艰巨的任务,因为复杂的驾驶场景导致静态和动态输入的异质组合。这是一个开放的问题,如何最好地表示和融合有关道路几何,车道连接,时变的交通信号状态以及动态代理的历史及其相互作用的历史。为了模拟这一不同的输入功能集,许多提出的方法旨在设计具有多种模态模块的同样复杂系统。这导致难以按严格的方式进行扩展,扩展或调整的系统以进行质量和效率。在本文中,我们介绍了Wayformer,这是一个基于注意力的运动架构,用于运动预测,简单而均匀。 Wayformer提供了一个紧凑的模型描述,该描述由基于注意力的场景编码器和解码器组成。在场景编码器中,我们研究了输入方式的早期,晚和等级融合的选择。对于每种融合类型,我们通过分解的注意力或潜在的查询关注来探索策略来折衷效率和质量。我们表明,尽管早期融合的结构简单,但不仅是情感不可知论,而且还取得了最先进的结果。
translated by 谷歌翻译