近年来,人类运动轨迹预测是许多领域自治系统的重要任务。通过不同社区提出的多种新方法,缺乏标准化的基准和客观比较越来越成为评估进度并指导进一步研究的主要局限性。现有基准的范围和灵活性有限,无法进行相关实验,并说明了代理和环境的上下文提示。在本文中,我们提出了地图集,这是一个系统地评估人类运动轨迹预测算法的基准。 Atlas提供数据预处理功能,超参数优化,具有流行的数据集,并具有灵活性,可以进行设置和进行不充分的相关实验,以分析方法的准确性和鲁棒性。在ATLAS的示例应用中,我们比较了五个流行的模型和基于学习的预测指标,并发现,如果适当应用,基于物理的早期方法仍然具有竞争力。这样的结果证实了像Atlas这样的基准的必要性。
translated by 谷歌翻译
多年来,运动规划,映射和人类轨迹预测的单独领域显着提出。然而,在提供能够使移动操纵器能够执行全身运动并考虑移动障碍物的预测运动时,文献在提供实际框架方面仍然稀疏。基于以前的优化的运动计划方法,使用距离字段遭受更新环境表示所需的高计算成本。我们证明,与从头划痕计算距离场相比,GPU加速预测的复合距离场显着降低计算时间。我们将该技术与完整的运动规划和感知框架集成,其占据动态环境中的人类的预测运动,从而实现了包含预测动作的反应性和先发制人的运动规划。为实现这一目标,我们提出并实施了一种新颖的人类轨迹预测方法,该方法结合了基于轨迹优化的运动规划的意图识别。我们在现实世界丰田人类支持机器人(HSR)上验证了我们的由Onboard Camera的现场RGB-D传感器数据验证了我们的结果框架。除了在公开的数据集提供分析外,我们还释放了牛津室内人类运动(牛津-IHM)数据集,并在人类轨迹预测中展示了最先进的性能。牛津-IHM数据集是一个人类轨迹预测数据集,人们在室内环境中的兴趣区域之间行走。静态和机器人安装的RGB-D相机都观察了用运动捕获系统跟踪的人员。
translated by 谷歌翻译
在人群情景中,根据许多外部因素,预测行人的轨迹是一个复杂和具有挑战性的任务。场景的拓扑和行人之间的相互作用只是其中一些。由于数据 - 科学和数据收集技术的进步,深入学习方法最近成为众多域中的研究热点。因此,越来越多的研究人员对预测行人的轨迹应用这些方法并不令人惊讶。本文将这些相对较新的深度学习算法与基于经典知识的模型进行了比较,这些算法被广泛用于模拟行人动态。它为两种方法提供了全面的文献综述,探索了技术和应用面向差异,并解决了未来的问题以及未来的发展方向。我们的调查指出,由于深度学习算法的高准确性,现在,基于知识的模型来预测局部轨迹的内容是可疑的。然而,深度学习算法用于大规模模拟的能力和集体动态的描述仍有待证明。此外,比较表明,两种方法(混合方法)的组合似乎很有希望克服像深度学习方法的缺失解释性等缺点。
translated by 谷歌翻译
Reasoning about human motion is an important prerequisite to safe and socially-aware robotic navigation. As a result, multi-agent behavior prediction has become a core component of modern human-robot interactive systems, such as self-driving cars. While there exist many methods for trajectory forecasting, most do not enforce dynamic constraints and do not account for environmental information (e.g., maps). Towards this end, we present Trajectron++, a modular, graph-structured recurrent model that forecasts the trajectories of a general number of diverse agents while incorporating agent dynamics and heterogeneous data (e.g., semantic maps). Trajectron++ is designed to be tightly integrated with robotic planning and control frameworks; for example, it can produce predictions that are optionally conditioned on ego-agent motion plans. We demonstrate its performance on several challenging real-world trajectory forecasting datasets, outperforming a wide array of state-ofthe-art deterministic and generative methods.
translated by 谷歌翻译
轨迹预测已在许多领域广泛追求,并且已经探索了许多基于模型和模型的方法。前者包括基于规则的,几何或基于优化的模型,后者主要由深度学习方法组成。在本文中,我们提出了一种基于新的神经微分方程模型的新方法,结合了两种方法。我们的新模型(神经社会物理或NSP)是一个深层神经网络,我们在其中使用具有可学习参数的显式物理模型。显式物理模型在建模行人行为时是强大的感应偏见,而网络的其余部分就系统参数估计和动力学随机性建模提供了强大的数据拟合能力。我们将NSP与6个数据集上的15种深度学习方法进行了比较,并将最新性能提高了5.56%-70%。此外,我们表明NSP在预测截然不同的情况下的合理轨迹方面具有更好的概括性,其中密度的密度是测试数据的2-5倍。最后,我们表明NSP中的物理模型可以为行人行为提供合理的解释,而不是黑盒深度学习。可用代码:https://github.com/realcrane/human-trajectory-prediction-via-noral-social-physics。
translated by 谷歌翻译
当代机器人主义者的主要目标之一是使智能移动机器人能够在共享的人类机器人环境中平稳运行。为此目标服务的最基本必要的功能之一是在这种“社会”背景下有效的导航。结果,最近的一般社会导航的研究激增,尤其是如何处理社会导航代理之间的冲突。这些贡献介绍了各种模型,算法和评估指标,但是由于该研究领域本质上是跨学科的,因此许多相关论文是不可比较的,并且没有共同的标准词汇。这项调查的主要目标是通过引入这种通用语言,使用它来调查现有工作并突出开放问题来弥合这一差距。它首先定义社会导航的冲突,并提供其组成部分的详细分类学。然后,这项调查将现有工作映射到了本分类法中,同时使用其框架讨论论文。最后,本文提出了一些未来的研究方向和开放问题,这些方向目前正在社会导航的边界,以帮助集中于正在进行的和未来的研究。
translated by 谷歌翻译
自主驾驶包括多个交互模块,其中每个模块必须与其他模块相反。通常,运动预测模块取决于稳健的跟踪系统以捕获每个代理的过去的移动。在这项工作中,我们系统地探讨了运动预测任务的跟踪模块的重要性,并且最终得出结论,整体运动预测性能对跟踪模块的缺陷非常敏感。我们明确比较了使用跟踪信息的模型,该模型不会跨越多种方案和条件。我们发现跟踪信息发挥着重要作用,并在无噪声条件下提高运动预测性能。然而,在跟踪噪声的情况下,如果没有彻底研究,它可能会影响整体性能。因此,我们应该在开发和测试运动/跟踪模块时注意到噪音,或者他们应该考虑跟踪自由替代品。
translated by 谷歌翻译
预测行人运动对于开发在拥挤的环境中相互作用的社会意识的机器人至关重要。虽然社交互动环境的自然视觉观点是一种自然的观点,但轨迹预测中的大多数现有作品纯粹是在自上而下的轨迹空间中进行的。为了支持第一人称视图轨迹预测研究,我们提出了T2FPV,这是一种构建高保真的第一人称视图数据集的方法,给定真实的,自上而下的轨迹数据集;我们在ETH/UCY行人数据集上展示了我们的方法,以生成所有互动行人的以自我为中心的视觉数据。我们报告说,原始的ETH/UCY数据集中使用的鸟眼视图假设,即代理可以用完美的信息观察场景中的每个人,而不会在第一人称视图中保持;在现有作品中通常使用的每个20个磁场场景中,只有一小部分的代理都可以完全看到。我们评估现有的轨迹预测方法在不同的现实感知水平下 - 与自上而下的完美信息设置相比,位移错误增加了356%。为了促进第一人称视图轨迹预测的研究,我们发布了T2FPV-ETH数据集和软件工具。
translated by 谷歌翻译
我们提出了一种生成,预测和使用时空占用网格图(SOGM)的方法,该方法嵌入了真实动态场景的未来语义信息。我们提出了一个自动标记的过程,该过程从嘈杂的真实导航数据中创建SOGM。我们使用3D-2D馈电体系结构,经过训练,可以预测SOGM的未来时间步骤,并给定3D激光镜框架作为输入。我们的管道完全是自我监督的,从而为真正的机器人提供了终身学习。该网络由一个3D后端组成,该后端提取丰富的特征并实现了激光镜框架的语义分割,以及一个2D前端,可预测SOGM表示中嵌入的未来信息,从而有可能捕获房地产的复杂性和不确定性世界多代理,多未来的互动。我们还设计了一个导航系统,该导航系统在计划中使用这些预测的SOGM在计划中,之后它们已转变为时空风险图(SRMS)。我们验证导航系统在模拟中的能力,在真实的机器人上对其进行验证,在各种情况下对真实数据进行研究SOGM预测,并提供一种新型的室内3D LIDAR数据集,该数据集在我们的实验中收集,其中包括我们的自动注释。
translated by 谷歌翻译
安全可靠的自主驾驶堆栈(AD)的设计是我们时代最具挑战性的任务之一。预计这些广告将在具有完全自主权的高度动态环境中驱动,并且比人类更大的可靠性。从这个意义上讲,要高效,安全地浏览任意复杂的流量情景,广告必须具有预测周围参与者的未来轨迹的能力。当前的最新模型通常基于复发,图形和卷积网络,在车辆预测的背景下取得了明显的结果。在本文中,我们探讨了在生成模型进行运动预测中注意力的影响,考虑到物理和社会环境以计算最合理的轨迹。我们首先使用LSTM网络对过去的轨迹进行编码,该网络是计算社会背景的多头自我发言模块的输入。另一方面,我们制定了一个加权插值来计算最后一个观测框中的速度和方向,以便计算可接受的目标点,从HDMAP信息的可驱动的HDMAP信息中提取,这代表了我们的物理环境。最后,我们的发电机的输入是从多元正态分布采样的白噪声矢量,而社会和物理环境则是其条件,以预测可行的轨迹。我们使用Argoverse运动预测基准1.1验证我们的方法,从而实现竞争性的单峰结果。
translated by 谷歌翻译
预测行人运动对于人类行为分析以及安全有效的人类代理相互作用至关重要。但是,尽管取得了重大进展,但对于捕捉人类导航决策的不确定性和多模式的现有方法仍然具有挑战性。在本文中,我们提出了SocialVae,这是一种新颖的人类轨迹预测方法。社会节的核心是一种时间上的变性自动编码器体系结构,它利用随机反复的神经网络进行预测,结合社会注意力机制和向后的后近似值,以更好地提取行人导航策略。我们表明,社交活动改善了几个步行轨迹预测基准的最新性能,包括ETH/UCY基准,Stanford Drone DataSet和Sportvu NBA运动数据集。代码可在以下网址获得:https://github.com/xupei0610/socialvae。
translated by 谷歌翻译
不确定性遍及现代机器人自主堆栈,几乎每个组件(例如传感器,检测,分类,跟踪,行为预测)产生连续或离散的概率分布。尤其是,轨迹预测被不确定性所包围,因为其输入是由(嘈杂)上游感知产生的,并且其输出是通常用于下游计划中的概率的预测。但是,大多数轨迹预测方法并不能说明上游的不确定性,而仅考虑最明显的值。结果,感知不确定性不会通过预测传播,并且预测通常过于自信。为了解决这个问题,我们提出了一种在轨迹预测中纳入感知状态不确定性的新方法,其关键组成部分是一种新的基于统计距离的损失函数,它鼓励预测不确定性,以更好地匹配上游感知。我们在说明性模拟和大规模的现实世界数据中评估了我们的方法,证明了它在通过预测和产生更校准的预测来传播感知状态不确定性方面的功效。
translated by 谷歌翻译
Sociability is essential for modern robots to increase their acceptability in human environments. Traditional techniques use manually engineered utility functions inspired by observing pedestrian behaviors to achieve social navigation. However, social aspects of navigation are diverse, changing across different types of environments, societies, and population densities, making it unrealistic to use hand-crafted techniques in each domain. This paper presents a data-driven navigation architecture that uses state-of-the-art neural architectures, namely Conditional Neural Processes, to learn global and local controllers of the mobile robot from observations. Additionally, we leverage a state-of-the-art, deep prediction mechanism to detect situations not similar to the trained ones, where reactive controllers step in to ensure safe navigation. Our results demonstrate that the proposed framework can successfully carry out navigation tasks regarding social norms in the data. Further, we showed that our system produces fewer personal-zone violations, causing less discomfort.
translated by 谷歌翻译
仿真是对机器人系统(例如自动驾驶汽车)进行扩展验证和验证的关键。尽管高保真物理和传感器模拟取得了进步,但在模拟道路使用者的现实行为方面仍然存在一个危险的差距。这是因为,与模拟物理和图形不同,设计人类行为的第一个原理模型通常是不可行的。在这项工作中,我们采用了一种数据驱动的方法,并提出了一种可以学会从现实世界驱动日志中产生流量行为的方法。该方法通过将交通仿真问题分解为高级意图推理和低级驾驶行为模仿,通过利用驾驶行为的双层层次结构来实现高样本效率和行为多样性。该方法还结合了一个计划模块,以获得稳定的长马行为。我们从经验上验证了我们的方法,即交通模拟(位)的双层模仿,并具有来自两个大规模驾驶数据集的场景,并表明位表明,在现实主义,多样性和长途稳定性方面可以达到平衡的交通模拟性能。我们还探索了评估行为现实主义的方法,并引入了一套评估指标以进行交通模拟。最后,作为我们的核心贡献的一部分,我们开发和开源一个软件工具,该工具将跨不同驱动数据集的数据格式统一,并将现有数据集将场景转换为交互式仿真环境。有关其他信息和视频,请参见https://sites.google.com/view/nvr-bits2022/home
translated by 谷歌翻译
可靠地预测围绕自动赛车的参赛者车辆的动议对于有效和表现计划至关重要。尽管高度表现力,但深度神经网络是黑盒模型,使其在安全至关重要的应用(例如自动驾驶)中具有挑战性。在本文中,我们介绍了一种结构化的方式,以预测具有深神网络的对立赛车的运动。最终可能的输出轨迹集受到限制。因此,可以给出有关预测的质量保证。我们通过将模型与基于LSTM的编码器架构一起评估模型来报告该模型的性能,这些架构是从高保真硬件中获取的数据中获得的。拟议的方法的表现优于预测准确性的基线,但仍能履行质量保证。因此,该模型的强大现实应用已被证明。介绍的模型被部署在慕尼黑技术大学的Indy Automous Challenge 2021中。本研究中使用的代码可作为开放源软件提供,网址为www.github.com/tumftm/mixnet。
translated by 谷歌翻译
在动态人类环境中,机器人安全,以社会符合社会的方式移动是长期机器人自主权的必要基准。但是,完全在现实世界中学习和基准基准社会导航行为是不可行的,因为学习是数据密集型的,并且在培训期间提供安全保证是一项挑战。因此,需要基于仿真的基准测试,这些基准需要为社会导航提供抽象。这些基准测试的框架将需要支持各种各样的学习方法,对广泛的社会导航情景可扩展,并抽象出感知问题,以明确关注社会导航。尽管有许多提出的解决方案,包括高保真3D模拟器和网格世界近似,但现有的解决方案尚未满足上述所有用于学习和评估社会导航行为的属性。在这项工作中,我们提出了SocialGym,这是一个轻巧的2D模拟环境,用于机器人社交导航,并考虑到可扩展性,以及基于SocialGym的基准场景。此外,我们提出了基准结果,将人类工程和基于模型的学习方法比较和对比,以从演示(LFD)(LFD)和增强学习(RL)方法(RL)方法(适用于社交机器人导航)进行了构想。这些结果证明了评估的每项政策的数据效率,任务绩效,社会合规性和环境转移能力,以为未来的社会导航研究提供扎实的基础。
translated by 谷歌翻译
本文提出了一个新型的深度学习框架,用于多模式运动预测。该框架由三个部分组成:经常性神经网络,以处理目标代理的运动过程,卷积神经网络处理栅格化环境表示以及一种基于距离的注意机制,以处理不同代理之间的相互作用。我们在大规模的真实驾驶数据集,Waymo Open Motion数据集上验证了所提出的框架,并将其性能与标准测试基准上的其他方法进行比较。定性结果表明,我们的模型给出的预测轨迹是准确,多样的,并且根据道路结构。标准基准测试的定量结果表明,我们的模型在预测准确性和其他评估指标方面优于其他基线方法。拟议的框架是2021 Waymo Open DataSet运动预测挑战的第二名。
translated by 谷歌翻译
行人轨迹预测是自动驾驶的重要技术,近年来已成为研究热点。以前的方法主要依靠行人的位置关系来模型社交互动,这显然不足以代表实际情况中的复杂病例。此外,大多数现有工作通常通常将场景交互模块作为独立分支介绍,并在轨迹生成过程中嵌入社交交互功能,而不是同时执行社交交互和场景交互,这可能破坏轨迹预测的合理性。在本文中,我们提出了一个名为社会软关注图卷积网络(SSAGCN)的一个新的预测模型,旨在同时处理行人和环境之间的行人和场景相互作用之间的社交互动。详细说明,在建模社交互动时,我们提出了一种新的\ EMPH {社会软关注功能},其充分考虑了行人之间的各种交互因素。并且它可以基于各种情况下的不同因素来区分行人周围的人行力的影响。对于物理互动,我们提出了一个新的\ emph {顺序场景共享机制}。每个时刻在每个时刻对一个代理的影响可以通过社会柔和关注与其他邻居共享,因此场景的影响在空间和时间尺寸中都是扩展。在这些改进的帮助下,我们成功地获得了社会和身体上可接受的预测轨迹。公共可用数据集的实验证明了SSAGCN的有效性,并取得了最先进的结果。
translated by 谷歌翻译
尽管当前的视觉算法在许多具有挑战性的任务上都表现出色,但尚不清楚他们如何理解现实世界环境的物理动态。在这里,我们介绍了Physion,一种数据集和基准,用于严格评估预测物理场景如何随着时间而发展的能力。我们的数据集具有对各种物理现象的现实模拟,包括刚性和软体体碰撞,稳定的多对象配置,滚动,滑动和弹丸运动,因此比以前的基准提供了更全面的挑战。我们使用Physion来基准一套模型,其体系结构,学习目标,投入输出结构和培训数据各不相同。同时,我们在同一场景上获得了人类预测行为的精确测量,从而使我们能够直接评估任何模型能够近似人类行为的效果。我们发现,学习以对象为中心的表示的视觉算法通常优于那些没有人的表现,但仍未达到人类绩效。另一方面,绘制具有直接访问物理状态信息的神经网络的表现效果更好,并且做出与人类制作的预测更相似。这些结果表明,提取场景的物理表征是在视力算法中实现人类水平和类似人类的物理理解的主要瓶颈。我们已公开发布了所有数据和代码,以促进使用物理以完全可重现的方式对其他模型进行基准测试,从而使对视觉算法的进度进行系统的评估,这些算法像人们一样坚固地了解物理环境。
translated by 谷歌翻译
Pedestrians follow different trajectories to avoid obstacles and accommodate fellow pedestrians. Any autonomous vehicle navigating such a scene should be able to foresee the future positions of pedestrians and accordingly adjust its path to avoid collisions. This problem of trajectory prediction can be viewed as a sequence generation task, where we are interested in predicting the future trajectory of people based on their past positions. Following the recent success of Recurrent Neural Network (RNN) models for sequence prediction tasks, we propose an LSTM model which can learn general human movement and predict their future trajectories. This is in contrast to traditional approaches which use hand-crafted functions such as Social forces. We demonstrate the performance of our method on several public datasets. Our model outperforms state-of-the-art methods on some of these datasets . We also analyze the trajectories predicted by our model to demonstrate the motion behaviour learned by our model.
translated by 谷歌翻译