在本文中,我们解决了预测拥挤空间中的Egentric相机佩戴者(自我)的轨迹的问题。从现实世界中走向周围的不同相机佩戴者数据的数据学到的轨迹预测能力可以转移,以协助导航中的人们在导航中的人们障碍,并在移动机器人中灌输人类导航行为,从而实现更好的人机互动。为此,构建了一个新的Egocentric人类轨迹预测数据集,其中包含在佩戴相机的拥挤空间中导航的人们的真实轨迹,以及提取丰富的上下文数据。我们提取并利用三种不同的方式来预测摄像机佩戴者的轨迹,即他/她过去的轨迹,附近人的过去的轨迹以及场景语义或场景的深度等环境。基于变压器的编码器解码器神经网络模型,与熔化多种方式的新型级联跨关注机构集成,已经设计成预测相机佩戴者的未来轨迹。已经进行了广泛的实验,结果表明,我们的模型在Emocentric人类轨迹预测中优于最先进的方法。
translated by 谷歌翻译
Accurate prediction of future person location and movement trajectory from an egocentric wearable camera can benefit a wide range of applications, such as assisting visually impaired people in navigation, and the development of mobility assistance for people with disability. In this work, a new egocentric dataset was constructed using a wearable camera, with 8,250 short clips of a targeted person either walking 1) toward, 2) away, or 3) across the camera wearer in indoor environments, or 4) staying still in the scene, and 13,817 person bounding boxes were manually labelled. Apart from the bounding boxes, the dataset also contains the estimated pose of the targeted person as well as the IMU signal of the wearable camera at each time point. An LSTM-based encoder-decoder framework was designed to predict the future location and movement trajectory of the targeted person in this egocentric setting. Extensive experiments have been conducted on the new dataset, and have shown that the proposed method is able to reliably and better predict future person location and trajectory in egocentric videos captured by the wearable camera compared to three baselines.
translated by 谷歌翻译
速度控制预测是驾驶员行为分析中一个具有挑战性的问题,旨在预测驾驶员在控制车速(例如制动或加速度)中的未来行动。在本文中,我们尝试仅使用以自我为中心的视频数据来应对这一挑战,与使用第三人称视图数据或额外的车辆传感器数据(例如GPS或两者)的文献中的大多数作品相比。为此,我们提出了一个基于新型的图形卷积网络(GCN)网络,即Egospeed-net。我们的动机是,随着时间的推移,对象的位置变化可以为我们提供非常有用的线索,以预测未来的速度变化。我们首先使用完全连接的图形图将每个类的对象之间的空间关系建模,并在其上应用GCN进行特征提取。然后,我们利用一个长期的短期内存网络将每个类别的此类特征随着时间的流逝融合到矢量中,加入此类矢量并使用多层perceptron分类器预测速度控制动作。我们在本田研究所驾驶数据集上进行了广泛的实验,并证明了Egospeed-NET的出色性能。
translated by 谷歌翻译
预测人类运动对于辅助机器人和AR/VR应用至关重要,在这种机器人和AR/VR应用中,与人类的互动需要安全舒适。同时,准确的预测取决于理解场景上下文和人类意图。尽管许多作品研究场景 - 意识到人类的运动预测,但由于缺乏以自我为中心的观点,这些观点揭示了人类意图以及运动和场景的多样性有限,因此后者在很大程度上并没有得到充实的影响。为了减少差距,我们提出了一个大规模的人类运动数据集,该数据集可提供高质量的身体姿势序列,场景扫描以及以自我为中心的视图,目光注视,这是推断人类意图的代孕。通过使用惯性传感器进行运动捕获,我们的数据收集与特定场景无关,这进一步增强了从主题中观察到的运动动力学。我们对利用眼睛目光进行以自我为中心的人类运动预测的优势进行了广泛的研究,并进行了各种最新的架构。此外,为了实现目光的全部潜力,我们提出了一种新型的网络体系结构,该架构可以在目光和运动分支之间进行双向交流。我们的网络在拟议的数据集上实现了人类运动预测的最高性能,这要归功于眼睛凝视的意图信息以及动作调制的DeNocied Ceaze特征。代码和数据可以在https://github.com/y-zheng18/gimo上找到。
translated by 谷歌翻译
预测行人运动对于开发在拥挤的环境中相互作用的社会意识的机器人至关重要。虽然社交互动环境的自然视觉观点是一种自然的观点,但轨迹预测中的大多数现有作品纯粹是在自上而下的轨迹空间中进行的。为了支持第一人称视图轨迹预测研究,我们提出了T2FPV,这是一种构建高保真的第一人称视图数据集的方法,给定真实的,自上而下的轨迹数据集;我们在ETH/UCY行人数据集上展示了我们的方法,以生成所有互动行人的以自我为中心的视觉数据。我们报告说,原始的ETH/UCY数据集中使用的鸟眼视图假设,即代理可以用完美的信息观察场景中的每个人,而不会在第一人称视图中保持;在现有作品中通常使用的每个20个磁场场景中,只有一小部分的代理都可以完全看到。我们评估现有的轨迹预测方法在不同的现实感知水平下 - 与自上而下的完美信息设置相比,位移错误增加了356%。为了促进第一人称视图轨迹预测的研究,我们发布了T2FPV-ETH数据集和软件工具。
translated by 谷歌翻译
行人意图预测问题是估计目标行人是否会过马路。最先进的方法在很大程度上依赖于使用自我车辆的前置摄像头收集的视觉信息来预测行人的意图。因此,当视觉信息不准确时,例如,当行人和自我车辆之间的距离远处或照明条件不够好时,现有方法的性能会显着降低。在本文中,我们根据与行人的智能手表(或智能手机)收集的运动传感器数据的集成,设计,实施和评估第一个行人意图预测模型。提出了一种新型的机器学习体系结构,以有效地合并运动传感器数据,以加强视觉信息,以显着改善视觉信息可能不可靠的不利情况的性能。我们还进行了大规模的数据收集,并介绍了与时间同步运动传感器数据集成的第一个行人意图预测数据集。该数据集由总共128个视频剪辑组成,这些视频片段具有不同的距离和不同级别的照明条件。我们使用广泛使用的JAAD和我们自己的数据集训练了模型,并将性能与最先进的模型进行了比较。结果表明,我们的模型优于最新方法,特别是当行人的距离远(超过70m)并且照明条件不足时。
translated by 谷歌翻译
神经辐射场(NERF)已成功用于场景表示。最近的工作还使用基于NERF的环境表示形式开发了机器人导航和操纵系统。由于对象定位是许多机器人应用的基础,因此进一步释放了机器人系统中NERF的潜力,我们研究了NERF场景中的对象定位。我们提出了一个基于变压器的框架NERF-LOC,以在NERF场景中提取3D边界对象框。 Nerf-Loc将预先训练的NERF模型和相机视图作为输入,并产生标记为3D边界对象的框作为输出。具体来说,我们设计了一对平行的变压器编码器分支,即粗流和细流,以编码目标对象的上下文和详细信息。然后将编码的功能与注意层融合在一起,以减轻准确对象定位的歧义。我们已经将我们的方法与基于传统变压器的方法进行了比较,我们的方法可以实现更好的性能。此外,我们还提出了第一个基于NERF样品的对象定位基准Nerflocbench。
translated by 谷歌翻译
在本文中,我们开发了一个神经网络模型,以从观察到的人类运动历史中预测未来的人类运动。我们提出了一种非自动回归的变压器体系结构,以利用其平行性质,以便在测试时更容易训练和快速,准确的预测。所提出的结构将人类运动预测分为两个部分:1)人类轨迹,即随着时间的推移,髋关节3D位置和2)人类姿势,这是所有其他关节3D位置,相对于固定的髋关节。我们建议同时做出两个预测,因为共享表示可以改善模型性能。因此,该模型由两组编码器和解码器组成。首先,应用于编码器输出的多头注意模块改善了人类轨迹。其次,应用于与解码器输出相连的编码器输出的另一个多头自发项模块有助于学习时间依赖性。我们的模型非常适合于测试准确性和速度方面的机器人应用,并且相对于最新方法比较。我们通过机器人跟踪任务证明了我们作品的现实适用性,这是我们提议的模型充满挑战而实用的案例研究。
translated by 谷歌翻译
安全仍然是自动驾驶的主要问题,为了在全球部署,他们需要提前充分预测行人的动作。尽管对粗粒(人体中心预测)和细粒度预测(人体关键点的预测)进行了大量研究,但我们专注于3D边界框,这是对人类的合理估计,而无需对自动驾驶汽车进行复杂的运动细节进行建模。这具有灵活性,可以在现实世界中更长的视野中进行预测。我们建议这个新问题,并为行人的3D边界框预测提供了一个简单而有效的模型。该方法遵循基于复发性神经网络的编码器编码器体系结构,我们的实验在合成(JTA)和现实世界(Nuscenes)数据集中显示出其有效性。博学的表示形式具有有用的信息来增强其他任务的绩效,例如行动预期。我们的代码可在线提供:https://github.com/vita-epfl/bounding-box-prediction
translated by 谷歌翻译
我们介绍了观看鸟类,从观察者(例如一个人或车辆)捕获的自我为中心的视频中恢复人群地面运动的问题也在人群中移动。恢复的地面运动将为情境理解提供合理的基础,并在计算机视觉和机器人中使用下游应用。在本文中,我们制定了视图鸟化作为几何轨迹重建问题,并从贝叶斯视角推导出级联优化方法。该方法首先估计观察者的运动,然后为每个帧定位周围的行人,同时考虑到它们之间的本地相互作用。我们通过利用人群中的人们的综合和实际轨迹来介绍三个数据集,并评估我们方法的有效性。结果表明了我们方法的准确性,并设定了地面,以进一步研究认为鸟化是一个重要但具有挑战性的视觉理解问题。
translated by 谷歌翻译
第一人称视频在其持续环境的背景下突出了摄影师的活动。但是,当前的视频理解方法是从短视频剪辑中的视觉特征的原因,这些视频片段与基础物理空间分离,只捕获直接看到的东西。我们提出了一种方法,该方法通过学习摄影师(潜在看不见的)本地环境来促进以人为中心的环境的了解来链接以自我为中心的视频和摄像机随着时间的推移而张开。我们使用来自模拟的3D环境中的代理商的视频进行训练,在该环境中,环境完全可以观察到,并在看不见的环境的房屋旅行的真实视频中对其进行测试。我们表明,通过将视频接地在其物理环境中,我们的模型超过了传统的场景分类模型,可以预测摄影师所处的哪个房间(其中帧级信息不足),并且可以利用这种基础来定位与环境相对应的视频瞬间 - 中心查询,优于先验方法。项目页面:http://vision.cs.utexas.edu/projects/ego-scene-context/
translated by 谷歌翻译
以视觉为中心的BEV感知由于其固有的优点,最近受到行业和学术界的关注,包括展示世界自然代表和融合友好。随着深度学习的快速发展,已经提出了许多方法来解决以视觉为中心的BEV感知。但是,最近没有针对这个小说和不断发展的研究领域的调查。为了刺激其未来的研究,本文对以视觉为中心的BEV感知及其扩展进行了全面调查。它收集并组织了最近的知识,并对常用算法进行了系统的综述和摘要。它还为几项BEV感知任务提供了深入的分析和比较结果,从而促进了未来作品的比较并激发了未来的研究方向。此外,还讨论了经验实现细节并证明有利于相关算法的开发。
translated by 谷歌翻译
对行人行为的预测对于完全自主车辆安全有效地在繁忙的城市街道上驾驶至关重要。未来的自治车需要适应混合条件,不仅具有技术还是社会能力。随着更多算法和数据集已经开发出预测行人行为,这些努力缺乏基准标签和估计行人的时间动态意图变化的能力,提供了对交互场景的解释,以及具有社会智能的支持算法。本文提出并分享另一个代表数据集,称为Iupui-CSRC行人位于意图(PSI)数据,除了综合计算机视觉标签之外,具有两种创新标签。第一部小说标签是在自助式车辆前面交叉的行人的动态意图变化,从24个司机中实现了不同的背景。第二个是在估计行人意图并在交互期间预测其行为时对驾驶员推理过程的基于文本的解释。这些创新标签可以启用几个计算机视觉任务,包括行人意图/行为预测,车辆行人互动分割和用于可解释算法的视频到语言映射。发布的数据集可以从根本上从根本上改善行人行为预测模型的发展,并开发社会智能自治车,以有效地与行人进行互动。 DataSet已被不同的任务进行评估,并已释放到公众访问。
translated by 谷歌翻译
多年来,运动规划,映射和人类轨迹预测的单独领域显着提出。然而,在提供能够使移动操纵器能够执行全身运动并考虑移动障碍物的预测运动时,文献在提供实际框架方面仍然稀疏。基于以前的优化的运动计划方法,使用距离字段遭受更新环境表示所需的高计算成本。我们证明,与从头划痕计算距离场相比,GPU加速预测的复合距离场显着降低计算时间。我们将该技术与完整的运动规划和感知框架集成,其占据动态环境中的人类的预测运动,从而实现了包含预测动作的反应性和先发制人的运动规划。为实现这一目标,我们提出并实施了一种新颖的人类轨迹预测方法,该方法结合了基于轨迹优化的运动规划的意图识别。我们在现实世界丰田人类支持机器人(HSR)上验证了我们的由Onboard Camera的现场RGB-D传感器数据验证了我们的结果框架。除了在公开的数据集提供分析外,我们还释放了牛津室内人类运动(牛津-IHM)数据集,并在人类轨迹预测中展示了最先进的性能。牛津-IHM数据集是一个人类轨迹预测数据集,人们在室内环境中的兴趣区域之间行走。静态和机器人安装的RGB-D相机都观察了用运动捕获系统跟踪的人员。
translated by 谷歌翻译
Figure 1: We introduce datasets for 3D tracking and motion forecasting with rich maps for autonomous driving. Our 3D tracking dataset contains sequences of LiDAR measurements, 360 • RGB video, front-facing stereo (middle-right), and 6-dof localization. All sequences are aligned with maps containing lane center lines (magenta), driveable region (orange), and ground height. Sequences are annotated with 3D cuboid tracks (green). A wider map view is shown in the bottom-right.
translated by 谷歌翻译
Pedestrians follow different trajectories to avoid obstacles and accommodate fellow pedestrians. Any autonomous vehicle navigating such a scene should be able to foresee the future positions of pedestrians and accordingly adjust its path to avoid collisions. This problem of trajectory prediction can be viewed as a sequence generation task, where we are interested in predicting the future trajectory of people based on their past positions. Following the recent success of Recurrent Neural Network (RNN) models for sequence prediction tasks, we propose an LSTM model which can learn general human movement and predict their future trajectories. This is in contrast to traditional approaches which use hand-crafted functions such as Social forces. We demonstrate the performance of our method on several public datasets. Our model outperforms state-of-the-art methods on some of these datasets . We also analyze the trajectories predicted by our model to demonstrate the motion behaviour learned by our model.
translated by 谷歌翻译
社会导航是自治人(例如机器人)在其他智能代理(如人类)的面前以“社会符合社会规定”方式导航的能力。随着在人口稠密环境中自动浏览移动机器人的出现(例如,家庭和餐馆中的家庭服务机器人以及公共人行道上的食品送货机器人),在这些机器人上纳入社会符合社会符合社会符合社会的导航行为对于确保安全和舒适的人类机器人的同存至关重要。为了应对这一挑战,模仿学习是一个有前途的框架,因为人类更容易演示社会导航的任务,而不是制定奖励功能,以准确捕获社会导航的复杂多目标设置。然而,当前缺乏大规模数据集以捕获野外捕获社会符合社会符合社会的机器人导航示范的大规模数据集,目前阻碍了模仿学习和逆强化学习到移动机器人的社会导航。为了填补这一空白,我们向社会兼容的导航数据集(Scand)引入了一个大规模的,第一人称视图数据集的社会兼容导航演示数据集。我们的数据集包含8.7个小时,138个轨迹,25英里的社会符合人类的远程手工驾驶演示,包括多态数据流,包括3D激光雷达,操纵杆命令,探测仪,视觉和惯性信息,在两个形态上不同的移动机器人上收集了波士顿动力学的两种形态上的移动机器人以及在室内和室外环境中的四个不同人类示威者的清晰jack狼。我们还通过现实世界机器人实验进行初步分析和验证,并表明通过模仿学习扫描的导航政策会产生社会符合社会的行为
translated by 谷歌翻译
Accurate localization ability is fundamental in autonomous driving. Traditional visual localization frameworks approach the semantic map-matching problem with geometric models, which rely on complex parameter tuning and thus hinder large-scale deployment. In this paper, we propose BEV-Locator: an end-to-end visual semantic localization neural network using multi-view camera images. Specifically, a visual BEV (Birds-Eye-View) encoder extracts and flattens the multi-view images into BEV space. While the semantic map features are structurally embedded as map queries sequence. Then a cross-model transformer associates the BEV features and semantic map queries. The localization information of ego-car is recursively queried out by cross-attention modules. Finally, the ego pose can be inferred by decoding the transformer outputs. We evaluate the proposed method in large-scale nuScenes and Qcraft datasets. The experimental results show that the BEV-locator is capable to estimate the vehicle poses under versatile scenarios, which effectively associates the cross-model information from multi-view images and global semantic maps. The experiments report satisfactory accuracy with mean absolute errors of 0.052m, 0.135m and 0.251$^\circ$ in lateral, longitudinal translation and heading angle degree.
translated by 谷歌翻译
在本文中,我们介绍了一种新的端到端学习的LIDAR重新定位框架,被称为Pointloc,其仅使用单点云直接姿势作为输入,不需要预先构建的地图。与RGB基于图像的重建化相比,LIDAR帧可以提供有关场景的丰富和强大的几何信息。然而,LIDAR点云是无序的并且非结构化,使得难以为此任务应用传统的深度学习回归模型。我们通过提出一种具有自我关注的小说点风格架构来解决这个问题,从而有效地估计660 {\ DEG} LIDAR输入框架的6-DOF姿势。关于最近发布的巨大恐怖雷达机器人数据集和现实世界机器人实验的扩展实验表明ProposedMethod可以实现准确的重定位化性能。
translated by 谷歌翻译
行人轨迹预测是自动驾驶的重要技术,近年来已成为研究热点。以前的方法主要依靠行人的位置关系来模型社交互动,这显然不足以代表实际情况中的复杂病例。此外,大多数现有工作通常通常将场景交互模块作为独立分支介绍,并在轨迹生成过程中嵌入社交交互功能,而不是同时执行社交交互和场景交互,这可能破坏轨迹预测的合理性。在本文中,我们提出了一个名为社会软关注图卷积网络(SSAGCN)的一个新的预测模型,旨在同时处理行人和环境之间的行人和场景相互作用之间的社交互动。详细说明,在建模社交互动时,我们提出了一种新的\ EMPH {社会软关注功能},其充分考虑了行人之间的各种交互因素。并且它可以基于各种情况下的不同因素来区分行人周围的人行力的影响。对于物理互动,我们提出了一个新的\ emph {顺序场景共享机制}。每个时刻在每个时刻对一个代理的影响可以通过社会柔和关注与其他邻居共享,因此场景的影响在空间和时间尺寸中都是扩展。在这些改进的帮助下,我们成功地获得了社会和身体上可接受的预测轨迹。公共可用数据集的实验证明了SSAGCN的有效性,并取得了最先进的结果。
translated by 谷歌翻译