以下论文是“社会NCE:对社会意识的运动表示的对比度学习”的可重复性报告。\ footNote {\ href {https://github.com/vita-epfl/social-nce} {https://github.com/vita-epfl/social-nce}}}。我们试图验证作者声称的结果,并在Pytorch Lightning中重新成熟。
translated by 谷歌翻译
如何在人群环境中有效导航,具有社会可接受的标准仍然是移动机器人发展的关键问题。最近的工作表明了深度加强学习在寻址人群导航方面的有效性,但随着行人的速度增加,学习变得逐渐减少。为了提高深度加强学习的有效性,我们通过在奖励函数中引入相对速度的惩罚项重新设计奖励功能。新设计的奖励功能在三个主流深度加强学习算法上进行了测试:深度加强学习碰撞避免(CADRL),基于深度学习的长期记忆(LSTM RL),以及基于社会主义立阵(SARL)的加固学习。实验结果表明,我们的模型以更安全的方式导航,优先于诸如成功率,碰撞率和危险频率的关键指标中的当前模型。
translated by 谷歌翻译
建模多代理系统需要了解代理的相互作用。这样的系统通常很难建模,因为它们可以涉及各种类型的相互作用,以促进丰富的社会行为动态。在这里,我们介绍了一种用于准确建模多代理系统的方法。我们介绍了使用多重注意(IMMA)的相互作用建模,这是一种前向预测模型,该模型使用多重潜在图代表多种独立类型的相互作用,并注意对不同优势的关系。我们还介绍了渐进层培训,这是该体系结构的培训策略。我们表明,我们的方法在轨迹预测和关系推理中的最先进模型优于最先进的模型,涵盖了三个多代理方案:社交导航,合作任务成就和团队运动。我们进一步证明,我们的方法可以改善零拍的概括,并使我们能够探究不同的相互作用如何影响代理行为。
translated by 谷歌翻译
Learning how to navigate among humans in an occluded and spatially constrained indoor environment, is a key ability required to embodied agent to be integrated into our society. In this paper, we propose an end-to-end architecture that exploits Socially-Aware Tasks (referred as to Risk and Social Compass) to inject into a reinforcement learning navigation policy the ability to infer common-sense social behaviors. To this end, our tasks exploit the notion of immediate and future dangers of collision. Furthermore, we propose an evaluation protocol specifically designed for the Social Navigation Task in simulated environments. This is done to capture fine-grained features and characteristics of the policy by analyzing the minimal unit of human-robot spatial interaction, called Encounter. We validate our approach on Gibson4+ and Habitat-Matterport3D datasets.
translated by 谷歌翻译
Robot navigation in dynamic environments shared with humans is an important but challenging task, which suffers from performance deterioration as the crowd grows. In this paper, multi-subgoal robot navigation approach based on deep reinforcement learning is proposed, which can reason about more comprehensive relationships among all agents (robot and humans). Specifically, the next position point is planned for the robot by introducing history information and interactions in our work. Firstly, based on subgraph network, the history information of all agents is aggregated before encoding interactions through a graph neural network, so as to improve the ability of the robot to anticipate the future scenarios implicitly. Further consideration, in order to reduce the probability of unreliable next position points, the selection module is designed after policy network in the reinforcement learning framework. In addition, the next position point generated from the selection module satisfied the task requirements better than that obtained directly from the policy network. The experiments demonstrate that our approach outperforms state-of-the-art approaches in terms of both success rate and collision rate, especially in crowded human environments.
translated by 谷歌翻译
轨迹预测是成功的人类机器人相互作用的必不可少的任务,例如在自动驾驶中。在这项工作中,我们解决了使用移动摄像机在第一人称视图设置中预测未来行人轨迹的问题。为此,我们提出了一种新型的基于动作的对比学习损失,该损失利用行人行动信息来改善学习的轨迹嵌入。这一新损失背后的基本思想是,在特征空间中,执行相同行动的行人的轨迹比具有明显不同动作的行人的轨迹更接近彼此。换句话说,我们认为有关行人行动的行为信息会影响他们的未来轨迹。此外,我们为轨迹引入了一种新型的采样策略,能够有效地增加负面和阳性对比样品。使用训练有素的条件变异自动编码器(CVAE)生成其他合成轨迹样品,该样品是为轨迹预测开发的几种模型的核心。结果表明,我们提出的对比框架采用了有关行人行为的上下文信息,即有效的行动,并学习了更好的轨迹表示。因此,将所提出的对比框架集成在轨迹预测模型中可以改善其结果,并在三个轨迹预测基准上胜过最先进的方法[31,32,26]。
translated by 谷歌翻译
Sociability is essential for modern robots to increase their acceptability in human environments. Traditional techniques use manually engineered utility functions inspired by observing pedestrian behaviors to achieve social navigation. However, social aspects of navigation are diverse, changing across different types of environments, societies, and population densities, making it unrealistic to use hand-crafted techniques in each domain. This paper presents a data-driven navigation architecture that uses state-of-the-art neural architectures, namely Conditional Neural Processes, to learn global and local controllers of the mobile robot from observations. Additionally, we leverage a state-of-the-art, deep prediction mechanism to detect situations not similar to the trained ones, where reactive controllers step in to ensure safe navigation. Our results demonstrate that the proposed framework can successfully carry out navigation tasks regarding social norms in the data. Further, we showed that our system produces fewer personal-zone violations, causing less discomfort.
translated by 谷歌翻译
分散的多代理导航的代理缺乏世界知识,无法可靠地制定安全和(接近)最佳计划。他们将决定基于邻居的可观察状态,这隐藏了邻居的导航意图。我们提出了通过机构间沟通的增强分散导航,以提高其绩效和援助代理,以做出合理的导航决策。在这方面,我们提出了一种新颖的增强学习方法,用于使用选择性间隔沟通来避免多代理碰撞。我们的网络学会决定“何时”并与“谁”交流,以端到端的方式索取其他信息。我们将沟通选择作为链接预测问题,在该问题中,如果可以观察到的信息,网络可以预测是否需要通信。传达的信息增加了观察到的邻居信息以选择合适的导航计划。随着机器人的邻居数量的变化,我们使用多头自发项机制来编码邻居信息并创建固定长度的观察向量。我们验证我们提出的方法在挑战模拟基准中实现了多个机器人之间的安全有效导航。通过学习的通信,我们的网络的性能比在各种指标(例如到目标和碰撞频率)中的现有分散方法的表现要好得多。此外,我们展示了网络有效地学会在高复杂性情况下进行必要时进行交流。
translated by 谷歌翻译
学习来自观察数据的行为模式一直是运动预测的遗传方法。然而,目前的范式遭受了两种缺点:协会变化下的脆性和知识转移的低效。在这项工作中,我们建议从因果表现形式解决这些挑战。我们首先介绍了运动预测的因果形式主义,这将问题作为一种动态过程,其中三组潜在变量,即不变的机制,风格混乱和虚假功能。然后我们介绍一个学习框架,分别对待每个组:(i)与从不同地点收集的数据集的共同做法不同,我们通过不变性的损失来利用它们的微妙区分,鼓励模型抑制虚假相关; (ii)我们设计了一种模块化的架构,可以修理不变机制和风格混淆的表示,以近似因果图; (iii)我们介绍了一种风格的一致性损失,不仅强制实施了风格表示的结构,而且还用作自我监控信号,以便在飞行中进行测试时间改进。合成和实时数据集的实验结果表明,我们的三个提出的组件显着提高了学习运动表示的鲁棒性和可重用性,优于出现的先前最先进的运动预测模型,用于分发外概括和低次转移。
translated by 谷歌翻译
We present CURL: Contrastive Unsupervised Representations for Reinforcement Learning. CURL extracts high-level features from raw pixels using contrastive learning and performs offpolicy control on top of the extracted features. CURL outperforms prior pixel-based methods, both model-based and model-free, on complex tasks in the DeepMind Control Suite and Atari Games showing 1.9x and 1.2x performance gains at the 100K environment and interaction steps benchmarks respectively. On the DeepMind Control Suite, CURL is the first image-based algorithm to nearly match the sample-efficiency of methods that use state-based features. Our code is open-sourced and available at https://www. github.com/MishaLaskin/curl.
translated by 谷歌翻译
我们介绍了\ textit {nocturne},这是一种新的2D驾驶模拟器,用于调查部分可观察性下的多代理协调。夜曲的重点是在不具有计算机视觉的计算开销并从图像中提取特征的情况下,在现实世界中的推理和心理理论方面进行研究。该模拟器中的代理只会观察到场景的障碍,模仿人类的视觉传感限制。 Unlike existing benchmarks that are bottlenecked by rendering human-like observations directly using a camera input, Nocturne uses efficient intersection methods to compute a vectorized set of visible features in a C++ back-end, allowing the simulator to run at $2000+$ steps-per -第二。使用开源轨迹和映射数据,我们构建了一个模拟器,以加载和重播来自现实世界驾驶数据的任意轨迹和场景。使用这种环境,我们基准了加强学习和模仿学习剂,并证明这些代理远离人类水平的协调能力,并显着偏离专家轨迹。
translated by 谷歌翻译
当代机器人主义者的主要目标之一是使智能移动机器人能够在共享的人类机器人环境中平稳运行。为此目标服务的最基本必要的功能之一是在这种“社会”背景下有效的导航。结果,最近的一般社会导航的研究激增,尤其是如何处理社会导航代理之间的冲突。这些贡献介绍了各种模型,算法和评估指标,但是由于该研究领域本质上是跨学科的,因此许多相关论文是不可比较的,并且没有共同的标准词汇。这项调查的主要目标是通过引入这种通用语言,使用它来调查现有工作并突出开放问题来弥合这一差距。它首先定义社会导航的冲突,并提供其组成部分的详细分类学。然后,这项调查将现有工作映射到了本分类法中,同时使用其框架讨论论文。最后,本文提出了一些未来的研究方向和开放问题,这些方向目前正在社会导航的边界,以帮助集中于正在进行的和未来的研究。
translated by 谷歌翻译
人群中的人类轨迹预测提出了建模社交相互作用和输出无碰撞多模式分布的挑战。在社会生成对抗网络(SGAN)成功之后,最近的作品提出了各种基于GAN的设计,以更好地模拟人群中的人类运动。尽管在降低基于距离的指标方面的性能卓越,但当前网络仍无法输出社会可接受的轨迹,这是模型预测中的高碰撞所证明的。为此,我们介绍了SGANV2:改进的符合安全性的SGAN架构,配备了时空交互模型和基于变压器的鉴别器。时空建模能力有助于更好地学习人类的社交互动,而基于变压器的歧视器设计改善了时间序列建模。此外,SGANV2即使在测试时间也通过协作抽样策略来利用学到的歧视者,该策略不仅完善了碰撞轨迹,而且还可以防止模式崩溃,这是GAN训练中的常见现象。通过对多个现实世界和合成数据集进行广泛的实验,我们证明了SGANV2提供社会兼容的多模式轨迹的功效。
translated by 谷歌翻译
Training effective embodied AI agents often involves manual reward engineering, expert imitation, specialized components such as maps, or leveraging additional sensors for depth and localization. Another approach is to use neural architectures alongside self-supervised objectives which encourage better representation learning. In practice, there are few guarantees that these self-supervised objectives encode task-relevant information. We propose the Scene Graph Contrastive (SGC) loss, which uses scene graphs as general-purpose, training-only, supervisory signals. The SGC loss does away with explicit graph decoding and instead uses contrastive learning to align an agent's representation with a rich graphical encoding of its environment. The SGC loss is generally applicable, simple to implement, and encourages representations that encode objects' semantics, relationships, and history. Using the SGC loss, we attain significant gains on three embodied tasks: Object Navigation, Multi-Object Navigation, and Arm Point Navigation. Finally, we present studies and analyses which demonstrate the ability of our trained representation to encode semantic cues about the environment.
translated by 谷歌翻译
相应地预测周围交通参与者的未来状态,并计划安全,平稳且符合社会的轨迹对于自动驾驶汽车至关重要。当前的自主驾驶系统有两个主要问题:预测模块通常与计划模块解耦,并且计划的成本功能很难指定和调整。为了解决这些问题,我们提出了一个端到端的可区分框架,该框架集成了预测和计划模块,并能够从数据中学习成本函数。具体而言,我们采用可区分的非线性优化器作为运动计划者,该运动计划将神经网络给出的周围剂的预测轨迹作为输入,并优化了自动驾驶汽车的轨迹,从而使框架中的所有操作都可以在框架中具有可观的成本,包括成本功能权重。提出的框架经过大规模的现实驾驶数据集进行了训练,以模仿整个驾驶场景中的人类驾驶轨迹,并在开环和闭环界面中进行了验证。开环测试结果表明,所提出的方法的表现优于各种指标的基线方法,并提供以计划为中心的预测结果,从而使计划模块能够输出接近人类的轨迹。在闭环测试中,提出的方法表明能够处理复杂的城市驾驶场景和鲁棒性,以抵抗模仿学习方法所遭受的分配转移。重要的是,我们发现计划和预测模块的联合培训比在开环和闭环测试中使用单独的训练有素的预测模块进行计划要比计划更好。此外,消融研究表明,框架中的可学习组件对于确保计划稳定性和性能至关重要。
translated by 谷歌翻译
Reasoning about human motion is an important prerequisite to safe and socially-aware robotic navigation. As a result, multi-agent behavior prediction has become a core component of modern human-robot interactive systems, such as self-driving cars. While there exist many methods for trajectory forecasting, most do not enforce dynamic constraints and do not account for environmental information (e.g., maps). Towards this end, we present Trajectron++, a modular, graph-structured recurrent model that forecasts the trajectories of a general number of diverse agents while incorporating agent dynamics and heterogeneous data (e.g., semantic maps). Trajectron++ is designed to be tightly integrated with robotic planning and control frameworks; for example, it can produce predictions that are optionally conditioned on ego-agent motion plans. We demonstrate its performance on several challenging real-world trajectory forecasting datasets, outperforming a wide array of state-ofthe-art deterministic and generative methods.
translated by 谷歌翻译
无监督的表示学习的最新进展显着提高了模拟环境中培训强化学习政策的样本效率。但是,尚未看到针对实体强化学习的类似收益。在这项工作中,我们专注于从像素中启用数据有效的实体机器人学习。我们提出了有效的机器人学习(编码器)的对比前训练和数据增强,该方法利用数据增强和无监督的学习来从稀疏奖励中实现对实体ARM策略的样本效率培训。虽然对比预训练,数据增强,演示和强化学习不足以进行有效学习,但我们的主要贡献表明,这些不同技术的组合导致了一种简单而数据效率的方法。我们表明,只有10个示范,一个机器人手臂可以从像素中学习稀疏的奖励操纵策略,例如到达,拾取,移动,拉动大物体,翻转开关并在短短30分钟内打开抽屉现实世界训练时间。我们在项目网站上包括视频和代码:https://sites.google.com/view/felfficited-robotic-manipulation/home
translated by 谷歌翻译
近年来,人类运动轨迹预测是许多领域自治系统的重要任务。通过不同社区提出的多种新方法,缺乏标准化的基准和客观比较越来越成为评估进度并指导进一步研究的主要局限性。现有基准的范围和灵活性有限,无法进行相关实验,并说明了代理和环境的上下文提示。在本文中,我们提出了地图集,这是一个系统地评估人类运动轨迹预测算法的基准。 Atlas提供数据预处理功能,超参数优化,具有流行的数据集,并具有灵活性,可以进行设置和进行不充分的相关实验,以分析方法的准确性和鲁棒性。在ATLAS的示例应用中,我们比较了五个流行的模型和基于学习的预测指标,并发现,如果适当应用,基于物理的早期方法仍然具有竞争力。这样的结果证实了像Atlas这样的基准的必要性。
translated by 谷歌翻译
作为自主驱动系统的核心技术,行人轨迹预测可以显着提高主动车辆安全性的功能,减少道路交通损伤。在交通场景中,当遇到迎面而来的人时,行人可能会立即转动或停止,这通常会导致复杂的轨迹。为了预测这种不可预测的轨迹,我们可以深入了解行人之间的互动。在本文中,我们提出了一种名为Spatial Interaction Transformer(SIT)的新型生成方法,其通过注意机制学习行人轨迹的时空相关性。此外,我们介绍了条件变形Autiachoder(CVAE)框架来模拟未来行人的潜在行动状态。特别是,基于大规模的TRAFC数据集NUSCENES [2]的实验显示,坐下的性能优于最先进的(SOTA)方法。对挑战性的Eth和UCY数据集的实验评估概述了我们提出的模型的稳健性
translated by 谷歌翻译
人类感知机器人导航有一系列应用程序,其中移动机器人对普通人类环境中的人们带来多功能援助。虽然现有研究主要集中在以独立,故意个人为独立的,但人们进入群体;因此,移动机器人必须在围绕人们时尊重人群。本文探讨了使用深度加强学习的基于动态组形成的学习群体感知导航策略。通过仿真实验,我们展示了与忽视人类群体的基线政策相比,群体感知政策实现了更大的机器人导航性能(例如,较少的碰撞),尽量减少侵犯社会规范和不适,并减少机器人对行人的运动影响。我们的成果有助于发展社会导航和移动机器人将移动机器人集成到人类环境中。
translated by 谷歌翻译