我们提出了Covy - 一个机器人平台,可在Covid-19等大流行期间促进社会疏远。Covy具有一种新颖的复合视觉系统,使其能够检测到社会距离的破坏,最多可达16m。Covy使用混合导航堆栈自动地导航其周围环境,该堆栈结合了深钢筋学习(DRL)和概率定位方法。我们通过模拟和现实环境中的大量实验构建了完整的系统并评估了Covy的性能。除其他外,我们的结果表明,与基于DRL的纯解决方案相比,混合导航堆栈更强大。
translated by 谷歌翻译
在本文中,我们研究了DRL算法在本地导航问题的应用,其中机器人仅配备有限​​量距离的外部感受传感器(例如LIDAR),在未知和混乱的工作区中朝着目标位置移动。基于DRL的碰撞避免政策具有一些优势,但是一旦他们学习合适的动作的能力仅限于传感器范围,它们就非常容易受到本地最小值的影响。由于大多数机器人在非结构化环境中执行任务,因此寻求能够避免本地最小值的广义本地导航政策,尤其是在未经训练的情况下,这是非常兴趣的。为此,我们提出了一种新颖的奖励功能,该功能结合了在训练阶段获得的地图信息,从而提高了代理商故意最佳行动方案的能力。另外,我们使用SAC算法来训练我们的ANN,这表明在最先进的文献中比其他人更有效。一组SIM到SIM和SIM到现实的实验表明,我们提出的奖励与SAC相结合的表现优于比较局部最小值和避免碰撞的方法。
translated by 谷歌翻译
目前,移动机器人正在迅速发展,并在工业中寻找许多应用。然而,仍然存在与其实际使用相关的一些问题,例如对昂贵的硬件及其高功耗水平的需要。在本研究中,我们提出了一种导航系统,该导航系统可在具有RGB-D相机的低端计算机上操作,以及用于操作集成自动驱动系统的移动机器人平台。建议的系统不需要Lidars或GPU。我们的原始深度图像接地分割方法提取用于低体移动机器人的安全驾驶的遍历图。它旨在保证具有集成的SLAM,全局路径规划和运动规划的低成本现成单板计算机上的实时性能。我们使用Traversability Map应用基于规则的基于学习的导航策略。同时运行传感器数据处理和其他自主驾驶功能,我们的导航策略以18Hz的刷新率为控制命令而迅速执行,而其他系统则具有较慢的刷新率。我们的方法在有限的计算资源中优于当前最先进的导航方法,如3D模拟测试所示。此外,我们通过在室内环境中成功的自动驾驶来展示移动机器人系统的适用性。我们的整个作品包括硬件和软件在开源许可(https://github.com/shinkansan/2019-ugrp-doom)下发布。我们的详细视频是https://youtu.be/mf3iufuhppm提供的。
translated by 谷歌翻译
深度强化学习在基于激光的碰撞避免有效的情况下取得了巨大的成功,因为激光器可以感觉到准确的深度信息而无需太多冗余数据,这可以在算法从模拟环境迁移到现实世界时保持算法的稳健性。但是,高成本激光设备不仅很难为大型机器人部署,而且还表现出对复杂障碍的鲁棒性,包括不规则的障碍,例如桌子,桌子,椅子和架子,以及复杂的地面和特殊材料。在本文中,我们提出了一个新型的基于单眼相机的复杂障碍避免框架。特别是,我们创新地将捕获的RGB图像转换为伪激光测量,以进行有效的深度强化学习。与在一定高度捕获的传统激光测量相比,仅包含距离附近障碍的一维距离信息,我们提议的伪激光测量融合了捕获的RGB图像的深度和语义信息,这使我们的方法有效地有效障碍。我们还设计了一个功能提取引导模块,以加重输入伪激光测量,并且代理对当前状态具有更合理的关注,这有利于提高障碍避免政策的准确性和效率。
translated by 谷歌翻译
Robot assistants are emerging as high-tech solutions to support people in everyday life. Following and assisting the user in the domestic environment requires flexible mobility to safely move in cluttered spaces. We introduce a new approach to person following for assistance and monitoring. Our methodology exploits an omnidirectional robotic platform to detach the computation of linear and angular velocities and navigate within the domestic environment without losing track of the assisted person. While linear velocities are managed by a conventional Dynamic Window Approach (DWA) local planner, we trained a Deep Reinforcement Learning (DRL) agent to predict optimized angular velocities commands and maintain the orientation of the robot towards the user. We evaluate our navigation system on a real omnidirectional platform in various indoor scenarios, demonstrating the competitive advantage of our solution compared to a standard differential steering following.
translated by 谷歌翻译
本文介绍了一种新型深度加强基于基于深度加强学习的3D Fapless导航系统(无人机)。我们提出了一个简单的学习系统,而不是使用一种简单的学习系统,该系统仅使用来自距离传感器的一些稀疏范围数据来训练学习代理。我们基于我们对两种最先进的双重评论家深度RL模型的方法:双延迟深度确定性政策梯度(TD3)和软演员 - 评论家(SAC)。我们表明,我们的两种方法可以基于深度确定性政策梯度(DDPG)技术和Bug2算法来胜过一种方法。此外,我们基于经常性神经网络(RNNS)的新的深度RL结构优于用于执行移动机器人的FAPLESS导航的当前结构。总体而言,我们得出结论,基于双重评论评价的深度RL方法与经常性神经网络(RNNS)更适合进行熔化的导航和避免无人机。
translated by 谷歌翻译
精确农业正在迅速吸引研究,以有效地引入自动化和机器人解决方案,以支持农业活动。葡萄园和果园中的机器人导航在自主监控方面具有竞争优势,并轻松获取农作物来收集,喷涂和执行时必的耗时必要任务。如今,自主导航算法利用了昂贵的传感器,这也需要大量的数据处理计算成本。尽管如此,葡萄园行代表了一个具有挑战性的户外场景,在这种情况下,GPS和视觉进程技术通常难以提供可靠的定位信息。在这项工作中,我们将Edge AI与深度强化学习相结合,以提出一种尖端的轻质解决方案,以解决自主葡萄园导航的问题,而无需利用精确的本地化数据并通过基于灵活的学习方法来克服任务列出的算法。我们训练端到端的感觉运动剂,该端机直接映射嘈杂的深度图像和位置不可稳定的机器人状态信息到速度命令,并将机器人引导到一排的尽头,不断调整其标题以进行无碰撞的无碰撞中央轨迹。我们在现实的模拟葡萄园中进行的广泛实验证明了解决方案的有效性和代理的概括能力。
translated by 谷歌翻译
谷仓(基准自动驾驶机器人导航)挑战在宾夕法尼亚州费城的2022年IEEE国际机器人和自动化国际会议(ICRA 2022)举行。挑战的目的是评估最先进的自动地面导航系统,以安全有效的方式将机器人通过高度约束的环境移动。具体而言,任务是将标准化的差分驱动地面机器人从预定义的开始位置导航到目标位置,而不会与模拟和现实世界中的任何障碍相撞。来自世界各地的五支球队参加了合格的模拟比赛,其中三支受邀在费城会议中心的一组身体障碍课程中相互竞争。竞争结果表明,尽管表面上显得简单,即使对于经验丰富的机器人主义者来说,在高度约束空间中的自主地面导航实际上远非解决问题。在本文中,我们讨论了挑战,前三名获胜团队所使用的方法以及学到的教训以指导未来的研究。
translated by 谷歌翻译
Underwater navigation presents several challenges, including unstructured unknown environments, lack of reliable localization systems (e.g., GPS), and poor visibility. Furthermore, good-quality obstacle detection sensors for underwater robots are scant and costly; and many sensors like RGB-D cameras and LiDAR only work in-air. To enable reliable mapless underwater navigation despite these challenges, we propose a low-cost end-to-end navigation system, based on a monocular camera and a fixed single-beam echo-sounder, that efficiently navigates an underwater robot to waypoints while avoiding nearby obstacles. Our proposed method is based on Proximal Policy Optimization (PPO), which takes as input current relative goal information, estimated depth images, echo-sounder readings, and previous executed actions, and outputs 3D robot actions in a normalized scale. End-to-end training was done in simulation, where we adopted domain randomization (varying underwater conditions and visibility) to learn a robust policy against noise and changes in visibility conditions. The experiments in simulation and real-world demonstrated that our proposed method is successful and resilient in navigating a low-cost underwater robot in unknown underwater environments. The implementation is made publicly available at https://github.com/dartmouthrobotics/deeprl-uw-robot-navigation.
translated by 谷歌翻译
深钢筋学习中的确定性和随机技术已成为改善运动控制和各种机器人的决策任务的有前途的解决方案。先前的工作表明,这些深-RL算法通常可以应用于一般的移动机器人的无MAP导航。但是,他们倾向于使用简单的传感策略,因为已经证明它们在高维状态空间(例如基于图像的传感的空间)方面的性能不佳。本文在执行移动机器人无地图导航的任务时,对两种深-RL技术 - 深确定性政策梯度(DDPG)和软参与者(SAC)进行了比较分析。我们的目标是通过展示神经网络体系结构如何影响学习本身的贡献,并根据每种方法的航空移动机器人导航的时间和距离提出定量结果。总体而言,我们对六个不同体系结构的分析强调了随机方法(SAC)更好地使用更深的体系结构,而恰恰相反发生在确定性方法(DDPG)中。
translated by 谷歌翻译
多机器人导航是一项具有挑战性的任务,其中必须在动态环境中同时协调多个机器人。我们应用深入的加固学习(DRL)来学习分散的端到端策略,该政策将原始传感器数据映射到代理的命令速度。为了使政策概括,培训是在不同的环境和场景中进行的。在常见的多机器人场景中测试和评估了学识渊博的政策,例如切换一个地方,交叉路口和瓶颈情况。此策略使代理可以从死端恢复并浏览复杂的环境。
translated by 谷歌翻译
本文研究了如何改善接受深入增强学习训练的导航剂的概括性能和学习速度(DRL)。尽管DRL在无机MAP导航中表现出巨大的潜力,但在训练场景中表现良好的DRL代理在不熟悉的情况下经常表现不佳。在这项工作中,我们建议LIDAR读数的表示是代理商效果退化的关键因素,并提出了一种强大的输入预处理(IP)方法来解决此问题。由于这种方法使用适应性的参数倒数函数来预处理激光雷达读数,因此我们将此方法称为IPAPREC及其归一化版本为IPAPRECN。 IPAPREC/IPAPRECN可以突出显示重要的短距离值,并压缩激光扫描中较重要的长距离值的范围,该值很好地解决了由激光扫描的常规表示引起的问题。通过广泛的模拟和现实世界实验来验证它们的高性能。结果表明,与常规方法相比,我们的方法可以大大改善导航剂的概括性能,并大大减少训练时间。
translated by 谷歌翻译
随着我们日常环境中机器人的存在越来越多,提高社交技能至关重要。尽管如此,社会机器人技术仍然面临许多挑战。一种瓶颈是,由于社会规范的强烈取决于环境,因此需要经常适应机器人行为。例如,与办公室的工人相比,机器人应更仔细地在医院的患者周围进行仔细的导航。在这项工作中,我们将元强化学习(META-RL)作为潜在解决方案进行了研究。在这里,机器人行为是通过强化学习来学习的,需要选择奖励功能,以便机器人学习适合给定环境的行为。我们建议使用一种变异元过程,该过程迅速使机器人的行为适应新的奖励功能。结果,给定一个新的环境,可以快速评估不同的奖励功能,并选择适当的奖励功能。该过程学习奖励函数的矢量表示和可以在这种表示形式下进行条件的元政策。从新的奖励函数中进行观察,该过程确定了其表示形式,并条件元元素对其进行了条件。在研究程序的功能时,我们意识到它遭受了后塌陷的困扰,在表示表示中只有一个尺寸的子集编码有用的信息,从而导致性能降低。我们的第二个贡献是径向基函数(RBF)层,部分减轻了这种负面影响。 RBF层将表示形式提升到较高的维空间,这对于元容器更容易利用。我们证明了RBF层的兴趣以及在四个机器人模拟任务上对社会机器人技术的使用元素使用。
translated by 谷歌翻译
深度强化学习(DRL)的最新进步通过允许自动控制器设计促进了机器人技术。自动控制器设计是设计群体机器人系统的关键方法,与单个机器人系统相比,它需要更复杂的控制器来领导所需的集体行为。尽管基于DRL的控制器设计方法显示出其有效性,但对中央培训服务器的依赖是在机器人服务器通信不稳定或有限的现实环境中的关键问题。我们提出了一种新型联邦学习(FL)的DRL培训策略(FLDDPG),以用于群体机器人应用。通过在有限的通信带宽方案下与基线策略进行比较,可以证明,FLDDPG方法导致更高的鲁棒性和泛化能力进入不同的环境和真正的机器人,而基线策略则遭受了通信带宽的限制。该结果表明,所提出的方法可以使在通信带宽有限的环境中运行的群体机器人系统受益,例如在高辐射,水下或地下环境中。
translated by 谷歌翻译
强化学习(RL)通过原始像素成像和连续的控制任务在视频游戏中表现出了令人印象深刻的表现。但是,RL的性能较差,例如原始像素图像,例如原始像素图像。人们普遍认为,基于物理状态的RL策略(例如激光传感器测量值)比像素学习相比会产生更有效的样品结果。这项工作提出了一种新方法,该方法从深度地图估算中提取信息,以教授RL代理以执行无人机导航(UAV)的无地图导航。我们提出了深度模仿的对比度无监督的优先表示(DEPTH-CUPRL),该表示具有优先重播记忆的估算图像的深度。我们使用RL和对比度学习的组合,根据图像的RL问题引发。从无人驾驶汽车(UAV)对结果的分析中,可以得出结论,我们的深度cuprl方法在无MAP导航能力中对决策和优于最先进的像素的方法有效。
translated by 谷歌翻译
本文提出了一种基于强化学习的导航方法,在其中我们将占用观测定义为运动原始启发式评估,而不是使用原始传感器数据。我们的方法可以将多传感器融合生成的占用数据快速映射到3D工作区中的轨迹值中。计算有效的轨迹评估允许对动作空间进行密集采样。我们利用不同数据结构中的占用观测来分析其对培训过程和导航性能的影响。我们在基于物理的仿真环境(包括静态和动态障碍)中对两个不同机器人进行训练和测试。我们通过最先进方法的其他常规数据结构对我们的占用表示进行基准测试。在动态环境中,通过物理机器人成功验证了训练有素的导航政策。结果表明,与其他占用表示相比,我们的方法不仅减少了所需的训练时间,还可以改善导航性能。我们的工作和所有相关信息的开源实现可从\ url {https://github.com/river-lab/tentabot}获得。
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译
在包装交付,交通监控,搜索和救援操作以及军事战斗订婚等不同应用中,对使用无人驾驶汽车(UAV)(无人机)的需求越来越不断增加。在所有这些应用程序中,无人机用于自动导航环境 - 没有人类互动,执行特定任务并避免障碍。自主无人机导航通常是使用强化学习(RL)来完成的,在该学习中,代理在域中充当专家在避免障碍的同时导航环境。了解导航环境和算法限制在选择适当的RL算法以有效解决导航问题方面起着至关重要的作用。因此,本研究首先确定了无人机导航任务,并讨论导航框架和仿真软件。接下来,根据环境,算法特征,能力和不同无人机导航问题的应用程序对RL算法进行分类和讨论,这将帮助从业人员和研究人员为其无人机导航使用情况选择适当的RL算法。此外,确定的差距和机会将推动无人机导航研究。
translated by 谷歌翻译
Despite some successful applications of goal-driven navigation, existing deep reinforcement learning-based approaches notoriously suffers from poor data efficiency issue. One of the reasons is that the goal information is decoupled from the perception module and directly introduced as a condition of decision-making, resulting in the goal-irrelevant features of the scene representation playing an adversary role during the learning process. In light of this, we present a novel Goal-guided Transformer-enabled reinforcement learning (GTRL) approach by considering the physical goal states as an input of the scene encoder for guiding the scene representation to couple with the goal information and realizing efficient autonomous navigation. More specifically, we propose a novel variant of the Vision Transformer as the backbone of the perception system, namely Goal-guided Transformer (GoT), and pre-train it with expert priors to boost the data efficiency. Subsequently, a reinforcement learning algorithm is instantiated for the decision-making system, taking the goal-oriented scene representation from the GoT as the input and generating decision commands. As a result, our approach motivates the scene representation to concentrate mainly on goal-relevant features, which substantially enhances the data efficiency of the DRL learning process, leading to superior navigation performance. Both simulation and real-world experimental results manifest the superiority of our approach in terms of data efficiency, performance, robustness, and sim-to-real generalization, compared with other state-of-art baselines. Demonstration videos are available at \colorb{https://youtu.be/93LGlGvaN0c.
translated by 谷歌翻译
The last decade witnessed increasingly rapid progress in self-driving vehicle technology, mainly backed up by advances in the area of deep learning and artificial intelligence. The objective of this paper is to survey the current state-of-the-art on deep learning technologies used in autonomous driving. We start by presenting AI-based self-driving architectures, convolutional and recurrent neural networks, as well as the deep reinforcement learning paradigm. These methodologies form a base for the surveyed driving scene perception, path planning, behavior arbitration and motion control algorithms. We investigate both the modular perception-planning-action pipeline, where each module is built using deep learning methods, as well as End2End systems, which directly map sensory information to steering commands. Additionally, we tackle current challenges encountered in designing AI architectures for autonomous driving, such as their safety, training data sources and computational hardware. The comparison presented in this survey helps to gain insight into the strengths and limitations of deep learning and AI approaches for autonomous driving and assist with design choices. 1
translated by 谷歌翻译