在本文中,我们使用基于视觉的图形聚合和推理(VGAI)呈现了一种感知 - 动作通信环路设计。这种多代理分散的学习 - 控制框架将原始的视觉观测映射到代理操作,并通过相邻代理之间的本地通信提供帮助。我们的框架是由圆形卷积和图形神经网络(CNN / GNN)的级联实现,寻址代理级视觉感知和特征学习,以及群级通信,本地信息聚合和代理动作推断。通过联合训练CNN和GNN,结合了解图像特征和通信消息以更好地解决特定任务。我们使用模仿学习在离线阶段训练VGAI控制器,依赖于集中式专家控制器。这导致学习的VGAI控制器可以以分布式方式部署以进行在线执行。此外,控制器展示了良好的缩放性质,在较大的团队中具有较小的团队和应用程序的培训。通过多代理植入应用程序,我们证明VGAI产生与其他分散的控制器相当或更好地使用视觉输入模态,而不访问精确的位置或运动状态信息。
translated by 谷歌翻译
了解来自群体中集体行为的分散性动态对于通知人工群和多态机械系统中的机器人控制器设计至关重要。然而,代理人与代理人的相互作用和大多数群体的分散性质对来自全球行为的单机器人控制法的提取构成重大挑战。在这项工作中,我们考虑完全基于群体轨迹的国家观察学习分散单机器人控制器的重要任务。我们通过采用基于知识的神经常规方程(KNODE)来提出一般框架 - 一种能够将人工神经网络与已知代理动态组合的混合机学习方法。我们的方法与大多数事先有关的方法区分,因为我们不需要学习的行动数据。我们分别在2D和3D中将框架应用于两个不同的植绒群,并通过利用群体信息网络的图形结构来展示有效的培训。我们进一步表明,学习的单机器人控制器不仅可以重现原始群体中的植绒行为,而且还可以使用更多机器人来扩展到群体。
translated by 谷歌翻译
我们展示了通过大规模多代理端到端增强学习的大射击可转移到真正的四轮压力机的无人驾驶群体控制器的可能性。我们培训由神经网络参数化的政策,该政策能够以完全分散的方式控制群体中的各个无人机。我们的政策,在具有现实的四轮流物理学的模拟环境中训练,展示了先进的植绒行为,在紧张的地层中执行侵略性的操作,同时避免彼此的碰撞,破裂和重新建立地层,以避免与移动障碍的碰撞,并有效地协调追求障碍,并有效地协调追求逃避任务。在模拟中,我们分析了培训制度的不同模型架构和参数影响神经群的最终表现。我们展示了在模拟中学习的模型的成功部署到高度资源受限的物理四体体执行站保持和目标交换行为。在Propers网站上提供代码和视频演示,在https://sites.google.com/view/swarm-rl上获得。
translated by 谷歌翻译
图形神经网络(GNNS)是一种范式转换的神经结构,以便于学习复杂的多智能经纪行为。最近的工作已经表现出显着的绩效,如植绒,多代理路径规划和合作覆盖。但是,通过基于GNN的学习计划导出的策略尚未部署到物理多机器人系统上的现实世界。在这项工作中,我们展示了一个系统的设计,允许完全分散地执行基于GNN的策略。我们创建基于ROS2的框架,并在本文中详细说明其细节。我们展示了我们在一个案例研究的框架,需要在机器人之间进行紧张的协调,并呈现出于依赖于adhoc通信的分散式多机器人系统的基于GNN的政策的成功实际部署的一类结果。可以在线找到这种情况的视频演示。https://www.youtube.com/watch?v=coh-wln4io4
translated by 谷歌翻译
分散的多机器人目标跟踪的问题要求共同选择动作,例如运动原语,以使机器人通过本地通信最大化目标跟踪性能。实施实施的一个主要挑战是使目标跟踪方法可扩展到大规模的问题实例。在这项工作中,我们提出了通用学习体系结构,以通过分散的通信进行大规模的协作目标跟踪。特别是,我们的学习体系结构利用图形神经网络(GNN)捕获机器人的本地互动,并学习机器人的分散决策。我们通过模仿专家解决方案来训练学习模型,并实施仅涉及本地观察和沟通的分散行动选择的最终模型。我们在使用大型机器人网络的主动目标跟踪方案中演示了基于GNN的学习方法的性能。仿真结果表明,我们的方法几乎与专家算法的跟踪性能相匹配,但最多可以使用多达100个机器人运行多个订单。此外,它的表现略高于分散的贪婪算法,但运行速度更快(尤其是20多个机器人)。结果还显示了我们在以前看不见的情况下的方法的概括能力,例如,较大的环境和较大的机器人网络。
translated by 谷歌翻译
本文解决了多机器人主动信息采集(AIA)问题,其中一组移动机器人通过基础图进行通信,估计一个表达感兴趣现象的隐藏状态。可以在此框架中表达诸如目标跟踪,覆盖范围和大满贯之类的应用程序。但是,现有的方法要么是不可扩展的,因此无法处理动态现象,或者对通信图中的变化不健全。为了应对这些缺点,我们提出了一个信息感知的图形块网络(I-GBNET),即图形神经网络的AIA适应,该网络将信息通过图表表示,并以分布式方式提供顺序决定。通过基于集中抽样的专家求解器训练通过模仿学习训练的I-GBNET表现出置换量比和时间不变性,同时利用了对以前看不见的环境和机器人配置的卓越可扩展性,鲁棒性和概括性。与训练中看到的相比,隐藏状态和更复杂的环境的实验和更复杂的环境实验验证了所提出的体系结构的特性及其在应用定位和动态目标的应用中的功效。
translated by 谷歌翻译
我们考虑将移动机器人导航到具有视觉传感器的未知环境中的问题,在该环境中,机器人和传感器都无法访问全局定位信息,并且仅使用第一人称视图图像。虽然基于传感器网络的先前工作使用明确的映射和计划技术,并且经常得到外部定位系统的帮助,但我们提出了一种基于视觉的学习方法,该方法利用图形神经网络(GNN)来编码和传达相关的视点信息到移动机器人。在导航期间,机器人以模型为指导,我们通过模仿学习训练以近似最佳的运动原语,从而预测有效的成本(目标)。在我们的实验中,我们首先证明了具有各种传感器布局的以前看不见的环境的普遍性。仿真结果表明,通过利用传感器和机器人之间的通信,我们可以达到$ 18.1 \%$ $的成功率,同时将路径弯路的平均值降低$ 29.3 \%$,并且可变性降低了$ 48.4 \%$ $。这是在不需要全局地图,定位数据或传感器网络预校准的情况下完成的。其次,我们将模型从模拟到现实世界进行零拍传输。为此,我们训练一个“翻译器”模型,该模型在{}真实图像和模拟图像之间转换,以便可以直接在真实的机器人上使用导航策略(完全在模拟中训练),而无需其他微调。 。物理实验证明了我们在各种混乱的环境中的有效性。
translated by 谷歌翻译
碰撞避免算法对许多无人机应用程序具有核心兴趣。特别地,分散的方法可以是在集中通信变得过艰巨的情况下启用强大的无人机群解决方案的关键。在这项工作中,我们从椋鸟(Ventgaris)的群群中汲取生物启示,并将洞察力应用于结尾学的分散碰撞避免。更具体地,我们提出了一种新的,可伸缩的观察模型,其仿生最近邻的信息约束,导致快速学习和良好的碰撞行为。通过提出一般加强学习方法,我们获得了基于端到端的学习方法,以通过包装收集和形成变化等任意任务集成碰撞避免。为了验证这种方法的一般性,我们通过中等复杂性的运动模型成功地应用了我们的方法,建模势头,仍然可以与标准PID控制器结合使用直接应用。与事先作品相比,我们发现,在我们足够丰富的运动模型中,最近的邻居信息确实足以学习有效的碰撞行为。我们的学习政策在模拟中进行了测试,随后转移到现实世界的无人机,以验证其现实世界的适用性。
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译
本文介绍了Cerberus机器人系统系统,该系统赢得了DARPA Subterranean挑战最终活动。出席机器人自主权。由于其几何复杂性,降解的感知条件以及缺乏GPS支持,严峻的导航条件和拒绝通信,地下设置使自动操作变得特别要求。为了应对这一挑战,我们开发了Cerberus系统,该系统利用了腿部和飞行机器人的协同作用,再加上可靠的控制,尤其是为了克服危险的地形,多模式和多机器人感知,以在传感器退化,以及在传感器退化的条件下进行映射以及映射通过统一的探索路径计划和本地运动计划,反映机器人特定限制的弹性自主权。 Cerberus基于其探索各种地下环境及其高级指挥和控制的能力,表现出有效的探索,对感兴趣的对象的可靠检测以及准确的映射。在本文中,我们报告了DARPA地下挑战赛的初步奔跑和最终奖项的结果,并讨论了为社区带来利益的教训所面临的亮点和挑战。
translated by 谷歌翻译
本文考虑了安全协调一个配备传感器的机器人团队的问题,以减少有关动态过程的不确定性,而该过程将使目标消除信息增益和能源成本。优化这种权衡是可取的,但是在机器人轨迹集中导致非占主酮目标函数。因此,基于协调下降的普通多机器人计划者失去了其性能保证。此外,处理非单调性的方法在受到机器人间碰撞避免约束时会失去其性能保证。由于需要保留性能保证和安全保证,这项工作提出了一种分布式计划者的层次结构方法,该方法使用本地搜索,并根据控制屏障功能提供了基于控制屏障功能的当地搜索和分散的控制器,以确保安全并鼓励及时到达传感位置。通过大量的模拟,硬件测试和硬件实验,我们证明了所提出的方法比基于坐标下降的算法在感应和能源成本之间取得更好的权衡。
translated by 谷歌翻译
We consider the problem of multi-agent navigation and collision avoidance when observations are limited to the local neighborhood of each agent. We propose InforMARL, a novel architecture for multi-agent reinforcement learning (MARL) which uses local information intelligently to compute paths for all the agents in a decentralized manner. Specifically, InforMARL aggregates information about the local neighborhood of agents for both the actor and the critic using a graph neural network and can be used in conjunction with any standard MARL algorithm. We show that (1) in training, InforMARL has better sample efficiency and performance than baseline approaches, despite using less information, and (2) in testing, it scales well to environments with arbitrary numbers of agents and obstacles.
translated by 谷歌翻译
去中心化的国家估计是GPS贬低的地区自动空中群体系统中最基本的组成部分之一,但它仍然是一个极具挑战性的研究主题。本文提出了Omni-swarm,一种分散的全向视觉惯性-UWB状态估计系统,用于解决这一研究利基市场。为了解决可观察性,复杂的初始化,准确性不足和缺乏全球一致性的问题,我们在Omni-warm中引入了全向感知前端。它由立体宽型摄像机和超宽带传感器,视觉惯性探测器,基于多无人机地图的本地化以及视觉无人机跟踪算法组成。前端的测量值与后端的基于图的优化融合在一起。所提出的方法可实现厘米级的相对状态估计精度,同时确保空中群中的全球一致性,这是实验结果证明的。此外,在没有任何外部设备的情况下,可以在全面的无人机间碰撞方面支持,表明全旋转的潜力是自动空中群的基础。
translated by 谷歌翻译
近年来我们目睹了巨大进展的动机,本文提出了对协作同时定位和映射(C-SLAM)主题的科学文献的调查,也称为多机器人猛击。随着地平线上的自动驾驶车队和工业应用中的多机器人系统的兴起,我们相信合作猛击将很快成为未来机器人应用的基石。在本调查中,我们介绍了C-Slam的基本概念,并呈现了彻底的文献综述。我们还概述了C-Slam在鲁棒性,通信和资源管理方面的主要挑战和限制。我们通过探索该地区目前的趋势和有前途的研究途径得出结论。
translated by 谷歌翻译
Policy search methods can allow robots to learn control policies for a wide range of tasks, but practical applications of policy search often require hand-engineered components for perception, state estimation, and low-level control. In this paper, we aim to answer the following question: does training the perception and control systems jointly end-toend provide better performance than training each component separately? To this end, we develop a method that can be used to learn policies that map raw image observations directly to torques at the robot's motors. The policies are represented by deep convolutional neural networks (CNNs) with 92,000 parameters, and are trained using a guided policy search method, which transforms policy search into supervised learning, with supervision provided by a simple trajectory-centric reinforcement learning method. We evaluate our method on a range of real-world manipulation tasks that require close coordination between vision and control, such as screwing a cap onto a bottle, and present simulated comparisons to a range of prior policy search methods.
translated by 谷歌翻译
模块化机器人可以在每天重新排列到新设计中,通过为每项新任务形成定制机器人来处理各种各样的任务。但是,重新配置的机制是不够的:每个设计还需要自己独特的控制策略。人们可以从头开始为每个新设计制作一个政策,但这种方法不可扩展,特别是给出了甚至一小组模块可以生成的大量设计。相反,我们创建了一个模块化策略框架,策略结构在硬件排列上有调节,并仅使用一个培训过程来创建控制各种设计的策略。我们的方法利用了模块化机器人的运动学可以表示为设计图,其中节点作为模块和边缘作为它们之间的连接。给定机器人,它的设计图用于创建具有相同结构的策略图,其中每个节点包含一个深神经网络,以及通过共享参数的相同类型共享知识的模块(例如,Hexapod上的所有腿都相同网络参数)。我们开发了一种基于模型的强化学习算法,交织模型学习和轨迹优化,以培训策略。我们展示了模块化政策推广到培训期间没有看到的大量设计,没有任何额外的学习。最后,我们展示了与模拟和真实机器人一起控制各种设计的政策。
translated by 谷歌翻译
在这项工作中,我们提出了一种数据驱动的方法来优化机器人团队的代数连接。虽然对这个问题进行了相当大量的研究,但我们缺乏一种方法以适合于少数代理商的在线应用程序的方式缩放。为此,我们提出了一种具有卷积神经网络(CNN)的监督学习方法,该方法学习从使用基于优化的策略的专家中展开沟通代理。我们展示了我们CNN对规范线和环形拓扑的表现,105K随机生成的测试用例,以及在训练期间没有看到的更大团队。我们还展示了我们的系统如何通过基于团结的仿真来应用于动态机器人团队。在培训之后,我们的系统产生连接的配置,比10-20代理团队的优化方案快,更快地增加2个数量级。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
While the capabilities of autonomous systems have been steadily improving in recent years, these systems still struggle to rapidly explore previously unknown environments without the aid of GPS-assisted navigation. The DARPA Subterranean (SubT) Challenge aimed to fast track the development of autonomous exploration systems by evaluating their performance in real-world underground search-and-rescue scenarios. Subterranean environments present a plethora of challenges for robotic systems, such as limited communications, complex topology, visually-degraded sensing, and harsh terrain. The presented solution enables long-term autonomy with minimal human supervision by combining a powerful and independent single-agent autonomy stack, with higher level mission management operating over a flexible mesh network. The autonomy suite deployed on quadruped and wheeled robots was fully independent, freeing the human supervision to loosely supervise the mission and make high-impact strategic decisions. We also discuss lessons learned from fielding our system at the SubT Final Event, relating to vehicle versatility, system adaptability, and re-configurable communications.
translated by 谷歌翻译
主动位置估计(APE)是使用一个或多个传感平台本地化一个或多个目标的任务。 APE是搜索和拯救任务,野生动物监测,源期限估计和协作移动机器人的关键任务。 APE的成功取决于传感平台的合作水平,他们的数量,他们的自由度和收集的信息的质量。 APE控制法通过满足纯粹剥削或纯粹探索性标准,可以实现主动感测。前者最大限度地减少了位置估计的不确定性;虽然后者驱动了更接近其任务完成的平台。在本文中,我们定义了系统地分类的主要元素,并批判地讨论该域中的最新状态。我们还提出了一个参考框架作为对截图相关的解决方案的形式主义。总体而言,本调查探讨了主要挑战,并设想了本地化任务的自主感知系统领域的主要研究方向。促进用于搜索和跟踪应用的强大主动感测方法的开发也有益。
translated by 谷歌翻译