分散的多机器人目标跟踪的问题要求共同选择动作,例如运动原语,以使机器人通过本地通信最大化目标跟踪性能。实施实施的一个主要挑战是使目标跟踪方法可扩展到大规模的问题实例。在这项工作中,我们提出了通用学习体系结构,以通过分散的通信进行大规模的协作目标跟踪。特别是,我们的学习体系结构利用图形神经网络(GNN)捕获机器人的本地互动,并学习机器人的分散决策。我们通过模仿专家解决方案来训练学习模型,并实施仅涉及本地观察和沟通的分散行动选择的最终模型。我们在使用大型机器人网络的主动目标跟踪方案中演示了基于GNN的学习方法的性能。仿真结果表明,我们的方法几乎与专家算法的跟踪性能相匹配,但最多可以使用多达100个机器人运行多个订单。此外,它的表现略高于分散的贪婪算法,但运行速度更快(尤其是20多个机器人)。结果还显示了我们在以前看不见的情况下的方法的概括能力,例如,较大的环境和较大的机器人网络。
translated by 谷歌翻译
多机器人覆盖计划问题的集中式方法缺乏可扩展性。基于学习的分布式算法除了将面向数据的功能生成功能带入表格外,还提供了可扩展的途径,从而允许与其他基于学习的方法集成。为此,我们提出了一个基于学习的,可区分的分布式覆盖范围计划(D2COPL A N),该计划者与专家算法相比在运行时和代理数量上有效地扩展,并与经典分布式算法相同。此外,我们表明D2Coplan可以与其他学习方法无缝地结合到端到端的学习方法,从而提供了比单独训练的模块更好的解决方案,从而打开了进一步的研究,以进一步研究以经典方法难以捉摸的任务。
translated by 谷歌翻译
本文解决了多机器人主动信息采集(AIA)问题,其中一组移动机器人通过基础图进行通信,估计一个表达感兴趣现象的隐藏状态。可以在此框架中表达诸如目标跟踪,覆盖范围和大满贯之类的应用程序。但是,现有的方法要么是不可扩展的,因此无法处理动态现象,或者对通信图中的变化不健全。为了应对这些缺点,我们提出了一个信息感知的图形块网络(I-GBNET),即图形神经网络的AIA适应,该网络将信息通过图表表示,并以分布式方式提供顺序决定。通过基于集中抽样的专家求解器训练通过模仿学习训练的I-GBNET表现出置换量比和时间不变性,同时利用了对以前看不见的环境和机器人配置的卓越可扩展性,鲁棒性和概括性。与训练中看到的相比,隐藏状态和更复杂的环境的实验和更复杂的环境实验验证了所提出的体系结构的特性及其在应用定位和动态目标的应用中的功效。
translated by 谷歌翻译
在本文中,我们使用基于视觉的图形聚合和推理(VGAI)呈现了一种感知 - 动作通信环路设计。这种多代理分散的学习 - 控制框架将原始的视觉观测映射到代理操作,并通过相邻代理之间的本地通信提供帮助。我们的框架是由圆形卷积和图形神经网络(CNN / GNN)的级联实现,寻址代理级视觉感知和特征学习,以及群级通信,本地信息聚合和代理动作推断。通过联合训练CNN和GNN,结合了解图像特征和通信消息以更好地解决特定任务。我们使用模仿学习在离线阶段训练VGAI控制器,依赖于集中式专家控制器。这导致学习的VGAI控制器可以以分布式方式部署以进行在线执行。此外,控制器展示了良好的缩放性质,在较大的团队中具有较小的团队和应用程序的培训。通过多代理植入应用程序,我们证明VGAI产生与其他分散的控制器相当或更好地使用视觉输入模态,而不访问精确的位置或运动状态信息。
translated by 谷歌翻译
多机器人决策是多个机器人协调操作的过程。在本文中,尽管机器人有限的车载资源和其任务的资源要求复杂性,但我们的目标是可扩展可靠的多机器人决策。我们介绍了第一种使机器人可以选择其他机器人协调的算法,从而平衡了集中式与分散协调的权衡。特别是,集中化有利于全球近乎最佳的决策,但付出了增加的船上资源要求;而权力下放有利于最小的资源要求,但以全球次优的成本。因此,所有机器人都可以负担我们的算法,无论其资源如何。我们受到自治的未来的激励,涉及多个机器人协调行动以完成资源需求任务,例如目标跟踪和区域覆盖。为了提供封闭形式的特征,我们专注于涉及单调和“双重”下函数的最大化问题。为了捕获权力下放的成本,我们介绍了在非邻居(COIN)中的信息集中概念。我们在图像覆盖的模拟场景中验证我们的算法。
translated by 谷歌翻译
我们考虑将移动机器人导航到具有视觉传感器的未知环境中的问题,在该环境中,机器人和传感器都无法访问全局定位信息,并且仅使用第一人称视图图像。虽然基于传感器网络的先前工作使用明确的映射和计划技术,并且经常得到外部定位系统的帮助,但我们提出了一种基于视觉的学习方法,该方法利用图形神经网络(GNN)来编码和传达相关的视点信息到移动机器人。在导航期间,机器人以模型为指导,我们通过模仿学习训练以近似最佳的运动原语,从而预测有效的成本(目标)。在我们的实验中,我们首先证明了具有各种传感器布局的以前看不见的环境的普遍性。仿真结果表明,通过利用传感器和机器人之间的通信,我们可以达到$ 18.1 \%$ $的成功率,同时将路径弯路的平均值降低$ 29.3 \%$,并且可变性降低了$ 48.4 \%$ $。这是在不需要全局地图,定位数据或传感器网络预校准的情况下完成的。其次,我们将模型从模拟到现实世界进行零拍传输。为此,我们训练一个“翻译器”模型,该模型在{}真实图像和模拟图像之间转换,以便可以直接在真实的机器人上使用导航策略(完全在模拟中训练),而无需其他微调。 。物理实验证明了我们在各种混乱的环境中的有效性。
translated by 谷歌翻译
我们考虑一个设置机器人团队的任务是跟踪以下属性的多个目标:接近目标可以实现更准确的目标位置估计,同时也增加了传感器故障的风险。因此,要解决跟踪质量最大化和风险最小化之间的权衡至关重要。在我们以前的工作中,开发了一个集中式控制器来规划所有机器人的动作 - 但是,这不是可扩展的方法。在这里,我们提出了一个分散且具有风险的多目标跟踪框架,在该框架中,每个机器人都计划其运动交易的跟踪准确性最大化和厌恶风险,同时仅依靠其与邻居交流的信息和信息。我们使用控制屏障函数来保证整个跟踪过程中的网络连接。广泛的数值实验表明,我们的系统可以达到与集中式同行相似的跟踪准确性和风险意识。
translated by 谷歌翻译
本文考虑了安全协调一个配备传感器的机器人团队的问题,以减少有关动态过程的不确定性,而该过程将使目标消除信息增益和能源成本。优化这种权衡是可取的,但是在机器人轨迹集中导致非占主酮目标函数。因此,基于协调下降的普通多机器人计划者失去了其性能保证。此外,处理非单调性的方法在受到机器人间碰撞避免约束时会失去其性能保证。由于需要保留性能保证和安全保证,这项工作提出了一种分布式计划者的层次结构方法,该方法使用本地搜索,并根据控制屏障功能提供了基于控制屏障功能的当地搜索和分散的控制器,以确保安全并鼓励及时到达传感位置。通过大量的模拟,硬件测试和硬件实验,我们证明了所提出的方法比基于坐标下降的算法在感应和能源成本之间取得更好的权衡。
translated by 谷歌翻译
我们在不可预测的环境中启用有效和有效的协调,即,在未来进化的环境中是未知的先验甚至对抗性的环境。我们受到自治的未来的激励,涉及多个机器人在动态,非结构化和对抗性环境中协调,以完成复杂的任务,例如目标跟踪,图像覆盖率和区域监视。此类任务通常被建模为子管道最大化协调问题。因此,我们介绍了第一个具有有限跟踪遗憾的第一个子管道协调算法,即,关于最佳的时间变化的行动,次要次数有限,这些行动知道未来是先验的未来。该界限随着环境的对抗性能力而优雅地降级。它还量化了机器人必须重新选择的操作以“学习”以进行协调的频率,就像他们知道未来是先验的。我们的算法概括了Fisher等人的开创性顺序贪婪算法。为了不可预测的环境,利用子模性和算法来跟踪最佳专家的问题。我们在目标跟踪的模拟方案中验证算法。
translated by 谷歌翻译
多机器人自适应抽样问题旨在为机器人团队找到轨迹,以有效地对机器人的给定耐力预算中的感兴趣现象进行采样。在本文中,我们使用分散的多代理增强学习来提出一种可靠,可扩展的方法,用于准静态环境过程的合作自适应采样(MARLAS)。鉴于该领域的先验采样,该提议的方法学习了一个机器人团队的分散政策,以在固定预算范围内采样高实现区域。多机器人自适应采样问题要求机器人彼此协调,以避免重叠的采样轨迹。因此,我们编码机器人之间的邻居位置和间歇性通信在学习过程中的估计值。我们评估了Marlas对多个性能指标的评估,发现它的表现优于其他基线多机器人采样技术。我们进一步证明了与机器人团队的大小和所采样区域的大小相对于通信失败和可伸缩性的鲁棒性。实验评估既是对真实数据的模拟,又在演示环境设置的实际机器人实验中进行的。
translated by 谷歌翻译
本文介绍了狐猴,这是一种从合作任务演示中学习可扩展的多机器人控制政策的算法。我们建议对多机器人系统的港口港口描述,以利用互连系统中的通用物理约束并实现闭环稳定性。我们使用结合自我注意机制和神经普通微分方程的体系结构代表多机器人控制策略。前者在机器人团队中处理时变的沟通,而后者则尊重连续的机器人动力学。我们的表示是通过施工分配的,使学习的控制政策能够部署在不同大小的机器人团队中。我们证明,狐猴可以从多机导航和羊群任务的演示中学习互动和合作行为。
translated by 谷歌翻译
近年来,研究人员委托机器人和无人驾驶汽车(UAV)团队委托进行准确的在线野火覆盖范围和跟踪。迄今为止,大多数先前的工作都集中在此类多机器人系统的协调和控制上,但尚未赋予这些无人机团队对火的轨道(即位置和传播动态)进行推理的能力,以提供性能保证时间范围。在空中野火监测的问题上,我们提出了一个预测框架,该框架使多UAV团队的合作能够与概率性能保证一起进行协作现场覆盖和火灾跟踪。我们的方法使无人机能够推断出潜在的火灾传播动态,以在安全至关重要的条件下进行时间扩展的协调。我们得出了一组新颖的,分析的时间和跟踪纠纷界限,以使无人机团队根据特定于案例的估计状态分发有限的资源并覆盖整个火灾区域,并提供概率性能保证。我们的结果不仅限于空中野火监测案例研究,而且通常适用于搜索和救援,目标跟踪和边境巡逻等问题。我们在模拟中评估了我们的方法,并在物理多机器人测试台上提供了建议的框架,以说明真实的机器人动态和限制。我们的定量评估验证了我们的方法的性能,分别比基于最新的模型和强化学习基准分别累积了7.5倍和9.0倍的跟踪误差。
translated by 谷歌翻译
我们为仓库环境中的移动机器人提供基于新颖的强化学习(RL)任务分配和分散的导航算法。我们的方法是针对各种机器人执行各种接送和交付任务的场景而设计的。我们考虑了联合分散任务分配和导航的问题,并提出了解决该问题的两层方法。在更高级别,我们通过根据马尔可夫决策过程制定任务并选择适当的奖励来最大程度地减少总旅行延迟(TTD)来解决任务分配。在较低级别,我们使用基于ORCA的分散导航方案,使每个机器人能够独立执行这些任务,并避免与其他机器人和动态障碍物发生碰撞。我们通过定义较高级别的奖励作为低级导航算法的反馈来结合这些下层和上层。我们在复杂的仓库布局中进行了广泛的评估,并具有大量代理商,并根据近视拾取距离距离最小化和基于遗憾的任务选择,突出了对最先进算法的好处。我们观察到任务完成时间的改善高达14%,并且在计算机器人的无碰撞轨迹方面提高了40%。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
在这项工作中,我们提出了一种数据驱动的方法来优化机器人团队的代数连接。虽然对这个问题进行了相当大量的研究,但我们缺乏一种方法以适合于少数代理商的在线应用程序的方式缩放。为此,我们提出了一种具有卷积神经网络(CNN)的监督学习方法,该方法学习从使用基于优化的策略的专家中展开沟通代理。我们展示了我们CNN对规范线和环形拓扑的表现,105K随机生成的测试用例,以及在训练期间没有看到的更大团队。我们还展示了我们的系统如何通过基于团结的仿真来应用于动态机器人团队。在培训之后,我们的系统产生连接的配置,比10-20代理团队的优化方案快,更快地增加2个数量级。
translated by 谷歌翻译
我们开发了一个多功能辅助救援学习(MARL)方法,以了解目标跟踪的可扩展控制策略。我们的方法可以处理任意数量的追求者和目标;我们显示出现的任务,该任务包括高达1000追踪跟踪1000个目标。我们使用分散的部分可观察的马尔可夫决策过程框架来模拟追求者作为接受偏见观察(范围和轴承)的代理,了解使用固定的未知政策的目标。注意机制用于参数化代理的价值函数;这种机制允许我们处理任意数量的目标。熵 - 正规的脱助政策RL方法用于培训随机政策,我们讨论如何在追求者之间实现对冲行为,尽管有完全分散的控制执行,但仍然导致合作较弱的合作形式。我们进一步开发了一个掩蔽启发式,允许训练较少的问题,少量追求目标和在更大的问题上执行。进行彻底的仿真实验,消融研究和对现有技术算法的比较,以研究对不同数量的代理和目标性能的方法和鲁棒性的可扩展性。
translated by 谷歌翻译
最先进的多机构增强学习(MARL)方法为各种复杂问题提供了有希望的解决方案。然而,这些方法都假定代理执行同步的原始操作执行,因此它们不能真正可扩展到长期胜利的真实世界多代理/机器人任务,这些任务固有地要求代理/机器人以异步的理由,涉及有关高级动作选择的理由。不同的时间。宏观行动分散的部分可观察到的马尔可夫决策过程(MACDEC-POMDP)是在完全合作的多代理任务中不确定的异步决策的一般形式化。在本论文中,我们首先提出了MacDec-Pomdps的一组基于价值的RL方法,其中允许代理在三个范式中使用宏观成果功能执行异步学习和决策:分散学习和控制,集中学习,集中学习和控制,以及分散执行的集中培训(CTDE)。在上述工作的基础上,我们在三个训练范式下制定了一组基于宏观行动的策略梯度算法,在该训练范式下,允许代理以异步方式直接优化其参数化策略。我们在模拟和真实的机器人中评估了我们的方法。经验结果证明了我们在大型多代理问题中的方法的优势,并验证了我们算法在学习具有宏观actions的高质量和异步溶液方面的有效性。
translated by 谷歌翻译
模块化机器人可以在每天重新排列到新设计中,通过为每项新任务形成定制机器人来处理各种各样的任务。但是,重新配置的机制是不够的:每个设计还需要自己独特的控制策略。人们可以从头开始为每个新设计制作一个政策,但这种方法不可扩展,特别是给出了甚至一小组模块可以生成的大量设计。相反,我们创建了一个模块化策略框架,策略结构在硬件排列上有调节,并仅使用一个培训过程来创建控制各种设计的策略。我们的方法利用了模块化机器人的运动学可以表示为设计图,其中节点作为模块和边缘作为它们之间的连接。给定机器人,它的设计图用于创建具有相同结构的策略图,其中每个节点包含一个深神经网络,以及通过共享参数的相同类型共享知识的模块(例如,Hexapod上的所有腿都相同网络参数)。我们开发了一种基于模型的强化学习算法,交织模型学习和轨迹优化,以培训策略。我们展示了模块化政策推广到培训期间没有看到的大量设计,没有任何额外的学习。最后,我们展示了与模拟和真实机器人一起控制各种设计的政策。
translated by 谷歌翻译
本文介绍了一种可以在非通信和局部可观察条件下应用的新型混合多机器人运动计划。策划员是无模型的,可以实现多机器人状态和观察信息的端到端映射到最终平滑和连续的轨迹。规划师是前端和后端分离的架构。前端协作航点搜索模块的设计基于具有分散执行图的集中培训下的多代理软演员批评算法。后端轨迹优化模块的设计基于具有安全区域约束的最小快照方法。该模块可以输出最终动态可行和可执行的轨迹。最后,多组实验结果验证了拟议的运动计划员的有效性。
translated by 谷歌翻译
主动位置估计(APE)是使用一个或多个传感平台本地化一个或多个目标的任务。 APE是搜索和拯救任务,野生动物监测,源期限估计和协作移动机器人的关键任务。 APE的成功取决于传感平台的合作水平,他们的数量,他们的自由度和收集的信息的质量。 APE控制法通过满足纯粹剥削或纯粹探索性标准,可以实现主动感测。前者最大限度地减少了位置估计的不确定性;虽然后者驱动了更接近其任务完成的平台。在本文中,我们定义了系统地分类的主要元素,并批判地讨论该域中的最新状态。我们还提出了一个参考框架作为对截图相关的解决方案的形式主义。总体而言,本调查探讨了主要挑战,并设想了本地化任务的自主感知系统领域的主要研究方向。促进用于搜索和跟踪应用的强大主动感测方法的开发也有益。
translated by 谷歌翻译