智能论文笔记

Adapting the Exploration-Exploitation Balance in Heterogeneous Swarms: Tracking Evasive Targets

Hian Lee Kwa , Victor Babineau , Julien Philippot , Roland Bouffanais

分类：机器人

2022-07-27

在各种任务和场景中使用多机器人系统的使用越来越兴趣。这种系统的主要吸引力是它们的灵活性，鲁棒性和可扩展性。系统模块化是一个经常被忽视但有希望的功能，它为利用代理专业化提供了可能性，同时还可以实现系统级别的升级。但是，改变代理的能力可以改变最大化系统性能所需的勘探探索示例平衡。在这里，我们研究了群异质性对其探索探索平衡的影响，同时跟踪在对多个移动目标框架的合作多机器人观察下跟踪多个快速移动的回避目标。为此，我们使用分散的搜索和跟踪策略，并具有可调节水平的探索和剥削水平。通过间接调整平衡，我们首先确认这两个关键的竞争动作之间存在最佳平衡。接下来，通过用更快的速度替换较慢的移动剂，我们表明该系统表现出了性能的改进，而无需对原始策略进行任何修改。此外，由于更快的代理商进行了额外的剥削量，我们证明，可以通过降低代理的连接水平来进一步改善异质系统的性能，从而有利于探索性动作的行为。此外，在研究蜂群剂的密度的影响时，我们表明，加快代理的添加可以抵消代理数量的减少，同时保持跟踪性能的水平。最后，我们探索使用差异化策略来利用群体的异质性质的挑战。

translated by 谷歌翻译

Active Sensing for Search and Tracking: A Review

Luca Varotto , Angelo Cenedese , Andrea Cavallaro

分类：机器人

2021-12-04

主动位置估计（APE）是使用一个或多个传感平台本地化一个或多个目标的任务。 APE是搜索和拯救任务，野生动物监测，源期限估计和协作移动机器人的关键任务。 APE的成功取决于传感平台的合作水平，他们的数量，他们的自由度和收集的信息的质量。 APE控制法通过满足纯粹剥削或纯粹探索性标准，可以实现主动感测。前者最大限度地减少了位置估计的不确定性;虽然后者驱动了更接近其任务完成的平台。在本文中，我们定义了系统地分类的主要元素，并批判地讨论该域中的最新状态。我们还提出了一个参考框架作为对截图相关的解决方案的形式主义。总体而言，本调查探讨了主要挑战，并设想了本地化任务的自主感知系统领域的主要研究方向。促进用于搜索和跟踪应用的强大主动感测方法的开发也有益。

translated by 谷歌翻译

Robust Multi-Robot Coverage of Unknown Environments using a Distributed Robot Swarm

Vu Phi Tran , Matthew A. Garratt , Kathryn Kasmarik , Sreenatha G. Anavatti

分类：机器人

2021-11-29

在移动机器人学中，区域勘探和覆盖率是关键能力。在大多数可用研究中，共同的假设是全球性，远程通信和集中合作。本文提出了一种新的基于群的覆盖控制算法，可以放松这些假设。该算法组合了两个元素：Swarm规则和前沿搜索算法。受到大量简单代理（例如，教育鱼，植绒鸟类，蜂拥昆虫）的自然系统的启发，第一元素使用三个简单的规则来以分布式方式维持群体形成。第二元素提供了选择有希望区域以使用涉及代理的相对位置的成本函数的最小化来探索（和覆盖）的装置。我们在不同环境中测试了我们的方法对异质和同质移动机器人的性能。我们衡量覆盖性能和允许本集团维持沟通的覆盖性能和群体形成统计数据。通过一系列比较实验，我们展示了拟议的策略在最近提出的地图覆盖方法和传统的人工潜在领域基于细胞覆盖，转变和安全路径的百分比，同时保持允许短程的形成沟通。

translated by 谷歌翻译

A Self-Guided Approach for Navigation in a Minimalistic Foraging Robotic Swarm

Steven Adams , Daniel Jarne Ornia , Manuel Mazo Jr

分类：机器人

2021-05-21

我们提出了群生物设计灵感觅食基于蚂蚁信息素的部署，其中假设群有非常有限的能力。机器人不需要全局或相对位置测量和群充分分散，需要在地方没有基础设施。此外，该系统只需要在机器人上的网络单跳通信，我们不做出关于通信图的连通性和信息与计算传输的任何假设是可扩展的与代理的数量。这是通过在群充当觅食让剂或作为导向剂（信标）来完成。我们目前的实验结果计算了ELISA的3个机器人的一个模拟器群，并展示如何在群自行组织了一个未知的环境中解决问题觅食，汇聚成各地的最短路径轨迹。最后，我们讨论这样一个系统的局限性，并提出了觅食的效率如何可以增加。

translated by 谷歌翻译

Toward multi-target self-organizing pursuit in a partially observable Markov game

Lijun Sun , Yu-Cheng Chang , Chao Lyu , Ye Shi , Yuhui Shi , Chin-Teng Lin

分类：人工智能

2022-06-24

多目标自组织追求（SOP）问题已广泛应用，并被认为是一个充满挑战的分布式系统的自组织游戏，在该系统中，智能代理在其中合作追求具有部分观察的多个动态目标。这项工作为分散的多机构系统提出了一个框架，以提高智能代理的搜索和追求能力。我们将一个自组织的系统建模为可观察到的马尔可夫游戏（POMG），具有权力下放，部分观察和非通信的特征。然后将拟议的分布式算法：模糊自组织合作协同进化（FSC2）杠杆化，以解决多目标SOP中的三个挑战：分布式自组织搜索（SOS），分布式任务分配和分布式单目标追踪。 FSC2包括一种协调的多代理深钢筋学习方法，该方法使均匀的代理能够学习天然SOS模式。此外，我们提出了一种基于模糊的分布式任务分配方法，该方法将多目标SOP分解为几个单目标追求问题。合作进化原则用于协调每个单一目标问题的分布式追随者。因此，可以缓解POMG中固有的部分观察和分布式决策的不确定性。实验结果表明，在所有三个子任务中，分布式不传动的多机构协调都具有部分观察结果，而2048 FSC2代理可以执行有效的多目标SOP，其捕获率几乎为100％。

translated by 谷歌翻译

Multi-UAV Planning for Cooperative Wildfire Coverage and Tracking with Quality-of-Service Guarantees

Esmaeil Seraj , Andrew Silva , Matthew Gombolay

分类：机器人 | 人工智能

2022-06-21

近年来，研究人员委托机器人和无人驾驶汽车（UAV）团队委托进行准确的在线野火覆盖范围和跟踪。迄今为止，大多数先前的工作都集中在此类多机器人系统的协调和控制上，但尚未赋予这些无人机团队对火的轨道（即位置和传播动态）进行推理的能力，以提供性能保证时间范围。在空中野火监测的问题上，我们提出了一个预测框架，该框架使多UAV团队的合作能够与概率性能保证一起进行协作现场覆盖和火灾跟踪。我们的方法使无人机能够推断出潜在的火灾传播动态，以在安全至关重要的条件下进行时间扩展的协调。我们得出了一组新颖的，分析的时间和跟踪纠纷界限，以使无人机团队根据特定于案例的估计状态分发有限的资源并覆盖整个火灾区域，并提供概率性能保证。我们的结果不仅限于空中野火监测案例研究，而且通常适用于搜索和救援，目标跟踪和边境巡逻等问题。我们在模拟中评估了我们的方法，并在物理多机器人测试台上提供了建议的框架，以说明真实的机器人动态和限制。我们的定量评估验证了我们的方法的性能，分别比基于最新的模型和强化学习基准分别累积了7.5倍和9.0倍的跟踪误差。

translated by 谷歌翻译

Constrained multi-agent ergodic area surveying control based on finite element approximation of the potential field

Stefan Ivić , Ante Sikirica , Bojan Crnković

分类：机器人

2021-09-22

热方程驱动区域覆盖范围（HEDAC）是由潜在场的梯度引导的最先进的多机颈运动控制。特此实施有限元方法以获得Helmholtz部分微分方程的解决方案，该方程对测量运动控制的潜在字段进行了建模。这使我们能够调查任意形状的领域，并以优雅而健壮的方式包括Hedac的基本想法。对于简单的运动运动运动，通过将试剂运动用电位的梯度引导，可以成功处理障碍和边界避免限制。但是，包括其他约束，例如固定障碍物和移动障碍物的最小间隙距离以及最小的路径曲率半径，都需要控制算法的进一步交替。我们通过基于无碰撞逃生路线操纵的直接优化问题制定了一种相对简单但可靠的方法来处理这些约束的方法。这种方法提供了保证的避免碰撞机制，同时由于优化问题分配而在计算上是便宜的。在三个现实的测量场景模拟中评估了所提出的运动控制，显示了测量的有效性和控制算法的鲁棒性。此外，突出了由于定义不当的测量场景而引起的潜在操纵困难，我们提供了有关如何超越它们的指南。结果是有希望的，并表明了对自主测量和潜在的其他HEDAC利用的拟议受限的多代理运动控制的现实适用性。

translated by 谷歌翻译

A Survey on Active Simultaneous Localization and Mapping: State of the Art and New Frontiers

Julio A. Placed , Jared Strader , Henry Carrillo , Nikolay Atanasov , Vadim Indelman , Luca Carlone , José A. Castellanos

分类：机器人

2022-07-01

主动同时定位和映射（SLAM）是规划和控制机器人运动以构建周围环境中最准确，最完整的模型的问题。自从三十多年前出现了积极感知的第一项基础工作以来，该领域在不同科学社区中受到了越来越多的关注。这带来了许多不同的方法和表述，并回顾了当前趋势，对于新的和经验丰富的研究人员来说都是非常有价值的。在这项工作中，我们在主动大满贯中调查了最先进的工作，并深入研究了仍然需要注意的公开挑战以满足现代应用程序的需求。为了实现现实世界的部署。在提供了历史观点之后，我们提出了一个统一的问题制定并审查经典解决方案方案，该方案将问题分解为三个阶段，以识别，选择和执行潜在的导航措施。然后，我们分析替代方法，包括基于深入强化学习的信念空间规划和现代技术，以及审查有关多机器人协调的相关工作。该手稿以讨论新的研究方向的讨论，解决可再现的研究，主动的空间感知和实际应用，以及其他主题。

translated by 谷歌翻译

A Survey of Multi-Agent Human-Robot Interaction Systems

Abhinav Dahiya , Alexander M. Aroyo , Kerstin Dautenhahn , Stephen L. Smith

分类：机器人

2022-12-10

This article presents a survey of literature in the area of Human-Robot Interaction (HRI), specifically on systems containing more than two agents (i.e., having multiple humans and/or multiple robots). We identify three core aspects of ``Multi-agent" HRI systems that are useful for understanding how these systems differ from dyadic systems and from one another. These are the Team structure, Interaction style among agents, and the system's Computational characteristics. Under these core aspects, we present five attributes of HRI systems, namely Team size, Team composition, Interaction model, Communication modalities, and Robot control. These attributes are used to characterize and distinguish one system from another. We populate resulting categories with examples from recent literature along with a brief discussion of their applications and analyze how these attributes differ from the case of dyadic human-robot systems. We summarize key observations from the current literature, and identify challenges and promising areas for future research in this domain. In order to realize the vision of robots being part of the society and interacting seamlessly with humans, there is a need to expand research on multi-human -- multi-robot systems. Not only do these systems require coordination among several agents, they also involve multi-agent and indirect interactions which are absent from dyadic HRI systems. Adding multiple agents in HRI systems requires advanced interaction schemes, behavior understanding and control methods to allow natural interactions among humans and robots. In addition, research on human behavioral understanding in mixed human-robot teams also requires more attention. This will help formulate and implement effective robot control policies in HRI systems with large numbers of heterogeneous robots and humans; a team composition reflecting many real-world scenarios.

translated by 谷歌翻译

Improved Reinforcement Learning in Cooperative Multi-agent Environments Using Knowledge Transfer

Mahnoosh Mahdavimoghaddam , Amin Nikanjam , Monireh Abdoos

分类：人工智能 | 机器学习

2021-07-20

如今，合作多代理系统用于学习如何在大规模动态环境中实现目标。然而，在这些环境中的学习是具有挑战性的：从搜索空间大小对学习时间的影响，代理商之间的低效合作。此外，增强学习算法可能遭受这种环境的长时间的收敛。本文介绍了通信框架。在拟议的沟通框架中，代理商学会有效地合作，同时通过引入新的状态计算方法，状态空间的大小将大大下降。此外，提出了一种知识传输算法以共享不同代理商之间的获得经验，并制定有效的知识融合机制，以融合利用来自其他团队成员所收到的知识的代理商自己的经验。最后，提供了模拟结果以指示所提出的方法在复杂学习任务中的功效。我们已经评估了我们对牧羊化问题的方法，结果表明，通过利用知识转移机制，学习过程加速了，通过基于状态抽象概念产生类似国家的状态空间的大小均下降。

translated by 谷歌翻译

Partially Observable Markov Decision Processes in Robotics: A Survey

Mikko Lauri , David Hsu , Joni Pajarinen

分类：机器人 | 人工智能

2022-09-21

嘈杂的传感，不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程（POMDP）提供了一个原则上的数学框架，用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中，它看到了许多成功的应用程序，涵盖了本地化和导航，搜索和跟踪，自动驾驶，多机器人系统，操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距，以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征，并将它们与POMDP框架的数学和算法属性联系起来，以进行有效的建模和解决方案。对于从业者来说，调查提供了一些关键任务特征，以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师，该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解，并指出了有希望的新方向进行进一步研究。

translated by 谷歌翻译

Collective phototactic robotectonics

Fabio Giardina , S Ganga Prasath , L Mahadevan

分类：机器人

2022-08-25

合作的任务执行是欧洲社会性的标志，通过代理与环境之间的本地交互通过动态发展的通信信号来实现。受社会昆虫的集体行为的启发，其动力学是由与环境相互作用的调节的，我们表明机器人集体可以通过捕获不稳定成功地对建筑工地进行成核，并合作地建立有组织的结构。相同的机器人集体还可以执行DE-构建，而行为参数的简单更改。这些行为属于沿一个轴的代理商相互作用（合作）定义的合作行为的二维相空间，而另一个轴则是代理 - 环境的相互作用（收集和沉积）。我们基于行为的机器人设计方法结合了本地规则的原则推导，使集体能够以鲁棒性解决动态变化的环境和丰富的复杂行为。

translated by 谷歌翻译

HTML版本

Scalable Reinforcement Learning Policies for Multi-Agent Control

Christopher D. Hsu , Heejin Jeong , George J. Pappas , Pratik Chaudhari

分类：机器学习

2020-11-16

我们开发了一个多功能辅助救援学习（MARL）方法，以了解目标跟踪的可扩展控制策略。我们的方法可以处理任意数量的追求者和目标;我们显示出现的任务，该任务包括高达1000追踪跟踪1000个目标。我们使用分散的部分可观察的马尔可夫决策过程框架来模拟追求者作为接受偏见观察（范围和轴承）的代理，了解使用固定的未知政策的目标。注意机制用于参数化代理的价值函数;这种机制允许我们处理任意数量的目标。熵 - 正规的脱助政策RL方法用于培训随机政策，我们讨论如何在追求者之间实现对冲行为，尽管有完全分散的控制执行，但仍然导致合作较弱的合作形式。我们进一步开发了一个掩蔽启发式，允许训练较少的问题，少量追求目标和在更大的问题上执行。进行彻底的仿真实验，消融研究和对现有技术算法的比较，以研究对不同数量的代理和目标性能的方法和鲁棒性的可扩展性。

translated by 谷歌翻译

Deep reinforcement learning of event-triggered communication and consensus-based control for distributed cooperative transport

Kazuki Shibata , Tomohiko Jimbo , Takamitsu Matsubara

分类：机器人

2022-12-05

In this paper, we present a solution to a design problem of control strategies for multi-agent cooperative transport. Although existing learning-based methods assume that the number of agents is the same as that in the training environment, the number might differ in reality considering that the robots' batteries may completely discharge, or additional robots may be introduced to reduce the time required to complete a task. Therefore, it is crucial that the learned strategy be applicable to scenarios wherein the number of agents differs from that in the training environment. In this paper, we propose a novel multi-agent reinforcement learning framework of event-triggered communication and consensus-based control for distributed cooperative transport. The proposed policy model estimates the resultant force and torque in a consensus manner using the estimates of the resultant force and torque with the neighborhood agents. Moreover, it computes the control and communication inputs to determine when to communicate with the neighboring agents under local observations and estimates of the resultant force and torque. Therefore, the proposed framework can balance the control performance and communication savings in scenarios wherein the number of agents differs from that in the training environment. We confirm the effectiveness of our approach by using a maximum of eight and six robots in the simulations and experiments, respectively.

translated by 谷歌翻译

A Survey on Large-Population Systems and Scalable Multi-Agent Reinforcement Learning

Kai Cui , Anam Tahir , Gizem Ekinci , Ahmed Elshamanhory , Yannick Eich , Mengguang Li , Heinz Koeppl

分类：人工智能 | 机器学习

2022-09-08

大型人口系统的分析和控制对研究和工程的各个领域引起了极大的兴趣，从机器人群的流行病学到经济学和金融。一种越来越流行和有效的方法来实现多代理系统中的顺序决策，这是通过多机构增强学习，因为它允许对高度复杂的系统进行自动和无模型的分析。但是，可伸缩性的关键问题使控制和增强学习算法的设计变得复杂，尤其是在具有大量代理的系统中。尽管强化学习在许多情况下都发现了经验成功，但许多代理商的问题很快就变得棘手了，需要特别考虑。在这项调查中，我们将阐明当前的方法，以通过多代理强化学习以及通过诸如平均场游戏，集体智能或复杂的网络理论等研究领域进行仔细理解和分析大型人口系统。这些经典独立的主题领域提供了多种理解或建模大型人口系统的方法，这可能非常适合将来的可拖动MARL算法制定。最后，我们调查了大规模控制的潜在应用领域，并确定了实用系统中学习算法的富有成果的未来应用。我们希望我们的调查可以为理论和应用科学的初级和高级研究人员提供洞察力和未来的方向。

translated by 谷歌翻译

Flexible Supervised Autonomy for Exploration in Subterranean Environments

Harel Biggie , Eugene R. Rush , Danny G. Riley , Shakeeb Ahmad , Michael T. Ohradzansky , Kyle Harlow , Michael J. Miles , Daniel Torres , Steve McGuire , Eric W. Frew

分类：机器人

2023-01-02

While the capabilities of autonomous systems have been steadily improving in recent years, these systems still struggle to rapidly explore previously unknown environments without the aid of GPS-assisted navigation. The DARPA Subterranean (SubT) Challenge aimed to fast track the development of autonomous exploration systems by evaluating their performance in real-world underground search-and-rescue scenarios. Subterranean environments present a plethora of challenges for robotic systems, such as limited communications, complex topology, visually-degraded sensing, and harsh terrain. The presented solution enables long-term autonomy with minimal human supervision by combining a powerful and independent single-agent autonomy stack, with higher level mission management operating over a flexible mesh network. The autonomy suite deployed on quadruped and wheeled robots was fully independent, freeing the human supervision to loosely supervise the mission and make high-impact strategic decisions. We also discuss lessons learned from fielding our system at the SubT Final Event, relating to vehicle versatility, system adaptability, and re-configurable communications.

translated by 谷歌翻译

AI for Global Climate Cooperation: Modeling Global Climate Negotiations, Agreements, and Long-Term Cooperation in RICE-N

Tianyu Zhang , Andrew Williams , Soham Phade , Sunil Srinivasa , Yang Zhang , Prateek Gupta , Yoshua Bengio , Stephan Zheng

分类：机器学习

2022-08-15

全球综合合作对于限制全球温度的升高至关重要，同时继续经济发展，例如减少严重的不平等或实现长期经济增长。与N战略代理进行缓解气候变化的长期合作提出了一个复杂的游戏理论问题。例如，代理商可以谈判并达成气候协议，但是没有中央权力可以执行遵守这些协议。因此，设计谈判和协议框架以促进合作，允许所有代理人达到其个人政策目标并激励长期遵守，这一点至关重要。这是一个跨学科的挑战，要求在机器学习，经济学，气候科学，法律，政策，道德和其他领域进行研究人员之间的合作。特别是，我们认为机器学习是解决该领域复杂性的关键工具。为了促进这项研究，在这里，我们介绍了一个多区域综合评估模型，模拟全球气候和经济，可用于设计和评估不同谈判和协议框架的战略成果。我们还描述了如何使用多代理增强学习来使用水稻N训练理性剂。该框架是全球气候合作的基础，这是一个工作组协作和气候谈判和协议设计的竞争。在这里，我们邀请科学界使用Rice-N，机器学习，经济直觉和其他领域知识来设计和评估其解决方案。更多信息可以在www.ai4climatecoop.org上找到。

translated by 谷歌翻译

AGENT: An Adaptive Grouping Entrapping Method of Flocking Systems

Chen Wang , Minqiang Gu , Wenxi Kuang , Dongliang Wang , Weicheng Luo , Zhaohui Shi , Zhun Fan

分类：人工智能

2022-06-25

这项研究提出了一种分布式算法，该算法通过自动决策，平滑的羊群和分布良好的捕获来使代理的自适应分组捕获多个目标。代理商根据环境信息做出自己的决定。提出了一种改进的人工潜在方法，以使代理能够平稳自然地改变形成以适应环境。拟议的策略确保了群体的协调发展在群体上陷入多个目标的现象。我们使用仿真实验和设计指标来验证提出方法的性能，以分析这些模拟和物理实验。

translated by 谷歌翻译

Prevention and Resolution of Conflicts in Social Navigation -- a Survey

Reuth Mirsky , Xuesu Xiao , Justin Hart , Peter Stone

分类：机器人 | 人工智能

2021-06-23

当代机器人主义者的主要目标之一是使智能移动机器人能够在共享的人类机器人环境中平稳运行。为此目标服务的最基本必要的功能之一是在这种“社会”背景下有效的导航。结果，最近的一般社会导航的研究激增，尤其是如何处理社会导航代理之间的冲突。这些贡献介绍了各种模型，算法和评估指标，但是由于该研究领域本质上是跨学科的，因此许多相关论文是不可比较的，并且没有共同的标准词汇。这项调查的主要目标是通过引入这种通用语言，使用它来调查现有工作并突出开放问题来弥合这一差距。它首先定义社会导航的冲突，并提供其组成部分的详细分类学。然后，这项调查将现有工作映射到了本分类法中，同时使用其框架讨论论文。最后，本文提出了一些未来的研究方向和开放问题，这些方向目前正在社会导航的边界，以帮助集中于正在进行的和未来的研究。

translated by 谷歌翻译

Scale-Invariant Specifications for \\Human-Swarm Systems

Joel Meyer , Ahalya Prabhakar , Allison Pinosky , Ian Abraham , Annalisa Taylor , Millicent Schlafly , Katarina Popovic , Giovani Diniz , Brendan Teich , Borislava Simidchieva

分类：机器人

2022-12-06

We present a method for controlling a swarm using its spectral decomposition -- that is, by describing the set of trajectories of a swarm in terms of a spatial distribution throughout the operational domain -- guaranteeing scale invariance with respect to the number of agents both for computation and for the operator tasked with controlling the swarm. We use ergodic control, decentralized across the network, for implementation. In the DARPA OFFSET program field setting, we test this interface design for the operator using the STOMP interface -- the same interface used by Raytheon BBN throughout the duration of the OFFSET program. In these tests, we demonstrate that our approach is scale-invariant -- the user specification does not depend on the number of agents; it is persistent -- the specification remains active until the user specifies a new command; and it is real-time -- the user can interact with and interrupt the swarm at any time. Moreover, we show that the spectral/ergodic specification of swarm behavior degrades gracefully as the number of agents goes down, enabling the operator to maintain the same approach as agents become disabled or are added to the network. We demonstrate the scale-invariance and dynamic response of our system in a field relevant simulator on a variety of tactical scenarios with up to 50 agents. We also demonstrate the dynamic response of our system in the field with a smaller team of agents. Lastly, we make the code for our system available.

translated by 谷歌翻译