我们开发了一种基于学习的基于学习算法,用于由未知,非线性动力学管理的网络多智能体系的分布式形成控制。大多数现有算法都假设用于未知动态术语或度假术的某些参数表单,以便不必要地提供大控制输入,以便提供理论保证。该算法通过在两步过程中与自适应控制集成基于神经网络的学习,避免了这些缺点。在算法的第一步中,每个代理使用与形成任务和代理参数的集合对应的训练数据来学习表示为神经网络的控制器。通过改变名义代理参数和手头任务的形成规范来导出这些参数和任务。在算法的第二步骤中,每个代理将训练的神经网络包含到在线和自适应控制策略中,使得多代理闭环系统的行为满足用户定义的形成任务。在每个代理使用其相邻代理中的本地信息的意义上分发了学习阶段和自适应控制策略。该算法不使用关于代理的未知动态术语或任何近似方案的任何先验信息。我们为实现形成任务提供正式的理论保障。
translated by 谷歌翻译
由于领导者的动态信息对所有跟随节点未知,所以基于知识的非线性多种代理系统的同步问题是具有挑战性的。本文提出了一类非线性领导系统的基于学习的完全分布式观察者,可以同时学习领导者的动态和状态。这里考虑的领导者动态不需要有界雅各的矩阵。基于基于学习的分布式观察者,我们进一步综合了一种自适应分布式控制法,用于解决经受不确定非线性领导系统的多个Euler-Lagrange系统的前导次的同步问题。结果由模拟示例说明。
translated by 谷歌翻译
在非线性和不确定动态的情况下,多种自动水下车辆(AUV)的共识形成跟踪是机器人技术的一个挑战性问题。为了应对这一挑战,本文提出了分布式生物启发的滑动模式控制器。首先,提出了常规的滑动模式控制器(SMC),并根据图理论解决共识问题。接下来,为了解决SMC方案中的高频聊天问题并同时提高噪声的鲁棒性,引入了生物启发的方法,其中采用神经动态模型来替换传统滑动模式合成的非线性符号或饱和功能控制器。此外,在Lyapunov稳定性理论的存在下,在存在有界的集体干扰的情况下证明了所得闭环系统的输入到状态稳定性。最后,进行了仿真实验以证明所提出的分布式形成控制方案的有效性。
translated by 谷歌翻译
形成控制问题是群体智能领域中最关心的主题之一,通常通过常规数学方法来解决。然而,在本文中,我们提出了一种元疗法方法,该方法利用了一种自然的共同进化策略来解决一群导弹的形成控制问题。导弹群是由具有异质参考目标的二阶系统建模的,并将指数误差函数作为目标函数,以使群体融合到满足某些形成要求的最佳平衡状态。为了关注本地最佳和不稳定进化的问题,我们纳入了一种新颖的基于模型的政策约束和人口适应策略,从而大大减轻了绩效退化。通过在网络通信领域中应用Molloy reed标准,我们开发了一种自适应拓扑方法,该方法可以通过理论和实验验证节点失败及其有效性下的连通性及其有效性。实验结果有助于提议的形成控制方法的有效性。更重要的是,我们表明将通用形成控制问题视为马尔可夫决策过程(MDP)并通过迭代学习解决它是可行的。
translated by 谷歌翻译
这项工作提出了一种基于(几乎)全局收敛到所需形状的双极坐标的新型二维形成控制方案(一类微型无环持续图)。规定的绩效控制被用来设计一项分散的控制法,该法律避免了奇异性并引入了针对外部干扰的鲁棒性,同时确保了闭环系统的预定义瞬态和稳态性能。此外,结果表明,所提出的形成控制方案可以同时处理编队操作,缩放和方向规范。此外,拟议的控制法在代理商的任意定向的本地坐标框架中仅使用低成本板视力传感器可以实现,这有利于实际应用。最后,一项编队操纵模拟研究验证了所提出的方法。
translated by 谷歌翻译
多代理系统(质量)可以通过每个代理商的个人智能以及合作和利用集体智能来自主学会解决先前未知的任务。本文考虑了一组自治代理,学习在可能少量的试验中跟踪相同的给定参考轨迹。我们提出了一种新颖的集体学习控制方法,将迭代学习控制(ILC)与集体更新策略相结合。我们推导了这种系统的理想收敛性质的条件。我们表明,该方法允许集体结合代理商的个人学习策略的优势,从而克服单股ILC的权衡和局限性。通过设计异构集体,即,各代理商分配了不同的学习法,实现了这种益处。所有理论结果都在模拟和实验中确认,两轮倒立摆机器人(TWIPR)共同学会执行所需的机动。
translated by 谷歌翻译
在本文中,我们使用基于视觉的图形聚合和推理(VGAI)呈现了一种感知 - 动作通信环路设计。这种多代理分散的学习 - 控制框架将原始的视觉观测映射到代理操作,并通过相邻代理之间的本地通信提供帮助。我们的框架是由圆形卷积和图形神经网络(CNN / GNN)的级联实现,寻址代理级视觉感知和特征学习,以及群级通信,本地信息聚合和代理动作推断。通过联合训练CNN和GNN,结合了解图像特征和通信消息以更好地解决特定任务。我们使用模仿学习在离线阶段训练VGAI控制器,依赖于集中式专家控制器。这导致学习的VGAI控制器可以以分布式方式部署以进行在线执行。此外,控制器展示了良好的缩放性质,在较大的团队中具有较小的团队和应用程序的培训。通过多代理植入应用程序,我们证明VGAI产生与其他分散的控制器相当或更好地使用视觉输入模态,而不访问精确的位置或运动状态信息。
translated by 谷歌翻译
本文介绍了具有多种试剂的协同目标跟踪应用,以及具有所需的代理距离和指定界限的代理形成问题。我们提出了一种基于障碍的障碍基于障碍的分布式控制定律,以保留目标跟踪的形成,并使用运动模型评估其稳定性。提出了使用该模型的数值结果,以证明所提出的控制对基于二次Lyapunov功能的控制的优点。提出了使用实验ROS模拟的结论评估,以说明所提出的控制方法对多转子系统的适用性和执行直线和圆周运动的目标。
translated by 谷歌翻译
在过去的二十年中,对机器人羊群的研究受到了极大的关注。在本文中,我们提出了一种约束驱动的控制算法,该算法可最大程度地减少单个试剂的能耗并产生新兴的V形成。随着代理之间的分散相互作用的形成出现,我们的方法对自发添加或将代理去除为系统是强大的。首先,我们提出了一个分析模型,用于在固定翼无人机后面的尾巴上洗涤,并得出了尾随无人机以最大化其旅行耐力的最佳空气速度。接下来,我们证明,简单地在最佳空速上飞行将永远不会导致新兴的羊群行为,并且我们提出了一种新的分散的“ Anseroid”行为,从而产生出现的V形成。我们用约束驱动的控制算法编码这些行为,该算法最小化每个无人机的机车能力。最后,我们证明,在我们提出的控制法律下,以近似V或eChelon形成初始化的无人机将融合,我们证明了这种出现在模拟和与Crazyflie四肢旋转机队的实验中实时发生。
translated by 谷歌翻译
了解来自群体中集体行为的分散性动态对于通知人工群和多态机械系统中的机器人控制器设计至关重要。然而,代理人与代理人的相互作用和大多数群体的分散性质对来自全球行为的单机器人控制法的提取构成重大挑战。在这项工作中,我们考虑完全基于群体轨迹的国家观察学习分散单机器人控制器的重要任务。我们通过采用基于知识的神经常规方程(KNODE)来提出一般框架 - 一种能够将人工神经网络与已知代理动态组合的混合机学习方法。我们的方法与大多数事先有关的方法区分,因为我们不需要学习的行动数据。我们分别在2D和3D中将框架应用于两个不同的植绒群,并通过利用群体信息网络的图形结构来展示有效的培训。我们进一步表明,学习的单机器人控制器不仅可以重现原始群体中的植绒行为,而且还可以使用更多机器人来扩展到群体。
translated by 谷歌翻译
本文介绍了狐猴,这是一种从合作任务演示中学习可扩展的多机器人控制政策的算法。我们建议对多机器人系统的港口港口描述,以利用互连系统中的通用物理约束并实现闭环稳定性。我们使用结合自我注意机制和神经普通微分方程的体系结构代表多机器人控制策略。前者在机器人团队中处理时变的沟通,而后者则尊重连续的机器人动力学。我们的表示是通过施工分配的,使学习的控制政策能够部署在不同大小的机器人团队中。我们证明,狐猴可以从多机导航和羊群任务的演示中学习互动和合作行为。
translated by 谷歌翻译
增强学习算法需要大量样品;这通常会限制他们的现实应用程序在简单的任务上。在多代理任务中,这种挑战更为出色,因为操作的每个步骤都需要进行沟通,转移或资源。这项工作旨在通过基于模型的学习来提高多代理控制的数据效率。我们考虑了代理商合作并仅与邻居进行当地交流的网络系统,并提出了基于模型的政策优化框架(DMPO)。在我们的方法中,每个代理都会学习一个动态模型,以预测未来的状态并通过通信广播其预测,然后在模型推出下训练策略。为了减轻模型生成数据的偏见,我们限制了用于产生近视推出的模型使用量,从而减少了模型生成的复合误差。为了使策略更新的独立性有关,我们引入了扩展的价值函数,理论上证明了由此产生的策略梯度是与真实策略梯度的紧密近似。我们在几个智能运输系统的基准上评估了我们的算法,这些智能运输系统是连接的自动驾驶汽车控制任务(FLOW和CACC)和自适应交通信号控制(ATSC)。经验结果表明,我们的方法可以实现卓越的数据效率,并使用真实模型匹配无模型方法的性能。
translated by 谷歌翻译
In this paper, we present a solution to a design problem of control strategies for multi-agent cooperative transport. Although existing learning-based methods assume that the number of agents is the same as that in the training environment, the number might differ in reality considering that the robots' batteries may completely discharge, or additional robots may be introduced to reduce the time required to complete a task. Therefore, it is crucial that the learned strategy be applicable to scenarios wherein the number of agents differs from that in the training environment. In this paper, we propose a novel multi-agent reinforcement learning framework of event-triggered communication and consensus-based control for distributed cooperative transport. The proposed policy model estimates the resultant force and torque in a consensus manner using the estimates of the resultant force and torque with the neighborhood agents. Moreover, it computes the control and communication inputs to determine when to communicate with the neighboring agents under local observations and estimates of the resultant force and torque. Therefore, the proposed framework can balance the control performance and communication savings in scenarios wherein the number of agents differs from that in the training environment. We confirm the effectiveness of our approach by using a maximum of eight and six robots in the simulations and experiments, respectively.
translated by 谷歌翻译
本文开发了一个分布式可区分的动态游戏(DDDG)框架,该框架可以从演示中学习多机器人协调。我们将多机器人协调表示为动态游戏,其中机器人的行为由其自身的动态和目标决定,这也取决于他人的行为。因此,可以通过调整每个机器人的客观和动力学来调整协调。提出的DDDG使每个机器人能够以分布式方式自动调整其单个动力学和目标,从而最大程度地减少其轨迹和演示之间的不匹配。此过程需要前向通道的新分布式设计,在该设计中,所有机器人都协作寻求NASH均衡行为,以及一个向后通行,在该阶段通过通信图传播梯度。我们在仿真中测试了DDDG,并给定不同任务配置的四个小组。结果证明了DDDG从演示中学习多机器人协调的能力
translated by 谷歌翻译
在过去的几十年中,对生物启发的智能及其对机器人技术的应用非常关注。本文对生物启发的智能进行了全面的调查,重点是神经动力学方法,尤其是对自主机器人系统的路径计划和控制。首先,引入了以生物启发的分流模型及其变体(添加剂模型和门控偶极模型),并详细介绍其主要特征。然后,回顾了实时路径计划和各种机器人系统控制的两个主要神经动力学应用。一个以神经动力学模型为特征的生物启发的神经网络框架,用于移动机器人,清洁机器人和水下机器人。生物启发的神经网络已在无碰撞导航和合作中广泛使用,没有任何学习程序,全球成本功能以及动态环境的先验知识。此外,还进一步讨论了针对各种机器人系统的生物启发的后台控制器,这些控制器能够在发生较大的初始跟踪误差时消除速度跳跃。最后,本文讨论了当前的挑战和未来的研究方向。
translated by 谷歌翻译
多种子体形成以及障碍物避免是多助理系统领域最受研究的主题之一。虽然一些经典控制器等模型预测控制(MPC)和模糊控制实现了一定的成功措施,但大多数都需要在恶劣环境中无法访问的精确全局信息。另一方面,一些基于加强学习(RL)的方法采用了领导者 - 跟随器结构来组织不同的代理行为,这使得造成诸如机动性和鲁棒性的瓶颈之间的代理之间的合作。在本文中,我们提出了一种基于多功能钢筋学习(Marl)的分布式形成和障碍避免方法。我们系统中的代理只能利用本地和相关信息来分发决策和控制自己。在多代理系统中的代理将在任何断开连接的情况下快速重新组织到新的拓扑中。与基线(经典控制方法和其他基于RL的方法)相比,我们的方法实现了更好的形成误差,形成收敛速度和障碍物的成功率的成功率。通过使用Ackermann-tenting车辆的模拟和硬件实现来验证我们的方法的可行性。
translated by 谷歌翻译
大型人口系统的分析和控制对研究和工程的各个领域引起了极大的兴趣,从机器人群的流行病学到经济学和金融。一种越来越流行和有效的方法来实现多代理系统中的顺序决策,这是通过多机构增强学习,因为它允许对高度复杂的系统进行自动和无模型的分析。但是,可伸缩性的关键问题使控制和增强学习算法的设计变得复杂,尤其是在具有大量代理的系统中。尽管强化学习在许多情况下都发现了经验成功,但许多代理商的问题很快就变得棘手了,需要特别考虑。在这项调查中,我们将阐明当前的方法,以通过多代理强化学习以及通过诸如平均场游戏,集体智能或复杂的网络理论等研究领域进行仔细理解和分析大型人口系统。这些经典独立的主题领域提供了多种理解或建模大型人口系统的方法,这可能非常适合将来的可拖动MARL算法制定。最后,我们调查了大规模控制的潜在应用领域,并确定了实用系统中学习算法的富有成果的未来应用。我们希望我们的调查可以为理论和应用科学的初级和高级研究人员提供洞察力和未来的方向。
translated by 谷歌翻译
对于多种代理的动力学物理耦合的任务,例如,在合作操作中,各个代理之间的协调变得至关重要,这需要确切的相互作用动力学知识。通常使用集中式估计器来解决此问题,这可能会对整个系统的灵活性和鲁棒性产生负面影响。为了克服这一缺点,我们提出了一个新颖的分布式学习框架,用于使用贝叶斯原理进行合作操作的典范任务。仅使用局部状态信息,每个代理都会获得对象动力学和掌握运动学的估计。这些本地估计是使用动态平均共识组合的。由于该方法的概率基础很强,因此对象动力学和掌握运动学的每个估计都伴随着一种不确定性的度量,该度量允许以高概率保证有界的预测误差。此外,贝叶斯原理直接允许迭代学习以持续的复杂性,以便可以在实时应用程序中在线使用所提出的学习方法。该方法的有效性在模拟的合作操作任务中得到了证明。
translated by 谷歌翻译
如果丢失单个无人机代理,则通常在恢复连接图的背景下考虑控制分布式自动无人机(UAV)形成。同时,几乎没有重点放在这种损失如何影响组成系统的动力学方面。为了弥补负面影响,我们提出了一种适应算法,该算法减少了造型中存在的无人机药物之间增加的相互作用。该算法使自主系统能够适应新的平衡状态。该算法已通过计算机模拟在完整的非线性无人机模型上测试。仿真结果证明了要完全消除的负面影响(提高地层的最终巡航速度)。
translated by 谷歌翻译
Practical operations of coordinated fleets of mobile robots in different environments reveal benefits of maintaining small distances between robots as they move at higher speeds. This is counter-intuitive in that as speed increases, increased distances would give robots a larger time to respond to sudden motion variations in surrounding robots. However, there is a desire to have lower inter-robot distances in examples like autonomous trucks on highways to optimize energy by vehicle drafting or smaller robots in cluttered environments to maintain communication, etc. This work introduces a model based control framework that directly takes non-linear system dynamics into account. Each robot is able to follow closer at high speeds because it makes predictions on the state information from its adjacent robots and biases it's response by anticipating adjacent robots' motion. In contrast to existing controllers, our non-linear model based predictive decentralized controller is able to achieve lower inter-robot distances at higher speeds. We demonstrate the success of our approach through simulated and hardware results on mobile ground robots.
translated by 谷歌翻译