本文介绍了狐猴,这是一种从合作任务演示中学习可扩展的多机器人控制政策的算法。我们建议对多机器人系统的港口港口描述,以利用互连系统中的通用物理约束并实现闭环稳定性。我们使用结合自我注意机制和神经普通微分方程的体系结构代表多机器人控制策略。前者在机器人团队中处理时变的沟通,而后者则尊重连续的机器人动力学。我们的表示是通过施工分配的,使学习的控制政策能够部署在不同大小的机器人团队中。我们证明,狐猴可以从多机导航和羊群任务的演示中学习互动和合作行为。
translated by 谷歌翻译
大规模的网络物理系统要求将控制策略分发,即它们仅依靠本地实时测量和与相邻代理的通信。然而,即使在看似简单的情况下,最佳分布式控制(ODC)问题也是非常棘手的。因此,最近的工作已经提出了培训神经网络(NN)分布式控制器。 NN控制器的主要挑战是它们在训练期间和之后不可依赖于训练,即,闭环系统可能不稳定,并且由于消失和爆炸梯度,训练可能失效。在本文中,我们解决了非线性端口 - 哈密顿(PH)系统网络的这些问题,其建模功率从能量系统到非完全车辆和化学反应。具体地,我们采用pH系统的组成特性,以表征具有内置闭环稳定性保证的深哈密顿控制政策,而不管互连拓扑和所选择的NN参数。此外,我们的设置可以利用近来表现良好的神经杂志的结果,以防止通过设计消失消失的梯度现象。数值实验证实了所提出的架构的可靠性,同时匹配通用神经网络策略的性能。
translated by 谷歌翻译
本文开发了一个分布式可区分的动态游戏(DDDG)框架,该框架可以从演示中学习多机器人协调。我们将多机器人协调表示为动态游戏,其中机器人的行为由其自身的动态和目标决定,这也取决于他人的行为。因此,可以通过调整每个机器人的客观和动力学来调整协调。提出的DDDG使每个机器人能够以分布式方式自动调整其单个动力学和目标,从而最大程度地减少其轨迹和演示之间的不匹配。此过程需要前向通道的新分布式设计,在该设计中,所有机器人都协作寻求NASH均衡行为,以及一个向后通行,在该阶段通过通信图传播梯度。我们在仿真中测试了DDDG,并给定不同任务配置的四个小组。结果证明了DDDG从演示中学习多机器人协调的能力
translated by 谷歌翻译
了解来自群体中集体行为的分散性动态对于通知人工群和多态机械系统中的机器人控制器设计至关重要。然而,代理人与代理人的相互作用和大多数群体的分散性质对来自全球行为的单机器人控制法的提取构成重大挑战。在这项工作中,我们考虑完全基于群体轨迹的国家观察学习分散单机器人控制器的重要任务。我们通过采用基于知识的神经常规方程(KNODE)来提出一般框架 - 一种能够将人工神经网络与已知代理动态组合的混合机学习方法。我们的方法与大多数事先有关的方法区分,因为我们不需要学习的行动数据。我们分别在2D和3D中将框架应用于两个不同的植绒群,并通过利用群体信息网络的图形结构来展示有效的培训。我们进一步表明,学习的单机器人控制器不仅可以重现原始群体中的植绒行为,而且还可以使用更多机器人来扩展到群体。
translated by 谷歌翻译
机器人动态的准确模型对于新颖的操作条件安全和稳定控制和概括至关重要。然而,即使在仔细参数调谐后,手工设计的模型也可能是不够准确的。这激励了使用机器学习技术在训练集的状态控制轨迹上近似机器人动力学。根据其SE(3)姿势和广义速度,并满足能量原理的保护,描述了许多机器人的动态,包括地面,天线和水下车辆。本文提出了在神经常规差分方程(ODE)网络结构的SE(3)歧管上的HamiltonIAN制剂,以近似刚体的动态。与黑匣子颂网络相比,我们的配方通过施工保证了总节能。我们为学习的学习,潜在的SE(3)Hamiltonian动力学开发能量整形和阻尼注射控制,以实现具有各种平台的稳定和轨迹跟踪的统一方法,包括摆锤,刚体和四极其系统。
translated by 谷歌翻译
在未知环境中安全的自主导航是地面,空中和水下机器人的重要问题。本文提出了从轨迹数据中学习移动机器人动力学模型的技术,并通过安全性和稳定性综合跟踪控制器。移动机器人的状态通常包含其位置,方向和广义速度,并满足汉密尔顿的运动方程。我们使用状态控制轨迹的数据集来培训表示作为神经普通微分方程(ODE)网络的转换式非线性非线性汉密尔顿模型。学习的哈密尔顿模型用于合成能量整形的基于能量的控制器和导出的条件,保证安全调节到所需的参考姿势。最后,我们能够通过从障碍物距离测量获得的安全约束来实现所需路径的自适应跟踪。系统能量水平与安全约束违规距离之间的权衡用于自适应地沿着所需路径的参考姿势。我们的安全自适应控制器是在未知复杂环境中导航的模拟的十六轨机器人。
translated by 谷歌翻译
在现实世界机器人应用中,机器人动态的准确模型对于快速变化的操作条件下的安全和稳定控制至关重要。这激励了使用机器学习技术来近似机器人动力学及其在训练轨迹训练组上的干扰。本文展示了物理法引起的感应偏差可用于提高近似动力学模型的数据效率和准确性。例如,使用他们的$ SE(3)$姿势和满足能源原则保护,描述了许多机器人的动态,包括地面,天线和水下车辆。通过在神经常微分方程(ODE)网络的设计中施加汉密尔顿运动方程的结构,设计了机器人动态的物理卓越模型。哈密​​顿结构保证满足于美元(3)美元的运动限制和通过建设节能的节能。它还允许我们推导出基于能量的自适应控制器,该自适应控制器实现轨迹跟踪,同时补偿干扰。我们基于学习的自适应控制器验证了在致动的四轮机器机器人上。
translated by 谷歌翻译
本文考虑了安全协调一个配备传感器的机器人团队的问题,以减少有关动态过程的不确定性,而该过程将使目标消除信息增益和能源成本。优化这种权衡是可取的,但是在机器人轨迹集中导致非占主酮目标函数。因此,基于协调下降的普通多机器人计划者失去了其性能保证。此外,处理非单调性的方法在受到机器人间碰撞避免约束时会失去其性能保证。由于需要保留性能保证和安全保证,这项工作提出了一种分布式计划者的层次结构方法,该方法使用本地搜索,并根据控制屏障功能提供了基于控制屏障功能的当地搜索和分散的控制器,以确保安全并鼓励及时到达传感位置。通过大量的模拟,硬件测试和硬件实验,我们证明了所提出的方法比基于坐标下降的算法在感应和能源成本之间取得更好的权衡。
translated by 谷歌翻译
在本文中,我们使用基于视觉的图形聚合和推理(VGAI)呈现了一种感知 - 动作通信环路设计。这种多代理分散的学习 - 控制框架将原始的视觉观测映射到代理操作,并通过相邻代理之间的本地通信提供帮助。我们的框架是由圆形卷积和图形神经网络(CNN / GNN)的级联实现,寻址代理级视觉感知和特征学习,以及群级通信,本地信息聚合和代理动作推断。通过联合训练CNN和GNN,结合了解图像特征和通信消息以更好地解决特定任务。我们使用模仿学习在离线阶段训练VGAI控制器,依赖于集中式专家控制器。这导致学习的VGAI控制器可以以分布式方式部署以进行在线执行。此外,控制器展示了良好的缩放性质,在较大的团队中具有较小的团队和应用程序的培训。通过多代理植入应用程序,我们证明VGAI产生与其他分散的控制器相当或更好地使用视觉输入模态,而不访问精确的位置或运动状态信息。
translated by 谷歌翻译
稳定性和安全性是成功部署自动控制系统的关键特性。作为一个激励示例,请考虑在复杂的环境中自动移动机器人导航。概括到不同操作条件的控制设计需要系统动力学模型,鲁棒性建模错误以及对安全\ newzl {约束}的满意度,例如避免碰撞。本文开发了一个神经普通微分方程网络,以从轨迹数据中学习哈密顿系统的动态。学识渊博的哈密顿模型用于合成基于能量的被动性控制器,并分析其\ emph {鲁棒性},以在学习模型及其\ emph {Safety}中对环境施加的约束。考虑到系统的所需参考路径,我们使用虚拟参考调查员扩展了设计,以实现跟踪控制。州长国家是一个调节点,沿参考路径移动,平衡系统能级,模型不确定性界限以及违反安全性的距离,以确保稳健性和安全性。我们的哈密顿动力学学习和跟踪控制技术在\修订后的{模拟的己谐和四型机器人}在混乱的3D环境中导航。
translated by 谷歌翻译
我们展示了通过大规模多代理端到端增强学习的大射击可转移到真正的四轮压力机的无人驾驶群体控制器的可能性。我们培训由神经网络参数化的政策,该政策能够以完全分散的方式控制群体中的各个无人机。我们的政策,在具有现实的四轮流物理学的模拟环境中训练,展示了先进的植绒行为,在紧张的地层中执行侵略性的操作,同时避免彼此的碰撞,破裂和重新建立地层,以避免与移动障碍的碰撞,并有效地协调追求障碍,并有效地协调追求逃避任务。在模拟中,我们分析了培训制度的不同模型架构和参数影响神经群的最终表现。我们展示了在模拟中学习的模型的成功部署到高度资源受限的物理四体体执行站保持和目标交换行为。在Propers网站上提供代码和视频演示,在https://sites.google.com/view/swarm-rl上获得。
translated by 谷歌翻译
分散的多机器人目标跟踪的问题要求共同选择动作,例如运动原语,以使机器人通过本地通信最大化目标跟踪性能。实施实施的一个主要挑战是使目标跟踪方法可扩展到大规模的问题实例。在这项工作中,我们提出了通用学习体系结构,以通过分散的通信进行大规模的协作目标跟踪。特别是,我们的学习体系结构利用图形神经网络(GNN)捕获机器人的本地互动,并学习机器人的分散决策。我们通过模仿专家解决方案来训练学习模型,并实施仅涉及本地观察和沟通的分散行动选择的最终模型。我们在使用大型机器人网络的主动目标跟踪方案中演示了基于GNN的学习方法的性能。仿真结果表明,我们的方法几乎与专家算法的跟踪性能相匹配,但最多可以使用多达100个机器人运行多个订单。此外,它的表现略高于分散的贪婪算法,但运行速度更快(尤其是20多个机器人)。结果还显示了我们在以前看不见的情况下的方法的概括能力,例如,较大的环境和较大的机器人网络。
translated by 谷歌翻译
模块化机器人可以在每天重新排列到新设计中,通过为每项新任务形成定制机器人来处理各种各样的任务。但是,重新配置的机制是不够的:每个设计还需要自己独特的控制策略。人们可以从头开始为每个新设计制作一个政策,但这种方法不可扩展,特别是给出了甚至一小组模块可以生成的大量设计。相反,我们创建了一个模块化策略框架,策略结构在硬件排列上有调节,并仅使用一个培训过程来创建控制各种设计的策略。我们的方法利用了模块化机器人的运动学可以表示为设计图,其中节点作为模块和边缘作为它们之间的连接。给定机器人,它的设计图用于创建具有相同结构的策略图,其中每个节点包含一个深神经网络,以及通过共享参数的相同类型共享知识的模块(例如,Hexapod上的所有腿都相同网络参数)。我们开发了一种基于模型的强化学习算法,交织模型学习和轨迹优化,以培训策略。我们展示了模块化政策推广到培训期间没有看到的大量设计,没有任何额外的学习。最后,我们展示了与模拟和真实机器人一起控制各种设计的政策。
translated by 谷歌翻译
机器人间通信使多机器人系统能够有效地协调和执行复杂的任务。因此,维持机器人之间的通信网络的连接对于许多多机器人系统是必不可少的。在本文中,我们提出了一种用于多机器人系统的连接维护的轨迹策划局。我们首先定义加权无向图形以表示系统的连接。与以前的连接维护不同,我们明确地解释了机器人运动和传感不确定性,同时制定图形边缘权重。这些不确定性导致不确定的机器人位置,该位置直接影响系统的连接性。接下来,使用基于乘法器(ADMM)框架的分布式交替方向方法,使用轨迹规划器维持加权未向图的代数连接以上的指定的下限。在这里,我们得出了ADMM优化步骤中所需的Hessian矩阵的近似,以减少计算负荷。最后,提出了仿真结果以统计验证我们的轨迹策划者的连接维护。
translated by 谷歌翻译
本文解决了多机器人主动信息采集(AIA)问题,其中一组移动机器人通过基础图进行通信,估计一个表达感兴趣现象的隐藏状态。可以在此框架中表达诸如目标跟踪,覆盖范围和大满贯之类的应用程序。但是,现有的方法要么是不可扩展的,因此无法处理动态现象,或者对通信图中的变化不健全。为了应对这些缺点,我们提出了一个信息感知的图形块网络(I-GBNET),即图形神经网络的AIA适应,该网络将信息通过图表表示,并以分布式方式提供顺序决定。通过基于集中抽样的专家求解器训练通过模仿学习训练的I-GBNET表现出置换量比和时间不变性,同时利用了对以前看不见的环境和机器人配置的卓越可扩展性,鲁棒性和概括性。与训练中看到的相比,隐藏状态和更复杂的环境的实验和更复杂的环境实验验证了所提出的体系结构的特性及其在应用定位和动态目标的应用中的功效。
translated by 谷歌翻译
多机器人自适应抽样问题旨在为机器人团队找到轨迹,以有效地对机器人的给定耐力预算中的感兴趣现象进行采样。在本文中,我们使用分散的多代理增强学习来提出一种可靠,可扩展的方法,用于准静态环境过程的合作自适应采样(MARLAS)。鉴于该领域的先验采样,该提议的方法学习了一个机器人团队的分散政策,以在固定预算范围内采样高实现区域。多机器人自适应采样问题要求机器人彼此协调,以避免重叠的采样轨迹。因此,我们编码机器人之间的邻居位置和间歇性通信在学习过程中的估计值。我们评估了Marlas对多个性能指标的评估,发现它的表现优于其他基线多机器人采样技术。我们进一步证明了与机器人团队的大小和所采样区域的大小相对于通信失败和可伸缩性的鲁棒性。实验评估既是对真实数据的模拟,又在演示环境设置的实际机器人实验中进行的。
translated by 谷歌翻译
In this paper, we present a solution to a design problem of control strategies for multi-agent cooperative transport. Although existing learning-based methods assume that the number of agents is the same as that in the training environment, the number might differ in reality considering that the robots' batteries may completely discharge, or additional robots may be introduced to reduce the time required to complete a task. Therefore, it is crucial that the learned strategy be applicable to scenarios wherein the number of agents differs from that in the training environment. In this paper, we propose a novel multi-agent reinforcement learning framework of event-triggered communication and consensus-based control for distributed cooperative transport. The proposed policy model estimates the resultant force and torque in a consensus manner using the estimates of the resultant force and torque with the neighborhood agents. Moreover, it computes the control and communication inputs to determine when to communicate with the neighboring agents under local observations and estimates of the resultant force and torque. Therefore, the proposed framework can balance the control performance and communication savings in scenarios wherein the number of agents differs from that in the training environment. We confirm the effectiveness of our approach by using a maximum of eight and six robots in the simulations and experiments, respectively.
translated by 谷歌翻译
本文开发了连续的蓬松蛋白可区分编程(连续PDP)的方法,该方法使机器人能够从少数稀疏的关键帧中学习目标函数。带有一些时间戳记的密钥帧是所需的任务空间输出,预计机器人将顺序遵循。密钥帧的时间戳可能与机器人的实际执行时间不同。该方法共同找到一个目标函数和一个盘绕函数,以使机器人的产生轨迹顺序遵循关键帧,并以最小的差异损失。连续的PDP通过有效求解机器人轨迹相对于未知参数的梯度,可以最大程度地减少投影梯度下降的差异损失。该方法首先在模拟机器人臂上进行评估,然后应用于6-DOF四极管,以在未建模的环境中学习目标函数。结果表明,该方法的效率,其处理密钥帧和机器人执行之间的时间错位的能力以及将客观学习对看不见的运动条件的概括。
translated by 谷歌翻译
在本文中,我们为多机器人系统提供了一种分散和无通信的碰撞避免方法,该系统考虑了机器人定位和感测不确定性。该方法依赖于计算每个机器人的不确定感知安全区域,以在高斯分布的不确定性的假设下在环境中导航的其他机器人和环境中的静态障碍物。特别地,在每次步骤中,我们为每个机器人构建一个机器人约束的缓冲不确定性感知的voronoI细胞(B-UAVC)给出指定的碰撞概率阈值。通过将每个机器人的运动约束在其对应的B-UAVC内,即机器人和障碍物之间的碰撞概率仍然可以实现概率碰撞避免。所提出的方法是分散的,无通信,可扩展,具有机器人的数量和机器人本地化和感测不确定性的强大。我们将方法应用于单积分器,双积分器,差动驱动机器人和具有一般非线性动力学的机器人。对地面车辆,四轮车和异质机器人团队进行广泛的模拟和实验,以分析和验证所提出的方法。
translated by 谷歌翻译
在这项工作中,我们提出了一种新型的安全且可扩展的分散解决方案,以在存在随机干扰的情况下进行多代理控制。使用随机控制屏障功能在数学上编码安全性,并通过求解二次程序来计算安全控制。通过增强每个代理的优化变量,复制变量,为其邻居增强,可以实现权力下放。这使我们能够将集中式多代理优化问题解脱出来。但是,为了确保安全,邻近的代理商必须就“我们俩安全的安全”达成共识,这产生了共识。为了实现安全共识解决方案,我们结合了一种基于ADMM的方法。具体而言,我们提出了一个合并的CADMM-OSQP隐式神经网络层,该网络层解决了局部二次程序的迷你批次以及总体共识问题,作为单个优化问题。该层在每个时间步骤中都嵌入了Deep FBSDES网络体系结构中,以促进端到端可区分,安全和分散的随机最佳控制。在模拟中的几个具有挑战性的多机器人任务中,证明了所提出的方法的功效。通过对避免碰撞限制指定的安全要求强加要求,可以在整个培训过程中确保所有代理的安全操作。与集中式方法相比,我们还可以在计算和内存节省方面表现出卓越的可伸缩性。
translated by 谷歌翻译