多代理系统(质量)可以通过每个代理商的个人智能以及合作和利用集体智能来自主学会解决先前未知的任务。本文考虑了一组自治代理,学习在可能少量的试验中跟踪相同的给定参考轨迹。我们提出了一种新颖的集体学习控制方法,将迭代学习控制(ILC)与集体更新策略相结合。我们推导了这种系统的理想收敛性质的条件。我们表明,该方法允许集体结合代理商的个人学习策略的优势,从而克服单股ILC的权衡和局限性。通过设计异构集体,即,各代理商分配了不同的学习法,实现了这种益处。所有理论结果都在模拟和实验中确认,两轮倒立摆机器人(TWIPR)共同学会执行所需的机动。
translated by 谷歌翻译
在这项工作中,我们考虑了需要通过电缆或机器人臂操纵/运输物体的移动机器人的问题。我们考虑一种操纵机器人的数量冗余的场景,即,可以通过机器人的不同配置获得所需的对象配置。这项工作的目的是表明,可以使用通信来实现机器人中的协同局部反馈控制器,以改善扰动抑制并降低对象中的结构应力。特别地,我们考虑采样测量并通过无线传输测量的现实场景,并且采样周期与系统动态时间常数相当。我们首先提出了一种运动模型,该模型与高增益控制下的整体系统动态一致,然后我们为不同规范下的配置误差提供了足够的指数稳定性和单调减少。最后,我们在完整的动态系统上测试所提出的控制器,显示出局部通信的益处。
translated by 谷歌翻译
在本文中,我们设计了一个基于信息的多机器人来源,以寻求算法,其中一组移动传感器仅使用基于局部范围的测量值就本地化并移动靠近单个源。在算法中,移动传感器执行源标识/本地化以估计源位置;同时,他们移至新位置,以最大程度地提高有关传感器测量中包含的源的Fisher信息。在这样做的过程中,它们改善了源位置估计,并更靠近源。与传统的攀登算法相比,我们的算法在收敛速度方面具有优越性,在测量模型和信息指标的选择中是灵活的,并且对测量模型误差非常强大。此外,我们提供了算法的完全分布式版本,每个传感器都决定自己的动作,并且仅通过稀疏的通信网络与邻居共享信息。我们进行密集的仿真实验,以测试带有光传感器的小型地面车辆上的大规模系统和物理实验的算法,这表明在寻求光源方面取得了成功。
translated by 谷歌翻译
在过去的二十年中,对机器人羊群的研究受到了极大的关注。在本文中,我们提出了一种约束驱动的控制算法,该算法可最大程度地减少单个试剂的能耗并产生新兴的V形成。随着代理之间的分散相互作用的形成出现,我们的方法对自发添加或将代理去除为系统是强大的。首先,我们提出了一个分析模型,用于在固定翼无人机后面的尾巴上洗涤,并得出了尾随无人机以最大化其旅行耐力的最佳空气速度。接下来,我们证明,简单地在最佳空速上飞行将永远不会导致新兴的羊群行为,并且我们提出了一种新的分散的“ Anseroid”行为,从而产生出现的V形成。我们用约束驱动的控制算法编码这些行为,该算法最小化每个无人机的机车能力。最后,我们证明,在我们提出的控制法律下,以近似V或eChelon形成初始化的无人机将融合,我们证明了这种出现在模拟和与Crazyflie四肢旋转机队的实验中实时发生。
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
在本文中,我们为采样通信场景中的一类多机器人系统提出了一种反向运动控制器。目标是使一组机器人执行轨迹跟踪{以协调的方式}当通信的采样时间是不可忽略的,破坏标准控制设计的理论收敛保证。鉴于配置空间中可行的期望轨迹,所提出的控制器从采样时间瞬间从系统接收测量,并计算由低级控制器跟踪的机器人的速度引用。我们提出了一个共同设计的反馈加上馈电控制器,具有可提供的稳定性和误差会聚保证,并进一步表明所获得的控制器是可分散的实现的可供选择。我们使用现实模拟器(飞行起重机)的电缆悬挂负荷的协同空中操纵方案中的数值模拟来测试所提出的控制策略。最后,我们将建议的分散控制器与集中式方法进行比较,可通过智能启发式调整反馈增益,并表明它实现了可比性。
translated by 谷歌翻译
形成控制问题是群体智能领域中最关心的主题之一,通常通过常规数学方法来解决。然而,在本文中,我们提出了一种元疗法方法,该方法利用了一种自然的共同进化策略来解决一群导弹的形成控制问题。导弹群是由具有异质参考目标的二阶系统建模的,并将指数误差函数作为目标函数,以使群体融合到满足某些形成要求的最佳平衡状态。为了关注本地最佳和不稳定进化的问题,我们纳入了一种新颖的基于模型的政策约束和人口适应策略,从而大大减轻了绩效退化。通过在网络通信领域中应用Molloy reed标准,我们开发了一种自适应拓扑方法,该方法可以通过理论和实验验证节点失败及其有效性下的连通性及其有效性。实验结果有助于提议的形成控制方法的有效性。更重要的是,我们表明将通用形成控制问题视为马尔可夫决策过程(MDP)并通过迭代学习解决它是可行的。
translated by 谷歌翻译
在非线性和不确定动态的情况下,多种自动水下车辆(AUV)的共识形成跟踪是机器人技术的一个挑战性问题。为了应对这一挑战,本文提出了分布式生物启发的滑动模式控制器。首先,提出了常规的滑动模式控制器(SMC),并根据图理论解决共识问题。接下来,为了解决SMC方案中的高频聊天问题并同时提高噪声的鲁棒性,引入了生物启发的方法,其中采用神经动态模型来替换传统滑动模式合成的非线性符号或饱和功能控制器。此外,在Lyapunov稳定性理论的存在下,在存在有界的集体干扰的情况下证明了所得闭环系统的输入到状态稳定性。最后,进行了仿真实验以证明所提出的分布式形成控制方案的有效性。
translated by 谷歌翻译
本文介绍了具有多种试剂的协同目标跟踪应用,以及具有所需的代理距离和指定界限的代理形成问题。我们提出了一种基于障碍的障碍基于障碍的分布式控制定律,以保留目标跟踪的形成,并使用运动模型评估其稳定性。提出了使用该模型的数值结果,以证明所提出的控制对基于二次Lyapunov功能的控制的优点。提出了使用实验ROS模拟的结论评估,以说明所提出的控制方法对多转子系统的适用性和执行直线和圆周运动的目标。
translated by 谷歌翻译
在过去的十年中,由于分散控制应用程序的趋势和网络物理系统应用的出现,网络控制系统在过去十年中引起了广泛的关注。但是,由于无线网络的复杂性质,现实世界中无线网络控制系统的通信带宽,可靠性问题以及对网络动态的认识不足。将机器学习和事件触发的控制结合起来有可能减轻其中一些问题。例如,可以使用机器学习来克服缺乏网络模型的问题,通过学习系统行为或通过不断学习模型动态来适应动态变化的模型。事件触发的控制可以通过仅在必要时或可用资源时传输控制信息来帮助保护通信带宽。本文的目的是对有关机器学习的使用与事件触发的控制的使用进行综述。机器学习技术,例如统计学习,神经网络和基于强化的学习方法,例如深入强化学习,并结合事件触发的控制。我们讨论如何根据机器学习使用的目的将这些学习算法用于不同的应用程序。在对文献的审查和讨论之后,我们重点介绍了与基于机器学习的事件触发的控制并提出潜在解决方案相关的开放研究问题和挑战。
translated by 谷歌翻译
这项工作审查了旨在在通信约束下运行的自适应分布式学习策略。我们考虑一个代理网络,必须从持续观察流数据来解决在线优化问题。代理商实施了分布式合作策略,其中允许每个代理商与其邻居执行本地信息交换。为了应对通信约束,必须不可避免地压缩交换信息。我们提出了一种扩散策略,昵称为ACTC(适应 - 压缩 - 然后组合),其依赖于以下步骤:i)每个代理执行具有恒定步长大小的单独随机梯度更新的适应步骤; ii)一种压缩步骤,它利用最近引入的随机压缩操作员;和III)每个代理组合从其邻居接收的压缩更新的组合步骤。这项工作的区别要素如下。首先,我们专注于自适应策略,其中常数(而不是递减)阶梯大小对于实时响应非间断变化至关重要。其次,我们考虑一般的指导图表和左随机组合政策,使我们能够增强拓扑和学习之间的相互作用。第三,与对所有个人代理的成本职能承担强大的凸起的相关作品相比,我们只需要在网络水平的强大凸起,即使单个代理具有强凸的成本,剩余的代理商也不满足凸起成本。第四,我们专注于扩散(而不是共识)战略。在压缩信息的苛刻设置下,建立ACTC迭代在所需的优化器周围波动,在相邻代理之间交换的比特方面取得了显着的节省。
translated by 谷歌翻译
本文提出了一种基于匹配不确定性的非线性系统的收缩指标和干扰估计的轨迹中心学习控制方法。该方法允许使用广泛的模型学习工具,包括深神经网络,以学习不确定的动态,同时仍然在整个学习阶段提供瞬态跟踪性能的保证,包括没有学习的特殊情况。在所提出的方法中,提出了一种扰动估计法,以估计不确定性的点值,具有预计估计误差限制(EEB)。学习的动态,估计的紊乱和EEB在强大的黎曼能量条件下并入,以计算控制法,即使学习模型较差,也能保证在整个学习阶段的所需轨迹对所需轨迹的指数趋同。另一方面,具有改进的精度,学习的模型可以在高级计划器中结合,以规划更好的性能,例如降低能耗和更短的旅行时间。建议的框架在平面Quadrotor导航示例上验证。
translated by 谷歌翻译
这项工作提出了一种基于(几乎)全局收敛到所需形状的双极坐标的新型二维形成控制方案(一类微型无环持续图)。规定的绩效控制被用来设计一项分散的控制法,该法律避免了奇异性并引入了针对外部干扰的鲁棒性,同时确保了闭环系统的预定义瞬态和稳态性能。此外,结果表明,所提出的形成控制方案可以同时处理编队操作,缩放和方向规范。此外,拟议的控制法在代理商的任意定向的本地坐标框架中仅使用低成本板视力传感器可以实现,这有利于实际应用。最后,一项编队操纵模拟研究验证了所提出的方法。
translated by 谷歌翻译
随着机器人在现实世界中冒险,他们受到无意义的动态和干扰。在相对静态和已知的操作环境中已成功地证明了基于传统的基于模型的控制方法。但是,当机器人的准确模型不可用时,基于模型的设计可能导致次优甚至不安全的行为。在这项工作中,我们提出了一种桥接模型 - 现实差距的方法,并且即使存在动态不确定性,也能够应用基于模型的方法。特别地,我们介绍基于学习的模型参考适应方法,其使机器人系统具有可能不确定的动态,表现为预定义的参考模型。反过来,参考模型可用于基于模型的控制器设计。与典型的模型参考调整控制方法相比,我们利用神经网络的代表性力量来捕获高度非线性动力学的不确定性,并通过在称为Lipschitz网络的特殊类型神经网络的建筑设计中编码认证嘴唇条件来捕获高度非线性动力学的不确定性和保证稳定性。即使我们的关于真正的机器人系统的先验知识有限,我们的方法也适用于一般的非线性控制仿射系统。我们展示了我们在飞行倒置摆的方法中的方法,其中一个搁板的四轮电机被挑战,以平衡倒挂摆在悬停或跟踪圆形轨迹时。
translated by 谷歌翻译
在过去的十年中,多智能经纪人强化学习(Marl)已经有了重大进展,但仍存在许多挑战,例如高样本复杂性和慢趋同稳定的政策,在广泛的部署之前需要克服,这是可能的。然而,在实践中,许多现实世界的环境已经部署了用于生成策略的次优或启发式方法。一个有趣的问题是如何最好地使用这些方法作为顾问,以帮助改善多代理领域的加强学习。在本文中,我们提供了一个原则的框架,用于将动作建议纳入多代理设置中的在线次优顾问。我们描述了在非传记通用随机游戏环境中提供多种智能强化代理(海军上将)的问题,并提出了两种新的基于Q学习的算法:海军上将决策(海军DM)和海军上将 - 顾问评估(Admiral-AE) ,这使我们能够通过适当地纳入顾问(Admiral-DM)的建议来改善学习,并评估顾问(Admiral-AE)的有效性。我们从理论上分析了算法,并在一般加上随机游戏中提供了关于他们学习的定点保证。此外,广泛的实验说明了这些算法:可以在各种环境中使用,具有对其他相关基线的有利相比的性能,可以扩展到大状态行动空间,并且对来自顾问的不良建议具有稳健性。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
本文介绍了一类时变植物的自适应控制的新参数估计算法。该算法的主要特征是时变的学习速率的矩阵,其使得每当满足激励条件时,使参数估计误差轨迹能够朝向紧凑型朝向紧凑型呈现快速。该算法用于在存在未知参数的大类问题中,并且是时变的。结果表明,该算法保证了系统的状态和参数误差的全局界限,并避免了用于构造密钥回归信号的经常使用过滤方法。另外,在存在有限和持久的激励的情况下,提供了这些误差趋向于紧凑型朝向紧凑型趋向于紧凑型的时间间隔。与时变忘记因素相比,投影运算符用于确保学习率矩阵的界限。提供了数值模拟以补充理论分析。
translated by 谷歌翻译
This paper provides an introduction and overview of recent work on control barrier functions and their use to verify and enforce safety properties in the context of (optimization based) safety-critical controllers. We survey the main technical results and discuss applications to several domains including robotic systems.
translated by 谷歌翻译
我们研究了一种新颖的方法,用于在网络控制系统中使用二次成本进行弹性分布式优化的方法,容易出现使代理行为不良的外源性攻击。与普遍采用的过滤策略相反,我们从共识问题的游戏理论表述中汲取灵感,并认为在恶意药物的存在下增加竞争可以提高韧性。分析和数值结果证实了我们的直觉,表明(i)我们的策略揭示了完全协作和全面竞争之间的非平凡性能权衡,(ii)基于竞争的方法可以超越基于平均值的最先进算法子序列减少。最后,我们研究了通信拓扑和连接性对性能的影响,并指出了对强大的网络设计的见解。
translated by 谷歌翻译