对于多种代理的动力学物理耦合的任务,例如,在合作操作中,各个代理之间的协调变得至关重要,这需要确切的相互作用动力学知识。通常使用集中式估计器来解决此问题,这可能会对整个系统的灵活性和鲁棒性产生负面影响。为了克服这一缺点,我们提出了一个新颖的分布式学习框架,用于使用贝叶斯原理进行合作操作的典范任务。仅使用局部状态信息,每个代理都会获得对象动力学和掌握运动学的估计。这些本地估计是使用动态平均共识组合的。由于该方法的概率基础很强,因此对象动力学和掌握运动学的每个估计都伴随着一种不确定性的度量,该度量允许以高概率保证有界的预测误差。此外,贝叶斯原理直接允许迭代学习以持续的复杂性,以便可以在实时应用程序中在线使用所提出的学习方法。该方法的有效性在模拟的合作操作任务中得到了证明。
translated by 谷歌翻译
使用自适应机器学习解决了在不准确运动学模型的情况下,在存在不正确的运动学模型的情况下形成封闭运动链的合作操纵器的自我调整控制问题。两个级联估计器在线更新了与互连操纵器的相对位置/方向不确定性有关的运动学参数,以调整合作控制器,以通过最小值驱动力来实现准确的运动跟踪。该技术允许对所涉及的操纵器的相对运动学进行准确的校准,而无需高精度的终点传感或力测量,因此在经济上是合理的。研究整个实时估计器/控制器系统的稳定性表明,可以确保自适应控制过程的收敛性和稳定性,如果i)角速度向量的方向不会随着时间的推移而保持恒定;参数误差是由一些已知参数的缩放器函数上限。自适应控制器被证明是无奇异性的,即使控制定律涉及在估计参数下计算的矩阵的近似。实验结果证明了传统的反向动态控制方案对运动不准确的跟踪性能的敏感性,而自我调整合作控制器的跟踪误差显着降低。
translated by 谷歌翻译
这项工作审查了旨在在通信约束下运行的自适应分布式学习策略。我们考虑一个代理网络,必须从持续观察流数据来解决在线优化问题。代理商实施了分布式合作策略,其中允许每个代理商与其邻居执行本地信息交换。为了应对通信约束,必须不可避免地压缩交换信息。我们提出了一种扩散策略,昵称为ACTC(适应 - 压缩 - 然后组合),其依赖于以下步骤:i)每个代理执行具有恒定步长大小的单独随机梯度更新的适应步骤; ii)一种压缩步骤,它利用最近引入的随机压缩操作员;和III)每个代理组合从其邻居接收的压缩更新的组合步骤。这项工作的区别要素如下。首先,我们专注于自适应策略,其中常数(而不是递减)阶梯大小对于实时响应非间断变化至关重要。其次,我们考虑一般的指导图表和左随机组合政策,使我们能够增强拓扑和学习之间的相互作用。第三,与对所有个人代理的成本职能承担强大的凸起的相关作品相比,我们只需要在网络水平的强大凸起,即使单个代理具有强凸的成本,剩余的代理商也不满足凸起成本。第四,我们专注于扩散(而不是共识)战略。在压缩信息的苛刻设置下,建立ACTC迭代在所需的优化器周围波动,在相邻代理之间交换的比特方面取得了显着的节省。
translated by 谷歌翻译
在本文中,我们设计了一个基于信息的多机器人来源,以寻求算法,其中一组移动传感器仅使用基于局部范围的测量值就本地化并移动靠近单个源。在算法中,移动传感器执行源标识/本地化以估计源位置;同时,他们移至新位置,以最大程度地提高有关传感器测量中包含的源的Fisher信息。在这样做的过程中,它们改善了源位置估计,并更靠近源。与传统的攀登算法相比,我们的算法在收敛速度方面具有优越性,在测量模型和信息指标的选择中是灵活的,并且对测量模型误差非常强大。此外,我们提供了算法的完全分布式版本,每个传感器都决定自己的动作,并且仅通过稀疏的通信网络与邻居共享信息。我们进行密集的仿真实验,以测试带有光传感器的小型地面车辆上的大规模系统和物理实验的算法,这表明在寻求光源方面取得了成功。
translated by 谷歌翻译
培训期间的对抗性攻击能够强烈影响多功能增强学习算法的性能。因此,非常希望增加现有算法,使得消除对抗对协作网络的对抗性攻击的影响,或者至少有界限。在这项工作中,我们考虑一个完全分散的网络,每个代理商收到本地奖励并观察全球州和行动。我们提出了一种基于弹性共识的演员 - 批评算法,其中每个代理估计了团队平均奖励和价值函数,并将关联的参数向量传送到其立即邻居。我们表明,在拜占庭代理人的存在下,其估算和通信策略是完全任意的,合作社的估计值会融合到有概率一体的有界共识值,条件是在附近的最多有$ H $拜占庭代理商每个合作社和网络都是$(2h + 1)$ - 强大。此外,我们证明,合作社的政策在其团队平均目标函数的局部最大化器周围汇聚在其团队平均目标函数的概率上,这是对渐关节转移变得稳定的普发因子的政策。
translated by 谷歌翻译
反对派系统中最近的进展在贝叶斯视角下,逆滤成了显着的研究兴趣。例如,估计逆基金的卡尔曼滤波器跟踪估计的兴趣与预测对手的未来步骤的目的已经导致最近反向卡尔曼滤波器(I-KF)的配方。在逆滤波的这种情况下,我们通过提出反向扩展卡尔曼滤波器(I-EKF)来解决向前滤波器的非线性过程动态和未知输入的关键挑战。通过考虑前向和逆状态空间模型中的非线性,我们通过派生I-EKF而没有未知的输入。在此过程中,还获得了I-KF的输入。然后,我们使用界限非线性和未知的矩阵方法提供理论稳定性保证。我们进一步概括了这些制剂,并对高出高斯和抖动的I-EKF的案例概括。数值实验使用递归Cram \'ER-RAO作为基准验证各种提出的逆滤波器的方法。
translated by 谷歌翻译
In this paper, we present a solution to a design problem of control strategies for multi-agent cooperative transport. Although existing learning-based methods assume that the number of agents is the same as that in the training environment, the number might differ in reality considering that the robots' batteries may completely discharge, or additional robots may be introduced to reduce the time required to complete a task. Therefore, it is crucial that the learned strategy be applicable to scenarios wherein the number of agents differs from that in the training environment. In this paper, we propose a novel multi-agent reinforcement learning framework of event-triggered communication and consensus-based control for distributed cooperative transport. The proposed policy model estimates the resultant force and torque in a consensus manner using the estimates of the resultant force and torque with the neighborhood agents. Moreover, it computes the control and communication inputs to determine when to communicate with the neighboring agents under local observations and estimates of the resultant force and torque. Therefore, the proposed framework can balance the control performance and communication savings in scenarios wherein the number of agents differs from that in the training environment. We confirm the effectiveness of our approach by using a maximum of eight and six robots in the simulations and experiments, respectively.
translated by 谷歌翻译
在本文中,我们研究了一群代理的旨在通过流数据进行协作地学习共同的静态潜在函数的问题。我们提出了一种轻量级分布式高斯进程回归(GPR)算法,该算法是在通信,计算和内存中的代理有限能力的认识。每个代理使用本地流数据独立地运行基于代理的GPR,以预测感兴趣的测试点;然后,该代理协作执行分布式GPR,以获得通过常见的稀疏测试点集的全局预测;最后,每个代理的融合来自分布式GPR的结果与基于代理的GPR来改进其预测。通过量化预测方差和错误中的瞬态和稳态性能,我们表明,有限的代理商通信在帕累托的意义上提高了学习表演。Monte Carlo仿真进行了评估发达的算法。
translated by 谷歌翻译
This work studies networked agents cooperating to track a dynamical state of nature under partial information. The proposed algorithm is a distributed Bayesian filtering algorithm for finite-state hidden Markov models (HMMs). It can be used for sequential state estimation tasks, as well as for modeling opinion formation over social networks under dynamic environments. We show that the disagreement with the optimal centralized solution is asymptotically bounded for the class of geometrically ergodic state transition models, which includes rapidly changing models. We also derive recursions for calculating the probability of error and establish convergence under Gaussian observation models. Simulations are provided to illustrate the theory and to compare against alternative approaches.
translated by 谷歌翻译
在存在对抗数据攻击的情况下,我们研究在线和分布式方案中的强大平均估计。在每个时间步骤中,网络中的每个代理都会收到一个潜在损坏的数据点,其中数据点最初是独立的,并且是随机变量的相同分布的样本。我们建议所有代理商在线和分发算法,以渐近地估计平均值。我们将估计值的错误结合和收敛属性提供给我们算法下的真实均值。基于网络拓扑,我们进一步评估了每个代理商在合并邻居的数据和仅在本地观察中学习之间的融合率的权衡。
translated by 谷歌翻译
本文解决了使用异质多机器人系统进行合作目标跟踪的问题,该系统在该系统上通过动态通信网络进行通信,而异质性则是在机器人中安装的不同类型的传感器和预测算法方面。该问题被投入到分布式学习框架中,在该框架中,机器人被认为是通过动态通信网络连接的“代理”。他们的预测算法被认为是“专家”,对目标轨迹的看法预测。在本文中,提出了一种新颖的分散分布式专家辅助学习(D2EAL)算法,提出了通过使每个机器人通过其信息共享来改善目标轨迹的外观预测,并运行加权信息,从而改善了整体跟踪性能。融合过程结合了基于预测损失度量的在线学习权重。对D2EAL进行了理论分析,该分析涉及对累积预测损失的最坏情况界限的分析以及权重分析。仿真研究表明,在涉及专家预测中涉及大动态偏见或漂移的不利场景中,D2EAL优于众所周知的基于协方差的估计/预测融合方法,无论是在预测性能和可伸缩性方面。
translated by 谷歌翻译
当信号通过物理传感器测量,它们被噪声干扰。为了减少噪音,低通滤波器,以便衰减高频分量的输入信号,如果无论它们来自噪声或实际信号被通常使用的。因此,低通滤波器必须仔细调整以避免信号的显著恶化。这种调整需要有关的信号,这往往不是在应用,如强化学习或基于学习控制提供先验知识。为了克服这种限制,我们提出了一种基于高斯过程回归自适应低通滤波器。通过考虑以前的意见,更新和预测足够快的现实世界的滤波应用的恒定窗口即可实现。此外,超参数导致的低通行为适配的在线优化,使得没有事先调整是必要的。我们表明,该方法的估计误差一致有界,并证明了该方法的灵活性和效率的几个模拟。
translated by 谷歌翻译
Interacting particle or agent systems that display a rich variety of swarming behaviours are ubiquitous in science and engineering. A fundamental and challenging goal is to understand the link between individual interaction rules and swarming. In this paper, we study the data-driven discovery of a second-order particle swarming model that describes the evolution of $N$ particles in $\mathbb{R}^d$ under radial interactions. We propose a learning approach that models the latent radial interaction function as Gaussian processes, which can simultaneously fulfill two inference goals: one is the nonparametric inference of {the} interaction function with pointwise uncertainty quantification, and the other one is the inference of unknown scalar parameters in the non-collective friction forces of the system. We formulate the learning problem as a statistical inverse problem and provide a detailed analysis of recoverability conditions, establishing that a coercivity condition is sufficient for recoverability. Given data collected from $M$ i.i.d trajectories with independent Gaussian observational noise, we provide a finite-sample analysis, showing that our posterior mean estimator converges in a Reproducing kernel Hilbert space norm, at an optimal rate in $M$ equal to the one in the classical 1-dimensional Kernel Ridge regression. As a byproduct, we show we can obtain a parametric learning rate in $M$ for the posterior marginal variance using $L^{\infty}$ norm, and the rate could also involve $N$ and $L$ (the number of observation time instances for each trajectory), depending on the condition number of the inverse problem. Numerical results on systems that exhibit different swarming behaviors demonstrate efficient learning of our approach from scarce noisy trajectory data.
translated by 谷歌翻译
本文涉及一种计算代理网络,旨在以分布式方式解决在线优化问题,即通过本地计算和通信,没有任何中央协调员。我们提出了具有自适应动量估计(GTADAM)分布式算法的梯度跟踪,其将梯度跟踪机制与梯度的第一和二阶动量估计相结合。该算法在线设置中分析了具有Lipschitz连续梯度的强凸起成本函数的在线设置。我们为动态遗憾提供了一个与初始条件相关的术语的动态遗憾的上限,以及与客观函数的时间变化有关的另一个术语。此外,在静态设置中保证了线性收敛速率。在从图像分类中,在(移动)目标定位问题上和随机优化设置中的时变分类问题测试该算法。在来自多智能经验学习的这些数值实验中,GTADAM优于最先进的分布式优化方法。
translated by 谷歌翻译
本文提出了一个身体一致的高斯过程(GP),以识别不确定的拉格朗日系统。该功能空间是根据拉格朗日和微分方程结构的能量成分量身定制的,可以在分析上保证物理和数学特性,例如能量保护和二次形式。Cholesky分解矩阵内核的新型配方可允许概率保留正定性。在扭矩,速度和加速度中允许高斯噪声时,仅需要进行函数图的差分输入测量值。我们证明了该方法在数值模拟中的有效性。
translated by 谷歌翻译
贝叶斯推理允许在贝叶斯神经网络的上下文中获取有关模型参数的有用信息,或者在贝叶斯神经网络的背景下。通常的Monte Carlo方法的计算成本,用于在贝叶斯推理中对贝叶斯推理的后验法律进行线性点的数量与数据点的数量进行线性。将其降低到这一成本的一小部分的一种选择是使用Langevin动态的未经调整的离散化来诉诸Mini-Batching,在这种情况下,只使用数据的随机分数来估计梯度。然而,这导致动态中的额外噪声,因此在马尔可夫链采样的不变度量上的偏差。我们倡导使用所谓的自适应Langevin动态,这是一种改进标准惯性Langevin动态,其动态摩擦力,可自动校正迷你批次引起的增加的噪声。我们调查假设适应性Langevin的假设(恒定协方差估计梯度的恒定协方差),这在贝叶斯推理的典型模型中不满足,并在这种情况下量化小型匹配诱导的偏差。我们还展示了如何扩展ADL,以便通过考虑根据参数的当前值来系统地减少后部分布的偏置。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
这项工作提出了一种分散的架构,其中个别代理旨在解决分类问题,同时观察不同尺寸的流特征,并从可能不同的分布产生。在社会学习的背景下,已经开发了几种有用的策略,通过跨分布式代理的本地合作解决了决策问题,并允许他们从流数据中学习。然而,传统的社会学习策略依赖于每个代理人对观察结果分布的重要知识的基本假设。在这项工作中,我们通过引入一种机器学习框架来克服这一问题,该机器学习框架利用图形的社交交互,导致分布式分类问题的完全数据驱动的解决方案。在拟议的社交机器学习(SML)策略中,存在两个阶段:在训练阶段,分类器被独立培训,以使用有限数量的训练样本来产生一组假设的信念;在预测阶段,分类器评估流媒体未标记的观察,并与邻近分类器共享他们的瞬时信仰。我们表明SML策略使得代理能够在这种高度异构的环境下一致地学习,并且即使在预测阶段决定未标记的样本时,即使在预测阶段也允许网络继续学习。预测决策用于以明显不同的方式不断地提高性能,这些方式与大多数现有的静态分类方案不同,在培训之后,未标记数据的决策不会重新用于改善未来的性能。
translated by 谷歌翻译
该论文提出了两种控制方法,用于用微型四轮驱动器进行反弹式操纵。首先,对专门为反转设计设计的现有前馈控制策略进行了修订和改进。使用替代高斯工艺模型的贝叶斯优化通过在模拟环境中反复执行翻转操作来找到最佳运动原语序列。第二种方法基于闭环控制,它由两个主要步骤组成:首先,即使在模型不确定性的情况下,自适应控制器也旨在提供可靠的参考跟踪。控制器是通过通过测量数据调整的高斯过程来增强无人机的标称模型来构建的。其次,提出了一种有效的轨迹计划算法,该算法仅使用二次编程来设计可行的轨迹为反弹操作设计。在模拟和使用BitCraze Crazyflie 2.1四肢旋转器中对两种方法进行了分析。
translated by 谷歌翻译
Privacy protection and nonconvexity are two challenging problems in decentralized optimization and learning involving sensitive data. Despite some recent advances addressing each of the two problems separately, no results have been reported that have theoretical guarantees on both privacy protection and saddle/maximum avoidance in decentralized nonconvex optimization. We propose a new algorithm for decentralized nonconvex optimization that can enable both rigorous differential privacy and saddle/maximum avoiding performance. The new algorithm allows the incorporation of persistent additive noise to enable rigorous differential privacy for data samples, gradients, and intermediate optimization variables without losing provable convergence, and thus circumventing the dilemma of trading accuracy for privacy in differential privacy design. More interestingly, the algorithm is theoretically proven to be able to efficiently { guarantee accuracy by avoiding} convergence to local maxima and saddle points, which has not been reported before in the literature on decentralized nonconvex optimization. The algorithm is efficient in both communication (it only shares one variable in each iteration) and computation (it is encryption-free), and hence is promising for large-scale nonconvex optimization and learning involving high-dimensional optimization parameters. Numerical experiments for both a decentralized estimation problem and an Independent Component Analysis (ICA) problem confirm the effectiveness of the proposed approach.
translated by 谷歌翻译