来自视觉信息的特征点的全局收敛位置观察者的设计是一个具有挑战性的问题,特别是对于仅具有惯性测量的情况,并且没有均匀可观察性的假设,这仍然长时间保持开放。我们在本文中提供了解决问题的解决方案,假设只有特征点的轴承,以及机器人的偏置线性加速度和机器人的旋转速度 - 都可以使用。此外,与现有相关结果相反,我们不需要重力常数的值。所提出的方法在最近开发的基于参数估计的观察者(Ortega等人,Syst。控制。Lett。,Vol.85,2015)及其在我们以前的工作中的矩阵群体的延伸。给出了观察者收敛的机器人轨迹的条件,这些条件比激发和均匀完全可观察性条件的标准持久性严格弱。最后,我们将建议的设计应用于视觉惯性导航问题。还提出了仿真结果以说明我们的观察者设计。
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
非线性自适应控制理论中的一个关键假设是系统的不确定性可以在一组已知基本函数的线性跨度中表示。虽然该假设导致有效的算法,但它将应用限制为非常特定的系统类别。我们介绍一种新的非参数自适应算法,其在参数上学习无限尺寸密度,以取消再现内核希尔伯特空间中的未知干扰。令人惊讶的是,所产生的控制输入承认,尽管其底层无限尺寸结构,但是尽管它的潜在无限尺寸结构实现了其实施的分析表达。虽然这种自适应输入具有丰富和富有敏感性的 - 例如,传统的线性参数化 - 其计算复杂性随时间线性增长,使其比其参数对应力相对较高。利用随机傅里叶特征的理论,我们提供了一种有效的随机实现,该实现恢复了经典参数方法的复杂性,同时可透明地保留非参数输入的表征性。特别地,我们的显式范围仅取决于系统的基础参数,允许我们所提出的算法有效地缩放到高维系统。作为该方法的说明,我们展示了随机近似算法学习由牛顿重力交互的十点批量组成的60维系统的预测模型的能力。
translated by 谷歌翻译
本文介绍了一类时变植物的自适应控制的新参数估计算法。该算法的主要特征是时变的学习速率的矩阵,其使得每当满足激励条件时,使参数估计误差轨迹能够朝向紧凑型朝向紧凑型呈现快速。该算法用于在存在未知参数的大类问题中,并且是时变的。结果表明,该算法保证了系统的状态和参数误差的全局界限,并避免了用于构造密钥回归信号的经常使用过滤方法。另外,在存在有限和持久的激励的情况下,提供了这些误差趋向于紧凑型朝向紧凑型趋向于紧凑型的时间间隔。与时变忘记因素相比,投影运算符用于确保学习率矩阵的界限。提供了数值模拟以补充理论分析。
translated by 谷歌翻译
在本文中,我们提出了一种新颖的观察者来解决视觉同时定位和映射(SLAM)的问题,仅使用来自单眼摄像机和惯性测量单元(IMU)的信息。系统状态在歧管$ se(3)\ times \ mathbb {r} ^ {3n} $上演变,我们在其中仔细设计动态扩展,以便产生不变的叶片,使得问题重新加入在线\ EMPH{常量参数}识别。然后,遵循最近引入的基于参数估计的观察者(PEBO)和动态回归扩展和混合(DREM)过程,我们提供了一个新的简单解决方案。值得注意的优点是,拟议的观察者保证了几乎全局渐近稳定性,既不需要激发的持久性也不是完全可观察性,然而,在大多数现有的工作中广泛采用了保证稳定性。
translated by 谷歌翻译
这项工作开发了一种新的直接自适应控制框架,将确定性等效原理扩展到具有无与伦比的模型不确定性的一般非线性系统。该方法在线调整适应速率,以消除参数估计瞬变对闭环稳定性的影响。如果已知相应的模型参数化Lyapunov函数或收缩度量,则该方法可以立即结合先前设计或学习的反馈策略。具有无与伦比的不确定性的各种非线性系统的仿真结果证明了这种方法。
translated by 谷歌翻译
我们考虑由非线性状态等式$ H_ {T + 1} = \ phi(h_t,u_t; \ theta)+ w_t $ toy的稳定系统的问题问题。在这里$ \ theta $是未知的系统动态,$ h_t $是状态,$ u_t $是输入,$ w_t $是附加噪音矢量。我们研究了基于梯度的算法,以了解从单个有限轨迹所获得的样本的系统动态$ \ theta $。如果系统通过稳定输入策略运行,我们表明可以通过I.i.d近似时间依赖的样本。使用混合时间参数通过截断参数示例。然后,我们为经验损失梯度的均匀收敛性开发新的保证。与现有的工作不同,我们的界限是噪声敏感,允许高精度和小样本复杂度学习地面真实动态。我们的结果在一起,促进了稳定政策下的一般非线性系统的高效学习。我们专注于进入明智的非线性激活的保证,并在各种数值实验中验证我们的理论
translated by 谷歌翻译
直接政策搜索作为现代强化学习(RL)的工作人员之一,其在连续控制任务中的应用最近引起了不断的关注。在这项工作中,我们研究了用于学习线性风险敏感和鲁棒控制器的政策梯度(PG)方法的收敛理论。特别地,我们开发PG方法,可以通过采样系统轨迹以无衍生方式实现,并建立全球收敛性和样本复杂性,这导致风险敏感和强大控制中的两个基本环境的解决方案:有限地平线线性指数二次高斯,以及有限地平线线性二次干扰衰减问题。作为副产品,我们的结果还为解决零和线性二次动态游戏的PG方法的全局融合提供了第一种样本复杂性,这是一种非透明的极限优化问题,该问题用作多功能钢筋中的基线设置学习(Marl)与连续空间。我们的算法的一个特征是在学习阶段,保留了一定程度的控制器的鲁棒性/风险敏感性,因此我们被称为隐式正则化属性,并且是安全关键控制系统的基本要求。
translated by 谷歌翻译
在为非静止环境设计在线学习算法时,自然目标是在输入序列的时间变化方面绑定算法的遗憾。直观地,当变化很小时,算法应该更容易实现低遗憾,因为过去的观察是预测未来输入的预测。最近已经获得了这种数据相关的“PathLength”遗憾的界限,用于各种在线学习问题,包括OCO和匪徒。我们在线性动态系统中获得用于在线控制和估计(例如卡尔曼滤波)的第一个路径长度界限。我们推导中的关键思想是将路径长度最佳过滤和控制到鲁棒估计和控制中的某些变分问题;这些减少可能是独立的兴趣。数值模拟确认当环境随时间变化时,我们的PathLength-最佳算法优于传统的$ H_2 $和$ H _ {\ idty} $算法。
translated by 谷歌翻译
本文介绍了局部最低限度的遗憾,用于自适应控制线性 - 四爵士(LQG)系统的下限。我们考虑平滑参数化实例,并在对数遗憾时提供了对实例的特定和灵活性,以考虑到问题结构。这种理解依赖于两个关键概念:局部无规格的概念;当最佳策略没有提供足够的激励以确定最佳政策,并产生退化的Fisher信息矩阵;以及信息遗憾的界限,当政策依赖信息矩阵的小特征值在该政策的遗憾方面是无限的。结合减少贝叶斯估计和范树的应用,这两个条件足以证明遗憾的界限为时间$ \ sqrt {t} $ \ sqrt {t} $ of the the theaign,$ t $。该方法产生低界,其具有与控制理论问题常数自然的紧密依赖性和规模。例如,我们能够证明在边缘稳定性附近运行的系统从根本上难以学习控制。我们进一步表明,大类系统满足这些条件,其中任何具有$ a $的状态反馈系统 - 和$ b $ -matrices未知。最重要的是,我们还建立了一个非活动类别的部分可观察系统,基本上是那些过度启动的那些满足这些条件,从而提供$ \ SQRT {T} $下限对部分可观察系统也有效。最后,我们转到两个简单的例子,表明我们的下限捕获了经典控制 - 理论直觉:我们的下限用于在边际稳定性附近或大过滤器增益的近方行,这些系统可以任意难以努力(学习到)控制。
translated by 谷歌翻译
动态网络的识别方法通常需要先前的网络和干扰拓扑的知识,并且通常依赖于解决可扩展的不可达到的非凸优化问题。虽然在文献中可获得用于估计网络拓扑的方法,但是估计干扰拓扑的缺少的注意力不太注意,即扰动信号的过滤的白噪声表示中的(空间)噪声相关结构和噪声等级。在这项工作中,我们提出了一种动态网络的识别方法,其中干扰拓扑的估计在具有已知网络拓扑的全动态网络的识别之前。为此,我们扩展了多步顺序线性回归和加权空隙空间拟合方法来处理降低的排名噪声,并使用这些方法在完全测量情况下估计干扰拓扑和网络动态。结果,我们提供了一种具有并行计算能力的多步骤最小二乘算法,并且仅依赖于显式分析解决方案,从而避免涉及通常的非凸的优化。因此,我们始终如一地估算了箱子詹金斯模型结构的动态网络,同时保持计算负担低。我们提供了一种一致性证据,包括基于路径的数据信息性条件,用于在实验设计中分配激励信号。在具有减少的排名噪声的动态网络上执行的数值模拟清楚地说明了这种方法的潜力。
translated by 谷歌翻译
本文采用加强学习技术研究了连续时间线性随机系统的适应性最优固定控制,使用加强学习技术。基于政策迭代,提出了一种新的脱助策略加强学习算法,命名为基于乐观的最小二乘策略迭代,能够直接从输入/状态数据直接找到自适应最佳稳定控制问题的迭代近的最佳策略从初始允许控制策略开始,显式识别任何系统矩阵。通过基于乐观的最小二乘基本的政策迭代给出的解决方案被证明是在温和条件下通过概率1收敛到最佳解决方案的小邻域。所提出的算法在三重倒立摆锤示例中的应用验证了其可行性和有效性。
translated by 谷歌翻译
我们通过投影仪操作员研究较大尺寸的连续动态系统的嵌入。我们称这种技术PED,动态系统的投影嵌入,因为动态的稳定固定点通过从较高尺寸空间的投影回收。在本文中,我们提供了一种通用定义,并证明对于特定类型的Rank-1的投影仪操作者,均匀的平均场投影仪,运动方程成为动态系统的平均场逼近。虽然一般来说,嵌入取决于指定的变量排序,但对于均匀平均字段投影仪而不是真的。此外,我们证明原始稳定的固定点保持稳定的动态的定点,鞍点保持鞍座,但不稳定的固定点变成马鞍。
translated by 谷歌翻译
火星是1991年弗里德曼引入的非参数回归的流行方法。火星适合回归数据的简单非线性和非添加功能。我们提出并研究了火星方法的自然套索变体。我们的方法基于通过考虑MARS中的功能的无限维线性组合而获得的凸类功能的最小二乘估计,并施加基于变化的复杂性约束。我们表明我们的估计器可以通过有限维凸优化来计算,并且基于平滑度约束自然地连接到非参数函数估计技术。在一个简单的设计假设下,我们证明了我们的估算仪实现了一定程度上仅依赖于对数的收敛速度,从而在一定程度上避免了通常的维度诅咒。我们使用交叉验证方案实现了用于选择所涉及的调谐参数的方法,并显示与仿真和实际数据设置中的通常的MARS方法相比具有良好的性能。
translated by 谷歌翻译
控制理论中的一个基本概念是可控性,可以通过适当的控制输入选择来达到任何系统状态。确实,大量的古典和现代方法是为可控的线性动力系统设计的。但是,在实践中,我们经常遇到系统,其中大量状态变量与控制输入无关。这样的系统仅是部分控制的。这项工作的重点是大量部分可控制的线性动力学系统,该系统由潜在的稀疏模式指定。我们的主要结果建立了结构性条件和有限样本保证,以学习控制此类系统。特别是,我们的结构结果是那些与最佳控制无关的状态变量的特征,该分析偏离了经典的控制技术。我们的算法结果适应了高维统计数据(尤其是软阈值和半参数最小二乘方形),以利用潜在的稀疏模式,以获得有限样本的保证,从而显着改善了基于一定程度等值的有限样本。我们还通过模拟研究证实了这些理论改进,而不是确定性等效控制。
translated by 谷歌翻译
本文研究了具有完全状态观测的自主交换线性系统系统识别问题。我们提出了用于识别切换线性系统的开关最小二乘法,表明该方法是强烈一致的,并导出数据相关和数据无关的收敛速率。特别是,我们的数据依赖率的收敛速度表明,几乎肯定地,系统识别错误是$ \ mathcal {o} \ big(\ sqrt {\ log(t)/ t}大)$ why $ t $时间地平线。这些结果表明,我们对切换线性系统的方法具有相同的收敛速度,不是非切换线性系统的最小二乘法。我们将我们的结果与文学中的结果进行比较。我们提供了数值例子以说明所提出的系统识别方法的性能。
translated by 谷歌翻译
学习线性时间不变动态系统(LTID)的参数是当前兴趣的问题。在许多应用程序中,人们有兴趣联合学习多个相关LTID的参数,这仍然是未探究的日期。为此,我们开发一个联合估计器,用于学习共享常见基矩阵的LTID的过渡矩阵。此外,我们建立有限时间误差界限,取决于底层的样本大小,维度,任务数和转换矩阵的光谱属性。结果是在轻度规律假设下获得的,并在单独学习每个系统的比较中,展示从LTID的汇集信息汇总信息。我们还研究了错过过渡矩阵的联合结构的影响,并显示成立的结果在适度误操作的存在下是强大的。
translated by 谷歌翻译
在本文中,我们利用过度参数化来设计高维单索索引模型的无规矩算法,并为诱导的隐式正则化现象提供理论保证。具体而言,我们研究了链路功能是非线性且未知的矢量和矩阵单索引模型,信号参数是稀疏向量或低秩对称矩阵,并且响应变量可以是重尾的。为了更好地理解隐含正规化的角色而没有过度的技术性,我们假设协变量的分布是先验的。对于载体和矩阵设置,我们通过采用分数函数变换和专为重尾数据的强大截断步骤来构造过度参数化最小二乘损耗功能。我们建议通过将无规则化的梯度下降应用于损耗函数来估计真实参数。当初始化接近原点并且步骤中足够小时,我们证明了所获得的解决方案在载体和矩阵案件中实现了最小的收敛统计速率。此外,我们的实验结果支持我们的理论调查结果,并表明我们的方法在$ \ ell_2 $ -staticatisticated率和变量选择一致性方面具有明确的正则化的经验卓越。
translated by 谷歌翻译
通过连续静态状态反馈诱导的任务是在本文中考虑了非线性控制系统中的渐近稳定的杂核轨道。主要动机来自确保在欠抖动的机械系统中对所谓的点对点机动的收敛的问题。即,在其状态控制空间中平滑曲线,这与系统动态一致,并连接两个(线性)稳定的平衡点。该方法使用特定的参数化,以及在机动上的状态投影,以便为此目的结合两个线性化技术:沿轨道的边界的均衡和横向线性化的雅蟒线性化。这允许通过求解半纤维编程问题来计算稳定控制增益。由此产生的非线性控制器同时渐近轨道稳定轨道和最终平衡,是局部LipsChitz连续的时间不变,不需要切换,并且具有熟悉的馈送加上反馈状结构。该方法还通过基于同步函数的参数来互补,用于规划具有一定程度的疏松的机械系统的机械系统。 “蝴蝶”机器人在两点之间的球滚动的非预先生操纵任务的数值模拟证明了合成的功效。
translated by 谷歌翻译
我们考虑通过有限的地平线$ t $控制线性二次调节器(LQR)系统的问题,以固定和已知的成本矩阵$ q,r $但未知和非静止动力$ \ {a_t,b_t \} $。动态矩阵的序列可以是任意的,但总体变化,V_T $,假设为$ O(t)$和控制器未知。在假设所有$ $ $的稳定序列,但潜在的子最优控制器中,我们介绍了一种实现$ \ tilde {\ mathcal {o}} \ left的最佳动态遗憾的算法(v_t ^ { 2/5} t ^ {3/5} \右)$。通过分词恒定动态,我们的算法实现了$ \ tilde {\ mathcal {o}}(\ sqrt {st})$的最佳遗憾,其中$ s $是交换机的数量。我们的算法的关键是一种自适应的非平稳性检测策略,它在最近开发的用于上下文多武装匪徒问题的方法中构建。我们还争辩说,不适应忘记(例如,重新启动或使用静态窗口大小的滑动窗口学习)可能对LQR问题的后悔最佳,即使窗口大小以$ V_T $的知识最佳地调整。我们算法分析中的主要技术挑战是证明普通的最小二乘(OLS)估计器在待估计的参数是非静止的情况下具有小的偏差。我们的分析还突出了推动遗憾的关键主题是LQR问题在于LQR问题是具有线性反馈和局部二次成本的强盗问题。这个主题比LQR问题本身更普及,因此我们相信我们的结果应该找到更广泛的应用。
translated by 谷歌翻译