信息性规划试图指导机器人的一系列动作,以收集最大信息的数据以映射大环境或学习动态系统。信息规划中的现有工作主要侧重于提出新规划者,并将其应用于各种机器人应用,如环境监测,自主勘探和系统识别。信息规划人员优化了概率模型给出的目标,例如,高斯过程回归。在实践中,该模型可以很容易受到无处不在的传感异常值的影响,导致误导目标。直接的解决方案是使用搁板的异常值检测器过滤出传感数据流中的异常值。但是,信息性样本也根据定义稀缺,因此它们可能被错误地筛选出来。在本文中,我们提出了一种方法来使机器人能够重新访问除了优化信息规划目标之外对异常值进行采样的位置。通过这样做,机器人可以在异常值附近收集更多样本,并更新异常值检测器以减少误报的数量。这是通过在蒙特卡罗树搜索的帕累托变体上设计一个新目标来实现的。我们证明所提出的框架可以实现比仅应用异常值探测器更好的性能。
translated by 谷歌翻译
在许多环境监测方案中,采样机器人需要同时探索环境和利用有限时间利用感兴趣的特征。我们介绍了一个名为Pareto Monte Carlo树搜索的多目标信息规划方法,该方法允许机器人处理潜在的竞争目标,例如勘探与剥削。该方法基于环境状态的知识(估计)为机器人产生了优化的决策解决方案,从而更好地适应环境动态。我们在关键树节点选择步骤提供算法分析,并显示选择子最优节点的次数是对数界限的,并且搜索结果以多项式率收敛到最佳选择。
translated by 谷歌翻译
具有多模式传感(AIPPMS)的自适应信息路径计划(AIPPMS)考虑了配备多个传感器的代理商的问题,每个传感器具有不同的感应精度和能量成本。代理商的目标是探索环境并在未知的,部分可观察到的环境中受到其资源约束的信息。先前的工作集中在不太一般的适应性信息路径计划(AIPP)问题上,该问题仅考虑了代理人运动对收到的观察结果的影响。 AIPPMS问题通过要求代理的原因共同出现感应和移动的影响,同时平衡资源约束与信息目标,从而增加了额外的复杂性。我们将AIPPMS问题作为一种信念马尔可夫决策过程,并具有高斯流程信念,并使用在线计划中使用顺序的贝叶斯优化方法来解决它。我们的方法始终优于以前的AIPPMS解决方案,这几乎将几乎每个实验中获得的平均奖励增加了一倍,同时还将根平方的错误在环境信念中减少了50%。我们完全开放我们的实施方式,以帮助进一步开发和比较。
translated by 谷歌翻译
本文提出了一种以完全分布式方式工作的协同环境学习算法。多机器人系统比单个机器人更有效,但它涉及以下挑战:1)使用多个机器人在线分布式学习环境地图; 2)基于学习地图的安全和有效的探索路径的产生; 3)对机器人数量的维持能力。为此,我们将整个过程划分为环境学习和路径规划的两个阶段。在每个阶段应用分布式算法并通过相邻机器人之间的通信组合。环境学习算法使用分布式高斯过程,路径规划算法使用分布式蒙特卡罗树搜索。因此,我们构建一个可扩展系统,而无需对机器人数量的约束。仿真结果证明了所提出的系统的性能和可扩展性。此外,基于实际数据集的仿真验证了我们算法在更现实的方案中的实用程序。
translated by 谷歌翻译
本文主要研究范围传感机器人在置信度富的地图(CRM)中的定位和映射,这是一种持续信仰的密集环境表示,然后扩展到信息理论探索以减少姿势不确定性。大多数关于主动同时定位和映射(SLAM)和探索的作品始终假设已知的机器人姿势或利用不准确的信息指标来近似姿势不确定性,从而导致不知名的环境中的勘探性能和效率不平衡。这激发了我们以可测量的姿势不确定性扩展富含信心的互信息(CRMI)。具体而言,我们为CRMS提出了一种基于Rao-Blackwellized粒子过滤器的定位和映射方案(RBPF-CLAM),然后我们开发了一种新的封闭形式的加权方法来提高本地化精度而不扫描匹配。我们通过更准确的近似值进一步计算了使用加权颗粒的不确定的CRMI(UCRMI)。仿真和实验评估显示了在非结构化和密闭场景中提出的方法的定位准确性和探索性能。
translated by 谷歌翻译
我们向连续状态马尔可夫决策过程(MDP)提出了一种扩散近似方法,该方法可用于解决非结构化的越野环境中的自主导航和控制。与呈现完全已知的状态转换模型的大多数决策定理计划框架相比,我们设计了一种方法,该方法消除了这种强烈假设,这些假设通常非常难以在现实中工程师。我们首先采用价值函数的二阶泰勒扩展。然后通过部分微分方程近似贝尔曼的最优性方程,其仅依赖于转换模型的第一和第二矩。通过组合价值函数的内核表示,然后设计一种有效的策略迭代算法,其策略评估步骤可以表示为特征的方程式的线性系统,其特征是由有限组支持状态。我们首先通过大量的仿真以2D美元的$ 2D $避让和2.5d $地形导航问题进行验证。结果表明,拟议的方法在几个基线上导致了卓越的性能。然后,我们开发一个系统,该系统将我们的决策框架整合,与船上感知,并在杂乱的室内和非结构化的户外环境中进行现实世界的实验。物理系统的结果进一步展示了我们在挑战现实世界环境中的方法的适用性。
translated by 谷歌翻译
由于其数据效率,贝叶斯优化已经出现在昂贵的黑盒优化的最前沿。近年来,关于新贝叶斯优化算法及其应用的发展的研究激增。因此,本文试图对贝叶斯优化的最新进展进行全面和更新的调查,并确定有趣的开放问题。我们将贝叶斯优化的现有工作分为九个主要群体,并根据所提出的算法的动机和重点。对于每个类别,我们介绍了替代模型的构建和采集功能的适应的主要进步。最后,我们讨论了开放的问题,并提出了有希望的未来研究方向,尤其是在分布式和联合优化系统中的异质性,隐私保护和公平性方面。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
自适应信息采样方法能够有效选择移动机器人的航点,可以获得可以获得物理过程的精确感测和映射,例如辐射或场强。本文分析了勘探和利用在环境过程的这种信息化空间采样中的作用。我们使用高斯过程来预测和估计利用置信度的预测,从而在勘探和剥削方面确定每个点的信息。具体地,我们使用高斯过程回归模型来对环境的Wi-Fi信号强度进行采样。对于信息功能的不同变体,我们广泛地分析和评估了通过单个机器人和多机器人设置中的两个不同初始轨迹的信息映射的有效性和效率。结果在基于采样目标选择适当的信息功能方面提供了有意义的见解。
translated by 谷歌翻译
惯性辅助系统需要连续的运动激发,以表征测量偏差,这些偏差将使本地化框架需要准确的集成。本文建议使用信息性的路径计划来找到最佳的轨迹,以最大程度地减少IMU偏见的不确定性和一种自适应痕迹方法,以指导规划师朝着有助于收敛的轨迹迈进。关键贡献是一种基于高斯工艺(GP)的新型回归方法,以从RRT*计划算法的变体之间实现连续性和可区分性。我们采用应用于GP内核函数的线性操作员不仅推断连续位置轨迹,还推断速度和加速度。线性函数的使用实现了IMU测量给出的速度和加速度约束,以施加在位置GP模型上。模拟和现实世界实验的结果表明,IMU偏差收敛的计划有助于最大程度地减少状态估计框架中的本地化错误。
translated by 谷歌翻译
多路径定向问题询问机器人团队的路径最大化收集的总奖励,同时满足路径长度上的预算约束。这个问题模拟了许多多机器人路由任务,例如探索未知的环境和环境监控信息。在本文中,我们专注于如何使机器人团队在对抗环境中运行时对故障的强大。我们介绍了强大的多路径定向事问题(RMOP),在那里我们寻求最糟糕的案例保证,反对能够在大多数$ \ Alpha $机器人处攻击的对手。我们考虑两个问题的两个版本:RMOP离线和RMOP在线。在离线版本中,当机器人执行其计划时,没有通信或重新扫描,我们的主要贡献是一种具有界限近似保证的一般近似方案,其取决于$ \ alpha $和单个机器人导向的近似因子。特别是,我们表明该算法在成本函数是模块化时产生(i)恒因子近似; (ii)在成本函数是子模具时,$ \ log $因子近似; (iii)当成本函数是子模块时的恒因子近似,但是允许机器人通过有界金额超过其路径预算。在在线版本中,RMOP被建模为双人顺序游戏,并基于蒙特卡罗树搜索(MCT),以后退地平线方式自适应解决。除了理论分析之外,我们还对海洋监测和隧道信息收集应用进行仿真研究,以证明我们的方法的功效。
translated by 谷歌翻译
在本文中,我们在不确定的沟通和对抗性攻击者的影响下解决了多机器人信息路径计划(MIPP)任务。目的是创建一个多机器人系统,尽管存在损坏的机器人共享恶意信息,但仍可以学习并统一对未知环境的知识。我们使用高斯工艺(GP)来对未知环境进行建模,并使用相互信息的指标来定义信息。我们MIPP任务的目标是最大化团队收集的信息量,同时最大程度地提高弹性弹性的可能性。不幸的是,这些目标是矛盾的,尤其是在探索需要机器人之间断开连接的大环境时。结果,我们强加了一个概率的通信约束,该概率可以使机器人间歇性地满足和弹性地共享信息,然后在所有其他时间内采取行动以最大程度地提高收集的信息。为了解决我们的问题,我们选择具有最高弹性概率的会议位置,并使用顺序贪婪算法来优化机器人探索的路径。最后,我们通过比较应用弹性和非弹性MIPP算法的良好行为机器人的学习能力来展示结果的有效性。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
实验数据的获取成本很高,这使得很难校准复杂模型。对于许多型号而言,鉴于有限的实验预算,可以产生最佳校准的实验设计并不明显。本文介绍了用于设计实验的深钢筋学习(RL)算法,该算法通过Kalman Filter(KF)获得的Kullback-Leibler(KL)差异测量的信息增益最大化。这种组合实现了传统方法太昂贵的快速在线实验的实验设计。我们将实验的可能配置作为决策树和马尔可夫决策过程(MDP),其中每个增量步骤都有有限的操作选择。一旦采取了动作,就会使用各种测量来更新实验状态。该新数据导致KF对参数进行贝叶斯更新,该参数用于增强状态表示。与NASH-SUTCLIFFE效率(NSE)指数相反,该指数需要额外的抽样来检验前进预测的假设,KF可以通过直接估计通过其他操作获得的新数据值来降低实验的成本。在这项工作中,我们的应用集中在材料的机械测试上。使用复杂的历史依赖模型的数值实验用于验证RL设计实验的性能并基准测试实现。
translated by 谷歌翻译
信息性测量是获取有关未知状态信息的最有效方法。我们给出了一般目的动态编程算法的第一原理推导,通过顺序地最大化可能的测量结果的熵来返回一系列信息测量。该算法可以由自主代理或机器人使用,以确定最佳测量的位置,规划对应于信息序列的最佳信息序列的路径。该算法适用于具有连续或离散的状态和控制,以及随机或确定性的代理动态;包括马尔可夫决策过程。最近的近似动态规划和强化学习的结果,包括卷展栏和蒙特卡罗树搜索等在线近似,允许代理或机器人实时解决测量任务。由此产生的近最佳溶液包括非近视路径和测量序列,其通常可以优于超过,有时基本上使用的贪婪启发式,例如最大化每个测量结果的熵。这是针对全球搜索问题的说明,其中发现使用扩展本地搜索的在线规划来减少搜索中的测量数。
translated by 谷歌翻译
主动同时定位和映射(SLAM)是规划和控制机器人运动以构建周围环境中最准确,最完整的模型的问题。自从三十多年前出现了积极感知的第一项基础工作以来,该领域在不同科学社区中受到了越来越多的关注。这带来了许多不同的方法和表述,并回顾了当前趋势,对于新的和经验丰富的研究人员来说都是非常有价值的。在这项工作中,我们在主动大满贯中调查了最先进的工作,并深入研究了仍然需要注意的公开挑战以满足现代应用程序的需求。为了实现现实世界的部署。在提供了历史观点之后,我们提出了一个统一的问题制定并审查经典解决方案方案,该方案将问题分解为三个阶段,以识别,选择和执行潜在的导航措施。然后,我们分析替代方法,包括基于深入强化学习的信念空间规划和现代技术,以及审查有关多机器人协调的相关工作。该手稿以讨论新的研究方向的讨论,解决可再现的研究,主动的空间感知和实际应用,以及其他主题。
translated by 谷歌翻译
主动位置估计(APE)是使用一个或多个传感平台本地化一个或多个目标的任务。 APE是搜索和拯救任务,野生动物监测,源期限估计和协作移动机器人的关键任务。 APE的成功取决于传感平台的合作水平,他们的数量,他们的自由度和收集的信息的质量。 APE控制法通过满足纯粹剥削或纯粹探索性标准,可以实现主动感测。前者最大限度地减少了位置估计的不确定性;虽然后者驱动了更接近其任务完成的平台。在本文中,我们定义了系统地分类的主要元素,并批判地讨论该域中的最新状态。我们还提出了一个参考框架作为对截图相关的解决方案的形式主义。总体而言,本调查探讨了主要挑战,并设想了本地化任务的自主感知系统领域的主要研究方向。促进用于搜索和跟踪应用的强大主动感测方法的开发也有益。
translated by 谷歌翻译
监测草原的健康和活力对于告知管理决策至关优化农业应用中的旋转放牧的态度至关重要。为了利用饲料资源,提高土地生产力,我们需要了解牧场的增长模式,这在最先进的状态下即可。在本文中,我们建议部署一个机器人团队来监测一个未知的牧场环境的演变,以实现上述目标。为了监测这种环境,通常会缓慢发展,我们需要设计一种以低成本在大面积上快速评估环境的策略。因此,我们提出了一种集成管道,包括数据综合,深度神经网络训练和预测以及一个间歇地监测牧场的多机器人部署算法。具体而言,使用与ROS Gazebo的新型数据综合耦合的专家知识的农业数据,我们首先提出了一种新的神经网络架构来学习环境的时空动态。这种预测有助于我们了解大规模上的牧场增长模式,并为未来做出适当的监测决策。基于我们的预测,我们设计了一个用于低成本监控的间歇多机器人部署策略。最后,我们将提议的管道与其他方法进行比较,从数据综合到预测和规划,以证实我们的管道的性能。
translated by 谷歌翻译
有效计划的能力对于生物体和人造系统都是至关重要的。在认知神经科学和人工智能(AI)中广泛研究了基于模型的计划和假期,但是从不同的角度来看,以及难以调和的考虑(生物现实主义与可伸缩性)的不同意见(生物现实主义与可伸缩性)。在这里,我们介绍了一种新颖的方法来计划大型POMDP(Active Tree search(ACT)),该方法结合了神经科学中领先的计划理论的规范性特征和生物学现实主义(主动推论)和树木搜索方法的可扩展性AI。这种统一对两种方法都是有益的。一方面,使用树搜索可以使生物学接地的第一原理,主动推断的方法可应用于大规模问题。另一方面,主动推理为探索 - 开发困境提供了一种原则性的解决方案,该解决方案通常在树搜索方法中以启发性解决。我们的模拟表明,ACT成功地浏览了对基于抽样的方法,需要自适应探索的问题以及大型POMDP问题“ RockSample”的二进制树,其中ACT近似于最新的POMDP解决方案。此外,我们说明了如何使用ACT来模拟人类和其他解决大型计划问题的人类和其他动物的神经生理反应(例如,在海马和前额叶皮层)。这些数值分析表明,主动树搜索是神经科学和AI计划理论的原则性实现,既具有生物现实主义和可扩展性。
translated by 谷歌翻译
This paper concerns realizing highly efficient information-theoretic robot exploration with desired performance in complex scenes. We build a continuous lightweight inference model to predict the mutual information (MI) and the associated prediction confidence of the robot's candidate actions which have not been evaluated explicitly. This allows the decision-making stage in robot exploration to run with a logarithmic complexity approximately, this will also benefit online exploration in large unstructured, and cluttered places that need more spatial samples to assess and decide. We also develop an objective function to balance the local optimal action with the highest MI value and the global choice with high prediction variance. Extensive numerical and dataset simulations show the desired efficiency of our proposed method without losing exploration performance in different environments. We also provide our open-source implementation codes released on GitHub for the robot community.
translated by 谷歌翻译