This paper concerns realizing highly efficient information-theoretic robot exploration with desired performance in complex scenes. We build a continuous lightweight inference model to predict the mutual information (MI) and the associated prediction confidence of the robot's candidate actions which have not been evaluated explicitly. This allows the decision-making stage in robot exploration to run with a logarithmic complexity approximately, this will also benefit online exploration in large unstructured, and cluttered places that need more spatial samples to assess and decide. We also develop an objective function to balance the local optimal action with the highest MI value and the global choice with high prediction variance. Extensive numerical and dataset simulations show the desired efficiency of our proposed method without losing exploration performance in different environments. We also provide our open-source implementation codes released on GitHub for the robot community.
translated by 谷歌翻译
本文主要研究范围传感机器人在置信度富的地图(CRM)中的定位和映射,这是一种持续信仰的密集环境表示,然后扩展到信息理论探索以减少姿势不确定性。大多数关于主动同时定位和映射(SLAM)和探索的作品始终假设已知的机器人姿势或利用不准确的信息指标来近似姿势不确定性,从而导致不知名的环境中的勘探性能和效率不平衡。这激发了我们以可测量的姿势不确定性扩展富含信心的互信息(CRMI)。具体而言,我们为CRMS提出了一种基于Rao-Blackwellized粒子过滤器的定位和映射方案(RBPF-CLAM),然后我们开发了一种新的封闭形式的加权方法来提高本地化精度而不扫描匹配。我们通过更准确的近似值进一步计算了使用加权颗粒的不确定的CRMI(UCRMI)。仿真和实验评估显示了在非结构化和密闭场景中提出的方法的定位准确性和探索性能。
translated by 谷歌翻译
主动同时定位和映射(SLAM)是规划和控制机器人运动以构建周围环境中最准确,最完整的模型的问题。自从三十多年前出现了积极感知的第一项基础工作以来,该领域在不同科学社区中受到了越来越多的关注。这带来了许多不同的方法和表述,并回顾了当前趋势,对于新的和经验丰富的研究人员来说都是非常有价值的。在这项工作中,我们在主动大满贯中调查了最先进的工作,并深入研究了仍然需要注意的公开挑战以满足现代应用程序的需求。为了实现现实世界的部署。在提供了历史观点之后,我们提出了一个统一的问题制定并审查经典解决方案方案,该方案将问题分解为三个阶段,以识别,选择和执行潜在的导航措施。然后,我们分析替代方法,包括基于深入强化学习的信念空间规划和现代技术,以及审查有关多机器人协调的相关工作。该手稿以讨论新的研究方向的讨论,解决可再现的研究,主动的空间感知和实际应用,以及其他主题。
translated by 谷歌翻译
Simulation-based falsification is a practical testing method to increase confidence that the system will meet safety requirements. Because full-fidelity simulations can be computationally demanding, we investigate the use of simulators with different levels of fidelity. As a first step, we express the overall safety specification in terms of environmental parameters and structure this safety specification as an optimization problem. We propose a multi-fidelity falsification framework using Bayesian optimization, which is able to determine at which level of fidelity we should conduct a safety evaluation in addition to finding possible instances from the environment that cause the system to fail. This method allows us to automatically switch between inexpensive, inaccurate information from a low-fidelity simulator and expensive, accurate information from a high-fidelity simulator in a cost-effective way. Our experiments on various environments in simulation demonstrate that multi-fidelity Bayesian optimization has falsification performance comparable to single-fidelity Bayesian optimization but with much lower cost.
translated by 谷歌翻译
强化学习(RL)旨在通过与环境的互动来找到最佳政策。因此,学习复杂行为需要大量的样本,这在实践中可能是持久的。然而,而不是系统地推理和积极选择信息样本,用于本地搜索的政策梯度通常从随机扰动获得。这些随机样品产生高方差估计,因此在样本复杂性方面是次优。积极选择内容性样本是贝叶斯优化的核心,它构成了过去样本的目标的概率替代物,以推理信息的后来的随后。在本文中,我们建议加入两个世界。我们利用目标函数的概率模型及其梯度开发算法。基于该模型,该算法决定查询嘈杂的零顺序oracle以提高梯度估计。生成的算法是一种新型策略搜索方法,我们与现有的黑盒算法进行比较。比较揭示了改进的样本复杂性和对合成目标的广泛实证评估的差异降低。此外,我们突出了主动抽样对流行的RL基准测试的好处。
translated by 谷歌翻译
使用复杂的数学方法建模的工程问题或者以昂贵的测试或实验为特征,占用有限预算或有限计算资源。此外,行业的实际情景,基于物流和偏好,对可以进行实验的方式施加限制。例如,材料供应可以仅在单次或计算模型的情况下仅实现少量实验,因此可以基于共享计算资源面临显着的等待时间。在这种情况下,一个人通常以允许最大化一个人的知识的方式进行实验,同时满足上述实际限制。实验顺序设计(Sdoe)是一种流行的方法套件,近年来越来越多的不同工程和实际问题。利用贝叶斯形式主义的普通战略是贝叶斯Sdoe,它通常在一步一步的一步中选择单一实验的一步或近视场景中最好的工作。在这项工作中,我们的目标是扩展SDOE策略,以批量输入查询实验或计算机代码。为此,我们利用基于深度加强学习(RL)的政策梯度方法,提出批次选择的查询,以考虑到整个预算。该算法保留了SDOE中固有的顺序性质,同时基于来自深rl域的任务的奖励元素。所提出的方法的独特能力是其应用于多个任务的能力,例如函数的优化,一旦其培训。我们展示了在合成问题上提出了算法的性能,以及挑战的高维工程问题。
translated by 谷歌翻译
由于其数据效率,贝叶斯优化已经出现在昂贵的黑盒优化的最前沿。近年来,关于新贝叶斯优化算法及其应用的发展的研究激增。因此,本文试图对贝叶斯优化的最新进展进行全面和更新的调查,并确定有趣的开放问题。我们将贝叶斯优化的现有工作分为九个主要群体,并根据所提出的算法的动机和重点。对于每个类别,我们介绍了替代模型的构建和采集功能的适应的主要进步。最后,我们讨论了开放的问题,并提出了有希望的未来研究方向,尤其是在分布式和联合优化系统中的异质性,隐私保护和公平性方面。
translated by 谷歌翻译
对未知环境的探索是机器人技术中的一个基本问题,也是自治系统应用中的重要组成部分。探索未知环境的一个主要挑战是,机器人必须计划每个时间步骤可用的有限信息。尽管大多数当前的方法都依靠启发式方法和假设来根据这些部分观察来规划路径,但我们提出了一种新颖的方式,通过利用3D场景完成来将深度学习整合到探索中,以获取知情,安全,可解释的探索映射和计划。我们的方法,SC-explorer,使用新型的增量融合机制和新提出的分层多层映射方法结合了场景的完成,以确保机器人的安全性和效率。我们进一步提出了一种信息性的路径计划方法,利用了我们的映射方法的功能和新颖的场景完整感知信息增益。虽然我们的方法通常适用,但我们在微型航空车辆(MAV)的用例中进行了评估。我们仅使用移动硬件彻底研究了高保真仿真实验中的每个组件,并证明我们的方法可以使环境的覆盖范围增加73%,而不是基线,而MAP准确性的降低仅最少。即使最终地图中未包含场景的完成,我们也可以证明它们可以用于指导机器人选择更多信息的路径,从而加快机器人传感器的测量值35%。我们将我们的方法作为开源。
translated by 谷歌翻译
我们向连续状态马尔可夫决策过程(MDP)提出了一种扩散近似方法,该方法可用于解决非结构化的越野环境中的自主导航和控制。与呈现完全已知的状态转换模型的大多数决策定理计划框架相比,我们设计了一种方法,该方法消除了这种强烈假设,这些假设通常非常难以在现实中工程师。我们首先采用价值函数的二阶泰勒扩展。然后通过部分微分方程近似贝尔曼的最优性方程,其仅依赖于转换模型的第一和第二矩。通过组合价值函数的内核表示,然后设计一种有效的策略迭代算法,其策略评估步骤可以表示为特征的方程式的线性系统,其特征是由有限组支持状态。我们首先通过大量的仿真以2D美元的$ 2D $避让和2.5d $地形导航问题进行验证。结果表明,拟议的方法在几个基线上导致了卓越的性能。然后,我们开发一个系统,该系统将我们的决策框架整合,与船上感知,并在杂乱的室内和非结构化的户外环境中进行现实世界的实验。物理系统的结果进一步展示了我们在挑战现实世界环境中的方法的适用性。
translated by 谷歌翻译
制造中的一个自主实验平台据说能够进行顺序搜索,以便自行为先进材料寻找合适的制造条件,甚至用于发现具有最小的人为干预的新材料。这种平台的智能控制的核心是政策指导顺序实验,即根据到目前为止所做的事情来决定在下次进行下一个实验的地方。此类政策不可避免地违反勘探,而目前的做法是利用预期改进标准或其变体的贝叶斯优化框架。我们讨论是否利用与直接观察相关的元素和惊喜程度来促进剥削与勘探有益。我们使用两个现有的惊喜指标设计了一个惊喜的反应政策,称为香农惊喜和贝叶斯惊喜。我们的分析表明,令人惊讶的反应政策似乎更适合于在资源限制下快速表征响应面或设计地点的整体景观。我们认为未来派自治实验平台需要这种能力。我们没有声称我们有一个完全自主的实验平台,但相信我们目前的努力揭示了新灯或提供了不同的视角,因为研究人员正在赛车提升各种原始自治实验系统的自主权。
translated by 谷歌翻译
我们研究了全球优化因果关系变量的因果关系变量的问题,在该目标变量中可以进行干预措施。这个问题在许多科学领域都引起,包括生物学,运营研究和医疗保健。我们提出了因果熵优化(CEO),该框架概括了因果贝叶斯优化(CBO),以说明所有不确定性来源,包括由因果图结构引起的。首席执行官在因果效应的替代模型中以及用于通过信息理论采集函数选择干预措施的机制中纳入了因果结构的不确定性。所得算法自动交易结构学习和因果效应优化,同时自然考虑观察噪声。对于各种合成和现实世界的结构性因果模型,与CBO相比,CEO可以更快地与全局最佳达到融合,同时还可以学习图形。此外,我们的结构学习和因果优化的联合方法在顺序的结构学习优先方法上改善了。
translated by 谷歌翻译
由于数据有限和非识别性,观察性和介入数据的因果发现是具有挑战性的:在估计基本结构因果模型(SCM)时引入不确定性的因素。基于这两个因素引起的不确定性选择实验(干预措施)可以加快SCM的识别。来自有限数据的因果发现实验设计中的现有方法要么依赖于SCM的线性假设,要么仅选择干预目标。这项工作将贝叶斯因果发现的最新进展纳入了贝叶斯最佳实验设计框架中,从而使大型非线性SCM的积极因果发现同时选择了介入目标和值。我们证明了对线性和非线性SCM的合成图(ERDOS-R \'enyi,breetr cable)以及在\ emph {intiLico}单细胞基因调节网络数据集的\ emph {inyeare scms的性能。
translated by 谷歌翻译
Bayesian Optimization is a useful tool for experiment design. Unfortunately, the classical, sequential setting of Bayesian Optimization does not translate well into laboratory experiments, for instance battery design, where measurements may come from different sources and their evaluations may require significant waiting times. Multi-fidelity Bayesian Optimization addresses the setting with measurements from different sources. Asynchronous batch Bayesian Optimization provides a framework to select new experiments before the results of the prior experiments are revealed. This paper proposes an algorithm combining multi-fidelity and asynchronous batch methods. We empirically study the algorithm behavior, and show it can outperform single-fidelity batch methods and multi-fidelity sequential methods. As an application, we consider designing electrode materials for optimal performance in pouch cells using experiments with coin cells to approximate battery performance.
translated by 谷歌翻译
贝叶斯优化(BO)被广泛用于优化随机黑匣子功能。尽管大多数BO方法都集中在优化条件期望上,但许多应用程序都需要规避风险的策略,并且需要考虑分配尾巴的替代标准。在本文中,我们提出了针对贝叶斯分位数和预期回归的新变异模型,这些模型非常适合异形的噪声设置。我们的模型分别由有条件分位数(或期望)的两个潜在高斯过程和不对称可能性函数的比例参数组成。此外,我们提出了基于最大值熵搜索和汤普森采样的两种BO策略,这些策略是针对此类型号量身定制的,可以容纳大量点。与现有的BO进行规避风险优化的方法相反,我们的策略可以直接针对分位数和预期进行优化,而无需复制观测值或假设噪声的参数形式。如实验部分所示,所提出的方法清楚地表现出异质的非高斯案例中的最新状态。
translated by 谷歌翻译
由于廉价的传感和边缘计算解决方案,最近在非结构化和未知环境中对机器人勘探的需求最近已经成长。为了更接近完全自主权,机器人需要实时处理测量流,呼吁有效的探索策略。基于信息的探测技术,例如Cauchy-Schwarz二次互信息(CSQMI)和快速Shannon互信(FSMI),已成功实现了具有范围测量的主动二进制占用映射。然而,正如我们设想使用语义有意义的对象指定的复杂任务的机器人,因此必须在测量,地图表示和探索目标中捕获语义类别。在这项工作中,我们提出了一种利用范围类别测量的贝叶斯多级映射算法,以及用于多级地图和测量的Shannon互联信息的封闭形式的下限。该界限允许快速评估许多潜在机器人轨迹,用于自主勘探和映射。此外,我们通过基于OctREE数据结构的语义标签,开发3-D环境的压缩表示,每个体素维护对象类的分类分布。所提出的3-D表示有助于使用范围类别观察光线的跑步长度编码(RLE)在语义Octomap和测量之间快速计算Shannon互信息。我们比较我们对基于前沿和FSMI探索的方法,并在各种模拟和现实世界实验中应用它。
translated by 谷歌翻译
具有多模式传感(AIPPMS)的自适应信息路径计划(AIPPMS)考虑了配备多个传感器的代理商的问题,每个传感器具有不同的感应精度和能量成本。代理商的目标是探索环境并在未知的,部分可观察到的环境中受到其资源约束的信息。先前的工作集中在不太一般的适应性信息路径计划(AIPP)问题上,该问题仅考虑了代理人运动对收到的观察结果的影响。 AIPPMS问题通过要求代理的原因共同出现感应和移动的影响,同时平衡资源约束与信息目标,从而增加了额外的复杂性。我们将AIPPMS问题作为一种信念马尔可夫决策过程,并具有高斯流程信念,并使用在线计划中使用顺序的贝叶斯优化方法来解决它。我们的方法始终优于以前的AIPPMS解决方案,这几乎将几乎每个实验中获得的平均奖励增加了一倍,同时还将根平方的错误在环境信念中减少了50%。我们完全开放我们的实施方式,以帮助进一步开发和比较。
translated by 谷歌翻译
探索是机器人技术中的一个基本问题。尽管基于抽样的计划者表现出高性能,但它们通常是计算大量的,并且可以表现出较高的差异。为此,我们建议直接根据机器人地图中的空间上下文来了解信息意见的基本分布。我们进一步探索了各种方法来学习信息增益。我们在彻底的实验评估中表明,我们提出的系统将勘探性能提高了多达28%的经典方法,并发现除了抽样分布外,学习收益可以提供有利的性能与计算构成系统的计算权衡。我们在仿真和低成本移动机器人中证明了我们的系统将其概括为不同的环境。
translated by 谷歌翻译
This article presents a novel review of Active SLAM (A-SLAM) research conducted in the last decade. We discuss the formulation, application, and methodology applied in A-SLAM for trajectory generation and control action selection using information theory based approaches. Our extensive qualitative and quantitative analysis highlights the approaches, scenarios, configurations, types of robots, sensor types, dataset usage, and path planning approaches of A-SLAM research. We conclude by presenting the limitations and proposing future research possibilities. We believe that this survey will be helpful to researchers in understanding the various methods and techniques applied to A-SLAM formulation.
translated by 谷歌翻译
对于许多强化学习(RL)应用程序,指定奖励是困难的。本文考虑了一个RL设置,其中代理仅通过查询可以询问可以的专家来获取有关奖励的信息,例如,评估单个状态或通过轨迹提供二进制偏好。从如此昂贵的反馈中,我们的目标是学习奖励的模型,允许标准RL算法实现高预期的回报,尽可能少的专家查询。为此,我们提出了信息定向奖励学习(IDRL),它使用奖励的贝叶斯模型,然后选择要最大化信息增益的查询,这些查询是有关合理的最佳策略之间的返回差异的差异。与针对特定类型查询设计的先前主动奖励学习方法相比,IDRL自然地适应不同的查询类型。此外,它通过将焦点转移降低奖励近似误差来实现类似或更好的性能,从而降低奖励近似误差,以改善奖励模型引起的策略。我们支持我们的调查结果,在多个环境中进行广泛的评估,并具有不同的查询类型。
translated by 谷歌翻译
主动位置估计(APE)是使用一个或多个传感平台本地化一个或多个目标的任务。 APE是搜索和拯救任务,野生动物监测,源期限估计和协作移动机器人的关键任务。 APE的成功取决于传感平台的合作水平,他们的数量,他们的自由度和收集的信息的质量。 APE控制法通过满足纯粹剥削或纯粹探索性标准,可以实现主动感测。前者最大限度地减少了位置估计的不确定性;虽然后者驱动了更接近其任务完成的平台。在本文中,我们定义了系统地分类的主要元素,并批判地讨论该域中的最新状态。我们还提出了一个参考框架作为对截图相关的解决方案的形式主义。总体而言,本调查探讨了主要挑战,并设想了本地化任务的自主感知系统领域的主要研究方向。促进用于搜索和跟踪应用的强大主动感测方法的开发也有益。
translated by 谷歌翻译