决策和计划最复杂的任务之一是收集信息。当状态具有高维度,并且无法用参数分布表达其信念时,此任务就会变得更加复杂。尽管国家是高维的,但在许多问题中,其中只有一小部分可能涉及过渡状态和产生观察结果。我们利用这一事实来计算信息理论的预期奖励,共同信息(MI),在国家的较低维度子集中,以提高效率和不牺牲准确性。以前的工作中使用了类似的方法,但专门用于高斯分布,我们在这里将其扩展为一般分布。此外,我们将降低维度降低用于将新状态扩展到上一个的情况下,又不牺牲准确性。然后,我们继续开发以连续的蒙特卡洛(SMC)方式工作的MI估计器,并避免重建未来信念的表面。最后,我们展示了如何将这项工作应用于信息丰富的计划优化问题。然后在模拟主动大满贯问题的模拟中评估这项工作,其中证明了准确性和时序的提高。
translated by 谷歌翻译
Partially observable Markov decision processes (POMDPs) provide a flexible representation for real-world decision and control problems. However, POMDPs are notoriously difficult to solve, especially when the state and observation spaces are continuous or hybrid, which is often the case for physical systems. While recent online sampling-based POMDP algorithms that plan with observation likelihood weighting have shown practical effectiveness, a general theory characterizing the approximation error of the particle filtering techniques that these algorithms use has not previously been proposed. Our main contribution is bounding the error between any POMDP and its corresponding finite sample particle belief MDP (PB-MDP) approximation. This fundamental bridge between PB-MDPs and POMDPs allows us to adapt any sampling-based MDP algorithm to a POMDP by solving the corresponding particle belief MDP, thereby extending the convergence guarantees of the MDP algorithm to the POMDP. Practically, this is implemented by using the particle filter belief transition model as the generative model for the MDP solver. While this requires access to the observation density model from the POMDP, it only increases the transition sampling complexity of the MDP solver by a factor of $\mathcal{O}(C)$, where $C$ is the number of particles. Thus, when combined with sparse sampling MDP algorithms, this approach can yield algorithms for POMDPs that have no direct theoretical dependence on the size of the state and observation spaces. In addition to our theoretical contribution, we perform five numerical experiments on benchmark POMDPs to demonstrate that a simple MDP algorithm adapted using PB-MDP approximation, Sparse-PFT, achieves performance competitive with other leading continuous observation POMDP solvers.
translated by 谷歌翻译
在这项工作中,我们研究了在不确定性下的在线决策问题,我们将其制定为在信仰空间的规划中。在高维状态(例如,整个轨迹)上维护信仰(即,整个轨迹)不仅被证明可以显着提高准确性,而且还允许在主动SLAM和信息收集的任务所需的情况下规划信息理论目标。尽管如此,根据这种“平滑”范式的规划持有高计算复杂性,这使得在线解决方案具有挑战性。因此,我们建议以下想法:在规划之前,在初始信念上执行独立状态可变重新排序过程,并“推进”所有预测的环路关闭变量。由于初始可变顺序确定将受到传入更新影响的它们的哪个子集,因此这种重新排序允许我们最小化受影响变量的总数,并在规划期间降低候选评估的计算复杂性。我们称之为Pivot:预测增量变量订购策略。应用此策略也可以提高国家推理效率;如果我们在规划会议后维持枢轴令,那么我们应该同样降低循环闭合的成本,当实际发生时。为了展示其有效性,我们将枢轴应用于一个现实的主动Slam仿真中,在那里我们设法显着减少了规划和推理会话的计算时间。该方法适用于一般分布,并不能准确地损失。
translated by 谷歌翻译
在这项工作中,我们向不确定性的决策问题介绍了一种新的有效的解决方案方法,可以在一个可能的高维状态空间中作为信仰空间中的决策制定。通常,为了解决决策问题,根据一些目标,应该识别来自一组候选者的最佳行动。我们声称人们通常可以生成并解决类似的尚未简化的决策问题,这可以更有效地解决。明智的简化方法可以导致相同的动作选择,或者可以保证最佳状态最大损耗的方法。此外,这种简化与状态推断分离,并且不会损害其精度,因为所选动作最终应用于原始状态。首先,我们介绍了一般决策问题的概念,并为这一方法的连贯制定提供了理论框架。然后,我们几乎将这些想法应用于信仰空间中的决策问题,这可以通过考虑初始信仰的稀疏近似来简化。我们提供的可扩展信念稀疏算法能够产生保证与原始问题一致的解决方案。我们展示了方法在解决现实主动场所问题的解决方案中的好处,并设法显着降低计算时间,在解决方案的质量上没有损失。这项工作既有基础实用,又拥有众多可能的扩展。
translated by 谷歌翻译
风险意识对于在线运营代理来说至关重要。但是,在部分可观察性下,它在具有挑战性的连续域中受到了较少的关注。现有的受约束POMDP算法通常用于离散状态和观察空间。此外,当前的受限公式的求解器不支持一般依赖信念的约束。至关重要的是,在POMDP设置中,以有限的方式解决了约束背景下的风险意识。本文提出了一种新颖的公式,用于规避风险依赖的受限受约束POMDP。我们的概率约束与奖励功能一样,是一般和信仰依赖性的。所提出的通用框架适用于具有以颗粒或参数信念为代表的非参数信念的连续域。我们表明,我们的配方比以前的方法更好地解释了风险。
translated by 谷歌翻译
主动同时定位和映射(SLAM)是规划和控制机器人运动以构建周围环境中最准确,最完整的模型的问题。自从三十多年前出现了积极感知的第一项基础工作以来,该领域在不同科学社区中受到了越来越多的关注。这带来了许多不同的方法和表述,并回顾了当前趋势,对于新的和经验丰富的研究人员来说都是非常有价值的。在这项工作中,我们在主动大满贯中调查了最先进的工作,并深入研究了仍然需要注意的公开挑战以满足现代应用程序的需求。为了实现现实世界的部署。在提供了历史观点之后,我们提出了一个统一的问题制定并审查经典解决方案方案,该方案将问题分解为三个阶段,以识别,选择和执行潜在的导航措施。然后,我们分析替代方法,包括基于深入强化学习的信念空间规划和现代技术,以及审查有关多机器人协调的相关工作。该手稿以讨论新的研究方向的讨论,解决可再现的研究,主动的空间感知和实际应用,以及其他主题。
translated by 谷歌翻译
本文主要研究范围传感机器人在置信度富的地图(CRM)中的定位和映射,这是一种持续信仰的密集环境表示,然后扩展到信息理论探索以减少姿势不确定性。大多数关于主动同时定位和映射(SLAM)和探索的作品始终假设已知的机器人姿势或利用不准确的信息指标来近似姿势不确定性,从而导致不知名的环境中的勘探性能和效率不平衡。这激发了我们以可测量的姿势不确定性扩展富含信心的互信息(CRMI)。具体而言,我们为CRMS提出了一种基于Rao-Blackwellized粒子过滤器的定位和映射方案(RBPF-CLAM),然后我们开发了一种新的封闭形式的加权方法来提高本地化精度而不扫描匹配。我们通过更准确的近似值进一步计算了使用加权颗粒的不确定的CRMI(UCRMI)。仿真和实验评估显示了在非结构化和密闭场景中提出的方法的定位准确性和探索性能。
translated by 谷歌翻译
理想情况下,在感知混乱的环境中运行的自主代理应该能够解决数据关联问题。但是,在考虑这个问题的同时计划将来的行动并不是一件容易的事。因此,艺术的方法使用多模式假设来代表代理和环境的状态。但是,明确考虑所有可能的数据关联,假设的数量随着计划范围而成倍增长。因此,相应的信念空间规划问题很快变得无法解决。此外,在严格的计算预算限制下,一些不可忽略的假设最终必须在规划和推理中修剪。然而,这两个过程通常是单独处理的,并且几乎没有研究一个过程中预算限制的影响。我们提出了一种计算有效的方法,可以在有关数据关联推理的同时解决非米诺信念空间计划问题。此外,我们严格分析预算限制在推理和计划中的影响。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
本文解决了积极计划的问题,以在GNSS受限的场景中测量不确定性下实现多机器人系统(MRS)的合作定位。具体而言,我们解决了准确预测配备基于范围的测量设备的两个机器人之间未来连接的概率的问题。由于配备的传感器范围有限,由于机器人相互移动,网络连接拓扑中的边缘将被创建或破坏。因此,鉴于状态估计不完善和嘈杂的驱动,准确地预测边缘的未来存在是一项具有挑战性的任务。自适应功率序列扩展(或APSE)算法是根据当前估计和控制候选者开发的。这种算法在正态分布中应用了二次阳性形式的功率序列扩展公式。有限端近似是为了实现计算障碍。提出了进一步的分析,以表明通过自适应选择功率序列的求和度,可以从理论上将有限端近似中的截断误差降低到所需的阈值。几种足够的条件被严格得出作为选择原则。最后,相对于单个和多机器人案例,广泛的仿真结果和比较验证了正式计算的,因此将来拓扑的更准确的概率可以帮助改善在不确定性下积极计划的性能。
translated by 谷歌翻译
已经引入了生成流量网络(GFlowNETS)作为在主动学习背景下采样多样化候选的方法,具有培训目标,其使它们与给定奖励功能成比例地进行比例。在本文中,我们显示了许多额外的GFLOWN的理论特性。它们可用于估计联合概率分布和一些变量未指定的相应边际分布,并且特别感兴趣地,可以代表像集合和图形的复合对象的分布。 Gflownets摊销了通常通过计算昂贵的MCMC方法在单个但训练有素的生成通行证中进行的工作。它们还可用于估计分区功能和自由能量,给定子集(子图)的超标(超图)的条件概率,以及给定集合(图)的所有超标仪(超图)的边际分布。我们引入了熵和相互信息估计的变体,从帕累托前沿采样,与奖励最大化策略的连接,以及随机环境的扩展,连续动作和模块化能量功能。
translated by 谷歌翻译
在执行视觉伺服或对象跟踪任务时,有效的传感器规划对于保持目标的目标是必不可少的,或者在缺失时重新定位它们。特别是,当处理从传感器的视野中缺少的已知目标时,我们建议使用与上下文信息相关的先验知识来估计其可能的位置。为此,本研究提出了一种动态贝叶斯网络,它使用上下文信息来有效地搜索目标。 Monte Carlo颗粒滤波器用于近似目标状态的后验概率,从中定义不确定性。我们通过信息理论形式主义定义机器人的实用程序函数,因为寻求最佳动作减少了任务的不确定性,提示机器人代理商调查最可能存在的目标的位置。使用上下文状态模型,我们使用部分可观察的Markov决策过程设计代理的高级决策框架。根据通过顺序观察的基础上下文的估计信仰状态,决定了机器人的导航行动进行探索性和检测任务。通过使用这种多模态上下文模型,我们的代理可以有效处理基本动态事件,例如妨碍目标或从视野中的缺失。我们实时实施并展示移动机器人的这些功能。
translated by 谷歌翻译
Representing and reasoning about uncertainty is crucial for autonomous agents acting in partially observable environments with noisy sensors. Partially observable Markov decision processes (POMDPs) serve as a general framework for representing problems in which uncertainty is an important factor. Online sample-based POMDP methods have emerged as efficient approaches to solving large POMDPs and have been shown to extend to continuous domains. However, these solutions struggle to find long-horizon plans in problems with significant uncertainty. Exploration heuristics can help guide planning, but many real-world settings contain significant task-irrelevant uncertainty that might distract from the task objective. In this paper, we propose STRUG, an online POMDP solver capable of handling domains that require long-horizon planning with significant task-relevant and task-irrelevant uncertainty. We demonstrate our solution on several temporally extended versions of toy POMDP problems as well as robotic manipulation of articulated objects using a neural perception frontend to construct a distribution of possible models. Our results show that STRUG outperforms the current sample-based online POMDP solvers on several tasks.
translated by 谷歌翻译
有效计划的能力对于生物体和人造系统都是至关重要的。在认知神经科学和人工智能(AI)中广泛研究了基于模型的计划和假期,但是从不同的角度来看,以及难以调和的考虑(生物现实主义与可伸缩性)的不同意见(生物现实主义与可伸缩性)。在这里,我们介绍了一种新颖的方法来计划大型POMDP(Active Tree search(ACT)),该方法结合了神经科学中领先的计划理论的规范性特征和生物学现实主义(主动推论)和树木搜索方法的可扩展性AI。这种统一对两种方法都是有益的。一方面,使用树搜索可以使生物学接地的第一原理,主动推断的方法可应用于大规模问题。另一方面,主动推理为探索 - 开发困境提供了一种原则性的解决方案,该解决方案通常在树搜索方法中以启发性解决。我们的模拟表明,ACT成功地浏览了对基于抽样的方法,需要自适应探索的问题以及大型POMDP问题“ RockSample”的二进制树,其中ACT近似于最新的POMDP解决方案。此外,我们说明了如何使用ACT来模拟人类和其他解决大型计划问题的人类和其他动物的神经生理反应(例如,在海马和前额叶皮层)。这些数值分析表明,主动树搜索是神经科学和AI计划理论的原则性实现,既具有生物现实主义和可扩展性。
translated by 谷歌翻译
在桥梁到海上平台和风力涡轮机的公民和海上工程系统必须有效地管理,因为它们在其运行寿命中暴露于劣化机制,例如疲劳或腐蚀。确定最佳检查和维护政策要求在不确定性下解决复杂的连续决策问题,主要目的是有效地控制与结构失败相关的风险。解决这种复杂性,基于风险的检查计划方法,通常由动态贝叶斯网络支持,评估一组预定义的启发式决策规则,以合理简化了决策问题。然而,所产生的政策可能受到决策规则定义中考虑的有限空间的损害。避免这种限制,部分观察到的马尔可夫决策过程(POMDPS)在不确定的动作结果和观察下提供了用于随机最佳控制的原则性的数学方法,其中作为整个动态更新的状态概率分布的函数规定了最佳动作。在本文中,我们将动态贝叶斯网络与POMDPS结合在联合框架中,以获得最佳检查和维护计划,我们提供了在结构可靠性背景下开发无限和有限地平线POMDP的配方。所提出的方法是对结构部件进行疲劳劣化的情况的情况下实施和测试,证明了基于最先进的POMDP求解器的能力,用于解决潜在的规划优化问题。在数值实验中,彻底比较了POMDP和基于启发式的策略,并且结果表明POMDP与对应于传统问题设置相比,POMDP达到了大幅降低的成本。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
我们考虑创建助手的问题,这些助手可以帮助代理人(通常是人类)解决新颖的顺序决策问题,假设代理人无法将奖励功能明确指定给助手。我们没有像目前的方法那样旨在自动化并代替代理人,而是赋予助手一个咨询角色,并将代理商作为主要决策者。困难是,我们必须考虑由代理商的限制或限制引起的潜在偏见,这可能导致其看似非理性地拒绝建议。为此,我们介绍了一种新颖的援助形式化,以模拟这些偏见,从而使助手推断和适应它们。然后,我们引入了一种计划助手建议的新方法,该方法可以扩展到大型决策问题。最后,我们通过实验表明我们的方法适应了这些代理偏见,并且比基于自动化的替代方案给代理带来了更高的累积奖励。
translated by 谷歌翻译
学习涉及时变和不断发展的系统动态的控制政策通常对主流强化学习算法构成了巨大的挑战。在大多数标准方法中,通常认为动作是一组刚性的,固定的选择,这些选择以预定义的方式顺序应用于状态空间。因此,在不诉诸于重大学习过程的情况下,学识渊博的政策缺乏适应动作集和动作的“行为”结果的能力。此外,标准行动表示和动作引起的状态过渡机制固有地限制了如何将强化学习应用于复杂的现实世界应用中,这主要是由于所得大的状态空间的棘手性以及缺乏概括的学术知识对国家空间未知部分的政策。本文提出了一个贝叶斯味的广义增强学习框架,首先建立参数动作模型的概念,以更好地应对不确定性和流体动作行为,然后将增强领域的概念作为物理启发的结构引入通过“极化体验颗粒颗粒建立) “维持在学习代理的工作记忆中。这些粒子有效地编码了以自组织方式随时间演变的动态学习体验。在强化领域之上,我们将进一步概括策略学习过程,以通过将过去的记忆视为具有隐式图结构来结合高级决策概念,在该结构中,过去的内存实例(或粒子)与决策之间的相似性相互联系。定义,因此,可以应用“关联记忆”原则来增强学习代理的世界模型。
translated by 谷歌翻译
本文介绍了用于增量平滑和映射(NF-ISAM)的归一化流,这是一种新型算法,用于通过非线性测量模型和非高斯因素来推断SLAM问题中完整的后验分布。NF-ISAM利用了神经网络的表达能力,并将正常的流量训练以建模和对完整的后部进行采样。通过利用贝叶斯树,NF-ISAM启用了类似于ISAM2的有效增量更新,尽管在更具挑战性的非高斯环境中。我们证明了NF-ISAM使用数据关联模棱两可的仅范围的SLAM问题来证明NF-ISAM比最先进的点和分布估计算法的优势。NF-ISAM在描述连续变量(例如位置)和离散变量(例如数据关联)的后验信仰方面提出了卓越的准确性。
translated by 谷歌翻译
Reinforcement learning (RL) gained considerable attention by creating decision-making agents that maximize rewards received from fully observable environments. However, many real-world problems are partially or noisily observable by nature, where agents do not receive the true and complete state of the environment. Such problems are formulated as partially observable Markov decision processes (POMDPs). Some studies applied RL to POMDPs by recalling previous decisions and observations or inferring the true state of the environment from received observations. Nevertheless, aggregating observations and decisions over time is impractical for environments with high-dimensional continuous state and action spaces. Moreover, so-called inference-based RL approaches require large number of samples to perform well since agents eschew uncertainty in the inferred state for the decision-making. Active inference is a framework that is naturally formulated in POMDPs and directs agents to select decisions by minimising expected free energy (EFE). This supplies reward-maximising (exploitative) behaviour in RL, with an information-seeking (exploratory) behaviour. Despite this exploratory behaviour of active inference, its usage is limited to discrete state and action spaces due to the computational difficulty of the EFE. We propose a unified principle for joint information-seeking and reward maximization that clarifies a theoretical connection between active inference and RL, unifies active inference and RL, and overcomes their aforementioned limitations. Our findings are supported by strong theoretical analysis. The proposed framework's superior exploration property is also validated by experimental results on partial observable tasks with high-dimensional continuous state and action spaces. Moreover, the results show that our model solves reward-free problems, making task reward design optional.
translated by 谷歌翻译