智能论文笔记

Exploiting Trust for Resilient Hypothesis Testing with Malicious Robots

Matthew Cavorsi , Orhan Eren Akgün , Michal Yemini , Andrea Goldsmith , Stephanie Gil

分类：机器人

2022-09-25

我们为对抗性多机器人群众跨任务中的决策制定开发了一个有弹性的二进制假设测试框架。该框架利用机器人之间的随机信任观察，以在集中式融合中心（FC）中得出可进行的弹性决策，即使I）在网络中存在恶意机器人，其数量可能大于合法机器人的数量，并且II ）FC使用所有机器人的一次性噪声测量。我们得出两种算法来实现这一目标。第一个是两个阶段方法（2SA），该方法基于收到的信任观察估算机器人的合法性，并证明在最严重的恶意攻击中可最大程度地减少检测错误的可能性。在这里，恶意机器人的比例是已知但任意的。对于不明的恶意机器人，我们开发了对抗性的广义似然比测试（A-GLRT），该测试（A-GLRT）都使用报告的机器人测量和信任观察来估计机器人的可信赖性，其报告策略以及同时的正确假设。我们利用特殊的问题结构表明，尽管有几个未知的问题参数，但这种方法仍然可以计算处理。我们在硬件实验中部署了这两种算法，其中一组机器人会在模拟道路网络上进行交通状况的人群，但仍会受到SYBIL攻击的方式。我们从实际通信信号中提取每个机器人的信任观察结果，这些信号提供有关发件人独特性的统计信息。我们表明，即使恶意机器人在大多数情况下，FC也可以将检测误差的可能性降低到2SA和A-GLRT的30.5％和29％。

translated by 谷歌翻译

Cloud-Cluster Architecture for Detection in Intermittently Connected Sensor Networks

Michal Yemini , Stephanie Gil , Andrea J. Goldsmith

分类：机器人

2021-10-03

我们考虑一个集中检测问题，传感器对集中式融合中心进行嘈杂的测量和间歇性连接。传感器可以在预定的传感器集群内本地协作，并融合它们的噪声传感器数据，以达到每个簇中检测到的事件的公共常见估计。每个传感器集群的连接性是间歇性的，并且取决于传感器到融合中心的可用通信机会。在接收到所有连接的传感器集群的估计后，融合中心熔化所接收的估计，以对部署区域进行最终确定事件的发生。我们将该混合通信方案称为云集群架构。我们提出了一种用于优化每个群集的决策规则的方法，并分析由混合动力方案产生的预期检测性能。我们的方法是易行的并且解决了异构传感器和集群检测质量，其通信机会的异质性以及损失功能的非凸起引起的高计算复杂性。我们的分析表明，在用云的低传感器通信概率的情况下，聚类传感器为噪声提供弹性。对于较大的簇，即使使用我们的云集群架构，甚至可以获得低通信概率的检测性能的急剧提高。

translated by 谷歌翻译

Resilient Distributed Optimization for Multi-Agent Cyberphysical Systems

Michal Yemini , Angelia Nedić , Andrea J. Goldsmith , Stephanie Gil

分类：机器人

2022-12-05

Enhancing resilience in distributed networks in the face of malicious agents is an important problem for which many key theoretical results and applications require further development and characterization. This work focuses on the problem of distributed optimization in multi-agent cyberphysical systems, where a legitimate agent's dynamic is influenced both by the values it receives from potentially malicious neighboring agents, and by its own self-serving target function. We develop a new algorithmic and analytical framework to achieve resilience for the class of problems where stochastic values of trust between agents exist and can be exploited. In this case we show that convergence to the true global optimal point can be recovered, both in mean and almost surely, even in the presence of malicious agents. Furthermore, we provide expected convergence rate guarantees in the form of upper bounds on the expected squared distance to the optimal value. Finally, we present numerical results that validate the analytical convergence guarantees we present in this paper even when the malicious agents compose the majority of agents in the network.

translated by 谷歌翻译

Uncertainty Quantification of the 4th kind; optimal posterior accuracy-uncertainty tradeoff with the minimum enclosing ball

Hamed Hamze Bajgiran , Pau Batlle Franch , Houman Owhadi , Mostafa Samir , Clint Scovel , Mahdy Shirdel , Michael Stanley , Peyman Tavallali

分类：机器学习

2021-08-24

基本上有三种不确定性量化方法（UQ）：（a）强大的优化，（b）贝叶斯，（c）决策理论。尽管（a）坚固，但在准确性和数据同化方面是不利的。（b）需要先验，通常是脆弱的，后验估计可能很慢。尽管（c）导致对最佳先验的识别，但其近似遭受了维度的诅咒，风险的概念是相对于数据分布的平均值。我们引入了第四种，它是（a），（b），（c）和假设检验之间的杂种。可以总结为在观察样本$ x $之后，（1）通过相对可能性定义了可能性区域，（2）在该区域玩Minmax游戏以定义最佳估计器及其风险。最终的方法具有几种理想的属性（a）测量数据后确定了最佳先验，并且风险概念是后部的，（b）确定最佳估计值，其风险可以降低到计算最小封闭的最小封闭式。利益图量下的可能性区域图像的球（这是快速的，不受维数的诅咒）。该方法的特征在于$ [0,1] $中的参数，该参数是在观察到的数据（相对可能性）的稀有度上被假定的下限。当该参数接近$ 1 $时，该方法会产生一个后分布，该分布集中在最大似然估计的情况下，并具有较低的置信度UQ估计值。当该参数接近$ 0 $时，该方法会产生最大风险后验分布，并具有很高的信心UQ估计值。除了导航准确性不确定性权衡外，该建议的方法还通过导航与数据同化相关的稳健性 - 准确性权衡解决了贝叶斯推断的脆弱性。

translated by 谷歌翻译

A hybrid model-based and learning-based approach for classification using limited number of training samples

Alireza Nooraiepour , Waheed U. Bajwa , Narayan B. Mandayam

分类：机器学习

2021-06-25

给定有限数量的训练数据样本的分类的基本任务被考虑了具有已知参数统计模型的物理系统。基于独立的学习和统计模型的分类器面临使用小型训练集实现分类任务的主要挑战。具体地，单独依赖基于物理的统计模型的分类器通常遭受它们无法适当地调整底层的不可观察的参数，这导致系统行为的不匹配表示。另一方面，基于学习的分类器通常依赖于来自底层物理过程的大量培训数据，这在最实际的情况下可能不可行。本文提出了一种混合分类方法 - 被称为亚牙线的菌丝 - 利用基于物理的统计模型和基于学习的分类器。所提出的解决方案基于猜想，即通过融合它们各自的优势，刺鼠线将减轻与基于学习和统计模型的分类器的各个方法相关的挑战。所提出的混合方法首先使用可用（次优）统计估计程序来估计不可观察的模型参数，随后使用基于物理的统计模型来生成合成数据。然后，培训数据样本与基于学习的分类器中的合成数据结合到基于神经网络的域 - 对抗训练。具体地，为了解决不匹配问题，分类器将从训练数据和合成数据的映射学习到公共特征空间。同时，培训分类器以在该空间内找到判别特征，以满足分类任务。

translated by 谷歌翻译

Active Fairness Auditing

Tom Yan , Chicheng Zhang

分类：机器学习 | (统计)机器学习

2022-06-16

公司跨行业对机器学习（ML）的快速传播采用了重大的监管挑战。一个这样的挑战就是可伸缩性：监管机构如何有效地审核这些ML模型，以确保它们是公平的？在本文中，我们启动基于查询的审计算法的研究，这些算法可以以查询有效的方式估算ML模型的人口统计学率。我们提出了一种最佳的确定性算法，以及具有可比保证的实用随机，甲骨文效率的算法。此外，我们进一步了解了随机活动公平估计算法的最佳查询复杂性。我们对主动公平估计的首次探索旨在将AI治理置于更坚定的理论基础上。

translated by 谷歌翻译

Order Optimal Bounds for One-Shot Federated Learning over non-Convex Loss Functions

Arsalan Sharifnassab , Saber Salehkaleybar , S. Jamaloddin Golestani

分类：机器学习

2021-08-19

We consider the problem of federated learning in a one-shot setting in which there are $m$ machines, each observing $n$ sample functions from an unknown distribution on non-convex loss functions. Let $F:[-1,1]^d\rightarrow\mathbb{R}$ be the expected loss function with respect to this unknown distribution. The goal is to find an estimate of the minimizer of $F$. Based on its observations, each machine generates a signal of bounded length $B$ and sends it to a server. The server collects signals of all machines and outputs an estimate of the minimizer of $F$. We show that the expected loss of any algorithm is lower bounded by $\max\big(1/(\sqrt{n}(mB)^{1/d}), 1/\sqrt{mn}\big)$, up to a logarithmic factor. We then prove that this lower bound is order optimal in $m$ and $n$ by presenting a distributed learning algorithm, called Multi-Resolution Estimator for Non-Convex loss function (MRE-NC), whose expected loss matches the lower bound for large $mn$ up to polylogarithmic factors.

translated by 谷歌翻译

Robust Batch Policy Learning in Markov Decision Processes

Zhengling Qi , Peng Liao

分类：机器学习 | (统计)机器学习

2020-11-09

我们研究马尔可夫决策过程（MDP）框架中的离线数据驱动的顺序决策问题。为了提高学习政策的概括性和适应性，我们建议通过一套关于在政策诱导的固定分配所在的分发的一套平均奖励来评估每项政策。给定由某些行为策略生成的多个轨迹的预收集数据集，我们的目标是在预先指定的策略类中学习一个强大的策略，可以最大化此集的最小值。利用半参数统计的理论，我们开发了一种统计上有效的策略学习方法，用于估算DE NED强大的最佳政策。在数据集中的总决策点方面建立了达到对数因子的速率最佳遗憾。

translated by 谷歌翻译

The Price of Tolerance in Distribution Testing

Clément L. Canonne , Ayush Jain , Gautam Kamath , Jerry Li

分类： (统计)机器学习

2021-06-25

我们重新审视耐受分发测试的问题。也就是说，给出来自未知分发$ P $超过$ \ {1，\ dots，n \} $的样本，它是$ \ varepsilon_1 $ -close到或$ \ varepsilon_2 $ -far从引用分发$ q $（总变化距离）？尽管过去十年来兴趣，但在极端情况下，这个问题很好。在无噪声设置（即，$ \ varepsilon_1 = 0 $）中，样本复杂性是$ \ theta（\ sqrt {n}）$，强大的域大小。在频谱的另一端时，当$ \ varepsilon_1 = \ varepsilon_2 / 2 $时，样本复杂性跳转到勉强sublinear $ \ theta（n / \ log n）$。然而，非常少于中级制度。我们充分地表征了分发测试中的公差价格，作为$ N $，$ varepsilon_1 $，$ \ varepsilon_2 $，最多一个$ \ log n $ factor。具体来说，我们显示了\ [\ tilde \ theta \ left的样本复杂性（\ frac {\ sqrt {n}} {\ varepsilon_2 ^ {2}} + \ frac {n} {\ log n} \ cdot \ max \左\ {\ frac {\ varepsilon_1} {\ varepsilon_2 ^ 2}，\ left（\ frac {\ varepsilon_1} {\ varepsilon_2 ^ 2} \右）^ {\！\！\！2} \ \ \} \右），\]提供两个先前已知的案例之间的顺利折衷。我们还为宽容的等价测试问题提供了类似的表征，其中$ p $和$ q $均未赘述。令人惊讶的是，在这两种情况下，对样本复杂性的主数量是比率$ \ varepsilon_1 / varepsilon_2 ^ 2 $，而不是更直观的$ \ varepsilon_1 / \ varepsilon_2 $。特别是技术兴趣是我们的下限框架，这涉及在以往的工作中处理不对称所需的新颖近似性理论工具，从而缺乏以前的作品。

translated by 谷歌翻译

The Price of Incentivizing Exploration: A Characterization via Thompson Sampling and Sample Complexity

Mark Sellke , Aleksandrs Slivkins

分类：机器学习

2020-02-03

我们考虑激励探索：一种多臂匪徒的版本，其中武器的选择由自私者控制，而算法只能发布建议。该算法控制信息流，信息不对称可以激励代理探索。先前的工作达到了最佳的遗憾率，直到乘法因素，这些因素根据贝叶斯先验而变得很大，并在武器数量上成倍规模扩展。采样每只手臂的一个更基本的问题一旦遇到了类似的因素。我们专注于激励措施的价格：出于激励兼容的目的，绩效的损失，广泛解释为。我们证明，如果用足够多的数据点初始化，则标准的匪徒汤普森采样是激励兼容的。因此，当收集这些数据点时，由于激励措施的绩效损失仅限于初始回合。这个问题主要降低到样本复杂性的问题：需要多少个回合？我们解决了这个问题，提供了匹配的上限和下限，并在各种推论中实例化。通常，最佳样品复杂性在“信念强度”中的武器数量和指数中是多项式。

translated by 谷歌翻译

Fair Classification with Adversarial Perturbations

L. Elisa Celis , Anay Mehrotra , Nisheeth K. Vishnoi

分类：机器学习 | 人工智能 | (统计)机器学习

2021-06-10

我们在禁用的对手存在下研究公平分类，允许获得$ \ eta $，选择培训样本的任意$ \ eta $ -flaction，并任意扰乱受保护的属性。由于战略误报，恶意演员或归责的错误，受保护属性可能不正确的设定。和现有的方法，使随机或独立假设对错误可能不满足其在这种对抗环境中的保证。我们的主要贡献是在这种对抗的环境中学习公平分类器的优化框架，这些普遍存在的准确性和公平性提供了可证明的保证。我们的框架适用于多个和非二进制保护属性，专为大类线性分数公平度量设计，并且还可以处理除了受保护的属性之外的扰动。我们证明了我们框架的近密性，对自然假设类别的保证：没有算法可以具有明显更好的准确性，并且任何具有更好公平性的算法必须具有较低的准确性。凭经验，我们评估了我们对统计率的统计税务统计税率为一个对手的统计税率产生的分类机。

translated by 谷歌翻译

Estimation Contracts for Outlier-Robust Geometric Perception

Luca Carlone

分类： (统计)机器学习 | 计算机视觉 | 机器学习 | 机器人

2022-08-22

Outier-bubust估计是一个基本问题，已由统计学家和从业人员进行了广泛的研究。在过去的几年中，整个研究领域的融合都倾向于“算法稳定统计”，该统计数据的重点是开发可拖动的异常体 - 固定技术来解决高维估计问题。尽管存在这种融合，但跨领域的研究工作主要彼此断开。本文桥接了有关可认证的异常抗衡器估计的最新工作，该估计是机器人技术和计算机视觉中的几何感知，并在健壮的统计数据中并行工作。特别是，我们适应并扩展了最新结果对可靠的线性回归（适用于<< 50％异常值的低外壳案例）和列表可解码的回归（适用于>> 50％异常值的高淘汰案例）在机器人和视觉中通常发现的设置，其中（i）变量（例如旋转，姿势）属于非convex域，（ii）测量值是矢量值，并且（iii）未知的异常值是先验的。这里的重点是绩效保证：我们没有提出新算法，而是为投入测量提供条件，在该输入测量值下，保证现代估计算法可以在存在异常值的情况下恢复接近地面真相的估计值。这些条件是我们所谓的“估计合同”。除了现有结果的拟议扩展外，我们认为本文的主要贡献是（i）通过指出共同点和差异来统一平行的研究行，（ii）在介绍先进材料（例如，证明总和证明）中的统一行为。对从业者的可访问和独立的演讲，（iii）指出一些即时的机会和开放问题，以发出异常的几何感知。

translated by 谷歌翻译

The power of private likelihood-ratio tests for goodness-of-fit in frequency tables

Emanuele Dolera , Stefano Favaro

分类： (统计)机器学习

2021-09-20

隐私保护数据分析研究了在隐私约束下的统计方法。这是现代统计数据中的一个不断提高的挑战，因为机密性保证的实现通常是通过数据扰动而发生的，这可能会决定数据的统计实用性损失。在本文中，我们考虑对频率表中的拟合优点进行隐私测试，这可以说是释放数据的最常见形式，并对私人可能性比率（LR）的大样本行为进行了严格的分析（LR）测试。在$（\ varepsilon，\ delta）$ - 差异隐私的框架下，我们的主要贡献是私人LR测试的功率分析，该测试的特征是通过差异隐私参数测量的机密性之间的权衡取舍（$）（ \ varepsilon，\ delta）$和统计实用程序，通过测试功率测量。这是通过bahadur-rao大偏差扩展获得的，用于私人LR测试的功率，从样本量，表和$（\ varepsilon，\ delta）$，这决定了测试功能的损失。然后，将这样的结果应用于与参数$（\ varepsilon，\ delta）$相关的样本量和表尺寸的影响，对私人LR测试的功率损失。特别是，我们确定$（样本）成本（\ varepsilon，\ delta）$ - 私人LR测试中的差异隐私，即在没有缺少多项式LR测试的功率所需的附加样本量扰动。我们的功率分析依赖于LR的非标准大偏差分析，以及用于I.I.D的新颖（尖锐）大偏差原理的发展。随机矢量，具有独立感兴趣。

translated by 谷歌翻译

Statistical and Computational Phase Transitions in Group Testing

Amin Coja-Oghlan , Oliver Gebhard , Max Hahn-Klimroth , Alexander S. Wein , Ilias Zadik

分类： (统计)机器学习 | 机器学习

2022-06-15

我们研究了小组测试问题，其目标是根据合并测试的结果，确定一组k感染的人，这些k含有稀有疾病，这些人在经过测试中至少有一个受感染的个体时返回阳性的结果。团体。我们考虑将个人分配给测试的两个不同的简单随机过程：恒定柱设计和伯努利设计。我们的第一组结果涉及基本统计限制。对于恒定柱设计，我们给出了一个新的信息理论下限，这意味着正确识别的感染者的比例在测试数量越过特定阈值时会经历急剧的“全或全或无所不包”的相变。对于Bernoulli设计，我们确定解决相关检测问题所需的确切测试数量（目的是区分小组测试实例和纯噪声），改善Truong，Aldridge和Scarlett的上限和下限（2020）。对于两个小组测试模型，我们还研究了计算有效（多项式时间）推理程序的能力。我们确定了解决检测问题的低度多项式算法所需的精确测试数量。这为在少量稀疏度的检测和恢复问题中都存在固有的计算统计差距提供了证据。值得注意的是，我们的证据与Iliopoulos和Zadik（2021）相反，后者预测了Bernoulli设计中没有计算统计差距。

translated by 谷歌翻译

Multiple Hypothesis Testing Framework for Spatial Signals

Martin Gölz , Abdelhak M. Zoubir , Visa Koivunen

分类：机器学习

2021-08-27

识别空间有趣，不同或对抗性行为的区域的问题是许多涉及分布式多传感器系统的实际应用。在这项工作中，我们开发了一个由多个假设检验的一般框架，以识别此类区域。假定在受监视的环境中假定离散的空间网格。确定与不同假设相关的空间网格点，同时在预先指定的水平控制错误发现率时。使用大型传感器网络获得测量。我们提出了一种新颖的，数据驱动的方法，以基于矩的光谱方法来估计局部错误发现率。我们的方法对基本物理现象的特定空间传播模型不可知。它依靠广泛适用的密度模型来用于本地汇总统计。在两次传感器之间，将位置分配给基于插值的局部错误发现率相关的不同假设相关的区域。我们方法的好处是通过应用在空间传播无线电波的应用中说明的。

translated by 谷歌翻译

Chernoff Sampling for Active Testing and Extension to Active Regression

Subhojyoti Mukherjee , Ardhendu Tripathy , Robert Nowak

分类： (统计)机器学习 | 机器学习

2020-12-15

主动学习可以减少执行假设测试所需的样本数量并估计模型的参数。在本文中，我们重新审视Chernoff的作品，所述工作描述了用于执行假设测试的渐近最佳算法。我们获得了对Chernoff的算法的新颖性复杂性，具有非渐近术语，其在固定置信水平处具有其性能。我们还开发了Chernoff采样的延伸，可用于估计各种模型的参数，并且我们在估计误差上获得非渐近绑定。我们将延长Chernoff采样延伸，积极学习神经网络模型，并估算实际数据线性和非线性回归问题中的参数，其中我们的方法有利地对最先进的方法执行。

translated by 谷歌翻译

Batch Policy Learning in Average Reward Markov Decision Processes

Peng Liao , Zhengling Qi , Predrag Klasnja , Susan Murphy

分类： (统计)机器学习

2020-07-23

我们在无限地平线马尔可夫决策过程中考虑批量（离线）策略学习问题。通过移动健康应用程序的推动，我们专注于学习最大化长期平均奖励的政策。我们为平均奖励提出了一款双重强大估算器，并表明它实现了半导体效率。此外，我们开发了一种优化算法来计算参数化随机策略类中的最佳策略。估计政策的履行是通过政策阶级的最佳平均奖励与估计政策的平均奖励之间的差异来衡量，我们建立了有限样本的遗憾保证。通过模拟研究和促进体育活动的移动健康研究的分析来说明该方法的性能。

translated by 谷歌翻译

Online Stochastic Optimization with Wasserstein Based Non-stationarity

Jiashuo Jiang , Xiaocheng Li , Jiawei Zhang

分类：机器学习

2020-12-13

我们考虑一个一般的在线随机优化问题，在有限时间段的视野中具有多个预算限制。在每个时间段内，都会揭示奖励功能和多个成本功能，并且决策者需要从凸面和紧凑型措施中指定行动，以收集奖励并消耗预算。每个成本函数对应于一个预算的消费。在每个时期，奖励和成本函数都是从未知分布中得出的，该分布在整个时间内都是非平稳的。决策者的目的是最大化受预算限制的累积奖励。该配方捕获了广泛的应用程序，包括在线线性编程和网络收入管理等。在本文中，我们考虑了两个设置：（i）一个数据驱动的设置，其中真实分布未知，但可以提供先前的估计（可能不准确）；（ii）一个不信息的环境，其中真实分布是完全未知的。我们提出了一项基于统一的浪费距离措施，以量化设置（i）中先验估计值的不准确性和设置（ii）中系统的非平稳性。我们表明，拟议的措施导致在两种情况下都能获得统一后悔的必要条件。对于设置（i），我们提出了一种新的算法，该算法采用了原始的偶视角，并将基础分布的先前信息集成到双重空间中的在线梯度下降过程。该算法也自然扩展到非信息设置（II）。在这两种设置下，我们显示相应的算法实现了最佳秩序的遗憾。在数值实验中，我们演示了如何将所提出的算法与重新溶解技术自然整合，以进一步提高经验性能。

translated by 谷歌翻译

Debiasing In-Sample Policy Performance for Small-Data, Large-Scale Optimization

Vishal Gupta , Michael Huang , Paat Rusmevichientong

分类：机器学习 | (统计)机器学习

2021-07-26

由于在数据稀缺的设置中，交叉验证的性能不佳，我们提出了一个新颖的估计器，以估计数据驱动的优化策略的样本外部性能。我们的方法利用优化问题的灵敏度分析来估计梯度关于数据中噪声量的最佳客观值，并利用估计的梯度将策略的样本中的表现为依据。与交叉验证技术不同，我们的方法避免了为测试集牺牲数据，在训练和因此非常适合数据稀缺的设置时使用所有数据。我们证明了我们估计量的偏见和方差范围，这些问题与不确定的线性目标优化问题，但已知的，可能是非凸的，可行的区域。对于更专业的优化问题，从某种意义上说，可行区域“弱耦合”，我们证明结果更强。具体而言，我们在估算器的错误上提供明确的高概率界限，该估计器在策略类别上均匀地保持，并取决于问题的维度和策略类的复杂性。我们的边界表明，在轻度条件下，随着优化问题的尺寸的增长，我们的估计器的误差也会消失，即使可用数据的量仍然很小且恒定。说不同的是，我们证明我们的估计量在小型数据中的大规模政权中表现良好。最后，我们通过数值将我们提出的方法与最先进的方法进行比较，通过使用真实数据调度紧急医疗响应服务的案例研究。我们的方法提供了更准确的样本外部性能估计，并学习了表现更好的政策。

translated by 谷歌翻译

Planning in Observable POMDPs in Quasipolynomial Time

Noah Golowich , Ankur Moitra , Dhruv Rohatgi

分类：机器学习 | (统计)机器学习

2022-01-12

部分可观察到的马尔可夫决策过程（POMDPS）是加强学习的自然和一般模型，以考虑到代理人对其当前国家的不确定性。在POMDPS的文献中，习惯性地假设在已知参数时计算最佳策略的规划Oracle，即使已知问题是计算的。几乎所有现有的规划算法都在指数时间内运行，缺乏可证明的性能保证，或者需要在每个可能的政策下对转换动态进行强烈的假设。在这项工作中，我们重新审视了规划问题并问：是否有自然和积极的假设，使计划变得容易？我们的主要结果是用于规划（一步）可观察POMDPS的QuasioInomial-time算法。具体而言，我们假设各国的分离良好的分布导致分开的观察分布，因此观察结果在每一步中至少有一些信息。至关重要的是，这个假设没有对POMDP的过渡动态的限制;尽管如此，它意味着近乎最佳的政策承认准简洁的描述，这通常不是真实的（在标准的硬度假设下）。我们的分析基于滤波器稳定性的新定量界限 - 即潜在状态的最佳滤波器的速率忘记其初始化。此外，在指数时间假设下，我们证明了在可观察POMDPS中规划的匹配硬度。

translated by 谷歌翻译