在本文中,我们提出了一种用于在离散时间马尔可夫链(DTMC)上指定的概率超普通统计模型检查(SMC)的贝叶斯方法。尽管使用顺序概率比测试(SPRT)的HyperPCTL*的SMC曾经探索过,但我们基于贝叶斯假说检验开发了一种替代SMC算法。与PCTL*相比,由于它们在DTMC的多个路径上同时解释,验证HyperPCTL*公式是复杂的。此外,由于SMC无法返回Subformulae的满意度问题,因此扩展非稳定设置的自下而上的模型检查算法并不直接,相反,它仅通过高级返回正确的答案。信心。我们根据修改后的贝叶斯测试,提出了一种HyperPCTL* SMC的递归算法,该测试因递归满意度结果的不确定性而导致。我们已经在Python工具箱Hybrover中实现了算法,并将我们的方法与基于SPRT的SMC进行了比较。我们的实验评估表明,我们的贝叶斯SMC算法在验证时间和推断给定HyperPCTL*公式的满意度所需的样品数量方面的性能更好。
translated by 谷歌翻译
We introduce a new probabilistic temporal logic for the verification of Markov Decision Processes (MDP). Our logic is the first to include operators for causal reasoning, allowing us to express interventional and counterfactual queries. Given a path formula $\phi$, an interventional property is concerned with the satisfaction probability of $\phi$ if we apply a particular change $I$ to the MDP (e.g., switching to a different policy); a counterfactual allows us to compute, given an observed MDP path $\tau$, what the outcome of $\phi$ would have been had we applied $I$ in the past. For its ability to reason about different configurations of the MDP, our approach represents a departure from existing probabilistic temporal logics that can only reason about a fixed system configuration. From a syntactic viewpoint, we introduce a generalized counterfactual operator that subsumes both interventional and counterfactual probabilities as well as the traditional probabilistic operator found in e.g., PCTL. From a semantics viewpoint, our logic is interpreted over a structural causal model (SCM) translation of the MDP, which gives us a representation amenable to counterfactual reasoning. We provide a proof-of-concept evaluation of our logic on a reach-avoid task in a grid-world model.
translated by 谷歌翻译
基本上有三种不确定性量化方法(UQ):(a)强大的优化,(b)贝叶斯,(c)决策理论。尽管(a)坚固,但在准确性和数据同化方面是不利的。 (b)需要先验,通常是脆弱的,后验估计可能很慢。尽管(c)导致对最佳先验的识别,但其近似遭受了维度的诅咒,风险的概念是相对于数据分布的平均值。我们引入了第四种,它是(a),(b),(c)和假设检验之间的杂种。可以总结为在观察样本$ x $之后,(1)通过相对可能性定义了可能性区域,(2)在该区域玩Minmax游戏以定义最佳估计器及其风险。最终的方法具有几种理想的属性(a)测量数据后确定了最佳先验,并且风险概念是后部的,(b)确定最佳估计值,其风险可以降低到计算最小封闭的最小封闭式。利益图量下的可能性区域图像的球(这是快速的,不受维数的诅咒)。该方法的特征在于$ [0,1] $中的参数,该参数是在观察到的数据(相对可能性)的稀有度上被假定的下限。当该参数接近$ 1 $时,该方法会产生一个后分布,该分布集中在最大似然估计的情况下,并具有较低的置信度UQ估计值。当该参数接近$ 0 $时,该方法会产生最大风险后验分布,并具有很高的信心UQ估计值。除了导航准确性不确定性权衡外,该建议的方法还通过导航与数据同化相关的稳健性 - 准确性权衡解决了贝叶斯推断的脆弱性。
translated by 谷歌翻译
在安全关键方案中利用自主系统需要在存在影响系统动态的不确定性和黑匣子组件存在下验证其行为。在本文中,我们开发了一个框架,用于验证部分可观察到的离散时间动态系统,从给定的输入输出数据集中具有针对时间逻辑规范的未暗模式可分散的动态系统。验证框架采用高斯进程(GP)回归,以了解数据集中的未知动态,并将连续空间系统抽象为有限状态,不确定的马尔可夫决策过程(MDP)。这种抽象依赖于通过使用可重复的内核Hilbert空间分析以及通过离散化引起的不确定性来捕获由于GP回归中的错误而捕获不确定性的过渡概率间隔。该框架利用现有的模型检查工具来验证对给定时间逻辑规范的不确定MDP抽象。我们建立将验证结果扩展到潜在部分可观察系统的抽象结果的正确性。我们表明框架的计算复杂性在数据集和离散抽象的大小中是多项式。复杂性分析说明了验证结果质量与处理较大数据集和更精细抽象的计算负担之间的权衡。最后,我们展示了我们的学习和验证框架在具有线性,非线性和切换动力系统的几种案例研究中的功效。
translated by 谷歌翻译
我们在分布式框架中得出最小值测试错误,其中数据被分成多个机器,并且它们与中央机器的通信仅限于$ b $位。我们研究了高斯白噪声下的$ d $ - 和无限维信号检测问题。我们还得出达到理论下限的分布式测试算法。我们的结果表明,分布式测试受到从根本上不同的现象,这些现象在分布式估计中未观察到。在我们的发现中,我们表明,可以访问共享随机性的测试协议在某些制度中的性能比不进行的测试协议可以更好地表现。我们还观察到,即使仅使用单个本地计算机上可用的信息,一致的非参数分布式测试始终是可能的,即使只有$ 1 $的通信和相应的测试优于最佳本地测试。此外,我们还得出了自适应非参数分布测试策略和相应的理论下限。
translated by 谷歌翻译
统计模型检查是一类顺序算法,可以验证网络物理系统集合中感兴趣的规格(例如,来自批处理的99%的汽车是否符合其能源效率的要求)。这些算法通过绘制足够数量的独立和相同分布的样本来推断具有可证明的统计保证的系统满足给定规范的概率。在统计模型检查过程中,可能会推断出样品的值(例如,用户的汽车能源效率),从而在消费者级别的应用程序(例如自闭症和医疗设备)中引起隐私问题。本文从差异隐私的角度介绍了统计模型检查算法的隐私。这些算法是顺序的,绘制样品直到满足其值的条件。我们表明,揭示绘制的样品数量可能侵犯隐私。我们还表明,在顺序算法的背景下,将算法的输出随机输出的标准指数机制无法实现。取而代之的是,我们放宽了差异隐私的保守要求,即该算法的输出的灵敏度应与任何数据集的任何扰动界定。我们提出了一个新的差异隐私概念,我们称之为预期的差异隐私。然后,我们提出了对顺序算法的新型预期灵敏度分析,并提出了一种相应的指数机制,该机制将终止时间随机,以实现预期的差异隐私。我们将提出的机制应用于统计模型检查算法,以保留其绘制样品的隐私。在案例研究中证明了所提出算法的效用。
translated by 谷歌翻译
人工智能代理必须从周围环境中学到学习,并了解所学习的知识,以便做出决定。虽然从数据的最先进的学习通常使用子符号分布式表示,但是使用用于知识表示的一阶逻辑语言,推理通常在更高的抽象级别中有用。结果,将符号AI和神经计算结合成神经符号系统的尝试已经增加。在本文中,我们呈现了逻辑张量网络(LTN),一种神经组织形式和计算模型,通过引入许多值的端到端可分别的一阶逻辑来支持学习和推理,称为真实逻辑作为表示语言深入学习。我们表明LTN为规范提供了统一的语言,以及多个AI任务的计算,如数据聚类,多标签分类,关系学习,查询应答,半监督学习,回归和嵌入学习。我们使用TensorFlow2的许多简单的解释例实施和说明上述每个任务。关键词:神经组音恐怖症,深度学习和推理,许多值逻辑。
translated by 谷歌翻译
在本文中,我们介绍了概率打字的自然扣除计算TPTND,旨在推理和获得概率计算过程的可信赖性能,例如那些基本的当前AI应用程序。TPTND中的衍生性被解释为从给定的分类分布中提取具有一定频率的$ n $输出样本的过程。我们将框架内的信任正式化为对这种频率和预期概率之间距离的假设测试形式。演算的主要优点是呈现这种可信度可检查的概念。我们介绍了TPTND的证明理论语义,并说明了结构性和元看属性,特别关注安全性。我们激励其在自动分类算法验证中的使用。
translated by 谷歌翻译
We study a double robust Bayesian inference procedure on the average treatment effect (ATE) under unconfoundedness. Our Bayesian approach involves a correction term for prior distributions adjusted by the propensity score. We prove asymptotic equivalence of our Bayesian estimator and efficient frequentist estimators by establishing a new semiparametric Bernstein-von Mises theorem under double robustness; i.e., the lack of smoothness of conditional mean functions can be compensated by high regularity of the propensity score and vice versa. Consequently, the resulting Bayesian point estimator internalizes the bias correction as the frequentist-type doubly robust estimator, and the Bayesian credible sets form confidence intervals with asymptotically exact coverage probability. In simulations, we find that this corrected Bayesian procedure leads to significant bias reduction of point estimation and accurate coverage of confidence intervals, especially when the dimensionality of covariates is large relative to the sample size and the underlying functions become complex. We illustrate our method in an application to the National Supported Work Demonstration.
translated by 谷歌翻译
概率模型检查是一种有用的技术,用于指定和验证随机系统的属性,包括随机协议和增强学习模型。现有方法依赖于某些系统过渡的假定结构和概率。这些假设可能是不正确的,甚至可能因对系统组件的控制而违反。在本文中,我们在模型以离散时间马尔可夫链(DTMC)为模型的系统中开发了一个正式的框架。我们将框架基于验证概率时间逻辑属性的现有方法,并将其扩展到包括在马尔可夫决策过程(MDP)中作用的确定性,无内存策略。我们的框架包括一种灵活的方法,用于指定结构保护和非结构的对抗模型。我们概述了一类威胁模型,在这些模型下,对手可以在原始过渡概率周围受到$ \ varepsilon $ ball的约束。我们定义三个主要DTMC对抗鲁棒性问题:对抗性鲁棒性验证,最大$ \ delta $综合和最坏情况攻击合成。我们为这三个问题提供了两个基于优化的解决方案,利用传统和参数概率模型检查技术。然后,我们在两个随机方案和一系列网格世界案例研究上评估我们的解决方案,该案例研究模拟了在称为MDP的环境中作用的代理。我们发现参数解决方案会导致小参数空间的快速计算。在限制性较小(更强)的对手的情况下,参数数量增加,直接计算属性满意度概率更可扩展。我们通过比较有关各种属性,威胁模型和案例研究的系统结果来证明我们的定义和解决方案的有用性。
translated by 谷歌翻译
部分可观察性 - 代理只能观察有关系统真正潜在状态的部分信息 - 在增强学习(RL)的现实应用中无处不在。从理论上讲,在最坏情况下,由于指数样本的复杂性下限,在最坏情况下学习了近距离观察性的近乎最佳政策。最近的工作已经确定了几个可通过多项式样本学习的可学性亚类,例如部分可观察到的马尔可夫决策过程(POMDPS)具有某些可揭示或可分解性条件。但是,这一研究仍处于起步阶段,(1)缺乏统一的结构条件,从而缺乏样品效率学习; (2)现有的已知拖拉子类的样品复杂性远非锋利; (3)与完全可观察的RL相比,可用的样品效率算法更少。本文在预测状态表示(PSRS)的一般环境中,上面的所有三个方面都在部分可观察到的RL方向前进。首先,我们提出了一种称为\ emph {b稳定性}的自然和统一的结构条件。 B稳定的PSR包括绝大多数已知的可牵引子类,例如弱揭示的POMDP,低级别的未来pomdps,可解码的POMDP和常规PSR。接下来,我们证明可以在相关问题参数中使用多项式样本学习任何B稳定PSR。当在上述子类中实例化时,我们的样本复杂性比当前最好的复杂性大大改善。最后,我们的结果是通过三种算法同时实现的:乐观的最大似然估计,估计到决策和基于模型的乐观后验采样。后两种算法是用于POMDPS/PSR的样品有效学习的新算法。
translated by 谷歌翻译
我们研究了张量张量的回归,其中的目标是将张量的响应与张量协变量与塔克等级参数张量/矩阵连接起来,而没有其内在等级的先验知识。我们提出了Riemannian梯度下降(RGD)和Riemannian Gauss-Newton(RGN)方法,并通过研究等级过度参数化的影响来应对未知等级的挑战。我们通过表明RGD和RGN分别线性地和四边形地收敛到两个等级的统计最佳估计值,从而为一般的张量调节回归提供了第一个收敛保证。我们的理论揭示了一种有趣的现象:Riemannian优化方法自然地适应了过度参数化,而无需修改其实施。我们还为低度多项式框架下的标量调整回归中的统计计算差距提供了第一个严格的证据。我们的理论证明了``统计计算差距的祝福''现象:在张张量的张量回归中,对于三个或更高的张紧器,在张张量的张量回归中,计算所需的样本量与中等级别相匹配的计算量相匹配。在考虑计算可行的估计器时,虽然矩阵设置没有此类好处。这表明中等等级的过度参数化本质上是``在张量调整的样本量三分或更高的样本大小上,三分或更高的样本量。最后,我们进行仿真研究以显示我们提出的方法的优势并证实我们的理论发现。
translated by 谷歌翻译
了解现代机器学习设置中的概括一直是统计学习理论的主要挑战之一。在这种情况下,近年来见证了各种泛化范围的发展,表明了不同的复杂性概念,例如数据样本和算法输出之间的相互信息,假设空间的可压缩性以及假设空间的分形维度。尽管这些界限从不同角度照亮了手头的问题,但它们建议的复杂性概念似乎似乎无关,从而限制了它们的高级影响。在这项研究中,我们通过速率理论的镜头证明了新的概括界定,并明确地将相互信息,可压缩性和分形维度的概念联系起来。我们的方法包括(i)通过使用源编码概念来定义可压缩性的广义概念,(ii)表明“压缩错误率”可以与预期和高概率相关。我们表明,在“无损压缩”设置中,我们恢复并改善了现有的基于信息的界限,而“有损压缩”方案使我们能够将概括与速率延伸维度联系起来,这是分形维度的特定概念。我们的结果为概括带来了更统一的观点,并打开了几个未来的研究方向。
translated by 谷歌翻译
具有切换持续时间的轮询系统是具有若干实际应用的有用模型。它被归类为离散事件动态系统(DED),没有人在建模方法中同意的是。此外,DEDS非常复杂。迄今为止,最复杂的兴趣调查系统建模的方法是连续时间马尔可夫决策过程(CTMDP)。本文提出了一个半马尔可夫决策过程(SMDP)轮询系统的制定,以引入额外的建模能力。这种权力以截断误差和昂贵的数值积分为代价,自然导致SMDP政策是否提供有价值的优势。为了进一步添加到此方案,显示CTMDP中可以利用稀疏性以开发计算有效的模型。使用半Markov过程模拟器评估SMDP和CTMDP策略的折扣性能。两项政策伴随着专门为该投票系统开发的启发式政策,作为详尽的服务政策。参数和非参数假设试验用于测试性能差异是否有统计学意义。
translated by 谷歌翻译
合奏方法(例如随机森林)由于其高预测精度而在应用中很受欢迎。现有文献将随机的森林预测视为无限顺序不完整的U统计量,以量化其不确定性。但是,这些方法集中在每棵树的小次采样大小上,这在理论上是有效但实际上有限的。本文基于不完整的U统计数据,开发了公正的方差估计器,该估计量可以与整体样本量相当,从而使统计推断在更广泛的实际应用中成为可能。仿真结果表明,我们的估计量没有额外的计算成本,估计器的偏见和更准确的覆盖率。我们还提出了一项局部平滑过程,以减少估计器的变化,当树木数量相对较小时,该过程显示出改善的数值性能。此外,我们研究了在特定方案下提出的方差估计器的比率一致性。特别是,我们开发了一种新的“双U统计”公式,以分析估算器差异的HOFFING分解。
translated by 谷歌翻译
贝叶斯神经网络试图将神经网络的强大预测性能与与贝叶斯架构预测产出相关的不确定性的正式量化相结合。然而,它仍然不清楚如何在升入网络的输出空间时,如何赋予网络的参数。提出了一种可能的解决方案,使用户能够为手头的任务提供适当的高斯过程协方差函数。我们的方法构造了网络参数的先前分配,称为ridgelet,它近似于网络的输出空间中的Posited高斯过程。与神经网络和高斯过程之间的连接的现有工作相比,我们的分析是非渐近的,提供有限的样本大小的错误界限。这建立了贝叶斯神经网络可以近似任何高斯过程,其协方差函数是足够规律的任何高斯过程。我们的实验评估仅限于概念验证,在那里我们证明ridgele先前可以在可以提供合适的高斯过程的回归问题之前出现非结构化。
translated by 谷歌翻译
We propose a framework for learning a fragment of probabilistic computation tree logic (pCTL) formulae from a set of states that are labeled as safe or unsafe. We work in a relational setting and combine ideas from relational Markov Decision Processes with pCTL model-checking. More specifically, we assume that there is an unknown relational pCTL target formula that is satisfied by only safe states, and has a horizon of maximum $k$ steps and a threshold probability $\alpha$. The task then consists of learning this unknown formula from states that are labeled as safe or unsafe by a domain expert. We apply principles of relational learning to induce a pCTL formula that is satisfied by all safe states and none of the unsafe ones. This formula can then be used as a safety specification for this domain, so that the system can avoid getting into dangerous situations in future. Following relational learning principles, we introduce a candidate formula generation process, as well as a method for deciding which candidate formula is a satisfactory specification for the given labeled states. The cases where the expert knows and does not know the system policy are treated, however, much of the learning process is the same for both cases. We evaluate our approach on a synthetic relational domain.
translated by 谷歌翻译
我们提出了一种新方法,以正式描述统计推断的要求,并检查程序是否适当使用统计方法。具体而言,我们定义了信仰Hoare逻辑(BHL),以形式化和推理通过假设检验获得的统计信念。对于假设检验的Kripke模型,此程序逻辑是合理的,并且相对完成。我们通过示例证明,BHL对于假设检验中的实际问题有用。在我们的框架中,我们阐明了通过假设检验获得统计信念的先前信念的重要性,并讨论了程序逻辑内外统计推断的全部图片。
translated by 谷歌翻译
我们基于电子价值开发假设检测理论,这是一种与p值不同的证据,允许毫不费力地结合来自常见场景中的几项研究的结果,其中决定执行新研究可能取决于以前的结果。基于E-V值的测试是安全的,即它们在此类可选的延续下保留I型错误保证。我们将增长速率最优性(GRO)定义为可选的连续上下文中的电力模拟,并且我们展示了如何构建GRO E-VARIABLE,以便为复合空缺和替代,强调模型的常规测试问题,并强调具有滋扰参数的模型。 GRO E值采取具有特殊前瞻的贝叶斯因子的形式。我们使用几种经典示例说明了该理论,包括一个样本安全T检验(其中右哈尔前方的右手前锋为GE)和2x2差价表(其中GRE之前与标准前沿不同)。分享渔业,奈曼和杰弗里斯·贝叶斯解释,电子价值观和相应的测试可以提供所有三所学校的追随者可接受的方法。
translated by 谷歌翻译
马尔可夫决策过程通常用于不确定性下的顺序决策。然而,对于许多方面,从受约束或安全规范到任务和奖励结构中的各种时间(非Markovian)依赖性,需要扩展。为此,近年来,兴趣已经发展成为强化学习和时间逻辑的组合,即灵活的行为学习方法的组合,具有稳健的验证和保证。在本文中,我们描述了最近引入的常规决策过程的实验调查,该过程支持非马洛维亚奖励功能以及过渡职能。特别是,我们为常规决策过程,与在线,增量学习有关的算法扩展,对无模型和基于模型的解决方案算法的实证评估,以及以常规但非马尔维亚,网格世界的应用程序的算法扩展。
translated by 谷歌翻译