We introduce a general theory of epistemic random fuzzy sets for reasoning with fuzzy or crisp evidence. This framework generalizes both the Dempster-Shafer theory of belief functions, and possibility theory. Independent epistemic random fuzzy sets are combined by the generalized product-intersection rule, which extends both Dempster's rule for combining belief functions, and the product conjunctive combination of possibility distributions. We introduce Gaussian random fuzzy numbers and their multi-dimensional extensions, Gaussian random fuzzy vectors, as practical models for quantifying uncertainty about scalar or vector quantities. Closed-form expressions for the combination, projection and vacuous extension of Gaussian random fuzzy numbers and vectors are derived.
translated by 谷歌翻译
我们介绍了一个基于距离的神经网络模型,以进行回归,其中预测不确定性通过真实线上的信念函数量化。该模型将输入矢量与原型的距离解释为以高斯随机模糊数(GRFN)表示的证据,并由广义产品交叉路口规则组合,这是一种将Dempster规则扩展到随机模糊集的操作员。网络输出是一个GRFN,可以通过三个数字来概括,这些数字表征了最合理的预测值,该值周围的可变性以及认知不确定性。与最先进的证据和统计学习算法相比,使用真实数据集的实验证明了该方法的表现非常好。\关键字{证据理论,dempster-shafer理论,信念功能,机器学习,随机模糊集。
translated by 谷歌翻译
概率间隔是在不确定性下推理的有吸引力的工具。但是,与信仰功能不同,它们缺乏用于在实用工具理论框架中的决策中的自然概率转变。在本文中,我们提出了使用交叉路口概率,最初导致的变换,以便在不确定的几何方法的框架内进行信仰功能,作为最自然的这种转变。我们回顾其理由和定义,将其与其他概率间隔系统的其他候选者进行比较,讨论其作为一对简单的焦点的信任理由,并概述了概率间隔的可能决策框架,类似于可转移信仰功能的信仰模式。
translated by 谷歌翻译
The notion of uncertainty is of major importance in machine learning and constitutes a key element of machine learning methodology. In line with the statistical tradition, uncertainty has long been perceived as almost synonymous with standard probability and probabilistic predictions. Yet, due to the steadily increasing relevance of machine learning for practical applications and related issues such as safety requirements, new problems and challenges have recently been identified by machine learning scholars, and these problems may call for new methodological developments. In particular, this includes the importance of distinguishing between (at least) two different types of uncertainty, often referred to as aleatoric and epistemic. In this paper, we provide an introduction to the topic of uncertainty in machine learning as well as an overview of attempts so far at handling uncertainty in general and formalizing this distinction in particular.
translated by 谷歌翻译
对不确定性的深入了解是在不确定性下做出有效决策的第一步。深度/机器学习(ML/DL)已被大大利用,以解决处理高维数据所涉及的复杂问题。但是,在ML/DL中,推理和量化不同类型的不确定性的探索少于其他人工智能(AI)领域。特别是,自1960年代以来,在KRR上已经研究了信仰/证据理论,以推理并衡量不确定性以提高决策效率。我们发现,只有少数研究利用了ML/DL中的信念/证据理论中的成熟不确定性研究来解决不同类型的不确定性下的复杂问题。在本调查论文中,我们讨论了一些流行的信念理论及其核心思想,这些理论涉及不确定性原因和类型,并量化它们,并讨论其在ML/DL中的适用性。此外,我们讨论了三种主要方法,这些方法在深度神经网络(DNN)中利用信仰理论,包括证据DNN,模糊DNN和粗糙的DNN,就其不确定性原因,类型和量化方法以及其在多元化问题中的适用性而言。域。根据我们的深入调查,我们讨论了见解,经验教训,对当前最新桥接信念理论和ML/DL的局限性,最后是未来的研究方向。
translated by 谷歌翻译
对于高维和非参数统计模型,速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到,但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略,以获得对任何估计方差的下限,偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的,并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限,用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中,将抽象的下限应用于几种统计模型,包括高斯白噪声模型,边界估计问题,高斯序列模型和高维线性回归模型。对于这些特定的统计应用,发生不同类型的偏差差异发生,其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡,我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动,以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中,发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用,但是平方偏差的速率和方差不必平衡以实现最小估计速率。
translated by 谷歌翻译
机器学习通常以经典的概率理论为前提,这意味着聚集是基于期望的。现在有多种原因可以激励人们将经典概率理论作为机器学习的数学基础。我们系统地检查了一系列强大而丰富的此类替代品,即各种称为光谱风险度量,Choquet积分或Lorentz规范。我们提出了一系列的表征结果,并演示了使这个光谱家族如此特别的原因。在此过程中,我们证明了所有连贯的风险度量的自然分层,从它们通过利用重新安排不变性Banach空间理论的结果来诱导的上层概率。我们凭经验证明了这种新的不确定性方法如何有助于解决实用的机器学习问题。
translated by 谷歌翻译
我们介绍了统计实验的两种新的信息度量,它们概括和包含$ \ phi $ -diverences,积分概率指标,$ \ mathfrak {n} $ - distances(mmd)和$(f,\ gamma)$ divergences $ divergences在两个或多个分布之间。这使我们能够在信息的度量与统计决策问题的贝叶斯风险之间得出简单的几何关系,从而将变异的$ \ phi $ -divergence代表扩展到多个分布,以完全对称的方式。在马尔可夫运营商的行动下,新的分歧家庭被关闭,该家族产生了信息处理平等,这是经典数据处理不平等的完善和概括。这种平等使人深入了解假设类别在经典风险最小化中的重要性。
translated by 谷歌翻译
Linear partial differential equations (PDEs) are an important, widely applied class of mechanistic models, describing physical processes such as heat transfer, electromagnetism, and wave propagation. In practice, specialized numerical methods based on discretization are used to solve PDEs. They generally use an estimate of the unknown model parameters and, if available, physical measurements for initialization. Such solvers are often embedded into larger scientific models or analyses with a downstream application such that error quantification plays a key role. However, by entirely ignoring parameter and measurement uncertainty, classical PDE solvers may fail to produce consistent estimates of their inherent approximation error. In this work, we approach this problem in a principled fashion by interpreting solving linear PDEs as physics-informed Gaussian process (GP) regression. Our framework is based on a key generalization of a widely-applied theorem for conditioning GPs on a finite number of direct observations to observations made via an arbitrary bounded linear operator. Crucially, this probabilistic viewpoint allows to (1) quantify the inherent discretization error; (2) propagate uncertainty about the model parameters to the solution; and (3) condition on noisy measurements. Demonstrating the strength of this formulation, we prove that it strictly generalizes methods of weighted residuals, a central class of PDE solvers including collocation, finite volume, pseudospectral, and (generalized) Galerkin methods such as finite element and spectral methods. This class can thus be directly equipped with a structured error estimate and the capability to incorporate uncertain model parameters and observations. In summary, our results enable the seamless integration of mechanistic models as modular building blocks into probabilistic models.
translated by 谷歌翻译
大多数现代的潜在变量和概率生成模型,例如变异自动编码器(VAE),即使有无限的数据也无法解决,这些模型也无法解决。此类模型的最新应用表明需要强烈可识别的模型,其中观察结果与唯一的潜在代码相对应。在维持灵活性的同时,取得了进展,最著名的是IVAE(Arxiv:1907.04809 [stat.ml]),该模型排除了许多(但不是全部 - 不确定)。我们构建了一个完整的理论框架,用于分析潜在变量模型的不确定性,并根据生成器函数的属性和潜在变量先验分布精确表征它们。为了说明,我们应用框架以更好地了解最近的可识别性结果的结构。然后,我们研究如何指定强烈识别的潜在变量模型,并构建两个这样的模型。一种是对ivae的直接修饰。另一个想法从最佳运输和导致新颖的模型和连接到最近的工作。
translated by 谷歌翻译
对未来观察的预测是一个重要且具有挑战性的问题。分别量化预测不确定性使用预测区域和预测分布的两种主流方法,后者认为更具信息性,因为它可以执行其他与预测相关的任务。有效性的标准概念(我们在这里称为1型有效性)着重于预测区域的覆盖范围,而与预测分布执行的其他与预测相关的任务相关的有效性概念则缺乏。在这里,我们提出了一个新概念,称为2型有效性,与这些其他预测任务有关。我们建立了2型有效性和相干性能之间的联系,并表明为实现它而需要不精确的概率考虑因素。我们继续表明,可以通过将共形预测输出作为辅音合理性度量的轮廓函数来实现两种类型的预测有效性。我们还基于新的非参数推论模型构建提供了保​​形预测的替代表征,其中辅音的出现是自然的,并证明了其有效性。
translated by 谷歌翻译
We introduce and study a novel model-selection strategy for Bayesian learning, based on optimal transport, along with its associated predictive posterior law: the Wasserstein population barycenter of the posterior law over models. We first show how this estimator, termed Bayesian Wasserstein barycenter (BWB), arises naturally in a general, parameter-free Bayesian model-selection framework, when the considered Bayesian risk is the Wasserstein distance. Examples are given, illustrating how the BWB extends some classic parametric and non-parametric selection strategies. Furthermore, we also provide explicit conditions granting the existence and statistical consistency of the BWB, and discuss some of its general and specific properties, providing insights into its advantages compared to usual choices, such as the model average estimator. Finally, we illustrate how this estimator can be computed using the stochastic gradient descent (SGD) algorithm in Wasserstein space introduced in a companion paper arXiv:2201.04232v2 [math.OC], and provide a numerical example for experimental validation of the proposed method.
translated by 谷歌翻译
指数族在机器学习中广泛使用,包括连续和离散域中的许多分布(例如,通过SoftMax变换,Gaussian,Dirichlet,Poisson和分类分布)。这些家庭中的每个家庭的分布都有固定的支持。相比之下,对于有限域而言,最近在SoftMax稀疏替代方案(例如Sparsemax,$ \ alpha $ -entmax和Fusedmax)的稀疏替代方案中导致了带有不同支持的分布。本文基于几种技术贡献,开发了连续分布的稀疏替代方案:首先,我们定义了$ \ omega $ regultion的预测图和任意域的Fenchel-young损失(可能是无限或连续的)。对于线性参数化的家族,我们表明,Fenchel-Young损失的最小化等效于统计的矩匹配,从而概括了指数家族的基本特性。当$ \ omega $是带有参数$ \ alpha $的Tsallis negentropy时,我们将获得````trabormed rompential指数)'',其中包括$ \ alpha $ -entmax和sparsemax和sparsemax($ \ alpha = 2 $)。对于二次能量函数,产生的密度为$ \ beta $ -Gaussians,椭圆形分布的实例,其中包含特殊情况,即高斯,双重量级,三人级和epanechnikov密度,我们为差异而得出了差异的封闭式表达式, Tsallis熵和Fenchel-Young损失。当$ \ Omega $是总变化或Sobolev正常化程序时,我们将获得Fusedmax的连续版本。最后,我们引入了连续的注意机制,从\ {1、4/3、3/3、3/2、2 \} $中得出有效的梯度反向传播算法。使用这些算法,我们证明了我们的稀疏连续分布,用于基于注意力的音频分类和视觉问题回答,表明它们允许参加时间间隔和紧凑区域。
translated by 谷歌翻译
为什么普通语言模糊不清?我们认为,在合作扬声器没有完全了解世界的情况下,使用模糊表达可以在真实性(Gricean质量)和信息性之间提供最佳权衡(Gricean数量)。专注于诸如“周围”的近似的表达,这表明他们允许扬声器传达间接概率信息,这种信息可以使听众更准确地表示发言者可用的信息的信息。更精确的表达将是(之间的间隔“)。也就是说,模糊的句子可以比他们精确的对应物更有信息。我们对“周围”解释的概率处理,并提供了解释和使用“围绕” - 理性语音法(RSA)框架的典范。在我们的账户中,扬声器分配事项的形状不是由RSA框架标准用于模糊谓词的词汇不确定性模型的方式预测。我们利用我们的方法绘制关于模糊表达的语义灵活性的进一步教训及其对更精确的含义的不可缩短。
translated by 谷歌翻译
通过定义和上限,通过定义和上限,分析了贝叶斯学习的最佳成绩性能,通过限定了最小的过度风险(MER):通过从数据学习和最低预期损失可以实现的最低预期损失之间的差距认识到了。 MER的定义提供了一种原则状的方式来定义贝叶斯学习中的不同概念的不确定性,包括炼膜不确定性和最小的认知不确定性。提出了用于衍生MER的上限的两种方法。第一方法,通常适用于具有参数生成模型的贝叶斯学习,通过在模型参数之间的条件互信息和所观察到的数据预测的量之间的条件相互信息。它允许我们量化MER衰减随着更多数据可用而衰减为零的速率。在可实现的模型中,该方法还将MER与生成函数类的丰富性涉及,特别是二进制分类中的VC维度。具有参数预测模型的第二种方法,特别适用于贝叶斯学习,将MER与来自数据的模型参数的最小估计误差相关联。它明确地说明了模型参数估计中的不确定性如何转化为MER和最终预测不确定性。我们还将MER的定义和分析扩展到具有多个模型系列的设置以及使用非参数模型的设置。沿着讨论,我们在贝叶斯学习中的MER与频繁学习的过度风险之间建立了一些比较。
translated by 谷歌翻译
这项调查旨在提供线性模型及其背后的理论的介绍。我们的目标是对读者进行严格的介绍,并事先接触普通最小二乘。在机器学习中,输出通常是输入的非线性函数。深度学习甚至旨在找到需要大量计算的许多层的非线性依赖性。但是,这些算法中的大多数都基于简单的线性模型。然后,我们从不同视图中描述线性模型,并找到模型背后的属性和理论。线性模型是回归问题中的主要技术,其主要工具是最小平方近似,可最大程度地减少平方误差之和。当我们有兴趣找到回归函数时,这是一个自然的选择,该回归函数可以最大程度地减少相应的预期平方误差。这项调查主要是目的的摘要,即线性模型背后的重要理论的重要性,例如分布理论,最小方差估计器。我们首先从三种不同的角度描述了普通的最小二乘,我们会以随机噪声和高斯噪声干扰模型。通过高斯噪声,该模型产生了可能性,因此我们引入了最大似然估计器。它还通过这种高斯干扰发展了一些分布理论。最小二乘的分布理论将帮助我们回答各种问题并引入相关应用。然后,我们证明最小二乘是均值误差的最佳无偏线性模型,最重要的是,它实际上接近了理论上的极限。我们最终以贝叶斯方法及以后的线性模型结束。
translated by 谷歌翻译
Consider the problem of matching two independent i.i.d. samples of size $N$ from two distributions $P$ and $Q$ in $\mathbb{R}^d$. For an arbitrary continuous cost function, the optimal assignment problem looks for the matching that minimizes the total cost. We consider instead in this paper the problem where each matching is endowed with a Gibbs probability weight proportional to the exponential of the negative total cost of that matching. Viewing each matching as a joint distribution with $N$ atoms, we then take a convex combination with respect to the above Gibbs probability measure. We show that this resulting random joint distribution converges, as $N\rightarrow \infty$, to the solution of a variational problem, introduced by F\"ollmer, called the Schr\"odinger problem. We also derive the first two error terms of orders $N^{-1/2}$ and $N^{-1}$, respectively. This gives us central limit theorems for integrated test functions, including for the cost of transport, and second order Gaussian chaos limits when the limiting Gaussian variance is zero. The proofs are based on a novel chaos decomposition of the discrete Schr\"odinger bridge by polynomial functions of the pair of empirical distributions as the first and second order Taylor approximations in the space of measures. This is achieved by extending the Hoeffding decomposition from the classical theory of U-statistics.
translated by 谷歌翻译
当在条件属性上以某种方式相关的实例时,发生预测问题的不一致不会遵循决策属性的相同关系。例如,在具有单调性约束的序数分类中,当在条件属性上占据另一个实例的实例已经分配给更糟糕的决策类时,会发生它。它通常出现在由不完全知识(缺少属性)或通过数据生成期间发生的随机效果引起的数据的扰动(在决策属性值的评估中的不稳定性)引起的数据中的扰动。可以使用符号方法如粗糙集理论等象征方法处理和涉及优化方法的统计/机器学习方法,处理相对于清晰的预购关系(表达实例之间的差异或实例之间的无漏能格)不一致。模糊粗糙集也可以被视为对模糊关系处理不一致的象征性方法。在本文中,我们介绍了一种新的机器学习方法,用于对模糊预订关系进行不一致处理。新颖的方法是由用于清脆关系的现有机器学习方法的激励。我们为IT提供统计基础,并开发可用于消除不一致的优化程序。本文还证明了重要的财产,并载有这些程序的教学例子。
translated by 谷歌翻译
通过使用系统理论方法来解决,将隐藏的马尔可夫模型(HMM)降低到一个较小的维度的问题,该问题通过使用系统理论方法来解决相同的边缘,通过利用适当的代数表示概率空间的代数来解决HMM。我们提出了两种算法,这些算法返回由随机投影运算符获得的粗粒等效的HMM:第一返回模型,这些模型可重现给定输出过程的单个时间分布,而在第二个(多时间)分布中,则保留了第二个模型。还原方法不仅利用了观察到的输出的结构,而且还利用了后者的初始条件,每当后者已知或属于给定的子类时。最佳算法是针对一类HMM(即可观察到的)得出的。在一般情况下,我们提出的算法为我们分析的所有示例产生了最小的模型,并猜测它们的最优性。
translated by 谷歌翻译
当代企业在以不确定性,敌意和纯粹的数据量为特征的情况下广泛应用机器推理和人工智能提供了无限的机会。该论文开发了一个评估网络,作为在支持人类运营商的不确定性下进行高级融合和推理的图形系统。估值是(不确定的)知识和收集数据的数学表示形式,被表示为信用集,定义为不精确概率理论框架中的连贯间隔概率。具有这种信用集,组合和边缘化的基本操作被定义为满足评估代数的公理。讨论了信用估值网络的实际实施,并在一个小规模的示例中证明了其实用性。
translated by 谷歌翻译