根据随机数据生成过程隐式定义的参数统计模型被广泛用于科学学科,因为它们能够进行精确建模。然而,从观察数据中学习参数通常是非常困难的,因为它们的似然函数通常是难以处理的。已经提出了无似然贝叶斯干涉方法,其包括近似贝叶斯计算(ABC),合成似然的框架,以及通过比率估计(LFIRE)执行无似然推断的最近概括。所有这些方法的一个主要困难是选择减少数据维数以便于推理的汇总统计。虽然已经为ABC提出了几种选择汇总统计量的方法,但迄今为止,合成似然和LFIRE的文献非常薄。我们在文献中提出了这个空白,重点关注时间序列模型的重要特例。我们展示了训练的卷积神经网络从数据中预测了输入参数,为LFIRE提供了合适的汇总统计。在广泛的时间序列模型中,单个神经网络体系结构产生与替代方法相同或更准确的后验。
translated by 谷歌翻译
许多参数统计模型没有被正确地归一化并且仅被指定为难以处理的分区函数,这使得参数估计变得困难。非标准化模型的例子是无监督深度学习中的吉布斯分布,马尔可夫随机场和神经网络模型。在以前的工作中,引入了称为噪声对比估计(NCE)的估计原理,其中通过学习数据和辅助之间的区分来估计非标准化模型。噪声。一个悬而未决的问题是如何最好地选择辅助噪声分布。我们在这里提出一种解决这个问题的新方法。所提出的方法与NCE共享将密度估计制定为监督学习问题的想法,但与NCE相反,所提出的方法在生成噪声样本时利用观察到的数据。因此可以以半自动方式产生噪声。我们首先介绍了新方法的基本理论,表明得分匹配作为一个极限情况,验证了连续和离散评估合成数据的方法,并表明当数据位于低维流形时我们可以期望比NCE更好的性能。然后通过估计afour-layer神经图像模型,证明其在无监督深度学习中的适用性。
translated by 谷歌翻译
无可能性推理引擎(ELFI)是一个Python软件库,用于执行无可用推理(LFI)。 ELFI提供了一种方便的语法,用于将LFI中的组件(例如先验,模拟器,摘要或距离)安排到称为ELFI图的网络中。这些组件可以用各种语言实现。独立的ELFI图可以与任何可用的推理方法一起使用而无需修改。在ELFI中实现的中心方法是无可能性推理的贝叶斯优化(BOLFI),最近已经证明通过代理建模距离可以将无可能性推断加速到几个数量级。 ELFI还具有内置的输出数据存储支持,可用于重用和分析,并支持从多个核到群集环境的计算并行化。 ELFI旨在实现可扩展性,并提供扩展其功能的接口。这使得向ELFI添加新的推理方法变得简单并且自动与内置功能兼容。
translated by 谷歌翻译
深度生成模型为复杂流形的分布提供了强大的工具,例如自然图像。但是这些方法中的许多方法,包括生成对抗网络(GAN),可能很难完成,部分原因是它们容易出现模式崩溃,这意味着它们只能表征真实分布的几种模式。为了解决这个问题,我们引入了具有重构网络的VEEGAN,通过从数据到噪声的映射来逆转生成器的动作。我们的训练目标是保留GAN的原始渐近一致性保证,并且可以解释为一种新的自动编码器损失噪声。与传统的数据点上的传统编码器形成鲜明对比的是,VEEGAN不需要在数据上指定丢失函数,而只需要在表示中指定,这些表示通过假设是标准的。在广泛的合成和真实世界图像数据集上,VEEGAN确实能够抵抗模式崩溃,远远超过其他最近的GAN变体,并产生更逼真的样本。
translated by 谷歌翻译
近似贝叶斯计算(ABC)是贝叶斯推理的一种方法,当可能性不可用时,但是可以从模型中进行模拟。然而,许多ABC算法需要大量的模拟,这可能是昂贵的。为了降低计算成本,已经提出了贝叶斯优化(BO)和诸如高斯过程的模拟模型。贝叶斯优化使人们可以智能地决定在哪里评估模型下一个,但是常见的BO策略不是为了估计后验分布而设计的。我们的论文解决了文献中的这一差距。我们建议计算ABC后验密度的不确定性,这是因为缺乏模拟来准确估计这个数量,并且定义了测量这种不确定性的aloss函数。然后,我们建议选择下一个评估位置,以尽量减少预期的损失。实验表明,与普通BO策略相比,所提出的方法通常产生最准确的近似。
translated by 谷歌翻译
We consider the problem of parametric statistical inference when likelihood computations are prohibitively expensive but sampling from the model is possible. Several so-called likelihood-free methods have been developed to perform inference in the absence of a likelihood function. The popular synthetic likelihood approach infers the parameters by modelling summary statistics of the data by a Gaussian probability distribution. In another popular approach called approximate Bayesian computation, the inference is performed by identifying parameter values for which the summary statistics of the simulated data are close to those of the observed data. Synthetic likelihood is easier to use as no measure of "close-ness" is required but the Gaussianity assumption is often limiting. Moreover, both approaches require judiciously chosen summary statistics. We here present an alternative inference approach that is as easy to use as synthetic likelihood but not as restricted in its assumptions, and that, in a natural way, enables automatic selection of relevant summary statistic from a large set of candidates. The basic idea is to frame the problem of estimating the posterior as a problem of estimating the ratio between the data generating distribution and the marginal distribution. This problem can be solved by logistic regression, and including regularising penalty terms enables automatic selection of the summary statistics relevant to the inference task. We illustrate the general theory on canonical examples and employ it to perform inference for challenging stochastic nonlinear dynamical systems and high-dimensional summary statistics.
translated by 谷歌翻译
贝叶斯实验设计涉及实验中资源的最优分配,目的是优化成本和性能。对于隐性模型,其中可能性是难以处理的,但是从模型中抽样是可能的,这项任务特别困难,因此很大程度上未被探索。这主要是由于与近似后验分布和效用函数相关的技术困难。我们为隐式模型设计了一个新颖的实验设计框架,改进了以前的工作。首先,我们使用参数和数据之间的相互信息作为实用功能,这在以前是不可行的。我们通过比率估计(LFIRE)利用无似然推断来近似后分布来实现这一点,而不是传统的近似贝叶斯计算或合成似然方法。其次,我们使用贝叶斯优化来解决最优设计问题,而不是典型的网格搜索。我们发现这可以提高效率并允许考虑更高的设计尺寸。
translated by 谷歌翻译
非标准化潜变量模型是一类广泛而灵活的统计模型。然而,从数据中学习它们的参数是非常有用的,并且目前很少有估计技术可用于这种模型。为了增加我们的武器库中的技术数量,我们提出了基于NCE的变分噪声对比估计(VNCE),这是一种仅适用于非标准化模型的方法。核心思想是使用NCE目标函数的变分下界,这可以与标准变分推理(VI)中的证据下界(ELBO)相同的方式进行优化。我们证明了VNCE可以用于非正态化模型的参数估计和潜在变量的后验推断。开发的理论表明VNCE具有与标准VI相同的通用性,这意味着可以直接导入到非标准化设置中。我们在玩具模型上验证VNCE并将其应用于从不完整数据中估计无向图形模型的现实问题。
translated by 谷歌翻译
在复杂的模拟环境中,某些参数空间区域可能会导致非收敛或非物理结果。因此,所有参数都可以用二进制类标记,描述它们是否导致有效结果。通常,确定可行的参数区域可能非常困难,尤其是在没有先前知识的情况下。我们提出了一种新的算法来探索这样一个未知的参数空间,并以迭代的方式改进其可行性分类。此外,我们在算法中包括一个额外的优化目标,以指导对感兴趣区域的探索并改进其中的分类。在我们的方法中,我们使用机器学习领域中已经建立的概念,如kernelsupport矢量机和内核岭回归。通过与基于最近发布的结果的基于克里格的探索方法的比较,我们可以在具有离散可行性约束违规的二元可行性分类方案中显示我们的算法的优点。在此背景下,我们还提出了基于克里金的探索方法的改进。我们将新方法应用于完全现实的,工业相关的化学过程模拟,以展示其实际可用性,并从相对较少的数据点找到相对较好的数据空间拓扑近似。
translated by 谷歌翻译
Vossian Antonomasia是一种多产的风格设备,自古以来就在使用。它可以将人或其他名称的引入或描述压缩成简洁,尖锐的配方,最好用一个例子来解释:当挪威世界冠军马格努斯卡尔森被描述为“国际象棋的莫扎特“,这是我们正在处理的Vossian Antonomasia。模式简单:源(莫扎特)用于描述目标(马格努斯卡尔森),通过修饰符(“国际象棋”)达到意义转移。之前已经讨论过这种现象(作为“隐喻性的antonomasia”,或者特别关注源对象,作为“paragons”),但尚未开发出基于语料库的方法来探索其广度和多样性。我们正在研究一个完整的文本报纸语料库(纽约时报,1987-2007),并描述了一种基于维基数据库自动提取Vossian Antonomasia的新方法。我们的分析提供了对热门对象的发生及其分布的新见解。
translated by 谷歌翻译