A simulation is useful when the phenomenon of interest is either expensive to regenerate or irreproducible with the same context. Recently, Bayesian inference on the distribution of the simulation input parameter has been implemented sequentially to minimize the required simulation budget for the task of simulation validation to the real-world. However, the Bayesian inference is still challenging when the ground-truth posterior is multi-modal with a high-dimensional simulation output. This paper introduces a regularization technique, namely Neural Posterior Regularization (NPR), which enforces the model to explore the input parameter space effectively. Afterward, we provide the closed-form solution of the regularized optimization that enables analyzing the effect of the regularization. We empirically validate that NPR attains the statistically significant gain on benchmark performances for diverse simulation tasks.
translated by 谷歌翻译
Bayesian inference without the likelihood evaluation, or likelihood-free inference, has been a key research topic in simulation studies for gaining quantitatively validated simulation models on real-world datasets. As the likelihood evaluation is inaccessible, previous papers train the amortized neural network to estimate the ground-truth posterior for the simulation of interest. Training the network and accumulating the dataset alternatively in a sequential manner could save the total simulation budget by orders of magnitude. In the data accumulation phase, the new simulation inputs are chosen within a portion of the total simulation budget to accumulate upon the collected dataset. This newly accumulated data degenerates because the set of simulation inputs is hardly mixed, and this degenerated data collection process ruins the posterior inference. This paper introduces a new sampling approach, called Neural Proposal (NP), of the simulation input that resolves the biased data collection as it guarantees the i.i.d. sampling. The experiments show the improved performance of our sampler, especially for the simulations with multi-modal posteriors.
translated by 谷歌翻译
Simulation-based inference (SBI) solves statistical inverse problems by repeatedly running a stochastic simulator and inferring posterior distributions from model-simulations. To improve simulation efficiency, several inference methods take a sequential approach and iteratively adapt the proposal distributions from which model simulations are generated. However, many of these sequential methods are difficult to use in practice, both because the resulting optimisation problems can be challenging and efficient diagnostic tools are lacking. To overcome these issues, we present Truncated Sequential Neural Posterior Estimation (TSNPE). TSNPE performs sequential inference with truncated proposals, sidestepping the optimisation issues of alternative approaches. In addition, TSNPE allows to efficiently perform coverage tests that can scale to complex models with many parameters. We demonstrate that TSNPE performs on par with previous methods on established benchmark tasks. We then apply TSNPE to two challenging problems from neuroscience and show that TSNPE can successfully obtain the posterior distributions, whereas previous methods fail. Overall, our results demonstrate that TSNPE is an efficient, accurate, and robust inference method that can scale to challenging scientific models.
translated by 谷歌翻译
近似贝叶斯计算(ABC)是具有顽固性函数模型的流行无可能推理方法。由于ABC方法通常依赖于比较观察到的数据和模拟数据的摘要统计数据,因此统计数据的选择至关重要。此选择涉及信息丢失和减少维度之间的权衡,并且通常是根据领域知识确定的。但是,手工制作和选择合适的统计数据是一项费力的任务,涉及多个试用步骤。在这项工作中,我们引入了一种用于ABC统计选择的积极学习方法,该方法可大大减少域专家的工作。通过参与专家,我们能够处理拼写错误的模型,这与现有的减小方法不同。此外,与现有方法相比,在模拟预算有限时,经验结果显示出更好的后验估计。
translated by 谷歌翻译
贝叶斯神经网络具有潜在变量(BNN + LVS)通过明确建模模型不确定性(通过网络权重)和环境暂停(通过潜在输入噪声变量)来捕获预测的不确定性。在这项工作中,我们首先表明BNN + LV具有严重形式的非可识别性:可以在模型参数和潜在变量之间传输解释性,同时拟合数据。我们证明,在无限数据的极限中,网络权重和潜变量的后部模式从地面真理渐近地偏离。由于这种渐近偏差,传统的推理方法可以在实践中,产量参数概括不确定和不确定的不确定性。接下来,我们开发一种新推断过程,明确地减轻了训练期间不可识别性的影响,并产生高质量的预测以及不确定性估计。我们展示我们的推理方法在一系列合成和实际数据集中改善了基准方法。
translated by 谷歌翻译
贝叶斯核心通过构建数据点的一个较小的加权子集近似后验分布。任何在整个后验上运行的推理过程在计算上昂贵,都可以在核心上廉价地运行,其结果近似于完整数据上的结果。但是,当前方法受到大量运行时的限制,或者需要用户指定向完整后部的低成本近似值。我们提出了一种贝叶斯核心结构算法,该算法首先选择均匀随机的数据子集,然后使用新型的准Newton方法优化权重。我们的算法是一种易于实现的黑框方法,不需要用户指定低成本后近似。它是第一个在输出核心后部的KL差异上带有一般高概率构成的。实验表明,我们的方法可与具有可比的施工时间的替代方案相比,核心质量有显着改善,所需的存储成本和用户输入要少得多。
translated by 谷歌翻译
在没有明确或易于处理的可能性的情况下,贝叶斯人经常诉诸于贝叶斯计算(ABC)进行推理。我们的工作基于生成的对抗网络(GAN)和对抗性变分贝叶斯(GAN),为ABC桥接了ABC。 ABC和GAN都比较了观察到的数据和假数据的各个方面,分别从后代和似然模拟。我们开发了一个贝叶斯gan(B-GAN)采样器,该采样器通过解决对抗性优化问题直接靶向后部。 B-GAN是由有条件gan在ABC参考上学习的确定性映射驱动的。一旦训练了映射,就可以通过以可忽略的额外费用过滤噪声来获得IID后样品。我们建议使用(1)数据驱动的提案和(2)变化贝叶斯提出两项后处理的本地改进。我们通过常见的bayesian结果支持我们的发现,表明对于某些神经网络发生器和歧视器,真实和近似后骨之间的典型总变化距离收敛到零。我们对模拟数据的发现相对于一些最新的无可能后验模拟器显示出竞争激烈的性能。
translated by 谷歌翻译
We argue that the estimation of mutual information between high dimensional continuous random variables can be achieved by gradient descent over neural networks. We present a Mutual Information Neural Estimator (MINE) that is linearly scalable in dimensionality as well as in sample size, trainable through back-prop, and strongly consistent. We present a handful of applications on which MINE can be used to minimize or maximize mutual information. We apply MINE to improve adversarially trained generative models. We also use MINE to implement the Information Bottleneck, applying it to supervised classification; our results demonstrate substantial improvement in flexibility and performance in these settings.
translated by 谷歌翻译
神经密度估计值证明在各种研究领域进行高效的仿真贝叶斯推理方面具有显着强大。特别是,Bayesflow框架使用两步方法来实现在仿真程序隐式地定义似然函数的设置中的摊销参数估计。但是当模拟是现实差的差异时,这种推断是多么忠实?在本文中,我们概念化了基于模拟的推论中出现的模型误操作的类型,并系统地研究了这些误操作下的Bayesflow框架的性能。我们提出了一个增强优化目标,它对潜伏数据空间上的概率结构施加了概率结构,并利用了最大平均差异(MMD)来检测推理期间的可能灾难性的误操作,破坏了所获得的结果的有效性。我们验证了许多人工和现实的误操作的检测标准,从玩具共轭模型到复杂的决策和疾病爆发动态的复杂模型应用于实际数据。此外,我们表明后部推理误差随着真实数据生成分布与潜在摘要空间中的典型模拟集之间的常数而增加。因此,我们展示了MMD的双重实用性作为检测模型误操作的方法和作为验证摊销贝叶斯推理的忠实性的代理。
translated by 谷歌翻译
在使用多模式贝叶斯后部分布时,马尔可夫链蒙特卡罗(MCMC)算法难以在模式之间移动,并且默认变分或基于模式的近似推动将低估后不确定性。并且,即使找到最重要的模式,难以评估后部的相对重量。在这里,我们提出了一种使用MCMC,变分或基于模式的模式的并行运行的方法,以便尽可能多地击中多种模式或分离的区域,然后使用贝叶斯堆叠来组合这些用于构建分布的加权平均值的可扩展方法。通过堆叠从多模式后分布的堆叠,最小化交叉验证预测误差的结果,并且代表了比变分推断更好的不确定度,但它不一定是相当于渐近的,以完全贝叶斯推断。我们呈现理论一致性,其中堆叠推断逼近来自未衰退的模型和非混合采样器的真实数据生成过程,预测性能优于完全贝叶斯推断,因此可以被视为祝福而不是模型拼写下的诅咒。我们展示了几个模型家庭的实际实施:潜在的Dirichlet分配,高斯过程回归,分层回归,马蹄素变量选择和神经网络。
translated by 谷歌翻译
推断基于实验观察的随机模型的参数是科学方法的核心。特别具有挑战性的设置是当模型强烈不确定时,即当不同的参数集产生相同的观察时。这在许多实际情况下出现,例如在推断无线电源的距离和功率时(是源关闭和弱或远远强,且强大且强大?)或估计电生理实验的放大器增益和底层脑活动。在这项工作中,我们通过利用由辅助观察集共享全局参数传达的附加信息来阐明这种不确定性的新方法。我们的方法基于对贝叶斯分层模型的标准化流程扩展了基于仿真的推断(SBI)的最新进展。我们通过模拟和实际EEG数据将其应用于可用于分析解决方案的激励示例,以便将其验证我们的提案,然后将其从计算神经科学逆变众所周知的非线性模型。
translated by 谷歌翻译
基于采样的推理技术是现代宇宙学数据分析的核心;然而,这些方法与维度不良,通常需要近似或顽固的可能性。在本文中,我们描述了截短的边际神经比率估计(TMNRE)(即所谓的基于模拟的推断的新方法)自然避免了这些问题,提高了$(i)$效率,$(ii)$可扩展性和$ (iii)推断后的后续后续的可信度。使用宇宙微波背景(CMB)的测量,我们表明TMNRE可以使用比传统马尔可夫链蒙特卡罗(MCMC)方法更少模拟器呼叫的数量级来实现融合的后海后。值得注意的是,所需数量的样本有效地独立于滋扰参数的数量。此外,称为\ MEMPH {本地摊销}的属性允许对基于采样的方法无法访问的严格统计一致性检查的性能。 TMNRE承诺成为宇宙学数据分析的强大工具,特别是在扩展宇宙学的背景下,其中传统的基于采样的推理方法所需的时间级数融合可以大大超过$ \ Lambda $ CDM等简单宇宙学模型的时间。为了执行这些计算,我们使用开源代码\ texttt {swyft}来使用TMNRE的实现。
translated by 谷歌翻译
基于能量的模型(EBMS)为密度估计提供了优雅的框架,但它们难以训练。最近的工作已经建立了与生成的对抗网络的联系,eBM通过具有变分值函数的最小游戏培训。我们提出了EBM Log-似然的双向界限,使得我们最大限度地提高了较低的界限,并在解决Minimax游戏时最小化上限。我们将一个绑定到梯度惩罚的一个稳定,稳定培训,从而提供最佳工程实践的基础。为了评估界限,我们开发了EBM发生器的Jacobi确定的新的高效估算器。我们证明这些发展显着稳定培训并产生高质量密度估计和样品生成。
translated by 谷歌翻译
具有潜在变量的深生成模型已被最近用于从多模式数据中学习关节表示和生成过程。但是,这两种学习机制可能相互冲突,表示形式无法嵌入有关数据模式的信息。本研究研究了所有模式和类标签可用于模型培训的现实情况,但是缺少下游任务所需的一些方式和标签。在这种情况下,我们表明,变异下限限制了联合表示和缺失模式之间的相互信息。为了抵消这些问题,我们引入了一种新型的条件多模式判别模型,该模型使用信息性的先验分布并优化了无可能的无可能目标函数,该目标函数可在联合表示和缺失模态之间最大化相互信息。广泛的实验表明了我们提出的模型的好处,这是经验结果表明,我们的模型实现了最新的结果,从而导致了代表性问题,例如下游分类,声音反演和注释产生。
translated by 谷歌翻译
尽管存在扩散模型的各种变化,但将线性扩散扩散到非线性扩散过程中仅由几项作品研究。非线性效应几乎没有被理解,但是直觉上,将有更多有希望的扩散模式来最佳地训练生成分布向数据分布。本文介绍了基于分数扩散模型的数据自适应和非线性扩散过程。提出的隐式非线性扩散模型(INDM)通过结合归一化流量和扩散过程来学习非线性扩散过程。具体而言,INDM通过通过流网络利用\ textIt {litex {litex {littent Space}的线性扩散来隐式构建\ textIt {data Space}的非线性扩散。由于非线性完全取决于流网络,因此该流网络是形成非线性扩散的关键。这种灵活的非线性是针对DDPM ++的非MLE训练,将INDM的学习曲线提高到了几乎最大的似然估计(MLE)训练,事实证明,这是具有身份流量的INDM的特殊情况。同样,训练非线性扩散可以通过离散的步骤大小产生采样鲁棒性。在实验中,INDM实现了Celeba的最新FID。
translated by 谷歌翻译
We present the GPry algorithm for fast Bayesian inference of general (non-Gaussian) posteriors with a moderate number of parameters. GPry does not need any pre-training, special hardware such as GPUs, and is intended as a drop-in replacement for traditional Monte Carlo methods for Bayesian inference. Our algorithm is based on generating a Gaussian Process surrogate model of the log-posterior, aided by a Support Vector Machine classifier that excludes extreme or non-finite values. An active learning scheme allows us to reduce the number of required posterior evaluations by two orders of magnitude compared to traditional Monte Carlo inference. Our algorithm allows for parallel evaluations of the posterior at optimal locations, further reducing wall-clock times. We significantly improve performance using properties of the posterior in our active learning scheme and for the definition of the GP prior. In particular we account for the expected dynamical range of the posterior in different dimensionalities. We test our model against a number of synthetic and cosmological examples. GPry outperforms traditional Monte Carlo methods when the evaluation time of the likelihood (or the calculation of theoretical observables) is of the order of seconds; for evaluation times of over a minute it can perform inference in days that would take months using traditional methods. GPry is distributed as an open source Python package (pip install gpry) and can also be found at https://github.com/jonaselgammal/GPry.
translated by 谷歌翻译
数据和标签的联合分布的KL差异目标允许在随机变异推断的一个保护伞下统一监督的学习和变异自动编码器(VAE)。统一激发了扩展的监督方案,该方案允许计算神经网络模型的合适性P值。通过神经网络摊销的条件归一化流在这种结构中至关重要。我们讨论了它们如何允许在产品空间上共同定义的后代定义的覆盖范围,例如$ \ mathbb {r}^n \ times \ times \ mathcal {s}^m $,它包含在方向上的海报。最后,系统的不确定性自然包含在变化观点中。在经典的可能性方法或其他机器学习模型中,(1)系统,(2)覆盖范围和(3)拟合优度的成分通常并非全部可用,或者至少有一个受到严格限制。相比之下,拟议的扩展监督培训和摊销标准化流量可容纳所有三个,用于在产品空间上定义的任意统计分布的变异推理,例如$ \ mathbb {r}^n \ times \ times \ ldots \ ldots \ times \ times \ mathcal {s}^m {s}^m $,没有基本数据复杂性的基本障碍。因此,它具有当代(Astro-)粒子物理学家的统计工具箱的巨大潜力。
translated by 谷歌翻译
即使在实践中无法计算其可能性,基于模拟的推断也能够学习模型的参数。一类方法使用用不同参数模拟的数据来推断摊销估计器,以获得似然到证据比,或等效的后函数。我们表明,可以在模型参数和模拟数据之间的相互信息最大化方面配制这种方法。我们使用此等价来重新诠释摊销推理的现有方法,并提出了两种依赖于互信息的下限的新方法。我们使用人工神经网络用于后部预测的采样轨迹,将框架应用于随机过程和混沌动态系统的推动。我们的方法提供了一个统一的框架,利用了相互信息估计的功率进行推理。
translated by 谷歌翻译
随机梯度马尔可夫链蒙特卡洛(SGMCMC)被认为是大型模型(例如贝叶斯神经网络)中贝叶斯推断的金标准。由于从业人员在这些模型中面临速度与准确性权衡,因此变异推理(VI)通常是可取的选择。不幸的是,VI对后部的分解和功能形式做出了有力的假设。在这项工作中,我们提出了一个新的非参数变分近似,该近似没有对后验功能形式进行假设,并允许从业者指定算法应尊重或断裂的确切依赖性。该方法依赖于在修改的能量函数上运行的新的langevin型算法,其中潜在变量的一部分是在马尔可夫链的早期迭代中平均的。这样,统计依赖性可以以受控的方式破裂,从而使链条混合更快。可以以“辍学”方式进一步修改该方案,从而导致更大的可扩展性。我们在CIFAR-10,SVHN和FMNIST上测试RESNET-20的计划。在所有情况下,与SG-MCMC和VI相比,我们都会发现收敛速度和/或最终精度的提高。
translated by 谷歌翻译
贝叶斯后期和模型证据的计算通常需要数值整合。贝叶斯正交(BQ)是一种基于替代模型的数值整合方法,能够具有出色的样品效率,但其缺乏并行化阻碍了其实际应用。在这项工作中,我们提出了一种并行的(批次)BQ方法,该方法采用了核正素的技术,该技术具有证明是指数的收敛速率。另外,与嵌套采样一样,我们的方法允许同时推断后期和模型证据。重新选择了来自BQ替代模型的样品,通过内核重组算法获得一组稀疏的样品,需要可忽略的额外时间来增加批处理大小。从经验上讲,我们发现我们的方法显着优于在包括锂离子电池分析在内的各种现实世界数据集中,最先进的BQ技术和嵌套采样的采样效率。
translated by 谷歌翻译