智能论文笔记

Consistent and fast inference in compartmental models of epidemics using Poisson Approximate Likelihoods

Michael Whitehouse , Nick Whiteley , Lorenzo Rimella

分类：机器学习

2022-05-26

解决扩大流行病学推断对复杂和异质模型的挑战，我们引入了泊松近似可能性（PAL）方法。 PAL是从有限人口，随机隔室模型的近似滤波方程中得出的，并且较大的人口限制驱动了最大PAL估计器的一致性。我们的理论结果似乎是基于大量的部分观察到的关于大量人群限制的部分随机隔室模型的第一个基于可能性的参数估计一致性结果。与基于仿真的方法（例如近似贝叶斯计算和顺序蒙特卡洛）相比，PALS易于实现，仅涉及基本算术操作，而无需调整参数。并快速评估，不需要模型的模拟，并且具有与人口规模无关的计算成本。通过示例，我们演示了PAL的如何：嵌入延迟的接受粒子马尔可夫链蒙特卡洛中以促进贝叶斯的推断；用于拟合流感的年龄结构化模型，利用Stan的自动分化；并应用于校准麻疹的空间元群模型。

translated by 谷歌翻译

State and parameter learning with PaRIS particle Gibbs

Gabriel Cardoso , Yazid Janati El Idrissi , Sylvain Le Corff , Eric Moulines , Jimmy Olsson

分类： (统计)机器学习

2023-01-02

Non-linear state-space models, also known as general hidden Markov models, are ubiquitous in statistical machine learning, being the most classical generative models for serial data and sequences in general. The particle-based, rapid incremental smoother PaRIS is a sequential Monte Carlo (SMC) technique allowing for efficient online approximation of expectations of additive functionals under the smoothing distribution in these models. Such expectations appear naturally in several learning contexts, such as likelihood estimation (MLE) and Markov score climbing (MSC). PARIS has linear computational complexity, limited memory requirements and comes with non-asymptotic bounds, convergence results and stability guarantees. Still, being based on self-normalised importance sampling, the PaRIS estimator is biased. Our first contribution is to design a novel additive smoothing algorithm, the Parisian particle Gibbs PPG sampler, which can be viewed as a PaRIS algorithm driven by conditional SMC moves, resulting in bias-reduced estimates of the targeted quantities. We substantiate the PPG algorithm with theoretical results, including new bounds on bias and variance as well as deviation inequalities. Our second contribution is to apply PPG in a learning framework, covering MLE and MSC as special examples. In this context, we establish, under standard assumptions, non-asymptotic bounds highlighting the value of bias reduction and the implicit Rao--Blackwellization of PPG. These are the first non-asymptotic results of this kind in this setting. We illustrate our theoretical results with numerical experiments supporting our claims.

translated by 谷歌翻译

Optimal Thinning of MCMC Output

Marina Riabiz , Wilson Chen , Jon Cockayne , Pawel Swietach , Steven A. Niederer , Lester Mackey , Chris. J. Oates

分类： (统计)机器学习

2020-05-08

利用启发式来评估收敛性和压缩马尔可夫链蒙特卡罗的输出可以在生产的经验逼近时是次优。通常，许多初始状态归因于“燃烧”并移除，而链条的其余部分是“变薄”，如果还需要压缩。在本文中，我们考虑回顾性地从样本路径中选择固定基数的状态的问题，使得由其经验分布提供的近似接近最佳。提出了一种基于核心稳定性差异的贪婪最小化的新方法，这适用于需要重压力的问题。理论结果保障方法的一致性及其有效性在常微分方程的参数推理的具体背景下证明了该效果。软件可在Python，R和Matlab中的Stein细化包中提供。

translated by 谷歌翻译

An Introduction to Modern Statistical Learning

Joseph G. Makin

分类：机器学习

2022-07-20

这项正在进行的工作旨在为统计学习提供统一的介绍，从诸如GMM和HMM等经典模型到现代神经网络（如VAE和扩散模型）缓慢地构建。如今，有许多互联网资源可以孤立地解释这一点或新的机器学习算法，但是它们并没有（也不能在如此简短的空间中）将这些算法彼此连接起来，或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统，尽管对那些已经熟悉材料的人（如这些帖子的作者）不满意，但对新手的入境造成了重大障碍。同样，我的目的是将各种模型（尽可能）吸收到一个用于推理和学习的框架上，表明（以及为什么）如何以最小的变化将一个模型更改为另一个模型（其中一些是新颖的，另一些是文献中的）。某些背景当然是必要的。我以为读者熟悉基本的多变量计算，概率和统计以及线性代数。这本书的目标当然不是完整性，而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后，目标是补充而不是替换，诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本，该文本现在已经15岁了。

translated by 谷歌翻译

Iterated Block Particle Filter for High-dimensional Parameter Learning: Beating the Curse of Dimensionality

Ning Ning , Edward L. Ionides

分类： (统计)机器学习 | 机器学习

2021-10-20

高维，部分观察和非线性随机过程的参数学习是方法论挑战。时空疾病传播系统提供了此类过程的示例，导致开放推理问题。我们提出了迭代的块粒子滤波器（IBPF）算法，用于学习具有一般状态空间，测量，过渡密度和图形结构的图形状态空间模型上的高维参数。在击败维度（COD），算法收敛和可能性最大化的诅咒时，获得了理论性能保证。在高度非线性和非高斯时空模型上进行麻疹传播的实验表明，迭代的集合卡尔曼滤波器算法（Li等人（2020））无效，迭代过滤算法（Ionides et al。（2015））受到损害。COD，而我们的IBPF算法在不同指标的各种实验中始终如一地击败COD。

translated by 谷歌翻译

The Lasso with general Gaussian designs with applications to hypothesis testing

Michael Celentano , Andrea Montanari , Yuting Wei

分类：机器学习 | (统计)机器学习

2020-07-27

套索是一种高维回归的方法，当时，当协变量$ p $的订单数量或大于观测值$ n $时，通常使用它。由于两个基本原因，经典的渐近态性理论不适用于该模型：$（1）$正规风险是非平滑的； $（2）$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果，标准的扰动论点是渐近正态性的传统基础。另一方面，套索估计器可以精确地以$ n $和$ p $大，$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量：在这里，我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限，它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序，我们研究了借助拉索的分布，并表明需要校正程度对于计算有效的置信区间是必要的。

translated by 谷歌翻译

The ODE Method for Asymptotic Statistics in Stochastic Approximation and Reinforcement Learning

Vivek Borkar , Shuhang Chen , Adithya Devraj , Ioannis Kontoyiannis , Sean Meyn

分类：机器学习

2021-10-27

本文涉及由马尔可夫噪声驱动的随机近似的收敛和渐近统计：$$ \ theta_ {n + 1} = \ theta_n + \ alpha_ {n + 1} f（\ theta_n，\ phi_ {n + 1}）\，，\ quad n \ ge 0，$$，其中每个$ \ theta_n \ in \ re ^ d $，$ \ {\ phi_n \} $是一般状态空间x上的马尔可夫链，静止分配$ \ pi $和$ f：\ re ^ d \ times \ text {x} \ to \ re ^ d $。除了在$ f $的标准lipschitz边界，以及消失的步骤大小序列$ \ {\ alpha_n \ \} $的条件外，假设相关ode是全局渐近稳定的静止点表示$ \ theta ^ * $ ，其中$ \ bar f（\ theta）= e [f（\ theta，\ phi）] $ with $ \ phi \ sim \ pi $。而且，ode @ $ \ infty $ virect with advoore字段，$$ \ bar f_ \ idty（\ theta）：= \ lim_ {r \ to \ infty} r ^ { - 1} \ bar f（r \ theta）\ ,, \ qquad \ theta \ in \ re ^ d，$$是渐近稳定的。主要贡献总结如下：（i）如果$ \ phi $是几何ergodic，则序列$ \ theta $是融合的，并且在$ f $兼容兼容的界限。剩余的结果是在马尔可夫链的更强大假设下建立：Donsker-varadhan Lyapunov漂移条件的稍微弱版本（DV3）。（ii）为联合过程$ \ {\ theta_n，\ phi_n \} $构建Lyapunov函数，这意味着$ \ {\ theta_n \} $ in $ l_4 $的融合。（iii）建立了功能性CLT，以及归一化误差$ z_n：=（\ theta_n- \ theta ^ *）/ \ sqrt {\ alpha_n} $的常规一维CLT。时刻界限结合了CLT暗示了归一化协方差的收敛，$$ \ lim_ {n \ to \ infty} e [z_n z_n ^ t] = \ sigma_ \ theta，$$在$ \ sigma_ \ theta $ where asbptotic协方差出现在CLT中。（iv）提供了一个例子，其中马尔可夫链$ \ phi $是几何ergodic，但它不满足（dv3）。虽然算法收敛，但第二个时刻是无限的。

translated by 谷歌翻译

Robust Generalised Bayesian Inference for Intractable Likelihoods

Takuo Matsubara , Jeremias Knoblauch , François-Xavier Briol , Chris. J. Oates

分类： (统计)机器学习

2021-04-15

广义贝叶斯推理使用损失函数而不是可能性的先前信仰更新，因此可以用于赋予鲁棒性，以防止可能的错误规范的可能性。在这里，我们认为广泛化的贝叶斯推论斯坦坦差异作为损失函数的损失，由应用程序的可能性含有难治性归一化常数。在这种情况下，斯坦因差异来避免归一化恒定的评估，并产生封闭形式或使用标准马尔可夫链蒙特卡罗的通用后出版物。在理论层面上，我们显示了一致性，渐近的正常性和偏见 - 稳健性，突出了这些物业如何受到斯坦因差异的选择。然后，我们提供关于一系列棘手分布的数值实验，包括基于内核的指数家庭模型和非高斯图形模型的应用。

translated by 谷歌翻译

Adjusted chi-square test for degree-corrected block models

Linfan Zhang , Arash A. Amini

分类： (统计)机器学习

2020-12-30

我们提出了对学度校正随机块模型（DCSBM）的合适性测试。该测试基于调整后的卡方统计量，用于测量$ n $多项式分布的组之间的平等性，该分布具有$ d_1，\ dots，d_n $观测值。在网络模型的背景下，多项式的数量（$ n $）的数量比观测值数量（$ d_i $）快得多，与节点$ i $的度相对应，因此设置偏离了经典的渐近学。我们表明，只要$ \ {d_i \} $的谐波平均值生长到无穷大，就可以使统计量在NULL下分配。顺序应用时，该测试也可以用于确定社区数量。该测试在邻接矩阵的压缩版本上进行操作，因此在学位上有条件，因此对大型稀疏网络具有高度可扩展性。我们结合了一个新颖的想法，即在测试$ K $社区时根据$（k+1）$ - 社区分配来压缩行。这种方法在不牺牲计算效率的情况下增加了顺序应用中的力量，我们证明了它在恢复社区数量方面的一致性。由于测试统计量不依赖于特定的替代方案，因此其效用超出了顺序测试，可用于同时测试DCSBM家族以外的各种替代方案。特别是，我们证明该测试与具有社区结构的潜在可变性网络模型的一般家庭一致。

translated by 谷歌翻译

Generalised Bayesian Inference for Discrete Intractable Likelihood

Takuo Matsubara , Jeremias Knoblauch , François-Xavier Briol , Chris. J. Oates

分类： (统计)机器学习

2022-06-16

离散状态空间代表了对统计推断的主要计算挑战，因为归一化常数的计算需要在大型或可能的无限集中进行求和，这可能是不切实际的。本文通过开发适合离散可怜的可能性的新型贝叶斯推理程序来解决这一计算挑战。受到连续数据的最新方法学进步的启发，主要思想是使用离散的Fisher Divergence更新有关模型参数的信念，以代替有问题的棘手的可能性。结果是可以使用标准计算工具（例如Markov Chain Monte Carlo）进行采样的广义后部，从而规避了棘手的归一化常数。分析了广义后验的统计特性，并具有足够的后验一致性和渐近正态性的条件。此外，提出了一种新颖的通用后代校准方法。应用程序在离散空间数据的晶格模型和计数数据的多元模型上介绍，在每种情况下，方法论都以低计算成本促进通用的贝叶斯推断。

translated by 谷歌翻译

State-space deep Gaussian processes with applications

Zheng Zhao

分类： (统计)机器学习

2021-11-24

本论文主要涉及解决深层（时间）高斯过程（DGP）回归问题的状态空间方法。更具体地，我们代表DGP作为分层组合的随机微分方程（SDES），并且我们通过使用状态空间过滤和平滑方法来解决DGP回归问题。由此产生的状态空间DGP（SS-DGP）模型生成丰富的电视等级，与建模许多不规则信号/功能兼容。此外，由于他们的马尔可道结构，通过使用贝叶斯滤波和平滑方法可以有效地解决SS-DGPS回归问题。本论文的第二次贡献是我们通过使用泰勒力矩膨胀（TME）方法来解决连续离散高斯滤波和平滑问题。这诱导了一类滤波器和SmooThers，其可以渐近地精确地预测随机微分方程（SDES）解决方案的平均值和协方差。此外，TME方法和TME过滤器和SmoOthers兼容模拟SS-DGP并解决其回归问题。最后，本文具有多种状态 - 空间（深）GPS的应用。这些应用主要包括（i）来自部分观察到的轨迹的SDES的未知漂移功能和信号的光谱 - 时间特征估计。

translated by 谷歌翻译

Mean field Variational Inference via Wasserstein Gradient Flow

Rentian Yao , Yun Yang

分类： (统计)机器学习

2022-07-17

变性推理（VI）为基于传统的采样方法提供了一种吸引人的替代方法，用于实施贝叶斯推断，因为其概念性的简单性，统计准确性和计算可扩展性。然而，常见的变分近似方案（例如平均场（MF）近似）需要某些共轭结构以促进有效的计算，这可能会增加不必要的限制对可行的先验分布家族，并对变异近似族对差异进行进一步的限制。在这项工作中，我们开发了一个通用计算框架，用于实施MF-VI VIA WASSERSTEIN梯度流（WGF），这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时，我们将分析基于时间消化的WGF交替最小化方案的算法收敛，用于实现MF近似。特别是，所提出的算法类似于EM算法的分布版本，包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性，以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型，即高斯混合模型和回归模型的混合物。还进行了数值实验，以补充这两个模型下的理论发现。

translated by 谷歌翻译

Dimension-agnostic inference using cross U-statistics

Ilmun Kim , Aaditya Ramdas

分类： (统计)机器学习

2020-11-10

Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.

translated by 谷歌翻译

Statistical and Computational Phase Transitions in Group Testing

Amin Coja-Oghlan , Oliver Gebhard , Max Hahn-Klimroth , Alexander S. Wein , Ilias Zadik

分类： (统计)机器学习 | 机器学习

2022-06-15

我们研究了小组测试问题，其目标是根据合并测试的结果，确定一组k感染的人，这些k含有稀有疾病，这些人在经过测试中至少有一个受感染的个体时返回阳性的结果。团体。我们考虑将个人分配给测试的两个不同的简单随机过程：恒定柱设计和伯努利设计。我们的第一组结果涉及基本统计限制。对于恒定柱设计，我们给出了一个新的信息理论下限，这意味着正确识别的感染者的比例在测试数量越过特定阈值时会经历急剧的“全或全或无所不包”的相变。对于Bernoulli设计，我们确定解决相关检测问题所需的确切测试数量（目的是区分小组测试实例和纯噪声），改善Truong，Aldridge和Scarlett的上限和下限（2020）。对于两个小组测试模型，我们还研究了计算有效（多项式时间）推理程序的能力。我们确定了解决检测问题的低度多项式算法所需的精确测试数量。这为在少量稀疏度的检测和恢复问题中都存在固有的计算统计差距提供了证据。值得注意的是，我们的证据与Iliopoulos和Zadik（2021）相反，后者预测了Bernoulli设计中没有计算统计差距。

translated by 谷歌翻译

Maximum Likelihood from Incomplete Data Via the EM Algorithm

分类：

JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact

translated by 谷歌翻译

Faster MCMC for Gaussian Latent Position Network Models

Neil A. Spencer , Brian Junker , Tracy M. Sweet

分类： (统计)机器学习

2020-06-13

潜在位置网络模型是网络科学的多功能工具;应用程序包括集群实体，控制因果混淆，并在未观察的图形上定义前提。估计每个节点的潜在位置通常是贝叶斯推理问题的群体，吉布斯内的大都市是最流行的近似后分布的工具。然而，众所周知，GIBBS内的大都市对于大型网络而言是低效;接受比计算成本昂贵，并且所得到的后绘高度相关。在本文中，我们提出了一个替代的马尔可夫链蒙特卡罗战略 - 使用分裂哈密顿蒙特卡罗和萤火虫蒙特卡罗的组合定义 - 利用后部分布的功能形式进行更有效的后退计算。我们展示了这些战略在吉布斯和综合网络上的其他算法中优于大都市，以及学区的教师和工作人员的真正信息共享网络。

translated by 谷歌翻译

Optimal Estimation of Generic Dynamics by Path-Dependent Neural Jump ODEs

Florian Krach , Marc Nübel , Josef Teichmann

分类： (统计)机器学习 | 机器学习

2022-06-28

本文研究了使用神经跳跃（NJ-ODE）框架扩展的一般随机过程的问题。虽然NJ-ODE是为预测不规则观察到的时间序列而建立收敛保证的第一个框架，但这些结果仅限于从中\^o-diffusions的数据，特别是Markov过程，特别是在其中同时观察到所有坐标。。在这项工作中，我们通过利用签名变换的重建属性，将这些结果推广到具有不完整观察结果的通用，可能是非马克维亚或不连续的随机过程。这些理论结果得到了经验研究的支持，在该研究中，在非马克维亚数据的情况下，依赖路径依赖性的NJ-ode优于原始的NJ-ode框架。

translated by 谷歌翻译

Community recovery in non-binary and temporal stochastic block models

Konstantin Avrachenkov , Maximilien Dreveton , Lasse Leskelä

分类：机器学习

2020-08-11

本文研究了由$ N $-$ N $ TCONOR代表的非二进制对交互估计的社区成员资格，其值为$ \ MATHCAL S $的元素，其中$ N $是节点的数量和$ \ Mathcal S $是节点之间的成对交互的空间。作为信息理论基准，我们研究由非二进制随机块模型生成的数据集，并导致社区成员资格的基本信息标准作为$ n \ to \ idty $。应用程序的示例包括加权网络（$ \ mathcal s = \ mathbb r $），链接标记的网络$（\ mathcal s = \ {0,1，1，\ dots，l \} $），多路复用网络$（\ mathcal s = \ {0,1 \} ^ m $）和时间网络（$ \ mathcal s = \ {0,1 \} ^ t $）。对于时间互动，我们表明（i）即使是$ t $的少数增加也可能对社区成员的恢复产生了很大影响，（ii）即使对于非常稀疏的数据（例如\ in in inverly degress），甚至可能存在一致的恢复$ t $足够大。我们还提供了几种离线和在线的估计算法，它充分利用了观察到的数据的时间性。我们在数据稀疏性和可识别性的各种假设下分析所提出的估计算法的准确性。数值实验表明，即使是社区分配的初始估计（例如，盲目随机猜测）也会导致在少量迭代之后通过在线算法获得的高精度，并且在非常稀疏的方案中也是如此。

translated by 谷歌翻译

Optimal and instance-dependent guarantees for Markovian linear stochastic approximation

Wenlong Mou , Ashwin Pananjady , Martin J. Wainwright , Peter L. Bartlett

分类：机器学习 | (统计)机器学习

2021-12-23

我们研究了随机近似程序，以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后，我们证明了一种在适当平均迭代序列上的非渐近实例依赖性，具有匹配局部渐近最小的限制的领先术语，包括对参数$的敏锐依赖（d，t _ {\ mathrm {mix}}） $以高阶术语。我们将这些上限与非渐近Minimax的下限补充，该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD（$ \ lambda $）算法，以便[0,1）$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门（例如，在运行TD（$ \ Lambda $）算法时选择$ \ lambda $的值）。

translated by 谷歌翻译

Estimating means of bounded random variables by betting

Ian Waudby-Smith , Aaditya Ramdas

分类： (统计)机器学习

2020-10-19

本文衍生了置信区间（CI）和时间统一的置信序列（CS），用于从有限观测值中估算未知平均值的经典问题。我们提出了一种衍生浓度界限的一般方法，可以看作是著名的切尔诺夫方法的概括（和改进）。它的核心是基于推导一类新的复合非负胸腔，通过投注和混合方法与测试的连接很强。我们展示了如何将这些想法扩展到无需更换的情况下，这是另一个经过深入研究的问题。在所有情况下，我们的界限都适应未知的差异，并且基于Hoeffding或经验的Bernstein不平等及其最近的Supermartingale概括，经验上大大优于现有方法。简而言之，我们为四个基本问题建立了一个新的最先进的问题：在有或没有替换的情况下进行采样时，CS和CI进行有限的手段。

translated by 谷歌翻译