从数据中学习马尔可夫网络的无向图结构是在过去几十年中受到广泛关注的问题。由于模型类的普遍适用性,在几个研究领域中已经开发了无数种方法。最近,随着所考虑系统的大小增加,新方法的重点已经转向高维领域。特别地,伪似然函数的引入基于可能性原始地推动了基于分数的方法的限制。同时,已经开发了一系列基于简单成对测试的方法,以满足计算生物学中越来越大的数据集所设置的挑战。除了适用于高维问题之外,基于伪似然和成对测试的方法基本上是非常不同的。在这项工作中,我们进行了广泛的数值研究,比较了二元成对马尔可夫网络数据化的不同类型的方法。对于大型网络的采样,我们使用基于稀疏受限Boltzmannmachines的可并行化的Gibbs采样器。我们的结果表明,在高维结构学习中经常遇到的设置中,成对方法可能比假设可能性方法更准确。
translated by 谷歌翻译
无可能性推理引擎(ELFI)是一个Python软件库,用于执行无可用推理(LFI)。 ELFI提供了一种方便的语法,用于将LFI中的组件(例如先验,模拟器,摘要或距离)安排到称为ELFI图的网络中。这些组件可以用各种语言实现。独立的ELFI图可以与任何可用的推理方法一起使用而无需修改。在ELFI中实现的中心方法是无可能性推理的贝叶斯优化(BOLFI),最近已经证明通过代理建模距离可以将无可能性推断加速到几个数量级。 ELFI还具有内置的输出数据存储支持,可用于重用和分析,并支持从多个核到群集环境的计算并行化。 ELFI旨在实现可扩展性,并提供扩展其功能的接口。这使得向ELFI添加新的推理方法变得简单并且自动与内置功能兼容。
translated by 谷歌翻译
We consider the problem of parametric statistical inference when likelihood computations are prohibitively expensive but sampling from the model is possible. Several so-called likelihood-free methods have been developed to perform inference in the absence of a likelihood function. The popular synthetic likelihood approach infers the parameters by modelling summary statistics of the data by a Gaussian probability distribution. In another popular approach called approximate Bayesian computation, the inference is performed by identifying parameter values for which the summary statistics of the simulated data are close to those of the observed data. Synthetic likelihood is easier to use as no measure of "close-ness" is required but the Gaussianity assumption is often limiting. Moreover, both approaches require judiciously chosen summary statistics. We here present an alternative inference approach that is as easy to use as synthetic likelihood but not as restricted in its assumptions, and that, in a natural way, enables automatic selection of relevant summary statistic from a large set of candidates. The basic idea is to frame the problem of estimating the posterior as a problem of estimating the ratio between the data generating distribution and the marginal distribution. This problem can be solved by logistic regression, and including regularising penalty terms enables automatic selection of the summary statistics relevant to the inference task. We illustrate the general theory on canonical examples and employ it to perform inference for challenging stochastic nonlinear dynamical systems and high-dimensional summary statistics.
translated by 谷歌翻译
随机邻居嵌入(SNE)方法最小化了高维数据集的相似性矩阵与来自低维嵌入的对应矩阵之间的差异,从而导致广泛应用的数据可视化工具。尽管它们很受欢迎,但当数据包含高度不平衡的相似性时,当前的SNE方法会遇到问题。这表明具有较高总相似度的数据点往往会挤满显示中心。为了解决这个问题,我们引入了一种快速归一化方法,并将相似性矩阵归一化为双随机,使得所有数据点具有相等的总相似度。此外,我们从经验和理论上证明了双随机性约束经常导致近似球形的嵌入。这表明用球体替换平坦空间作为嵌入空间。球形嵌入消除了可视化中的中心与外围之间的差异,这有效地解决了拥挤问题。我们将所提出的方法(DOSNES)与最先进的SNE方法在三个真实数据集上进行了比较,结果清楚地表明我们的方法在可视化质量方面更有利。
translated by 谷歌翻译
我们的目的是评估基于射线照相的骨骼纹理参数在股骨近端和髋臼中的能力,以预测10年内的射线片状关节炎(rHOA)。使用股骨近端和髋臼的分形特征分析,对CHECK(Cohort Hip和Cohort Knee)在基线(987髋)处的骨盆X线片进行骨骼纹理分析。弹性网(机器学习)用于预测rHOA的发生率(Kellgren-Lawrence等级) (KL)> 1或全髋关节置换术(THR)),10年后关节空间缩小评分(JSN,范围0-3)和骨赘评分(OST,范围0-3)。使用接收器操作特征曲线(ROC AUC)下的区域评估预测模型的性能。在基线时987髋髋关节中,435例(44%)在10年随访时有rHOA。在基线时有67名髋关节的JNN 0级髋关节中,471名(71%)在10年随访时的JSN评分> 0。在基线时OST等级为0的613髋,526(86%)在10年随访时的OST等级> 0。用于预测事件rHOA,JSN和OST的模型的AUC(包括年龄,性别和体重指数)分别为0.59,0.54和0.51。在模型中包括骨骼纹理参数改善了事件rHOA的预测(当基线KL也包括在模型中时ROC AUC 0.66和0.71)和JSN(ROC AUC 0.62),但不是事件OST(ROCAUC 0.53)。骨骼纹理分析为预测10年内的入射rHOA或THR提供了额外的信息。
translated by 谷歌翻译
Reconstructing the position of an interaction for any dual-phase timeprojection chamber (TPC) with the best precision is key to directly detectingDark Matter. Using the likelihood-free framework, a new algorithm toreconstruct the 2-D (x; y) position and the size of the charge signal (e) of aninteraction is presented. The algorithm uses the charge signal (S2) lightdistribution obtained by simulating events using a waveform generator. To dealwith the computational effort required by the likelihood-free approach, weemploy the Bayesian Optimization for Likelihood-Free Inference (BOLFI)algorithm. Together with BOLFI, prior distributions for the parameters ofinterest (x; y; e) and highly informative discrepancy measures to perform theanalyses are introduced. We evaluate the quality of the proposed algorithm by acomparison against the currently existing alternative methods using alarge-scale simulation study. BOLFI provides a natural probabilisticuncertainty measure for the reconstruction and it improved the accuracy of thereconstruction over the next best algorithm by up to 15% when focusing onevents over a large radii (R > 30 cmcm, the outer 37% of the detector). Inaddition, BOLFI provides the smallest uncertainties among all the testedmethods.
translated by 谷歌翻译
本文通过利用用户独特的应用程序数据,即用马尔可夫过程建模的不同使用模式,提出了主动/连续认证forsmartphone的实证研究。隐藏马尔可夫模型(HMM)的变化被评估用于连续用户验证,以及由于会话数据的稀疏性,状态的爆炸以及处理测试数据中不可预见的事件而导致的挑战被解决。与传统方法不同,提议的公式不依赖于顶级N-apps,而是使用完整的应用程序使用信息来实现低延迟。通过实验,通过用于简单序列匹配的修改的编辑 - 距离算法来完成对用户验证的不可预见事件(即,未知应用和未预见到的观察)的影响的经验评估。发现对于增强的验证性能,应通过采用HMM的平滑技术将不可预见的事件结合到模型中。为了验证,对两个不同的数据集进行了广泛的实验。边际平滑技术在等误差率(EER)和采样率为1 / 30s ^ { - 1}和30分钟历史数据方面对用户验证最有效,并且该方法能够检测到~2.5内的入侵申请使用时间。
translated by 谷歌翻译
我们介绍了一种新的范式,用于学习随机微分方程(SDE)的非参数漂移和扩散函数。所提出的模型学习模拟与非均匀时间增量和任意稀疏度的观测匹配的路径分布,这与不优化模拟响应的梯度匹配形成对比。我们为学习制定了敏感性方程,并证明我们的一般随机分布优化可以带来强大而有效的SDE系统学习。
translated by 谷歌翻译
本文提出了一种用于物体检测数据集的快速边界框注释的方法。该过程包括两个阶段:第一步是手动注释数据集的一部分,第二步使用第一阶段注释训练的模型为剩余样本提出注释。我们通过实验研究哪个第一/第二阶段最小化为总工作量。此外,我们还介绍了从室内场景中收集的新的完全标记对象检测数据集。与其他indoordatasets相比,我们的系列有更多的课程类别,不同的背景,光照条件,遮挡和高级内部差异。我们使用许多最先进的模型训练基于deeplearning的物体探测器,并在速度和准确性方面进行比较。完全注释的数据集可以免费发布给研究社区。
translated by 谷歌翻译
本文提出了一种对称约简技术,该技术在约束系统中自适应地赋予变量前缀,使得生成的前缀赋值在系统对称群的作用下成对非同构。该技术基于McKay的规范扩展框架[J.~Algorithm 26(1998),no.2~306--324]。该技术的主要特征之一是(i)适应性 - 前缀序列可以由用户规定和截断,以与对称组兼容; (ii)可并行性---前缀分配可以相互并行处理; (iii)通用性 - 只要对称组可以简洁地表示为顶点色图的自同一组,该方法就适用; (iv)可实现性---可以依靠规范的标记映射来实现方法,以便将非彩色图形作为唯一的非平凡子例程。为了证明我们技术的实用性,我们准备了该技术的实验开源实现,并进行了一组实验,证明了降低硬实例对称性的能力。此外,我们通过消息传递接口证明实现有效地并行化到具有多个节点的计算集群。
translated by 谷歌翻译