Shape modelling (with methods that output shapes) is a new and important task in Bayesian nonparametrics and bioinformatics. In this work, we focus on Bayesian nonparametric methods for capturing shapes by partitioning a space using curves. In related work, the classical Mondrian process is used to partition spaces recursively with axis-aligned cuts, and is widely applied in multi-dimensional and relational data. The Mondrian process outputs hyper-rectangles. Recently, the random tessellation process was introduced as a generalization of the Mondrian process, partitioning a domain with non-axis aligned cuts in an arbitrary dimensional space, and outputting polytopes. Motivated by these processes, in this work, we propose a novel parallelized Bayesian nonparametric approach to partition a domain with curves, enabling complex data-shapes to be acquired. We apply our method to HIV-1-infected human macrophage image dataset, and also simulated datasets sets to illustrate our approach. We compare to support vector machines, random forests and state-of-the-art computer vision methods such as simple linear iterative clustering super pixel image segmentation. We develop an R package that is available at \url{https://github.com/ShufeiGe/Shape-Modeling-with-Spline-Partitions}.
translated by 谷歌翻译
封闭曲线的建模和不确定性量化是形状分析领域的重要问题,并且可以对随后的统计任务产生重大影响。这些任务中的许多涉及封闭曲线的集合,这些曲线通常在多个层面上表现出结构相似性。以有效融合这种曲线间依赖性的方式对多个封闭曲线进行建模仍然是一个具有挑战性的问题。在这项工作中,我们提出并研究了一个多数输出(又称多输出),多维高斯流程建模框架。我们说明了提出的方法学进步,并在几个曲线和形状相关的任务上证明了有意义的不确定性量化的实用性。这种基于模型的方法不仅解决了用内核构造对封闭曲线(及其形状)的推断问题,而且还为通常对功能对象的多层依赖性的非参数建模打开了门。
translated by 谷歌翻译
决策森林(森林),尤其是随机森林和梯度促进树木,与许多监督学习场景中的其他方法相比,已经证明了最先进的准确性。尤其是,森林在表格数据中占主导地位,即当特征空间非结构化时,因此信号是特征指数置换的不变性。然而,在存在于多种多样(例如图像,文本和语音)深网(网络)(特别是卷积深网(Convnets))上的结构化数据中,倾向于优于森林。我们猜想至少部分原因是网络的输入不仅仅是特征幅度,也是其索引。相反,天真的森林实施未能明确考虑特征指数。最近提出的森林方法表明,对于每个节点,森林从某些特定分布中隐式采样一个随机矩阵。这些森林像某些类别的网络一样,通过将特征空间划分为对应于线性函数的凸多物体来学习。我们以这种方法为基础,并表明人们可以以多种感知方式选择分布来纳入特征区域。我们在数据上活在三个不同的流形上的数据上证明了经验性能:圆环,图像和时间序列。此外,我们证明了其在多元模拟环境中的强度,并且在预测癫痫患者的手术结果方面也表现出了优越性,并从非运动脑区域的原始立体定向EEG数据中预测运动方向。在所有模拟和真实数据中,歧管随机森林(MORF)算法的表现优于忽略特征空间结构并挑战Convnets的性能。此外,MORF运行迅速,并保持解释性和理论上的理由。
translated by 谷歌翻译
无监督的离散化是许多知识发现任务中的关键步骤。使用最小描述长度(MDL)原理局部自适应直方图的一维数据的最先进方法,但研究多维情况的研究要少得多:当前方法一次考虑一个尺寸(如果不是独立的),这导致基于自适应大小的矩形细胞的离散化。不幸的是,这种方法无法充分表征维度之间的依赖性和/或结果,包括由更多的单元(或垃圾箱)组成的离散化。为了解决这个问题,我们提出了一个表达模型类,该类别允许对二维数据进行更灵活的分区。我们扩展了一维情况的艺术状态,以基于归一化最大似然的形式获得模型选择问题。由于我们的模型类的灵活性是以巨大的搜索空间为代价的,因此我们引入了一种名为Palm的启发式算法,该算法将每个维度交替划分,然后使用MDL原理合并相邻区域。合成数据的实验表明,棕榈1)准确地揭示了模型类(即搜索空间)内的地面真相分区,给定的样本量足够大; 2)近似模型类外的各种分区; 3)收敛,与最先进的多元离散方法IPD相比。最后,我们将算法应用于三个空间数据集,我们证明,与内核密度估计(KDE)相比,我们的算法不仅揭示了更详细的密度变化,而且还可以更好地拟合看不见的数据,如日志流利性。
translated by 谷歌翻译
高斯流程是许多灵活的统计和机器学习模型的关键组成部分。但是,由于需要倒转和存储完整的协方差矩阵,它们表现出立方计算的复杂性和高内存约束。为了解决这个问题,已经考虑了高斯流程专家的混合物,其中数据点被分配给独立专家,从而通过允许基于较小的局部协方差矩阵来降低复杂性。此外,高斯流程专家的混合物大大富含模型的灵活性,从而允许诸如非平稳性,异方差和不连续性等行为。在这项工作中,我们基于嵌套的蒙特卡洛采样器构建了一种新颖的推理方法,以同时推断门控网络和高斯工艺专家参数。与重要性采样相比,这大大改善了推断,尤其是在固定高斯流程不合适的情况下,同时仍然完全平行。
translated by 谷歌翻译
群集分析需要许多决定:聚类方法和隐含的参考模型,群集数,通常,几个超参数和算法调整。在实践中,一个分区产生多个分区,基于验证或选择标准选择最终的分区。存在丰富的验证方法,即隐式或明确地假设某个聚类概念。此外,它们通常仅限于从特定方法获得的分区上操作。在本文中,我们专注于可以通过二次或线性边界分开的群体。参考集群概念通过二次判别符号函数和描述集群大小,中心和分散的参数定义。我们开发了两个名为二次分数的群集质量标准。我们表明这些标准与从一般类椭圆对称分布产生的组一致。对这种类型的组追求在应用程序中是常见的。研究了与混合模型和模型的聚类的似然理论的连接。基于Bootstrap重新采样的二次分数,我们提出了一个选择规则,允许在许多聚类解决方案中选择。所提出的方法具有独特的优点,即它可以比较不能与其他最先进的方法进行比较的分区。广泛的数值实验和实际数据的分析表明,即使某些竞争方法在某些设置中出现优越,所提出的方法也实现了更好的整体性能。
translated by 谷歌翻译
在翻译,旋转和形状下定义形状和形式作为等同类 - 也是规模的,我们将广义添加剂回归扩展到平面曲线和/或地标配置的形状/形式的模型。该模型尊重响应的所得到的商几何形状,采用平方的测量距离作为损耗函数和测地响应函数来将添加剂预测器映射到形状/形状空间。为了拟合模型,我们提出了一种riemannian $ l_2 $ -boosting算法,适用于可能大量可能的参数密集型模型术语,其还产生了自动模型选择。我们通过合适的张量 - 产品分解为形状/形状空间中的(甚至非线性)协变量提供新的直观可解释的可视化。所提出的框架的有用性在于1)的野生和驯养绵羊和2)细胞形式的分析中,在生物物理模型中产生的细胞形式,以及3)在具有反应形状和形式的现实模拟研究中,具有来自a的响应形状和形式在瓶轮廓上的数据集。
translated by 谷歌翻译
回归模型用于各种应用,为来自不同领域的研究人员提供强大的科学工具。线性或简单的参数,模型通常不足以描述输入变量与响应之间的复杂关系。通过诸如神经网络的灵活方法可以更好地描述这种关系,但这导致不太可解释的模型和潜在的过度装备。或者,可以使用特定的参数非线性函数,但是这种功能的规范通常是复杂的。在本文中,我们介绍了一种灵活的施工方法,高度灵活的非线性参数回归模型。非线性特征是分层的,类似于深度学习,但对要考虑的可能类型的功能具有额外的灵活性。这种灵活性,与变量选择相结合,使我们能够找到一小部分重要特征,从而可以更具可解释的模型。在可能的功能的空间内,考虑了贝叶斯方法,基于它们的复杂性引入功能的前沿。采用遗传修改模式跳跃马尔可夫链蒙特卡罗算法来执行贝叶斯推理和估计模型平均的后验概率。在各种应用中,我们说明了我们的方法如何用于获得有意义的非线性模型。此外,我们将其预测性能与多个机器学习算法进行比较。
translated by 谷歌翻译
神经网络最近显示出对无似然推理的希望,从而为经典方法提供了魔力的速度。但是,当从独立重复估计参数时,当前的实现是次优的。在本文中,我们使用决策理论框架来争辩说,如果这些模型的模拟很简单,则理想地放置了置换不变的神经网络,可用于为任意模型构造贝叶斯估计器。我们说明了这些估计量在传统空间模型以及高度参数化的空间发射模型上的潜力,并表明它们在其网络设计中不适当地说明复制的神经估计量相当大。同时,它们比基于传统可能性的估计量具有很高的竞争力和更快的速度。我们将估计量应用于红海中海面温度的空间分析,在训练之后,我们获得参数估计值,并通过引导采样对估计值进行不确定性定量,从一秒钟的数百个空间场中获取。
translated by 谷歌翻译
本文为工程产品的计算模型或仅返回分类信息的过程提供了一种新的高效和健壮方法,用于罕见事件概率估计,例如成功或失败。对于此类模型,大多数用于估计故障概率的方法,这些方法使用结果的数值来计算梯度或估计与故障表面的接近度。即使性能函数不仅提供了二进制输出,系统的状态也可能是连续输入变量域中定义的不平滑函数,甚至是不连续的函数。在这些情况下,基于经典的梯度方法通常会失败。我们提出了一种简单而有效的算法,该算法可以从随机变量的输入域进行顺序自适应选择点,以扩展和完善简单的基于距离的替代模型。可以在连续采样的任何阶段完成两个不同的任务:(i)估计失败概率,以及(ii)如果需要进一步改进,则选择最佳的候选者进行后续模型评估。选择用于模型评估的下一个点的建议标准最大化了使用候选者分类的预期概率。因此,全球探索与本地剥削之间的完美平衡是自动维持的。该方法可以估计多种故障类型的概率。此外,当可以使用模型评估的数值来构建平滑的替代物时,该算法可以容纳此信息以提高估计概率的准确性。最后,我们定义了一种新的简单但一般的几何测量,这些测量是对稀有事实概率对单个变量的全局敏感性的定义,该度量是作为所提出算法的副产品获得的。
translated by 谷歌翻译
提出了一种新的算法来加速RANSAC模型质量计算。该方法基于将联合对应空间(例如,2D-2D点对应)分区为一对常规网格。网格电池被最小的样本模型映射,估计在Ransac内,以拒绝早期与模型参数不一致的对应关系。所提出的技术是一般的。即使将点映射到点集,例如,它也适用于任意变换,例如,作为对末极线的基本矩阵映射。该方法在来自公共可用数据集的数千个图像对上测试了来自基本和基本矩阵,同字和径向扭曲的相同估计。平均而言,它将RANSAC运行时间降低了41%,无需准确性劣化。它可以直接插入最先进的Ransac框架中,例如,vsac。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
在本文中,我们考虑使用Palentir在两个和三个维度中对分段常数对象的恢复和重建,这是相对于当前最新ART的显着增强的参数级别集(PALS)模型。本文的主要贡献是一种新的PALS公式,它仅需要一个单个级别的函数来恢复具有具有多个未知对比度的分段常数对象的场景。我们的模型比当前的多对抗性,多对象问题提供了明显的优势,所有这些问题都需要多个级别集并明确估计对比度大小。给定对比度上的上限和下限,我们的方法能够以任何对比度分布恢复对象,并消除需要知道给定场景中的对比度或其值的需求。我们提供了一个迭代过程,以找到这些空间变化的对比度限制。相对于使用径向基函数(RBF)的大多数PAL方法,我们的模型利用了非异型基函数,从而扩展了给定复杂性的PAL模型可以近似的形状类别。最后,Palentir改善了作为参数识别过程一部分所需的Jacobian矩阵的条件,因此通过控制PALS扩展系数的幅度来加速优化方法,固定基本函数的中心,以及参数映射到图像映射的唯一性,由新参数化提供。我们使用X射线计算机断层扫描,弥漫性光学断层扫描(DOT),Denoising,DeonConvolution问题的2D和3D变体证明了新方法的性能。应用于实验性稀疏CT数据和具有不同类型噪声的模拟数据,以进一步验证所提出的方法。
translated by 谷歌翻译
这是模型选择和假设检测的边缘似然计算的最新介绍和概述。计算概率模型(或常量比率)的常规规定常数是许多统计数据,应用数学,信号处理和机器学习中的许多应用中的基本问题。本文提供了对主题的全面研究。我们突出了不同技术之间的局限性,优势,连接和差异。还描述了使用不正确的前沿的问题和可能的解决方案。通过理论比较和数值实验比较一些最相关的方法。
translated by 谷歌翻译
We present the GPry algorithm for fast Bayesian inference of general (non-Gaussian) posteriors with a moderate number of parameters. GPry does not need any pre-training, special hardware such as GPUs, and is intended as a drop-in replacement for traditional Monte Carlo methods for Bayesian inference. Our algorithm is based on generating a Gaussian Process surrogate model of the log-posterior, aided by a Support Vector Machine classifier that excludes extreme or non-finite values. An active learning scheme allows us to reduce the number of required posterior evaluations by two orders of magnitude compared to traditional Monte Carlo inference. Our algorithm allows for parallel evaluations of the posterior at optimal locations, further reducing wall-clock times. We significantly improve performance using properties of the posterior in our active learning scheme and for the definition of the GP prior. In particular we account for the expected dynamical range of the posterior in different dimensionalities. We test our model against a number of synthetic and cosmological examples. GPry outperforms traditional Monte Carlo methods when the evaluation time of the likelihood (or the calculation of theoretical observables) is of the order of seconds; for evaluation times of over a minute it can perform inference in days that would take months using traditional methods. GPry is distributed as an open source Python package (pip install gpry) and can also be found at https://github.com/jonaselgammal/GPry.
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
我们为级别集方法提出了一个数据驱动的均值曲线求解器。这项工作是我们在[arxiv:2201.12342] [1]和[doi:10.1016/j.jcp.2022.1111291] [arxiv:2201.12342] [1]中的二维策略的$ \ mathbb {r}^3 $的自然扩展。 ]。但是,与[1,2]建立了依赖分辨率的神经网络词典相比,在这里,我们在$ \ mathbb {r}^3 $中开发了两对模型,而不管网格大小如何。我们的前馈网络摄入的水平集,梯度和曲率数据转换为固定接口节点的数值均值曲率近似值。为了降低问题的复杂性,我们使用高斯曲率对模板进行了分类,并将模型分别适合于非堆肥和鞍模式。非插图模板更容易处理,因为它们表现出以单调性和对称性为特征的曲率误差分布。尽管后者允许我们仅在平均曲面频谱的一半上进行训练,但前者帮助我们将数据驱动的融合并在平坦区域附近无缝地融合了基线估计。另一方面,鞍形图案误差结构不太清楚。因此,我们没有利用超出已知信息的潜在信息。在这方面,我们不仅在球形和正弦和双曲线抛物面斑块上训练了我们的模型。我们构建他们的数据集的方法是系统的,但是随机收集样品,同时确保均衡度。我们还诉诸于标准化和降低尺寸,作为预处理步骤和集成正则化以最大程度地减少异常值。此外,我们利用曲率旋转/反射不变性在推理时提高精度。几项实验证实,与现代粒子的界面重建和水平设定方案相比,我们提出的系统可以产生更准确的均值曲线估计。
translated by 谷歌翻译
利用启发式来评估收敛性和压缩马尔可夫链蒙特卡罗的输出可以在生产的经验逼近时是次优。通常,许多初始状态归因于“燃烧”并移除,而链条的其余部分是“变薄”,如果还需要压缩。在本文中,我们考虑回顾性地从样本路径中选择固定基数的状态的问题,使得由其经验分布提供的近似接近最佳。提出了一种基于核心稳定性差异的贪婪最小化的新方法,这适用于需要重压力的问题。理论结果保障方法的一致性及其有效性在常微分方程的参数推理的具体背景下证明了该效果。软件可在Python,R和Matlab中的Stein细化包中提供。
translated by 谷歌翻译
In many applications, heterogeneous treatment effects on a censored response variable are of primary interest, and it is natural to evaluate the effects at different quantiles (e.g., median). The large number of potential effect modifiers, the unknown structure of the treatment effects, and the presence of right censoring pose significant challenges. In this paper, we develop a hybrid forest approach called Hybrid Censored Quantile Regression Forest (HCQRF) to assess the heterogeneous effects varying with high-dimensional variables. The hybrid estimation approach takes advantage of the random forests and the censored quantile regression. We propose a doubly-weighted estimation procedure that consists of a redistribution-of-mass weight to handle censoring and an adaptive nearest neighbor weight derived from the forest to handle high-dimensional effect functions. We propose a variable importance decomposition to measure the impact of a variable on the treatment effect function. Extensive simulation studies demonstrate the efficacy and stability of HCQRF. The result of the simulation study also convinces us of the effectiveness of the variable importance decomposition. We apply HCQRF to a clinical trial of colorectal cancer. We achieve insightful estimations of the treatment effect and meaningful variable importance results. The result of the variable importance also confirms the necessity of the decomposition.
translated by 谷歌翻译
Existing deep-learning based tomographic image reconstruction methods do not provide accurate estimates of reconstruction uncertainty, hindering their real-world deployment. This paper develops a method, termed as the linearised deep image prior (DIP), to estimate the uncertainty associated with reconstructions produced by the DIP with total variation regularisation (TV). Specifically, we endow the DIP with conjugate Gaussian-linear model type error-bars computed from a local linearisation of the neural network around its optimised parameters. To preserve conjugacy, we approximate the TV regulariser with a Gaussian surrogate. This approach provides pixel-wise uncertainty estimates and a marginal likelihood objective for hyperparameter optimisation. We demonstrate the method on synthetic data and real-measured high-resolution 2D $\mu$CT data, and show that it provides superior calibration of uncertainty estimates relative to previous probabilistic formulations of the DIP. Our code is available at https://github.com/educating-dip/bayes_dip.
translated by 谷歌翻译