智能论文笔记

Modelling stellar activity with Gaussian process regression networks

J. D. Camacho , J. P. Faria , P. T. P. Viana

分类： (统计)机器学习

2022-05-13

Stellar photospheric activity is known to limit the detection and characterisation of extra-solar planets. In particular, the study of Earth-like planets around Sun-like stars requires data analysis methods that can accurately model the stellar activity phenomena affecting radial velocity (RV) measurements. Gaussian Process Regression Networks (GPRNs) offer a principled approach to the analysis of simultaneous time-series, combining the structural properties of Bayesian neural networks with the non-parametric flexibility of Gaussian Processes. Using HARPS-N solar spectroscopic observations encompassing three years, we demonstrate that this framework is capable of jointly modelling RV data and traditional stellar activity indicators. Although we consider only the simplest GPRN configuration, we are able to describe the behaviour of solar RV data at least as accurately as previously published methods. We confirm the correlation between the RV and stellar activity time series reaches a maximum at separations of a few days, and find evidence of non-stationary behaviour in the time series, associated with an approaching solar activity minimum.

translated by 谷歌翻译

Identifying Exoplanets with Deep Learning. IV. Removing Stellar Activity Signals from Radial Velocity Measurements Using Neural Networks

Zoe L. de Beurs , Andrew Vanderburg , Christopher J. Shallue , Xavier Dumusque , Andrew Collier Cameron , Christopher Leet , Lars A. Buchhave , Rosario Cosentino , Adriano Ghedina , Raphaëlle D. Haywood

分类：机器学习

2020-10-30

目前，由精确的径向速度（RV）观察结果受到恒星活性引入的虚假RV信号的限制。我们表明，诸如线性回归和神经网络之类的机器学习技术可以有效地从RV观测中删除活动信号（由于星形/张图引起的）。先前的工作着重于使用高斯工艺回归等建模技术仔细地过滤活性信号（例如Haywood等人，2014年）。取而代之的是，我们仅使用对光谱线平均形状的更改进行系统地删除活动信号，也没有有关收集观测值的信息。我们对模拟数据（使用SOAP 2.0软件生成； Dumusque等人，2014年生成）和从Harps-N太阳能望远镜（Dumusque等，2015; Phillips等人2015; 2016; Collier训练）培训了机器学习模型。 Cameron等人2019）。我们发现，这些技术可以从模拟数据（将RV散射从82 cm/s提高到3 cm/s）以及从HARPS-N太阳能望远镜中几乎每天进行的600多种真实观察结果来预测和消除恒星活动（将RV散射从82 cm/s提高到3 cm/s）。（将RV散射从1.753 m/s提高到1.039 m/s，提高了约1.7倍）。将来，这些或类似的技术可能会从太阳系以外的恒星观察中去除活动信号，并最终有助于检测到阳光状恒星周围可居住的区域质量系外行星。

translated by 谷歌翻译

A Latent Restoring Force Approach to Nonlinear System Identification

Timothy J. Rogers , Tobias Friis

分类： (统计)机器学习 | 机器学习

2021-09-22

非线性动态系统的识别仍然是整个工程的重大挑战。这项工作提出了一种基于贝叶斯过滤的方法，以提取和确定系统中未知的非线性项的贡献，可以将其视为恢复力表面类型方法的替代观点。为了实现这种识别，最初将非线性恢复力的贡献作为高斯过程建模。该高斯过程将转换为状态空间模型，并与系统的线性动态组件结合使用。然后，通过推断过滤和平滑分布，可以提取系统的内部状态和非线性恢复力。在这些状态下，可以构建非线性模型。在模拟案例研究和实验基准数据集中，该方法被证明是有效的。

translated by 谷歌翻译

Uncertainty-Aware Blob Detection with an Application to Integrated-Light Stellar Population Recoveries

Prashin Jethwa , Fabian Parzer , Otmar Scherzer , Glenn van de Ven

分类：计算机视觉

2022-08-11

语境。斑点检测是天文学中的常见问题。一个例子是在恒星种群建模中，其中从观察结果推断出星系中恒星年龄和金属性的分布。在这种情况下，斑点可能对应于原位的恒星与从卫星中吸收的恒星相对应，而BLOB检测的任务是解散这些组件。当分布带来重大不确定性时，就会出现一个困难，就像从未解决的恒星系统的建模光谱中推断出的恒星种群的情况一样。目前没有不确定性检测BLOB检测的令人满意的方法。目标。我们介绍了一种在恒星系统综合光谱的恒星种群建模的背景下开发的不确定性感知斑点检测方法。方法。我们为经典的blob检测方法的经典laplacian方法的不确定性感知版本开发了理论和计算工具，我们称之为ULOG。这确定了考虑各种尺度的重要斑点。作为将ULOG应用于恒星种群建模的先决条件，我们引入了一种有效计算光谱建模不确定性的方法。该方法基于截断的奇异值分解和马尔可夫链蒙特卡洛采样（SVD-MCMC）。结果。我们将方法应用于星团M54的数据。我们表明，SVD-MCMC推断与标准MCMC的推断相匹配，但计算速度更快。我们将ULOG应用于推断的M54年龄/金属性分布，识别其恒星中的2或3个显着不同的种群。

translated by 谷歌翻译

Multi-output Gaussian processes for inverse uncertainty quantification in neutron noise analysis

Paul Lartaud , Philippe Humbert , Josselin Garnier

分类： (统计)机器学习

2022-11-04

In a fissile material, the inherent multiplicity of neutrons born through induced fissions leads to correlations in their detection statistics. The correlations between neutrons can be used to trace back some characteristics of the fissile material. This technique known as neutron noise analysis has applications in nuclear safeguards or waste identification. It provides a non-destructive examination method for an unknown fissile material. This is an example of an inverse problem where the cause is inferred from observations of the consequences. However, neutron correlation measurements are often noisy because of the stochastic nature of the underlying processes. This makes the resolution of the inverse problem more complex since the measurements are strongly dependent on the material characteristics. A minor change in the material properties can lead to very different outputs. Such an inverse problem is said to be ill-posed. For an ill-posed inverse problem the inverse uncertainty quantification is crucial. Indeed, seemingly low noise in the data can lead to strong uncertainties in the estimation of the material properties. Moreover, the analytical framework commonly used to describe neutron correlations relies on strong physical assumptions and is thus inherently biased. This paper addresses dual goals. Firstly, surrogate models are used to improve neutron correlations predictions and quantify the errors on those predictions. Then, the inverse uncertainty quantification is performed to include the impact of measurement error alongside the residual model bias.

translated by 谷歌翻译

Fast and robust Bayesian Inference using Gaussian Processes with GPry

Jonas El Gammal , Nils Schöneberg , Jesús Torrado , Christian Fidler

分类： (统计)机器学习

2022-11-03

We present the GPry algorithm for fast Bayesian inference of general (non-Gaussian) posteriors with a moderate number of parameters. GPry does not need any pre-training, special hardware such as GPUs, and is intended as a drop-in replacement for traditional Monte Carlo methods for Bayesian inference. Our algorithm is based on generating a Gaussian Process surrogate model of the log-posterior, aided by a Support Vector Machine classifier that excludes extreme or non-finite values. An active learning scheme allows us to reduce the number of required posterior evaluations by two orders of magnitude compared to traditional Monte Carlo inference. Our algorithm allows for parallel evaluations of the posterior at optimal locations, further reducing wall-clock times. We significantly improve performance using properties of the posterior in our active learning scheme and for the definition of the GP prior. In particular we account for the expected dynamical range of the posterior in different dimensionalities. We test our model against a number of synthetic and cosmological examples. GPry outperforms traditional Monte Carlo methods when the evaluation time of the likelihood (or the calculation of theoretical observables) is of the order of seconds; for evaluation times of over a minute it can perform inference in days that would take months using traditional methods. GPry is distributed as an open source Python package (pip install gpry) and can also be found at https://github.com/jonaselgammal/GPry.

translated by 谷歌翻译

Advances in Multi-Variate Analysis Methods for New Physics Searches at the Large Hadron Collider

Anna Stakia , Tommaso Dorigo , Giovanni Banelli , Daniela Bortoletto , Alessandro Casa , Pablo de Castro , Christophe Delaere , Julien Donini , Livio Finos , Michele Gallinaro

分类：机器学习

2021-05-16

在2015年和2019年之间，地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”，研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用，并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人，仍然在测试阶段，承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中，在研究和开发的那些中，最相关的新工具以及对其性能的评估。

translated by 谷歌翻译

Cluster-Specific Predictions with Multi-Task Gaussian Processes

Arthur Leroy , Pierre Latouche , Benjamin Guedj , Servane Gey

分类：机器学习 | (统计)机器学习

2020-11-16

引入了涉及高斯流程（GPS）的模型，以同时处理多个功能数据的多任务学习，聚类和预测。该过程充当了功能数据的基于模型的聚类方法，也是对新任务进行后续预测的学习步骤。该模型是将多任务GPS与常见平均过程的混合物实例化。得出了一种用于处理超参数的优化以及超构件对潜在变量和过程的估计的优化。我们建立了明确的公式，用于将平均过程和潜在聚类变量整合到预测分布中，这是两个方面的不确定性。该分布定义为集群特异性GP预测的混合物，在处理组结构数据时，可以增强性能。该模型处理观察的不规则网格，并提供了关于协方差结构的不同假设，用于在任务之间共享其他信息。聚类和预测任务上的性能将通过各种模拟方案和真实数据集进行评估。总体算法称为magmaclust，可公开作为R包。

translated by 谷歌翻译

Bayesian Modelling of Multivalued Power Curves from an Operational Wind Farm

L. A. Bull , P. A. Gardner , T. J. Rogers , N. Dervilis , E. J. Cross , E. Papatheou , A. E. Maguire , C. Campos , K. Worden

分类： (统计)机器学习 | 机器学习

2021-11-30

功率曲线捕获风速与特定风力涡轮机的输出功率之间的关系。这种功能的准确回归模型在监控，维护，设计和规划方面证明是有用的。然而，在实践中，测量并不总是对应于理想曲线：电源缩减将显示为（附加）功能组件。这种多值关系不能通过常规回归建模，并且在预处理期间通常去除相关数据。目前的工作表明了一种替代方法，可以在缩减电力数据中推断多值关系。使用基于人群的方法，将概率回归模型的重叠混合应用于从操作风电场内的涡轮机记录的信号。示出了模型，以便在整个人口中提供精确的实际功率数据表示。

translated by 谷歌翻译

Nonparametric Multi-shape Modeling with Uncertainty Quantification

Hengrui Luo , Justin D. Strait

分类： (统计)机器学习 | 机器学习

2022-06-18

封闭曲线的建模和不确定性量化是形状分析领域的重要问题，并且可以对随后的统计任务产生重大影响。这些任务中的许多涉及封闭曲线的集合，这些曲线通常在多个层面上表现出结构相似性。以有效融合这种曲线间依赖性的方式对多个封闭曲线进行建模仍然是一个具有挑战性的问题。在这项工作中，我们提出并研究了一个多数输出（又称多输出），多维高斯流程建模框架。我们说明了提出的方法学进步，并在几个曲线和形状相关的任务上证明了有意义的不确定性量化的实用性。这种基于模型的方法不仅解决了用内核构造对封闭曲线（及其形状）的推断问题，而且还为通常对功能对象的多层依赖性的非参数建模打开了门。

translated by 谷歌翻译

Modelling variability in vibration-based PBSHM via a generalised population form

Tina A Dardeno , Lawrence A Bull , Robin S Mills , Nikolaos Dervilis , Keith Worden

分类：机器学习 | (统计)机器学习

2022-03-14

在过去的三十年中，结构性健康监测（SHM）一直是一个活跃的研究领域，并且在此期间积累了许多关键进展，如文献所示。但是，由于损害状态数据，操作和环境波动，可重复性问题以及边界条件的变化，SHM仍然面临挑战。这些问题在被捕获的功能中是不一致的，并且可能会对实际实施产生巨大影响，但更重要的是对技术的概括。基于人群的SHM旨在通过使用从相似结构组收集的数据对缺失信息进行建模和传输信息来解决其中的一些问题。在这项工作中，从四个健康的，名义上相同的全尺度复合直升机叶片收集了振动数据。制造差异（例如，几何形状和/或材料属性的略有差异），在其结构动力学上显示为可变性，这对于基于振动数据的机器学习而对SHM来说可能非常有问题。这项工作旨在通过使用高斯过程的混合物来定义叶片的频率响应函数的通用模型来解决此变异性。

translated by 谷歌翻译

Non-Gaussian Process Regression

Yaman Kındap , Simon Godsill

分类： (统计)机器学习 | 机器学习

2022-09-07

标准GPS为行为良好的流程提供了灵活的建模工具。然而，预计与高斯的偏差有望在现实世界数据集中出现，结构异常值和冲击通常会观察到。在这些情况下，GP可能无法充分建模不确定性，并且可能会过度推动。在这里，我们将GP框架扩展到一类新的时间变化的GP，从而可以直接建模重尾非高斯行为，同时通过非均匀GPS表示的无限混合物保留了可拖动的条件GP结构。有条件的GP结构是通过在潜在转化的输入空间上调节观测值来获得的，并使用L \'{e} Vy过程对潜在转化的随机演变进行建模，该过程允许贝叶斯在后端预测密度和潜在转化中的贝叶斯推断功能。我们为该模型提供了马尔可夫链蒙特卡洛推理程序，并证明了与标准GP相比的潜在好处。

translated by 谷歌翻译

Alleviating the transit timing variation bias in transit surveys. I. RIVERS: Method and detection of a pair of resonant super-Earths around Kepler-1705

A. Leleu , G. Chatel , S. Udry , Y. Alibert , J. -B. Delisle , R. Mardling

分类：机器学习

2021-11-12

传输定时变化（TTV）可以提供用于通过运输观察的系统的有用信息，因为它们允许我们对观察到的行星的质量和偏心的限制，甚至限制存在非过转化伴侣的存在。然而，TTV也可以用作检测偏压，可以防止在运输调查中检测小行星，否则将被标准算法（如盒装最小二乘算法（BLS）检测到）如果它们的轨道没有扰乱。这种偏差特别存在于具有长基线的调查，例如开普勒，其中一些苔丝扇区以及即将到来的柏拉图任务。在这里，我们介绍了一种对大型TTV的稳健的检测方法，并通过恢复和确认围绕开普勒-1705的十个TTV的一对谐振超级地球来说明其使用。该方法基于培训的神经网络，以恢复河图中的低信噪比比（S / N）扰动行星的轨道。我们通过拟合光线曲线来恢复这些候选人的传输参数。电孔-1705b和c的各个运输S / n大约比具有3小时或更长时间的所有先前已知的行星低的三倍，推动这些小型动态活动行星的恢复中的边界。恢复这种类型的物体对于获得观察到的行星系统的完整图谱是必不可少的，并且解决在外产群体的统计研究中不经常考虑的偏差。此外，TTV是获得质量估计的方法，这对于研究通过过境调查发现的行星的内部结构是必不可少的。最后，我们表明，由于强大的轨道扰动，开普勒-1705的外谐振行星的旋转可能被捕获在子或超级同步的旋转轨道共振中。

translated by 谷歌翻译

Marginalised Gaussian Processes with Nested Sampling

Fergus Simpson , Vidhi Lalchand , Carl Edward Rasmussen

分类： (统计)机器学习 | 机器学习

2020-10-30

高斯工艺（GPS）模型是具有由内核功能控制的电感偏差的功能丰富的分布。通过使用边际似然作为目标优化内核超参数来实现学习。这种称为II类型最大似然（ML-II）的经典方法产生了高参数的点估计，并继续成为培训GPS的默认方法。然而，这种方法在低估预测不确定性并且易于在有许多近似数目时易于过度拟合。此外，基于梯度的优化使ML-II点估计高度易受局部最小值的存在。这项工作提出了一种替代的学习过程，其中核心函数的超参数使用嵌套采样（NS）被边缘化，这是一种非常适合于复杂的多模态分布来采样的技术。我们专注于具有频谱混合物（SM）粒子的回归任务，并发现定量模型不确定性的原则方法导致在一系列合成和基准数据集中的预测性能中的大量收益。在这种情况下，还发现嵌套的抽样在汉密尔顿蒙特卡罗（HMC）上提供了速度优势，广泛认为是基于MCMC推断的金标准。

translated by 谷歌翻译

Volatility Based Kernels and Moving Average Means for Accurate Forecasting with Gaussian Processes

Gregory Benton , Wesley J. Maddox , Andrew Gordon Wilson

分类：机器学习 | (统计)机器学习

2022-07-13

随机微分方程的系统定义了一系列随机波动率模型。尽管这些模型在金融和统计气候学等领域中取得了广泛的成功，但它们通常缺乏在历史数据上条件产生真正的后验分布的能力。为了解决这一基本限制，我们展示了如何将一类随机波动率模型重新塑造为具有专门协方差函数的层次高斯工艺（GP）模型。该GP模型保留了随机波动率模型的电感偏差，同时提供了GP推断给出的后验预测分布。在此框架内，我们从研究良好的域中汲取灵感，以引入新的型号，即Volt和Magpie，这些模型在库存和风速预测中的表现明显超过了基线，并且自然扩展到多任务设置。

translated by 谷歌翻译

A Probabilistic Autoencoder for Type Ia Supernovae Spectral Time Series

George Stein , Uros Seljak , Vanessa Bohm , G. Aldering , P. Antilogus , C. Aragon , S. Bailey , C. Baltay , S. Bongard , K. Boone

分类：机器学习

2022-07-15

我们从一组稀疏的光谱时间序列中构建了一个物理参数化的概率自动编码器（PAE），以学习IA型超新星（SNE IA）的内在多样性。 PAE是一个两阶段的生成模型，由自动编码器（AE）组成，该模型在使用归一化流（NF）训练后概率地解释。我们证明，PAE学习了一个低维的潜在空间，该空间可捕获人口内存在的非线性特征范围，并且可以直接从数据直接从数据中准确地对整个波长和观察时间进行精确模拟SNE IA的光谱演化。通过引入相关性惩罚项和多阶段训练设置以及我们的物理参数化网络，我们表明可以在训练期间分离内在和外在的可变性模式，从而消除了需要进行额外标准化的其他模型。然后，我们在SNE IA的许多下游任务中使用PAE进行越来越精确的宇宙学分析，包括自动检测SN Outliers，与数据分布一致的样本的产生以及在存在噪音和不完整数据的情况下解决逆问题限制宇宙距离测量。我们发现，与以前的研究相一致的最佳固有模型参数数量似乎是三个，并表明我们可以用$ 0.091 \ pm 0.010 $ mag标准化SNE IA的测试样本，该样本对应于$ 0.074 \ pm。 0.010 $ mag如果删除了特殊的速度贡献。训练有素的模型和代码在\ href {https://github.com/georgestein/supaernova} {github.com/georgestein/supaernova}上发布

translated by 谷歌翻译

Stochastic Collapsed Variational Inference for Structured Gaussian Process Regression Network

Rui Meng , Herbie Lee , Kristofer Bouchard

分类：机器学习 | (统计)机器学习

2021-06-01

本文提出了一种有效的变分推导框架，用于导出结构化高斯进程回归网络（SGPRN）模型的系列。关键的想法是将辅助诱导变量合并到潜在函数中，并共同处理诱导变量和超参数的分布作为变分参数。然后，我们提出了结构化可变分布和边缘化潜变量，这使得可分解的变分性下限并导致随机优化。我们推断方法能够建模数据，其中输出不共享具有与输入和输出大小无关的计算复杂性的公共输入集，因此容易处理具有缺失值的数据集。我们说明了我们对合成数据和真实数据集的方法的性能，并显示我们的模型通常提供比最先进的数据缺失数据的更好的估算结果。我们还提供了一种可视化方法，用于电职业学数据的输出中的输出的时变相关性，并且这些估计提供了了解神经群体动态的洞察力。

translated by 谷歌翻译

Correlated Product of Experts for Sparse Gaussian Process Regression

Manuel Schürch , Dario Azzimonti , Alessio Benavoli , Marco Zaffalon

分类： (统计)机器学习 | 机器学习

2021-12-17

高斯进程（GPS）是通过工程学的社会和自然科学的应用程序学习和统计数据的重要工具。它们构成具有良好校准的不确定性估计的强大的内核非参数方法，然而，由于其立方计算复杂度，从货架上的GP推理程序仅限于具有数千个数据点的数据集。因此，在过去几年中已经开发出许多稀疏的GPS技术。在本文中，我们专注于GP回归任务，并提出了一种基于来自几个本地和相关专家的聚合预测的新方法。因此，专家之间的相关程度可以在独立于完全相关的专家之间变化。考虑到他们的相关性导致了一致的不确定性估算，汇总了专家的个人预测。我们的方法在限制案件中恢复了专家的独立产品，稀疏GP和全GP。呈现的框架可以处理一般的内核函数和多个变量，并且具有时间和空间复杂性，在专家和数据样本的数量中是线性的，这使得我们的方法是高度可扩展的。我们展示了我们提出的方法的卓越性能，这是我们提出的综合性和几个实际数据集的最先进的GP近似方法的卓越性能，以及具有确定性和随机优化的若干现实世界数据集。

translated by 谷歌翻译

Non-Parametric Modeling of Spatio-Temporal Human Activity Based on Mobile Robot Observations

Marvin Stuede , Moritz Schappler

分类：机器人

2022-03-14

这项工作提出了一个非参数时空模型，用于在长期背景下通过移动自主机器人绘制人类活动。基于变异性高斯过程回归，该模型结合了先前的空间和时间周期性依赖性信息，以创建人类事件的连续表示。由机器人运动产生的不均匀数据分布通过异源性可能性函数包括在模型中，可以作为预测性不确定性。使用稀疏的公式，可以在数周内进行数据集，并且可以将数百平方米用于模型创建。基于多周数据集的实验评估表明，所提出的方法在预测质量和随后的路径计划方面都超过了艺术的表现。

translated by 谷歌翻译

Shallow and Deep Nonparametric Convolutions for Gaussian Processes

Thomas M. McDonald , Magnus Ross , Michael T. Smith , Mauricio A. Álvarez

分类： (统计)机器学习 | 机器学习

2022-06-17

高斯流程（GPS）实际应用的主要挑战是选择适当的协方差函数。 GPS的移动平均值或过程卷积的构建可以提供一些额外的灵活性，但仍需要选择合适的平滑核，这是非平凡的。以前的方法通过在平滑内核上使用GP先验，并通过扩展协方差来构建协方差函数，以绕过预先指定它的需求。但是，这样的模型在几种方面受到限制：它们仅限于单维输入，例如时间;它们仅允许对单个输出进行建模，并且由于推理并不简单，因此不会扩展到大型数据集。在本文中，我们引入了GPS的非参数过程卷积公式，该公式通过使用基于Matheron规则的功能采样方法来减轻这些弱点，以使用诱导变量的间域间采样进行快速采样。此外，我们提出了这些非参数卷积的组成，可作为经典深度GP模型的替代方案，并允许从数据中推断中间层的协方差函数。我们测试了单个输出GP，多个输出GPS和DEEP GPS在基准测试上的模型性能，并发现在许多情况下，我们的方法可以提供比标准GP模型的改进。

translated by 谷歌翻译