智能论文笔记

A Statistically-Based Approach to Feedforward Neural Network Model Selection

Andrew McInerney , Kevin Burke

分类：机器学习

2022-07-09

前馈神经网络（FNN）可以看作是非线性回归模型，在该模型中，协变量通过加权求和和非线性函数的组合进入模型。尽管这些模型与统计模型中通常使用的模型有一些相似之处，但大多数神经网络研究是在统计领域之外进行的。这导致缺乏基于统计学的方法，尤其是对模型简约的重视。确定输入层结构类似于变量选择，而隐藏层的结构与模型复杂性有关。实际上，通常通过使用样本外部性能比较模型来进行神经网络模型选择。但是，相反，相关的似然函数的构建为基于信息标准的变量和体系结构选择打开了大门。使用贝叶斯信息标准（BIC）提出了一种新型模型选择方法，该方法同时执行输入和隐藏节点选择。作为模型选择目标函数，BIC在样本外的性能上的选择会导致恢复真实模型的可能性增加，同时相同地实现了有利的样本外部性能。模拟研究用于评估和证明所提出的方法，并研究了实际数据的应用。

translated by 谷歌翻译

Conditional Distribution Function Estimation Using Neural Networks for Censored and Uncensored Data

Bingqing Hu , Bin Nan

分类： (统计)机器学习

2022-07-06

神经网络中的大多数工作都集中在给定一组协变量的情况下估计连续响应变量的条件平均值。在本文中，我们考虑使用神经网络估算有条件的分布函数，以审查和未经审查的数据。该算法建立在与时间依赖性协变量有关COX回归的数据结构上。在不施加任何模型假设的情况下，我们考虑了基于条件危险函数是唯一未知的非参数参数的损失函数，可以应用不明显的优化方法。通过仿真研究，我们显示了所提出的方法具有理想的性能，而部分可能性方法和传统的神经网络具有$ l_2 $损失产量的偏向估计，当模型假设违反。我们进一步用几个现实世界数据集说明了提出的方法。提出的方法的实现可在https://github.com/bingqing0729/nncde上获得。

translated by 谷歌翻译

Copulaboost: additive modeling with copula-based model components

Simon Boge Brant , Ingrid Hobæk Haff

分类： (统计)机器学习

2022-08-09

我们提出了一种基于配对构造的模型组件的广义添加剂模型，并以预测为主要目的。该模型组件的设计使我们的模型可以捕获响应协变量之间关系中潜在的复杂相互作用效应。此外，我们的模型不需要连续协变量的离散化，因此适用于许多此类协变量的问题。此外，我们设计了一种受梯度增强启发的拟合算法，以及通过对模型空间和近似值的限制来加快时间对比计算的限制，用于模型选择和模型选择的有效程序。除了我们的模型在更高维度中成为现实的选择绝对必要外，这些技术还可以作为设计有效模型选择算法的其他类型的Copula回归模型的基础。我们已经在模拟研究中探索了我们方法的特征，特别是将其与自然替代方案进行比较，例如逻辑回归，经典增强模型和受到惩罚的逻辑回归。我们还展示了我们在威斯康星州乳腺癌数据集和波士顿住房数据集上的方法。结果表明，即使离散协变量的比例很高，我们的方法的预测性能要么比其他方法更好或可比其他方法媲美。

translated by 谷歌翻译

A Free Lunch with Influence Functions? Improving Neural Network Estimates with Concepts from Semiparametric Statistics

Matthew J. Vowels , Sina Akbari , Necati Cihan Camgoz , Richard Bowden

分类：机器学习 | (统计)机器学习

2022-02-18

通常使用参数模型进行经验领域的参数估计，并且此类模型很容易促进统计推断。不幸的是，它们不太可能足够灵活，无法充分建模现实现象，并可能产生偏见的估计。相反，非参数方法是灵活的，但不容易促进统计推断，并且仍然可能表现出残留的偏见。我们探索了影响功能（IFS）的潜力（a）改善初始估计器而无需更多数据（b）增加模型的鲁棒性和（c）促进统计推断。我们首先对IFS进行广泛的介绍，并提出了一种神经网络方法“ Multinet”，该方法使用单个体系结构寻求合奏的多样性。我们还介绍了我们称为“ Multistep”的IF更新步骤的变体，并对不同方法提供了全面的评估。发现这些改进是依赖数据集的，这表明所使用的方法与数据生成过程的性质之间存在相互作用。我们的实验强调了从业人员需要通过不同的估计器组合进行多次分析来检查其发现的一致性。我们还表明，可以改善“自由”的现有神经网络，而无需更多数据，而无需重新训练。

translated by 谷歌翻译

Greedy function approximation: a gradient boosting machine

分类：

Function estimation/approximation is viewed from the perspective of numerical optimization in function space, rather than parameter space. A connection is made between stagewise additive expansions and steepestdescent minimization. A general gradient descent "boosting" paradigm is developed for additive expansions based on any fitting criterion. Specific algorithms are presented for least-squares, least absolute deviation, and Huber-M loss functions for regression, and multiclass logistic likelihood for classification. Special enhancements are derived for the particular case where the individual additive components are regression trees, and tools for interpreting such "TreeBoost" models are presented. Gradient boosting of regression trees produces competitive, highly robust, interpretable procedures for both regression and classification, especially appropriate for mining less than clean data. Connections between this approach and the boosting methods of Freund and Shapire and Friedman, Hastie and Tibshirani are discussed.

translated by 谷歌翻译

Flexible, Non-parametric Modeling Using Regularized Neural Networks

Oskar Allerbo , Rebecka Jörnsten

分类：机器学习

2020-12-18

非参数，添加剂模型能够以灵活且可诠释的方式捕获复杂的数据依赖性。但是，选择添加剂组件的格式通常需要非琐碎的数据探索。在这里，作为替代方案，我们提出了Prada-Net，一种单隐层神经网络，具有近端梯度下降和自适应套索的训练。 Prada-Net自动调整神经网络的大小和架构，以反映数据的复杂性和结构。 Prada-Net获得的紧凑型网络可以转换为附加模型组件，使其适用于具有自动模型选择的非参数统计建模。我们在模拟数据上展示了PRADA-NET，其中将PRADA-NET的测试错误性能，可变重要性和可变子集识别属性进行了针对神经网络的其他基于卢赛的正则化方法。我们还将PRADA-NET应用于大量的U.K.黑烟数据集，以演示PRADA-NET如何使用空间和时间部件来模拟复杂和异构数据。与经典的统计非参数方法相比，Prada-Net不需要初步建模来选择添加剂组分的功能形式，但仍然导致可解释的模型表示。

translated by 谷歌翻译

Flexible Bayesian Nonlinear Model Configuration

Aliaksandr Hubin , Geir Storvik , Florian Frommlet

分类： (统计)机器学习 | 机器学习

2020-03-05

回归模型用于各种应用，为来自不同领域的研究人员提供强大的科学工具。线性或简单的参数，模型通常不足以描述输入变量与响应之间的复杂关系。通过诸如神经网络的灵活方法可以更好地描述这种关系，但这导致不太可解释的模型和潜在的过度装备。或者，可以使用特定的参数非线性函数，但是这种功能的规范通常是复杂的。在本文中，我们介绍了一种灵活的施工方法，高度灵活的非线性参数回归模型。非线性特征是分层的，类似于深度学习，但对要考虑的可能类型的功能具有额外的灵活性。这种灵活性，与变量选择相结合，使我们能够找到一小部分重要特征，从而可以更具可解释的模型。在可能的功能的空间内，考虑了贝叶斯方法，基于它们的复杂性引入功能的前沿。采用遗传修改模式跳跃马尔可夫链蒙特卡罗算法来执行贝叶斯推理和估计模型平均的后验概率。在各种应用中，我们说明了我们的方法如何用于获得有意义的非线性模型。此外，我们将其预测性能与多个机器学习算法进行比较。

translated by 谷歌翻译

Neural Networks for Extreme Quantile Regression with an Application to Forecasting of Flood Risk

Olivier C. Pasche , Sebastian Engelke

分类： (统计)机器学习

2022-08-16

对极端事件的风险评估需要准确估算超出历史观察范围的高分位数。当风险取决于观察到的预测因子的值时，回归技术用于在预测器空间中插值。我们提出的EQRN模型将来自神经网络和极值理论的工具结合到能够在存在复杂预测依赖性的情况下外推的方法中。神经网络自然可以在数据中融合其他结构。我们开发了EQRN的经常性版本，该版本能够在时间序列中捕获复杂的顺序依赖性。我们将这种方法应用于瑞士AARE集水区中洪水风险的预测。它利用从时空和时间上的多个协变量中利用信息，以提供对回报水平和超出概率的一日预测。该输出从传统的极值分析中补充了静态返回水平，并且预测能够适应不断变化的气候中经历的分配变化。我们的模型可以帮助当局更有效地管理洪水，并通过预警系统最大程度地减少其灾难性影响。

translated by 谷歌翻译

The SKIM-FA Kernel: High-Dimensional Variable Selection and Nonlinear Interaction Discovery in Linear Time

Raj Agrawal , Tamara Broderick

分类： (统计)机器学习

2021-06-23

Many scientific problems require identifying a small set of covariates that are associated with a target response and estimating their effects. Often, these effects are nonlinear and include interactions, so linear and additive methods can lead to poor estimation and variable selection. Unfortunately, methods that simultaneously express sparsity, nonlinearity, and interactions are computationally intractable -- with runtime at least quadratic in the number of covariates, and often worse. In the present work, we solve this computational bottleneck. We show that suitable interaction models have a kernel representation, namely there exists a "kernel trick" to perform variable selection and estimation in $O$(# covariates) time. Our resulting fit corresponds to a sparse orthogonal decomposition of the regression function in a Hilbert space (i.e., a functional ANOVA decomposition), where interaction effects represent all variation that cannot be explained by lower-order effects. On a variety of synthetic and real data sets, our approach outperforms existing methods used for large, high-dimensional data sets while remaining competitive (or being orders of magnitude faster) in runtime.

translated by 谷歌翻译

Neural Networks for Scalar Input and Functional Output

Sidi Wu , Cédric Beaulac , Jiguo Cao

分类： (统计)机器学习 | 机器学习

2022-08-10

功能响应对一组标量预测变量的回归可能是一项具有挑战性的任务，尤其是如果有大量预测因子，这些预测因子具有交互作用，或者这些预测因子与响应之间的关系是非线性的。在这项工作中，我们为此问题提出了一个解决方案：馈送前向神经网络（NN），旨在预测使用标量输入的功能响应。首先，我们将功能响应转换为有限维表示，然后构建了输出此表示形式的NN。我们提出了不同的目标功能来训练NN。所提出的模型适用于定期和不规则间隔的数据，还提供了多种方法来应用粗糙度惩罚以控制预测曲线的平滑度。实现这两个功能的困难在于可以反向传播的目标函数的定义。在我们的实验中，我们证明了我们的模型在多种情况下优于常规尺度回归模型，同时计算缩放的尺寸更好。

translated by 谷歌翻译

Adaptive LASSO estimation for functional hidden dynamic geostatistical model

Paolo Maranzano , Philipp Otto , Alessandro Fassò

分类： (统计)机器学习

2022-08-10

我们根据功能性隐藏动态地理模型（F-HDGM）的惩罚最大似然估计器（PMLE）提出了一种新型的模型选择算法。这些模型采用经典的混合效应回归结构，该结构具有嵌入式时空动力学，以模拟在功能域中观察到的地理参考数据。因此，感兴趣的参数是该域之间的函数。该算法同时选择了相关的样条基函数和回归变量，这些函数和回归变量用于对响应变量与协变量之间的固定效应关系进行建模。这样，它会自动收缩到功能系数的零部分或无关回归器的全部效果。该算法基于迭代优化，并使用自适应的绝对收缩和选择器操作员（LASSO）惩罚函数，其中未含量的F-HDGM最大likikelihood估计器获得了其中的权重。最大化的计算负担大大减少了可能性的局部二次近似。通过蒙特卡洛模拟研究，我们分析了在不同情况下算法的性能，包括回归器之间的强相关性。我们表明，在我们考虑的所有情况下，受罚的估计器的表现都优于未确定的估计器。我们将该算法应用于一个真实案例研究，其中将意大利伦巴第地区的小时二氧化氮浓度记录记录为具有多种天气和土地覆盖协变量的功能过程。

translated by 谷歌翻译

Forecast combinations: an over 50-year review

Xiaoqian Wang , Rob J Hyndman , Feng Li , Yanfei Kang

分类： (统计)机器学习

2022-05-09

预测组合在预测社区中蓬勃发展，近年来，已经成为预测研究和活动主流的一部分。现在，由单个（目标）系列产生的多个预测组合通过整合来自不同来源收集的信息，从而提高准确性，从而减轻了识别单个“最佳”预测的风险。组合方案已从没有估计的简单组合方法演变为涉及时间变化的权重，非线性组合，组件之间的相关性和交叉学习的复杂方法。它们包括结合点预测和结合概率预测。本文提供了有关预测组合的广泛文献的最新评论，并参考可用的开源软件实施。我们讨论了各种方法的潜在和局限性，并突出了这些思想如何随着时间的推移而发展。还调查了有关预测组合实用性的一些重要问题。最后，我们以当前的研究差距和未来研究的潜在见解得出结论。

translated by 谷歌翻译

Shrinkage Bayesian Causal Forests for Heterogeneous Treatment Effects Estimation

Alberto Caron , Gianluca Baio , Ioanna Manolopoulou

分类：机器学习 | (统计)机器学习

2021-02-12

本文开发了贝叶斯因果林的稀疏诱导版本，最近提出的非参数因果回归模型采用贝叶斯添加剂回归树，专门设计用于使用观察数据来估计异质治疗效果。我们介绍的稀疏诱导组件是通过实证研究的动机，其中不是所有可用的协变量相关的，导致在估计个体治疗效果的兴趣表面底层的不同程度。在这项工作中提供的扩展版本，我们命名贝叶斯因果森林，配备了一对允许模型通过树集合中的相应数量的分裂调节每个协变量的重量。这些前瞻改善了模型对稀疏数据产生过程的适应性，并且允许在治疗效果估计的框架中进行完全贝叶斯特征缩收，从而揭示推动异质性的调节因子。此外，该方法允许先前了解相关的混杂协变量和对模型中掺入结果的影响的相对幅度。我们说明了我们在模拟研究中的方法的表现，与贝叶斯因果林和其他最先进的模型相比，展示如何与越来越多的协变量以及其如何处理强烈混淆的情景。最后，我们还提供了使用真实数据的应用程序的示例。

translated by 谷歌翻译

Estimating Individual Treatment Effects using Non-Parametric Regression Models: a Review

Alberto Caron , Gianluca Baio , Ioanna Manolopoulou

分类：机器学习 | (统计)机器学习

2020-09-14

大型观察数据越来越多地提供健康，经济和社会科学等学科，研究人员对因果问题而不是预测感兴趣。在本文中，从旨在调查参与学校膳食计划对健康指标的实证研究，研究了使用非参数回归的方法估算异质治疗效果的问题。首先，我们介绍了与观察或非完全随机数据进行因果推断相关的设置和相关的问题，以及如何在统计学习工具的帮助下解决这些问题。然后，我们审查并制定现有最先进的框架的统一分类，允许通过非参数回归模型来估算单个治疗效果。在介绍模型选择问题的简要概述后，我们说明了一些关于三种不同模拟研究的方法的性能。我们通过展示一些关于学校膳食计划数据的实证分析的一些方法的使用来结束。

translated by 谷歌翻译

Deep Learning with Functional Inputs

Barinder Thind , Kevin Multani , Jiguo Cao

分类： (统计)机器学习 | 机器学习

2020-06-17

We present a methodology for integrating functional data into deep densely connected feed-forward neural networks. The model is defined for scalar responses with multiple functional and scalar covariates. A by-product of the method is a set of dynamic functional weights that can be visualized during the optimization process. This visualization leads to greater interpretability of the relationship between the covariates and the response relative to conventional neural networks. The model is shown to perform well in a number of contexts including prediction of new data and recovery of the true underlying functional weights; these results were confirmed through real applications and simulation studies. A forthcoming R package is developed on top of a popular deep learning library (Keras) allowing for general use of the approach.

translated by 谷歌翻译

Data blurring: sample splitting a single sample

James Leiner , Boyan Duan , Larry Wasserman , Aaditya Ramdas

分类： (统计)机器学习

2021-12-21

假设我们观察一个随机向量$ x $从一个具有未知参数的已知家庭中的一些分发$ p $。我们问以下问题：什么时候可以将$ x $分为两部分$ f（x）$和$ g（x）$，使得两部分都足以重建$ x $自行，但两者都可以恢复$ x $完全，$（f（x），g（x））$的联合分布是贸易的吗？作为一个例子，如果$ x =（x_1，\ dots，x_n）$和$ p $是一个产品分布，那么对于任何$ m <n $，我们可以将样本拆分以定义$ f（x）=（x_1 ，\ dots，x_m）$和$ g（x）=（x_ {m + 1}，\ dots，x_n）$。 Rasines和Young（2021）提供了通过使用$ x $的随机化实现此任务的替代路线，并通过加性高斯噪声来实现高斯分布数据的有限样本中的选择后推断和非高斯添加剂模型的渐近。在本文中，我们提供更一般的方法，可以通过借助贝叶斯推断的思路在有限样本中实现这种分裂，以产生（频繁的）解决方案，该解决方案可以被视为数据分裂的连续模拟。我们称我们的方法数据模糊，作为数据分割，数据雕刻和P值屏蔽的替代方案。我们举例说明了一些原型应用程序的方法，例如选择趋势过滤和其他回归问题的选择后推断。

translated by 谷歌翻译

Graph-aware Modeling of Brain Connectivity Networks

Yura Kim , Daniel Kessler , Elizaveta Levina

分类： (统计)机器学习

2019-03-06

大脑中的功能连接通常由加权网络表示，其中节点表示大脑中的位置，并且边缘表示这些位置之间的连接强度。分析这些数据的一个挑战是各个边缘水平的推断并不是特别生物学上的意义;解释在所谓的功能区域或节点组和它们之间的连接级别更有用;这通常被称为神经影像学文献中的“图表感知”推断。然而，汇集功能区域导致信息损失和更低的准确性。另一个挑战是主题内的边缘权重之间的相关性，这使得基于独立假设不可靠的推断。我们通过线性混合效果模型来解决这两种挑战，该挑战涉及功能区域和边缘依赖性，同时仍然建模各个边缘权重，以避免丢失信息。该模型允许将两种群体（例如患者和健康对照）进行比较，无论是在功能区水平和各个边缘水平，都导致生物学上有意义的解释。我们将该模型符合精神分裂症和健康控制的休息状态FMRI数据，获得与精神分裂症文献一致的可解释结果。

translated by 谷歌翻译

What Makes Forest-Based Heterogeneous Treatment Effect Estimators Work?

Susanne Dandl , Torsten Hothorn , Heidi Seibold , Erik Sverdrup , Stefan Wager , Achim Zeileis

分类： (统计)机器学习

2022-06-21

在许多学科中，异质治疗效果（HTE）的估计至关重要，从个性化医学到经济学等等。在随机试验和观察性研究中，随机森林已被证明是一种灵活而有力的HTE估计方法。尤其是Athey，Tibshirani和Wager（2019）引入的“因果森林”，以及包装GRF中的R实施。 Seibold，Zeileis和Hothorn（2018）引入了一种称为“基于模型的森林”的相关方法，该方法旨在随机试验，并同时捕获预后和预测变量的效果，并在R包装模型中进行模块化实现。。在这里，我们提出了一种统一的观点，它超出了理论动机，并研究了哪些计算元素使因果森林如此成功，以及如何将它们与基于模型的森林的优势融合在一起。为此，我们表明，可以通过相同的参数和L2损耗下加性模型的模型假设来理解这两种方法。这种理论上的见解使我们能够实施“基于模型的因果林”的几种口味，并在计算机中剖析其不同元素。将原始的因果森林和基于模型的森林与基准研究中的新混合版本进行了比较，该研究探讨了随机试验和观察环境。在随机设置中，两种方法都执行了AKIN。如果在数据生成过程中存在混淆，我们发现与相应倾向的治疗指标的局部核心是良好性能的主要驱动力。结果的局部核心不太重要，并且可以通过相对于预后和预测效应的同时拆分选择来代替或增强。

translated by 谷歌翻译

A unifying partially-interpretable framework for neural network-based extreme quantile regression

Jordan Richards , Raphaël Huser

分类： (统计)机器学习 | 机器学习

2022-08-16

在许多环境环境中的风险管理需要了解驱动极端事件的机制。量化这种风险的有用指标是响应变量的极端分位数，该变量是基于描述气候，生物圈和环境状态的预测变量的。通常，这些分位数位于可观察数据的范围之内，因此，为了估算，需要在回归框架内规范参数极值模型。在这种情况下，经典方法利用预测变量和响应变量之间的线性或加性关系，并在其预测能力或计算效率中受苦；此外，它们的简单性不太可能捕获导致极端野火创造的真正复杂结构。在本文中，我们提出了一个新的方法学框架，用于使用人工中性网络执行极端分位回归，该网络能够捕获复杂的非线性关系并很好地扩展到高维数据。神经网络的“黑匣子”性质意味着它们缺乏从业者通常会喜欢的可解释性的理想特征。因此，我们将线性和加法模型的各个方面与深度学习相结合，以创建可解释的神经网络，这些神经网络可用于统计推断，但保留了高预测准确性。为了补充这种方法，我们进一步提出了一个新颖的点过程模型，以克服与广义极值分布类别相关的有限的下端问题。我们的统一框架的功效在具有高维预测器集的美国野火数据上说明了，我们说明了基于线性和基于样条的回归技术的预测性能的大幅改进。

translated by 谷歌翻译

The FEDHC Bayesian network learning algorithm

Michail Tsagris

分类： (统计)机器学习 | 机器学习

2020-11-30

本文提出了一种新的混合贝叶斯网络学习算法，称为前部滴下山坡爬山（FEDHC），设计为与连续或分类变量一起使用。具体地，对于连续数据的情况，提出了一种对FEDHC的强大的异常值，可以由其他BN学习算法采用。此外，纸张表明，统计软件\ Texit {R}中唯一的MMHC的实现是非常昂贵的，并且提供了新的实现。通过Monte Carlo模拟测试FEDHC，表明它是计算效率的明显，并产生与MMHC和PCHC相似的贝叶斯网络或更高的准确性。最后，使用统计软件\ Textit {R}，对来自经济学领域的FEDHC，PCHC和MMHC算法的应用到实际数据中的应用。

translated by 谷歌翻译