In many high-dimensional prediction or classification tasks, complementary data on the features are available, e.g. prior biological knowledge on (epi)genetic markers. Here we consider tasks with numerical prior information that provide an insight into the importance (weight) and the direction (sign) of the feature effects, e.g. regression coefficients from previous studies. We propose an approach for integrating multiple sources of such prior information into penalised regression. If suitable co-data are available, this improves the predictive performance, as shown by simulation and application. The proposed method is implemented in the R package `transreg' (https://github.com/lcsb-bds/transreg).
translated by 谷歌翻译
我们引入了一种新的经验贝叶斯方法,用于大规模多线性回归。我们的方法结合了两个关键思想:(i)使用灵活的“自适应收缩”先验,该先验近似于正常分布的有限混合物,近似于正常分布的非参数家族; (ii)使用变分近似来有效估计先前的超参数并计算近似后期。将这两个想法结合起来,将快速,灵活的方法与计算速度相当,可与快速惩罚的回归方法(例如Lasso)相当,并在各种场景中具有出色的预测准确性。此外,我们表明,我们方法中的后验平均值可以解释为解决惩罚性回归问题,并通过直接解决优化问题(而不是通过交叉验证来调整)从数据中学到的惩罚函数的精确形式。 。我们的方法是在r https://github.com/stephenslab/mr.ash.ash.alpha的r软件包中实现的
translated by 谷歌翻译
在机器学习的许多应用中,不可避免的值是不可避免的,并且在培训和测试时都提出了挑战。当反复出现的模式中缺少变量时,已经提出了单独的图案子模型作为解决方案。但是,独立模型并不能有效利用所有可用数据。相反,将共享模型拟合到完整数据集通常取决于插补,而当丢失度取决于未观察到的因素时,这可能是次优的。我们提出了一种替代方法,称为共享模式子模型,该方法做出了a)在测试时对缺失值的强大预测,b)维持或提高模式子模型的预测能力,c)有一个简短的描述,可改善可解释性。我们确定共享是最佳的情况,即使缺失本身具有预测性以及预测目标取决于未观察到的变量。关于合成数据和两个医疗保健数据集的分类和回归实验表明,我们的模型在模式专业化和信息共享之间实现了良好的权衡。
translated by 谷歌翻译
本文提出了一种基于图形的正则化回归估计器 - 分层特征回归(HFR) - 从机器学习和图论域名的洞察力调动洞察力,以估算线性回归的鲁棒参数。估计器构造一个监督的特征图,该监督特征图沿其边缘分解参数,首先调整常见变化并连续地将特殊性模式结合到拟合过程中。图形结构具有对组靶标的参数收缩的影响,其中收缩程度由肝异常的控制,并且基团组合物以及收缩靶数是内源性的。该方法提供了丰富的资源,以便在数据中的潜在效果结构的视觉探索,并与一系列经验和模拟回归任务的常用正则化技术面板相比,展示了良好的预测精度和多功能性。
translated by 谷歌翻译
R包Doubleml实现了Chernozhukov等人的双重/辩护机器学习框架。 (2018)。它提供了基于机器学习方法的因果模型中估计参数的功能。双机器学习框架由三个关键成分组成:Neyman正交性,高质量的机器学习估计和样品拆分。可以通过MLR3生态系统中可用的各种最新机器学习方法来执行滋扰组件的估计。 Doubleml使得可以在各种因果模型中进行推断,包括部分线性和交互式回归模型及其扩展到仪器变量估计。 Doubleml的面向对象的实现为模型规范具有很高的灵活性,并使其易于扩展。本文是对双机器学习框架和R软件包DOUBLEML的介绍。在具有模拟和真实数据集的可再现代码示例中,我们演示了Doubleml用户如何基于机器学习方法执行有效的推断。
translated by 谷歌翻译
交叉验证是一种广泛使用的技术来估计预测误差,但其行为很复杂且不完全理解。理想情况下,人们想认为,交叉验证估计手头模型的预测错误,适合训练数据。我们证明,普通最小二乘拟合的线性模型并非如此。相反,它估计模型的平均预测误差适合于同一人群提取的其他看不见的训练集。我们进一步表明,这种现象发生在大多数流行的预测误差估计中,包括数据拆分,自举和锦葵的CP。接下来,从交叉验证得出的预测误差的标准置信区间可能的覆盖范围远低于所需水平。由于每个数据点都用于训练和测试,因此每个折叠的测量精度之间存在相关性,因此方差的通常估计值太小。我们引入了嵌套的交叉验证方案,以更准确地估计该方差,并从经验上表明,在传统的交叉验证间隔失败的许多示例中,这种修改导致间隔大致正确覆盖。
translated by 谷歌翻译
在高维预测设置中,可靠地估计测试性能仍然具有挑战性。为了应对这一挑战,提出了一个新颖的性能估计框架。该框架称为Learn2Evaluate,是基于学习曲线的,它通过拟合平滑的单调曲线将测试性能描绘为样本量的函数。与常用的性能估计方法相比,Learn2esvaluate具有多个优势。首先,学习曲线提供了学习者的图形概述。该概述有助于评估添加培训样本的潜在优势,并且比固定子样本大小的性能估计值更完整地比较学习者。其次,学习曲线促进在总样本量而不是子样本大小的情况下估计性能。第三,LEALLE2ALE2允许计算理论上合理且有用的较低置信度结合。此外,可以通过执行偏置校正来拧紧这种结合。通过模拟研究和对OMICS数据的应用来说明LEAL2评论的好处。
translated by 谷歌翻译
Model-X条件随机测试是有条件独立性测试的通用框架,解锁了新的可能性,以发现与感兴趣的响应有条件相关的特征,同时控制I型错误率。该测试的一个吸引力的优势是,它可以与任何机器学习模型一起使用来设计强大的测试统计数据。反过来,Model-X文献中的常见实践是使用机器学习模型形成测试统计量,经过培训,以最大程度地提高预测精度,希望能够获得良好的功率测试。但是,这里的理想目标是推动模型(在训练期间)以最大程度地提高测试功能,而不仅仅是预测精度。在本文中,我们通过首次引入新型模型拟合方案来弥合这一差距,这些方案旨在明确提高Model-X测试的功能。这是通过引入新的成本函数来完成的,该功能旨在最大化用于衡量有条件独立性违反的测试统计量。使用合成和真实的数据集,我们证明了我们提出的损失函数与各种基本预测模型(Lasso,弹性网和深神经网络)的组合始终增加所获得的正确发现的数量,同时维持I型错误率下的I型错误率控制。
translated by 谷歌翻译
我们引入了一种新颖的方式,将增强功能与高斯工艺和混合效应模型相结合。首先,在高斯过程中先前的平均函数的零或线性假设可以放松,并以灵活的非参数方式分组随机效应模型,其次,第二个在大多数增强算法中做出的独立性假设。前者有利于预测准确性和避免模型错误。后者对于有效学习固定效应预测函数和获得概率预测很重要。我们提出的算法也是用于处理培养树木中高心电图分类变量的新颖解决方案。此外,我们提出了一个扩展名,该扩展是使用维奇亚近似为高斯工艺模型缩放到大数据的,该模型依靠新的结果进行协方差参数推断。与几个模拟和现实世界数据集的现有方法相比,我们获得了提高的预测准确性。
translated by 谷歌翻译
我们提出了一种变分贝叶斯比例危险模型,用于预测和可变选择的关于高维存活数据。我们的方法基于平均场变分近似,克服了MCMC的高计算成本,而保留有用的特征,提供优异的点估计,并通过后夹层概念提供可变选择的自然机制。我们提出的方法的性能通过广泛的仿真进行评估,并与其他最先进的贝叶斯变量选择方法进行比较,展示了可比或更好的性能。最后,我们展示了如何在两个转录组数据集上使用所提出的方法进行审查的生存结果,其中我们识别具有预先存在的生物解释的基因。
translated by 谷歌翻译
我们提出了一种具有多组特征的监督学习的新方法(“视图”)。合作学习将通常的平方错误丢失与“协议”惩罚相结合,以鼓励从不同数据视图中的预测同意。通过改变协议罚款的重量,我们得到了包括众所周知的早期和晚期融合方法的解决方案。合作学习以自适应方式选择协议(或融合)的程度,使用验证集或交叉验证来估计测试设置预测误差。我们的拟合程序的一个版本是模块化的,其中可以选择适合不同数据视图的不同拟合机制(例如套索,随机森林,升压,神经网络)。在协同正规化线性回归的设置中,该方法将套索罚款与协议处罚相结合。当不同的数据视图共享某些潜在的关系时,该方法可以尤其强大,因为我们的目的是加强的一些基础关系,而每个视图都有其特殊的噪音,我们的目标是减少。我们说明了我们提出的模拟和实际数据示例的提出方法的有效性。
translated by 谷歌翻译
Rapid advancements in collection and dissemination of multi-platform molecular and genomics data has resulted in enormous opportunities to aggregate such data in order to understand, prevent, and treat human diseases. While significant improvements have been made in multi-omic data integration methods to discover biological markers and mechanisms underlying both prognosis and treatment, the precise cellular functions governing these complex mechanisms still need detailed and data-driven de-novo evaluations. We propose a framework called Functional Integrative Bayesian Analysis of High-dimensional Multiplatform Genomic Data (fiBAG), that allows simultaneous identification of upstream functional evidence of proteogenomic biomarkers and the incorporation of such knowledge in Bayesian variable selection models to improve signal detection. fiBAG employs a conflation of Gaussian process models to quantify (possibly non-linear) functional evidence via Bayes factors, which are then mapped to a novel calibrated spike-and-slab prior, thus guiding selection and providing functional relevance to the associations with patient outcomes. Using simulations, we illustrate how integrative methods with functional calibration have higher power to detect disease related markers than non-integrative approaches. We demonstrate the profitability of fiBAG via a pan-cancer analysis of 14 cancer types to identify and assess the cellular mechanisms of proteogenomic markers associated with cancer stemness and patient survival.
translated by 谷歌翻译
我们提出了一种估计具有标称分类数据的高维线性模型的方法。我们的估算器,称为范围,通过使其相应的系数完全相等来融合水平。这是通过对分类变量的系数的阶数统计之间的差异之间的差异来实现这一点,从而聚类系数。我们提供了一种算法,用于精确和有效地计算在具有潜在许多级别的单个变量的情况下的总体上的最小值的全局最小值,并且在多变量情况下在块坐标血管下降过程中使用它。我们表明,利用未知级别融合的Oracle最小二乘解决方案是具有高概率的坐标血缘的极限点,只要真正的级别具有一定的最小分离;已知这些条件在单变量案例中最小。我们展示了在一系列实际和模拟数据集中的范围的有利性能。 R包的R包Catreg实现线性模型的范围,也可以在CRAN上提供逻辑回归的版本。
translated by 谷歌翻译
在本文中,我们提出了一个通用框架,用于估计以用户定义的公平程度来估算回归模型。我们将公平性作为模型选择步骤,在该步骤中,我们选择山脊惩罚的价值来控制敏感属性的效果。然后,我们估计模型的参数,条件是所选的惩罚值。我们的建议在数学上很简单,其解决方案部分为封闭形式,并产生回归系数的估计值,这些系数直观地解释为公平水平的函数。此外,它很容易扩展到广义线性模型,内核回归模型和其他惩罚。它可以适应公平的多种定义。我们将我们的方法与Komiyama等人的回归模型进行了比较。 (2018年),它实现了一个理想的线性回归模型;以及Zafar等人的公平模型。 (2019)。我们在六个不同的数据集上对这些方法进行了经验评估,我们发现我们的建议提供了更好的合适性和更好的预测准确性,以达到相同的公平水平。此外,我们强调了Komiyama等人的原始实验评估中的偏见来源。 (2018)。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
This paper presents a machine learning approach to multidimensional item response theory (MIRT), a class of latent factor models that can be used to model and predict student performance from observed assessment data. Inspired by collaborative filtering, we define a general class of models that includes many MIRT models. We discuss the use of penalized joint maximum likelihood (JML) to estimate individual models and cross-validation to select the best performing model. This model evaluation process can be optimized using batching techniques, such that even sparse large-scale data can be analyzed efficiently. We illustrate our approach with simulated and real data, including an example from a massive open online course (MOOC). The high-dimensional model fit to this large and sparse dataset does not lend itself well to traditional methods of factor interpretation. By analogy to recommender-system applications, we propose an alternative "validation" of the factor model, using auxiliary information about the popularity of items consulted during an open-book exam in the course.
translated by 谷歌翻译
PyStacked通过Python的Scikit-Lear}实现了堆积的概括(Wolpert,1992),以进行回归和二进制分类。堆叠将多个监督的机器学习者(“基础”或“级别”学习者)结合到一个学习者中。当前支持的基础学习者包括正规化回归,随机森林,梯度增强的树木,支撑矢量机和前馈神经网(多层感知器)。PyStacked也可以用作“常规”机器学习程序,以适合单个基础学习者,因此为Scikit-Learn的机器学习算法提供了易于使用的API。
translated by 谷歌翻译
Transfer learning uses a data model, trained to make predictions or inferences on data from one population, to make reliable predictions or inferences on data from another population. Most existing transfer learning approaches are based on fine-tuning pre-trained neural network models, and fail to provide crucial uncertainty quantification. We develop a statistical framework for model predictions based on transfer learning, called RECaST. The primary mechanism is a Cauchy random effect that recalibrates a source model to a target population; we mathematically and empirically demonstrate the validity of our RECaST approach for transfer learning between linear models, in the sense that prediction sets will achieve their nominal stated coverage, and we numerically illustrate the method's robustness to asymptotic approximations for nonlinear models. Whereas many existing techniques are built on particular source models, RECaST is agnostic to the choice of source model. For example, our RECaST transfer learning approach can be applied to a continuous or discrete data model with linear or logistic regression, deep neural network architectures, etc. Furthermore, RECaST provides uncertainty quantification for predictions, which is mostly absent in the literature. We examine our method's performance in a simulation study and in an application to real hospital data.
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
贝叶斯变量选择方法是适合和推断稀疏高维线性回归模型的强大技术。但是,许多在计算密集型上或需要对模型参数进行限制性的先验分布。基于可能性的惩罚方法在计算方面更友好,但是推理需要资源密集型的改装技术。在本文中,我们提出了一种有效而强大的贝叶斯方法,用于稀疏高维线性回归。通过使用插件的经验贝叶斯估算超参数的估计值,需要对参数的最小化假设。有效的最大后验概率(MAP)估计是通过使用分区和扩展期望最大化(ECM)算法完成的。结果是应用于稀疏高维线性回归的经验贝叶斯ECM(探针)算法。我们提出了估计未来价值预测的可靠和预测间隔的方法。我们将预测的经验特性和我们的预测推断与可比方法进行了比较,并通过大量的模拟研究和对癌细胞系药物反应研究的分析进行了比较。提出的方法在R软件包探针中实现。
translated by 谷歌翻译