电感保串预测(ICP)是一组无分布和模型的不可分割算法,该算法旨在以用户定义的置信度,并具有覆盖范围保证。与其具有\ textIt {点预测},即在回归的情况下或多类分类中的单个类中的实际数字,而是使用ICP输出校准的模型分别为间隔或一组类。 ICP在高风险设置中特别重要,我们希望真正的输出属于具有高概率的预测集。例如,分类模型可能会输出给定磁共振图像患者没有潜在疾病的磁共振图像。但是,该模型输出基于最可能的类别,第二个最有可能的类可能表明患者患有15 \%的脑肿瘤或其他严重疾病的机会,因此应进行进一步的检查。因此,使用ICP更具信息性,我们认为这应该是产生预测的标准方式。本文是动手介绍,这意味着我们将在介绍该理论时提供示例。
translated by 谷歌翻译
共形分位回归是一种继承保形预测和分数回归的优势的程序。也就是说,我们使用分位数回归来估计真正的条件分位数,然后在校准集中应用一个共形步骤以确保边缘覆盖率。通过这种方式,我们获得了解释异质性的自适应预测间隔。然而,如(Romano等,2019)所述,上述形式缺乏适应性。为了克服这一限制,我们建议在估计有条件的分位数后使用分位数回归后应用单个共形步骤,而是建议将解释变量通过优化的k均值加权的解释变量聚集,并应用k的共形步骤。为了证明此改进的版本优于共形分位数回归的经典版本,并且更适合异方差,我们可以广泛比较开放数据集中两者的预测间隔。
translated by 谷歌翻译
估计与机器学习预测(ML)模型相关的不确定性对于评估其稳健性和预测能力至关重要。在此提交中,我们介绍了Mapie(模型不可知的预测间隔估计器),这是一个开源Python库,可量化单输出回归和多类分类任务的ML模型的不确定性。Mapie实施了保形预测方法,使用户可以轻松地计算出在边际覆盖范围上具有强大理论保证的不确定性,并在模型或基础数据分布上进行了轻微的假设。Mapie托管在Scikit-Learn-Contrib上,完全“ Scikit-Learn兼容”。因此,它接受带有Scikit-Learn API的任何类型的回归器或分类器。该库可在以下网址获得:https://github.com/scikit-learn-contrib/mapie/。
translated by 谷歌翻译
现在通常用于高风险设置,如医疗诊断,如医疗诊断,那么需要不确定量化,以避免后续模型失败。无分发的不确定性量化(无分布UQ)是用户友好的范式,用于为这种预测创建统计上严格的置信区间/集合。批判性地,间隔/集合有效而不进行分布假设或模型假设,即使具有最多许多DataPoints也具有显式保证。此外,它们适应输入的难度;当输入示例很困难时,不确定性间隔/集很大,信号传达模型可能是错误的。在没有多大的工作和没有再培训的情况下,可以在任何潜在的算法(例如神经网络)上使用无分​​发方法,以产生置信度集,以便包含用户指定概率,例如90%。实际上,这些方法易于理解和一般,应用于计算机视觉,自然语言处理,深度加强学习等领域出现的许多现代预测问题。这种实践介绍是针对对无需统计学家的免费UQ的实际实施感兴趣的读者。我们通过实际的理论和无分发UQ的应用领导读者,从保形预测开始,并使无关的任何风险的分布控制,如虚假发现率,假阳性分布检测,等等。我们将包括Python中的许多解释性插图,示例和代码样本,具有Pytorch语法。目标是提供读者对无分配UQ的工作理解,使它们能够将置信间隔放在算法上,其中包含一个自包含的文档。
translated by 谷歌翻译
卷积图像分类器可以实现高预测的准确性,但是量化其不确定性仍然是尚未解决的挑战,阻碍了他们在结果环境中的部署。现有的不确定性量化技术(例如PLATT缩放)试图校准网络的概率估计,但它们没有正式的保证。我们提出了一种算法,该算法会修改任何分类器,以输出包含具有用户指定概率的真实标签的预测集,例如90%。该算法像PLATT缩放一样简单快捷,但为每个模型和数据集提供了正式的有限样本覆盖范围保证。我们的方法修改了现有的保形预测算法,从而通过在PLATT缩放后正规化不太可能的类别分数来提供更稳定的预测集。在具有RESNET-152和其他分类器的ImageNet和Imagenet-V2的实验中,我们的方案的表现优于现有方法,通过通常比独立PLATT缩放基线小的5到10个因素实现覆盖范围。
translated by 谷歌翻译
机器学习方法越来越广泛地用于医疗保健,运输和金融等高危环境中。在这些环境中,重要的是,模型要产生校准的不确定性以反映其自信并避免失败。在本文中,我们调查了有关深度学习的不确定性定量(UQ)的最新著作,特别是针对其数学属性和广泛适用性的无分配保形方法。我们将涵盖共形方法的理论保证,引入在时空数据的背景下提高UQ的校准和效率的技术,并讨论UQ在安全决策中的作用。
translated by 谷歌翻译
共形预测是一种简单而强大的工具,可以无需任何分布假设来量化不确定性。但是,现有方法只能提供平均覆盖范围保证,这与更强的条件覆盖范围保证相比并不理想。尽管实现确切的条件覆盖范围是不可能的,但近似条件覆盖范围仍然是一个重要的研究方向。在本文中,我们通过利用条件分布的局部近似来提出修改的不符合得分。修改后的分数继承了分裂保形方法的精神,与完整的保形方法相比,这是简单而有效的,但更好地近似条件覆盖范围保证。各种数据集的经验结果,包括图像上的高维年龄回归,表明我们的方法与现有方法相比提供了更紧密的间隔。
translated by 谷歌翻译
在这项工作中,我们对基本思想和新颖的发展进行了综述的综述,这是基于最小的假设的一种无创新的,无分配的,非参数预测的方法 - 能够以非常简单的方式预测集屈服在有限样本案例中,在统计意义上也有效。论文中提供的深入讨论涵盖了共形预测的理论基础,然后继续列出原始想法的更高级的发展和改编。
translated by 谷歌翻译
We present a new distribution-free conformal prediction algorithm for sequential data (e.g., time series), called the \textit{sequential predictive conformal inference} (\texttt{SPCI}). We specifically account for the nature that the time series data are non-exchangeable, and thus many existing conformal prediction algorithms based on temporal residuals are not applicable. The main idea is to exploit the temporal dependence of conformity scores; thus, the past conformity scores contain information about future ones. Then we cast the problem of conformal prediction interval as predicting the quantile of a future residual, given a prediction algorithm. Theoretically, we establish asymptotic valid conditional coverage upon extending consistency analyses in quantile regression. Using simulation and real-data experiments, we demonstrate a significant reduction in interval width of \texttt{SPCI} compared to other existing methods under the desired empirical coverage.
translated by 谷歌翻译
我们研究保形预测的鲁棒性,这是标记噪声的不确定性定量的强大工具。我们的分析解决了回归和分类问题,表征了何时以及如何构建正确覆盖未观察到的无噪音地面真相标签的不确定性集。通过风格化的理论示例和实际实验,我们认为天真的保形预测涵盖了无噪声的地面真相标签,除非噪声分布是对手设计的。这使我们相信,除了病理数据分布或噪声源外,对标签噪声的纠正是不必要的。在这种情况下,我们还可以在保形预测算法中校正有界大小的噪声,以确保在没有得分或数据规律性的情况下正确覆盖地面真相标签。
translated by 谷歌翻译
我们开发了一个框架,用于在线环境中使用有效的覆盖范围保证构建不确定性集,其中基础数据分布可以急剧(甚至对手)随着时间的推移而发生巨大变化。我们提出的技术非常灵活,因为它可以与任何在线学习算法集成,需要最低限度的实施工作和计算成本。我们方法比现有替代方案的关键优势(也基于共形推断)是我们不需要将数据分为培训和保持校准集。这使我们能够以完全在线的方式拟合预测模型,并利用最新的观察结果来构建校准的不确定性集。因此,与现有技术相反,(i)我们构建的集合可以迅速适应分布的新变化; (ii)我们的过程不需要在每个时间步骤进行改装。使用合成和现实世界的基准数据集,我们证明了理论的有效性以及提案对现有技术的提高绩效。为了证明所提出的方法的更大灵活性,我们展示了如何为多出输出回归问题构造有效的间隔,而以前的顺序校准方法由于不切实际的计算和内存需求而无法处理。
translated by 谷歌翻译
在将任务委派给自治系统之前,人类操作员可能需要保证对系统的行为。本文扩展了对功能数据的共形预测的先前工作,并扩展了整数分数回归,以提供对马尔可夫决策过程(MDP)执行固定控制策略的自主系统的未来行为的共形预测间隔。预测间隔是通过将共校正校正应用于分位数回归计算的预测间隔来构建的。结果间隔保证,使用概率$ 1- \ delta $,观察到的轨迹将位于预测间隔内,其中计算概率相对于起始状态分布和MDP的随机性。该方法在MDP上进行了用于入侵物种管理和Starcraft2战斗的方法。
translated by 谷歌翻译
在过去几十年中,已经提出了各种方法,用于估计回归设置中的预测间隔,包括贝叶斯方法,集合方法,直接间隔估计方法和保形预测方法。重要问题是这些方法的校准:生成的预测间隔应该具有预定义的覆盖水平,而不会过于保守。在这项工作中,我们从概念和实验的角度审查上述四类方法。结果来自各个域的基准数据集突出显示从一个数据集中的性能的大波动。这些观察可能归因于违反某些类别的某些方法所固有的某些假设。我们说明了如何将共形预测用作提供不具有校准步骤的方法的方法的一般校准程序。
translated by 谷歌翻译
本文提出了概率共形预测(PCP),这是一种预测推理算法,该算法通过不连续的预测集估算目标变量。给定输入,PCP基于估计生成模型的随机样品构建预测集。它有效且与显式或隐式有条件生成模型兼容。从理论上讲,我们表明PCP可以保证使用有限样品正确的边际覆盖范围。从经验上讲,我们研究了PCP在各种模拟和真实数据集上。与现有的共形推断方法相比,PCP提供了更清晰的预测集。
translated by 谷歌翻译
机器学习(ML)的指数增长引起了极大的兴趣,以量化用户定义的信心水平的每个预测的不确定性。可靠的不确定性定量至关重要,是迈向增加对AI结果的信任的一步。在高风险决策中,它变得尤为重要,在这种决策中,真正的输出必须在置信度范围内具有很高的可能性。共形预测(CP)是一个无分布的不确定性定量框架,可适用于任何黑框模型,并产生预测间隔(PI),这些预测间隔(PIS)在轻度的交换性假设下有效。 CP型方法由于易于实施和计算便宜而变得越来越流行;但是,交换性假设立即排除时间序列预测。尽管最近的论文解决了协变量的转变,但对于一般时间序列预测生产H-Step提前有效PI的问题还不足。为了实现这样的目标,我们提出了一种称为AENBMIMOCQR的新方法(自适应集合批量多输入多输出保形的分数回归),该方法会产生渐近有效的PIS,适合异质驱动时间序列。我们将提出的方法与NN5预测竞争数据集中的最新竞争方法进行比较。所有用于复制实验的代码和数据都可以使用
translated by 谷歌翻译
在过去的十年中,出现了一些用于超参数搜索的新型框架,但大多数依赖于严格的,通常是正常的分布假设,从而限制了搜索模型的灵活性。本文提出了一个基于共形预测的新颖优化框架,假设仅交换性,并允许更大的搜索模型体系结构和方差估计器选择。在密集和卷积神经网络上探索和基准测试了几个这样的模型,并在最终的损失和成就时间中都表现出色。
translated by 谷歌翻译
人们认为,深度学习模型以不可预测的和可能的灾难性方式失败,因此受到了监管AI的监管批准和广泛的临床部署。缺乏统计上严格的不确定性量化是破坏对AI结果的信任的重要因素。无分配不确定性量化的最新发展通过为任意数据分布的黑框模型提供可靠性保证,作为正式有效的有限样本预测间隔,为这些问题提供了实用解决方案。我们的工作将这些新的不确定性定量方法(特别是共形预测)应用于腰椎MRI中脊柱狭窄严重程度的深度学习模型。我们展示了一种用于形成顺序预测集的技术,该技术可以保证在用户定义的概率(置信区间)内包含正确的狭窄严重程度。在通过深度学习模型处理的409个MRI考试的数据集中,共形方法提供了较小的预测集尺寸的紧密覆盖范围。此外,我们通过量化明显成像异常的患病率的提高(例如,运动伪像,金属伪像和肿瘤)可以在预测性能中降低预测性能,从而探索具有高不确定性预测(大预测集)标记病例的潜在临床适用性。与随机病例样本相比。
translated by 谷歌翻译
必须校准不确定性估计值(即准确)和清晰(即信息性),以便有用。这激发了各种重新校准的方法,这些方法使用固定数据将未校准的模型转化为校准模型。但是,由于原始模型也是概率模型,因此现有方法的适用性受到限制。我们在回归中引入了一种用于重新校准的算法类别,我们称为模块化保形校准(MCC)。该框架允许人们将任何回归模型转换为校准的概率模型。 MCC的模块化设计使我们能够对现有算法进行简单调整,以实现良好的分配预测。我们还为MCC算法提供有限样本的校准保证。我们的框架恢复了等渗的重新校准,保形校准和共形间隔预测,这意味着我们的理论结果也适用于这些方法。最后,我们对17个回归数据集进行了MCC的经验研究。我们的结果表明,在我们的框架中设计的新算法实现了接近完美的校准,并相对于现有方法提高了清晰度。
translated by 谷歌翻译
The main objective of Prognostics and Health Management is to estimate the Remaining Useful Lifetime (RUL), namely, the time that a system or a piece of equipment is still in working order before starting to function incorrectly. In recent years, numerous machine learning algorithms have been proposed for RUL estimation, mainly focusing on providing more accurate RUL predictions. However, there are many sources of uncertainty in the problem, such as inherent randomness of systems failure, lack of knowledge regarding their future states, and inaccuracy of the underlying predictive models, making it infeasible to predict the RULs precisely. Hence, it is of utmost importance to quantify the uncertainty alongside the RUL predictions. In this work, we investigate the conformal prediction (CP) framework that represents uncertainty by predicting sets of possible values for the target variable (intervals in the case of RUL) instead of making point predictions. Under very mild technical assumptions, CP formally guarantees that the actual value (true RUL) is covered by the predicted set with a degree of certainty that can be prespecified. We study three CP algorithms to conformalize any single-point RUL predictor and turn it into a valid interval predictor. Finally, we conformalize two single-point RUL predictors, deep convolutional neural networks and gradient boosting, and illustrate their performance on the Commercial Modular Aero-Propulsion System Simulation (C-MAPSS) data sets.
translated by 谷歌翻译
分位数回归是统计学习中的一个基本问题,这是由于需要量化预测中的不确定性或对多样化的人群建模而不过分减少的统计学习。例如,流行病学预测,成本估算和收入预测都可以准确地量化可能的值的范围。因此,在计量经济学,统计和机器学习的多年研究中,已经为这个问题开发了许多模型。而不是提出另一种(新的)算法用于分位数回归,而是采用元观点:我们研究用于汇总任意数量的有条件分位模型的方法,以提高准确性和鲁棒性。我们考虑加权合奏,其中权重不仅可能因单个模型,而且要多于分位数和特征值而变化。我们在本文中考虑的所有模型都可以使用现代深度学习工具包适合,因此可以广泛访问(从实现的角度)和可扩展。为了提高预测分位数的准确性(或等效地,预测间隔),我们开发了确保分位数保持单调排序的工具,并采用保形校准方法。可以使用这些,而无需对原始模型的原始库进行任何修改。我们还回顾了一些围绕分数聚集和相关评分规则的基本理论,并为该文献做出了一些新的结果(例如,在分类或等渗后回归只能提高加权间隔得分的事实)。最后,我们提供了来自两个不同基准存储库的34个数据集的广泛的经验比较套件。
translated by 谷歌翻译