We develop a method to generate predictive regions that cover a multivariate response variable with a user-specified probability. Our work is composed of two components. First, we use a deep generative model to learn a representation of the response that has a unimodal distribution. Existing multiple-output quantile regression approaches are effective in such cases, so we apply them on the learned representation, and then transform the solution to the original space of the response. This process results in a flexible and informative region that can have an arbitrary shape, a property that existing methods lack. Second, we propose an extension of conformal prediction to the multivariate response setting that modifies any method to return sets with a pre-specified coverage level. The desired coverage is theoretically guaranteed in the finite-sample case for any distribution. Experiments conducted on both real and synthetic data show that our method constructs regions that are significantly smaller compared to existing techniques.
translated by 谷歌翻译
我们开发了一个框架,用于在线环境中使用有效的覆盖范围保证构建不确定性集,其中基础数据分布可以急剧(甚至对手)随着时间的推移而发生巨大变化。我们提出的技术非常灵活,因为它可以与任何在线学习算法集成,需要最低限度的实施工作和计算成本。我们方法比现有替代方案的关键优势(也基于共形推断)是我们不需要将数据分为培训和保持校准集。这使我们能够以完全在线的方式拟合预测模型,并利用最新的观察结果来构建校准的不确定性集。因此,与现有技术相反,(i)我们构建的集合可以迅速适应分布的新变化; (ii)我们的过程不需要在每个时间步骤进行改装。使用合成和现实世界的基准数据集,我们证明了理论的有效性以及提案对现有技术的提高绩效。为了证明所提出的方法的更大灵活性,我们展示了如何为多出输出回归问题构造有效的间隔,而以前的顺序校准方法由于不切实际的计算和内存需求而无法处理。
translated by 谷歌翻译
Model-X条件随机测试是有条件独立性测试的通用框架,解锁了新的可能性,以发现与感兴趣的响应有条件相关的特征,同时控制I型错误率。该测试的一个吸引力的优势是,它可以与任何机器学习模型一起使用来设计强大的测试统计数据。反过来,Model-X文献中的常见实践是使用机器学习模型形成测试统计量,经过培训,以最大程度地提高预测精度,希望能够获得良好的功率测试。但是,这里的理想目标是推动模型(在训练期间)以最大程度地提高测试功能,而不仅仅是预测精度。在本文中,我们通过首次引入新型模型拟合方案来弥合这一差距,这些方案旨在明确提高Model-X测试的功能。这是通过引入新的成本函数来完成的,该功能旨在最大化用于衡量有条件独立性违反的测试统计量。使用合成和真实的数据集,我们证明了我们提出的损失函数与各种基本预测模型(Lasso,弹性网和深神经网络)的组合始终增加所获得的正确发现的数量,同时维持I型错误率下的I型错误率控制。
translated by 谷歌翻译
本文提出了概率共形预测(PCP),这是一种预测推理算法,该算法通过不连续的预测集估算目标变量。给定输入,PCP基于估计生成模型的随机样品构建预测集。它有效且与显式或隐式有条件生成模型兼容。从理论上讲,我们表明PCP可以保证使用有限样品正确的边际覆盖范围。从经验上讲,我们研究了PCP在各种模拟和真实数据集上。与现有的共形推断方法相比,PCP提供了更清晰的预测集。
translated by 谷歌翻译
分位数回归是统计学习中的一个基本问题,这是由于需要量化预测中的不确定性或对多样化的人群建模而不过分减少的统计学习。例如,流行病学预测,成本估算和收入预测都可以准确地量化可能的值的范围。因此,在计量经济学,统计和机器学习的多年研究中,已经为这个问题开发了许多模型。而不是提出另一种(新的)算法用于分位数回归,而是采用元观点:我们研究用于汇总任意数量的有条件分位模型的方法,以提高准确性和鲁棒性。我们考虑加权合奏,其中权重不仅可能因单个模型,而且要多于分位数和特征值而变化。我们在本文中考虑的所有模型都可以使用现代深度学习工具包适合,因此可以广泛访问(从实现的角度)和可扩展。为了提高预测分位数的准确性(或等效地,预测间隔),我们开发了确保分位数保持单调排序的工具,并采用保形校准方法。可以使用这些,而无需对原始模型的原始库进行任何修改。我们还回顾了一些围绕分数聚集和相关评分规则的基本理论,并为该文献做出了一些新的结果(例如,在分类或等渗后回归只能提高加权间隔得分的事实)。最后,我们提供了来自两个不同基准存储库的34个数据集的广泛的经验比较套件。
translated by 谷歌翻译
分位数回归(QR)是一个强大的工具,用于估计目标变量$ \ mathrm {y} $的一个或多个条件分位数给定的解释功能$ \ boldsymbol {\ mathrm {x}}} $。 QR的一个限制是,由于其目标函数的提出,它仅针对标量目标变量定义,并且由于分位数的概念对多元分布没有标准定义。最近,由于通过最佳传输将分位数概念对多变量分布的有意义的概括,提出了矢量分位数回归(VQR)作为矢量值目标变量的QR扩展。尽管它优雅,但VQR可以说是由于几个限制而在实践中不适用:(i)假设目标$ \ boldsymbol {\ mathrm {y}} $给定功能$ \ boldsymbol {\ mathrm {\ mathrm {\ mathrm {\ mathrm { {x}} $; (ii)即使在目标维度,回归分位数或特征数量的数量方面,它的确切配方也是棘手的,即使对于适度的问题,并且其放松的双重配方可能违反了估计的分位数的单调性; (iii)当前不存在VQR的快速或可扩展求解器。在这项工作中,我们完全解决了这些局限性,即:(i)将VQR扩展到非线性情况,显示出对线性VQR的实质性改进; (ii)我们提出{矢量单调重排},该方法可确保VQR估计的分位数函数是单调函数; (iii)我们为线性和非线性VQR提供快速的GPU加速求解器,这些求解器保持固定的内存足迹,并证明它们扩展到数百万个样品和数千个分位数; (iv)我们发布了求解器的优化Python软件包,以广泛使用VQR在现实世界应用中的使用。
translated by 谷歌翻译
有效的决策需要了解预测中固有的不确定性。在回归中,这种不确定性可以通过各种方法估算;然而,许多这些方法对调谐进行费力,产生过度自确性的不确定性间隔,或缺乏敏锐度(给予不精确的间隔)。我们通过提出一种通过定义具有两个不同损失功能的神经网络来捕获回归中的预测分布的新方法来解决这些挑战。具体地,一个网络近似于累积分布函数,第二网络近似于其逆。我们将此方法称为合作网络(CN)。理论分析表明,优化的固定点处于理想化的解决方案,并且该方法是渐近的与地面真理分布一致。凭经验,学习是简单且强大的。我们基准CN对两个合成和六个现实世界数据集的几种常见方法,包括预测来自电子健康记录的糖尿病患者的A1C值,其中不确定是至关重要的。在合成数据中,所提出的方法与基本上匹配地面真理。在真实世界数据集中,CN提高了许多性能度量的结果,包括对数似然估计,平均误差,覆盖估计和预测间隔宽度。
translated by 谷歌翻译
A flexible method is developed to construct a confidence interval for the frequency of a queried object in a very large data set, based on a much smaller sketch of the data. The approach requires no knowledge of the data distribution or of the details of the sketching algorithm; instead, it constructs provably valid frequentist confidence intervals for random queries using a conformal inference approach. After achieving marginal coverage for random queries under the assumption of data exchangeability, the proposed method is extended to provide stronger inferences accounting for possibly heterogeneous frequencies of different random queries, redundant queries, and distribution shifts. While the presented methods are broadly applicable, this paper focuses on use cases involving the count-min sketch algorithm and a non-linear variation thereof, to facilitate comparison to prior work. In particular, the developed methods are compared empirically to frequentist and Bayesian alternatives, through simulations and experiments with data sets of SARS-CoV-2 DNA sequences and classic English literature.
translated by 谷歌翻译
在过去几十年中,已经提出了各种方法,用于估计回归设置中的预测间隔,包括贝叶斯方法,集合方法,直接间隔估计方法和保形预测方法。重要问题是这些方法的校准:生成的预测间隔应该具有预定义的覆盖水平,而不会过于保守。在这项工作中,我们从概念和实验的角度审查上述四类方法。结果来自各个域的基准数据集突出显示从一个数据集中的性能的大波动。这些观察可能归因于违反某些类别的某些方法所固有的某些假设。我们说明了如何将共形预测用作提供不具有校准步骤的方法的方法的一般校准程序。
translated by 谷歌翻译
Deep neural networks are powerful tools to detect hidden patterns in data and leverage them to make predictions, but they are not designed to understand uncertainty and estimate reliable probabilities. In particular, they tend to be overconfident. We begin to address this problem in the context of multi-class classification by developing a novel training algorithm producing models with more dependable uncertainty estimates, without sacrificing predictive power. The idea is to mitigate overconfidence by minimizing a loss function, inspired by advances in conformal inference, that quantifies model uncertainty by carefully leveraging hold-out data. Experiments with synthetic and real data demonstrate this method can lead to smaller conformal prediction sets with higher conditional coverage, after exact calibration with hold-out data, compared to state-of-the-art alternatives.
translated by 谷歌翻译
We develop a general framework for distribution-free predictive inference in regression, using conformal inference. The proposed methodology allows for the construction of a prediction band for the response variable using any estimator of the regression function. The resulting prediction band preserves the consistency properties of the original estimator under standard assumptions, while guaranteeing finite-sample marginal coverage even when these assumptions do not hold. We analyze and compare, both empirically and theoretically, the two major variants of our conformal framework: full conformal inference and split conformal inference, along with a related jackknife method. These methods offer different tradeoffs between statistical accuracy (length of resulting prediction intervals) and computational efficiency. As extensions, we develop a method for constructing valid in-sample prediction intervals called rank-one-out conformal inference, which has essentially the same computational efficiency as split conformal inference. We also describe an extension of our procedures for producing prediction bands with locally varying length, in order to adapt to heteroskedascity in the data. Finally, we propose a model-free notion of variable importance, called leave-one-covariate-out or LOCO inference. Accompanying this paper is an R package conformalInference that implements all of the proposals we have introduced. In the spirit of reproducibility, all of our empirical results can also be easily (re)generated using this package.
translated by 谷歌翻译
交叉验证是一种广泛使用的技术来估计预测误差,但其行为很复杂且不完全理解。理想情况下,人们想认为,交叉验证估计手头模型的预测错误,适合训练数据。我们证明,普通最小二乘拟合的线性模型并非如此。相反,它估计模型的平均预测误差适合于同一人群提取的其他看不见的训练集。我们进一步表明,这种现象发生在大多数流行的预测误差估计中,包括数据拆分,自举和锦葵的CP。接下来,从交叉验证得出的预测误差的标准置信区间可能的覆盖范围远低于所需水平。由于每个数据点都用于训练和测试,因此每个折叠的测量精度之间存在相关性,因此方差的通常估计值太小。我们引入了嵌套的交叉验证方案,以更准确地估计该方差,并从经验上表明,在传统的交叉验证间隔失败的许多示例中,这种修改导致间隔大致正确覆盖。
translated by 谷歌翻译
我们研究保形预测的鲁棒性,这是标记噪声的不确定性定量的强大工具。我们的分析解决了回归和分类问题,表征了何时以及如何构建正确覆盖未观察到的无噪音地面真相标签的不确定性集。通过风格化的理论示例和实际实验,我们认为天真的保形预测涵盖了无噪声的地面真相标签,除非噪声分布是对手设计的。这使我们相信,除了病理数据分布或噪声源外,对标签噪声的纠正是不必要的。在这种情况下,我们还可以在保形预测算法中校正有界大小的噪声,以确保在没有得分或数据规律性的情况下正确覆盖地面真相标签。
translated by 谷歌翻译
现在通常用于高风险设置,如医疗诊断,如医疗诊断,那么需要不确定量化,以避免后续模型失败。无分发的不确定性量化(无分布UQ)是用户友好的范式,用于为这种预测创建统计上严格的置信区间/集合。批判性地,间隔/集合有效而不进行分布假设或模型假设,即使具有最多许多DataPoints也具有显式保证。此外,它们适应输入的难度;当输入示例很困难时,不确定性间隔/集很大,信号传达模型可能是错误的。在没有多大的工作和没有再培训的情况下,可以在任何潜在的算法(例如神经网络)上使用无分​​发方法,以产生置信度集,以便包含用户指定概率,例如90%。实际上,这些方法易于理解和一般,应用于计算机视觉,自然语言处理,深度加强学习等领域出现的许多现代预测问题。这种实践介绍是针对对无需统计学家的免费UQ的实际实施感兴趣的读者。我们通过实际的理论和无分发UQ的应用领导读者,从保形预测开始,并使无关的任何风险的分布控制,如虚假发现率,假阳性分布检测,等等。我们将包括Python中的许多解释性插图,示例和代码样本,具有Pytorch语法。目标是提供读者对无分配UQ的工作理解,使它们能够将置信间隔放在算法上,其中包含一个自包含的文档。
translated by 谷歌翻译
对未来观察的预测是一个重要且具有挑战性的问题。分别量化预测不确定性使用预测区域和预测分布的两种主流方法,后者认为更具信息性,因为它可以执行其他与预测相关的任务。有效性的标准概念(我们在这里称为1型有效性)着重于预测区域的覆盖范围,而与预测分布执行的其他与预测相关的任务相关的有效性概念则缺乏。在这里,我们提出了一个新概念,称为2型有效性,与这些其他预测任务有关。我们建立了2型有效性和相干性能之间的联系,并表明为实现它而需要不精确的概率考虑因素。我们继续表明,可以通过将共形预测输出作为辅音合理性度量的轮廓函数来实现两种类型的预测有效性。我们还基于新的非参数推论模型构建提供了保​​形预测的替代表征,其中辅音的出现是自然的,并证明了其有效性。
translated by 谷歌翻译
共形预测是一种简单而强大的工具,可以无需任何分布假设来量化不确定性。但是,现有方法只能提供平均覆盖范围保证,这与更强的条件覆盖范围保证相比并不理想。尽管实现确切的条件覆盖范围是不可能的,但近似条件覆盖范围仍然是一个重要的研究方向。在本文中,我们通过利用条件分布的局部近似来提出修改的不符合得分。修改后的分数继承了分裂保形方法的精神,与完整的保形方法相比,这是简单而有效的,但更好地近似条件覆盖范围保证。各种数据集的经验结果,包括图像上的高维年龄回归,表明我们的方法与现有方法相比提供了更紧密的间隔。
translated by 谷歌翻译
机器学习方法越来越广泛地用于医疗保健,运输和金融等高危环境中。在这些环境中,重要的是,模型要产生校准的不确定性以反映其自信并避免失败。在本文中,我们调查了有关深度学习的不确定性定量(UQ)的最新著作,特别是针对其数学属性和广泛适用性的无分配保形方法。我们将涵盖共形方法的理论保证,引入在时空数据的背景下提高UQ的校准和效率的技术,并讨论UQ在安全决策中的作用。
translated by 谷歌翻译
在将任务委派给自治系统之前,人类操作员可能需要保证对系统的行为。本文扩展了对功能数据的共形预测的先前工作,并扩展了整数分数回归,以提供对马尔可夫决策过程(MDP)执行固定控制策略的自主系统的未来行为的共形预测间隔。预测间隔是通过将共校正校正应用于分位数回归计算的预测间隔来构建的。结果间隔保证,使用概率$ 1- \ delta $,观察到的轨迹将位于预测间隔内,其中计算概率相对于起始状态分布和MDP的随机性。该方法在MDP上进行了用于入侵物种管理和Starcraft2战斗的方法。
translated by 谷歌翻译
必须校准不确定性估计值(即准确)和清晰(即信息性),以便有用。这激发了各种重新校准的方法,这些方法使用固定数据将未校准的模型转化为校准模型。但是,由于原始模型也是概率模型,因此现有方法的适用性受到限制。我们在回归中引入了一种用于重新校准的算法类别,我们称为模块化保形校准(MCC)。该框架允许人们将任何回归模型转换为校准的概率模型。 MCC的模块化设计使我们能够对现有算法进行简单调整,以实现良好的分配预测。我们还为MCC算法提供有限样本的校准保证。我们的框架恢复了等渗的重新校准,保形校准和共形间隔预测,这意味着我们的理论结果也适用于这些方法。最后,我们对17个回归数据集进行了MCC的经验研究。我们的结果表明,在我们的框架中设计的新算法实现了接近完美的校准,并相对于现有方法提高了清晰度。
translated by 谷歌翻译
卷积图像分类器可以实现高预测的准确性,但是量化其不确定性仍然是尚未解决的挑战,阻碍了他们在结果环境中的部署。现有的不确定性量化技术(例如PLATT缩放)试图校准网络的概率估计,但它们没有正式的保证。我们提出了一种算法,该算法会修改任何分类器,以输出包含具有用户指定概率的真实标签的预测集,例如90%。该算法像PLATT缩放一样简单快捷,但为每个模型和数据集提供了正式的有限样本覆盖范围保证。我们的方法修改了现有的保形预测算法,从而通过在PLATT缩放后正规化不太可能的类别分数来提供更稳定的预测集。在具有RESNET-152和其他分类器的ImageNet和Imagenet-V2的实验中,我们的方案的表现优于现有方法,通过通常比独立PLATT缩放基线小的5到10个因素实现覆盖范围。
translated by 谷歌翻译