我们研究保形预测的鲁棒性,这是标记噪声的不确定性定量的强大工具。我们的分析解决了回归和分类问题,表征了何时以及如何构建正确覆盖未观察到的无噪音地面真相标签的不确定性集。通过风格化的理论示例和实际实验,我们认为天真的保形预测涵盖了无噪声的地面真相标签,除非噪声分布是对手设计的。这使我们相信,除了病理数据分布或噪声源外,对标签噪声的纠正是不必要的。在这种情况下,我们还可以在保形预测算法中校正有界大小的噪声,以确保在没有得分或数据规律性的情况下正确覆盖地面真相标签。
translated by 谷歌翻译
Deep neural networks are powerful tools to detect hidden patterns in data and leverage them to make predictions, but they are not designed to understand uncertainty and estimate reliable probabilities. In particular, they tend to be overconfident. We begin to address this problem in the context of multi-class classification by developing a novel training algorithm producing models with more dependable uncertainty estimates, without sacrificing predictive power. The idea is to mitigate overconfidence by minimizing a loss function, inspired by advances in conformal inference, that quantifies model uncertainty by carefully leveraging hold-out data. Experiments with synthetic and real data demonstrate this method can lead to smaller conformal prediction sets with higher conditional coverage, after exact calibration with hold-out data, compared to state-of-the-art alternatives.
translated by 谷歌翻译
现在通常用于高风险设置,如医疗诊断,如医疗诊断,那么需要不确定量化,以避免后续模型失败。无分发的不确定性量化(无分布UQ)是用户友好的范式,用于为这种预测创建统计上严格的置信区间/集合。批判性地,间隔/集合有效而不进行分布假设或模型假设,即使具有最多许多DataPoints也具有显式保证。此外,它们适应输入的难度;当输入示例很困难时,不确定性间隔/集很大,信号传达模型可能是错误的。在没有多大的工作和没有再培训的情况下,可以在任何潜在的算法(例如神经网络)上使用无分​​发方法,以产生置信度集,以便包含用户指定概率,例如90%。实际上,这些方法易于理解和一般,应用于计算机视觉,自然语言处理,深度加强学习等领域出现的许多现代预测问题。这种实践介绍是针对对无需统计学家的免费UQ的实际实施感兴趣的读者。我们通过实际的理论和无分发UQ的应用领导读者,从保形预测开始,并使无关的任何风险的分布控制,如虚假发现率,假阳性分布检测,等等。我们将包括Python中的许多解释性插图,示例和代码样本,具有Pytorch语法。目标是提供读者对无分配UQ的工作理解,使它们能够将置信间隔放在算法上,其中包含一个自包含的文档。
translated by 谷歌翻译
卷积图像分类器可以实现高预测的准确性,但是量化其不确定性仍然是尚未解决的挑战,阻碍了他们在结果环境中的部署。现有的不确定性量化技术(例如PLATT缩放)试图校准网络的概率估计,但它们没有正式的保证。我们提出了一种算法,该算法会修改任何分类器,以输出包含具有用户指定概率的真实标签的预测集,例如90%。该算法像PLATT缩放一样简单快捷,但为每个模型和数据集提供了正式的有限样本覆盖范围保证。我们的方法修改了现有的保形预测算法,从而通过在PLATT缩放后正规化不太可能的类别分数来提供更稳定的预测集。在具有RESNET-152和其他分类器的ImageNet和Imagenet-V2的实验中,我们的方案的表现优于现有方法,通过通常比独立PLATT缩放基线小的5到10个因素实现覆盖范围。
translated by 谷歌翻译
A flexible method is developed to construct a confidence interval for the frequency of a queried object in a very large data set, based on a much smaller sketch of the data. The approach requires no knowledge of the data distribution or of the details of the sketching algorithm; instead, it constructs provably valid frequentist confidence intervals for random queries using a conformal inference approach. After achieving marginal coverage for random queries under the assumption of data exchangeability, the proposed method is extended to provide stronger inferences accounting for possibly heterogeneous frequencies of different random queries, redundant queries, and distribution shifts. While the presented methods are broadly applicable, this paper focuses on use cases involving the count-min sketch algorithm and a non-linear variation thereof, to facilitate comparison to prior work. In particular, the developed methods are compared empirically to frequentist and Bayesian alternatives, through simulations and experiments with data sets of SARS-CoV-2 DNA sequences and classic English literature.
translated by 谷歌翻译
在监督的学习中,已经表明,在许多情况下,数据中的标签噪声可以插值而不会受到测试准确性的处罚。我们表明,插值标签噪声会引起对抗性脆弱性,并证明了第一个定理显示标签噪声和对抗性风险在数据分布方面的依赖性。我们的结果几乎是尖锐的,而没有考虑学习算法的电感偏差。我们还表明,感应偏置使标签噪声的效果更强。
translated by 谷歌翻译
我们开发了一个框架,用于在线环境中使用有效的覆盖范围保证构建不确定性集,其中基础数据分布可以急剧(甚至对手)随着时间的推移而发生巨大变化。我们提出的技术非常灵活,因为它可以与任何在线学习算法集成,需要最低限度的实施工作和计算成本。我们方法比现有替代方案的关键优势(也基于共形推断)是我们不需要将数据分为培训和保持校准集。这使我们能够以完全在线的方式拟合预测模型,并利用最新的观察结果来构建校准的不确定性集。因此,与现有技术相反,(i)我们构建的集合可以迅速适应分布的新变化; (ii)我们的过程不需要在每个时间步骤进行改装。使用合成和现实世界的基准数据集,我们证明了理论的有效性以及提案对现有技术的提高绩效。为了证明所提出的方法的更大灵活性,我们展示了如何为多出输出回归问题构造有效的间隔,而以前的顺序校准方法由于不切实际的计算和内存需求而无法处理。
translated by 谷歌翻译
We develop a method to generate predictive regions that cover a multivariate response variable with a user-specified probability. Our work is composed of two components. First, we use a deep generative model to learn a representation of the response that has a unimodal distribution. Existing multiple-output quantile regression approaches are effective in such cases, so we apply them on the learned representation, and then transform the solution to the original space of the response. This process results in a flexible and informative region that can have an arbitrary shape, a property that existing methods lack. Second, we propose an extension of conformal prediction to the multivariate response setting that modifies any method to return sets with a pre-specified coverage level. The desired coverage is theoretically guaranteed in the finite-sample case for any distribution. Experiments conducted on both real and synthetic data show that our method constructs regions that are significantly smaller compared to existing techniques.
translated by 谷歌翻译
We develop a general framework for distribution-free predictive inference in regression, using conformal inference. The proposed methodology allows for the construction of a prediction band for the response variable using any estimator of the regression function. The resulting prediction band preserves the consistency properties of the original estimator under standard assumptions, while guaranteeing finite-sample marginal coverage even when these assumptions do not hold. We analyze and compare, both empirically and theoretically, the two major variants of our conformal framework: full conformal inference and split conformal inference, along with a related jackknife method. These methods offer different tradeoffs between statistical accuracy (length of resulting prediction intervals) and computational efficiency. As extensions, we develop a method for constructing valid in-sample prediction intervals called rank-one-out conformal inference, which has essentially the same computational efficiency as split conformal inference. We also describe an extension of our procedures for producing prediction bands with locally varying length, in order to adapt to heteroskedascity in the data. Finally, we propose a model-free notion of variable importance, called leave-one-covariate-out or LOCO inference. Accompanying this paper is an R package conformalInference that implements all of the proposals we have introduced. In the spirit of reproducibility, all of our empirical results can also be easily (re)generated using this package.
translated by 谷歌翻译
部署在现实世界中时,机器学习模型不可避免地遇到数据分布的变化,并且某些 - 但不是全部分布班可能导致显着的性能下降。在实践中,忽略良性移位可能是有意义的,在该频率下,部署模型的性能不会显着降低,不必要地制作人类专家(或模型再培训)的干预。虽然有几种作品已经开发了用于分发班次的测试,但这些通常使用非顺序方法,或者检测任意班次(良性或有害)或两者。我们认为,用于解雇警告的明智方法(a)检测有害移位,同时忽略良性换档,并且(b)允许连续监测模型性能,而不会增加误报率。在这项工作中,我们设计了简单的顺序工具,用于测试源(训练)和目标(测试)分布之间的差异导致感兴趣的风险函数的显着增加,如准确性或校准。构建时均匀置信度序列的最新进展允许在跟踪过程中积累的统计证据进行高效聚合。设计的框架适用于在执行预测之后(某些)真正标签的设置中,或者当批次以延迟的方式获得时批次。我们通过对模拟和真实数据集的集合的广泛实证研究展示了拟议的框架的功效。
translated by 谷歌翻译
上下文匪徒的大多数非政策评估方法都集中在政策的预期结果上,该方法是通过最多只能提供渐近保证的方法来估算的。但是,在许多应用中,期望可能不是最佳绩效衡量标准,因为它不会捕获结果的可变性。此外,特别是在关键安全环境中,可能需要比渐近正确性更强的保证。为了解决这些局限性,我们考虑了对上下文匪徒的保形预测的新颖应用。给定在行为策略中收集的数据,我们建议\ emph {condormal非政策预测}(COPP),该数据可以在新目标策略下为结果输出可靠的预测间隔。我们提供理论有限样本的保证,而无需做出任何其他假设,而不是标准的上下文匪徒设置,并且与现有的合成和现实世界数据相比,经验证明了COPP的实用性。
translated by 谷歌翻译
Deep neural networks may easily memorize noisy labels present in real-world data, which degrades their ability to generalize. It is therefore important to track and evaluate the robustness of models against noisy label memorization. We propose a metric, called susceptibility, to gauge such memorization for neural networks. Susceptibility is simple and easy to compute during training. Moreover, it does not require access to ground-truth labels and it only uses unlabeled data. We empirically show the effectiveness of our metric in tracking memorization on various architectures and datasets and provide theoretical insights into the design of the susceptibility metric. Finally, we show through extensive experiments on datasets with synthetic and real-world label noise that one can utilize susceptibility and the overall training accuracy to distinguish models that maintain a low memorization on the training set and generalize well to unseen clean data.
translated by 谷歌翻译
本文开发了新型的保形方法,以测试是否从与参考集相同的分布中采样了新的观察结果。以创新的方式将感应性和偏置的共形推断融合,所描述的方法可以以原则性的方式基于已知的分布式数据的依赖侧信息重新权重标准p值,并且可以自动利用最强大的优势来自任何一级和二进制分类器的模型。该解决方案可以通过样品分裂或通过新颖的转置交叉验证+方案来实现,该方案与现有的交叉验证方法相比,由于更严格的保证,这也可能在共形推理的其他应用中有用。在研究错误的发现率控制和在具有几个可能的离群值的多个测试框架内的虚假发现率控制和功率之后,提出的解决方案被证明通过模拟以及用于图像识别和表格数据的应用超过了标准的共形P值。
translated by 谷歌翻译
We present a new distribution-free conformal prediction algorithm for sequential data (e.g., time series), called the \textit{sequential predictive conformal inference} (\texttt{SPCI}). We specifically account for the nature that the time series data are non-exchangeable, and thus many existing conformal prediction algorithms based on temporal residuals are not applicable. The main idea is to exploit the temporal dependence of conformity scores; thus, the past conformity scores contain information about future ones. Then we cast the problem of conformal prediction interval as predicting the quantile of a future residual, given a prediction algorithm. Theoretically, we establish asymptotic valid conditional coverage upon extending consistency analyses in quantile regression. Using simulation and real-data experiments, we demonstrate a significant reduction in interval width of \texttt{SPCI} compared to other existing methods under the desired empirical coverage.
translated by 谷歌翻译
当可能的许多标签是可能的时,选择单个可以导致低精度。一个常见的替代方案,称为顶级k $分类,是选择一些数字$ k $(通常约5),并返回最高分数的$ k $标签。不幸的是,对于明确的案例,$ k> 1 $太多,对于非常暧昧的情况,$ k \ leq 5 $(例如)太小。另一种明智的策略是使用一种自适应方法,其中返回的标签数量随着计算的歧义而变化,但必须平均到所有样本的某些特定的$ k $。我们表示这种替代方案 - $ k $分类。本文在平均值的含量较低的误差率时,本文正式地表征了模糊性曲线,比固定的顶级k $分类更低。此外,它为固定尺寸和自适应分类器提供了自然估计程序,并证明了它们的一致性。最后,它报告了实际图像数据集的实验,揭示了平均值的效益 - 在实践中的价格超过高度k $分类。总的来说,当含糊不清的歧义时,平均值-$ k $永远不会比Top-$ K $更差,并且在我们的实验中,当估计时,这也持有。
translated by 谷歌翻译
共形预测是一种简单而强大的工具,可以无需任何分布假设来量化不确定性。但是,现有方法只能提供平均覆盖范围保证,这与更强的条件覆盖范围保证相比并不理想。尽管实现确切的条件覆盖范围是不可能的,但近似条件覆盖范围仍然是一个重要的研究方向。在本文中,我们通过利用条件分布的局部近似来提出修改的不符合得分。修改后的分数继承了分裂保形方法的精神,与完整的保形方法相比,这是简单而有效的,但更好地近似条件覆盖范围保证。各种数据集的经验结果,包括图像上的高维年龄回归,表明我们的方法与现有方法相比提供了更紧密的间隔。
translated by 谷歌翻译
机器学习方法越来越广泛地用于医疗保健,运输和金融等高危环境中。在这些环境中,重要的是,模型要产生校准的不确定性以反映其自信并避免失败。在本文中,我们调查了有关深度学习的不确定性定量(UQ)的最新著作,特别是针对其数学属性和广泛适用性的无分配保形方法。我们将涵盖共形方法的理论保证,引入在时空数据的背景下提高UQ的校准和效率的技术,并讨论UQ在安全决策中的作用。
translated by 谷歌翻译
在过去几十年中,已经提出了各种方法,用于估计回归设置中的预测间隔,包括贝叶斯方法,集合方法,直接间隔估计方法和保形预测方法。重要问题是这些方法的校准:生成的预测间隔应该具有预定义的覆盖水平,而不会过于保守。在这项工作中,我们从概念和实验的角度审查上述四类方法。结果来自各个域的基准数据集突出显示从一个数据集中的性能的大波动。这些观察可能归因于违反某些类别的某些方法所固有的某些假设。我们说明了如何将共形预测用作提供不具有校准步骤的方法的方法的一般校准程序。
translated by 谷歌翻译
我们提出\ textbf {jaws},这是一系列用于无分配的不确定性量化任务的包装方法,以协变量偏移为中心,以我们的核心方法\ textbf {jaw}为中心,\ textbf {ja} ckknife+ \ textbf {w}八 - 重量。下巴还包括使用高阶影响函数的JAW的计算有效\ TextBf {a} pproximations:\ textbf {jawa}。从理论上讲,我们表明JAW放宽了Jackknife+对数据交换性的假设,即使在协变量转移下,也可以实现相同的有限样本覆盖范围保证。 Jawa在轻度假设下进一步以样本量或影响函数顺序的限制接近JAW保证。此外,我们提出了一种通用方法,以重新利用任何无分配不确定性量化方法及其对风险评估的任务的保证:该任务产生了真正标签在用户指定间隔内的估计概率。然后,我们将\ textbf {Jaw-r}和\ textbf {Jawa-r}作为\ textbf {r} ISK评估的建议方法的重新定义版本。实际上,在各种有偏见的现实世界数据集中,下颌的最先进的预测推理基准都超出了间隔生成和风险评估审计任务的偏差。
translated by 谷歌翻译
最近关于使用嘈杂标签的学习的研究通过利用小型干净数据集来显示出色的性能。特别是,基于模型不可知的元学习的标签校正方法进一步提高了性能,通过纠正了嘈杂的标签。但是,标签错误矫予没有保障措施,导致不可避免的性能下降。此外,每个训练步骤都需要至少三个背部传播,显着减慢训练速度。为了缓解这些问题,我们提出了一种强大而有效的方法,可以在飞行中学习标签转换矩阵。采用转换矩阵使分类器对所有校正样本持怀疑态度,这减轻了错误的错误问题。我们还介绍了一个双头架构,以便在单个反向传播中有效地估计标签转换矩阵,使得估计的矩阵紧密地遵循由标签校正引起的移位噪声分布。广泛的实验表明,我们的方法在训练效率方面表现出比现有方法相当或更好的准确性。
translated by 谷歌翻译