估计分配转移的基于软件AI的医疗设备的测试性能对于评估临床部署之前的安全性,效率和可用性至关重要。由于受管制的医疗设备软件的性质以及获取大量标记的医疗数据集的困难,我们考虑了在未标记的目标域上预测任意黑框模型的测试准确性的任务,而无需修改原始培训过程或原始训练过程或原始源数据的任何分布假设(即,我们将模型视为“黑框”,仅使用预测的输出响应)。我们在几种临床上相关的分配转移类型(机构,硬件扫描仪,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,Atlas,乳房X线摄影,皮肤病学和组织病理学)下,提出了一种基于共形预测的“黑盒”测试估计技术,并根据三个医学成像数据集(乳房X线摄影,皮肤病学和组织病理学)对其他方法进行评估。医院)。我们希望通过促进黑盒模型的实用有效估计技术,医疗设备的制造商将制定更标准化和现实的评估程序,以提高临床AI工具的鲁棒性和可信度。
translated by 谷歌翻译
乳腺癌是最常见的癌症,乳房X线摄影筛查的早期检测对于改善患者预后至关重要。评估乳房X线乳房密度在临床上很重要,因为浓密的乳房具有更高的风险,并且更有可能阻塞肿瘤。专家的手动评估既耗时又受评估者间的可变性。因此,对乳房X线乳房密度评估的深度学习方法的发展有所增加。尽管深度学习在乳房X线摄影的应用中表现出了令人印象深刻的表现,但在仍然相对较少的深度学习系统中的临床部署中;从历史上看,乳房X线摄影计算机辅助诊断(CAD)已过分宣传,无法提供。这部分是由于无法直观地量化临床医生算法的不确定性,这将大大提高可用性。共形预测非常适合增加对深度学习工具的可靠和信任,但它们缺乏对医疗数据集的现实评估。在本文中,我们介绍了应用于医学成像任务的三个可能应用的详细分析:分配转移表征,预测质量的改善和亚组公平分析。我们的结果表明,无分配不确定性量化技术的潜力可以增强对AI算法的信任并加快其翻译为使用。
translated by 谷歌翻译
机器学习模型通常部署在与训练设置不同的测试设置中,可能会导致由于域移动而导致模型性能下降。如果我们可以估计预先训练的模型将在特定部署设置(例如某个诊所)上实现的性能,我们可以判断该模型是否可以安全部署,或者其性能是否在特定数据上不可接受。现有方法基于对部署域中未标记的测试数据的预测信心进行估算。我们发现现有的方法与呈现阶级失衡的数据困难,因为用于校准置信度的方法不会考虑阶级不平衡引起的偏见,因此未能估算阶级的准确性。在这里,我们在不平衡数据集的性能估计框架内介绍了班级校准。具体而言,我们得出了基于最新置信度的模型评估方法(包括温度缩放(TS),信心差异(DOC)和平均阈值置信度(A​​TC))的最新置信度评估方法的特定于类的修改。我们还将方法扩展到图像分割中的骰子相似性系数(DSC)。我们对四个任务进行实验,并找到所提出的修改一致提高了数据集的估计精度。与先前方法相比,我们的方法在自然域移动下的分类中提高了准确性估计,在自然域移动下的分类中提高了18 \%的估计精度。
translated by 谷歌翻译
现实世界机器学习部署的特点是源(训练)和目标(测试)分布之间的不匹配,可能导致性能下降。在这项工作中,我们研究了仅使用标记的源数据和未标记的目标数据来预测目标域精度的方法。我们提出了平均阈值的置信度(A​​TC),一种实用的方法,用于了解模型的置信度的阈值,预测精度作为模型置信度超过该阈值的未标记示例的分数。 ATC优于多种模型架构的先前方法,分发班次类型(例如,由于综合损坏,数据集再现或新颖的群体)和数据集(野外,想象成,品种,CNIST)。在我们的实验中,ATC估计目标性能$ 2 $ 2美元 - 比以前的方法更准确地获得4美元。我们还探讨了问题的理论基础,证明通常,识别精度与识别最佳预测因子一样难以识别,因此,任何方法的功效都依赖于(可能是未列区)假设对移位的性质。最后,在一些玩具分布中分析了我们的方法,我们提供了有关其工作时的见解。
translated by 谷歌翻译
人们认为,深度学习模型以不可预测的和可能的灾难性方式失败,因此受到了监管AI的监管批准和广泛的临床部署。缺乏统计上严格的不确定性量化是破坏对AI结果的信任的重要因素。无分配不确定性量化的最新发展通过为任意数据分布的黑框模型提供可靠性保证,作为正式有效的有限样本预测间隔,为这些问题提供了实用解决方案。我们的工作将这些新的不确定性定量方法(特别是共形预测)应用于腰椎MRI中脊柱狭窄严重程度的深度学习模型。我们展示了一种用于形成顺序预测集的技术,该技术可以保证在用户定义的概率(置信区间)内包含正确的狭窄严重程度。在通过深度学习模型处理的409个MRI考试的数据集中,共形方法提供了较小的预测集尺寸的紧密覆盖范围。此外,我们通过量化明显成像异常的患病率的提高(例如,运动伪像,金属伪像和肿瘤)可以在预测性能中降低预测性能,从而探索具有高不确定性预测(大预测集)标记病例的潜在临床适用性。与随机病例样本相比。
translated by 谷歌翻译
In the past years, deep learning has seen an increase of usage in the domain of histopathological applications. However, while these approaches have shown great potential, in high-risk environments deep learning models need to be able to judge their own uncertainty and be able to reject inputs when there is a significant chance of misclassification. In this work, we conduct a rigorous evaluation of the most commonly used uncertainty and robustness methods for the classification of Whole-Slide-Images under domain shift using the H\&E stained Camelyon17 breast cancer dataset. Although it is known that histopathological data can be subject to strong domain shift and label noise, to our knowledge this is the first work that compares the most common methods for uncertainty estimation under these aspects. In our experiments, we compare Stochastic Variational Inference, Monte-Carlo Dropout, Deep Ensembles, Test-Time Data Augmentation as well as combinations thereof. We observe that ensembles of methods generally lead to higher accuracies and better calibration and that Test-Time Data Augmentation can be a promising alternative when choosing an appropriate set of augmentations. Across methods, a rejection of the most uncertain tiles leads to a significant increase in classification accuracy on both in-distribution as well as out-of-distribution data. Furthermore, we conduct experiments comparing these methods under varying conditions of label noise. We observe that the border regions of the Camelyon17 dataset are subject to label noise and evaluate the robustness of the included methods against different noise levels. Lastly, we publish our code framework to facilitate further research on uncertainty estimation on histopathological data.
translated by 谷歌翻译
最近,Miller等。结果表明,模型的分布(ID)精度与几个OOD基准上的分布(OOD)精度具有很强的线性相关性 - 一种将它们称为“准确性”的现象。虽然一种用于模型选择的有用工具(即,最有可能执行最佳OOD的模型是具有最高ID精度的模型),但此事实无助于估计模型的实际OOD性能,而无需访问标记的OOD验证集。在本文中,我们展示了一种类似但令人惊讶的现象,也与神经网络分类器对之间的一致性一致:每当在线准确性时,我们都会观察到任何两个神经网络的预测之间的OOD一致性(具有潜在的不同架构)还观察到与他们的ID协议有很强的线性相关性。此外,我们观察到OOD与ID协议的斜率和偏置与OOD与ID准确性的偏差非常匹配。我们称之为“协议”的现象具有重要的实际应用:没有任何标记的数据,我们可以预测分类器的OOD准确性},因为只需使用未标记的数据就可以估算OOD一致性。我们的预测算法在同意在线达成的变化中都优于先前的方法,而且令人惊讶的是,当准确性不在线上时。这种现象还为深度神经网络提供了新的见解:与在线的准确性不同,一致性似乎仅适用于神经网络分类器。
translated by 谷歌翻译
The ability to quickly and accurately identify covariate shift at test time is a critical and often overlooked component of safe machine learning systems deployed in high-risk domains. While methods exist for detecting when predictions should not be made on out-of-distribution test examples, identifying distributional level differences between training and test time can help determine when a model should be removed from the deployment setting and retrained. In this work, we define harmful covariate shift (HCS) as a change in distribution that may weaken the generalization of a predictive model. To detect HCS, we use the discordance between an ensemble of classifiers trained to agree on training data and disagree on test data. We derive a loss function for training this ensemble and show that the disagreement rate and entropy represent powerful discriminative statistics for HCS. Empirically, we demonstrate the ability of our method to detect harmful covariate shift with statistical certainty on a variety of high-dimensional datasets. Across numerous domains and modalities, we show state-of-the-art performance compared to existing methods, particularly when the number of observed test samples is small.
translated by 谷歌翻译
在本文中,我们研究了现代神经网络的事后校准,这个问题近年来引起了很多关注。已经为任务提出了许多不同复杂性的校准方法,但是关于这些任务的表达方式尚无共识。我们专注于置信度缩放的任务,特别是在概括温度缩放的事后方法上,我们将其称为自适应温度缩放家族。我们分析了改善校准并提出可解释方法的表达功能。我们表明,当有大量数据复杂模型(例如神经网络)产生更好的性能时,但是当数据量受到限制时,很容易失败,这是某些事后校准应用(例如医学诊断)的常见情况。我们研究表达方法在理想条件和设计更简单的方法下学习但对这些表现良好的功能具有强烈的感应偏见的功能。具体而言,我们提出了基于熵的温度缩放,这是一种简单的方法,可根据其熵缩放预测的置信度。结果表明,与其他方法相比,我们的方法可获得最先进的性能,并且与复杂模型不同,它对数据稀缺是可靠的。此外,我们提出的模型可以更深入地解释校准过程。
translated by 谷歌翻译
当疑问以获得更好的有效精度时,选择性分类允许模型放弃预测(例如,说“我不知道”)。尽管典型的选择性模型平均可以有效地产生更准确的预测,但它们仍可能允许具有很高置信度的错误预测,或者跳过置信度较低的正确预测。提供校准的不确定性估计以及预测(与真实频率相对应的概率)以及具有平均准确的预测一样重要。但是,不确定性估计对于某些输入可能不可靠。在本文中,我们开发了一种新的选择性分类方法,其中我们提出了一种拒绝“不确定”不确定性的示例的方法。通过这样做,我们旨在通过对所接受示例的分布进行{良好校准}的不确定性估计进行预测,这是我们称为选择性校准的属性。我们提出了一个用于学习选择性校准模型的框架,其中训练了单独的选择器网络以改善给定基本模型的选择性校准误差。特别是,我们的工作重点是实现强大的校准,该校准有意地设计为在室外数据上进行测试。我们通过受分配强大的优化启发的训练策略实现了这一目标,在该策略中,我们将模拟输入扰动应用于已知的,内域培训数据。我们证明了方法对多个图像分类和肺癌风险评估任务的经验有效性。
translated by 谷歌翻译
现在众所周知,神经网络对其预测的信心很高,导致校准不良。弥补这一点的最常见的事后方法是执行温度缩放,这可以通过将逻辑缩放为固定值来调整任何输入的预测的信心。尽管这种方法通常会改善整个测试数据集中的平均校准,但无论给定输入的分类是否正确还是不正确,这种改进通常会降低预测的个人信心。有了这种见解,我们将方法基于这样的观察结果,即不同的样品通过不同的量导致校准误差,有些人需要提高其信心,而另一些则需要减少它。因此,对于每个输入,我们建议预测不同的温度值,从而使我们能够调整较细性的置信度和准确性之间的不匹配。此外,我们观察到了OOD检测结果的改善,还可以提取数据点的硬度概念。我们的方法是在事后应用的,因此使用很少的计算时间和可忽略不计的记忆足迹,并应用于现成的预训练的分类器。我们使用CIFAR10/100和TINY-IMAGENET数据集对RESNET50和WIDERESNET28-10架构进行测试,这表明在整个测试集中产生每数据点温度也有益于预期的校准误差。代码可在以下网址获得:https://github.com/thwjoy/adats。
translated by 谷歌翻译
深度神经网络具有令人印象深刻的性能,但是他们无法可靠地估计其预测信心,从而限制了其在高风险领域中的适用性。我们表明,应用多标签的一VS损失揭示了分类的歧义并降低了模型的过度自信。引入的Slova(单标签One-Vs-All)模型重新定义了单个标签情况的典型单VS-ALL预测概率,其中只有一个类是正确的答案。仅当单个类具有很高的概率并且其他概率可忽略不计时,提议的分类器才有信心。与典型的SoftMax函数不同,如果所有其他类的概率都很小,Slova自然会检测到分布的样本。该模型还通过指数校准进行了微调,这使我们能够与模型精度准确地对齐置信分数。我们在三个任务上验证我们的方法。首先,我们证明了斯洛伐克与最先进的分布校准具有竞争力。其次,在数据集偏移下,斯洛伐克的性能很强。最后,我们的方法在检测到分布样品的检测方面表现出色。因此,斯洛伐克是一种工具,可以在需要不确定性建模的各种应用中使用。
translated by 谷歌翻译
Calibration strengthens the trustworthiness of black-box models by producing better accurate confidence estimates on given examples. However, little is known about if model explanations can help confidence calibration. Intuitively, humans look at important features attributions and decide whether the model is trustworthy. Similarly, the explanations can tell us when the model may or may not know. Inspired by this, we propose a method named CME that leverages model explanations to make the model less confident with non-inductive attributions. The idea is that when the model is not highly confident, it is difficult to identify strong indications of any class, and the tokens accordingly do not have high attribution scores for any class and vice versa. We conduct extensive experiments on six datasets with two popular pre-trained language models in the in-domain and out-of-domain settings. The results show that CME improves calibration performance in all settings. The expected calibration errors are further reduced when combined with temperature scaling. Our findings highlight that model explanations can help calibrate posterior estimates.
translated by 谷歌翻译
会员推理攻击是机器学习模型中最简单的隐私泄漏形式之一:给定数据点和模型,确定该点是否用于培训模型。当查询其培训数据时,现有会员推理攻击利用模型的异常置信度。如果对手访问模型的预测标签,则不会申请这些攻击,而不会置信度。在本文中,我们介绍了仅限标签的会员资格推理攻击。我们的攻击而不是依赖置信分数,而是评估模型预测标签在扰动下的稳健性,以获得细粒度的隶属信号。这些扰动包括常见的数据增强或对抗例。我们经验表明,我们的标签占会员推理攻击与先前攻击相符,以便需要访问模型信心。我们进一步证明,仅限标签攻击违反了(隐含或明确)依赖于我们呼叫信心屏蔽的现象的员工推论攻击的多种防御。这些防御修改了模型的置信度分数以挫败攻击,但留下模型的预测标签不变。我们的标签攻击展示了置信性掩蔽不是抵御会员推理的可行的防御策略。最后,我们调查唯一的案例标签攻击,该攻击推断为少量异常值数据点。我们显示仅标签攻击也匹配此设置中基于置信的攻击。我们发现具有差异隐私和(强)L2正则化的培训模型是唯一已知的防御策略,成功地防止所有攻击。即使差异隐私预算太高而无法提供有意义的可证明担保,这仍然存在。
translated by 谷歌翻译
Modern machine learning methods including deep learning have achieved great success in predictive accuracy for supervised learning tasks, but may still fall short in giving useful estimates of their predictive uncertainty. Quantifying uncertainty is especially critical in real-world settings, which often involve input distributions that are shifted from the training distribution due to a variety of factors including sample bias and non-stationarity. In such settings, well calibrated uncertainty estimates convey information about when a model's output should (or should not) be trusted. Many probabilistic deep learning methods, including Bayesian-and non-Bayesian methods, have been proposed in the literature for quantifying predictive uncertainty, but to our knowledge there has not previously been a rigorous largescale empirical comparison of these methods under dataset shift. We present a largescale benchmark of existing state-of-the-art methods on classification problems and investigate the effect of dataset shift on accuracy and calibration. We find that traditional post-hoc calibration does indeed fall short, as do several other previous methods. However, some methods that marginalize over models give surprisingly strong results across a broad spectrum of tasks.
translated by 谷歌翻译
Medical image segmentation (MIS) is essential for supporting disease diagnosis and treatment effect assessment. Despite considerable advances in artificial intelligence (AI) for MIS, clinicians remain skeptical of its utility, maintaining low confidence in such black box systems, with this problem being exacerbated by low generalization for out-of-distribution (OOD) data. To move towards effective clinical utilization, we propose a foundation model named EvidenceCap, which makes the box transparent in a quantifiable way by uncertainty estimation. EvidenceCap not only makes AI visible in regions of uncertainty and OOD data, but also enhances the reliability, robustness, and computational efficiency of MIS. Uncertainty is modeled explicitly through subjective logic theory to gather strong evidence from features. We show the effectiveness of EvidenceCap in three segmentation datasets and apply it to the clinic. Our work sheds light on clinical safe applications and explainable AI, and can contribute towards trustworthiness in the medical domain.
translated by 谷歌翻译
我们提出了一个学习域移位的校准不确定性的框架。我们考虑源(训练)分布与目标(测试)分布不同的情况。我们通过使用二进制域分类器来检测此类域移位,并将其与任务网络集成并将其联合结束到底。二进制域分类器产生密度比,其反映目标(测试)样本的近距离源(训练)分布。我们雇用它来调整任务网络预测的不确定性。这种使用密度比的思想基于分布稳健的学习(DRL)框架,其通过对抗风险最小化来占域移位。我们证明我们的方法产生校准的不确定性,这些不确定性有利于许多下游任务,例如无监督的域适应(UDA)和半监督学习(SSL)。在这些任务中,像自我训练和纤维型等方法使用不确定性选择自信的伪标签进行重新培训。我们的实验表明,DRL的引入导致跨域性能的显着改善。我们还证明估计的密度比率与人类选择频率达成协议,表明与人类感知的不确定性的代理有正相关。
translated by 谷歌翻译
神经网络缺乏对抗性鲁棒性,即,它们容易受到对抗的例子,通过对输入的小扰动导致错误的预测。此外,当模型给出错误的预测时,信任被破坏,即,预测的概率不是我们应该相信我们模型的良好指标。在本文中,我们研究了对抗性鲁棒性和校准之间的联系,发现模型对小扰动敏感的输入(很容易攻击)更有可能具有较差的预测。基于这种洞察力,我们通过解决这些对抗的缺陷输入来研究校准。为此,我们提出了基于对抗基于对抗的自适应标签平滑(AR-AD),其通过适应性软化标签,通过适应性软化标签来整合对抗性鲁棒性和校准到训练中的相关性,这是基于对敌人可以攻击的容易攻击。我们发现我们的方法,考虑了分销数据的对抗性稳健性,即使在分布班次下也能够更好地校准模型。此外,还可以应用于集合模型,以进一步提高模型校准。
translated by 谷歌翻译
We study the problem of semantic segmentation calibration. For image classification, lots of existing solutions are proposed to alleviate model miscalibration of confidence. However, to date, confidence calibration research on semantic segmentation is still limited. We provide a systematic study on the calibration of semantic segmentation models and propose a simple yet effective approach. First, we find that model capacity, crop size, multi-scale testing, and prediction correctness have impact on calibration. Among them, prediction correctness, especially misprediction, is more important to miscalibration due to over-confidence. Next, we propose a simple, unifying, and effective approach, namely selective scaling, by separating correct/incorrect prediction for scaling and more focusing on misprediction logit smoothing. Then, we study popular existing calibration methods and compare them with selective scaling on semantic segmentation calibration. We conduct extensive experiments with a variety of benchmarks on both in-domain and domain-shift calibration, and show that selective scaling consistently outperforms other methods.
translated by 谷歌翻译
我们解决了不确定性校准的问题,并引入了一种新型的校准方法,即参数化温度缩放(PTS)。标准的深神经网络通常会产生未校准的预测,可以使用事后校准方法将其转化为校准的置信得分。在这项贡献中,我们证明了准确保存最先进的事后校准器的性能受其内在表达能力的限制。我们通过计算通过神经网络参数为参数的预测温度来概括温度缩放。我们通过广泛的实验表明,我们的新型准确性保护方法始终优于大量模型体系结构,数据集和指标的现有算法。
translated by 谷歌翻译