现实世界机器学习部署的特点是源(训练)和目标(测试)分布之间的不匹配,可能导致性能下降。在这项工作中,我们研究了仅使用标记的源数据和未标记的目标数据来预测目标域精度的方法。我们提出了平均阈值的置信度(A​​TC),一种实用的方法,用于了解模型的置信度的阈值,预测精度作为模型置信度超过该阈值的未标记示例的分数。 ATC优于多种模型架构的先前方法,分发班次类型(例如,由于综合损坏,数据集再现或新颖的群体)和数据集(野外,想象成,品种,CNIST)。在我们的实验中,ATC估计目标性能$ 2 $ 2美元 - 比以前的方法更准确地获得4美元。我们还探讨了问题的理论基础,证明通常,识别精度与识别最佳预测因子一样难以识别,因此,任何方法的功效都依赖于(可能是未列区)假设对移位的性质。最后,在一些玩具分布中分析了我们的方法,我们提供了有关其工作时的见解。
translated by 谷歌翻译
我们介绍了在打开集标签偏移(OSL)下进行域适应的问题,该标签分布可以任意更改,并且在部署期间可能会到达新类,但是类别条件分布p(x | y)是域不变的。 OSLS在标签转移和未标记(PU)学习下适应域的域名。学习者的目标是两个方面:(a)估计目标标签分布,包括新颖的班级; (b)学习目标分类器。首先,我们建立了确定这些数量的必要条件。其次,在标签转移和PU学习方面的进步中,我们提出了针对利用黑盒预测变量的两项任务的实用方法。与典型的开放式域适应(OSDA)问题不同,该问题往往不适合且仅适合启发式方法,OSLS提供了一个适合原则性机械的良好问题。关于视觉,语言和医学数据集的众多半合成基准测试的实验表明,我们的方法始终超过OSDA基线,实现目标域精度的10--25%提高。最后,我们分析了提出的方法,建立了与真正的标签边缘和收敛到高斯设置中线性模型的最佳分类器的有限样本收敛性。代码可在https://github.com/acmi-lab/open-set-label-shift上找到。
translated by 谷歌翻译
只给出了积极的例子和未标记的例子(来自正面和负数),我们可能希望估计准确的正面与负分类器。正式地,该任务分为两个子任务:(i)混合比例估计(MPE) - 确定未标记数据中的正例的分数; (ii)PU-Learning - 鉴于这样的估计,学习所需的正面与负分类器。不幸的是,两个问题的古典方法在高维设置中分解。与此同时,最近提出的启发式缺乏理论一致性,并效力依赖于近双车调谐。在本文中,我们提出了两种简单的技术:最好的箱估计(BBE)(用于MPE);而有条件的价值忽略风险(CVIR),对PU学习的简单目标。这两种方法都主导了先前的方法,并且对于BBE,我们建立正式保证,每当我们可以培训模型来干净地分离出一小部分积极示例的担保。我们的最终算法(TED)$ ^ N $,两种程序之间交替,显着改善了我们的混合比例估计器和分类器
translated by 谷歌翻译
为了评估泛化,机器学习科学家通常(i)涉及泛化差距,然后(训练后)插入经验风险,以获得真正风险的界限;或(ii)验证持续数据验证。但是,(i)通常会给过度分开的模型产生脏污保证。此外,(ii)缩小训练集及其保证侵蚀,每次重复抵押邮件集。在本文中,我们介绍了一种利用未标记数据来产生泛化界限的方法。通过随机标记的新鲜例子增强我们(标签)培训,我们以标准方式训练。每当分类器在清洁数据上实现低误差和嘈杂数据的高误差时,我们的绑定都会为真正风险提供紧密的上限。我们证明我们的界限有效期为0-1经验风险最小化,并通过梯度下降训练的线性分类器。由于早期学习现象,我们的方法与深度学习结合尤其有用,由此网络在嘈杂的标签前拟合真正的标签,但需要一个直观的假设。在经验上,在规范计算机视觉和NLP任务上,我们的绑定提供了不受空广的泛化保证,可密切跟踪实际性能。这项工作为从业者提供了一个选择,即使在未经看跌的数据不可用的情况下也能够认证深网络的泛化,并为随机标签噪声和泛化之间的关系提供理论洞察力。
translated by 谷歌翻译
最近,Miller等。结果表明,模型的分布(ID)精度与几个OOD基准上的分布(OOD)精度具有很强的线性相关性 - 一种将它们称为“准确性”的现象。虽然一种用于模型选择的有用工具(即,最有可能执行最佳OOD的模型是具有最高ID精度的模型),但此事实无助于估计模型的实际OOD性能,而无需访问标记的OOD验证集。在本文中,我们展示了一种类似但令人惊讶的现象,也与神经网络分类器对之间的一致性一致:每当在线准确性时,我们都会观察到任何两个神经网络的预测之间的OOD一致性(具有潜在的不同架构)还观察到与他们的ID协议有很强的线性相关性。此外,我们观察到OOD与ID协议的斜率和偏置与OOD与ID准确性的偏差非常匹配。我们称之为“协议”的现象具有重要的实际应用:没有任何标记的数据,我们可以预测分类器的OOD准确性},因为只需使用未标记的数据就可以估算OOD一致性。我们的预测算法在同意在线达成的变化中都优于先前的方法,而且令人惊讶的是,当准确性不在线上时。这种现象还为深度神经网络提供了新的见解:与在线的准确性不同,一致性似乎仅适用于神经网络分类器。
translated by 谷歌翻译
The ability to quickly and accurately identify covariate shift at test time is a critical and often overlooked component of safe machine learning systems deployed in high-risk domains. While methods exist for detecting when predictions should not be made on out-of-distribution test examples, identifying distributional level differences between training and test time can help determine when a model should be removed from the deployment setting and retrained. In this work, we define harmful covariate shift (HCS) as a change in distribution that may weaken the generalization of a predictive model. To detect HCS, we use the discordance between an ensemble of classifiers trained to agree on training data and disagree on test data. We derive a loss function for training this ensemble and show that the disagreement rate and entropy represent powerful discriminative statistics for HCS. Empirically, we demonstrate the ability of our method to detect harmful covariate shift with statistical certainty on a variety of high-dimensional datasets. Across numerous domains and modalities, we show state-of-the-art performance compared to existing methods, particularly when the number of observed test samples is small.
translated by 谷歌翻译
我们考虑无监督的域适应性(UDA),其中使用来自源域(例如照片)的标记数据,而来自目标域(例如草图)的未标记数据用于学习目标域的分类器。常规的UDA方法(例如,域对抗训练)学习域不变特征,以改善对目标域的概括。在本文中,我们表明,对比的预训练,它在未标记的源和目标数据上学习功能,然后在标记的源数据上进行微调,具有强大的UDA方法的竞争力。但是,我们发现对比前训练不会学习域不变特征,这与常规的UDA直觉不同。从理论上讲,我们证明了对比的预训练可以学习在跨域下微调但仍通过解开域和类信息来概括到目标域的特征。我们的结果表明,UDA不需要域的不变性。我们从经验上验证了基准视觉数据集的理论。
translated by 谷歌翻译
域名(ood)概括是机器学习模型的重大挑战。已经提出了许多技术来克服这一挑战,通常专注于具有某些不变性属性的学习模型。在这项工作中,我们绘制了ood性能和模型校准之间的链接,争论跨多个域的校准可以被视为一个特殊的表达,导致更好的EOD泛化。具体而言,我们表明,在某些条件下,实现\ EMPH {多域校准}的模型可被证明无杂散相关性。这导致我们提出多域校准作为分类器的性能的可测量和可训练的代理。因此,我们介绍了易于申请的方法,并允许从业者通过训练或修改现有模型来改善多域校准,从而更好地在看不见的域上的性能。使用最近提出的野外的四个数据集以及彩色的MNIST数据集,我们证明了训练或调整模型,以便在多个域中校准它们导致在看不见的测试域中显着提高性能。我们认为,校准和革建化之间的这种有趣联系是从一个实际和理论的观点出发的。
translated by 谷歌翻译
如果预测类的概率(顶级标签)是校准的,则在顶部标签上进行条件,则据说多类分类器将是顶级标签的校准。在密切相关和流行的置信度校准概念中,这种条件不存在,我们认为这使得置信校准难以解释决策。我们提出顶级标签校准作为置信校准的纠正。此外,我们概述了一个多类对二进制(M2B)还原框架,该框架统一了信心,顶级标签和班级校准等。顾名思义,M2B通过将多类校准减少到众多二元校准问题来起作用,每个二进制校准问题都可以使用简单的二进制校准例程来解决。我们将M2B框架实例化使用经过良好研究的直方图(HB)二进制校准器,并证明整体过程是多类校准的,而无需对基础数据分布进行任何假设。在CIFAR-10和CIFAR-100上具有四个深净体系结构的经验评估中,我们发现M2B + HB程序比其他方法(例如温度缩放)获得了较低的顶级标签和类别校准误差。这项工作的代码可在\ url {https://github.com/aigen/df-posthoc-calibration}中获得。
translated by 谷歌翻译
我们提出了一个学习域移位的校准不确定性的框架。我们考虑源(训练)分布与目标(测试)分布不同的情况。我们通过使用二进制域分类器来检测此类域移位,并将其与任务网络集成并将其联合结束到底。二进制域分类器产生密度比,其反映目标(测试)样本的近距离源(训练)分布。我们雇用它来调整任务网络预测的不确定性。这种使用密度比的思想基于分布稳健的学习(DRL)框架,其通过对抗风险最小化来占域移位。我们证明我们的方法产生校准的不确定性,这些不确定性有利于许多下游任务,例如无监督的域适应(UDA)和半监督学习(SSL)。在这些任务中,像自我训练和纤维型等方法使用不确定性选择自信的伪标签进行重新培训。我们的实验表明,DRL的引入导致跨域性能的显着改善。我们还证明估计的密度比率与人类选择频率达成协议,表明与人类感知的不确定性的代理有正相关。
translated by 谷歌翻译
We demonstrate that self-learning techniques like entropy minimization and pseudo-labeling are simple and effective at improving performance of a deployed computer vision model under systematic domain shifts. We conduct a wide range of large-scale experiments and show consistent improvements irrespective of the model architecture, the pre-training technique or the type of distribution shift. At the same time, self-learning is simple to use in practice because it does not require knowledge or access to the original training data or scheme, is robust to hyperparameter choices, is straight-forward to implement and requires only a few adaptation epochs. This makes self-learning techniques highly attractive for any practitioner who applies machine learning algorithms in the real world. We present state-of-the-art adaptation results on CIFAR10-C (8.5% error), ImageNet-C (22.0% mCE), ImageNet-R (17.4% error) and ImageNet-A (14.8% error), theoretically study the dynamics of self-supervised adaptation methods and propose a new classification dataset (ImageNet-D) which is challenging even with adaptation.
translated by 谷歌翻译
哪种结构可以使学习者能够从未标记的数据中发现类?传统方法取决于功能空间的相似性和对数据的英勇假设。在本文中,我们在潜在标签换档(LLS)下介绍了无监督的学习,我们可以从多个域中访问未标记的数据,以便标签边缘$ p_d(y)$可以跨域变化,但是类有条件的$ p(\ mathbf) {x} | y)$不。这项工作实例化了识别类别的新原则:将分组分组的元素。对于有限输入空间,我们在LLS和主题建模之间建立了同构:输入对应于单词,域,文档和标签与主题。解决连续数据时,我们证明,当每个标签的支持包含一个可分离区域时,类似于锚词,Oracle访问$ P(d | \ Mathbf {x})$足以识别$ p_d(y)$和$ p_d( y | \ mathbf {x})$ for排列。因此,我们引入了一种实用算法,该算法利用域 - 歧义模型如下:(i)通过域歧视器$ p(d | \ mathbf {x})推动示例; (ii)通过$ p(d | \ mathbf {x})$ space中的聚类示例来离散数据; (iii)对离散数据执行非负矩阵分解; (iv)将回收的$ P(y | d)$与鉴别器输出$ p(d | \ mathbf {x})$结合在一起计算$ p_d(y | x)\; \ forall d $。通过半合成实验,我们表明我们的算法可以利用域信息来改善无监督的分类方法。当功能空间相似性并不表示真实分组时,我们揭示了标准无监督分类方法的故障模式,并从经验上证明我们的方法可以更好地处理这种情况。我们的结果建立了分销转移与主题建模之间的密切联系,为将来的工作开辟了有希望的界限。
translated by 谷歌翻译
已知现代深度神经网络模型将错误地将分布式(OOD)测试数据分类为具有很高信心的分数(ID)培训课程之一。这可能会对关键安全应用产生灾难性的后果。一种流行的缓解策略是训练单独的分类器,该分类器可以在测试时间检测此类OOD样本。在大多数实际设置中,在火车时间尚不清楚OOD的示例,因此,一个关键问题是:如何使用合成OOD样品来增加ID数据以训练这样的OOD检测器?在本文中,我们为称为CNC的OOD数据增强提出了一种新颖的复合腐败技术。 CNC的主要优点之一是,除了培训集外,它不需要任何固定数据。此外,与当前的最新技术(SOTA)技术不同,CNC不需要在测试时间进行反向传播或结合,从而使我们的方法在推断时更快。我们与过去4年中主要会议的20种方法进行了广泛的比较,表明,在OOD检测准确性和推理时间方面,使用基于CNC的数据增强训练的模型都胜过SOTA。我们包括详细的事后分析,以研究我们方法成功的原因,并确定CNC样本的较高相对熵和多样性是可能的原因。我们还通过对二维数据集进行零件分解分析提供理论见解,以揭示(视觉和定量),我们的方法导致ID类别周围的边界更紧密,从而更好地检测了OOD样品。源代码链接:https://github.com/cnc-ood
translated by 谷歌翻译
Modern machine learning methods including deep learning have achieved great success in predictive accuracy for supervised learning tasks, but may still fall short in giving useful estimates of their predictive uncertainty. Quantifying uncertainty is especially critical in real-world settings, which often involve input distributions that are shifted from the training distribution due to a variety of factors including sample bias and non-stationarity. In such settings, well calibrated uncertainty estimates convey information about when a model's output should (or should not) be trusted. Many probabilistic deep learning methods, including Bayesian-and non-Bayesian methods, have been proposed in the literature for quantifying predictive uncertainty, but to our knowledge there has not previously been a rigorous largescale empirical comparison of these methods under dataset shift. We present a largescale benchmark of existing state-of-the-art methods on classification problems and investigate the effect of dataset shift on accuracy and calibration. We find that traditional post-hoc calibration does indeed fall short, as do several other previous methods. However, some methods that marginalize over models give surprisingly strong results across a broad spectrum of tasks.
translated by 谷歌翻译
我们经常在强大的机器学习中看到不良的权衡,其中分布(OOD)的精度与分布式(ID)的准确性不一致:通过删除伪造功能的专用技术获得的强大分类器通常具有更好的OOD,但ID较差,但ID较差。与通过ERM训练的标准分类器相比,准确性。在本文中,我们发现由ID校准的合奏(仅在ID数据上校准ID数据之后简单地整合标准和健壮的模型)优于ID和ID和OOD准确性。在11个自然分配移位数据集中,ID校准的合奏获得了两全其美的最佳:强大的ID准确性和OOD精度。我们在风格化的设置中分析了此方法,并确定了两个重要条件以使合奏执行良好的ID和OOD:(1)我们需要校准标准和可靠的模型(在ID数据上,因为OOD数据不可用),(2)OOD没有反相关的虚假特征。
translated by 谷歌翻译
深度神经网络具有令人印象深刻的性能,但是他们无法可靠地估计其预测信心,从而限制了其在高风险领域中的适用性。我们表明,应用多标签的一VS损失揭示了分类的歧义并降低了模型的过度自信。引入的Slova(单标签One-Vs-All)模型重新定义了单个标签情况的典型单VS-ALL预测概率,其中只有一个类是正确的答案。仅当单个类具有很高的概率并且其他概率可忽略不计时,提议的分类器才有信心。与典型的SoftMax函数不同,如果所有其他类的概率都很小,Slova自然会检测到分布的样本。该模型还通过指数校准进行了微调,这使我们能够与模型精度准确地对齐置信分数。我们在三个任务上验证我们的方法。首先,我们证明了斯洛伐克与最先进的分布校准具有竞争力。其次,在数据集偏移下,斯洛伐克的性能很强。最后,我们的方法在检测到分布样品的检测方面表现出色。因此,斯洛伐克是一种工具,可以在需要不确定性建模的各种应用中使用。
translated by 谷歌翻译
当疑问以获得更好的有效精度时,选择性分类允许模型放弃预测(例如,说“我不知道”)。尽管典型的选择性模型平均可以有效地产生更准确的预测,但它们仍可能允许具有很高置信度的错误预测,或者跳过置信度较低的正确预测。提供校准的不确定性估计以及预测(与真实频率相对应的概率)以及具有平均准确的预测一样重要。但是,不确定性估计对于某些输入可能不可靠。在本文中,我们开发了一种新的选择性分类方法,其中我们提出了一种拒绝“不确定”不确定性的示例的方法。通过这样做,我们旨在通过对所接受示例的分布进行{良好校准}的不确定性估计进行预测,这是我们称为选择性校准的属性。我们提出了一个用于学习选择性校准模型的框架,其中训练了单独的选择器网络以改善给定基本模型的选择性校准误差。特别是,我们的工作重点是实现强大的校准,该校准有意地设计为在室外数据上进行测试。我们通过受分配强大的优化启发的训练策略实现了这一目标,在该策略中,我们将模拟输入扰动应用于已知的,内域培训数据。我们证明了方法对多个图像分类和肺癌风险评估任务的经验有效性。
translated by 谷歌翻译
Several recent works find empirically that the average test error of deep neural networks can be estimated via the prediction disagreement of models, which does not require labels. In particular, Jiang et al. (2022) show for the disagreement between two separately trained networks that this `Generalization Disagreement Equality' follows from the well-calibrated nature of deep ensembles under the notion of a proposed `class-aggregated calibration.' In this reproduction, we show that the suggested theory might be impractical because a deep ensemble's calibration can deteriorate as prediction disagreement increases, which is precisely when the coupling of test error and disagreement is of interest, while labels are needed to estimate the calibration on new datasets. Further, we simplify the theoretical statements and proofs, showing them to be straightforward within a probabilistic context, unlike the original hypothesis space view employed by Jiang et al. (2022).
translated by 谷歌翻译
在值得信赖的机器学习中,这是一个重要的问题,可以识别与分配任务无关的输入的分布(OOD)输入。近年来,已经提出了许多分布式检测方法。本文的目的是识别共同的目标以及确定不同OOD检测方法的隐式评分函数。我们专注于在培训期间使用替代OOD数据的方法,以学习在测试时概括为新的未见外部分布的OOD检测分数。我们表明,内部和(不同)外部分布之间的二元歧视等同于OOD检测问题的几种不同的公式。当与标准分类器以共同的方式接受培训时,该二进制判别器达到了类似于离群暴露的OOD检测性能。此外,我们表明,异常暴露所使用的置信损失具有隐式评分函数,在训练和测试外部分配相同的情况下,以非平凡的方式与理论上最佳评分功能有所不同,这又是类似于训练基于能量的OOD检测器或添加背景类时使用的一种。在实践中,当以完全相同的方式培训时,所有这些方法的性能类似。
translated by 谷歌翻译
部署的ML模型的基本要求是从与培训不同的测试分布中汲取的数据概括。解决此问题的一个流行解决方案是,仅使用未标记的数据将预训练的模型调整为新的域。在本文中,我们关注该问题的挑战性变体,其中访问原始源数据受到限制。虽然完全测试时间适应(FTTA)和无监督的域适应性(UDA)密切相关,但由于大多数UDA方法需要访问源数据,因此UDA的进展不容易适用于TTA。因此,我们提出了一种新方法,即Cattan,它通过放松了通过新颖的深层子空间对准策略来放松访问整个源数据的需求,从而弥合了UDA和FTTA。通过为源数据存储的子空间基础设置的最小开销,Cattan在适应过程中可以在源数据和目标数据之间进行无监督的对齐。通过对多个2D和3D Vision基准测试(Imagenet-C,Office-31,OfficeHome,Domainnet,PointDa-10)和模型体系结构进行广泛的实验评估,我们在FTTA性能方面表现出显着提高。此外,即使使用固有健壮的模型,预训练的VIT表示以及目标域中的样本可用性低,我们也会对对齐目标的实用性做出许多关键发现。
translated by 谷歌翻译