大多数机器学习(ML)方法假设训练阶段使用的数据来自目标人群。但是,实际上,一个经常会面对数据集偏移,如果考虑到未正确考虑的话,可能会降低ML模型的预测性能。通常,如果从业人员知道正在发生哪种轮班类型(例如,协变量转移或标签转移),他们可能会采用转移学习方法来获得更好的预测。不幸的是,当前用于检测移位的方法仅设计用于检测特定类型的偏移或无法正式测试其存在。我们介绍了一个一般和统一的框架,该框架通过检测不同类型的变化和量化它们的强度来提供有关如何改善预测方法的见解。我们的方法可用于任何数据类型(表格/图像/文本)以及分类和回归任务。此外,它使用正式的假设测试来控制虚假警报。我们说明了我们的框架在实践中使用人工和真实数据集的实践有用,包括一个示例,说明了我们的框架如何导致洞察力确实可以提高监督模型的预测能力。我们用于数据集偏移检测的软件包可以在https://github.com/felipemaiapolo/detectshift中找到。
translated by 谷歌翻译
在监督学习中,培训和测试数据集通常从不同的分布中采样。因此需要域改性技术。当域才因特征边际分布而不同时,协变速适配会产生良好的泛化性能。 Covariate换档适应通常使用重要性加权实施,这可能根据常见智慧而失败,由于较小的有效样本尺寸(ESS)。以前的研究认为,这种情况在高维设置中更常见。然而,考虑到协变转变适应的背景,在监督学习中,如何在监督学习方面与效率有效,维度和模型性能/泛化是多么难以置信。因此,主要挑战是呈现连接这些点的统一理论。因此,在本文中,我们专注于构建连接ESS,数据维度和泛化在协变速改编的背景下的统一视图。此外,我们还证明了减少量度或特征选择如何增加ESS,并认为我们的结果在协会变化适应之前支持维度减少,作为一种良好的做法。
translated by 谷歌翻译
部署在现实世界中时,机器学习模型不可避免地遇到数据分布的变化,并且某些 - 但不是全部分布班可能导致显着的性能下降。在实践中,忽略良性移位可能是有意义的,在该频率下,部署模型的性能不会显着降低,不必要地制作人类专家(或模型再培训)的干预。虽然有几种作品已经开发了用于分发班次的测试,但这些通常使用非顺序方法,或者检测任意班次(良性或有害)或两者。我们认为,用于解雇警告的明智方法(a)检测有害移位,同时忽略良性换档,并且(b)允许连续监测模型性能,而不会增加误报率。在这项工作中,我们设计了简单的顺序工具,用于测试源(训练)和目标(测试)分布之间的差异导致感兴趣的风险函数的显着增加,如准确性或校准。构建时均匀置信度序列的最新进展允许在跟踪过程中积累的统计证据进行高效聚合。设计的框架适用于在执行预测之后(某些)真正标签的设置中,或者当批次以延迟的方式获得时批次。我们通过对模拟和真实数据集的集合的广泛实证研究展示了拟议的框架的功效。
translated by 谷歌翻译
两样本测试在统计和机器学习中很重要,既是科学发现的工具,又是检测分布变化的工具。这导致了许多复杂的测试程序的开发,超出了标准监督学习框架,它们的用法可能需要有关两样本测试的专业知识。我们使用一个简单的测试,该测试将证人功能的平均差异作为测试统计量,并证明最小化平方损失会导致具有最佳测试能力的证人。这使我们能够利用汽车的最新进步。如果没有任何用户对当前问题的输入,并在我们所有实验中使用相同的方法,我们的AutoML两样本测试可以在各种分配转移基准以及挑战两样本测试问题上实现竞争性能。我们在Python软件包AUTOTST中提供了Automl两样本测试的实现。
translated by 谷歌翻译
Faced with distribution shift between training and test set, we wish to detect and quantify the shift, and to correct our classifiers without test set labels. Motivated by medical diagnosis, where diseases (targets), cause symptoms (observations), we focus on label shift, where the label marginal p(y) changes but the conditional p(x|y) does not. We propose Black Box Shift Estimation (BBSE) to estimate the test distribution p(y). BBSE exploits arbitrary black box predictors to reduce dimensionality prior to shift correction. While better predictors give tighter estimates, BBSE works even when predictors are biased, inaccurate, or uncalibrated, so long as their confusion matrices are invertible. We prove BBSE's consistency, bound its error, and introduce a statistical test that uses BBSE to detect shift. We also leverage BBSE to correct classifiers. Experiments demonstrate accurate estimates and improved prediction, even on high-dimensional datasets of natural images.
translated by 谷歌翻译
The ability to quickly and accurately identify covariate shift at test time is a critical and often overlooked component of safe machine learning systems deployed in high-risk domains. While methods exist for detecting when predictions should not be made on out-of-distribution test examples, identifying distributional level differences between training and test time can help determine when a model should be removed from the deployment setting and retrained. In this work, we define harmful covariate shift (HCS) as a change in distribution that may weaken the generalization of a predictive model. To detect HCS, we use the discordance between an ensemble of classifiers trained to agree on training data and disagree on test data. We derive a loss function for training this ensemble and show that the disagreement rate and entropy represent powerful discriminative statistics for HCS. Empirically, we demonstrate the ability of our method to detect harmful covariate shift with statistical certainty on a variety of high-dimensional datasets. Across numerous domains and modalities, we show state-of-the-art performance compared to existing methods, particularly when the number of observed test samples is small.
translated by 谷歌翻译
监督学习的关键假设是培训和测试数据遵循相同的概率分布。然而,这种基本假设在实践中并不总是满足,例如,由于不断变化的环境,样本选择偏差,隐私问题或高标签成本。转移学习(TL)放松这种假设,并允许我们在分销班次下学习。通常依赖于重要性加权的经典TL方法 - 基于根据重要性(即测试过度训练密度比率)的训练损失培训预测器。然而,由于现实世界机器学习任务变得越来越复杂,高维和动态,探讨了新的新方法,以应对这些挑战最近。在本文中,在介绍基于重要性加权的TL基础之后,我们根据关节和动态重要预测估计审查最近的进步。此外,我们介绍一种因果机制转移方法,该方法包含T1中的因果结构。最后,我们讨论了TL研究的未来观点。
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
现在通常用于高风险设置,如医疗诊断,如医疗诊断,那么需要不确定量化,以避免后续模型失败。无分发的不确定性量化(无分布UQ)是用户友好的范式,用于为这种预测创建统计上严格的置信区间/集合。批判性地,间隔/集合有效而不进行分布假设或模型假设,即使具有最多许多DataPoints也具有显式保证。此外,它们适应输入的难度;当输入示例很困难时,不确定性间隔/集很大,信号传达模型可能是错误的。在没有多大的工作和没有再培训的情况下,可以在任何潜在的算法(例如神经网络)上使用无分​​发方法,以产生置信度集,以便包含用户指定概率,例如90%。实际上,这些方法易于理解和一般,应用于计算机视觉,自然语言处理,深度加强学习等领域出现的许多现代预测问题。这种实践介绍是针对对无需统计学家的免费UQ的实际实施感兴趣的读者。我们通过实际的理论和无分发UQ的应用领导读者,从保形预测开始,并使无关的任何风险的分布控制,如虚假发现率,假阳性分布检测,等等。我们将包括Python中的许多解释性插图,示例和代码样本,具有Pytorch语法。目标是提供读者对无分配UQ的工作理解,使它们能够将置信间隔放在算法上,其中包含一个自包含的文档。
translated by 谷歌翻译
适应数据分布的结构(例如对称性和转型Imarerces)是机器学习中的重要挑战。通过架构设计或通过增强数据集,可以内在学习过程中内置Inhormces。两者都需要先验的了解对称性的确切性质。缺乏这种知识,从业者求助于昂贵且耗时的调整。为了解决这个问题,我们提出了一种新的方法来学习增强变换的分布,以新的\ emph {转换风险最小化}(trm)框架。除了预测模型之外,我们还优化了从假说空间中选择的转换。作为算法框架,我们的TRM方法是(1)有效(共同学习增强和模型,以\ emph {单训练环}),(2)模块化(使用\ emph {任何训练算法),以及(3)一般(处理\ \ ich {离散和连续}增强)。理论上与标准风险最小化的TRM比较,并在其泛化误差上给出PAC-Bayes上限。我们建议通过块组成的新参数化优化富裕的增强空间,导致新的\ EMPH {随机成分增强学习}(SCALE)算法。我们在CIFAR10 / 100,SVHN上使用先前的方法(快速自身自动化和武术器)进行实际比较规模。此外,我们表明规模可以在数据分布中正确地学习某些对称性(恢复旋转Mnist上的旋转),并且还可以改善学习模型的校准。
translated by 谷歌翻译
多类神经网络是现代无监督的领域适应性中的常见工具,但是在适应性文献中缺乏针对其非均匀样品复杂性的适当理论描述。为了填补这一空白,我们为多类学习者提出了第一个Pac-Bayesian适应范围。我们还提出了我们考虑的多类分布差异的第一个近似技术,从而促进了界限的实际使用。对于依赖Gibbs预测因子的分歧,我们提出了其他PAC-湾适应界限,以消除对蒙特卡洛效率低下的需求。从经验上讲,我们测试了我们提出的近似技术的功效以及一些新型的设计概念,我们在范围中包括。最后,我们应用界限来分析使用神经网络的常见适应算法。
translated by 谷歌翻译
监督学习模型是最基本的模型类别之一。从概率的角度查看监督的学习,通常假定拟合模型的一组培训数据遵循固定分布。但是,这种平稳性假设通常在称为概念漂移的现象中违反,该现象是指随时间变化的变化,在协变量$ \ mathbf {x} $和响应变量$ y $之间的预测关系中,并且可以渲染受过训练的模型次优或过时。我们开发了一个全面且在计算上有效的框架,用于检测,监视和诊断概念漂移。具体而言,我们使用多变量指数加权移动平均值的形式来监视拟合模型的对数似然梯度的梯度,该形式可以监视随机矢量平均值的一般变化。尽管我们在基于流行的错误方法上证明了具有实质性的性能优势,但以前尚未考虑基于分数的方法进行概念漂移监测。提出的基于分数的框架的优点包括适用于任何参数模型,对理论和实验中所示的更大变化的检测以及固有的诊断功能,以帮助识别变化的性质。
translated by 谷歌翻译
分类器的性能通常是根据测试数据的平均准确性来衡量的。尽管是标准措施,但平均准确性未能表征模型对标签的基本条件定律的拟合度,鉴于特征向量($ y | x $),例如由于模型错误指定,拟合和高维度。在本文中,我们考虑了评估通用二元分类器的拟合优点的基本问题。我们的框架对条件定律$ y | x $没有任何参数假设,并且将其视为黑匣子甲骨文模型,只能通过查询访问。我们将拟合优度评估问题提出作为表格\ [h_0:\ mathbb {e} \ big [d_f \ big({\ sf bern}(\ esta(x))\ | {\ | {\ | {\ | { sf bern}(\ hat {\ eta}(x))\ big)\ big] \ leq \ tau \ ,, \],其中$ d_f $代表$ f $ -DDIVERGENCE函数,$ \ eta(x)$ ,$ \ hat {\ eta}(x)$分别表示功能向量$ x $的真实和估计可能性。我们提出了一个新颖的测试,称为\ grasp用于测试$ H_0 $,无论功能如何(无分配)在有限的样品设置中起作用。我们还提出了为模型-X设置设计的Model-X \ Grasp,其中已知特征向量的联合分布。 Model-X \ Grasp使用此分配信息来实现更好的功率。我们通过广泛的数值实验评估测试的性能。
translated by 谷歌翻译
数据集移位的统计测试易受误报的影响:当实际上有足够的样本覆盖和预测性能时,它们对微小差异敏感。我们提出了一种框架,用于根据异常分数,$ \ texttt {d-sos} $ shift检测不利数据集转换的框架。$ \ texttt {d-sos} $持有新的(测试)样本比参考(训练)样本更差,而不是两个等于。关键的想法是将观察减少到异常分数,并在不同加权阈值下比较污染速率。用户可以根据远方的相关概念来定义$ \ {更糟糕的} $手段,包括用于预测性能的代表。与平等分发的测试相比,我们的方法是唯一定制的,以作为模型监控和数据验证的强大指标。我们展示了多功能和实用的$ \ texttt {d-sos} $ in宽范围的实际和模拟数据。
translated by 谷歌翻译
本文开发了新型的保形方法,以测试是否从与参考集相同的分布中采样了新的观察结果。以创新的方式将感应性和偏置的共形推断融合,所描述的方法可以以原则性的方式基于已知的分布式数据的依赖侧信息重新权重标准p值,并且可以自动利用最强大的优势来自任何一级和二进制分类器的模型。该解决方案可以通过样品分裂或通过新颖的转置交叉验证+方案来实现,该方案与现有的交叉验证方法相比,由于更严格的保证,这也可能在共形推理的其他应用中有用。在研究错误的发现率控制和在具有几个可能的离群值的多个测试框架内的虚假发现率控制和功率之后,提出的解决方案被证明通过模拟以及用于图像识别和表格数据的应用超过了标准的共形P值。
translated by 谷歌翻译
现代基于内核的两种样本测试在以适当的学习内核区分复杂的高维分布方面表现出巨大的成功。以前的工作表明,这种内核学习程序成功,假设来自每个分布的相当数量的观察样本。然而,在具有非常有限数量的数据样本的现实方案中,识别足够强大以区分复杂分布的内核可能具有挑战性。我们通过引入Meta二样本测试(M2ST)问题来解决此问题,该问题旨在利用(丰富)相关任务的辅助数据来查找可以快速识别新目标任务的强大测试的算法。我们为此任务提出了两个特定的算法:一种改进基线的通用方案和更具量身定制的方法,这更好地执行。我们提供理论上的理由和经验证据,即我们的拟议的元测试计划直接从稀缺观察开始学习基于内核的测试,并识别此类计划将是成功的。
translated by 谷歌翻译
部署的机器学习(ML)模型经常遇到与培训数据不同的新用户数据。因此,估计给定模型在新数据上的性能是朝着可靠的ML应用程序迈出的重要一步。但是,这是非常具有挑战性的,因为数据分布可以以灵活的方式变化,并且我们可能没有新数据上的任何标签,这在监视设置时通常是这种情况。在本文中,我们提出了一种新的分配移位模型,即稀疏关节移位(SJS),该模型考虑了标签和一些特征的关节移位。这统一并概括了几种现有的偏移模型,包括标签移位和稀疏协变量移位,仅考虑边际特征或标签分布位移。我们描述了SJS可识别的数学条件。我们进一步提出了See,这是一个算法框架,以表征SJS下的分布变化,并估计模型在没有任何标签的新数据上的性能。我们在具有各种ML模型的几个现实世界数据集上进行了广泛的实验。在不同的数据集和分配变化中,看到对现有方法的误差改善(最多达到数量级)的显着(最多)。
translated by 谷歌翻译
Empirical risk minimization (ERM) and distributionally robust optimization (DRO) are popular approaches for solving stochastic optimization problems that appear in operations management and machine learning. Existing generalization error bounds for these methods depend on either the complexity of the cost function or dimension of the uncertain parameters; consequently, the performance of these methods is poor for high-dimensional problems with objective functions under high complexity. We propose a simple approach in which the distribution of uncertain parameters is approximated using a parametric family of distributions. This mitigates both sources of complexity; however, it introduces a model misspecification error. We show that this new source of error can be controlled by suitable DRO formulations. Our proposed parametric DRO approach has significantly improved generalization bounds over existing ERM / DRO methods and parametric ERM for a wide variety of settings. Our method is particularly effective under distribution shifts. We also illustrate the superior performance of our approach on both synthetic and real-data portfolio optimization and regression tasks.
translated by 谷歌翻译
经典的错误发现率(FDR)控制程序提供了强大而可解释的保证,而它们通常缺乏灵活性。另一方面,最近的机器学习分类算法是基于随机森林(RF)或神经网络(NN)的算法,具有出色的实践表现,但缺乏解释和理论保证。在本文中,我们通过引入新的自适应新颖性检测程序(称为Adadetect)来使这两个相遇。它将多个测试文献的最新作品范围扩展到高维度的范围,尤其是Yang等人的范围。 (2021)。显示AD​​ADETECT既可以强烈控制FDR,又具有在特定意义上模仿甲骨文之一的力量。理论结果,几个基准数据集上的数值实验以及对天体物理数据的应用,我们的方法的兴趣和有效性得到了证明。特别是,虽然可以将AdadEtect与任何分类器结合使用,但它在带有RF的现实世界数据集以及带有NN的图像上特别有效。
translated by 谷歌翻译
我们提出\ textbf {jaws},这是一系列用于无分配的不确定性量化任务的包装方法,以协变量偏移为中心,以我们的核心方法\ textbf {jaw}为中心,\ textbf {ja} ckknife+ \ textbf {w}八 - 重量。下巴还包括使用高阶影响函数的JAW的计算有效\ TextBf {a} pproximations:\ textbf {jawa}。从理论上讲,我们表明JAW放宽了Jackknife+对数据交换性的假设,即使在协变量转移下,也可以实现相同的有限样本覆盖范围保证。 Jawa在轻度假设下进一步以样本量或影响函数顺序的限制接近JAW保证。此外,我们提出了一种通用方法,以重新利用任何无分配不确定性量化方法及其对风险评估的任务的保证:该任务产生了真正标签在用户指定间隔内的估计概率。然后,我们将\ textbf {Jaw-r}和\ textbf {Jawa-r}作为\ textbf {r} ISK评估的建议方法的重新定义版本。实际上,在各种有偏见的现实世界数据集中,下颌的最先进的预测推理基准都超出了间隔生成和风险评估审计任务的偏差。
translated by 谷歌翻译