最近,深度学习中的不确定性估计已成为提高安全至关重要应用的可靠性和鲁棒性的关键领域。尽管有许多提出的方法要么关注距离感知模型的不确定性,要么是分布式检测的不确定性,要么是针对分布校准的输入依赖性标签不确定性,但这两种类型的不确定性通常都是必要的。在这项工作中,我们提出了用于共同建模模型和数据不确定性的HETSNGP方法。我们表明,我们提出的模型在这两种类型的不确定性之间提供了有利的组合,因此在包括CIFAR-100C,ImagEnet-C和Imagenet-A在内的一些具有挑战性的分发数据集上优于基线方法。此外,我们提出了HETSNGP Ensemble,这是我们方法的结合版本,该版本还对网络参数的不确定性进行建模,并优于其他集合基线。
translated by 谷歌翻译
深度神经网络易于对异常值过度自信的预测。贝叶斯神经网络和深度融合都已显示在某种程度上减轻了这个问题。在这项工作中,我们的目标是通过提议预测由高斯混合模型的后续的高斯混合模型来结合这两种方法的益处,该高斯混合模型包括独立培训的深神经网络的LAPPALL近似的加权和。该方法可以与任何一组预先训练的网络一起使用,并且与常规合并相比,只需要小的计算和内存开销。理论上我们验证了我们的方法从训练数据中的培训数据和虚拟化的基本线上的标准不确定量级基准测试中的“远离”的过度控制。
translated by 谷歌翻译
深度神经网络具有令人印象深刻的性能,但是他们无法可靠地估计其预测信心,从而限制了其在高风险领域中的适用性。我们表明,应用多标签的一VS损失揭示了分类的歧义并降低了模型的过度自信。引入的Slova(单标签One-Vs-All)模型重新定义了单个标签情况的典型单VS-ALL预测概率,其中只有一个类是正确的答案。仅当单个类具有很高的概率并且其他概率可忽略不计时,提议的分类器才有信心。与典型的SoftMax函数不同,如果所有其他类的概率都很小,Slova自然会检测到分布的样本。该模型还通过指数校准进行了微调,这使我们能够与模型精度准确地对齐置信分数。我们在三个任务上验证我们的方法。首先,我们证明了斯洛伐克与最先进的分布校准具有竞争力。其次,在数据集偏移下,斯洛伐克的性能很强。最后,我们的方法在检测到分布样品的检测方面表现出色。因此,斯洛伐克是一种工具,可以在需要不确定性建模的各种应用中使用。
translated by 谷歌翻译
本文我们的目标是利用异质的温度缩放作为校准策略(OOD)检测。此处的异质性是指每个样品的最佳温度参数可能不同,而不是传统的方法对整个分布使用相同的值。为了实现这一目标,我们提出了一种称为锚定的新培训策略,可以估算每个样品的适当温度值,从而导致几个基准的最新OOD检测性能。使用NTK理论,我们表明该温度函数估计与分类器的认知不确定性紧密相关,这解释了其行为。与某些表现最佳的OOD检测方法相反,我们的方法不需要暴露于其他离群数据集,自定义校准目标或模型结合。通过具有不同OOD检测设置的经验研究 - 远处,OOD附近和语义相干OOD - 我们建立了一种高效的OOD检测方法。可以在此处访问代码和模型-https://github.com/rushilanirudh/amp
translated by 谷歌翻译
最近出现了一系列用于估计具有单个正向通行证的深神经网络中的认知不确定性的新方法,最近已成为贝叶斯神经网络的有效替代方法。在信息性表示的前提下,这些确定性不确定性方法(DUM)在检测到分布(OOD)数据的同时在推理时添加可忽略的计算成本时实现了强大的性能。但是,目前尚不清楚dums是否经过校准,可以无缝地扩展到现实世界的应用 - 这都是其实际部署的先决条件。为此,我们首先提供了DUMS的分类法,并在连续分配转移下评估其校准。然后,我们将它们扩展到语义分割。我们发现,尽管DUMS尺度到现实的视觉任务并在OOD检测方面表现良好,但当前方法的实用性受到分配变化下的校准不良而破坏的。
translated by 谷歌翻译
已知现代深度神经网络模型将错误地将分布式(OOD)测试数据分类为具有很高信心的分数(ID)培训课程之一。这可能会对关键安全应用产生灾难性的后果。一种流行的缓解策略是训练单独的分类器,该分类器可以在测试时间检测此类OOD样本。在大多数实际设置中,在火车时间尚不清楚OOD的示例,因此,一个关键问题是:如何使用合成OOD样品来增加ID数据以训练这样的OOD检测器?在本文中,我们为称为CNC的OOD数据增强提出了一种新颖的复合腐败技术。 CNC的主要优点之一是,除了培训集外,它不需要任何固定数据。此外,与当前的最新技术(SOTA)技术不同,CNC不需要在测试时间进行反向传播或结合,从而使我们的方法在推断时更快。我们与过去4年中主要会议的20种方法进行了广泛的比较,表明,在OOD检测准确性和推理时间方面,使用基于CNC的数据增强训练的模型都胜过SOTA。我们包括详细的事后分析,以研究我们方法成功的原因,并确定CNC样本的较高相对熵和多样性是可能的原因。我们还通过对二维数据集进行零件分解分析提供理论见解,以揭示(视觉和定量),我们的方法导致ID类别周围的边界更紧密,从而更好地检测了OOD样品。源代码链接:https://github.com/cnc-ood
translated by 谷歌翻译
检测到分布输入对于在现实世界中安全部署机器学习模型至关重要。然而,已知神经网络遭受过度自信的问题,在该问题中,它们对分布和分布的输入的信心异常高。在这项工作中,我们表明,可以通过在训练中实施恒定的向量规范来通过logit归一化(logitnorm)(logitnorm)来缓解此问题。我们的方法是通过分析的激励,即logit的规范在训练过程中不断增加,从而导致过度自信的产出。因此,LogitNorm背后的关键思想是将网络优化期间输出规范的影响解散。通过LogitNorm培训,神经网络在分布数据和分布数据之间产生高度可区分的置信度得分。广泛的实验证明了LogitNorm的优势,在公共基准上,平均FPR95最高为42.30%。
translated by 谷歌翻译
神经网络缺乏对抗性鲁棒性,即,它们容易受到对抗的例子,通过对输入的小扰动导致错误的预测。此外,当模型给出错误的预测时,信任被破坏,即,预测的概率不是我们应该相信我们模型的良好指标。在本文中,我们研究了对抗性鲁棒性和校准之间的联系,发现模型对小扰动敏感的输入(很容易攻击)更有可能具有较差的预测。基于这种洞察力,我们通过解决这些对抗的缺陷输入来研究校准。为此,我们提出了基于对抗基于对抗的自适应标签平滑(AR-AD),其通过适应性软化标签,通过适应性软化标签来整合对抗性鲁棒性和校准到训练中的相关性,这是基于对敌人可以攻击的容易攻击。我们发现我们的方法,考虑了分销数据的对抗性稳健性,即使在分布班次下也能够更好地校准模型。此外,还可以应用于集合模型,以进一步提高模型校准。
translated by 谷歌翻译
贝叶斯范式有可能解决深度神经网络的核心问题,如校准和数据效率低差。唉,缩放贝叶斯推理到大量的空间通常需要限制近似。在这项工作中,我们表明它足以通过模型权重的小子集进行推动,以便获得准确的预测后断。另一个权重被保存为点估计。该子网推断框架使我们能够在这些子集上使用表现力,否则难以相容的后近近似。特别是,我们将子网线性化LAPLACE作为一种简单,可扩展的贝叶斯深度学习方法:我们首先使用线性化的拉普拉斯近似来获得所有重量的地图估计,然后在子网上推断出全协方差高斯后面。我们提出了一个子网选择策略,旨在最大限度地保护模型的预测性不确定性。经验上,我们的方法对整个网络的集合和较少的表达后近似进行了比较。
translated by 谷歌翻译
独立训练的神经网络的集合是一种最新的方法,可以在深度学习中估算预测性不确定性,并且可以通过三角洲函数的混合物解释为后验分布的近似值。合奏的培训依赖于损失景观的非跨性别性和其单个成员的随机初始化,从而使后近似不受控制。本文提出了一种解决此限制的新颖和原则性的方法,最大程度地减少了函数空间中真实后验和内核密度估计器(KDE)之间的$ f $ divergence。我们从组合的角度分析了这一目标,并表明它在任何$ f $的混合组件方面都是supporular。随后,我们考虑了贪婪合奏结构的问题。从负$ f $ didivergence上的边际增益来量化后近似的改善,通过将新组件添加到KDE中得出,我们得出了集合方法的新型多样性项。我们的方法的性能在计算机视觉的分布外检测基准测试中得到了证明,该基准在多个数据集中训练的一系列架构中。我们方法的源代码可在https://github.com/oulu-imeds/greedy_ensembles_training上公开获得。
translated by 谷歌翻译
人工智能的最新趋势是将验证的模型用于语言和视觉任务,这些模型已经实现了非凡的表现,但也令人困惑。因此,以各种方式探索这些模型的能力对该领域至关重要。在本文中,我们探讨了模型的可靠性,在其中我们将可靠的模型定义为一个不仅可以实现强大的预测性能,而且在许多涉及不确定性(例如选择性预测,开放式设置识别)的决策任务上,在许多决策任务上表现出色,而且表现良好。强大的概括(例如,准确性和适当的评分规则,例如在分布数据集中和分发数据集上的对数可能性)和适应性(例如,主动学习,几乎没有射击不确定性)。我们设计了40个数据集的10种任务类型,以评估视觉和语言域上可靠性的不同方面。为了提高可靠性,我们分别开发了VIT-PLEX和T5-PLEX,分别针对视觉和语言方式扩展了大型模型。 PLEX极大地改善了跨可靠性任务的最先进,并简化了传统协议,因为它可以改善开箱即用的性能,并且不需要设计分数或为每个任务调整模型。我们演示了高达1B参数的模型尺寸的缩放效果,并预处理数据集大小最多4B示例。我们还展示了PLEX在具有挑战性的任务上的功能,包括零射门的开放式识别,主动学习和对话语言理解中的不确定性。
translated by 谷歌翻译
众所周知,视觉分类模型在数据分布班面上遭受较差的校准。在本文中,我们对此问题采取了几何方法。我们提出几何灵敏度分解(GSD)将样本特征嵌入的标准分解为目标分类器的示例特征嵌入和角度相似度分解为依赖于实例和实例 - 独立的组件。实例相关组件捕获关于输入中的更改的敏感信息,而实例无关的组件仅表示仅用于最小化训练数据集的丢失的不敏感信息。灵感来自分解,我们分析了一个简单的扩展到当前的SoftMax-Linear模型,这在训练期间学会解开两个组件。在几种常见视觉模型上,脱谕式模型在面对配送(OOD)数据和腐败方面的标准校准度量上的其他校准方法表现出明显不那么复杂。具体而言,我们将当前技术超越30.8%的相对改善对预期校准误差的损坏的CIFAR100。代码在https://github.com/gt-ripl/geometric -sentivity-decomposition.git。
translated by 谷歌翻译
随着变压器在计算机视觉中普及的激增,一些研究试图确定它们是否可以比卷积神经网络(CNN)更适合分配变化并提供更好的不确定性估计。几乎一致的结论是它们是,并且通常或多或少地明确地认为这种所谓优势的原因是归因于自我注意力的机制。在本文中,我们进行了广泛的经验分析,表明最近最新的CNN(尤其是Convnext)可以比当前的最新变压器更强大,可靠,甚至有时甚至更多。但是,没有明显的赢家。因此,尽管它很容易陈述一个建筑家族比另一种建筑的明确优势,但他们似乎在各种任务上享有类似的非凡表演,同时也遭受了类似的脆弱性,例如纹理,背景和简单性偏见。
translated by 谷歌翻译
超越在分销数据上的测试上,在分销(OOD)检测中最近的普及方式增加了。最近尝试分类OOD数据介绍了接近和远远检测的概念。具体而言,先前作品在检测难度方面定义了OOD数据的特征。我们建议使用两种类型的分布换档来表征ood数据的频谱:协变速和概念转移,其中协变速转移对应于样式的变化,例如噪声和概念移位表示语义的变化。该表征揭示了对每种类型的敏感性对OOD数据的检测和置信校准是重要的。因此,我们调查了捕获对改善它们的每种类型数据集偏移和方法的敏感性的得分功能。为此,我们从理论上得出了两个分数函数,用于ood检测,协变速分数和概念换档分数,基于对均分数的kl分解,并提出了一种几何启发方法(几何奥丁)来改善ood检测在两个班次下,只有分发数据。另外,所提出的方法自然地导致表现力的后HOC校准函数,其在分配和分发数据中产生最先进的校准性能。我们是第一个提出一种跨越检测和校准以及不同类型的班次工作的方法的方法。查看https://sites.google.com/view/geometric-decomposition的project页面。
translated by 谷歌翻译
在值得信赖的机器学习中,这是一个重要的问题,可以识别与分配任务无关的输入的分布(OOD)输入。近年来,已经提出了许多分布式检测方法。本文的目的是识别共同的目标以及确定不同OOD检测方法的隐式评分函数。我们专注于在培训期间使用替代OOD数据的方法,以学习在测试时概括为新的未见外部分布的OOD检测分数。我们表明,内部和(不同)外部分布之间的二元歧视等同于OOD检测问题的几种不同的公式。当与标准分类器以共同的方式接受培训时,该二进制判别器达到了类似于离群暴露的OOD检测性能。此外,我们表明,异常暴露所使用的置信损失具有隐式评分函数,在训练和测试外部分配相同的情况下,以非平凡的方式与理论上最佳评分功能有所不同,这又是类似于训练基于能量的OOD检测器或添加背景类时使用的一种。在实践中,当以完全相同的方式培训时,所有这些方法的性能类似。
translated by 谷歌翻译
随着我们远离数据,预测不确定性应该增加,因为各种各样的解释与鲜为人知的信息一致。我们引入了远距离感知的先验(DAP)校准,这是一种纠正训练域之外贝叶斯深度学习模型过度自信的方法。我们将DAPS定义为模型参数的先验分布,该模型参数取决于输入,通过其与训练集的距离度量。DAP校准对后推理方法不可知,可以作为后处理步骤进行。我们证明了其在各种分类和回归问题中对几个基线的有效性,包括旨在测试远离数据的预测分布质量的基准。
translated by 谷歌翻译
在过去的几年中,关于分类,检测和分割问题的3D学习领域取得了重大进展。现有的绝大多数研究都集中在规范的封闭式条件上,忽略了现实世界的内在开放性。这限制了需要管理新颖和未知信号的自主系统的能力。在这种情况下,利用3D数据可以是有价值的资产,因为它传达了有关感应物体和场景几何形状的丰富信息。本文提供了关于开放式3D学习的首次广泛研究。我们介绍了一种新颖的测试床,其设置在类别语义转移方面的难度增加,并且涵盖了内域(合成之间)和跨域(合成对真实)场景。此外,我们研究了相关的分布情况,并开放了2D文献,以了解其最新方法是否以及如何在3D数据上有效。我们广泛的基准测试在同一连贯的图片中定位了几种算法,从而揭示了它们的优势和局限性。我们的分析结果可能是未来量身定制的开放式3D模型的可靠立足点。
translated by 谷歌翻译
对于在开放世界中部署的机器学习模型是必不可少的。最近,在训练期间(也称为离群暴露)在训练期间使用辅助外离群值数据集已显示出令人鼓舞的性能。由于潜在的OOD数据的样本空间可能是过大的,因此进行抽样信息的异常值至关重要。在这项工作中,我们提出了一种新型的基于后取样的离群矿井诗歌诗,该诗歌有助于有效利用异常数据,并促进了ID和OOD数据之间的紧凑决策边界,以改善检测。我们表明,诗在普通基准上建立了最先进的表现。与当前使用贪婪采样策略的最佳方法相比,诗在CIFAR-10和CIFAR-100上分别提高了相对性能的42.0%和24.2%(FPR95)。我们进一步提供了有关诗歌检测有效性的理论见解。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
已知深入学习方法遭受校准问题:通常会产生过度自信的估计。这些问题在低数据制度中加剧了。虽然研究了概率模型的校准,但在低数据制度中校准了极其过度参数化模型,呈现出独特的挑战。我们表明深度集合并不一定导致改进的校准特性。事实上,我们表明标准合奏方法,与混合规则化等现代技术结合使用时,可以导致校准的型号更少。本文审查了在数据稀缺时利用深度学习的三种最简单和常用方法之间的相互作用:数据增强,合奏和后处理校准方法。虽然标准合奏技术肯定有助于提高准确性,但我们证明了深度融合的校准依赖于微妙的折衷。我们还发现,随着深度合并使用时,需要稍微调整校准方法,如温度缩放,并且粗略地,需要在平均过程之后执行。我们的模拟表明,与低数据制度中的标准深度集合相比,这种简单的策略可以在一系列基准分类问题上对预期的校准误差(ECE)进行比较。
translated by 谷歌翻译