近年来,自动化方法迅速发展了皮肤病变和分类的方法。由于此类系统在诊所中的部署越来越多,因此很重要的是,为各种分布(OOD)样品(未知的皮肤病变和状况)开发更强大的系统。但是,当前对皮肤病变分类训练的深度学习模型倾向于将这些OOD样品错误地分类为他们学习的皮肤病变类别之一。为了解决这个问题,我们提出了一种简单而战略的方法,可以改善OOD检测性能,同时维持已知皮肤病变类别的多类分类精度。要说明,这种方法建立在皮肤病变图像的长尾且细粒度检测任务的现实情况之上。通过这种方法,1)首先,我们针对中间和尾巴之间的混合,以解决长尾问题。 2)后来,我们将上述混合策略与原型学习结合在一起,以解决数据集的细粒度。本文的独特贡献是两倍,这是通过广泛的实验证明的。首先,我们提出了针对皮肤病变的OOD任务的现实问题。其次,我们提出了一种针对问题设置的长尾且细粒度方面的方法,以提高OOD性能。
translated by 谷歌翻译
深度神经网络已经显示出使用医学图像数据的疾病检测和分类结果。然而,他们仍然遭受处理真实世界场景的挑战,特别是可靠地检测分配(OOD)样本。我们提出了一种方法来强化皮肤和疟疾样本的ood样本,而无需在训练期间获得标记的OOD样品。具体而言,我们使用度量学习以及Logistic回归来强制深度网络学习众多丰富的类代表功能。要指导对OOD示例的学习过程,我们通过删除图像或置换图像部件中的类特定的突出区域并远离分布式样本来生成ID类似的示例。在推理时间期间,用于检测分布外样品的K +互易邻居。对于皮肤癌ood检测,我们使用两个标准基准皮肤癌症ISIC数据集AS ID,六种不同的数据集具有不同难度水平的数据集被视为出于分配。对于疟疾检测,我们使用BBBC041 Malaria DataSet作为ID和五个不同的具有挑战性的数据集,如分销。我们在先前的先前皮肤癌和疟疾OOD检测中,我们在TNR @ TPR95%中提高了最先进的结果,改善了5%和4%。
translated by 谷歌翻译
在过去的几年中,关于分类,检测和分割问题的3D学习领域取得了重大进展。现有的绝大多数研究都集中在规范的封闭式条件上,忽略了现实世界的内在开放性。这限制了需要管理新颖和未知信号的自主系统的能力。在这种情况下,利用3D数据可以是有价值的资产,因为它传达了有关感应物体和场景几何形状的丰富信息。本文提供了关于开放式3D学习的首次广泛研究。我们介绍了一种新颖的测试床,其设置在类别语义转移方面的难度增加,并且涵盖了内域(合成之间)和跨域(合成对真实)场景。此外,我们研究了相关的分布情况,并开放了2D文献,以了解其最新方法是否以及如何在3D数据上有效。我们广泛的基准测试在同一连贯的图片中定位了几种算法,从而揭示了它们的优势和局限性。我们的分析结果可能是未来量身定制的开放式3D模型的可靠立足点。
translated by 谷歌翻译
准确地检测出具有不同语义和协变量转移相对于分布的数据(ID)数据的分布外(OOD)数据对于部署安全可靠的模型至关重要。当处理高度结果应用(例如医学成像,自动驾驶汽车等)时,情况尤其如此。目的是设计一个可以接受ID数据有意义变化的检测器,同时还拒绝了OOD制度的示例。在实践中,可以通过使用适当的评分函数(例如能量)来实现一致性来实现此双重目标,并校准检测器以拒绝一组策划的OOD数据(称为离群曝光或不久的OE)。尽管OE方法被广泛采用,但由于现实世界情景的不可预测性,组装代表性的OOD数据集既昂贵又具有挑战性,因此最新设计了无OE探测器的趋势。在本文中,我们做出了一个令人惊讶的发现,即控制对ID变化的概括和暴露于不同(合成)异常值的示例对于同时改善语义和模态转移检测至关重要。与现有方法相反,我们的方法样本在潜在空间中嵌入式体系,并通过负数据扩展构建异常示例。通过一项关于医学成像基准(MedMnist,ISIC2019和NCT)的严格实证研究,我们在语义和模态转移下的现有无OE,OOD检测方法上表现出显着的性能增长(AUROC中的15美元\%-35 \%$)。
translated by 谷歌翻译
为DNNS提供超出分销(OOD)检测对于他们在开放世界中的安全可靠运行至关重要。尽管最近的进展,但目前的作品通常会考虑ood问题中的粗粒度,这不能近似许多实际粒度的任务,其中在分布(ID)数据和OOD数据之间可以预期高粒度(例如,识别野生鸟类分类系统的新型鸟类。在这项工作中,我们首先仔细构建四种大型细粒度测试环境,其中现有方法显示出困难。我们发现当前的方法,包括在DNN培训期间包含大型/多样化异常值的方法,在宽面积上具有较差的覆盖范围,其中良好的谷物样品定位。然后,我们提出了混合异常曝光(MixoE),其通过混合ID数据和培训异常值来实现覆盖的OOD区域,并通过线性衰减将预测置信度线性衰减为从ID到OOD的输入转换来规范模型行为。广泛的实验和分析证明了Mixoe改善细粒环境中的检测的有效性。
translated by 谷歌翻译
有限的作品显示无监督的分布(OOD)方法对复杂的医疗数据的功效。在这里,我们展示了我们无监督的OOD检测算法,SIMCLR-LOF的初步调查结果,以及在医学图像上应用的最近现实方法(SSD)的最新状态。SIMCLR-LOF使用SIMCLR学习语义有意义的功能,如果测试样本是ood的,则使用LOF进行评分。我们在多源国际皮肤成像协作(ISIC)2019数据集上进行了评估,并显示与SSD竞争的结果以及应用于同一数据的最近监督方法。
translated by 谷歌翻译
检测到分布(OOD)样本对于在现实世界中的分类器的安全部署至关重要。但是,已知深层神经网络对异常数据过于自信。现有作品直接设计得分功能,通过挖掘分别分类器(ID)和OOD的不一致性。在本文中,我们基于以下假设,即对ID数据进行训练的自动编码器无法重建OOD和ID,我们进一步补充了这种不一致性。我们提出了一种新颖的方法,读取(重建误差聚合检测器),以统一分类器和自动编码器的不一致。具体而言,原始像素的重建误差转换为分类器的潜在空间。我们表明,转换后的重建误差桥接了语义差距,并从原始的传承了检测性能。此外,我们提出了一种调整策略,以根据OOD数据的细粒度表征来减轻自动编码器的过度自信问题。在两种情况下,我们分别提出了方法的两个变体,即仅基于预先训练的分类器和读取 - 读取器(欧几里得距离),即读取MD(Mahalanobis距离),该分类器重新训练分类器。我们的方法不需要访问测试时间数据以进行微调超参数。最后,我们通过与最先进的OOD检测算法进行了广泛的比较来证明所提出的方法的有效性。在CIFAR-10预先训练的WideresNet上,我们的方法将平均FPR@95TPR降低了9.8%,而不是先前的最新ART。
translated by 谷歌翻译
Deep neural networks have attained remarkable performance when applied to data that comes from the same distribution as that of the training set, but can significantly degrade otherwise. Therefore, detecting whether an example is out-of-distribution (OoD) is crucial to enable a system that can reject such samples or alert users. Recent works have made significant progress on OoD benchmarks consisting of small image datasets. However, many recent methods based on neural networks rely on training or tuning with both in-distribution and out-of-distribution data. The latter is generally hard to define a-priori, and its selection can easily bias the learning. We base our work on a popular method ODIN 1 [21], proposing two strategies for freeing it from the needs of tuning with OoD data, while improving its OoD detection performance. We specifically propose to decompose confidence scoring as well as a modified input pre-processing method. We show that both of these significantly help in detection performance. Our further analysis on a larger scale image dataset shows that the two types of distribution shifts, specifically semantic shift and non-semantic shift, present a significant difference in the difficulty of the problem, providing an analysis of when ODIN-like strategies do or do not work.
translated by 谷歌翻译
已知现代深度神经网络模型将错误地将分布式(OOD)测试数据分类为具有很高信心的分数(ID)培训课程之一。这可能会对关键安全应用产生灾难性的后果。一种流行的缓解策略是训练单独的分类器,该分类器可以在测试时间检测此类OOD样本。在大多数实际设置中,在火车时间尚不清楚OOD的示例,因此,一个关键问题是:如何使用合成OOD样品来增加ID数据以训练这样的OOD检测器?在本文中,我们为称为CNC的OOD数据增强提出了一种新颖的复合腐败技术。 CNC的主要优点之一是,除了培训集外,它不需要任何固定数据。此外,与当前的最新技术(SOTA)技术不同,CNC不需要在测试时间进行反向传播或结合,从而使我们的方法在推断时更快。我们与过去4年中主要会议的20种方法进行了广泛的比较,表明,在OOD检测准确性和推理时间方面,使用基于CNC的数据增强训练的模型都胜过SOTA。我们包括详细的事后分析,以研究我们方法成功的原因,并确定CNC样本的较高相对熵和多样性是可能的原因。我们还通过对二维数据集进行零件分解分析提供理论见解,以揭示(视觉和定量),我们的方法导致ID类别周围的边界更紧密,从而更好地检测了OOD样品。源代码链接:https://github.com/cnc-ood
translated by 谷歌翻译
检测到分布(OOD)数据是一项任务,它正在接受计算机视觉的深度学习领域越来越多的研究注意力。但是,通常在隔离任务上评估检测方法的性能,而不是考虑串联中的潜在下游任务。在这项工作中,我们检查了存在OOD数据(SCOD)的选择性分类。也就是说,检测OOD样本的动机是拒绝它们,以便降低它们对预测质量的影响。我们在此任务规范下表明,与仅在OOD检测时进行评估时,现有的事后方法的性能大不相同。这是因为如果ID数据被错误分类,将分布分配(ID)数据与OOD数据混合在一起的问题不再是一个问题。但是,正确和不正确的预测的ID数据中的汇合变得不受欢迎。我们还提出了一种新颖的SCOD,SoftMax信息保留(SIRC)的方法,该方法通过功能不足信息来增强基于软疗法的置信度得分,以便在不牺牲正确和错误的ID预测之间的分离的情况下,可以提高其识别OOD样品的能力。在各种成像网尺度数据集和卷积神经网络体系结构上进行的实验表明,SIRC能够始终如一地匹配或胜过SCOD的基线,而现有的OOD检测方法则无法做到。
translated by 谷歌翻译
开放式识别使深度神经网络(DNN)能够识别未知类别的样本,同时在已知类别的样本上保持高分类精度。基于自动编码器(AE)和原型学习的现有方法在处理这项具有挑战性的任务方面具有巨大的潜力。在这项研究中,我们提出了一种新的方法,称为类别特定的语义重建(CSSR),该方法整合了AE和原型学习的力量。具体而言,CSSR用特定于类的AE表示的歧管替代了原型点。与传统的基于原型的方法不同,CSSR在单个AE歧管上的每个已知类模型,并通过AE的重建误差来测量类归属感。特定于类的AE被插入DNN主链的顶部,并重建DNN而不是原始图像所学的语义表示。通过端到端的学习,DNN和AES互相促进,以学习歧视性和代表性信息。在多个数据集上进行的实验结果表明,所提出的方法在封闭式和开放式识别中都达到了出色的性能,并且非常简单且灵活地将其纳入现有框架中。
translated by 谷歌翻译
分布(OOD)检测对于确保机器学习系统的可靠性和安全性至关重要。例如,在自动驾驶中,我们希望驾驶系统在发现在训练时间中从未见过的异常​​场景或对象时,发出警报并将控件移交给人类,并且无法做出安全的决定。该术语《 OOD检测》于2017年首次出现,此后引起了研究界的越来越多的关注,从而导致了大量开发的方法,从基于分类到基于密度到基于距离的方法。同时,其他几个问题,包括异常检测(AD),新颖性检测(ND),开放式识别(OSR)和离群检测(OD)(OD),在动机和方法方面与OOD检测密切相关。尽管有共同的目标,但这些主题是孤立发展的,它们在定义和问题设定方面的细微差异通常会使读者和从业者感到困惑。在这项调查中,我们首先提出一个称为广义OOD检测的统一框架,该框架涵盖了上述五个问题,即AD,ND,OSR,OOD检测和OD。在我们的框架下,这五个问题可以看作是特殊情况或子任务,并且更容易区分。然后,我们通过总结了他们最近的技术发展来审查这五个领域中的每一个,特别关注OOD检测方法。我们以公开挑战和潜在的研究方向结束了这项调查。
translated by 谷歌翻译
分布(OOD)检测是安全部署模型在开放世界中的关键。对于OOD检测,收集足够的标记数据(ID)通常比未标记的数据更耗时且昂贵。当ID标记的数据受到限制时,由于其对ID标记的数据的量的高度依赖性,因此先前的OOD检测方法不再优越。基于有限的ID标记数据和足够的未标记数据,我们定义了一种称为弱监督的新设置(WSOOD)。为了解决新问题,我们提出了一种称为拓扑结构学习(TSL)的有效方法。首先,TSL使用一种对比度学习方法来构建ID和OOD数据的初始拓扑结构空间。其次,在初始拓扑空间中,TSL矿山有效的拓扑连接。最后,基于有限的ID标记数据和开采拓扑连接,TSL在新的拓扑空间中重建拓扑结构,以提高ID和OOD实例的可分离性。对几个代表性数据集的广泛研究表明,TSL明显胜过最先进的研究,从而在新的WSood环境中验证了我们方法的有效性和鲁棒性。
translated by 谷歌翻译
医学图像分类已在医学图像分析中广泛采用。但是,由于难以在医疗领域收集和标记数据,医疗图像数据集通常受到高度影响。为了解决这个问题,先前的工作利用类样本作为重新加权或重新采样的先验,但特征表示通常仍然不够歧视。在本文中,我们采用对比度学习来解决长尾医疗失衡问题。具体而言,我们首先提出类别原型和对抗性原型,以产生代表性的对比对。然后,提出了原型重新校准策略来解决高度不平衡的数据分布。最后,统一的原始损失旨在训练我们的框架。总体框架,即作为原型的对比学习(PROCO),以端到端方式统一为单级管道,以减轻医学图像分类中的不平衡问题,这也是与现有作品的独特进步当他们遵循传统的两阶段管道时。对两个高度平衡的医学图像分类数据集进行了广泛的实验表明,我们的方法的表现优于现有的最新方法。
translated by 谷歌翻译
在现实世界中的视觉应用中检测分布(OOD)样本(例如分类或对象检测)已成为当今深度学习系统部署的必要前提。已经提出了许多技术,其中已证明基于能量的OOD方法是有希望和令人印象深刻的性能。我们提出了基于语义驱动的能量方法,这是一种端到端的可训练系统,易于优化。我们将分布样品与能量评分和表示分数结合的外部分布样品区分开。我们通过最大程度地降低分布样品的能量来实现这一目标,并同时学习各自的类表征,这些类别更接近和最大化能量以供外分发样品,并将其从已知的类表征进一步推出。此外,我们提出了一种新颖的损失功能,我们称之为群集局灶性损失(CFL),事实证明这很简单,但在学习更好的班级群集中心表示方面非常有效。我们发现,我们的新方法可以增强异常检测,并在共同基准上获得基于能量的模型。与现有基于能量的方法相比,在CIFAR-10和CIFAR-100训练的WideSnet上,我们的模型分别将相对平均假正(以95%的真实正率为95%)降低67.2%和57.4%。此外,我们扩展了对象检测的框架并提高了性能。
translated by 谷歌翻译
当训练数据集患有极端阶级失衡时,深度神经网络通常会表现不佳。最近的研究发现,以半监督的方式直接使用分布外数据(即开放式样本)培训将损害概括性能。在这项工作中,我们从理论上表明,从贝叶斯的角度来看,仍然可以利用分发数据来扩大少数群体。基于这种动机,我们提出了一种称为开放采样的新方法,该方法利用开放式嘈杂标签重新平衡培训数据集的班级先验。对于每个开放式实例,标签是​​从我们的预定义分布中取样的,该分布互补,与原始类先验的分布互补。我们从经验上表明,开放采样不仅可以重新平衡阶级先验,还鼓励神经网络学习可分离的表示。广泛的实验表明,我们提出的方法显着优于现有数据重新平衡方法,并可以提高现有最新方法的性能。
translated by 谷歌翻译
建立强大的确定性神经网络仍然是一个挑战。一方面,某些方法以降低某些情况下的分类准确性为代价改善了分布检测。另一方面,某些方法同时提高了分类准确性,不确定性估计和分布外检测,但以降低推理效率为代价。在本文中,我们提出了使用Dismax损失的培训确定性神经网络,这是对通常的软马克斯损失的倒入替换(即,线性输出层的组合,软磁性激活和交叉透射率损失) 。从Isomax+损失开始,我们根据所有原型的距离创建每个logit,而不仅仅是与正确类关联的logit。我们还引入了一种结合图像的机制,以构建所谓的分数概率正则化。此外,我们提出了一种快速训练后校准网络的方法。最后,我们提出一个复合分数以执行分布外检测。我们的实验表明,Dismax通常在分类准确性,不确定性估计和分布外检测方面同时优于当前方法,同时保持确定性的神经网络推断效率。重现结果的代码可在https://github.com/dlmacedo/distinction-maximization-loss上获得。
translated by 谷歌翻译
现有的分布(OOD)检测方法通常在具有平衡的类别分布的培训集中进行基准测试。但是,在实际应用程序中,培训集具有长尾分配是很常见的。在这项工作中,我们首先证明现有的OOD检测方法通常会在训练集分布式分布时遭受重大性能降解。通过分析,我们认为这是因为模型难以区分少数尾巴级分配样本与真实的OOD样本,从而使尾巴类更容易被错误地检测为OOD。为了解决这个问题,我们提出了部分和不对称的监督对比学习(PASCL),该学习明确鼓励该模型区分尾级分配样本和OOD样品。为了进一步提高分布分类的准确性,我们提出了辅助分支列式,该辅助分支列出了BN的两个单独分支和分类层分别用于异常检测和分布分类。直觉是,分布和OOD异常数据具有不同的基础分布。我们的方法的表现优于先前的最新方法$ 1.29 \%$,$ 1.45 \%$,$ 0.69 \%$ $ $ $ $ $ $异常检测误报(FPR)和$ 3.24 \%\%$,$ 4.06 \%$,$ 7.89 \%$ $ CIFAR10-LT,CIFAR100-LT和IMAGENET-LT的分布分类精度。代码和预培训模型可在https://github.com/amazon-research/long-tailed-ood-detection上找到。
translated by 谷歌翻译
本文重点介绍了用神经网络检测分配(OOD)样本的问题。在图像识别任务,训练过的分类往往给人高置信度的远离中分布(ID)数据输入图像,这大大限制了它在现实世界中的应用。为了减轻这个问题,我们提出了一个基于GaN的边界意识分类器(GBAC),用于生成仅包含大多数ID数据的关闭超空间。我们的方法基于传统的神经网分离特征空间作为几个不适合于ood检测的未闭合区域。与GBAC作为辅助模块,封闭的超空间分布以外的OOD数据将具有低得多的分数被分配,允许更有效的检测OOD同时维持分级性能。此外,我们提出了一种快速采样方法,用于产生躺在预先提及的闭合空间的边界上的硬度陈述。在几个数据集和神经网络架构上采取的实验承诺GBAC的有效性。
translated by 谷歌翻译
我们表明,著名的混音的有效性[Zhang等,2018],如果而不是将其用作唯一的学习目标,就可以进一步改善它,而是将其用作标准跨侧面损失的附加规则器。这种简单的变化不仅提供了太大的准确性,而且在大多数情况下,在各种形式的协变量转移和分布外检测实验下,在大多数情况下,混合量的预测不确定性估计质量都显着提高了。实际上,我们观察到混合物在检测出分布样本时可能会产生大量退化的性能,因为我们在经验上表现出来,因为它倾向于学习在整个过程中表现出高渗透率的模型。很难区分分布样本与近分离样本。为了显示我们的方法的功效(RegMixup),我们在视觉数据集(Imagenet&Cifar-10/100)上提供了详尽的分析和实验,并将其与最新方法进行比较,以进行可靠的不确定性估计。
translated by 谷歌翻译