本文解决了开放式识别(OSR)问题,其中目标是在检测到拒绝未知样本时正确地对已知类的样本进行分类。在OSR问题中,假设“未知”具有无限可能性,因为我们在他们出现之前没有了解未知数。直观地,OSR系统探讨了未知数的可能性,检测未知的可能性越有可能。因此,本文提出了一种新颖的合成未知类学习方法,其产生未知样本,同时保持所生成的样本之间的多样性并学习这些样本。除了这个未知的样品生成过程之外,还引入了知识蒸馏,为学习合成未知数提供空间。通过以交替的方式学习未知样本和已知样品,所提出的方法不仅可以体验多样化的合成未知,而且还可以减少相对于已知类别的全面化。在几个基准数据集上的实验表明,该方法显着优于其他最先进的方法。还显示,在MNIST数据集上训练之后,可以通过所提出的方法生成和学习现实未知数字。
translated by 谷歌翻译
开放式识别(OSR)假设未知实例在推理时间出现在蓝色中。 OSR的主要挑战是,模型对未知数的响应是完全无法预测的。此外,由于实例的难度级别不同,因此开放式设置的多样性使情况变得更加困难。因此,我们提出了一个新颖的框架,难以感知的模拟器(DIAS),该框架产生了具有不同难度水平的假货来模拟现实世界。我们首先在分​​类器的角度研究了生成对抗网络(GAN)的假货,并观察到这些伪造并不具有挑战性。这使我们通过对具有中等难题的甘恩产生的样品来定义难度的标准。为了产生难题的示例,我们介绍模仿者,模仿分类器的行为。此外,我们的修改后的gan和模仿者也分别产生了中等和易于缺陷的样品。结果,DIAS的表现优于AUROC和F-SCORE指标的最先进方法。我们的代码可在https://github.com/wjun0830/difficulty-aware-simulator上找到。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
Automatic Target Recognition (ATR) is a category of computer vision algorithms which attempts to recognize targets on data obtained from different sensors. ATR algorithms are extensively used in real-world scenarios such as military and surveillance applications. Existing ATR algorithms are developed for traditional closed-set methods where training and testing have the same class distribution. Thus, these algorithms have not been robust to unknown classes not seen during the training phase, limiting their utility in real-world applications. To this end, we propose an Open-set Automatic Target Recognition framework where we enable open-set recognition capability for ATR algorithms. In addition, we introduce a plugin Category-aware Binary Classifier (CBC) module to effectively tackle unknown classes seen during inference. The proposed CBC module can be easily integrated with any existing ATR algorithms and can be trained in an end-to-end manner. Experimental results show that the proposed approach outperforms many open-set methods on the DSIAC and CIFAR-10 datasets. To the best of our knowledge, this is the first work to address the open-set classification problem for ATR algorithms. Source code is available at: https://github.com/bardisafa/Open-set-ATR.
translated by 谷歌翻译
知识蒸馏(KD)是一种有效的方法,可以将知识从大型“教师”网络转移到较小的“学生”网络。传统的KD方法需要大量标记的培训样本和白盒老师(可以访问参数)才能培训好学生。但是,这些资源并不总是在现实世界应用中获得。蒸馏过程通常发生在我们无法访问大量数据的外部政党方面,并且由于安全性和隐私问题,教师没有披露其参数。为了克服这些挑战,我们提出了一种黑盒子少的KD方法,以培训学生很少的未标记培训样本和一个黑盒老师。我们的主要思想是通过使用混合和有条件的变异自动编码器生成一组不同的分布合成图像来扩展训练集。这些合成图像及其从老师获得的标签用于培训学生。我们进行了广泛的实验,以表明我们的方法在图像分类任务上明显优于最近的SOTA/零射击KD方法。代码和型号可在以下网址找到:https://github.com/nphdang/fs-bbt
translated by 谷歌翻译
模式识别中的一个挑战是开放式识别。与封闭式识别相比,开放式识别不仅需要减少经验风险,也需要降低开放空间风险,并且对这两个风险的减少对应于分别分配已知类别并分别识别未知类。如何降低开放空间风险是开放式识别的关键。本文通过分析已知和未知类功能的分布来探讨开放空间风险的起源。在此基础上,提出了空间位置约束原型丢失功能,以同时减少两个风险。在多个基准数据集和许多可视化结果上的广泛实验表明我们的方法优于最多现有的方法。
translated by 谷歌翻译
开放式识别使深度神经网络(DNN)能够识别未知类别的样本,同时在已知类别的样本上保持高分类精度。基于自动编码器(AE)和原型学习的现有方法在处理这项具有挑战性的任务方面具有巨大的潜力。在这项研究中,我们提出了一种新的方法,称为类别特定的语义重建(CSSR),该方法整合了AE和原型学习的力量。具体而言,CSSR用特定于类的AE表示的歧管替代了原型点。与传统的基于原型的方法不同,CSSR在单个AE歧管上的每个已知类模型,并通过AE的重建误差来测量类归属感。特定于类的AE被插入DNN主链的顶部,并重建DNN而不是原始图像所学的语义表示。通过端到端的学习,DNN和AES互相促进,以学习歧视性和代表性信息。在多个数据集上进行的实验结果表明,所提出的方法在封闭式和开放式识别中都达到了出色的性能,并且非常简单且灵活地将其纳入现有框架中。
translated by 谷歌翻译
The problem of detecting whether a test sample is from in-distribution (i.e., training distribution by a classifier) or out-of-distribution sufficiently different from it arises in many real-world machine learning applications. However, the state-of-art deep neural networks are known to be highly overconfident in their predictions, i.e., do not distinguish in-and out-of-distributions. Recently, to handle this issue, several threshold-based detectors have been proposed given pre-trained neural classifiers. However, the performance of prior works highly depends on how to train the classifiers since they only focus on improving inference procedures. In this paper, we develop a novel training method for classifiers so that such inference algorithms can work better. In particular, we suggest two additional terms added to the original loss (e.g., cross entropy). The first one forces samples from out-of-distribution less confident by the classifier and the second one is for (implicitly) generating most effective training samples for the first one. In essence, our method jointly trains both classification and generative neural networks for out-of-distribution. We demonstrate its effectiveness using deep convolutional neural networks on various popular image datasets.
translated by 谷歌翻译
在开放式识别(OSR)中,分类器应能够拒绝不知名的样本,同时保持高闭合分类的精度。为了有效解决OSR问题,先前的研究试图通过离线分析(例如,基于距离的特征分析或复杂的网络体系结构)限制有限空间外部的潜在特征空间并拒绝位于有限空间之外的数据。为了通过标准分类器体系结构中的简单推理过程(无脱机分析)进行OSR,我们使用基于距离的分类器代替常规的软具有距离分类器。之后,我们设计了一种背景级正则化策略,该策略在训练阶段使用背景级数据作为不知名级的替代物。具体而言,我们制定了适合基于距离的分类器的新型正则化损失,该损失可为已知类别和强制背景类样品远离有限的空间提供足够大的类别的潜在特征空间。通过我们的广泛实验,我们表明所提出的方法可提供强大的OSR结果,同时保持高闭合分类的精度。
translated by 谷歌翻译
知识蒸馏在模型压缩方面取得了显着的成就。但是,大多数现有方法需要原始的培训数据,而实践中的实际数据通常是不可用的,因为隐私,安全性和传输限制。为了解决这个问题,我们提出了一种有条件的生成数据无数据知识蒸馏(CGDD)框架,用于培训有效的便携式网络,而无需任何实际数据。在此框架中,除了使用教师模型中提取的知识外,我们将预设标签作为额外的辅助信息介绍以培训发电机。然后,训练有素的发生器可以根据需要产生指定类别的有意义的培训样本。为了促进蒸馏过程,除了使用常规蒸馏损失,我们将预设标签视为地面真理标签,以便学生网络直接由合成训练样本类别监督。此外,我们强制学生网络模仿教师模型的注意图,进一步提高了其性能。为了验证我们方法的优越性,我们设计一个新的评估度量称为相对准确性,可以直接比较不同蒸馏方法的有效性。培训的便携式网络通过提出的数据无数据蒸馏方法获得了99.63%,99.07%和99.84%的CIFAR10,CIFAR100和CALTECH101的相对准确性。实验结果表明了所提出的方法的优越性。
translated by 谷歌翻译
Detecting test samples drawn sufficiently far away from the training distribution statistically or adversarially is a fundamental requirement for deploying a good classifier in many real-world machine learning applications. However, deep neural networks with the softmax classifier are known to produce highly overconfident posterior distributions even for such abnormal samples. In this paper, we propose a simple yet effective method for detecting any abnormal samples, which is applicable to any pre-trained softmax neural classifier. We obtain the class conditional Gaussian distributions with respect to (low-and upper-level) features of the deep models under Gaussian discriminant analysis, which result in a confidence score based on the Mahalanobis distance. While most prior methods have been evaluated for detecting either out-of-distribution or adversarial samples, but not both, the proposed method achieves the state-of-the-art performances for both cases in our experiments. Moreover, we found that our proposed method is more robust in harsh cases, e.g., when the training dataset has noisy labels or small number of samples. Finally, we show that the proposed method enjoys broader usage by applying it to class-incremental learning: whenever out-of-distribution samples are detected, our classification rule can incorporate new classes well without further training deep models.
translated by 谷歌翻译
已知现代深度神经网络模型将错误地将分布式(OOD)测试数据分类为具有很高信心的分数(ID)培训课程之一。这可能会对关键安全应用产生灾难性的后果。一种流行的缓解策略是训练单独的分类器,该分类器可以在测试时间检测此类OOD样本。在大多数实际设置中,在火车时间尚不清楚OOD的示例,因此,一个关键问题是:如何使用合成OOD样品来增加ID数据以训练这样的OOD检测器?在本文中,我们为称为CNC的OOD数据增强提出了一种新颖的复合腐败技术。 CNC的主要优点之一是,除了培训集外,它不需要任何固定数据。此外,与当前的最新技术(SOTA)技术不同,CNC不需要在测试时间进行反向传播或结合,从而使我们的方法在推断时更快。我们与过去4年中主要会议的20种方法进行了广泛的比较,表明,在OOD检测准确性和推理时间方面,使用基于CNC的数据增强训练的模型都胜过SOTA。我们包括详细的事后分析,以研究我们方法成功的原因,并确定CNC样本的较高相对熵和多样性是可能的原因。我们还通过对二维数据集进行零件分解分析提供理论见解,以揭示(视觉和定量),我们的方法导致ID类别周围的边界更紧密,从而更好地检测了OOD样品。源代码链接:https://github.com/cnc-ood
translated by 谷歌翻译
We introduce a novel technique for knowledge transfer, where knowledge from a pretrained deep neural network (DNN) is distilled and transferred to another DNN. As the DNN maps from the input space to the output space through many layers sequentially, we define the distilled knowledge to be transferred in terms of flow between layers, which is calculated by computing the inner product between features from two layers. When we compare the student DNN and the original network with the same size as the student DNN but trained without a teacher network, the proposed method of transferring the distilled knowledge as the flow between two layers exhibits three important phenomena: (1) the student DNN that learns the distilled knowledge is optimized much faster than the original model; (2) the student DNN outperforms the original DNN; and (3) the student DNN can learn the distilled knowledge from a teacher DNN that is trained at a different task, and the student DNN outperforms the original DNN that is trained from scratch.
translated by 谷歌翻译
深度神经网络对各种任务取得了出色的性能,但它们具有重要问题:即使对于完全未知的样本,也有过度自信的预测。已经提出了许多研究来成功过滤出这些未知的样本,但它们仅考虑狭窄和特定的任务,称为错误分类检测,开放式识别或分布外检测。在这项工作中,我们认为这些任务应该被视为根本存在相同的问题,因为理想的模型应该具有所有这些任务的检测能力。因此,我们介绍了未知的检测任务,以先前的单独任务的整合,用于严格检查深度神经网络对广谱的广泛未知样品的检测能力。为此,构建了不同尺度上的统一基准数据集,并且存在现有流行方法的未知检测能力进行比较。我们发现深度集合始终如一地优于检测未知的其他方法;但是,所有方法只针对特定类型的未知方式成功。可重复的代码和基准数据集可在https://github.com/daintlab/unknown-detection-benchmarks上获得。
translated by 谷歌翻译
开放式识别(OSR)的目的是同时检测未知类别的样本并分类已知的级别样本。大多数现有的OSR方法是归纳方法,通常遭受域移位问题的困扰,从已知类别域中学习的模型可能不适合不知名的类域。解决这个问题的启发,受到跨导性学习在许多其他视觉任务中减轻域转移问题的成功的启发,我们提出了一个迭代的转移性OSR框架,称为IT-OSR,该框架的实现了三个探索的模块,包括一个可靠性采样模块,A功能生成模块和基线更新模块。具体而言,在每次迭代中,在探索的可靠性采样模块中介绍了双空间一致的采样方法,用于根据基线方法分配的伪标签从测试样本中选择一些相对可靠的采样模块,这可能是任意的敏感性OSRR方法。然后,在正交编码条件下设计的有条件的双对逆向生成网络在特征生成模块中设计,以根据所选的测试样品和伪标签生成已知类和未知类别的判别样品特征。最后,通过共同利用生成的功能,带有伪标签的选定测试样品和训练样本,对基线更新模块中的样本进行了重新预测进行了更新。标准数据集和交叉数据集设置的广泛实验结果表明,通过将两种典型的电感OSR方法引入所提出的IT-OSR框架中,派生的转导方法比15种最先进的方法更好地执行了更好的性能。在大多数情况下。
translated by 谷歌翻译
常规监督学习或分类的主要假设是,测试样本是从与训练样本相同的分布中得出的,该样本称为封闭设置学习或分类。在许多实际情况下,事实并非如此,因为测试数据中有未知数或看不见的类样本,这称为“开放式”方案,需要检测到未知数。该问题称为开放式识别问题,在安全至关重要的应用中很重要。我们建议通过学习成对相似性来检测未知数(或看不见的类样本)。提出的方法分为两个步骤。它首先使用培训中出现的所见类学习了一个封闭的集体分类器,然后学习如何将看到的类与伪单人(自动生成的看不见的类样本)进行比较。伪无表情的一代是通过对可见或训练样品进行分配转换增加而进行的。我们称我们的方法OPG(基于伪看不见的数据生成开放式识别)。实验评估表明,基于相似性的功能可以成功区分基准数据集中的未见特征,以进行开放式识别。
translated by 谷歌翻译
机器学习中的知识蒸馏是将知识从名为教师的大型模型转移到一个名为“学生”的较小模型的过程。知识蒸馏是将大型网络(教师)压缩到较小网络(学生)的技术之一,该网络可以部署在手机等小型设备中。当教师和学生之间的网络规模差距增加时,学生网络的表现就会下降。为了解决这个问题,在教师模型和名为助教模型的学生模型之间采用了中间模型,这反过来弥补了教师与学生之间的差距。在这项研究中,我们已经表明,使用多个助教模型,可以进一步改进学生模型(较小的模型)。我们使用加权集合学习将这些多个助教模型组合在一起,我们使用了差异评估优化算法来生成权重值。
translated by 谷歌翻译
用于图像分类任务的神经网络假设推理期间的任何给定图像属于其中一个培训类别。在模型可能遇到未知类别的输入的现实应用程序中,这种封闭式假设受到挑战。开放式识别旨在通过正确对已知类别进行分类,通过拒绝未知类来解决此问题。在本文中,我们建议利用从已知分类器获得的基于梯度的表示,以训练仅使用已知类别实例的未知检测器。渐变对应于正确表示给定样本所需的模型更新量,我们利用该模型更新以了解模型具有其学术功能的输入的能力。我们的方法可以使用以有监督的方式对已知类别进行培训的任何分类器使用,而无需明确对未知样本的分布进行建模。我们表明,基于梯度的方法在开放式分类中优于最先进的方法高达11.6%。
translated by 谷歌翻译
使用适当的电感偏差,反事实生成网络(CGN)可以从形状,纹理和背景歧管的随机组合中生成新图像。这些图像可以用于训练不变的分类器,避免了深层体系结构学习虚假相关性而不是有意义的问题。结果,改善了室外鲁棒性。但是,CGN体系结构包括多个参数化网络,即BigGan和U2-NET。培训这些网络需要适当的背景知识和广泛的计算。由于一个人并不总是能够访问精确的培训细节,也不总是拥有反事实的必要知识,因此我们的工作解决了以下问题:我们可以使用预先训练的CGN中嵌入的知识来培训低容量的模型,假设对架构组件的黑框访问(即仅访问验证的CGN模型)?在这个方向上,我们提出了一项名为SKDCGN的新颖作品,该作品尝试使用知识蒸馏(KD)尝试知识转移。在我们提出的架构中,每个独立的机制(形状,纹理,背景)都由一个学生“ tinygan”代表,该学生从预验证的老师“ Biggan”中学习。我们通过使用KD和适当的损失函数来证明使用最先进的数据集(例如ImageNet)和MNIST的疗效。此外,作为另一项贡献,我们的论文对CGN的组成机制进行了详尽的研究,以更好地了解每种机制如何影响不变分类器的分类精度。代码可用:https://github.com/ambekarsameer96/skdcgn
translated by 谷歌翻译
Despite the fact that deep neural networks are powerful models and achieve appealing results on many tasks, they are too large to be deployed on edge devices like smartphones or embedded sensor nodes. There have been efforts to compress these networks, and a popular method is knowledge distillation, where a large (teacher) pre-trained network is used to train a smaller (student) network. However, in this paper, we show that the student network performance degrades when the gap between student and teacher is large. Given a fixed student network, one cannot employ an arbitrarily large teacher, or in other words, a teacher can effectively transfer its knowledge to students up to a certain size, not smaller. To alleviate this shortcoming, we introduce multi-step knowledge distillation, which employs an intermediate-sized network (teacher assistant) to bridge the gap between the student and the teacher. Moreover, we study the effect of teacher assistant size and extend the framework to multi-step distillation. Theoretical analysis and extensive experiments on CIFAR-10,100 and ImageNet datasets and on CNN and ResNet architectures substantiate the effectiveness of our proposed approach.
translated by 谷歌翻译