Anomaly Detection (AD), as a critical problem, has been widely discussed. In this paper, we specialize in one specific problem, Visual Defect Detection (VDD), in many industrial applications. And in practice, defect image samples are very rare and difficult to collect. Thus, we focus on the unsupervised visual defect detection and localization tasks and propose a novel framework based on the recent score-based generative models, which synthesize the real image by iterative denoising through stochastic differential equations (SDEs). Our work is inspired by the fact that with noise injected into the original image, the defects may be changed into normal cases in the denoising process (i.e., reconstruction). First, based on the assumption that the anomalous data lie in the low probability density region of the normal data distribution, we explain a common phenomenon that occurs when reconstruction-based approaches are applied to VDD: normal pixels also change during the reconstruction process. Second, due to the differences in normal pixels between the reconstructed and original images, a time-dependent gradient value (i.e., score) of normal data distribution is utilized as a metric, rather than reconstruction loss, to gauge the defects. Third, a novel $T$ scales approach is developed to dramatically reduce the required number of iterations, accelerating the inference process. These practices allow our model to generalize VDD in an unsupervised manner while maintaining reasonably good performance. We evaluate our method on several datasets to demonstrate its effectiveness.
translated by 谷歌翻译
当前,借助监督学习方法,基于深度学习的视觉检查已取得了非常成功的成功。但是,在实际的工业场景中,缺陷样本的稀缺性,注释的成本以及缺乏缺陷的先验知识可能会使基于监督的方法无效。近年来,无监督的异常定位算法已在工业检查任务中广泛使用。本文旨在通过深入学习在工业图像中无视无视的异常定位中的最新成就来帮助该领域的研究人员。该调查回顾了120多个重要出版物,其中涵盖了异常定位的各个方面,主要涵盖了所审查方法的各种概念,挑战,分类法,基准数据集和定量性能比较。在审查迄今为止的成就时,本文提供了一些未来研究方向的详细预测和分析。这篇综述为对工业异常本地化感兴趣的研究人员提供了详细的技术信息,并希望将其应用于其他领域的异常本质。
translated by 谷歌翻译
与行业4.0的发展相一致,越来越多的关注被表面缺陷检测领域所吸引。提高效率并节省劳动力成本已稳步成为行业领域引起人们关注的问题,近年来,基于深度学习的算法比传统的视力检查方法更好。尽管现有的基于深度学习的算法偏向于监督学习,但这不仅需要大量标记的数据和大量的劳动力,而且还效率低下,并且有一定的局限性。相比之下,最近的研究表明,无监督的学习在解决视觉工业异常检测的高于缺点方面具有巨大的潜力。在这项调查中,我们总结了当前的挑战,并详细概述了最近提出的针对视觉工业异常检测的无监督算法,涵盖了五个类别,其创新点和框架详细描述了。同时,提供了包含表面图像样本的公开可用数据集的信息。通过比较不同类别的方法,总结了异常检测算法的优点和缺点。预计将协助研究社区和行业发展更广泛,更跨域的观点。
translated by 谷歌翻译
基于可视异常检测的内存模块的重建方法试图缩小正常样品的重建误差,同时将其放大为异常样品。不幸的是,现有的内存模块不完全适用于异常检测任务,并且异常样品的重建误差仍然很小。为此,这项工作提出了一种新的无监督视觉异常检测方法,以共同学习有效的正常特征并消除不利的重建错误。具体而言,提出了一个新颖的分区内存库(PMB)模块,以有效地学习和存储具有正常样本语义完整性的详细特征。它开发了一种新的分区机制和一种独特的查询生成方法,以保留上下文信息,然后提高内存模块的学习能力。替代探索了拟议的PMB和跳过连接,以使异常样品的重建更糟。为了获得更精确的异常定位结果并解决了累积重建误差的问题,提出了一个新型的直方图误差估计模块,以通过差异图像的直方图自适应地消除了不利的误差。它可以改善异常本地化性能而不会增加成本。为了评估所提出的异常检测和定位方法的有效性,在三个广泛使用的异常检测数据集上进行了广泛的实验。与基于内存模块的最新方法相比,提出的方法的令人鼓舞的性能证明了其优越性。
translated by 谷歌翻译
最近,基于扩散的生成模型已引入语音增强的任务。干净的语音损坏被建模为固定的远期过程,其中逐渐添加了越来越多的噪声。通过学习以嘈杂的输入为条件的迭代方式扭转这一过程,可以产生干净的语音。我们以先前的工作为基础,并在随机微分方程的形式主义中得出训练任务。我们对基础分数匹配目标进行了详细的理论综述,并探索了不同的采样器配置,以解决测试时的反向过程。通过使用自然图像生成文献的复杂网络体系结构,与以前的出版物相比,我们可以显着提高性能。我们还表明,我们可以与最近的判别模型竞争,并在评估与培训不同的语料库时获得更好的概括。我们通过主观的听力测试对评估结果进行补充,其中我们提出的方法是最好的。此外,我们表明所提出的方法在单渠道语音覆盖中实现了出色的最新性能。我们的代码和音频示例可在线获得,请参见https://uhh.de/inf-sp-sgmse
translated by 谷歌翻译
DeNoising扩散模型代表了计算机视觉中最新的主题,在生成建模领域表现出了显着的结果。扩散模型是一个基于两个阶段的深层生成模型,一个正向扩散阶段和反向扩散阶段。在正向扩散阶段,通过添加高斯噪声,输入数据在几个步骤中逐渐受到干扰。在反向阶段,模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。尽管已知的计算负担,即由于采样过程中涉及的步骤数量,扩散模型对生成样品的质量和多样性得到了广泛赞赏。在这项调查中,我们对视觉中应用的denoising扩散模型的文章进行了全面综述,包括该领域的理论和实际贡献。首先,我们识别并介绍了三个通用扩散建模框架,这些框架基于扩散概率模型,噪声调节得分网络和随机微分方程。我们进一步讨论了扩散模型与其他深层生成模型之间的关系,包括变异自动编码器,生成对抗网络,基于能量的模型,自回归模型和正常流量。然后,我们介绍了计算机视觉中应用的扩散模型的多角度分类。最后,我们说明了扩散模型的当前局限性,并设想了一些有趣的未来研究方向。
translated by 谷歌翻译
在视觉检查形式中对纹理表面进行工业检查的最新进展使这种检查成为可能,以实现高效,灵活的制造系统。我们提出了一个无监督的特征内存重排网络(FMR-NET),以同时准确检测各种纹理缺陷。与主流方法一致,我们采用了背景重建的概念。但是,我们创新地利用人工合成缺陷来使模型识别异常,而传统智慧仅依赖于无缺陷的样本。首先,我们采用一个编码模块来获得纹理表面的多尺度特征。随后,提出了一个基于对比的基于学习的内存特征模块(CMFM)来获得判别性表示,并在潜在空间中构建一个正常的特征记忆库,可以用作补丁级别的缺陷和快速异常得分。接下来,提出了一个新型的全球特征重排模块(GFRM),以进一步抑制残余缺陷的重建。最后,一个解码模块利用还原的功能来重建正常的纹理背景。此外,为了提高检查性能,还利用了两阶段的训练策略进行准确的缺陷恢复改进,并且我们利用一种多模式检查方法来实现噪声刺激性缺陷定位。我们通过广泛的实验来验证我们的方法,并通过多级检测方法在协作边缘进行实用的部署 - 云云智能制造方案,表明FMR-NET具有先进的检查准确性,并显示出巨大的使用潜力在启用边缘计算的智能行业中。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
无监督的异常检测和定位对于采集和标记足够的异常数据时对实际应用至关重要。基于现有的基于表示的方法提取具有深度卷积神经网络的正常图像特征,并通过非参数分布估计方法表征相应的分布。通过测量测试图像的特征与估计分布之间的距离来计算异常分数。然而,当前方法无法将图像特征与易解基本分布有效地映射到局部和全局特征之间的关系,这些功能与识别异常很重要。为此,我们提出了使用2D标准化流动实现的FastFlow,并将其用作概率分布估计器。我们的FastFlow可用作具有任意深度特征提取器的插入式模块,如Reset和Vision变压器,用于无监督的异常检测和定位。在训练阶段,FastFlow学习将输入视觉特征转换为贸易分布并获得识别推理阶段中的异常的可能性。 MVTEC AD数据集的广泛实验结果显示,在具有各种骨干网络的准确性和推理效率方面,FastFlow在先前的最先进的方法上超越了先前的方法。我们的方法通过高推理效率达到异常检测中的99.4%AUC。
translated by 谷歌翻译
在工业应用中,无监督的异常检测是一项艰巨的任务,因为收集足够的异常样品是不切实际的。在本文中,通过共同探索锻造异常样品的有效生成方法和正常样品特征作为分割异常检测的指导信息,提出了一种新颖的自我监督指导性分割框架(SGSF)。具体而言,为确保生成的锻造异常样品有利于模型训练,提出了显着性增强模块(SAM)。 Sam引入了显着图来产生显着性Perlin噪声图,并制定了一种自适应分割策略,以在显着区域产生不规则的掩模。然后,将口罩用于生成伪造的异常样品作为训练的负样本。不幸的是,锻造和真实异常样品之间的分布差距使得基于锻造样品训练的模型难以有效定位真实异常。为此,提出了自我监督的指导网络(SGN)。它利用自我监督的模块提取无噪声的功能,并包含正常的语义信息作为分割模块的先验知识。分割模块具有正常模式段的知识,这些片段与指导特征不同。为了评估SGSF对异常检测的有效性,在三个异常检测数据集上进行了广泛的实验。实验结果表明,SGSF达到了最新的异常检测结果。
translated by 谷歌翻译
扩散模型是一类深入生成模型,在具有密集理论建立的各种任务上显示出令人印象深刻的结果。尽管与其他最先进的模型相比,扩散模型的样本合成质量和多样性令人印象深刻,但它们仍然遭受了昂贵的抽样程序和次优可能的估计。最近的研究表明,对提高扩散模型的性能的热情非常热情。在本文中,我们对扩散模型的现有变体进行了首次全面综述。具体而言,我们提供了扩散模型的第一个分类法,并将它们分类为三种类型,即采样加速增强,可能性最大化的增强和数据将来增强。我们还详细介绍了其他五个生成模型(即变异自动编码器,生成对抗网络,正常流量,自动回归模型和基于能量的模型),并阐明扩散模型与这些生成模型之间的连接。然后,我们对扩散模型的应用进行彻底研究,包括计算机视觉,自然语言处理,波形信号处理,多模式建模,分子图生成,时间序列建模和对抗性纯化。此外,我们提出了与这种生成模型的发展有关的新观点。
translated by 谷歌翻译
Anomaly detection and localization are widely used in industrial manufacturing for its efficiency and effectiveness. Anomalies are rare and hard to collect and supervised models easily over-fit to these seen anomalies with a handful of abnormal samples, producing unsatisfactory performance. On the other hand, anomalies are typically subtle, hard to discern, and of various appearance, making it difficult to detect anomalies and let alone locate anomalous regions. To address these issues, we propose a framework called Prototypical Residual Network (PRN), which learns feature residuals of varying scales and sizes between anomalous and normal patterns to accurately reconstruct the segmentation maps of anomalous regions. PRN mainly consists of two parts: multi-scale prototypes that explicitly represent the residual features of anomalies to normal patterns; a multisize self-attention mechanism that enables variable-sized anomalous feature learning. Besides, we present a variety of anomaly generation strategies that consider both seen and unseen appearance variance to enlarge and diversify anomalies. Extensive experiments on the challenging and widely used MVTec AD benchmark show that PRN outperforms current state-of-the-art unsupervised and supervised methods. We further report SOTA results on three additional datasets to demonstrate the effectiveness and generalizability of PRN.
translated by 谷歌翻译
Industrial vision anomaly detection plays a critical role in the advanced intelligent manufacturing process, while some limitations still need to be addressed under such a context. First, existing reconstruction-based methods struggle with the identity mapping of trivial shortcuts where the reconstruction error gap is legible between the normal and abnormal samples, leading to inferior detection capabilities. Then, the previous studies mainly concentrated on the convolutional neural network (CNN) models that capture the local semantics of objects and neglect the global context, also resulting in inferior performance. Moreover, existing studies follow the individual learning fashion where the detection models are only capable of one category of the product while the generalizable detection for multiple categories has not been explored. To tackle the above limitations, we proposed a self-induction vision Transformer(SIVT) for unsupervised generalizable multi-category industrial visual anomaly detection and localization. The proposed SIVT first extracts discriminatory features from pre-trained CNN as property descriptors. Then, the self-induction vision Transformer is proposed to reconstruct the extracted features in a self-supervisory fashion, where the auxiliary induction tokens are additionally introduced to induct the semantics of the original signal. Finally, the abnormal properties can be detected using the semantic feature residual difference. We experimented with the SIVT on existing Mvtec AD benchmarks, the results reveal that the proposed method can advance state-of-the-art detection performance with an improvement of 2.8-6.3 in AUROC, and 3.3-7.6 in AP.
translated by 谷歌翻译
我们的目标是将denoisis扩散隐式模型(DDIM)扩展到一般扩散模型〜(DMS)。我们没有像原始DDIM论文那样构建非马尔科夫no噪声过程,而是从数值的角度研究了DDIM的机制。我们发现,在求解相应的随机微分方程时,可以通过使用分数的一些特定近似值来获得DDIM。我们提出了DDIM加速效应的解释,该解释还解释了确定性抽样方案的优势,而不是随机采样方案进行快速采样。在此洞察力的基础上,我们将DDIM扩展到一般的DMS,并在参数化分数网络时进行了小而微妙的修改。当应用于批判性抑制的Langevin扩散模型时,最近提出的一种新型的扩散模型通过以速度增强扩散过程,我们的算法在CIFAR10上达到了2.28的FID分数,仅具有50个数量的得分功能评估(NFES)(NFES〜(NFES) )和仅有27个NFE的FID分数为2.87,比所有具有相同NFE的现有方法要好。代码可从https://github.com/qsh-zh/gddim获得
translated by 谷歌翻译
We introduce a new generative model where samples are produced via Langevin dynamics using gradients of the data distribution estimated with score matching. Because gradients can be ill-defined and hard to estimate when the data resides on low-dimensional manifolds, we perturb the data with different levels of Gaussian noise, and jointly estimate the corresponding scores, i.e., the vector fields of gradients of the perturbed data distribution for all noise levels. For sampling, we propose an annealed Langevin dynamics where we use gradients corresponding to gradually decreasing noise levels as the sampling process gets closer to the data manifold. Our framework allows flexible model architectures, requires no sampling during training or the use of adversarial methods, and provides a learning objective that can be used for principled model comparisons. Our models produce samples comparable to GANs on MNIST, CelebA and CIFAR-10 datasets, achieving a new state-of-the-art inception score of 8.87 on CIFAR-10. Additionally, we demonstrate that our models learn effective representations via image inpainting experiments.
translated by 谷歌翻译
无监督的异常检测和定位是至关重要的任务,因为不可能收集和标记所有可能的异常。许多研究强调了整合本地和全球信息以实现异常分割的重要性。为此,对变压器的兴趣越来越大,它允许对远程内容相互作用进行建模。但是,对于大多数图像量表而言,通过自我注意力的全球互动通常太贵了。在这项研究中,我们介绍了Haloae,这是第一个基于Halonet的局部2D版本的自动编码器。使用Haloae,我们创建了一个混合模型,该模型结合了卷积和局部2D块的自我发项层,并通过单个模型共同执行异常检测和分割。我们在MVTEC数据集上取得了竞争成果,表明结合变压器的视觉模型可以受益于自我发挥操作的本地计算,并为其他应用铺平道路。
translated by 谷歌翻译
深度学习表现出巨大的生成任务潜力。生成模型是可以根据某些隐含参数随机生成观测值的模型类。最近,扩散模型由于其发电能力而成为一类生成模型。如今,已经取得了巨大的成就。除了计算机视觉,语音产生,生物信息学和自然语言处理外,还需要在该领域探索更多应用。但是,扩散模型具有缓慢生成过程的自然缺点,从而导致许多增强的作品。该调查总结了扩散模型的领域。我们首先说明了两项具有里程碑意义的作品的主要问题-DDPM和DSM。然后,我们提供各种高级技术,以加快扩散模型 - 训练时间表,无训练采样,混合模型以及得分和扩散统一。关于现有模型,我们还根据特定的NFE提供了FID得分的基准和NLL。此外,引入了带有扩散模型的应用程序,包括计算机视觉,序列建模,音频和科学AI。最后,该领域以及局限性和进一步的方向都进行了摘要。
translated by 谷歌翻译
我们表明,在AutoEncoders(AE)的潜在空间中使用最近的邻居显着提高了单一和多级上下文中半监督新颖性检测的性能。通过学习来检测新奇的方法,以区分非新颖培训类和所有其他看不见的课程。我们的方法利用了最近邻居的重建和给定输入的潜在表示的潜在邻居的结合。我们证明了我们最近的潜在邻居(NLN)算法是内存和时间效率,不需要大量的数据增强,也不依赖于预先训练的网络。此外,我们表明NLN算法很容易应用于多个数据集而无需修改。此外,所提出的算法对于AutoEncoder架构和重建错误方法是不可知的。我们通过使用重建,剩余或具有一致损耗,验证了多个不同的自动码架构,如诸如香草,对抗和变形自身额度的各种标准数据集的方法。结果表明,NLN算法在多级案例的接收器操作特性(AUROC)曲线性能下授予面积增加17%,为单级新颖性检测8%。
translated by 谷歌翻译
基于分数的扩散模型为使用数据分布的梯度建模图像提供了一种强大的方法。利用学到的分数函数为先验,在这里,我们引入了一种从条件分布中进行测量的方法,以便可以轻松地用于求解成像中的反问题,尤其是用于加速MRI。简而言之,我们通过denoising得分匹配来训练连续的时间依赖分数函数。然后,在推论阶段,我们在数值SDE求解器和数据一致性投影步骤之间进行迭代以实现重建。我们的模型仅需要用于训练的幅度图像,但能够重建复杂值数据,甚至扩展到并行成像。所提出的方法是不可知论到子采样模式,可以与任何采样方案一起使用。同样,由于其生成性质,我们的方法可以量化不确定性,这是标准回归设置不可能的。最重要的是,我们的方法还具有非常强大的性能,甚至击败了经过全面监督训练的模型。通过广泛的实验,我们在质量和实用性方面验证了我们方法的优势。
translated by 谷歌翻译
Unsupervised pixel-level defective region segmentation is an important task in image-based anomaly detection for various industrial applications. The state-of-the-art methods have their own advantages and limitations: matrix-decomposition-based methods are robust to noise but lack complex background image modeling capability; representation-based methods are good at defective region localization but lack accuracy in defective region shape contour extraction; reconstruction-based methods detected defective region match well with the ground truth defective region shape contour but are noisy. To combine the best of both worlds, we present an unsupervised patch autoencoder based deep image decomposition (PAEDID) method for defective region segmentation. In the training stage, we learn the common background as a deep image prior by a patch autoencoder (PAE) network. In the inference stage, we formulate anomaly detection as an image decomposition problem with the deep image prior and domain-specific regularizations. By adopting the proposed approach, the defective regions in the image can be accurately extracted in an unsupervised fashion. We demonstrate the effectiveness of the PAEDID method in simulation studies and an industrial dataset in the case study.
translated by 谷歌翻译