视频异常检测(VAD)在视频分析中一直是一个重要的主题。由于异常往往很少,它通常在半监督设置下解决,这需要使用纯正普通视频进行培训。为了避免疲惫的手动标签,我们受到人类感知异常的启发,并提出了一种使无人监督和端到端的VAD能够的主体框架。该框架基于两个关键观察:1)人类感知通常是局部的,即在感应异常时聚焦在局部前景及其背景下。因此,我们建议通过用通用知识定位前景,并设计一个区域本地化策略来利用本地背景。 2)经常发生的事件将塑造人类的常态定义,这激励我们设计了代理培训范式。它列举了一个深度神经网络(DNN)来学习使用未标记的视频的代理任务,并且经常发生的事件将在“模制”DNN中发挥主导作用。通过这种方式,培训损失差距将自动表现出很少看到的新颖事件作为异常。为了实施,我们探索各种代理任务以及经典和新兴DNN模型。对常用VAD基准的广泛评估使框架适用于不同代理任务或DNN模型,并证明其惊人的效果:它不仅优于现有的无监督解决方案,宽边值(8%至10%的AUROC增益),还达到了对最先进的半监督对手进行了可比或甚至卓越的性能。
translated by 谷歌翻译
异常识别高度取决于对象与场景之间的关系,因为相同/不同场景中的不同/相同对象动作可能导致各种程度的正态性和异常。因此,对象场景关系实际上在异常检测中起着至关重要的作用,但在以前的工作中探讨了不足。在本文中,我们提出了一个时空关系学习(STRL)框架来解决视频异常检测任务。首先,考虑到对象的动态特征以及场景区域,我们构建了一个时空自动编码器(STAE),以共同利用代表学习的空间和时间演化模式。为了获得更好的图案提取,在STAE模块中设计了两个解码分支,即通过直接预测下一个帧来捕获空间提示的外观分支,以及一个运动分支,重点是通过光流预测对动态进行建模。然后,为了很好地融合对象场所关系,设计了一个关系学习(RL)模块来通过引入知识图嵌入方法来分析和总结正常关系。在此过程中具体来说,通过共同建模对象/场景特征和优化的对象场所关系图来衡量对象场景关系的合理性。在三个公共数据集上进行了广泛的实验,而对最新方法的优越性能证明了我们方法的有效性。
translated by 谷歌翻译
传统上,视频异常检测(VAD)以两种主要方法进行了解决:基于重建的方法和基于预测的方法。当基于重建的方法学会概括输入图像时,该模型仅学习身份功能并强烈引起所谓的概括问题。另一方面,由于基于预测的框架学会预测以前几个帧的未来框架,因此它们对概括性问题的敏感性不太敏感。但是,仍然不确定该模型是否可以学习视频的时空上下文。我们的直觉是,对视频的时空环境的理解在VAD中起着至关重要的作用,因为它提供了有关视频剪辑中事件的出现如何变化的精确信息。因此,为了充分利用视频情况下的上下文信息以进行异常检测,我们设计了具有三个不同上下文预测流的变压器模型:掩盖,整体和部分。通过学习预测连续正常帧的缺失帧,我们的模型可以有效地学习视频中的各种正态性模式,这会导致异常情况下不适合学习环境的异常情况。为了验证我们的方法的有效性,我们在公共基准数据集上评估了我们的模型:USCD Pateestrian 2,Cuhk Avenue和Shanghaitech,并以重建错误的异常得分度量评估了性能。结果表明,与现有的视频异常检测方法相比,我们提出的方法实现了竞争性能。
translated by 谷歌翻译
视频异常检测(VAD)是计算机视觉中的重要主题。本文通过最新的自我监督学习进展的激励,通过解决直观而又具有挑战性的借口任务,即时空拼图拼图来解决VAD,该任务是一个多标签的精细粒度分类问题。我们的方法比现有作品具有几个优点:1)时空拼图难题是根据空间和时间维度分离的,分别捕获了高度歧视性的外观和运动特征; 2)完全排列用于提供涵盖各种难度水平的丰富拼图难题,从而使网络能够区分正常事件和异常事件之间的细微时空差异; 3)借口任务以端到端的方式解决,而无需依赖任何预训练的模型。我们的方法优于三个公共基准的最先进的方法。尤其是在上海校园中,其结果优于重建和基于预测的方法。
translated by 谷歌翻译
视频异常检测是现在计算机视觉中的热门研究主题之一,因为异常事件包含大量信息。异常是监控系统中的主要检测目标之一,通常需要实时行动。关于培训的标签数据的可用性(即,没有足够的标记数据进行异常),半监督异常检测方法最近获得了利益。本文介绍了该领域的研究人员,以新的视角,并评论了最近的基于深度学习的半监督视频异常检测方法,基于他们用于异常检测的共同策略。我们的目标是帮助研究人员开发更有效的视频异常检测方法。由于选择右深神经网络的选择对于这项任务的几个部分起着重要作用,首先准备了对DNN的快速比较审查。与以前的调查不同,DNN是从时空特征提取观点审查的,用于视频异常检测。这部分审查可以帮助本领域的研究人员选择合适的网络,以获取其方法的不同部分。此外,基于其检测策略,一些最先进的异常检测方法受到严格调查。审查提供了一种新颖,深入了解现有方法,并导致陈述这些方法的缺点,这可能是未来作品的提示。
translated by 谷歌翻译
在当代社会中,监视异常检测,即在监视视频中发现异常事件,例如犯罪或事故,是一项关键任务。由于异常发生很少发生,大多数培训数据包括没有标记的视频,没有异常事件,这使得任务具有挑战性。大多数现有方法使用自动编码器(AE)学习重建普通视频;然后,他们根据未能重建异常场景的出现来检测异常。但是,由于异常是通过外观和运动来区分的,因此许多先前的方法使用预训练的光流模型明确分开了外观和运动信息,例如。这种明确的分离限制了两种类型的信息之间的相互表示功能。相比之下,我们提出了一个隐式的两路AE(ITAE),其中两个编码器隐含模型外观和运动特征以及一个将它们组合在一起以学习正常视频模式的结构。对于正常场景的复杂分布,我们建议通过归一化流量(NF)的生成模型对ITAE特征的正常密度估计,以学习可拖动的可能性,并使用无法分布的检测来识别异常。 NF模型通过隐式学习的功能通过学习正常性来增强ITAE性能。最后,我们在六个基准测试中演示了ITAE及其特征分布建模的有效性,包括在现实世界中包含各种异常的数据库。
translated by 谷歌翻译
异常检测通常被追求为单级分类问题,其中模型只能从正常训练样本中学习,同时在正常和异常的测试样本上进行评估。在异常检测的成功方法中,一种杰出的方法依赖于预测屏蔽信息(例如修补程序,未来帧等)并利用相对于屏蔽信息的重建误差作为异常分数。与相关方法不同,我们建议将基于重建的功能集成为新颖的自我监督的预测建筑结构块。所提出的自我监督块是通用的,并且可以容易地结合到各种最先进的异常检测方法中。我们的块从带有扩张过滤器的卷积层开始,其中掩盖接收场的中心区域。得到的激活图通过通道注意模块传递。我们的块配备有损失,使得能够最小化接收领域中的遮蔽区域的重建误差。我们通过将其集成到几种最先进的框架中,以便在图像和视频上进行异常检测,提供对MVTEC AD,Avenue和Shanghaitech的经验证据提供了显着改进的经验证据。
translated by 谷歌翻译
与行业4.0的发展相一致,越来越多的关注被表面缺陷检测领域所吸引。提高效率并节省劳动力成本已稳步成为行业领域引起人们关注的问题,近年来,基于深度学习的算法比传统的视力检查方法更好。尽管现有的基于深度学习的算法偏向于监督学习,但这不仅需要大量标记的数据和大量的劳动力,而且还效率低下,并且有一定的局限性。相比之下,最近的研究表明,无监督的学习在解决视觉工业异常检测的高于缺点方面具有巨大的潜力。在这项调查中,我们总结了当前的挑战,并详细概述了最近提出的针对视觉工业异常检测的无监督算法,涵盖了五个类别,其创新点和框架详细描述了。同时,提供了包含表面图像样本的公开可用数据集的信息。通过比较不同类别的方法,总结了异常检测算法的优点和缺点。预计将协助研究社区和行业发展更广泛,更跨域的观点。
translated by 谷歌翻译
在计算机视觉领域,异常检测最近引起了越来越多的关注,这可能是由于其广泛的应用程序从工业生产线上的产品故障检测到视频监视中即将发生的事件检测到在医疗扫描中发现病变。不管域如何,通常将异常检测构架为一级分类任务,其中仅在正常示例上进行学习。整个成功的异常检测方法的家庭基于学习重建掩盖的正常输入(例如贴片,未来帧等),并将重建误差的幅度作为异常水平的指标。与其他基于重建的方法不同,我们提出了一种新颖的自我监督蒙面的卷积变压器块(SSMCTB),该卷积变压器块(SSMCTB)包括基于重建的功能在核心架构层面上。拟议的自我监督块非常灵活,可以在神经网络的任何层上掩盖信息,并与广泛的神经体系结构兼容。在这项工作中,我们扩展了以前的自我监督预测性卷积专注块(SSPCAB),并具有3D掩盖的卷积层,以及用于频道注意的变压器。此外,我们表明我们的块适用于更广泛的任务,在医学图像和热视频中添加异常检测到基于RGB图像和监视视频的先前考虑的任务。我们通过将SSMCTB的普遍性和灵活性整合到多个最先进的神经模型中,以进行异常检测,从而带来了经验结果,可以证实对五个基准的绩效改进:MVTEC AD,BRATS,BRATS,Avenue,Shanghaitech和Thermal和Thermal和Thermal罕见事件。我们在https://github.com/ristea/ssmctb上发布代码和数据作为开源。
translated by 谷歌翻译
开放式视频异常检测(OpenVAD)旨在从视频数据中识别出异常事件,在测试中都存在已知的异常和新颖的事件。无监督的模型仅从普通视频中学到的模型适用于任何测试异常,但遭受高误报率的损失。相比之下,弱监督的方法可有效检测已知的异常情况,但在开放世界中可能会失败。我们通过将证据深度学习(EDL)和将流量(NFS)归一化为多个实例学习(MIL)框架来开发出一种新颖的OpenVAD问题的弱监督方法。具体而言,我们建议使用图形神经网络和三重态损失来学习训练EDL分类器的区分特征,在该特征中,EDL能够通过量化不确定性来识别未知异常。此外,我们制定了一种不确定性感知的选择策略,以获取清洁异常实例和NFS模块以生成伪异常。我们的方法通过继承无监督的NF和弱监督的MIL框架的优势来优于现有方法。多个现实世界视频数据集的实验结果显示了我们方法的有效性。
translated by 谷歌翻译
Video anomaly detection (VAD) is a challenging computer vision task with many practical applications. As anomalies are inherently ambiguous, it is essential for users to understand the reasoning behind a system's decision in order to determine if the rationale is sound. In this paper, we propose a simple but highly effective method that pushes the boundaries of VAD accuracy and interpretability using attribute-based representations. Our method represents every object by its velocity and pose. The anomaly scores are computed using a density-based approach. Surprisingly, we find that this simple representation is sufficient to achieve state-of-the-art performance in ShanghaiTech, the largest and most complex VAD dataset. Combining our interpretable attribute-based representations with implicit, deep representation yields state-of-the-art performance with a $99.1\%, 93.3\%$, and $85.9\%$ AUROC on Ped2, Avenue, and ShanghaiTech, respectively. Our method is accurate, interpretable, and easy to implement.
translated by 谷歌翻译
Deep autoencoder has been extensively used for anomaly detection. Training on the normal data, the autoencoder is expected to produce higher reconstruction error for the abnormal inputs than the normal ones, which is adopted as a criterion for identifying anomalies. However, this assumption does not always hold in practice. It has been observed that sometimes the autoencoder "generalizes" so well that it can also reconstruct anomalies well, leading to the miss detection of anomalies. To mitigate this drawback for autoencoder based anomaly detector, we propose to augment the autoencoder with a memory module and develop an improved autoencoder called memory-augmented autoencoder, i.e. MemAE. Given an input, MemAE firstly obtains the encoding from the encoder and then uses it as a query to retrieve the most relevant memory items for reconstruction. At the training stage, the memory contents are updated and are encouraged to represent the prototypical elements of the normal data. At the test stage, the learned memory will be fixed, and the reconstruction is obtained from a few selected memory records of the normal data. The reconstruction will thus tend to be close to a normal sample. Thus the reconstructed errors on anomalies will be strengthened for anomaly detection. MemAE is free of assumptions on the data type and thus general to be applied to different tasks. Experiments on various datasets prove the excellent generalization and high effectiveness of the proposed MemAE.
translated by 谷歌翻译
异常检测是确定不符合正常数据分布的样品。由于异常数据的无法获得,培训监督的深神经网络是一项繁琐的任务。因此,无监督的方法是解决此任务的常见方法。深度自动编码器已被广泛用作许多无监督的异常检测方法的基础。但是,深层自动编码器的一个显着缺点是,它们通过概括重建异常值来提供不足的表示异常检测的表示。在这项工作中,我们设计了一个对抗性框架,该框架由两个竞争组件组成,一个对抗性变形者和一个自动编码器。对抗性变形器是一种卷积编码器,学会产生有效的扰动,而自动编码器是一个深层卷积神经网络,旨在重建来自扰动潜在特征空间的图像。这些网络经过相反的目标训练,在这种目标中,对抗性变形者会产生用于编码器潜在特征空间的扰动,以最大化重建误差,并且自动编码器试图中和这些扰动的效果以最大程度地减少它。当应用于异常检测时,该提出的方法会由于对特征空间的扰动应用而学习语义上的富裕表示。所提出的方法在图像和视频数据集上的异常检测中优于现有的最新方法。
translated by 谷歌翻译
本文解决了视频检测问题的视频监视问题。由于异常事件的固有稀有性和异质性,该问题被视为一种正态建模策略,在这种策略中,我们的模型学习以对象为中心的正常模式,而无需在训练过程中看到异常样本。主要贡献在于耦合预处理的对象级动作具有基于余弦的异常估计功能的原型原型,因此通过向基于主流重建的策略引入其他约束来扩展以前的方法。我们的框架利用外观和运动信息来学习对象级别的行为并捕获内存模块中的原型模式。在几个知名数据集上进行的实验证明了我们方法的有效性,因为它在最相关的时空评估指标上优于当前的最新时间。
translated by 谷歌翻译
在监控视频中的异常检测是挑战,对确保公共安全有挑战性。不同于基于像素的异常检测方法,基于姿势的方法利用高结构化的骨架数据,这降低了计算负担,并避免了背景噪声的负面影响。然而,与基于像素的方法不同,这可以直接利用显式运动特征,例如光学流,基于姿势的方法缺乏替代动态表示。在本文中,提出了一种新的运动嵌入器(ME)以提供从概率的角度来提供姿态运动表示。此外,为自我监控姿势序列重建部署了一种新型任务特定的空间 - 时间变压器(STT)。然后将这两个模块集成到统一规律学习的统一框架中,该框架被称为运动先前规律学习者(MOPLL)。 MOPRL在几个具有挑战性的数据集中实现了4.7%AUC的平均改善,实现了最先进的性能。广泛的实验验证每个提出的模块的多功能性。
translated by 谷歌翻译
视频异常检测是计算机视觉社区的一项具有挑战性的任务。大多数基于任务的方法都不考虑独特的空间和时间模式的独立性,而两流结构则缺乏对相关性的探索。在本文中,我们提出了时空记忆增强了两个流动自动编码器框架,该框架可以独立学习外观正常和运动正常,并通过对抗性学习探索相关性。具体而言,我们首先设计了两个代理任务来训练两流结构,以隔离地提取外观和运动特征。然后,将原型特征记录在相应的空间和时间内存池中。最后,编码编码网络通过歧视者进行对抗学习,以探索空间和时间模式之间的相关性。实验结果表明,我们的框架优于最先进的方法,在UCSD PED2和CUHK Avenue数据集上,AUC达到98.1%和89.8%。
translated by 谷歌翻译
基于监督的基于学习的形态攻击检测(MAD)解决方案在处理已知变形技术和已知数据源的攻击方面取得了杰出的成功。但是,鉴于变形攻击的变化,由于现有MAD数据集的多样性和数量不足,监督的疯狂解决方案的性能大大下降。为了解决这一问题,我们通过利用现有的大规模面部识别(FR)数据集和卷积自动编码器的无监督性质,通过自定进程异常检测(SPL-MAD)提出了一个完全无监督的疯狂解决方案。使用一般的FR数据集,这些数据集可能包含无意识的和未标记的操纵样品来训练自动编码器,可以导致攻击和真正的样本的各种重建行为。我们从经验上分析了这种行为,以提供扎实的理论基础来设计我们的无监督的疯狂解决方案。这也导致建议以完全无监督的方式整合我们改良的修改后的自定进度学习范式,以增强善意和攻击样本之间的重建误差可分离性。我们对各种MAD评估数据集的实验结果表明,所提出的无监督的SPL-MAD解决方案优于广泛监督的MAD解决方案的整体性能,并为未知攻击提供了更高的概括性。
translated by 谷歌翻译
Novelty detection is commonly referred to as the discrimination of observations that do not conform to a learned model of regularity. Despite its importance in different application settings, designing a novelty detector is utterly complex due to the unpredictable nature of novelties and its inaccessibility during the training procedure, factors which expose the unsupervised nature of the problem. In our proposal, we design a general framework where we equip a deep autoencoder with a parametric density estimator that learns the probability distribution underlying its latent representations through an autoregressive procedure. We show that a maximum likelihood objective, optimized in conjunction with the reconstruction of normal samples, effectively acts as a regularizer for the task at hand, by minimizing the differential entropy of the distribution spanned by latent vectors. In addition to providing a very general formulation, extensive experiments of our model on publicly available datasets deliver on-par or superior performances if compared to state-of-the-art methods in one-class and video anomaly detection settings. Differently from prior works, our proposal does not make any assumption about the nature of the novelties, making our work readily applicable to diverse contexts.
translated by 谷歌翻译
当前,借助监督学习方法,基于深度学习的视觉检查已取得了非常成功的成功。但是,在实际的工业场景中,缺陷样本的稀缺性,注释的成本以及缺乏缺陷的先验知识可能会使基于监督的方法无效。近年来,无监督的异常定位算法已在工业检查任务中广泛使用。本文旨在通过深入学习在工业图像中无视无视的异常定位中的最新成就来帮助该领域的研究人员。该调查回顾了120多个重要出版物,其中涵盖了异常定位的各个方面,主要涵盖了所审查方法的各种概念,挑战,分类法,基准数据集和定量性能比较。在审查迄今为止的成就时,本文提供了一些未来研究方向的详细预测和分析。这篇综述为对工业异常本地化感兴趣的研究人员提供了详细的技术信息,并希望将其应用于其他领域的异常本质。
translated by 谷歌翻译
我们介绍了一个简单而直观的自我实施任务,自然合成异常(NSA),用于训练仅使用正常培训数据的端到端模型,以实现异常检测和定位。NSA将Poisson图像编辑整合到来自单独图像的各种尺寸的无缝混合缩放贴片。这会产生广泛的合成异常,与以前的自我监督异常检测的数据 - 启发策略相比,它们更像自然的子图像不规则。我们使用天然和医学图像评估提出的方法。我们对MVTEC AD数据集进行的实验表明,经过训练的用于本地NSA异常的模型可以很好地概括地检测现实世界中的先验未知类型的制造缺陷。我们的方法实现了97.2的总检测AUROC,优于所有以前的方法,这些方法在不使用其他数据集的情况下学习。可在https://github.com/hmsch/natural-synthetic-anomalies上获得代码。
translated by 谷歌翻译