Aiming at the problem that the current video anomaly detection cannot fully use the temporal information and ignore the diversity of normal behavior, an anomaly detection method is proposed to integrate the spatiotemporal information of pedestrians. Based on the convolutional autoencoder, the input frame is compressed and restored through the encoder and decoder. Anomaly detection is realized according to the difference between the output frame and the true value. In order to strengthen the characteristic information connection between continuous video frames, the residual temporal shift module and the residual channel attention module are introduced to improve the modeling ability of the network on temporal information and channel information, respectively. Due to the excessive generalization of convolutional neural networks, in the memory enhancement modules, the hopping connections of each codec layer are added to limit autoencoders' ability to represent abnormal frames too vigorously and improve the anomaly detection accuracy of the network. In addition, the objective function is modified by a feature discretization loss, which effectively distinguishes different normal behavior patterns. The experimental results on the CUHK Avenue and ShanghaiTech datasets show that the proposed method is superior to the current mainstream video anomaly detection methods while meeting the real-time requirements.
translated by 谷歌翻译
异常识别高度取决于对象与场景之间的关系,因为相同/不同场景中的不同/相同对象动作可能导致各种程度的正态性和异常。因此,对象场景关系实际上在异常检测中起着至关重要的作用,但在以前的工作中探讨了不足。在本文中,我们提出了一个时空关系学习(STRL)框架来解决视频异常检测任务。首先,考虑到对象的动态特征以及场景区域,我们构建了一个时空自动编码器(STAE),以共同利用代表学习的空间和时间演化模式。为了获得更好的图案提取,在STAE模块中设计了两个解码分支,即通过直接预测下一个帧来捕获空间提示的外观分支,以及一个运动分支,重点是通过光流预测对动态进行建模。然后,为了很好地融合对象场所关系,设计了一个关系学习(RL)模块来通过引入知识图嵌入方法来分析和总结正常关系。在此过程中具体来说,通过共同建模对象/场景特征和优化的对象场所关系图来衡量对象场景关系的合理性。在三个公共数据集上进行了广泛的实验,而对最新方法的优越性能证明了我们方法的有效性。
translated by 谷歌翻译
视频异常检测是计算机视觉社区的一项具有挑战性的任务。大多数基于任务的方法都不考虑独特的空间和时间模式的独立性,而两流结构则缺乏对相关性的探索。在本文中,我们提出了时空记忆增强了两个流动自动编码器框架,该框架可以独立学习外观正常和运动正常,并通过对抗性学习探索相关性。具体而言,我们首先设计了两个代理任务来训练两流结构,以隔离地提取外观和运动特征。然后,将原型特征记录在相应的空间和时间内存池中。最后,编码编码网络通过歧视者进行对抗学习,以探索空间和时间模式之间的相关性。实验结果表明,我们的框架优于最先进的方法,在UCSD PED2和CUHK Avenue数据集上,AUC达到98.1%和89.8%。
translated by 谷歌翻译
视频异常检测旨在在视频中找到不符合预期行为的事件。普遍的方法主要通过摘要重建或将来的框架预测误差来检测异常。但是,该错误高度依赖于当前摘要的局部环境,并且缺乏对正态性的理解。为了解决这个问题,我们建议不仅通过本地环境来检测异常事件,而且还根据测试事件与培训数据正常的知识之间的一致性。具体而言,我们提出了一个基于上下文恢复和知识检索的新颖的两流框架,这两个流可以相互补充。对于上下文恢复流,我们提出了一个时空的U-NET,可以完全利用运动信息来预测未来的框架。此外,我们提出了一种最大的局部误差机制,以减轻复杂前景对象引起的大恢复错误的问题。对于知识检索流,我们提出了一种改进的可学习区域敏感性散列的散列,该哈希通过暹罗网络和相互差异损失来优化哈希功能。关于正态性的知识是编码和存储在哈希表中的,测试事件与知识表示之间的距离用于揭示异常的概率。最后,我们融合了从两个流的异常得分以检测异常。广泛的实验证明了这两个流的有效性和互补性,因此提出的两流框架在四个数据集上实现了最新的性能。
translated by 谷歌翻译
深度学习模型已广泛用于监控视频中的异常检测。典型模型配备了重建普通视频的能力,并评估异常视频的重建错误以指示异常的程度。然而,现有方法遭受了两个缺点。首先,它们只能独立地编码每个身份的运动,而不考虑身份之间的相互作用,这也可以指示异常。其次,他们利用了结构在不同场景下固定的粘合模型,这种配置禁止了对场景的理解。在本文中,我们提出了一个分层时空图卷积神经网络(HSTGCNN)来解决这些问题,HSTGCNN由对应于不同级别的图形表示的多个分支组成。高级图形表示编码人们的轨迹以及多个身份之间的交互,而低级图表表示编码每个人的本地身体姿势。此外,我们建议加权组合在不同场景中更好的多个分支。以这种方式实现了对单级图形表示的改进。实现了对场景的理解并提供异常检测。在低分辨率视频中为在低分辨率视频中编码低分辨率视频中的人员的移动速度和方向编码高级别的图表表示,而在高分辨率视频中将更高的权重分配更高的权重。实验结果表明,建议的HSTGCNN在四个基准数据集(UCSD Spistrian,Shanghaitech,Cuhk Aveance和IITB-Whent)上的当前最先进的模型显着优于最新的最先进模型。
translated by 谷歌翻译
传统上,视频异常检测(VAD)以两种主要方法进行了解决:基于重建的方法和基于预测的方法。当基于重建的方法学会概括输入图像时,该模型仅学习身份功能并强烈引起所谓的概括问题。另一方面,由于基于预测的框架学会预测以前几个帧的未来框架,因此它们对概括性问题的敏感性不太敏感。但是,仍然不确定该模型是否可以学习视频的时空上下文。我们的直觉是,对视频的时空环境的理解在VAD中起着至关重要的作用,因为它提供了有关视频剪辑中事件的出现如何变化的精确信息。因此,为了充分利用视频情况下的上下文信息以进行异常检测,我们设计了具有三个不同上下文预测流的变压器模型:掩盖,整体和部分。通过学习预测连续正常帧的缺失帧,我们的模型可以有效地学习视频中的各种正态性模式,这会导致异常情况下不适合学习环境的异常情况。为了验证我们的方法的有效性,我们在公共基准数据集上评估了我们的模型:USCD Pateestrian 2,Cuhk Avenue和Shanghaitech,并以重建错误的异常得分度量评估了性能。结果表明,与现有的视频异常检测方法相比,我们提出的方法实现了竞争性能。
translated by 谷歌翻译
视频异常检测是现在计算机视觉中的热门研究主题之一,因为异常事件包含大量信息。异常是监控系统中的主要检测目标之一,通常需要实时行动。关于培训的标签数据的可用性(即,没有足够的标记数据进行异常),半监督异常检测方法最近获得了利益。本文介绍了该领域的研究人员,以新的视角,并评论了最近的基于深度学习的半监督视频异常检测方法,基于他们用于异常检测的共同策略。我们的目标是帮助研究人员开发更有效的视频异常检测方法。由于选择右深神经网络的选择对于这项任务的几个部分起着重要作用,首先准备了对DNN的快速比较审查。与以前的调查不同,DNN是从时空特征提取观点审查的,用于视频异常检测。这部分审查可以帮助本领域的研究人员选择合适的网络,以获取其方法的不同部分。此外,基于其检测策略,一些最先进的异常检测方法受到严格调查。审查提供了一种新颖,深入了解现有方法,并导致陈述这些方法的缺点,这可能是未来作品的提示。
translated by 谷歌翻译
在当代社会中,监视异常检测,即在监视视频中发现异常事件,例如犯罪或事故,是一项关键任务。由于异常发生很少发生,大多数培训数据包括没有标记的视频,没有异常事件,这使得任务具有挑战性。大多数现有方法使用自动编码器(AE)学习重建普通视频;然后,他们根据未能重建异常场景的出现来检测异常。但是,由于异常是通过外观和运动来区分的,因此许多先前的方法使用预训练的光流模型明确分开了外观和运动信息,例如。这种明确的分离限制了两种类型的信息之间的相互表示功能。相比之下,我们提出了一个隐式的两路AE(ITAE),其中两个编码器隐含模型外观和运动特征以及一个将它们组合在一起以学习正常视频模式的结构。对于正常场景的复杂分布,我们建议通过归一化流量(NF)的生成模型对ITAE特征的正常密度估计,以学习可拖动的可能性,并使用无法分布的检测来识别异常。 NF模型通过隐式学习的功能通过学习正常性来增强ITAE性能。最后,我们在六个基准测试中演示了ITAE及其特征分布建模的有效性,包括在现实世界中包含各种异常的数据库。
translated by 谷歌翻译
基于内存仪器的自动编码器(AE)的异常检测方法的现有方法具有以下缺点:(1)建立内存库需要额外的内存空间。 (2)主观假设的固定原型数量忽略了数据特征差异和多样性。为了克服这些缺点,我们引入了DLAN-AC,这是一种具有自适应簇的动态局部聚合网络,用于异常检测。首先,所提出的DLAN可以自动从AE学习和汇总高级特征,以获得更多代表性的原型,同时释放额外的存储空间。其次,所提出的AC可以适应性聚类视频数据,以推导具有先验信息的初始原型。此外,我们还提出了动态冗余聚类策略(DRC),以使DLAN能够自动消除不影响原型的特征簇。基准的广泛实验表明,DLAN-AC的表现优于大多数现有方法,从而验证了我们方法的有效性。我们的代码可在https://github.com/beyond-zw/dlan-ac上公开获取。
translated by 谷歌翻译
Deep autoencoder has been extensively used for anomaly detection. Training on the normal data, the autoencoder is expected to produce higher reconstruction error for the abnormal inputs than the normal ones, which is adopted as a criterion for identifying anomalies. However, this assumption does not always hold in practice. It has been observed that sometimes the autoencoder "generalizes" so well that it can also reconstruct anomalies well, leading to the miss detection of anomalies. To mitigate this drawback for autoencoder based anomaly detector, we propose to augment the autoencoder with a memory module and develop an improved autoencoder called memory-augmented autoencoder, i.e. MemAE. Given an input, MemAE firstly obtains the encoding from the encoder and then uses it as a query to retrieve the most relevant memory items for reconstruction. At the training stage, the memory contents are updated and are encouraged to represent the prototypical elements of the normal data. At the test stage, the learned memory will be fixed, and the reconstruction is obtained from a few selected memory records of the normal data. The reconstruction will thus tend to be close to a normal sample. Thus the reconstructed errors on anomalies will be strengthened for anomaly detection. MemAE is free of assumptions on the data type and thus general to be applied to different tasks. Experiments on various datasets prove the excellent generalization and high effectiveness of the proposed MemAE.
translated by 谷歌翻译
在表面缺陷检测中,由于阳性和负样品数量的极度失衡,基于阳性样本的异常检测方法已受到越来越多的关注。具体而言,基于重建的方法是最受欢迎的方法。但是,退出的方法要么难以修复异常的前景或重建清晰的背景。因此,我们提出了一个清晰的内存调制自动编码器。首先,我们提出了一个新颖的清晰内存调节模块,该模块将编码和内存编码结合在一起,以忘记和输入的方式,从而修复异常的前景和保存透明背景。其次,提出了一般人工异常产生算法来模拟尽可能逼真和特征富含特征的异常。最后,我们提出了一种新型的多量表特征残差检测方法,用于缺陷分割,这使缺陷位置更加准确。 CMA-AE使用五个基准数据集上的11种最先进方法进行比较实验,显示F1量的平均平均改善平均为18.6%。
translated by 谷歌翻译
Detecting abnormal crowd motion emerging from complex interactions of individuals is paramount to ensure the safety of crowds. Crowd-level abnormal behaviors (CABs), e.g., counter flow and crowd turbulence, are proven to be the crucial causes of many crowd disasters. In the recent decade, video anomaly detection (VAD) techniques have achieved remarkable success in detecting individual-level abnormal behaviors (e.g., sudden running, fighting and stealing), but research on VAD for CABs is rather limited. Unlike individual-level anomaly, CABs usually do not exhibit salient difference from the normal behaviors when observed locally, and the scale of CABs could vary from one scenario to another. In this paper, we present a systematic study to tackle the important problem of VAD for CABs with a novel crowd motion learning framework, multi-scale motion consistency network (MSMC-Net). MSMC-Net first captures the spatial and temporal crowd motion consistency information in a graph representation. Then, it simultaneously trains multiple feature graphs constructed at different scales to capture rich crowd patterns. An attention network is used to adaptively fuse the multi-scale features for better CAB detection. For the empirical study, we consider three large-scale crowd event datasets, UMN, Hajj and Love Parade. Experimental results show that MSMC-Net could substantially improve the state-of-the-art performance on all the datasets.
translated by 谷歌翻译
本文解决了视频检测问题的视频监视问题。由于异常事件的固有稀有性和异质性,该问题被视为一种正态建模策略,在这种策略中,我们的模型学习以对象为中心的正常模式,而无需在训练过程中看到异常样本。主要贡献在于耦合预处理的对象级动作具有基于余弦的异常估计功能的原型原型,因此通过向基于主流重建的策略引入其他约束来扩展以前的方法。我们的框架利用外观和运动信息来学习对象级别的行为并捕获内存模块中的原型模式。在几个知名数据集上进行的实验证明了我们方法的有效性,因为它在最相关的时空评估指标上优于当前的最新时间。
translated by 谷歌翻译
基于可视异常检测的内存模块的重建方法试图缩小正常样品的重建误差,同时将其放大为异常样品。不幸的是,现有的内存模块不完全适用于异常检测任务,并且异常样品的重建误差仍然很小。为此,这项工作提出了一种新的无监督视觉异常检测方法,以共同学习有效的正常特征并消除不利的重建错误。具体而言,提出了一个新颖的分区内存库(PMB)模块,以有效地学习和存储具有正常样本语义完整性的详细特征。它开发了一种新的分区机制和一种独特的查询生成方法,以保留上下文信息,然后提高内存模块的学习能力。替代探索了拟议的PMB和跳过连接,以使异常样品的重建更糟。为了获得更精确的异常定位结果并解决了累积重建误差的问题,提出了一个新型的直方图误差估计模块,以通过差异图像的直方图自适应地消除了不利的误差。它可以改善异常本地化性能而不会增加成本。为了评估所提出的异常检测和定位方法的有效性,在三个广泛使用的异常检测数据集上进行了广泛的实验。与基于内存模块的最新方法相比,提出的方法的令人鼓舞的性能证明了其优越性。
translated by 谷歌翻译
异常检测通常被追求为单级分类问题,其中模型只能从正常训练样本中学习,同时在正常和异常的测试样本上进行评估。在异常检测的成功方法中,一种杰出的方法依赖于预测屏蔽信息(例如修补程序,未来帧等)并利用相对于屏蔽信息的重建误差作为异常分数。与相关方法不同,我们建议将基于重建的功能集成为新颖的自我监督的预测建筑结构块。所提出的自我监督块是通用的,并且可以容易地结合到各种最先进的异常检测方法中。我们的块从带有扩张过滤器的卷积层开始,其中掩盖接收场的中心区域。得到的激活图通过通道注意模块传递。我们的块配备有损失,使得能够最小化接收领域中的遮蔽区域的重建误差。我们通过将其集成到几种最先进的框架中,以便在图像和视频上进行异常检测,提供对MVTEC AD,Avenue和Shanghaitech的经验证据提供了显着改进的经验证据。
translated by 谷歌翻译
The existing methods for video anomaly detection mostly utilize videos containing identifiable facial and appearance-based features. The use of videos with identifiable faces raises privacy concerns, especially when used in a hospital or community-based setting. Appearance-based features can also be sensitive to pixel-based noise, straining the anomaly detection methods to model the changes in the background and making it difficult to focus on the actions of humans in the foreground. Structural information in the form of skeletons describing the human motion in the videos is privacy-protecting and can overcome some of the problems posed by appearance-based features. In this paper, we present a survey of privacy-protecting deep learning anomaly detection methods using skeletons extracted from videos. We present a novel taxonomy of algorithms based on the various learning approaches. We conclude that skeleton-based approaches for anomaly detection can be a plausible privacy-protecting alternative for video anomaly detection. Lastly, we identify major open research questions and provide guidelines to address them.
translated by 谷歌翻译
视频异常检测(VAD)是计算机视觉中的重要主题。本文通过最新的自我监督学习进展的激励,通过解决直观而又具有挑战性的借口任务,即时空拼图拼图来解决VAD,该任务是一个多标签的精细粒度分类问题。我们的方法比现有作品具有几个优点:1)时空拼图难题是根据空间和时间维度分离的,分别捕获了高度歧视性的外观和运动特征; 2)完全排列用于提供涵盖各种难度水平的丰富拼图难题,从而使网络能够区分正常事件和异常事件之间的细微时空差异; 3)借口任务以端到端的方式解决,而无需依赖任何预训练的模型。我们的方法优于三个公共基准的最先进的方法。尤其是在上海校园中,其结果优于重建和基于预测的方法。
translated by 谷歌翻译
视频异常检测是一项具有挑战性的任务,因为大多数异常都是稀缺和非确定性的。许多方法研究了正常模式和异常模式之间的重建差异,但是忽略了异常不一定与大重建误差相对应。为了解决这个问题,我们设计了使用双向方向和高阶机制的增强时空存储器交换的卷积LSTM自动编码器预测框架。双向结构通过前进和向后的预测促进了学习时间的规律性。独特的高阶机制进一步加强了编码器和解码器之间的空间信息相互作用。考虑到卷积LSTMS中有限的接收场,我们还引入了一个注意模块,以突出预测的信息特征。最终通过将框架与它们的相应预测进行比较来确定异常。对三个流行基准的评估表明,我们的框架的表现优于大多数基于预测的异常检测方法。
translated by 谷歌翻译
这项工作的目的是检测并自动生成视频中异常事件的高级解释。了解异常事件的原因至关重要,因为所需的响应取决于其性质和严重程度。最近的作品通常使用对象或操作分类器来检测和提供异常事件的标签。然而,这将检测系统限制为有限的已知类别,并防止到未知物体或行为的概括。在这里,我们展示了如何在不使用对象或操作分类器的情况下稳健地检测异组织,但仍然恢复事件背后的高级原因。我们提出以下贡献:(1)一种使用显着性图来解除对象和动作分类器的异常事件解释的方法,(2)显示如何使用新的神经架构来学习视频的离散表示来提高显着图的质量通过预测未来帧和(3)将最先进的异常解释方法击败60 \%在公共基准X-MAN数据集的子集上。
translated by 谷歌翻译
无监督的异常检测旨在通过在正常数据上训练来建立模型以有效地检测看不见的异常。尽管以前的基于重建的方法取得了富有成效的进展,但由于两个危急挑战,他们的泛化能力受到限制。首先,训练数据集仅包含正常模式,这限制了模型泛化能力。其次,现有模型学到的特征表示通常缺乏代表性,妨碍了保持正常模式的多样性的能力。在本文中,我们提出了一种称为自适应存储器网络的新方法,具有自我监督的学习(AMSL)来解决这些挑战,并提高无监督异常检测中的泛化能力。基于卷积的AutoEncoder结构,AMSL包含一个自我监督的学习模块,以学习一般正常模式和自适应内存融合模块来学习丰富的特征表示。四个公共多变量时间序列数据集的实验表明,与其他最先进的方法相比,AMSL显着提高了性能。具体而言,在具有9亿个样本的最大帽睡眠阶段检测数据集上,AMSL以精度和F1分数\ TextBF {4} \%+优于第二个最佳基线。除了增强的泛化能力之外,AMSL还针对输入噪声更加强大。
translated by 谷歌翻译