深度学习模型已广泛用于监控视频中的异常检测。典型模型配备了重建普通视频的能力,并评估异常视频的重建错误以指示异常的程度。然而,现有方法遭受了两个缺点。首先,它们只能独立地编码每个身份的运动,而不考虑身份之间的相互作用,这也可以指示异常。其次,他们利用了结构在不同场景下固定的粘合模型,这种配置禁止了对场景的理解。在本文中,我们提出了一个分层时空图卷积神经网络(HSTGCNN)来解决这些问题,HSTGCNN由对应于不同级别的图形表示的多个分支组成。高级图形表示编码人们的轨迹以及多个身份之间的交互,而低级图表表示编码每个人的本地身体姿势。此外,我们建议加权组合在不同场景中更好的多个分支。以这种方式实现了对单级图形表示的改进。实现了对场景的理解并提供异常检测。在低分辨率视频中为在低分辨率视频中编码低分辨率视频中的人员的移动速度和方向编码高级别的图表表示,而在高分辨率视频中将更高的权重分配更高的权重。实验结果表明,建议的HSTGCNN在四个基准数据集(UCSD Spistrian,Shanghaitech,Cuhk Aveance和IITB-Whent)上的当前最先进的模型显着优于最新的最先进模型。
translated by 谷歌翻译
The existing methods for video anomaly detection mostly utilize videos containing identifiable facial and appearance-based features. The use of videos with identifiable faces raises privacy concerns, especially when used in a hospital or community-based setting. Appearance-based features can also be sensitive to pixel-based noise, straining the anomaly detection methods to model the changes in the background and making it difficult to focus on the actions of humans in the foreground. Structural information in the form of skeletons describing the human motion in the videos is privacy-protecting and can overcome some of the problems posed by appearance-based features. In this paper, we present a survey of privacy-protecting deep learning anomaly detection methods using skeletons extracted from videos. We present a novel taxonomy of algorithms based on the various learning approaches. We conclude that skeleton-based approaches for anomaly detection can be a plausible privacy-protecting alternative for video anomaly detection. Lastly, we identify major open research questions and provide guidelines to address them.
translated by 谷歌翻译
视频异常检测是视觉中的核心问题。正确检测和识别视频数据中行人中的异常行为将使安全至关重要的应用,例如监视,活动监测和人类机器人的互动。在本文中,我们建议利用无监督的行人异常事件检测的轨迹定位和预测。与以前的基于重建的方法不同,我们提出的框架依赖于正常和异常行人轨迹的预测误差来在空间和时间上检测异常。我们介绍了有关不同时间尺度的现实基准数据集的实验结果,并表明我们提出的基于轨迹预言的异常检测管道在识别视频中行人的异常活动方面有效有效。代码将在https://github.com/akanuasiegbu/leveraging-trajectory-prediction-for-pedestrian-video-anomaly-detection上提供。
translated by 谷歌翻译
异常识别高度取决于对象与场景之间的关系,因为相同/不同场景中的不同/相同对象动作可能导致各种程度的正态性和异常。因此,对象场景关系实际上在异常检测中起着至关重要的作用,但在以前的工作中探讨了不足。在本文中,我们提出了一个时空关系学习(STRL)框架来解决视频异常检测任务。首先,考虑到对象的动态特征以及场景区域,我们构建了一个时空自动编码器(STAE),以共同利用代表学习的空间和时间演化模式。为了获得更好的图案提取,在STAE模块中设计了两个解码分支,即通过直接预测下一个帧来捕获空间提示的外观分支,以及一个运动分支,重点是通过光流预测对动态进行建模。然后,为了很好地融合对象场所关系,设计了一个关系学习(RL)模块来通过引入知识图嵌入方法来分析和总结正常关系。在此过程中具体来说,通过共同建模对象/场景特征和优化的对象场所关系图来衡量对象场景关系的合理性。在三个公共数据集上进行了广泛的实验,而对最新方法的优越性能证明了我们方法的有效性。
translated by 谷歌翻译
视频异常检测是现在计算机视觉中的热门研究主题之一,因为异常事件包含大量信息。异常是监控系统中的主要检测目标之一,通常需要实时行动。关于培训的标签数据的可用性(即,没有足够的标记数据进行异常),半监督异常检测方法最近获得了利益。本文介绍了该领域的研究人员,以新的视角,并评论了最近的基于深度学习的半监督视频异常检测方法,基于他们用于异常检测的共同策略。我们的目标是帮助研究人员开发更有效的视频异常检测方法。由于选择右深神经网络的选择对于这项任务的几个部分起着重要作用,首先准备了对DNN的快速比较审查。与以前的调查不同,DNN是从时空特征提取观点审查的,用于视频异常检测。这部分审查可以帮助本领域的研究人员选择合适的网络,以获取其方法的不同部分。此外,基于其检测策略,一些最先进的异常检测方法受到严格调查。审查提供了一种新颖,深入了解现有方法,并导致陈述这些方法的缺点,这可能是未来作品的提示。
translated by 谷歌翻译
Aiming at the problem that the current video anomaly detection cannot fully use the temporal information and ignore the diversity of normal behavior, an anomaly detection method is proposed to integrate the spatiotemporal information of pedestrians. Based on the convolutional autoencoder, the input frame is compressed and restored through the encoder and decoder. Anomaly detection is realized according to the difference between the output frame and the true value. In order to strengthen the characteristic information connection between continuous video frames, the residual temporal shift module and the residual channel attention module are introduced to improve the modeling ability of the network on temporal information and channel information, respectively. Due to the excessive generalization of convolutional neural networks, in the memory enhancement modules, the hopping connections of each codec layer are added to limit autoencoders' ability to represent abnormal frames too vigorously and improve the anomaly detection accuracy of the network. In addition, the objective function is modified by a feature discretization loss, which effectively distinguishes different normal behavior patterns. The experimental results on the CUHK Avenue and ShanghaiTech datasets show that the proposed method is superior to the current mainstream video anomaly detection methods while meeting the real-time requirements.
translated by 谷歌翻译
在监控视频中的异常检测是挑战,对确保公共安全有挑战性。不同于基于像素的异常检测方法,基于姿势的方法利用高结构化的骨架数据,这降低了计算负担,并避免了背景噪声的负面影响。然而,与基于像素的方法不同,这可以直接利用显式运动特征,例如光学流,基于姿势的方法缺乏替代动态表示。在本文中,提出了一种新的运动嵌入器(ME)以提供从概率的角度来提供姿态运动表示。此外,为自我监控姿势序列重建部署了一种新型任务特定的空间 - 时间变压器(STT)。然后将这两个模块集成到统一规律学习的统一框架中,该框架被称为运动先前规律学习者(MOPLL)。 MOPRL在几个具有挑战性的数据集中实现了4.7%AUC的平均改善,实现了最先进的性能。广泛的实验验证每个提出的模块的多功能性。
translated by 谷歌翻译
在当代社会中,监视异常检测,即在监视视频中发现异常事件,例如犯罪或事故,是一项关键任务。由于异常发生很少发生,大多数培训数据包括没有标记的视频,没有异常事件,这使得任务具有挑战性。大多数现有方法使用自动编码器(AE)学习重建普通视频;然后,他们根据未能重建异常场景的出现来检测异常。但是,由于异常是通过外观和运动来区分的,因此许多先前的方法使用预训练的光流模型明确分开了外观和运动信息,例如。这种明确的分离限制了两种类型的信息之间的相互表示功能。相比之下,我们提出了一个隐式的两路AE(ITAE),其中两个编码器隐含模型外观和运动特征以及一个将它们组合在一起以学习正常视频模式的结构。对于正常场景的复杂分布,我们建议通过归一化流量(NF)的生成模型对ITAE特征的正常密度估计,以学习可拖动的可能性,并使用无法分布的检测来识别异常。 NF模型通过隐式学习的功能通过学习正常性来增强ITAE性能。最后,我们在六个基准测试中演示了ITAE及其特征分布建模的有效性,包括在现实世界中包含各种异常的数据库。
translated by 谷歌翻译
People living with dementia often exhibit behavioural and psychological symptoms of dementia that can put their and others' safety at risk. Existing video surveillance systems in long-term care facilities can be used to monitor such behaviours of risk to alert the staff to prevent potential injuries or death in some cases. However, these behaviours of risk events are heterogeneous and infrequent in comparison to normal events. Moreover, analyzing raw videos can also raise privacy concerns. In this paper, we present two novel privacy-protecting video-based anomaly detection approaches to detect behaviours of risks in people with dementia. We either extracted body pose information as skeletons and use semantic segmentation masks to replace multiple humans in the scene with their semantic boundaries. Our work differs from most existing approaches for video anomaly detection that focus on appearance-based features, which can put the privacy of a person at risk and is also susceptible to pixel-based noise, including illumination and viewing direction. We used anonymized videos of normal activities to train customized spatio-temporal convolutional autoencoders and identify behaviours of risk as anomalies. We show our results on a real-world study conducted in a dementia care unit with patients with dementia, containing approximately 21 hours of normal activities data for training and 9 hours of data containing normal and behaviours of risk events for testing. We compared our approaches with the original RGB videos and obtained an equivalent area under the receiver operating characteristic curve performance of 0.807 for the skeleton-based approach and 0.823 for the segmentation mask-based approach. This is one of the first studies to incorporate privacy for the detection of behaviours of risks in people with dementia.
translated by 谷歌翻译
我们提出了Bipoco,这是一种带有姿势限制的双向轨迹预测指标,用于检测视频中行人的异常活动。与基于特征重建的先前工作相反,我们的工作通过预测他们的未来轨迹并将预测与他们的期望进行比较来确定行人异常事件。我们引入了一组新型的基于姿势的损失,并通过我们的预测指标和利用每个身体关节的预测误差来进行行人异常检测。实验结果表明,我们的Bipoco方法可以检测具有高检测率的行人异常活动(高达87.0%),并且纳入姿势限制有助于区分预测中的正常和异常姿势。这项工作扩展了使用基于预测的方法进行异常检测的当前文献,并可以受益于安全至关重要的应用,例如自动驾驶和监视。代码可从https://github.com/akanuasiegbu/bipoco获得。
translated by 谷歌翻译
视频异常检测旨在在视频中找到不符合预期行为的事件。普遍的方法主要通过摘要重建或将来的框架预测误差来检测异常。但是,该错误高度依赖于当前摘要的局部环境,并且缺乏对正态性的理解。为了解决这个问题,我们建议不仅通过本地环境来检测异常事件,而且还根据测试事件与培训数据正常的知识之间的一致性。具体而言,我们提出了一个基于上下文恢复和知识检索的新颖的两流框架,这两个流可以相互补充。对于上下文恢复流,我们提出了一个时空的U-NET,可以完全利用运动信息来预测未来的框架。此外,我们提出了一种最大的局部误差机制,以减轻复杂前景对象引起的大恢复错误的问题。对于知识检索流,我们提出了一种改进的可学习区域敏感性散列的散列,该哈希通过暹罗网络和相互差异损失来优化哈希功能。关于正态性的知识是编码和存储在哈希表中的,测试事件与知识表示之间的距离用于揭示异常的概率。最后,我们融合了从两个流的异常得分以检测异常。广泛的实验证明了这两个流的有效性和互补性,因此提出的两流框架在四个数据集上实现了最新的性能。
translated by 谷歌翻译
传统上,视频异常检测(VAD)以两种主要方法进行了解决:基于重建的方法和基于预测的方法。当基于重建的方法学会概括输入图像时,该模型仅学习身份功能并强烈引起所谓的概括问题。另一方面,由于基于预测的框架学会预测以前几个帧的未来框架,因此它们对概括性问题的敏感性不太敏感。但是,仍然不确定该模型是否可以学习视频的时空上下文。我们的直觉是,对视频的时空环境的理解在VAD中起着至关重要的作用,因为它提供了有关视频剪辑中事件的出现如何变化的精确信息。因此,为了充分利用视频情况下的上下文信息以进行异常检测,我们设计了具有三个不同上下文预测流的变压器模型:掩盖,整体和部分。通过学习预测连续正常帧的缺失帧,我们的模型可以有效地学习视频中的各种正态性模式,这会导致异常情况下不适合学习环境的异常情况。为了验证我们的方法的有效性,我们在公共基准数据集上评估了我们的模型:USCD Pateestrian 2,Cuhk Avenue和Shanghaitech,并以重建错误的异常得分度量评估了性能。结果表明,与现有的视频异常检测方法相比,我们提出的方法实现了竞争性能。
translated by 谷歌翻译
单个异常行为因人群的大小,上下文和场景而异。当检测,跟踪和认可异常行为的人时,诸如部分阻塞,模糊,大数字异常行为和摄像机观看之类的挑战发生在大规模的人群中。在本文中,我们的贡献是双重的。首先,我们介绍了一个注释和标记的大规模人群异常行为hajj数据集(hajjv2)。其次,我们提出了两种混合卷积神经网络(CNN)和随机森林(RFS)的两种方法,以检测和识别小型和大型人群视频中的时空异常行为。在小型人群视频中,对Resnet-50预训练的CNN模型进行了微调,以验证空间域中的每个帧是正常还是异常。如果观察到异常行为,则使用基于运动的个体检测方法基于角链光流的大小和方向来定位和跟踪具有异常行为的个体。大规模人群视频中使用了Kalman过滤器,以预测和跟踪随后的帧中检测到的个体。然后,将均值,方差和标准偏差统计特征计算出来并馈送到RF,以对时间域中的行为异常行为进行分类。在大规模的人群中,我们使用Yolov2对象检测技术微调Resnet-50模型,以检测空间域中行为异常的个体。
translated by 谷歌翻译
Detecting abnormal crowd motion emerging from complex interactions of individuals is paramount to ensure the safety of crowds. Crowd-level abnormal behaviors (CABs), e.g., counter flow and crowd turbulence, are proven to be the crucial causes of many crowd disasters. In the recent decade, video anomaly detection (VAD) techniques have achieved remarkable success in detecting individual-level abnormal behaviors (e.g., sudden running, fighting and stealing), but research on VAD for CABs is rather limited. Unlike individual-level anomaly, CABs usually do not exhibit salient difference from the normal behaviors when observed locally, and the scale of CABs could vary from one scenario to another. In this paper, we present a systematic study to tackle the important problem of VAD for CABs with a novel crowd motion learning framework, multi-scale motion consistency network (MSMC-Net). MSMC-Net first captures the spatial and temporal crowd motion consistency information in a graph representation. Then, it simultaneously trains multiple feature graphs constructed at different scales to capture rich crowd patterns. An attention network is used to adaptively fuse the multi-scale features for better CAB detection. For the empirical study, we consider three large-scale crowd event datasets, UMN, Hajj and Love Parade. Experimental results show that MSMC-Net could substantially improve the state-of-the-art performance on all the datasets.
translated by 谷歌翻译
从视频中估算人的姿势对于人类计算机相互作用至关重要。通过精确估计人类姿势,机器人可以对人类提供适当的反应。大多数现有方法都使用光流,RNN或CNN从视频中提取时间功能。尽管这些尝试取得了积极的结果,但其中大多数仅直接整合沿时间维度的特征,而忽略了关节之间的时间相关性。与以前的方法相反,我们提出了一个基于域交叉注意机制的插件运动学建模模块(KMM),以对不同帧的关节之间的时间相关性进行建模。具体而言,提出的KMM通过计算其时间相似性来模拟任意两个关节之间的时间相关性。这样,KMM可以学习每个关节的运动提示。使用运动提示(时间域)和关节的历史位置(空间域),KMM可以提前推断关节的初始位置。此外,我们还基于KMM提出了一个运动学建模网络(KIMNET),用于通过结合姿势特征和关节的初始位置来获得关节的最终位置。通过对关节之间的时间相关性进行显式建模,Kimnet可以根据前一刻的所有关节来推断遮挡的关节。此外,KMM是通过注意机制实现的,该机制使其能够保持高度分辨率。因此,它可以将丰富的历史姿势信息转移到当前框架上,该信息为定位遮挡关节提供了有效的姿势信息。我们的方法在两个基于视频的姿势估计基准的基准上实现了最新的结果。此外,提出的Kimnet对闭塞显示了一些鲁棒性,证明了所提出的方法的有效性。
translated by 谷歌翻译
在由车辆安装的仪表板摄像机捕获的视频中检测危险交通代理(仪表板)对于促进在复杂环境中的安全导航至关重要。与事故相关的视频只是驾驶视频大数据的一小部分,并且瞬态前的事故流程具有高度动态和复杂性。此外,风险和非危险交通代理的外观可能相似。这些使驾驶视频中的风险对象本地化特别具有挑战性。为此,本文提出了一个注意力引导的多式功能融合网络(AM-NET),以将仪表板视频的危险交通代理本地化。两个封闭式复发单元(GRU)网络使用对象边界框和从连续视频帧中提取的光流功能来捕获时空提示,以区分危险交通代理。加上GRUS的注意力模块学会了与事故相关的交通代理。融合了两个功能流,AM-NET预测了视频中交通代理的风险评分。在支持这项研究的过程中,本文还引入了一个名为“风险对象本地化”(ROL)的基准数据集。该数据集包含带有事故,对象和场景级属性的空间,时间和分类注释。拟议的AM-NET在ROL数据集上实现了85.73%的AUC的有希望的性能。同时,AM-NET在DOTA数据集上优于视频异常检测的当前最新视频异常检测。一项彻底的消融研究进一步揭示了AM-NET通过评估其不同组成部分的贡献的优点。
translated by 谷歌翻译
视频异常检测(VAD)是计算机视觉中的重要主题。本文通过最新的自我监督学习进展的激励,通过解决直观而又具有挑战性的借口任务,即时空拼图拼图来解决VAD,该任务是一个多标签的精细粒度分类问题。我们的方法比现有作品具有几个优点:1)时空拼图难题是根据空间和时间维度分离的,分别捕获了高度歧视性的外观和运动特征; 2)完全排列用于提供涵盖各种难度水平的丰富拼图难题,从而使网络能够区分正常事件和异常事件之间的细微时空差异; 3)借口任务以端到端的方式解决,而无需依赖任何预训练的模型。我们的方法优于三个公共基准的最先进的方法。尤其是在上海校园中,其结果优于重建和基于预测的方法。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
近年来,随着对公共安全的需求越来越多,智能监测网络的快速发展,人员重新识别(RE-ID)已成为计算机视野领域的热门研究主题之一。人员RE-ID的主要研究目标是从不同的摄像机中检索具有相同身份的人。但是,传统的人重新ID方法需要手动标记人的目标,这消耗了大量的劳动力成本。随着深度神经网络的广泛应用,出现了许多基于深入的基于学习的人物的方法。因此,本文促进研究人员了解最新的研究成果和该领域的未来趋势。首先,我们总结了对几个最近公布的人的研究重新ID调查,并补充了系统地分类基于深度学习的人的重新ID方法的最新研究方法。其次,我们提出了一种多维分类,根据度量标准和表示学习,将基于深度学习的人的重新ID方法分为四类,包括深度度量学习,本地特征学习,生成的对抗学习和序列特征学习的方法。此外,我们根据其方法和动机来细分以上四类,讨论部分子类别的优缺点。最后,我们讨论了一些挑战和可能的研究方向的人重新ID。
translated by 谷歌翻译
视频异常分析是在计算机视觉领域积极执行的一项核心任务,其应用程序扩展到了监视录像中现实世界中的犯罪检测。在这项工作中,我们解决了与人有关的犯罪分类的任务。在我们提出的方法中,用作骨骼关节轨迹的视频框架中的人体被用作探索的主要来源。首先,我们介绍了扩展HR-Crime数据集的地面真相标签的意义,因此提出了一种监督和无监督的方法,以生成轨迹级别的地面真相标签。接下来,鉴于轨迹级的地面真相的可用性,我们引入了基于轨迹的犯罪分类框架。消融研究是通过各种体系结构和特征融合策略来代表人类轨迹进行的。进行的实验证明了任务的可行性,并为该领域的进一步研究铺平了道路。
translated by 谷歌翻译