本文侧重于改善基于人群计数的最近的即插即用补丁重新分校模块(PRM)方法。为了充分利用PRM潜力,并获得更具可靠和准确的结果,以满足人群变异,大的视角,极端闭塞和杂乱的背景区域,我们提出了一种基于PRM的多分辨率和多任务人群通过利用更多有效性和效力来计算网络来计算网络。所提出的模型由三个深层分支组成,每个分支都会生成不同分辨率的特征图。这些分支机构互相执行特征级融合,以构建用于最终人群估计的重要集体知识。此外,早期的特征图会经受视觉注意力,以加强对前景地区的后期频道的理解。与PRM模块的这些深度分支的整合和早期的块通过四个基准数据集上的广泛数值和视觉评估而比原始的PRM基础级更有效。拟议的方法在RMSE评估标准方面产生了12.6%的余量。它还优于跨数据集评估中的最先进的方法。
translated by 谷歌翻译
人群计数是公共场所情境意识的有效工具。使用图像和视频进行自动人群计数是一个有趣但充满挑战的问题,在计算机视觉中引起了极大的关注。在过去的几年中,已经开发了各种深度学习方法来实现最先进的表现。随着时间的流逝,这些方法在许多方面发生了变化,例如模型架构,输入管道,学习范式,计算复杂性和准确性提高等。在本文中,我们对人群计数领域中最重要的贡献进行了系统和全面的评论。 。尽管对该主题的调查很少,但我们的调查是最新的,并且在几个方面都不同。首先,它通过模型体系结构,学习方法(即损失功能)和评估方法(即评估指标)对最重要的贡献进行了更有意义的分类。我们选择了杰出和独特的作品,并排除了类似的作品。我们还通过基准数据集对著名人群计数模型进行分类。我们认为,这项调查可能是新手研究人员了解随着时间的推移和当前最新技术的逐步发展和贡献的好资源。
translated by 谷歌翻译
We propose a network for Congested Scene Recognition called CSRNet to provide a data-driven and deep learning method that can understand highly congested scenes and perform accurate count estimation as well as present highquality density maps. The proposed CSRNet is composed of two major components: a convolutional neural network (CNN) as the front-end for 2D feature extraction and a dilated CNN for the back-end, which uses dilated kernels to deliver larger reception fields and to replace pooling operations. CSRNet is an easy-trained model because of its pure convolutional structure. We demonstrate CSRNet on four datasets (ShanghaiTech dataset, the UCF CC 50 dataset, the WorldEXPO'10 dataset, and the UCSD dataset) and we deliver the state-of-the-art performance. In the Shang-haiTech Part B dataset, CSRNet achieves 47.3% lower Mean Absolute Error (MAE) than the previous state-of-theart method. We extend the targeted applications for counting other objects, such as the vehicle in TRANCOS dataset. Results show that CSRNet significantly improves the output quality with 15.4% lower MAE than the previous state-ofthe-art approach.
translated by 谷歌翻译
背景噪声和规模变化是人群计数中长期以来已经认识到的常见问题。人类瞥见人群的形象,立即知道人类的大概数量,以及他们通过关注的人群地区和人群地区的拥塞程度,并具有全球接收领域。因此,在本文中,我们通过对人类自上而下的视觉感知机制进行建模,提出了一个具有称为RANET的区域感知块的新型反馈网络。首先,我们介绍了一个反馈体系结构,以生成优先级地图,这些图提供了输入图像中候选人人群区域的先验。先验使Ranet更加关注人群地区。然后,我们设计了可以通过全局接受字段自适应地将上下文信息编码为输入图像的区域感知块。更具体地说,我们以列向量的形式扫描整个输入图像及其优先级图,以获得相关矩阵估计其相似性。获得的相关矩阵将用于建立像素之间的全球关系。我们的方法在几个公共数据集上优于最先进的人群计数方法。
translated by 谷歌翻译
近年来,人群计数研究取得了重大进展。然而,随着人群中存在具有挑战性的规模变化和复杂的场景,传统的卷积网络和最近具有固定大小的变压器架构都不能良好地处理任务。为了解决这个问题,本文提出了一个场景 - 自适应关注网络,称为Saanet。首先,我们设计了可变形的变压器骨干内的可变形关注,从而了解具有可变形采样位置和动态注意力的自适应特征表示。然后,我们提出了多级特征融合和计数专注特征增强模块,以加强全局图像上下文下的特征表示。学习的陈述可以参加前景,并适应不同的人群。我们对四个具有挑战性的人群计数基准进行广泛的实验,表明我们的方法实现了最先进的性能。特别是,我们的方法目前在NWPU-Crowd基准的公共排行榜上排名第一。我们希望我们的方法可能是一个强大的基线,以支持人群计数的未来研究。源代码将被释放到社区。
translated by 谷歌翻译
在过去的几年中,基于卷积的神经网络(CNN)的人群计数方法已取得了有希望的结果。但是,对于准确的计数估计,量表变化问题仍然是一个巨大的挑战。在本文中,我们提出了一个多尺度特征聚合网络(MSFANET),可以在某种程度上减轻此问题。具体而言,我们的方法由两个特征聚合模块组成:短聚合(Shortagg)和Skip Contregation(Skipagg)。 Shortagg模块聚集了相邻卷积块的特征。其目的是制作具有从网络底部逐渐融合的不同接收场的功能。 Skipagg模块将具有小型接受场的特征直接传播到具有更大接收场的特征。它的目的是促进特征与大小接收场的融合。尤其是,Skipagg模块引入了Swin Transformer块中的本地自我注意力特征,以结合丰富的空间信息。此外,我们通过考虑不均匀的人群分布来提出基于局部和全球的计数损失。在四个具有挑战性的数据集(Shanghaitech数据集,UCF_CC_50数据集,UCF-QNRF数据集,WorldExpo'10数据集)上进行了广泛的实验,这表明与先前的先前的尚未实行的方法相比,提出的易于实现的MSFANET可以实现有希望的结果。
translated by 谷歌翻译
This paper aims to develop a method than can accurately estimate the crowd count from an individual image with arbitrary crowd density and arbitrary perspective. To this end, we have proposed a simple but effective Multi-column Convolutional Neural Network (MCNN) architecture to map the image to its crowd density map. The proposed MCNN allows the input image to be of arbitrary size or resolution. By utilizing filters with receptive fields of different sizes, the features learned by each column CNN are adaptive to variations in people/head size due to perspective effect or image resolution. Furthermore, the true density map is computed accurately based on geometry-adaptive kernels which do not need knowing the perspective map of the input image. Since exiting crowd counting datasets do not adequately cover all the challenging situations considered in our work, we have collected and labelled a large new dataset that includes 1198 images with about 330,000 heads annotated. On this challenging new dataset, as well as all existing datasets, we conduct extensive experiments to verify the effectiveness of the proposed model and method. In particular, with the proposed simple MCNN model, our method outperforms all existing methods. In addition, experiments show that our model, once trained on one dataset, can be readily transferred to a new dataset.
translated by 谷歌翻译
在实际人群计算应用程序中,图像中的人群密度差异很大。当面对密度变化时,人类倾向于在低密度区域定位和计数目标,并推理高密度区域的数量。我们观察到,CNN使用固定大小的卷积内核专注于局部信息相关性,而变压器可以通过使用全球自我注意机制有效地提取语义人群信息。因此,CNN可以在低密度区域中准确定位和估计人群,而在高密度区域中很难正确感知密度。相反,变压器在高密度区域具有很高的可靠性,但未能在稀疏区域定位目标。 CNN或变压器都无法很好地处理这种密度变化。为了解决此问题,我们提出了一个CNN和变压器自适应选择网络(CTASNET),该网络可以自适应地为不同密度区域选择适当的计数分支。首先,CTASNET生成CNN和变压器的预测结果。然后,考虑到CNN/变压器适用于低/高密度区域,密度引导的自适应选择模块被设计为自动结合CNN和Transformer的预测。此外,为了减少注释噪声的影响,我们引入了基于Correntropy的最佳运输损失。对四个挑战的人群计数数据集进行了广泛的实验,已经验证了该方法。
translated by 谷歌翻译
透视扭曲和人群的变化使人群在计算机视觉中计算一项具有挑战性的任务。为了解决这个问题,许多以前的作品都使用了深神经网络(DNNS)中的多尺度体系结构。多尺度分支可以直接合并(例如,通过串联)合并,也可以通过DNNS中代理(例如注意力)的指导合并。尽管存在盛行,但这些组合方法的复杂性不足以应对多尺度密度图上的每个像素性能差异。在这项工作中,我们通过引入密度专家的​​层次混合物来重新设计多尺度神经网络,该密度专家的​​分层混合物层次合并了多尺度密度图以进行人群计数。在层次结构中,提出了一项专家竞争和协作计划,以鼓励各种规模的贡献;引入了像素的软门网,以提供像素的软重量,以用于不同层次结构的比例组合。使用人群密度图和本地计数图对网络进行了优化,该图是通过前者对本地集成获得的。优化两者的潜在冲突可能是有问题的。我们基于图像中硬预测的本地区域之间的相对计数差异引入了新的相对局部计数损失,事实证明,这是与密度图上常规的绝对误差损失相辅相成的。实验表明,我们的方法在五个公共数据集上实现了最先进的性能,即上海,ucf_cc_50,jhu-crowd ++,nwpu-crowd和trancos。
translated by 谷歌翻译
指导可学习的参数优化的一种吸引人的方法,例如特征图,是全球关注,它以成本的一小部分启发了网络智能。但是,它的损失计算过程仍然很短:1)我们只能产生一维的“伪标签”,因为该过程中涉及的人工阈值不健壮; 2)等待损失计算的注意力必然是高维的,而通过卷积减少它将不可避免地引入其他可学习的参数,从而使损失的来源混淆。为此,我们设计了一个基于软磁性注意的简单但有效的间接注意力优化(IIAO)模块,该模块将高维注意图转换为数学意义上的一维功能图,以通过网络中途进行损失计算,同时自动提供自适应多尺度融合以配备金字塔模块。特殊转化产生相对粗糙的特征,最初,区域的预测性谬误性随着人群的密度分布而变化,因此我们定制区域相关损失(RCLOSS)以检索连续错误的错误区域和平滑的空间信息。广泛的实验证明,我们的方法在许多基准数据集中超过了先前的SOTA方法。
translated by 谷歌翻译
大多数传统人群计数方法利用完全监督的学习框架来学习场景图像和人群密度映射之间的映射。在这种完全监督培训设置的情况下,需要大量昂贵且耗时的像素级注释,以产生密度图作为监控。减少昂贵标签的一种方法是利用未标记图像之间的自我结构信息和内在关系。与利用原始图像级别的这些关系和结构信息的先前方法不同,我们从潜在特征空间探讨了这种自我关系,因为它可以提取更丰富的关系和结构信息。具体而言,我们提出了S $ ^ 2 $ FPR,其可以提取结构信息,并在潜在空间中学习粗良好的金字塔特征的部分订单,以便更好地与大规模未标记的图像计数。此外,我们收集了一个新的未标记的人群计数数据集(Fudan-UCC),总共有4,000张图片进行培训。一个副产物是我们提出的S $ ^ 2 $ FPR方法可以利用未标记图像之间的潜在空间中的众多部分订单来加强模型表示能力,并减少人群计数任务的估计误差。关于四个基准数据集的大量实验,即UCF-QNRF,Shanghaitech Parta和Partb以及UCF-CC-50,与先前半监督方法相比,我们的方法显示了我们的方法。源代码和数据集可用于https://github.com/bridgeqiqi/s2fpr。
translated by 谷歌翻译
单图像人群计数是一个充满挑战的计算机视觉问题,在公共安全,城市规划,交通管理等方面进行了广泛的应用。随着深度学习技术的最新发展,近年来,人群的数量引起了很多关注并取得了巨大的成功。这项调查是为了通过系统审查和总结该地区的200多件作品来提供有关基于深度学习的人群计数技术的最新进展的全面摘要。我们的目标是提供最新的评论。在最近的方法中,并在该领域教育新研究人员的设计原理和权衡。在介绍了公开可用的数据集和评估指标之后,我们通过对三个主要的设计模块进行了详细比较来回顾最近的进展:深度神经网络设计,损失功能和监督信号。我们使用公共数据集和评估指标研究和比较方法。我们以一些未来的指示结束了调查。
translated by 谷歌翻译
Recently, density map regression-based methods have dominated in crowd counting owing to their excellent fitting ability on density distribution. However, further improvement tends to saturate mainly because of the confusing background noise and the large density variation. In this paper, we propose a Hierarchically Decoupled Network (HDNet) to solve the above two problems within a unified framework. Specifically, a background classification sub-task is decomposed from the density map prediction task, which is then assigned to a Density Decoupling Module (DDM) to exploit its highly discriminative ability. For the remaining foreground prediction sub-task, it is further hierarchically decomposed to several density-specific sub-tasks by the DDM, which are then solved by the regression-based experts in a Foreground Density Estimation Module (FDEM). Although the proposed strategy effectively reduces the hypothesis space so as to relieve the optimization for those task-specific experts, the high correlation of these sub-tasks are ignored. Therefore, we introduce three types of interaction strategies to unify the whole framework, which are Feature Interaction, Gradient Interaction, and Scale Interaction. Integrated with the above spirits, HDNet achieves state-of-the-art performance on several popular counting benchmarks.
translated by 谷歌翻译
We develop a Synthetic Fusion Pyramid Network (SPF-Net) with a scale-aware loss function design for accurate crowd counting. Existing crowd-counting methods assume that the training annotation points were accurate and thus ignore the fact that noisy annotations can lead to large model-learning bias and counting error, especially for counting highly dense crowds that appear far away. To the best of our knowledge, this work is the first to properly handle such noise at multiple scales in end-to-end loss design and thus push the crowd counting state-of-the-art. We model the noise of crowd annotation points as a Gaussian and derive the crowd probability density map from the input image. We then approximate the joint distribution of crowd density maps with the full covariance of multiple scales and derive a low-rank approximation for tractability and efficient implementation. The derived scale-aware loss function is used to train the SPF-Net. We show that it outperforms various loss functions on four public datasets: UCF-QNRF, UCF CC 50, NWPU and ShanghaiTech A-B datasets. The proposed SPF-Net can accurately predict the locations of people in the crowd, despite training on noisy training annotations.
translated by 谷歌翻译
主流人群计数方法通常利用卷积神经网络(CNN)回归密度图,需要点级注释。但是,用一点点注释每个人是一个昂贵且费力的过程。在测试阶段,未考虑点级注释来评估计数精度,这意味着点级注释是冗余的。因此,希望开发仅依赖计数级注释的弱监督计数方法,这是一种更经济的标签方式。当前的弱监督计数方法采用了CNN来通过图像计数范式回归人群的总数。但是,对于上下文建模的接受场有限是这些基于CNN的弱监督法的内在局限性。因此,在现实世界中的应用有限的情况下,这些方法无法实现令人满意的性能。变压器是自然语言处理(NLP)中流行的序列到序列预测模型,其中包含一个全球接收场。在本文中,我们提出了transercroderd,从基于变压器的序列到计数的角度来重新制定了弱监督的人群计数问题。我们观察到,所提出的译者可以使用变压器的自发机制有效地提取语义人群信息。据我们所知,这是第一项采用纯变压器进行人群计算研究的工作。五个基准数据集的实验表明,与所有基于弱的CNN的计数方法相比,所提出的transercroud的性能优于较高的性能,并且与某些流行的完全监督的计数方法相比,基于CNN的计数方法和提高了竞争激烈的计数性能。
translated by 谷歌翻译
视频人群本地化是一项至关重要但又具有挑战性的任务,旨在估算给定拥挤视频中人头的确切位置。为了模拟人类活动性的时空依赖性,我们提出了多焦点高斯邻里注意力(GNA),可以有效利用远程对应关系,同时保持输入视频的空间拓扑结构。特别是,我们的GNA还可以使用配备的多聚焦机制良好地捕获人头的尺度变化。基于多聚焦GNA,我们开发了一个名为GNANET的统一神经网络,以通过场景建模模块和上下文交叉意见模块充分聚合时空信息来准确地定位视频片段中的头部中心。此外,为了促进该领域的未来研究,我们介绍了一个名为VScrowd的大规模人群视频基准,该视频由60k+框架组成,这些框架在各种监视场景和2M+头部注释中捕获。最后,我们在包括我们的SenseCrowd在内的三个数据集上进行了广泛的实验,实验结果表明,所提出的方法能够实现视频人群本地化和计数的最新性能。
translated by 谷歌翻译
RGB-Thermal(RGB-T)人群计数是一项具有挑战性的任务,它将热图像用作与RGB图像的互补信息,以应对低弹片或类似背景的场景中单峰基于RGB的方法的降低。大多数现有方法提出了精心设计的结构,用于RGB-T人群计数中的跨模式融合。但是,这些方法在编码RGB-T图像对中编码跨模式上下文语义信息方面存在困难。考虑到上述问题,我们提出了一个称为多发意见融合网络(MAFNET)的两流RGB-T人群计数网络,该网络旨在根据注意机制完全捕获RGB和热模式中的远距离上下文信息。具体而言,在编码器部分中,多发融合(MAF)模块嵌入到全球级别的两个特定于模态分支的不同阶段中。此外,引入了多模式多尺度聚合(MMA)回归头,以充分利用跨模态的多尺度和上下文信息,以生成高质量的人群密度图。在两个受欢迎的数据集上进行的广泛实验表明,拟议的MAFNET对RGB-T人群计数有效,并实现了最新的性能。
translated by 谷歌翻译
这项工作研究了很少的对象计数的问题,该问题计算了查询图像中出现的示例对象的数量(即由一个或几个支持图像描述)。主要的挑战在于,目标对象可以密集地包装在查询图像中,从而使每个单一对象都很难识别。为了解决障碍,我们提出了一个新颖的学习块,配备了相似性比较模块和功能增强模块。具体来说,给定支持图像和查询图像,我们首先通过比较每个空间位置的投影特征来得出分数图。有关所有支持图像的得分图将共收集在一起,并在示例维度和空间维度上均标准化,从而产生可靠的相似性图。然后,我们通过使用开发的点相似性作为加权系数来增强使用支持功能的查询功能。这样的设计鼓励模型通过更多地关注类似于支持图像的区域来检查查询图像,从而导致不同对象之间的界限更加清晰。在各种基准和培训设置上进行了广泛的实验表明,我们通过足够大的边距超过了最先进的方法。例如,在最近的大规模FSC-147数据集中,我们通过将平均绝对误差从22.08提高到14.32(35%$ \ uparrow $)来超越最新方法。代码已在https://github.com/zhiyuanyou/safecount中发布。
translated by 谷歌翻译
在本文中,我们专注于人群本地化任务,这是人群分析的关键主题。大多数基于回归的方法都利用卷积神经网络(CNN)回归密度图,该密度图无法准确地定位在极度密集的场景中,这两个至关重要的原因是:1)密度图由一系列模糊的高斯斑点组成,2)密度图的致密区域中存在严重的重叠。为了解决这个问题,我们为人群本地化任务提出了一个新颖的焦点反向变换(FIDT)图。与密度图相比,FIDT地图准确地描述了人们的位置,而不会在密集区域重叠。基于FIDT地图,得出了局部Maxima-detection-Strategy(LMDS),以有效地为每个人提取中心点。此外,我们引入了独立的SSIM(I-SSIM)损失,以使模型倾向于学习局部结构信息,从而更好地识别局部最大值。广泛的实验表明,提出的方法报告在六个人群数据集和一个车辆数据集上的最先进的本地化性能。此外,我们发现所提出的方法在负面和极密密集的场景上显示出优异的鲁棒性,这进一步验证了FIDT地图的有效性。该代码和模型将在https://github.com/dk-liang/fidtm上找到。
translated by 谷歌翻译
通过丘陵形成的现场制备是一种常用的造林治疗,通过机械地创建称为丘的植物植物物质来改善树木生长条件。在现场准备之后,下一个关键步骤是计算土墩的数量,该堆积的数量为森林经理提供了对给定种植园块所需的幼苗数量的精确估计。计算土墩数量通常是通过林业工人的手动现场调查来进行的,林业工人昂贵且容易出错,尤其是在大面积地区。为了解决这个问题,我们提出了一个新颖的框架,利用无人机成像和计算机视觉的进步,以准确估计种植块上的土墩数量。提出的框架包括两个主要组件。首先,我们利用基于深度学习算法的视觉识别方法来通过基于像素的分割来进行多个对象检测。这使得可见的土墩以及其他经常看到的物体(例如树木,碎屑,水的积累)的初步计数可用于表征种植块。其次,由于视觉识别可能会受到几个扰动因子(例如丘陵侵蚀,遮挡)的限制,因此我们采用机器学习估计功能,该功能可预测基于第一阶段提取的局部块属性的最终数量。我们在新的无人机数据集上评估了所提出的框架,该数据集代表具有不同功能的众多种植块。所提出的方法在相对计数精度方面优于手动计数方法,表明它在困难情况下具有有利和有效的潜力。
translated by 谷歌翻译