主流人群计数方法通常利用卷积神经网络(CNN)回归密度图,需要点级注释。但是,用一点点注释每个人是一个昂贵且费力的过程。在测试阶段,未考虑点级注释来评估计数精度,这意味着点级注释是冗余的。因此,希望开发仅依赖计数级注释的弱监督计数方法,这是一种更经济的标签方式。当前的弱监督计数方法采用了CNN来通过图像计数范式回归人群的总数。但是,对于上下文建模的接受场有限是这些基于CNN的弱监督法的内在局限性。因此,在现实世界中的应用有限的情况下,这些方法无法实现令人满意的性能。变压器是自然语言处理(NLP)中流行的序列到序列预测模型,其中包含一个全球接收场。在本文中,我们提出了transercroderd,从基于变压器的序列到计数的角度来重新制定了弱监督的人群计数问题。我们观察到,所提出的译者可以使用变压器的自发机制有效地提取语义人群信息。据我们所知,这是第一项采用纯变压器进行人群计算研究的工作。五个基准数据集的实验表明,与所有基于弱的CNN的计数方法相比,所提出的transercroud的性能优于较高的性能,并且与某些流行的完全监督的计数方法相比,基于CNN的计数方法和提高了竞争激烈的计数性能。
translated by 谷歌翻译
在实际人群计算应用程序中,图像中的人群密度差异很大。当面对密度变化时,人类倾向于在低密度区域定位和计数目标,并推理高密度区域的数量。我们观察到,CNN使用固定大小的卷积内核专注于局部信息相关性,而变压器可以通过使用全球自我注意机制有效地提取语义人群信息。因此,CNN可以在低密度区域中准确定位和估计人群,而在高密度区域中很难正确感知密度。相反,变压器在高密度区域具有很高的可靠性,但未能在稀疏区域定位目标。 CNN或变压器都无法很好地处理这种密度变化。为了解决此问题,我们提出了一个CNN和变压器自适应选择网络(CTASNET),该网络可以自适应地为不同密度区域选择适当的计数分支。首先,CTASNET生成CNN和变压器的预测结果。然后,考虑到CNN/变压器适用于低/高密度区域,密度引导的自适应选择模块被设计为自动结合CNN和Transformer的预测。此外,为了减少注释噪声的影响,我们引入了基于Correntropy的最佳运输损失。对四个挑战的人群计数数据集进行了广泛的实验,已经验证了该方法。
translated by 谷歌翻译
近年来,人群计数研究取得了重大进展。然而,随着人群中存在具有挑战性的规模变化和复杂的场景,传统的卷积网络和最近具有固定大小的变压器架构都不能良好地处理任务。为了解决这个问题,本文提出了一个场景 - 自适应关注网络,称为Saanet。首先,我们设计了可变形的变压器骨干内的可变形关注,从而了解具有可变形采样位置和动态注意力的自适应特征表示。然后,我们提出了多级特征融合和计数专注特征增强模块,以加强全局图像上下文下的特征表示。学习的陈述可以参加前景,并适应不同的人群。我们对四个具有挑战性的人群计数基准进行广泛的实验,表明我们的方法实现了最先进的性能。特别是,我们的方法目前在NWPU-Crowd基准的公共排行榜上排名第一。我们希望我们的方法可能是一个强大的基线,以支持人群计数的未来研究。源代码将被释放到社区。
translated by 谷歌翻译
人群本地化(预测头部位置)是一项更实用,更高的任务,而不是仅仅计数。现有方法采用伪装框或预设计的本地化图,依靠复杂的后处理来获得头部位置。在本文中,我们提出了一个名为CLTR的优雅,端到端的人群本地化变压器,该变压器在基于回归的范式中解决了任务。所提出的方法将人群定位视为直接设置的预测问题,将提取的功能和可训练的嵌入作为变压器描述器的输入。为了减少模棱两可的点并产生更合理的匹配结果,我们引入了基于KMO的匈牙利匹配器,该匹配器采用附近的环境作为辅助匹配成本。在各种数据设置中在五个数据集上进行的广泛实验显示了我们方法的有效性。特别是,所提出的方法在NWPU-Crowd,UCF-QNRF和Shanghaitech a部分A部分上实现了最佳的本地化性能。
translated by 谷歌翻译
在本文中,我们专注于人群本地化任务,这是人群分析的关键主题。大多数基于回归的方法都利用卷积神经网络(CNN)回归密度图,该密度图无法准确地定位在极度密集的场景中,这两个至关重要的原因是:1)密度图由一系列模糊的高斯斑点组成,2)密度图的致密区域中存在严重的重叠。为了解决这个问题,我们为人群本地化任务提出了一个新颖的焦点反向变换(FIDT)图。与密度图相比,FIDT地图准确地描述了人们的位置,而不会在密集区域重叠。基于FIDT地图,得出了局部Maxima-detection-Strategy(LMDS),以有效地为每个人提取中心点。此外,我们引入了独立的SSIM(I-SSIM)损失,以使模型倾向于学习局部结构信息,从而更好地识别局部最大值。广泛的实验表明,提出的方法报告在六个人群数据集和一个车辆数据集上的最先进的本地化性能。此外,我们发现所提出的方法在负面和极密密集的场景上显示出优异的鲁棒性,这进一步验证了FIDT地图的有效性。该代码和模型将在https://github.com/dk-liang/fidtm上找到。
translated by 谷歌翻译
单图像人群计数是一个充满挑战的计算机视觉问题,在公共安全,城市规划,交通管理等方面进行了广泛的应用。随着深度学习技术的最新发展,近年来,人群的数量引起了很多关注并取得了巨大的成功。这项调查是为了通过系统审查和总结该地区的200多件作品来提供有关基于深度学习的人群计数技术的最新进展的全面摘要。我们的目标是提供最新的评论。在最近的方法中,并在该领域教育新研究人员的设计原理和权衡。在介绍了公开可用的数据集和评估指标之后,我们通过对三个主要的设计模块进行了详细比较来回顾最近的进展:深度神经网络设计,损失功能和监督信号。我们使用公共数据集和评估指标研究和比较方法。我们以一些未来的指示结束了调查。
translated by 谷歌翻译
人群计数是公共场所情境意识的有效工具。使用图像和视频进行自动人群计数是一个有趣但充满挑战的问题,在计算机视觉中引起了极大的关注。在过去的几年中,已经开发了各种深度学习方法来实现最先进的表现。随着时间的流逝,这些方法在许多方面发生了变化,例如模型架构,输入管道,学习范式,计算复杂性和准确性提高等。在本文中,我们对人群计数领域中最重要的贡献进行了系统和全面的评论。 。尽管对该主题的调查很少,但我们的调查是最新的,并且在几个方面都不同。首先,它通过模型体系结构,学习方法(即损失功能)和评估方法(即评估指标)对最重要的贡献进行了更有意义的分类。我们选择了杰出和独特的作品,并排除了类似的作品。我们还通过基准数据集对著名人群计数模型进行分类。我们认为,这项调查可能是新手研究人员了解随着时间的推移和当前最新技术的逐步发展和贡献的好资源。
translated by 谷歌翻译
在过去的几年中,基于卷积的神经网络(CNN)的人群计数方法已取得了有希望的结果。但是,对于准确的计数估计,量表变化问题仍然是一个巨大的挑战。在本文中,我们提出了一个多尺度特征聚合网络(MSFANET),可以在某种程度上减轻此问题。具体而言,我们的方法由两个特征聚合模块组成:短聚合(Shortagg)和Skip Contregation(Skipagg)。 Shortagg模块聚集了相邻卷积块的特征。其目的是制作具有从网络底部逐渐融合的不同接收场的功能。 Skipagg模块将具有小型接受场的特征直接传播到具有更大接收场的特征。它的目的是促进特征与大小接收场的融合。尤其是,Skipagg模块引入了Swin Transformer块中的本地自我注意力特征,以结合丰富的空间信息。此外,我们通过考虑不均匀的人群分布来提出基于局部和全球的计数损失。在四个具有挑战性的数据集(Shanghaitech数据集,UCF_CC_50数据集,UCF-QNRF数据集,WorldExpo'10数据集)上进行了广泛的实验,这表明与先前的先前的尚未实行的方法相比,提出的易于实现的MSFANET可以实现有希望的结果。
translated by 谷歌翻译
背景噪声和规模变化是人群计数中长期以来已经认识到的常见问题。人类瞥见人群的形象,立即知道人类的大概数量,以及他们通过关注的人群地区和人群地区的拥塞程度,并具有全球接收领域。因此,在本文中,我们通过对人类自上而下的视觉感知机制进行建模,提出了一个具有称为RANET的区域感知块的新型反馈网络。首先,我们介绍了一个反馈体系结构,以生成优先级地图,这些图提供了输入图像中候选人人群区域的先验。先验使Ranet更加关注人群地区。然后,我们设计了可以通过全局接受字段自适应地将上下文信息编码为输入图像的区域感知块。更具体地说,我们以列向量的形式扫描整个输入图像及其优先级图,以获得相关矩阵估计其相似性。获得的相关矩阵将用于建立像素之间的全球关系。我们的方法在几个公共数据集上优于最先进的人群计数方法。
translated by 谷歌翻译
大多数传统人群计数方法利用完全监督的学习框架来学习场景图像和人群密度映射之间的映射。在这种完全监督培训设置的情况下,需要大量昂贵且耗时的像素级注释,以产生密度图作为监控。减少昂贵标签的一种方法是利用未标记图像之间的自我结构信息和内在关系。与利用原始图像级别的这些关系和结构信息的先前方法不同,我们从潜在特征空间探讨了这种自我关系,因为它可以提取更丰富的关系和结构信息。具体而言,我们提出了S $ ^ 2 $ FPR,其可以提取结构信息,并在潜在空间中学习粗良好的金字塔特征的部分订单,以便更好地与大规模未标记的图像计数。此外,我们收集了一个新的未标记的人群计数数据集(Fudan-UCC),总共有4,000张图片进行培训。一个副产物是我们提出的S $ ^ 2 $ FPR方法可以利用未标记图像之间的潜在空间中的众多部分订单来加强模型表示能力,并减少人群计数任务的估计误差。关于四个基准数据集的大量实验,即UCF-QNRF,Shanghaitech Parta和Partb以及UCF-CC-50,与先前半监督方法相比,我们的方法显示了我们的方法。源代码和数据集可用于https://github.com/bridgeqiqi/s2fpr。
translated by 谷歌翻译
We propose a network for Congested Scene Recognition called CSRNet to provide a data-driven and deep learning method that can understand highly congested scenes and perform accurate count estimation as well as present highquality density maps. The proposed CSRNet is composed of two major components: a convolutional neural network (CNN) as the front-end for 2D feature extraction and a dilated CNN for the back-end, which uses dilated kernels to deliver larger reception fields and to replace pooling operations. CSRNet is an easy-trained model because of its pure convolutional structure. We demonstrate CSRNet on four datasets (ShanghaiTech dataset, the UCF CC 50 dataset, the WorldEXPO'10 dataset, and the UCSD dataset) and we deliver the state-of-the-art performance. In the Shang-haiTech Part B dataset, CSRNet achieves 47.3% lower Mean Absolute Error (MAE) than the previous state-of-theart method. We extend the targeted applications for counting other objects, such as the vehicle in TRANCOS dataset. Results show that CSRNet significantly improves the output quality with 15.4% lower MAE than the previous state-ofthe-art approach.
translated by 谷歌翻译
视频人群本地化是一项至关重要但又具有挑战性的任务,旨在估算给定拥挤视频中人头的确切位置。为了模拟人类活动性的时空依赖性,我们提出了多焦点高斯邻里注意力(GNA),可以有效利用远程对应关系,同时保持输入视频的空间拓扑结构。特别是,我们的GNA还可以使用配备的多聚焦机制良好地捕获人头的尺度变化。基于多聚焦GNA,我们开发了一个名为GNANET的统一神经网络,以通过场景建模模块和上下文交叉意见模块充分聚合时空信息来准确地定位视频片段中的头部中心。此外,为了促进该领域的未来研究,我们介绍了一个名为VScrowd的大规模人群视频基准,该视频由60k+框架组成,这些框架在各种监视场景和2M+头部注释中捕获。最后,我们在包括我们的SenseCrowd在内的三个数据集上进行了广泛的实验,实验结果表明,所提出的方法能够实现视频人群本地化和计数的最新性能。
translated by 谷歌翻译
人群计数旨在了解人群密度分布并估计图像中对象(例如人)的数量。观点效应显着影响数据点的分布,在人群计数中起着重要作用。在本文中,我们提出了一种新颖的视角方法,称为Panet,以解决观点问题。基于观察到,由于透视效果,对象的大小在一个图像中变化很大,我们提出了动态接收场(DRF)框架。该框架能够根据输入图像通过扩张的卷积参数来调整接收场,这有助于该模型为每个局部区域提取更具区别的特征。与以前的大多数使用高斯内核来生成密度图作为监督信息的作品不同,我们提出了自我缩减监督(SDS)培训方法。从第一个训练阶段完善了地面图密度图,并在第二阶段将视角信息提炼为模型。 shanghaitech part_a和part_b,ucf_qnrf和ucf_cc_50数据集的实验结果表明,我们的拟议锅et的表现优于最先进的方法。
translated by 谷歌翻译
This paper aims to develop a method than can accurately estimate the crowd count from an individual image with arbitrary crowd density and arbitrary perspective. To this end, we have proposed a simple but effective Multi-column Convolutional Neural Network (MCNN) architecture to map the image to its crowd density map. The proposed MCNN allows the input image to be of arbitrary size or resolution. By utilizing filters with receptive fields of different sizes, the features learned by each column CNN are adaptive to variations in people/head size due to perspective effect or image resolution. Furthermore, the true density map is computed accurately based on geometry-adaptive kernels which do not need knowing the perspective map of the input image. Since exiting crowd counting datasets do not adequately cover all the challenging situations considered in our work, we have collected and labelled a large new dataset that includes 1198 images with about 330,000 heads annotated. On this challenging new dataset, as well as all existing datasets, we conduct extensive experiments to verify the effectiveness of the proposed model and method. In particular, with the proposed simple MCNN model, our method outperforms all existing methods. In addition, experiments show that our model, once trained on one dataset, can be readily transferred to a new dataset.
translated by 谷歌翻译
视频显着对象检测模型在像素密集注释上训练有素的训练有素,已经达到了出色的性能,但获得像素逐像素注释的数据集很费力。尚未探索几项作品,试图使用涂鸦注释来缓解这个问题,但是尚未探讨点监督作为一种更节省劳动的注释方法(即使是对密集预测的手动注释方法中最多的劳动方法)。在本文中,我们提出了一个基于点监督的强基线模型。为了使用时间信息来推断显着性图,我们分别从短期和长期角度挖掘了框架间的互补信息。具体而言,我们提出了一个混合令牌注意模块,该模块将光流和图像信息从正交方向混合在一起,自适应地突出了关键的光流信息(通道维度)和关键令牌信息(空间维度)。为了利用长期提示,我们开发了长期的跨框架注意模块(LCFA),该模块有助于当前框架基于多框架代币推断出显着对象。此外,我们通过重新标记Davis和DavSod数据集来标记两个分配的数据集P-Davis和P-Davsod。六个基准数据集的实验说明了我们的方法优于先前的最先进的弱监督方法,甚至与某些完全监督的方法相当。源代码和数据集可用。
translated by 谷歌翻译
The mainstream crowd counting methods regress density map and integrate it to obtain counting results. Since the density representation to one head accords to its adjacent distribution, it embeds the same category objects with variant values, while human beings counting models the invariant features namely similarity to objects. Inspired by this, we propose a rational and anthropoid crowd counting framework. To begin with, we leverage counting scalar as supervision signal, which provides global and implicit guidance to similar matters. Then, the large kernel CNN is utilized to imitate the paradigm of human beings which models invariant knowledge firstly and slides to compare similarity. Later, re-parameterization on pre-trained paralleled parameters is presented to cater to the inner-class variance on similarity comparison. Finally, the Random Scaling patches Yield (RSY) is proposed to facilitate similarity modeling on long distance dependencies. Extensive experiments on five challenging benchmarks in crowd counting show the proposed framework achieves state-of-the-art.
translated by 谷歌翻译
RGB-Thermal(RGB-T)人群计数是一项具有挑战性的任务,它将热图像用作与RGB图像的互补信息,以应对低弹片或类似背景的场景中单峰基于RGB的方法的降低。大多数现有方法提出了精心设计的结构,用于RGB-T人群计数中的跨模式融合。但是,这些方法在编码RGB-T图像对中编码跨模式上下文语义信息方面存在困难。考虑到上述问题,我们提出了一个称为多发意见融合网络(MAFNET)的两流RGB-T人群计数网络,该网络旨在根据注意机制完全捕获RGB和热模式中的远距离上下文信息。具体而言,在编码器部分中,多发融合(MAF)模块嵌入到全球级别的两个特定于模态分支的不同阶段中。此外,引入了多模式多尺度聚合(MMA)回归头,以充分利用跨模态的多尺度和上下文信息,以生成高质量的人群密度图。在两个受欢迎的数据集上进行的广泛实验表明,拟议的MAFNET对RGB-T人群计数有效,并实现了最新的性能。
translated by 谷歌翻译
在本文中,我们提出了一种新的机构指导的半监督计数方法。首先,我们建立了一个可学习的辅助结构,即密度代理,将公认的前景区域特征带到相应的密度子类(代理)和推开背景的区域。其次,我们提出了密度引导的对比度学习损失,以巩固主链特征提取器。第三,我们通过使用变压器结构进一步完善前景特征来构建回归头。最后,提供了有效的噪声抑郁丧失,以最大程度地减少注释噪声的负面影响。对四个挑战性人群计数数据集进行的广泛实验表明,我们的方法在很大的边距中实现了与最先进的半监督计数方法相比最先进的性能。代码可用。
translated by 谷歌翻译
旨在恢复图像中影子区域的原始强度,并使它们与剩余的非阴影区域兼容,而没有跟踪,删除阴影是一个非常具有挑战性的问题,使许多下游图像/视频相关的任务受益。最近,变形金刚通过捕获全局像素相互作用来显示它们在各种应用中的强大能力,并且这种能力在删除阴影时非常可取。然而,由于以下两个原因,应用变压器促进阴影去除是非平凡的:1)修补程序操作不适用于由于不规则的阴影形状而导致阴影去除; 2)阴影去除只需要从非阴影区域到阴影区域的单向交互,而不是图像中所有像素之间的共同双向相互作用。在本文中,我们提出了一种新型的跨区域变压器,即CRFormer,用于去除阴影,它与现有变压器的不同之处仅通过考虑从非阴影区域到阴影区域的像素相互作用而不将图像分为斑块。这是通过精心设计的区域感知的跨注意操作来实现的,该操作可以汇总以非阴影区域特征为条件的恢复的阴影区域特征。与其他最先进的方法相比,关于ISTD,AISTD,SRD和视频阴影删除数据集的广泛实验证明了我们方法的优势。
translated by 谷歌翻译
指导可学习的参数优化的一种吸引人的方法,例如特征图,是全球关注,它以成本的一小部分启发了网络智能。但是,它的损失计算过程仍然很短:1)我们只能产生一维的“伪标签”,因为该过程中涉及的人工阈值不健壮; 2)等待损失计算的注意力必然是高维的,而通过卷积减少它将不可避免地引入其他可学习的参数,从而使损失的来源混淆。为此,我们设计了一个基于软磁性注意的简单但有效的间接注意力优化(IIAO)模块,该模块将高维注意图转换为数学意义上的一维功能图,以通过网络中途进行损失计算,同时自动提供自适应多尺度融合以配备金字塔模块。特殊转化产生相对粗糙的特征,最初,区域的预测性谬误性随着人群的密度分布而变化,因此我们定制区域相关损失(RCLOSS)以检索连续错误的错误区域和平滑的空间信息。广泛的实验证明,我们的方法在许多基准数据集中超过了先前的SOTA方法。
translated by 谷歌翻译