在本文中,我们建议采用高斯地图表示来估计3D表面特征的精确位置和计数,基于在存在局部干扰的情况下挣扎的密度估计来解决最先进方法的限制。高斯地图表示可能的对象位置,可以直接从keypoint注释生成避免费力且昂贵的每像素注释。我们将该方法应用于可以投射到2D形状表示的3D球面类对象,该模拟能够通过神经网络GNet的有效处理,改进的UNET架构,这产生了表面特征的可能位置及其精确计数。我们证明了这种技术对数替代的果实质量措施计算了这种技术的实际用途。培训拟议系统的结果从公共可公共数据集培训了几百次3D扫描草莓的3D扫描展示了系统的准确性和精度,这优于本申请的最先进的基于密度的方法。
translated by 谷歌翻译
农业部门的自动化和机器人被视为该行业面临的社会经济挑战的可行解决方案。该技术经常依赖于提供有关作物,植物和整个环境的信息的智能感知系统。传统的2D视觉系统面临的挑战可以由现代3D视觉系统解决,使物体,尺寸和形状估计的直接定位或闭塞的处理能够。到目前为止,使用3D感测主要限于室内或结构化环境。在本文中,我们评估了现代传感技术,包括立体声和飞行时间摄像机,用于在农业中的形状的3D感知,并根据其形状从背景中分割软果实的可用性。为此,我们提出了一种新颖的3D深度神经网络,其利用来自基于相机的3D传感器的信息的有组织性质。与最先进的3D网络相比,我们展示了所提出的体系结构的卓越性能和效率。通过模拟研究,我们还显示了农业中对象分割的3D感测范例的潜力,并提供了洞察力和分析所需的形状质量和预期作物的进一步分析。这项工作的结果应该鼓励研究人员和公司开发更准确和强大的3D传感技术,以确保他们在实际农业应用中更广泛的采用。
translated by 谷歌翻译
人群计数是公共场所情境意识的有效工具。使用图像和视频进行自动人群计数是一个有趣但充满挑战的问题,在计算机视觉中引起了极大的关注。在过去的几年中,已经开发了各种深度学习方法来实现最先进的表现。随着时间的流逝,这些方法在许多方面发生了变化,例如模型架构,输入管道,学习范式,计算复杂性和准确性提高等。在本文中,我们对人群计数领域中最重要的贡献进行了系统和全面的评论。 。尽管对该主题的调查很少,但我们的调查是最新的,并且在几个方面都不同。首先,它通过模型体系结构,学习方法(即损失功能)和评估方法(即评估指标)对最重要的贡献进行了更有意义的分类。我们选择了杰出和独特的作品,并排除了类似的作品。我们还通过基准数据集对著名人群计数模型进行分类。我们认为,这项调查可能是新手研究人员了解随着时间的推移和当前最新技术的逐步发展和贡献的好资源。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
We propose a network for Congested Scene Recognition called CSRNet to provide a data-driven and deep learning method that can understand highly congested scenes and perform accurate count estimation as well as present highquality density maps. The proposed CSRNet is composed of two major components: a convolutional neural network (CNN) as the front-end for 2D feature extraction and a dilated CNN for the back-end, which uses dilated kernels to deliver larger reception fields and to replace pooling operations. CSRNet is an easy-trained model because of its pure convolutional structure. We demonstrate CSRNet on four datasets (ShanghaiTech dataset, the UCF CC 50 dataset, the WorldEXPO'10 dataset, and the UCSD dataset) and we deliver the state-of-the-art performance. In the Shang-haiTech Part B dataset, CSRNet achieves 47.3% lower Mean Absolute Error (MAE) than the previous state-of-theart method. We extend the targeted applications for counting other objects, such as the vehicle in TRANCOS dataset. Results show that CSRNet significantly improves the output quality with 15.4% lower MAE than the previous state-ofthe-art approach.
translated by 谷歌翻译
Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.
translated by 谷歌翻译
在本文中,我们专注于人群本地化任务,这是人群分析的关键主题。大多数基于回归的方法都利用卷积神经网络(CNN)回归密度图,该密度图无法准确地定位在极度密集的场景中,这两个至关重要的原因是:1)密度图由一系列模糊的高斯斑点组成,2)密度图的致密区域中存在严重的重叠。为了解决这个问题,我们为人群本地化任务提出了一个新颖的焦点反向变换(FIDT)图。与密度图相比,FIDT地图准确地描述了人们的位置,而不会在密集区域重叠。基于FIDT地图,得出了局部Maxima-detection-Strategy(LMDS),以有效地为每个人提取中心点。此外,我们引入了独立的SSIM(I-SSIM)损失,以使模型倾向于学习局部结构信息,从而更好地识别局部最大值。广泛的实验表明,提出的方法报告在六个人群数据集和一个车辆数据集上的最先进的本地化性能。此外,我们发现所提出的方法在负面和极密密集的场景上显示出优异的鲁棒性,这进一步验证了FIDT地图的有效性。该代码和模型将在https://github.com/dk-liang/fidtm上找到。
translated by 谷歌翻译
人群计数旨在了解人群密度分布并估计图像中对象(例如人)的数量。观点效应显着影响数据点的分布,在人群计数中起着重要作用。在本文中,我们提出了一种新颖的视角方法,称为Panet,以解决观点问题。基于观察到,由于透视效果,对象的大小在一个图像中变化很大,我们提出了动态接收场(DRF)框架。该框架能够根据输入图像通过扩张的卷积参数来调整接收场,这有助于该模型为每个局部区域提取更具区别的特征。与以前的大多数使用高斯内核来生成密度图作为监督信息的作品不同,我们提出了自我缩减监督(SDS)培训方法。从第一个训练阶段完善了地面图密度图,并在第二阶段将视角信息提炼为模型。 shanghaitech part_a和part_b,ucf_qnrf和ucf_cc_50数据集的实验结果表明,我们的拟议锅et的表现优于最先进的方法。
translated by 谷歌翻译
单图像人群计数是一个充满挑战的计算机视觉问题,在公共安全,城市规划,交通管理等方面进行了广泛的应用。随着深度学习技术的最新发展,近年来,人群的数量引起了很多关注并取得了巨大的成功。这项调查是为了通过系统审查和总结该地区的200多件作品来提供有关基于深度学习的人群计数技术的最新进展的全面摘要。我们的目标是提供最新的评论。在最近的方法中,并在该领域教育新研究人员的设计原理和权衡。在介绍了公开可用的数据集和评估指标之后,我们通过对三个主要的设计模块进行了详细比较来回顾最近的进展:深度神经网络设计,损失功能和监督信号。我们使用公共数据集和评估指标研究和比较方法。我们以一些未来的指示结束了调查。
translated by 谷歌翻译
全景图像可以同时展示周围环境的完整信息,并且在虚拟旅游,游戏,机器人技术等方面具有许多优势。但是,全景深度估计的进度无法完全解决由常用的投射方法引起的失真和不连续性问题。本文提出了SphereDepth,这是一种新型的全景深度估计方法,该方法可直接预测球形网格的深度而无需投影预处理。核心思想是建立全景图像与球形网格之间的关系,然后使用深层神经网络在球形域上提取特征以预测深度。为了解决高分辨率全景数据带来的效率挑战,我们介绍了两个超参数,以平衡推理速度和准确性。在三个公共全景数据集中验证,SphereDepth通过全景深度估算的最新方法实现了可比的结果。从球形域设置中受益,球形部可以产生高质量的点云,并显着缓解失真和不连续性问题。
translated by 谷歌翻译
We develop a Synthetic Fusion Pyramid Network (SPF-Net) with a scale-aware loss function design for accurate crowd counting. Existing crowd-counting methods assume that the training annotation points were accurate and thus ignore the fact that noisy annotations can lead to large model-learning bias and counting error, especially for counting highly dense crowds that appear far away. To the best of our knowledge, this work is the first to properly handle such noise at multiple scales in end-to-end loss design and thus push the crowd counting state-of-the-art. We model the noise of crowd annotation points as a Gaussian and derive the crowd probability density map from the input image. We then approximate the joint distribution of crowd density maps with the full covariance of multiple scales and derive a low-rank approximation for tractability and efficient implementation. The derived scale-aware loss function is used to train the SPF-Net. We show that it outperforms various loss functions on four public datasets: UCF-QNRF, UCF CC 50, NWPU and ShanghaiTech A-B datasets. The proposed SPF-Net can accurately predict the locations of people in the crowd, despite training on noisy training annotations.
translated by 谷歌翻译
前所未有的访问多时间卫星图像,为各种地球观察任务开辟了新的视角。其中,农业包裹的像素精确的Panoptic分割具有重大的经济和环境影响。虽然研究人员对单张图像进行了探索了这个问题,但我们争辩说,随着图像的时间序列更好地寻址作物候选的复杂时间模式。在本文中,我们介绍了卫星图像时间序列(坐着)的Panoptic分割的第一端到端,单级方法(坐姿)。该模块可以与我们的新型图像序列编码网络相结合,依赖于时间自我关注,以提取丰富和自适应的多尺度时空特征。我们还介绍了Pastis,第一个开放式访问坐在Panoptic注释的数据集。我们展示了对多个竞争架构的语义细分的编码器的优越性,并建立了坐在的第一封Panoptic细分状态。我们的实施和痛苦是公开的。
translated by 谷歌翻译
360 {\ deg}场景中基于图像的显着对象检测(ISOD)对于理解和应用全景信息非常重要。但是,由于缺乏大型,复杂,高分辨率且标记良好的数据集,对360 {\ deg} ISOD的研究尚未被广泛探索。为此,我们构建了一个大型360 {\ deg} ISOD数据集,具有对象级像素的依次投影(ERP),其中包含不少于2K分辨率的丰富全景场景,并且是360 {最大的数据集,是最大的数据集{ \ deg} ISOD据我们所知。通过观察数据,我们发现当前的方法在全景方案中面临三个重大挑战:不同的失真度,不连续的边缘效应和可变的对象量表。受到人类观察过程的启发,我们提出了一种基于样本自适应视图变压器(SAVT)模块的视图显着对象检测方法,并带有两个子模块,以减轻这些问题。具体而言,子模块视图变压器(VT)基于不同种类的变换,在不同视图下学习各种特征,并增强模型的变形,边缘效果和对象量表的特征耐受性。此外,亚模块样品自适应融合(SAF)是根据各种样品特征调整不同变换分支的权重,并使转换的增强功能更适当地融合。 20种最先进的ISOD方法的基准结果表明,构造的数据集非常具有挑战性。此外,详尽的实验验证了所提出的方法是实际的,并且表现优于最先进的方法。
translated by 谷歌翻译
Applications in the field of augmented reality or robotics often require joint localisation and 6D pose estimation of multiple objects. However, most algorithms need one network per object class to be trained in order to provide the best results. Analysing all visible objects demands multiple inferences, which is memory and time-consuming. We present a new single-stage architecture called CASAPose that determines 2D-3D correspondences for pose estimation of multiple different objects in RGB images in one pass. It is fast and memory efficient, and achieves high accuracy for multiple objects by exploiting the output of a semantic segmentation decoder as control input to a keypoint recognition decoder via local class-adaptive normalisation. Our new differentiable regression of keypoint locations significantly contributes to a faster closing of the domain gap between real test and synthetic training data. We apply segmentation-aware convolutions and upsampling operations to increase the focus inside the object mask and to reduce mutual interference of occluding objects. For each inserted object, the network grows by only one output segmentation map and a negligible number of parameters. We outperform state-of-the-art approaches in challenging multi-object scenes with inter-object occlusion and synthetic training.
translated by 谷歌翻译
点云的Panoptic分割是一种重要的任务,使自动车辆能够使用高精度可靠的激光雷达传感器来理解其附近。现有的自上而下方法通过将独立的任务特定网络或转换方法从图像域转换为忽略激光雷达数据的复杂性,因此通常会导致次优性性能来解决这个问题。在本文中,我们提出了新的自上而下的高效激光乐光线分割(有效的LID)架构,该架构解决了分段激光雷达云中的多种挑战,包括距离依赖性稀疏性,严重的闭塞,大规模变化和重新投影误差。高效地板包括一种新型共享骨干,可以通过加强的几何变换建模容量进行编码,并聚合语义丰富的范围感知多尺度特征。它结合了新的不变语义和实例分段头以及由我们提出的Panoptic外围损耗功能监督的Panoptic Fusion模块。此外,我们制定了正则化的伪标签框架,通过对未标记数据的培训进行进一步提高高效性的性能。我们在两个大型LIDAR数据集中建议模型基准:NUSCENES,我们还提供了地面真相注释和Semantickitti。值得注意的是,高效地将在两个数据集上设置新的最先进状态。
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译
在实际人群计算应用程序中,图像中的人群密度差异很大。当面对密度变化时,人类倾向于在低密度区域定位和计数目标,并推理高密度区域的数量。我们观察到,CNN使用固定大小的卷积内核专注于局部信息相关性,而变压器可以通过使用全球自我注意机制有效地提取语义人群信息。因此,CNN可以在低密度区域中准确定位和估计人群,而在高密度区域中很难正确感知密度。相反,变压器在高密度区域具有很高的可靠性,但未能在稀疏区域定位目标。 CNN或变压器都无法很好地处理这种密度变化。为了解决此问题,我们提出了一个CNN和变压器自适应选择网络(CTASNET),该网络可以自适应地为不同密度区域选择适当的计数分支。首先,CTASNET生成CNN和变压器的预测结果。然后,考虑到CNN/变压器适用于低/高密度区域,密度引导的自适应选择模块被设计为自动结合CNN和Transformer的预测。此外,为了减少注释噪声的影响,我们引入了基于Correntropy的最佳运输损失。对四个挑战的人群计数数据集进行了广泛的实验,已经验证了该方法。
translated by 谷歌翻译
我们介绍了一种新颖的深度学习方法,用于使用高分辨率的多光谱空中图像在城市环境中检测单个树木。我们使用卷积神经网络来回归一个置信图,指示单个树的位置,该位置是使用峰查找算法本地化的。我们的方法通过检测公共和私人空间中的树木来提供完整的空间覆盖范围,并可以扩展到很大的区域。在我们的研究区域,跨越南加州的五个城市,我们的F评分为0.735,RMSE为2.157 m。我们使用我们的方法在加利福尼亚城市森林中生产所有树木的地图,这表明我们有可能在前所未有的尺度上支持未来的城市林业研究。
translated by 谷歌翻译
本文侧重于改善基于人群计数的最近的即插即用补丁重新分校模块(PRM)方法。为了充分利用PRM潜力,并获得更具可靠和准确的结果,以满足人群变异,大的视角,极端闭塞和杂乱的背景区域,我们提出了一种基于PRM的多分辨率和多任务人群通过利用更多有效性和效力来计算网络来计算网络。所提出的模型由三个深层分支组成,每个分支都会生成不同分辨率的特征图。这些分支机构互相执行特征级融合,以构建用于最终人群估计的重要集体知识。此外,早期的特征图会经受视觉注意力,以加强对前景地区的后期频道的理解。与PRM模块的这些深度分支的整合和早期的块通过四个基准数据集上的广泛数值和视觉评估而比原始的PRM基础级更有效。拟议的方法在RMSE评估标准方面产生了12.6%的余量。它还优于跨数据集评估中的最先进的方法。
translated by 谷歌翻译
当代掌握检测方法采用深度学习,实现传感器和物体模型不确定性的鲁棒性。这两个主导的方法设计了掌握质量评分或基于锚的掌握识别网络。本文通过将其视为图像空间中的关键点检测来掌握掌握检测的不同方法。深网络检测每个掌握候选者作为一对关键点,可转换为掌握代表= {x,y,w,{\ theta}} t,而不是转角点的三态或四重奏。通过将关键点分组成对来降低检测难度提高性能。为了促进捕获关键点之间的依赖关系,将非本地模块结合到网络设计中。基于离散和连续定向预测的最终过滤策略消除了错误的对应关系,并进一步提高了掌握检测性能。此处提出的方法GKNET在康奈尔和伸缩的提花数据集上的精度和速度之间实现了良好的平衡(在41.67和23.26 fps的96.9%和98.39%)之间。操纵器上的后续实验使用4种类型的抓取实验来评估GKNet,反映不同滋扰的速度:静态抓握,动态抓握,在各种相机角度抓住,夹住。 GKNet优于静态和动态掌握实验中的参考基线,同时表现出变化的相机观点和中度杂波的稳健性。结果证实了掌握关键点是深度掌握网络的有效输出表示的假设,为预期的滋扰因素提供鲁棒性。
translated by 谷歌翻译