在整个智能城市中放置的相机捕获的相机捕获的图像和视频帧通常会通过网络传输到服务器,以通过深层神经网络处理各种任务。原始图像的传输,即没有任何形式的压缩,需要高带宽,并可能导致拥堵问题和传输延迟。使用有损图像压缩技术的使用可以降低图像的质量,从而导致准确性降解。在本文中,我们分析了应用低空损耗的图像压缩方法对视觉人群计数准确性的影响,并测量带宽降低和获得的准确性之间的权衡。
translated by 谷歌翻译
JPEG图像压缩算法是一种广泛使用的技术,用于降低边缘和云计算设置。但是,将这种有损压缩应用于深神网络处理的图像上,可能会导致明显的准确性降解。受课程学习范式的启发,我们提出了一种新颖的培训方法,称为课程预训练(CPT),用于人群计数压缩图像,这减轻了由于有损压缩而导致的准确性下降。我们通过对三个人群计数数据集的大量实验,两个人群计数DNN模型和各种压缩级别来验证方法的有效性。我们提出的训练方法对超参数并不过于敏感,并减少了误差,尤其是对于重压图像,最高为19.70%。
translated by 谷歌翻译
现代设备(例如智能手机,卫星和医疗设备)中的摄像机能够捕获非常高分辨率的图像和视频。这种高分辨率数据通常需要通过深度学习模型来处理癌症检测,自动化道路导航,天气预测,监视,优化农业过程和许多其他应用。使用高分辨率的图像和视频作为深度学习模型的直接输入,由于其参数数量大,计算成本,推理延迟和GPU内存消耗而造成了许多挑战。简单的方法(例如将图像调整为较低的分辨率大小)在文献中很常见,但是它们通常会显着降低准确性。文献中的几项作品提出了更好的替代方案,以应对高分辨率数据的挑战并提高准确性和速度,同时遵守硬件限制和时间限制。这项调查描述了这种高效的高分辨率深度学习方法,总结了高分辨率深度学习的现实应用程序,并提供了有关可用高分辨率数据集的全面信息。
translated by 谷歌翻译
人群计数是公共场所情境意识的有效工具。使用图像和视频进行自动人群计数是一个有趣但充满挑战的问题,在计算机视觉中引起了极大的关注。在过去的几年中,已经开发了各种深度学习方法来实现最先进的表现。随着时间的流逝,这些方法在许多方面发生了变化,例如模型架构,输入管道,学习范式,计算复杂性和准确性提高等。在本文中,我们对人群计数领域中最重要的贡献进行了系统和全面的评论。 。尽管对该主题的调查很少,但我们的调查是最新的,并且在几个方面都不同。首先,它通过模型体系结构,学习方法(即损失功能)和评估方法(即评估指标)对最重要的贡献进行了更有意义的分类。我们选择了杰出和独特的作品,并排除了类似的作品。我们还通过基准数据集对著名人群计数模型进行分类。我们认为,这项调查可能是新手研究人员了解随着时间的推移和当前最新技术的逐步发展和贡献的好资源。
translated by 谷歌翻译
将深度学习模型部署在具有有限计算资源的时间关键性应用程序中,例如在边缘计算系统和IoT网络中,是一项具有挑战性的任务,通常依赖于动态推理方法(例如早期退出)。在本文中,我们介绍了一种基于视觉变压器体系结构的新型架构,用于早期退出,以及一种微调策略,该策略与传统方法相比,在引入较少的开销的同时,显着提高了早期出口分支的准确性。通过有关图像和音频分类以及视听人群计数的广泛实验,我们表明我们的方法在分类和回归问题以及单模式设置中都适用于分类和回归问题。此外,我们引入了一种新颖的方法,用于在视听数据分析的早期出口中整合音频和视觉方式,这可能导致更细粒度的动态推断。
translated by 谷歌翻译
拆分计算已成为实现基于DNN的AI工作负载的最新范例,其中DNN模型分为两个部分,其中一个是在移动/客户端设备上执行的,另一部分是在边缘服务器(或cloud)上执行的。 。数据压缩适用于需要传输的DNN的中间张量,以应对优化速率准确性复杂性权衡的挑战。现有的拆分计算方法采用基于ML的数据压缩,但要求将整个DNN模型的参数(或其中的大部分)用于不同的压缩级别。这会产生高的计算和存储负担:训练从头开始的完整DNN模型在计算上是要求的,维持DNN参数的多个副本会增加存储要求,并在推断期间切换全套权重增加内存带宽。在本文中,我们提出了一种解决所有这些挑战的方法。它涉及瓶颈单元的系统设计和训练 - 简单,低成本的神经网络 - 可以在分裂点插入。与现有方法相比,在训练和推理期间,在训练和推理期间,高效和储存额的一小部分,我们的方法都非常轻巧。
translated by 谷歌翻译
We propose a network for Congested Scene Recognition called CSRNet to provide a data-driven and deep learning method that can understand highly congested scenes and perform accurate count estimation as well as present highquality density maps. The proposed CSRNet is composed of two major components: a convolutional neural network (CNN) as the front-end for 2D feature extraction and a dilated CNN for the back-end, which uses dilated kernels to deliver larger reception fields and to replace pooling operations. CSRNet is an easy-trained model because of its pure convolutional structure. We demonstrate CSRNet on four datasets (ShanghaiTech dataset, the UCF CC 50 dataset, the WorldEXPO'10 dataset, and the UCSD dataset) and we deliver the state-of-the-art performance. In the Shang-haiTech Part B dataset, CSRNet achieves 47.3% lower Mean Absolute Error (MAE) than the previous state-of-theart method. We extend the targeted applications for counting other objects, such as the vehicle in TRANCOS dataset. Results show that CSRNet significantly improves the output quality with 15.4% lower MAE than the previous state-ofthe-art approach.
translated by 谷歌翻译
视频编码技术已不断改进,以更高的分辨率以更高的压缩比。但是,最先进的视频编码标准(例如H.265/HEVC和多功能视频编码)仍在设计中,该假设将被人类观看。随着深度神经网络在解决计算机视觉任务方面的巨大进步和成熟,越来越多的视频通过无人参与的深度神经网络直接分析。当计算机视觉应用程序使用压缩视频时,这种传统的视频编码标准设计并不是最佳的。尽管人类视觉系统对具有高对比度的内容一直敏感,但像素对计算机视觉算法的影响是由特定的计算机视觉任务驱动的。在本文中,我们探索并总结了计算机视觉任务的视频编码和新兴视频编码标准,机器的视频编码。
translated by 谷歌翻译
This paper aims to develop a method than can accurately estimate the crowd count from an individual image with arbitrary crowd density and arbitrary perspective. To this end, we have proposed a simple but effective Multi-column Convolutional Neural Network (MCNN) architecture to map the image to its crowd density map. The proposed MCNN allows the input image to be of arbitrary size or resolution. By utilizing filters with receptive fields of different sizes, the features learned by each column CNN are adaptive to variations in people/head size due to perspective effect or image resolution. Furthermore, the true density map is computed accurately based on geometry-adaptive kernels which do not need knowing the perspective map of the input image. Since exiting crowd counting datasets do not adequately cover all the challenging situations considered in our work, we have collected and labelled a large new dataset that includes 1198 images with about 330,000 heads annotated. On this challenging new dataset, as well as all existing datasets, we conduct extensive experiments to verify the effectiveness of the proposed model and method. In particular, with the proposed simple MCNN model, our method outperforms all existing methods. In addition, experiments show that our model, once trained on one dataset, can be readily transferred to a new dataset.
translated by 谷歌翻译
大多数可用的图像数据通常以压缩格式存储,JPEG从中最广泛地存储。为了在卷积神经网络(CNN)上提供这些数据,需要进行初步解码过程才能获得RGB像素,要求高计算负载和内存使用。因此,近年来,用于处理JPEG压缩数据的CNN的设计引起了人们的关注。在大多数现有作品中,典型的CNN体​​系结构都可以通过DCT系数而不是RGB像素来促进学习。尽管它们是有效的,但其建筑变化要么提高了计算成本,要么从DCT输入中忽略了相关信息。在本文中,我们研究了为DCT输入而设计的CNN的不同方法,从而利用学习策略来通过充分利用DCT输入来降低计算复杂性。我们的实验是在Imagenet数据集上进行的。结果表明,学习如何以数据驱动的方式组合所有DCT输入比手工丢弃它们更好,并且它与减少层的结合已被证明可以有效地降低计算成本,同时保持准确性。
translated by 谷歌翻译
单图像人群计数是一个充满挑战的计算机视觉问题,在公共安全,城市规划,交通管理等方面进行了广泛的应用。随着深度学习技术的最新发展,近年来,人群的数量引起了很多关注并取得了巨大的成功。这项调查是为了通过系统审查和总结该地区的200多件作品来提供有关基于深度学习的人群计数技术的最新进展的全面摘要。我们的目标是提供最新的评论。在最近的方法中,并在该领域教育新研究人员的设计原理和权衡。在介绍了公开可用的数据集和评估指标之后,我们通过对三个主要的设计模块进行了详细比较来回顾最近的进展:深度神经网络设计,损失功能和监督信号。我们使用公共数据集和评估指标研究和比较方法。我们以一些未来的指示结束了调查。
translated by 谷歌翻译
在监控和搜索和救援应用程序中,重要的是在低端设备上实时执行多目标跟踪(MOT)。今天的MOT解决方案采用深度神经网络,往往具有高计算复杂性。识别帧大小对跟踪性能的影响,我们提出了深度,一种模型不可知框架尺寸选择方法,可在现有的全卷积网络基跟踪器之上进行操作,以加速跟踪吞吐量。在培训阶段,我们将可检测性分数纳入单次跟踪器架构,使得DeepScale以自我监督的方式学习不同帧大小的表示估计。在推理期间,它可以根据基于用户控制参数根据视觉内容的复杂性来调整帧大小。为了利用边缘服务器上的计算资源,我们提出了两个计算分区模式,即仅使用自适应帧大小传输和边缘服务器辅助跟踪仅适用于MOT,即边缘服务器。 MOT数据集的广泛实验和基准测试证明了深度的有效性和灵活性。与最先进的追踪器相比,DeepScale ++,DeepScale的变种实现1.57倍加速,仅在一个配置中的MOT15数据集上跟踪准确性。我们已经实现和评估了DeepScale ++,以及由NVIDIA JETSON TX2板和GPU服务器组成的小型测试平台上所提出的计算分区方案。实验显示与仅服务器或智能相机的解决方案相比跟踪性能和延迟之间的非琐碎权衡。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
由于其计算资源有限,在物联网和移动设备上部署深层神经网络(DNN)是一项艰巨的任务。因此,苛刻的任务通常完全被卸载到可以加速推理的边缘服务器上,但是,这也会导致沟通成本并唤起隐私问题。此外,这种方法使端设备的计算能力未使用。拆分计算是一个范式,其中DNN分为两个部分。第一部分是在终点设备上执行的,并且输出将传输到执行最终部分的边缘服务器。在这里,我们介绍动态拆分计算,其中最佳拆分位置是根据通信通道的状态动态选择的。通过使用现代DNN体系结构中已经存在的天然瓶颈,动态拆分计算避免了再培训和超参数优化,并且对DNN的最终准确性没有任何负面影响。通过广泛的实验,我们表明动态拆分计算在数据速率和服务器负载随时间变化的边缘计算环境中的推断速度更快。
translated by 谷歌翻译
Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.
translated by 谷歌翻译
Visual Place识别(VPR)是机器人平台从其车载摄像机中正确解释视觉刺激的能力,以确定其当前是否位于先前访问的位置,尽管有不同的视点,照明和外观变化。 JPEG是一种广泛使用的图像压缩标准,能够以图像清晰度为代价显着降低图像的大小。对于同时部署多个机器人平台的应用程序,必须在每个机器人之间远程传输收集的视觉数据。因此,可以采用JPEG压缩来大大减少通信渠道传输的数据量,因为可以证明使用有限的带宽为有限的带宽是一项具有挑战性的任务。然而,以前尚未研究JPEG压缩对当前VPR技术性能的影响。因此,本文对与VPR相关方案中的JPEG压缩进行了深入研究。我们在8个数据集上使用一系列已建立的VPR技术,并应用了各种压缩。我们表明,通过引入压缩,VPR性能大大降低,尤其是在较高的压缩频谱中。为了克服JPEG压缩对VPR性能的负面影响,我们提出了一个微调的CNN,该CNN针对JPEG压缩数据进行了优化,并表明其在极度压缩的JPEG图像中检测到的图像转换更加一致。
translated by 谷歌翻译
视频人群本地化是一项至关重要但又具有挑战性的任务,旨在估算给定拥挤视频中人头的确切位置。为了模拟人类活动性的时空依赖性,我们提出了多焦点高斯邻里注意力(GNA),可以有效利用远程对应关系,同时保持输入视频的空间拓扑结构。特别是,我们的GNA还可以使用配备的多聚焦机制良好地捕获人头的尺度变化。基于多聚焦GNA,我们开发了一个名为GNANET的统一神经网络,以通过场景建模模块和上下文交叉意见模块充分聚合时空信息来准确地定位视频片段中的头部中心。此外,为了促进该领域的未来研究,我们介绍了一个名为VScrowd的大规模人群视频基准,该视频由60k+框架组成,这些框架在各种监视场景和2M+头部注释中捕获。最后,我们在包括我们的SenseCrowd在内的三个数据集上进行了广泛的实验,实验结果表明,所提出的方法能够实现视频人群本地化和计数的最新性能。
translated by 谷歌翻译
在这项工作中,我们呈现了DCC(更深层兼容的压缩),用于实时无人机的辅助边缘辅助视频分析的一个启用技术,内置于现有编解码器之上。DCC解决了一个重要的技术问题,以将流动的视频从无人机压缩到边缘,而不会严格地在边缘执行的视频分析任务的准确性和及时性。DCC通过流式视频中的每一位对视频分析同样有价值,这是对视频分析的同样有价值,这在传统的分析透视技术编解码器技术上打开了新的压缩室。我们利用特定的无人机的上下文和中级提示,从物体检测中追求保留分析质量所需的自适应保真度。我们在一个展示车辆检测应用中有原型DCC,并验证了其代表方案的效率。DCC通过基线方法减少9.5倍,在最先进的检测精度上,19-683%的速度减少了9.5倍。
translated by 谷歌翻译
各种图形渲染和处理操作需要深度图。当在分布式系统中执行此类操作时,经常需要深度图流量流,并且在大多数情况下需要快速执行压缩,这就是为什么经常使用视频编解码器的原因。标准视频编解码器的硬件实现甚至可以在资源约束的设备上实现相对较高的分辨率和帧率组合,但是不幸的是,这些实现当前不支持RGB+深度扩展。但是,它们可以通过将深度图填充到RGB或YUV框架中来用于深度压缩。我们使用深度图包装的组合研究深度图压缩,然后使用标准视频编解码器进行编码。我们表明,深度图被包装的精度对由包装方案的组合和限制性压缩造成的误差产生了巨大而无处不在的影响。因此,我们提出了一个由神经网络模型辅助的可变精度包装方案,该模型可以预测给定比特率约束的每个深度图的最佳精度。我们证明该模型的产生几乎最佳的预测,并且可以将其集成到具有现代硬件的高架开销的游戏引擎中。
translated by 谷歌翻译
单像超分辨率可以在需要可靠的视觉流以监视任务,处理远程操作或研究相关视觉细节的环境中支持机器人任务。在这项工作中,我们为实时超级分辨率提出了一个有效的生成对抗网络模型。我们采用了原始SRGAN的量身定制体系结构和模型量化,以提高CPU和Edge TPU设备上的执行,最多达到200 fps的推断。我们通过将其知识提炼成较小版本的网络,进一步优化我们的模型,并与标准培训方法相比获得显着的改进。我们的实验表明,与较重的最新模型相比,我们的快速和轻量级模型可保持相当令人满意的图像质量。最后,我们对图像传输进行带宽降解的实验,以突出提出的移动机器人应用系统的优势。
translated by 谷歌翻译