th骨海星(COTS)爆发是大屏障礁(GBR)珊瑚损失的主要原因,并且正在进行实质性的监视和控制计划,以将COTS人群管理至生态可持续的水平。在本文中,我们在边缘设备上介绍了基于水下的水下数据收集和策展系统,以进行COTS监视。特别是,我们利用了基于深度学习的对象检测技术的功能,并提出了一种资源有效的COTS检测器,该检测器在边缘设备上执行检测推断,以帮助海上专家在数据收集阶段进行COTS识别。初步结果表明,可以将改善计算效率的几种策略(例如,批处理处理,帧跳过,模型输入大小)组合在一起,以在Edge硬件上运行拟议的检测模型,资源消耗较低,信息损失较低。
translated by 谷歌翻译
在监控和搜索和救援应用程序中,重要的是在低端设备上实时执行多目标跟踪(MOT)。今天的MOT解决方案采用深度神经网络,往往具有高计算复杂性。识别帧大小对跟踪性能的影响,我们提出了深度,一种模型不可知框架尺寸选择方法,可在现有的全卷积网络基跟踪器之上进行操作,以加速跟踪吞吐量。在培训阶段,我们将可检测性分数纳入单次跟踪器架构,使得DeepScale以自我监督的方式学习不同帧大小的表示估计。在推理期间,它可以根据基于用户控制参数根据视觉内容的复杂性来调整帧大小。为了利用边缘服务器上的计算资源,我们提出了两个计算分区模式,即仅使用自适应帧大小传输和边缘服务器辅助跟踪仅适用于MOT,即边缘服务器。 MOT数据集的广泛实验和基准测试证明了深度的有效性和灵活性。与最先进的追踪器相比,DeepScale ++,DeepScale的变种实现1.57倍加速,仅在一个配置中的MOT15数据集上跟踪准确性。我们已经实现和评估了DeepScale ++,以及由NVIDIA JETSON TX2板和GPU服务器组成的小型测试平台上所提出的计算分区方案。实验显示与仅服务器或智能相机的解决方案相比跟踪性能和延迟之间的非琐碎权衡。
translated by 谷歌翻译
已经提出了高效和自适应计算机视觉系统以使计算机视觉任务,例如图像分类和对象检测,针对嵌入或移动设备进行了优化。这些解决方案最近的起源,专注于通过设计具有近似旋钮的自适应系统来优化模型(深神经网络,DNN)或系统。尽管最近的几项努力,但我们表明现有解决方案遭受了两个主要缺点。首先,系统不考虑模型的能量消耗,同时在制定要运行的模型的决定时。其次,由于其他共同居民工作负载,评估不考虑设备上的争用的实际情况。在这项工作中,我们提出了一种高效和自适应的视频对象检测系统,这是联合优化的精度,能量效率和延迟。底层Virtuoso是一个多分支执行内核,它能够在精度 - 能量 - 延迟轴上的不同运行点处运行,以及轻量级运行时调度程序,以选择最佳的执行分支以满足用户要求。要与Virtuoso相当比较,我们基准于15件最先进的或广泛使用的协议,包括更快的R-CNN(FRCNN),YOLO V3,SSD,培训台,SELSA,MEGA,REPP,FastAdapt和我们的内部FRCNN +,YOLO +,SSD +和高效+(我们的变体具有增强的手机效率)的自适应变体。通过这种全面的基准,Virtuoso对所有上述协议显示出优势,在NVIDIA Jetson Mobile GPU上的每一项效率水平上引领精度边界。具体而言,Virtuoso的准确性为63.9%,比一些流行的物体检测模型高于10%,51.1%,yolo为49.5%。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
Insects are the most important global pollinator of crops and play a key role in maintaining the sustainability of natural ecosystems. Insect pollination monitoring and management are therefore essential for improving crop production and food security. Computer vision facilitated pollinator monitoring can intensify data collection over what is feasible using manual approaches. The new data it generates may provide a detailed understanding of insect distributions and facilitate fine-grained analysis sufficient to predict their pollination efficacy and underpin precision pollination. Current computer vision facilitated insect tracking in complex outdoor environments is restricted in spatial coverage and often constrained to a single insect species. This limits its relevance to agriculture. Therefore, in this article we introduce a novel system to facilitate markerless data capture for insect counting, insect motion tracking, behaviour analysis and pollination prediction across large agricultural areas. Our system is comprised of edge computing multi-point video recording, offline automated multispecies insect counting, tracking and behavioural analysis. We implement and test our system on a commercial berry farm to demonstrate its capabilities. Our system successfully tracked four insect varieties, at nine monitoring stations within polytunnels, obtaining an F-score above 0.8 for each variety. The system enabled calculation of key metrics to assess the relative pollination impact of each insect variety. With this technological advancement, detailed, ongoing data collection for precision pollination becomes achievable. This is important to inform growers and apiarists managing crop pollination, as it allows data-driven decisions to be made to improve food production and food security.
translated by 谷歌翻译
荆棘冠的海星(婴儿床)爆发是珊瑚损失的主要原因是巨大的障碍礁(GBR),并且正在进行大量监测和控制计划,以试图管理生态可持续水平的COTS群体。我们释放了GBR上的COTS爆发区域的大规模注释的水下图像数据集,以鼓励机器学习和AI驱动技术的研究,以改善珊瑚礁秤上的COTS群体的检测,监测和管理。该数据集发布并托管在一次竞争中,挑战国际机器学习界,并从这些水下图像中的COTS检测的任务挑战。
translated by 谷歌翻译
自动检测飞行无人机是一个关键问题,其存在(特别是未经授权)可以造成风险的情况或损害安全性。在这里,我们设计和评估了多传感器无人机检测系统。结合常见的摄像机和麦克风传感器,我们探索了热红外摄像机的使用,指出是一种可行且有希望的解决方案,在相关文献中几乎没有解决。我们的解决方案还集成了鱼眼相机,以监视天空的更大部分,并将其他摄像机转向感兴趣的对象。传感溶液与ADS-B接收器,GPS接收器和雷达模块相辅相成,尽管由于其有限的检测范围,后者未包含在我们的最终部署中。即使此处使用的摄像机的分辨率较低,热摄像机也被证明是与摄像机一样好的可行解决方案。我们作品的另外两个新颖性是创建一个新的公共数据集的多传感器注释数据,该数据与现有的类别相比扩大了类的数量,以及对探测器性能的研究作为传感器到传感器的函数的研究目标距离。还探索了传感器融合,表明可以以这种方式使系统更强大,从而减轻对单个传感器的虚假检测
translated by 谷歌翻译
自动许可板识别系统旨在提供从视频帧中出现的车辆检测,本地化和识别车牌字符的解决方案。但是,在现实世界中部署此类系统需要在低资源环境中实时性能。在我们的论文中,我们提出了一种双级检测管线与视觉API配对,提供实时推理速度以及始终如一的准确检测和识别性能。我们使用Haar-Cascade分类器作为骨干MobileNet SSDv2检测模型顶部的过滤器。这仅通过专注于高置信度检测并使用它们来识别来减少推理时间。我们还施加了一个时间帧分离策略,以区分同一夹子中的多个车辆牌照。此外,没有公开的Bangla许可证板数据集,我们创建了一个图像数据集和野外包含许可板的视频数据集。我们在图像数据集上培训了模型,并达到了86%的AP(0.5)得分,并在视频数据集上测试了我们的管道,并观察到合理的检测和识别性能(82.7%的检测率,60.8%OCR F1得分)具有真实 - 时间处理速度(每秒27.2帧)。
translated by 谷歌翻译
最近的多目标跟踪(MOT)系统利用高精度的对象探测器;然而,培训这种探测器需要大量标记的数据。虽然这种数据广泛适用于人类和车辆,但其他动物物种显着稀缺。我们目前稳健的置信跟踪(RCT),一种算法,旨在保持鲁棒性能,即使检测质量差。与丢弃检测置信信息的先前方法相比,RCT采用基本上不同的方法,依赖于精确的检测置信度值来初始化曲目,扩展轨道和滤波器轨道。特别地,RCT能够通过有效地使用低置信度检测(以及单个物体跟踪器)来最小化身份切换,以保持对象的连续轨道。为了评估在存在不可靠的检测中的跟踪器,我们提出了一个挑战的现实世界水下鱼跟踪数据集,Fishtrac。在对FISHTRAC以及UA-DETRAC数据集的评估中,我们发现RCT在提供不完美的检测时优于其他算法,包括最先进的深单和多目标跟踪器以及更经典的方法。具体而言,RCT具有跨越方法的最佳平均热量,可以成功返回所有序列的结果,并且具有比其他方法更少的身份交换机。
translated by 谷歌翻译
视频分析系统批判性地依赖于摄像机,捕获高质量的视频帧,以实现高分辨率的精度。虽然现代视频摄像机经常暴露数十个可配置的参数设置,但是可以通过最终用户设置的,但今天监控摄像机的部署通常使用固定的一组参数设置,因为最终用户缺少能够重新配置这些参数的技能或理解。在本文中,我们首先表明,在典型的监视摄像机部署中,环境条件变化可能会显着影响人员检测,面部检测和面部识别等分析单元的准确性,以及如何通过动态调整相机设置来减轻这种不利影响。然后我们提出了Camtuner,这是一个可以轻松应用于现有视频分析管道(VAP)的框架,以实现复杂相机设置的自动和动态调整,以改变环境条件,并自主优化VAP中分析单元(AU)的准确性。 Camtuner基于Sarsa加固学习(RL),它包含两种新型组件:轻量级分析质量估算器和虚拟相机。 Camtuner在一个具有轴监控摄像头的系统中实现,几个VAP(具有各种AUS),在机场入口处加工了日常客户视频。我们的评估表明Camtuner可以快速适应更改环境。我们将Camtuner与使用静态相机设置的两种替代方法进行比较,或者每小时手动更改摄像机设置的草兵方法(基于人类对质量)。我们观察到,对于面部检测和人检测AU,与两种方法中最好的相比,Camtuner分别可以获得高达13.8%和9.2%的更高的准确性(两个AUS的8%的平均提高)。
translated by 谷歌翻译
本研究专注于评估智能和安全车辆系统的热对象检测的实时性能,通过在GPU和单板边缘GPU计算平台上部署训练有素的网络进行车载汽车传感器套件测试。在充满挑战的天气和环境场景中,获取,加工和开放,包括具有> 35,000个不同框架的新型大规模热数据集。 DataSet是从丢失的成本且有效的未加工的LWIR热敏摄像机,安装独立和电动车辆中的记录,以最大限度地减少机械振动。最先进的YOLO-V5网络变体使用四个不同的公共数据集进行培训,也可以通过采用SGD优化器来实现DNN的最佳通用的本地数据集。培训网络的有效性在广泛的测试数据上使用了各种定量度量来验证,包括精度,召回曲线,平均精度和每秒帧。使用规特相关推理加速器进一步优化YOLO的较小网络变体,明确提高每秒速率的帧。在低功率边缘设备上测试时,优化的网络引擎在低功耗边缘设备上测试时,每秒速率增加3.5倍。在NVIDIA Jetson Nano和60 fps上的NVIDIA Xavier NX Development Landls上实现了11个FPS。
translated by 谷歌翻译
边缘计算广泛用于视频分析。为了减轻准确性和成本之间的固有张力,已经提出了各种视频分析管道,以优化GPU在边缘节点上的使用。但是,我们发现,由于视频内容的变化,在管道的不同位置的视频内容变化,亚次采样和过滤,因此为边缘节点提供的GPU计算资源通常被低估了。与模型和管道优化相反,在这项工作中,我们使用非确定性和分散的闲置GPU资源研究了机会数据增强的问题。具体而言,我们提出了一个特定于任务的歧视和增强模块以及一种模型感知的对抗性训练机制,提供了一种以准确有效的方式识别和转换特定于视频管道的低质量图像的方法。在延迟和GPU资源限制下,进一步开发了多个EXIT模型结构和资源感知调度程序,以做出在线增强决策和细粒度的执行。多个视频分析管道和数据集的实验表明,通过明智地分配少量的空闲资源,这些框架上倾向于通过增强而产生更大的边际收益,我们的系统将DNN对象检测准确性提高了7.3-11.3 \%,而不会产生任何潜行成本。
translated by 谷歌翻译
结构螺栓是在不同结构元件中使用的关键部件,例如光束柱连接和摩擦阻尼装置。结构螺栓中的夹紧力受到螺栓旋转的高度影响。关于螺栓旋转估计的大部分基于视觉的研究依赖于传统的计算机视觉算法,例如Hough变换以评估螺栓的静态图像。这需要仔细的图像预处理,并且在复杂的螺栓组件的情况下或在周围的物体和背景噪声存在下可能无法表现良好,从而阻碍了其现实世界的应用。在本研究中,提出了一种集成的实时检测轨迹方法,即RTDT-BOLT,以监测螺栓旋转角度。首先,建立并培训基于基于yolov3-tiny的基于yolov3-tiny的对象检测器以定位结构螺栓。然后,实现基于光流的目标无目标物体跟踪算法,以连续监测和量化结构螺栓的旋转。为了提高跟踪性能和跟踪期间的潜在照明改变,yolov3-tiny与光流跟踪算法集成在跟踪丢失时重新检测螺栓。进行广泛的参数研究以确定最佳的跟踪性能并检查潜在的限制。结果表明RTDT - 螺栓方法可以大大提高螺栓旋转的跟踪性能,这可以使用参数推荐范围实现超过90%的精度。
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
基于DNN的视频对象检测(VOD)为自动驾驶和视频监视行业提供了重要的重要性和有希望的机会。但是,由于其实用性,可行性和强大的攻击效果,对抗贴片攻击在现场视觉任务中产生了巨大的关注。这项工作提出了Themis,这是一种软件/硬件系统,可防止对抗贴片,以实时稳健的视频对象检测。我们观察到,对抗斑块在具有非稳定预测的小区域中表现出极为局部的表面特征,因此提出了对抗区域检测算法,以消除对抗性效应。Themis还提出了一种系统的设计,以通过消除冗余计算和记忆运输来有效地支持该算法。实验结果表明,提出的方法可以有效地从可忽略的硬件开销中从对抗性攻击中恢复系统。
translated by 谷歌翻译
在此演示论文中,我们设计和原型Rhythmedge是一种低成本,基于深度学习的无接触系统,用于常规的HR监控应用。通过促进无接触性质,实时/离线操作,廉价和可用的传感组件以及计算设备,节奏对现有方法的好处。我们的Rhythmedge系统是可移植的,可以轻松部署,以在中等控制的室内或室外环境中可靠的人力资源估计。 Rhythmedge通过检测面部视频(远程光摄影学; RPPG)的血量变化来测量人力资源,并使用现成的市售资源可限制的边缘平台和摄像机进行即时评估。我们通过将Rhythmedge的可伸缩性,灵活性和兼容性部署到不同的体系结构的三个资源约束平台上(Nvidia Jetson Nano,Google Coral Development Board,Raspberry Pi)和三个异质摄像机,可与不同的体系结构进行部署,并证明了Rhythmedge的可伸缩性和兼容性。摄像头,动作摄像头和DSLR)。 Rhythmedge进一步存储纵向心血管信息,并为用户提供即时通知。我们通过分析其运行时,内存和功率使用情况来彻底测试三个边缘计算平台的原型稳定性,延迟和可行性。
translated by 谷歌翻译
Detecting persons in images or video with neural networks is a well-studied subject in literature. However, such works usually assume the availability of a camera of decent resolution and a high-performance processor or GPU to run the detection algorithm, which significantly increases the cost of a complete detection system. However, many applications require low-cost solutions, composed of cheap sensors and simple microcontrollers. In this paper, we demonstrate that even on such hardware we are not condemned to simple classic image processing techniques. We propose a novel ultra-lightweight CNN-based person detector that processes thermal video from a low-cost 32x24 pixel static imager. Trained and compressed on our own recorded dataset, our model achieves up to 91.62% accuracy (F1-score), has less than 10k parameters, and runs as fast as 87ms and 46ms on low-cost microcontrollers STM32F407 and STM32F746, respectively.
translated by 谷歌翻译
每年,AEDESAEGYPTI蚊子都感染了数百万人,如登录,ZIKA,Chikungunya和城市黄热病等疾病。战斗这些疾病的主要形式是通过寻找和消除潜在的蚊虫养殖场来避免蚊子繁殖。在这项工作中,我们介绍了一个全面的空中视频数据集,获得了无人驾驶飞行器,含有可能的蚊帐。使用识别所有感兴趣对象的边界框手动注释视频数据集的所有帧。该数据集被用于开发基于深度卷积网络的这些对象的自动检测系统。我们提出了通过在可以注册检测到的对象的时空检测管道的对象检测流水线中的融合来利用视频中包含的时间信息,这些时间是可以注册检测到的对象的,最大限度地减少最伪正和假阴性的出现。此外,我们通过实验表明使用视频比仅使用框架对马赛克组成马赛克更有利。使用Reset-50-FPN作为骨干,我们可以分别实现0.65和0.77的F $ _1 $ -70分别对“轮胎”和“水箱”的对象级别检测,说明了正确定位潜在蚊子的系统能力育种对象。
translated by 谷歌翻译
通过在图像传感器设计中加入可编程的兴趣区域(ROI)读数来提高嵌入式视觉系统的能量效率的巨大范围。在这项工作中,我们研究如何利用ROI可编程性,以便通过预期ROI将位于未来帧中的位置并在该区域之外切换像素来进行跟踪应用程序。我们将ROI预测的该过程和对应的传感器配置称为自适应限制。我们的自适应数据采样算法包括对象检测器和ROI预测器(卡尔曼滤波器),其结合地操作以优化视觉管道的能量效率,其结束任务是对象跟踪。为了进一步促进现实生活中的自适应算法的实施,我们选择候选算法并将其映射到FPGA上。利用Xilinx血管AI工具,我们设计并加速了基于YOLO对象探测器的自适应数据采样算法。为了进一步改进算法的部署后,我们在OTB100和LASOT数据集中评估了几个竞争的基线。我们发现将ECO跟踪器与Kalman滤波器耦合,在OTB100和Lasot Datasets上具有0.4568和0.3471的竞争性AUC分数。此外,该算法的功率效率与另一个基线优于相同的情况,并且在几个外部的情况下。基于ECO的算法在两个数据集上发生大约4W的功耗,而基于YOLO的方法需要大约6 W的功耗(根据我们的功耗模型)。在精度延迟权衡方面,基于ECO的算法在管理达到竞争跟踪精度的同时提供近实时性能(19.23 FPS)。
translated by 谷歌翻译
Computer vision applications in intelligent transportation systems (ITS) and autonomous driving (AD) have gravitated towards deep neural network architectures in recent years. While performance seems to be improving on benchmark datasets, many real-world challenges are yet to be adequately considered in research. This paper conducted an extensive literature review on the applications of computer vision in ITS and AD, and discusses challenges related to data, models, and complex urban environments. The data challenges are associated with the collection and labeling of training data and its relevance to real world conditions, bias inherent in datasets, the high volume of data needed to be processed, and privacy concerns. Deep learning (DL) models are commonly too complex for real-time processing on embedded hardware, lack explainability and generalizability, and are hard to test in real-world settings. Complex urban traffic environments have irregular lighting and occlusions, and surveillance cameras can be mounted at a variety of angles, gather dirt, shake in the wind, while the traffic conditions are highly heterogeneous, with violation of rules and complex interactions in crowded scenarios. Some representative applications that suffer from these problems are traffic flow estimation, congestion detection, autonomous driving perception, vehicle interaction, and edge computing for practical deployment. The possible ways of dealing with the challenges are also explored while prioritizing practical deployment.
translated by 谷歌翻译