在Covid-19爆发之后,作为最方便,最有效的预防手段,掩盖检测在流行病预防和控制中起着至关重要的作用。出色的自动实时面具检测系统可以减轻相关人员的大量工作压力。但是,通过分析现有的掩码检测方法,我们发现它们大多是资源密集型的,并且在速度和准确性之间无法达到良好的平衡。目前还没有完美的面膜数据集。在本文中,我们提出了一种用于掩盖检测的新体系结构。我们的系统使用SSD作为掩码定位器和分类器,并用MobilenetV2进一步替换VGG-16来提取图像的功能并减少许多参数。因此,我们的系统可以部署在嵌入式设备上。转移学习方法用于将预训练的模型从其他域转移到我们的模型。我们系统中的数据增强方法(例如混合)有效防止过度拟合。它还有效地减少了对大规模数据集的依赖性。通过在实际情况下进行实验,结果表明我们的系统在实时掩模检测中的表现良好。
translated by 谷歌翻译
2019年冠状病毒疾病(Covid-19)继续自爆发以来对世界产生巨大挑战。为了对抗这种疾病,开发了一系列人工智能(AI)技术,并应用于现实世界的情景,如安全监测,疾病诊断,感染风险评估,Covid-19 CT扫描的病变细分等。 Coronavirus流行病迫使人们佩戴面膜来抵消病毒的传播,这也带来了监控戴着面具的大群人群的困难。在本文中,我们主要关注蒙面面部检测和相关数据集的AI技术。从蒙面面部检测数据集的描述开始,我们调查了最近的进步。详细描述并详细讨论了十三可用数据集。然后,该方法大致分为两类:传统方法和基于神经网络的方法。常规方法通常通过用手工制作的特征升高算法来训练,该算法占少比例。基于神经网络的方法根据处理阶段的数量进一步归类为三个部分。详细描述了代表性算法,与一些简要描述的一些典型技术耦合。最后,我们总结了最近的基准测试结果,讨论了关于数据集和方法的局限性,并扩大了未来的研究方向。据我们所知,这是关于蒙面面部检测方法和数据集的第一次调查。希望我们的调查可以提供一些帮助对抗流行病的帮助。
translated by 谷歌翻译
The emergence of COVID-19 has had a global and profound impact, not only on society as a whole, but also on the lives of individuals. Various prevention measures were introduced around the world to limit the transmission of the disease, including face masks, mandates for social distancing and regular disinfection in public spaces, and the use of screening applications. These developments also triggered the need for novel and improved computer vision techniques capable of (i) providing support to the prevention measures through an automated analysis of visual data, on the one hand, and (ii) facilitating normal operation of existing vision-based services, such as biometric authentication schemes, on the other. Especially important here, are computer vision techniques that focus on the analysis of people and faces in visual data and have been affected the most by the partial occlusions introduced by the mandates for facial masks. Such computer vision based human analysis techniques include face and face-mask detection approaches, face recognition techniques, crowd counting solutions, age and expression estimation procedures, models for detecting face-hand interactions and many others, and have seen considerable attention over recent years. The goal of this survey is to provide an introduction to the problems induced by COVID-19 into such research and to present a comprehensive review of the work done in the computer vision based human analysis field. Particular attention is paid to the impact of facial masks on the performance of various methods and recent solutions to mitigate this problem. Additionally, a detailed review of existing datasets useful for the development and evaluation of methods for COVID-19 related applications is also provided. Finally, to help advance the field further, a discussion on the main open challenges and future research direction is given.
translated by 谷歌翻译
为了使用各种类型的数据理解现实世界,人工智能(AI)是当今最常用的技术。在分析数据中找到模式的同时表示主要任务。这是通过提取代表性特征步骤来执行的,该步骤是使用统计算法或使用某些特定过滤器进行的。但是,从大规模数据中选择有用的功能代表了至关重要的挑战。现在,随着卷积神经网络(CNN)的发展,功能提取操作变得更加自动和更容易。 CNN允许处理大规模的数据,并涵盖特定任务的不同方案。对于计算机视觉任务,卷积网络也用于为深度学习模型的其他部分提取功能。选择合适的网络用于特征提取或DL模型的其他部分不是随机工作。因此,这种模型的实现可能与目标任务以及其计算复杂性有关。已经提出了许多网络,并成为任何AI任务中任何DL模型的著名网络。这些网络被利用用于特征提取或在任何名为骨架的DL模型的开头。骨干是以前在许多其他任务中训练并证明其有效性的已知网络。在本文中,现有骨干的概述,例如详细说明给出了VGG,Resnets,Densenet等。此外,通过对所使用的骨干进行审查,讨论了几个计算机视觉任务。此外,还基于每个任务的骨干,还提供了性能的比较。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
Computer vision applications in intelligent transportation systems (ITS) and autonomous driving (AD) have gravitated towards deep neural network architectures in recent years. While performance seems to be improving on benchmark datasets, many real-world challenges are yet to be adequately considered in research. This paper conducted an extensive literature review on the applications of computer vision in ITS and AD, and discusses challenges related to data, models, and complex urban environments. The data challenges are associated with the collection and labeling of training data and its relevance to real world conditions, bias inherent in datasets, the high volume of data needed to be processed, and privacy concerns. Deep learning (DL) models are commonly too complex for real-time processing on embedded hardware, lack explainability and generalizability, and are hard to test in real-world settings. Complex urban traffic environments have irregular lighting and occlusions, and surveillance cameras can be mounted at a variety of angles, gather dirt, shake in the wind, while the traffic conditions are highly heterogeneous, with violation of rules and complex interactions in crowded scenarios. Some representative applications that suffer from these problems are traffic flow estimation, congestion detection, autonomous driving perception, vehicle interaction, and edge computing for practical deployment. The possible ways of dealing with the challenges are also explored while prioritizing practical deployment.
translated by 谷歌翻译
面部检测是为了在图像中搜索面部的所有可能区域,并且如果有任何情况,则定位面部。包括面部识别,面部表情识别,面部跟踪和头部姿势估计的许多应用假设面部的位置和尺寸在图像中是已知的。近几十年来,研究人员从Viola-Jones脸上检测器创造了许多典型和有效的面部探测器到当前的基于CNN的CNN。然而,随着图像和视频的巨大增加,具有面部刻度的变化,外观,表达,遮挡和姿势,传统的面部探测器被挑战来检测野外面孔的各种“脸部。深度学习技术的出现带来了非凡的检测突破,以及计算的价格相当大的价格。本文介绍了代表性的深度学习的方法,并在准确性和效率方面提出了深度和全面的分析。我们进一步比较并讨论了流行的并挑战数据集及其评估指标。进行了几种成功的基于深度学习的面部探测器的全面比较,以使用两个度量来揭示其效率:拖鞋和延迟。本文可以指导为不同应用选择合适的面部探测器,也可以开发更高效和准确的探测器。
translated by 谷歌翻译
水下结构的维修和维护以及海洋科学在很大程度上依赖于水下对象检测的结果,这是图像处理工作流程的关键部分。尽管已经提出了许多基于计算机视觉的方法,但还没有人开发出一种可靠,准确地检测并对深海中发现的物体和动物进行分类的系统。这主要是由于障碍物在水下环境中散射和吸收光线。随着深度学习的引入,科学家们已经能够解决广泛的问题,包括保护海洋生态系统,在紧急情况下挽救生命,防止水下灾难,并发现,汤匙和识别水下目标。但是,这些深度学习系统的好处和缺点仍然未知。因此,本文的目的是提供在水下对象检测中使用的数据集的概述,并介绍为此目的所采用的算法的优势和缺点的讨论。
translated by 谷歌翻译
2019年冠状病毒为全球社会稳定和公共卫生带来了严重的挑战。遏制流行病的一种有效方法是要求人们在公共场所戴口罩,并通过使用合适的自动探测器来监视戴口罩状态。但是,现有的基于深度学习的模型努力同时达到高精度和实时性能的要求。为了解决这个问题,我们提出了基于Yolov5的改进的轻质面膜探测器,该检测器可以实现精确和速度的良好平衡。首先,提出了将ShuffleNetV2网络与协调注意机制相结合的新型骨干轮弹工具作为骨干。之后,将有效的路径攻击网络BIFPN作为特征融合颈应用。此外,在模型训练阶段,定位损失被α-CIOU取代,以获得更高质量的锚。还利用了一些有价值的策略,例如数据增强,自适应图像缩放和锚点群集操作。 Aizoo面膜数据集的实验结果显示了所提出模型的优越性。与原始的Yolov5相比,提出的模型将推理速度提高28.3%,同时仍将精度提高0.58%。与其他七个现有型号相比,它的最佳平均平均精度为95.2%,比基线高4.4%。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
自动交通事故检测已吸引机器视觉社区,因为它对自动智能运输系统(ITS)的发展产生了影响和对交通安全的重要性。然而,大多数关于有效分析和交通事故预测的研究都使用了覆盖范围有限的小规模数据集,从而限制了其效果和适用性。交通事故中现有的数据集是小规模,不是来自监视摄像机,而不是开源的,或者不是为高速公路场景建造的。由于在高速公路上发生事故,因此往往会造成严重损坏,并且太快了,无法赶上现场。针对从监视摄像机收集的高速公路交通事故的开源数据集非常需要和实际上。为了帮助视觉社区解决这些缺点,我们努力收集涵盖丰富场景的真实交通事故的视频数据。在通过各个维度进行集成和注释后,在这项工作中提出了一个名为TAD的大规模交通事故数据集。在这项工作中,使用公共主流视觉算法或框架进行了有关图像分类,对象检测和视频分类任务的各种实验,以证明不同方法的性能。拟议的数据集以及实验结果将作为改善计算机视觉研究的新基准提出,尤其是在其中。
translated by 谷歌翻译
Visual perception plays an important role in autonomous driving. One of the primary tasks is object detection and identification. Since the vision sensor is rich in color and texture information, it can quickly and accurately identify various road information. The commonly used technique is based on extracting and calculating various features of the image. The recent development of deep learning-based method has better reliability and processing speed and has a greater advantage in recognizing complex elements. For depth estimation, vision sensor is also used for ranging due to their small size and low cost. Monocular camera uses image data from a single viewpoint as input to estimate object depth. In contrast, stereo vision is based on parallax and matching feature points of different views, and the application of deep learning also further improves the accuracy. In addition, Simultaneous Location and Mapping (SLAM) can establish a model of the road environment, thus helping the vehicle perceive the surrounding environment and complete the tasks. In this paper, we introduce and compare various methods of object detection and identification, then explain the development of depth estimation and compare various methods based on monocular, stereo, and RDBG sensors, next review and compare various methods of SLAM, and finally summarize the current problems and present the future development trends of vision technologies.
translated by 谷歌翻译
2019年12月,一个名为Covid-19的新型病毒导致了迄今为止的巨大因果关系。与新的冠状病毒的战斗在西班牙语流感后令人振奋和恐怖。虽然前线医生和医学研究人员在控制高度典型病毒的传播方面取得了重大进展,但技术也证明了在战斗中的重要性。此外,许多医疗应用中已采用人工智能,以诊断许多疾病,甚至陷入困境的经验丰富的医生。因此,本调查纸探讨了提议的方法,可以提前援助医生和研究人员,廉价的疾病诊断方法。大多数发展中国家难以使用传统方式进行测试,但机器和深度学习可以采用显着的方式。另一方面,对不同类型的医学图像的访问已经激励了研究人员。结果,提出了一种庞大的技术数量。本文首先详细调了人工智能域中传统方法的背景知识。在此之后,我们会收集常用的数据集及其用例日期。此外,我们还显示了采用深入学习的机器学习的研究人员的百分比。因此,我们对这种情况进行了彻底的分析。最后,在研究挑战中,我们详细阐述了Covid-19研究中面临的问题,我们解决了我们的理解,以建立一个明亮健康的环境。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
The efficiency of using the YOLOV5 machine learning model for solving the problem of automatic de-tection and recognition of micro-objects in the marine environment is studied. Samples of microplankton and microplastics were prepared, according to which a database of classified images was collected for training an image recognition neural network. The results of experiments using a trained network to find micro-objects in photo and video images in real time are presented. Experimental studies have shown high efficiency, comparable to manual recognition, of the proposed model in solving problems of detect-ing micro-objects in the marine environment.
translated by 谷歌翻译
在这项工作中,我们介绍了一种方法,并提出了一种改进的神经工作,以执行产品重新识别,这是全自动产品缺陷检测系统的必要核心功能。我们的方法基于特征距离。它是特征提取神经网络的组合,如vgg16,alexnet,带图像搜索引擎 - vearch。我们用于开发产品重新识别系统的数据集是一个水瓶数据集,由400种液体瓶装组成。这是一个小型数据集,这是我们工作的最大挑战。然而,与vearch的神经网络的组合显示了解决产品重新识别问题的可能性。特别是,我们的新神经网络 - 基于AlexNet改进的神经网络的AlphaalexNet可以通过四个百分点提高生产识别准确性。这表明当可以引入和重新设计的高效特征提取方法时,可以实现理想的生产识别精度,以用于几乎相同产品的图像特征提取。为了解决由数据集的小尺寸造成的最大挑战以及识别彼此几乎没有差异的产品的困难性质。在我们未来的工作中,我们提出了一种新的路线图来解决几乎 - 相同的生产标识:介绍或开发需要很少的图像以训练自己的新算法。
translated by 谷歌翻译
从卷积神经网络的快速发展中受益,汽车牌照检测和识别的性能得到了很大的改善。但是,大多数现有方法分别解决了检测和识别问题,并专注于特定方案,这阻碍了现实世界应用的部署。为了克服这些挑战,我们提出了一个有效而准确的框架,以同时解决车牌检测和识别任务。这是一个轻巧且统一的深神经网络,可以实时优化端到端。具体而言,对于不受约束的场景,采用了无锚方法来有效检测车牌的边界框和四个角,这些框用于提取和纠正目标区域特征。然后,新型的卷积神经网络分支旨在进一步提取角色的特征而不分割。最后,将识别任务视为序列标记问题,这些问题通过连接派时间分类(CTC)解决。选择了几个公共数据集,包括在各种条件下从不同方案中收集的图像进行评估。实验结果表明,所提出的方法在速度和精度上都显着优于先前的最新方法。
translated by 谷歌翻译
主动学习(al)试图通过标记最少的样本来最大限度地提高模型的性能增益。深度学习(DL)是贪婪的数据,需要大量的数据电源来优化大量参数,因此模型了解如何提取高质量功能。近年来,由于互联网技术的快速发展,我们处于信息种类的时代,我们有大量的数据。通过这种方式,DL引起了研究人员的强烈兴趣,并已迅速发展。与DL相比,研究人员对Al的兴趣相对较低。这主要是因为在DL的崛起之前,传统的机器学习需要相对较少的标记样品。因此,早期的Al很难反映其应得的价值。虽然DL在各个领域取得了突破,但大多数这一成功都是由于大量现有注释数据集的宣传。然而,收购大量高质量的注释数据集消耗了很多人力,这在某些领域不允许在需要高专业知识,特别是在语音识别,信息提取,医学图像等领域中, al逐渐受到适当的关注。自然理念是AL是否可用于降低样本注释的成本,同时保留DL的强大学习能力。因此,已经出现了深度主动学习(DAL)。虽然相关的研究非常丰富,但它缺乏对DAL的综合调查。本文要填补这一差距,我们为现有工作提供了正式的分类方法,以及全面和系统的概述。此外,我们还通过申请的角度分析并总结了DAL的发展。最后,我们讨论了DAL中的混乱和问题,为DAL提供了一些可能的发展方向。
translated by 谷歌翻译