准确且可靠的车道检测对于巷道维护援助和车道出发警告系统的安全性能至关重要。但是,在某些具有挑战性的情况下,很难在当前文献中主要从一个图像中准确地检测到一个单一图像的车道时获得令人满意的性能。由于车道标记是连续线,因此如果合并了以前的帧信息,则可以在当前单个图像中准确检测到的车道可以更好地推导。这项研究提出了一种新型的混合时空(ST)序列到一个深度学习结构。该体系结构充分利用了多个连续图像帧中的ST信息,以检测最后一帧中的车道标记。具体而言,混合模型集成了以下方面:(a)配备了空间卷积神经网络的单个图像特征提取模块; (b)由ST复发神经网络构建的ST特征集成模块; (c)编码器解码器结构,该结构使此图像分割问题以端到端监督的学习格式起作用。广泛的实验表明,所提出的模型体系结构可以有效地处理具有挑战性的驾驶场景,并且优于可用的最先进方法。
translated by 谷歌翻译
人行道表面数据的获取和评估在路面条件评估中起着至关重要的作用。在本文中,提出了一个称为RHA-NET的自动路面裂纹分割的有效端到端网络,以提高路面裂纹分割精度。 RHA-NET是通过将残留块(重阻)和混合注意块集成到编码器架构结构中来构建的。这些重组用于提高RHA-NET提取高级抽象特征的能力。混合注意块旨在融合低级功能和高级功能,以帮助模型专注于正确的频道和裂纹区域,从而提高RHA-NET的功能表现能力。构建并用于训练和评估所提出的模型的图像数据集,其中包含由自设计的移动机器人收集的789个路面裂纹图像。与其他最先进的网络相比,所提出的模型在全面的消融研究中验证了添加残留块和混合注意机制的功能。此外,通过引入深度可分离卷积生成的模型的轻加权版本可以更好地实现性能和更快的处理速度,而U-NET参数数量的1/30。开发的系统可以在嵌入式设备Jetson TX2(25 fps)上实时划分路面裂纹。实时实验拍摄的视频将在https://youtu.be/3xiogk0fig4上发布。
translated by 谷歌翻译
现代车辆配备各种驾驶员辅助系统,包括自动车道保持,这防止了无意的车道偏离。传统车道检测方法采用了手工制作或基于深度的学习功能,然后使用基于帧的RGB摄像机进行通道提取的后处理技术。用于车道检测任务的帧的RGB摄像机的利用易于照明变化,太阳眩光和运动模糊,这限制了车道检测方法的性能。在自主驾驶中的感知堆栈中结合了一个事件摄像机,用于自动驾驶的感知堆栈是用于减轻基于帧的RGB摄像机遇到的挑战的最有希望的解决方案之一。这项工作的主要贡献是设计车道标记检测模型,它采用动态视觉传感器。本文探讨了使用事件摄像机通过设计卷积编码器后跟注意引导的解码器的新颖性应用了车道标记检测。编码特征的空间分辨率由致密的区域空间金字塔池(ASPP)块保持。解码器中的添加剂注意机制可提高促进车道本地化的高维输入编码特征的性能,并缓解后处理计算。使用DVS数据集进行通道提取(DET)的DVS数据集进行评估所提出的工作的功效。实验结果表明,多人和二进制车道标记检测任务中的5.54 \%$ 5.54 \%$ 5.54 \%$ 5.03 \%$ 5.03 \%$ 5.03。此外,在建议方法的联盟($ iou $)分数上的交叉点将超越最佳最先进的方法,分别以6.50 \%$ 6.50 \%$ 6.5.37 \%$ 9.37 \%$ 。
translated by 谷歌翻译
视频异常检测是现在计算机视觉中的热门研究主题之一,因为异常事件包含大量信息。异常是监控系统中的主要检测目标之一,通常需要实时行动。关于培训的标签数据的可用性(即,没有足够的标记数据进行异常),半监督异常检测方法最近获得了利益。本文介绍了该领域的研究人员,以新的视角,并评论了最近的基于深度学习的半监督视频异常检测方法,基于他们用于异常检测的共同策略。我们的目标是帮助研究人员开发更有效的视频异常检测方法。由于选择右深神经网络的选择对于这项任务的几个部分起着重要作用,首先准备了对DNN的快速比较审查。与以前的调查不同,DNN是从时空特征提取观点审查的,用于视频异常检测。这部分审查可以帮助本领域的研究人员选择合适的网络,以获取其方法的不同部分。此外,基于其检测策略,一些最先进的异常检测方法受到严格调查。审查提供了一种新颖,深入了解现有方法,并导致陈述这些方法的缺点,这可能是未来作品的提示。
translated by 谷歌翻译
本文提出了一种机器学习增强的纵向扫描线方法,用于从大角度交通摄像机中提取车辆轨迹。通过将空间颞映射(STMAP)分解到稀疏前景和低秩背景,应用动态模式分解(DMD)方法来提取车辆股线。通过调整两个普遍的深度学习架构,设计了一个名为Res-Unet +的深神经网络。 RES-UNET +神经网络显着提高了基于STMAP的车辆检测的性能,DMD模型提供了许多有趣的见解,了解由Stmap保留的潜在空间结构的演变。与先前的图像处理模型和主流语义分割深神经网络进行比较模型输出。经过彻底的评估后,证明该模型对许多具有挑战性的因素来说是准确和强大的。最后但并非最不重要的是,本文从根本上解决了NGSIM轨迹数据中发现了许多质量问题。清除清洁的高质量轨迹数据,以支持交通流量和微观车辆控制的未来理论和建模研究。该方法是用于基于视频的轨迹提取的可靠解决方案,并且具有广泛的适用性。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
translated by 谷歌翻译
基于时空的图(STMAP)方法显示出为车辆轨迹重建处理高角度视频的巨大潜力,可以满足各种数据驱动的建模和模仿学习应用的需求。在本文中,我们开发了时空深嵌入(STDE)模型,该模型在像素和实例水平上施加了平等约束,以生成用于STMAP上车辆条纹分割的实例感知嵌入。在像素级别上,每个像素在不同范围的8-邻居像素进行编码,随后使用该编码来指导神经网络学习嵌入机制。在实例级别上,歧视性损耗函数被设计为将属于同一实例的像素更接近,并将不同实例的平均值分开。然后,通过静脉 - 沃特算法算法优化时空亲和力的输出,以获得最终的聚类结果。基于分割指标,我们的模型优于其他五个用于STMAP处理的基线,并在阴影,静态噪声和重叠的影响下显示出稳健性。该设计的模型用于处理所有公共NGSIM US-101视频,以生成完整的车辆轨迹,表明具有良好的可扩展性和适应性。最后但并非最不重要的一点是,讨论了带有STDE和未来方向的扫描线方法的优势。代码,STMAP数据集和视频轨迹在在线存储库中公开可用。 github链接:shorturl.at/jklt0。
translated by 谷歌翻译
Camouflaged object detection (COD) aims to detect/segment camouflaged objects embedded in the environment, which has attracted increasing attention over the past decades. Although several COD methods have been developed, they still suffer from unsatisfactory performance due to the intrinsic similarities between the foreground objects and background surroundings. In this paper, we propose a novel Feature Aggregation and Propagation Network (FAP-Net) for camouflaged object detection. Specifically, we propose a Boundary Guidance Module (BGM) to explicitly model the boundary characteristic, which can provide boundary-enhanced features to boost the COD performance. To capture the scale variations of the camouflaged objects, we propose a Multi-scale Feature Aggregation Module (MFAM) to characterize the multi-scale information from each layer and obtain the aggregated feature representations. Furthermore, we propose a Cross-level Fusion and Propagation Module (CFPM). In the CFPM, the feature fusion part can effectively integrate the features from adjacent layers to exploit the cross-level correlations, and the feature propagation part can transmit valuable context information from the encoder to the decoder network via a gate unit. Finally, we formulate a unified and end-to-end trainable framework where cross-level features can be effectively fused and propagated for capturing rich context information. Extensive experiments on three benchmark camouflaged datasets demonstrate that our FAP-Net outperforms other state-of-the-art COD models. Moreover, our model can be extended to the polyp segmentation task, and the comparison results further validate the effectiveness of the proposed model in segmenting polyps. The source code and results will be released at https://github.com/taozh2017/FAPNet.
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像分割,并且录制了录制了该领域深度学习的成功的大量论文。在本文中,我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先,与传统调查相比,直接将深度学习的文献分成医学图像分割的文学,并为每组详细介绍了文献,我们根据从粗略到精细的多级结构分类目前流行的文献。其次,本文侧重于监督和弱监督的学习方法,而不包括无监督的方法,因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法,我们分析了三个方面的文献:骨干网络的选择,网络块的设计,以及损耗功能的改进。对于虚弱的学习方法,我们根据数据增强,转移学习和交互式分割进行调查文献。与现有调查相比,本调查将文献分类为比例不同,更方便读者了解相关理由,并将引导他们基于深度学习方法思考医学图像分割的适当改进。
translated by 谷歌翻译
人类行动识别是计算机视觉中的重要应用领域。它的主要目的是准确地描述人类的行为及其相互作用,从传感器获得的先前看不见的数据序列中。识别,理解和预测复杂人类行动的能力能够构建许多重要的应用,例如智能监视系统,人力计算机界面,医疗保健,安全和军事应用。近年来,计算机视觉社区特别关注深度学习。本文使用深度学习技术的视频分析概述了当前的动作识别最新识别。我们提出了识别人类行为的最重要的深度学习模型,并分析它们,以提供用于解决人类行动识别问题的深度学习算法的当前进展,以突出其优势和缺点。基于文献中报道的识别精度的定量分析,我们的研究确定了动作识别中最新的深层体系结构,然后为该领域的未来工作提供当前的趋势和开放问题。
translated by 谷歌翻译
语义分割是图像的像素明智标记。由于在像素级别定义了问题,因此确定图像类标签是不可接受的,而是在原始图像像素分辨率下本地化它们是必要的。通过卷积神经网络(CNN)在创建语义,高级和分层图像特征方面的非凡能力推动;在过去十年中提出了几种基于深入的学习的2D语义分割方法。在本调查中,我们主要关注最近的语义细分科学发展,特别是在使用2D图像的基于深度学习的方法。我们开始分析了对2D语义分割的公共图像集和排行榜,概述了性能评估中使用的技术。在研究现场的演变时,我们按时间顺序分类为三个主要时期,即预先和早期的深度学习时代,完全卷积的时代和后FCN时代。我们在技术上分析了解决领域的基本问题的解决方案,例如细粒度的本地化和规模不变性。在借阅我们的结论之前,我们提出了一张来自所有提到的时代的方法表,每个方法都概述了他们对该领域的贡献。我们通过讨论现场当前的挑战以及他们已经解决的程度来结束调查。
translated by 谷歌翻译
大多数息肉分段方法使用CNNS作为其骨干,导致在编码器和解码器之间的信息交换信息时的两个关键问题:1)考虑到不同级别特征之间的贡献的差异; 2)设计有效机制,以融合这些功能。不同于现有的基于CNN的方法,我们采用了一个变压器编码器,它学会了更强大和强大的表示。此外,考虑到息肉的图像采集影响和难以实现的性质,我们介绍了三种新模块,包括级联融合模块(CFM),伪装识别模块(CIM),A和相似性聚集模块(SAM)。其中,CFM用于从高级功能收集息肉的语义和位置信息,而CIM应用于在低级功能中伪装的息肉信息。在SAM的帮助下,我们将息肉区域的像素特征扩展到整个息肉区域的高电平语义位置信息,从而有效地融合了交叉级别特征。所提出的模型名为Polyp-PVT,有效地抑制了特征中的噪声,并显着提高了他们的表现力。在五个广泛采用的数据集上进行了广泛的实验表明,所提出的模型对各种具有挑战性的情况(例如,外观变化,小物体)比现有方法更加强大,并实现了新的最先进的性能。拟议的模型可在https://github.com/dengpingfan/polyp-pvt获得。
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
Semantic segmentation works on the computer vision algorithm for assigning each pixel of an image into a class. The task of semantic segmentation should be performed with both accuracy and efficiency. Most of the existing deep FCNs yield to heavy computations and these networks are very power hungry, unsuitable for real-time applications on portable devices. This project analyzes current semantic segmentation models to explore the feasibility of applying these models for emergency response during catastrophic events. We compare the performance of real-time semantic segmentation models with non-real-time counterparts constrained by aerial images under oppositional settings. Furthermore, we train several models on the Flood-Net dataset, containing UAV images captured after Hurricane Harvey, and benchmark their execution on special classes such as flooded buildings vs. non-flooded buildings or flooded roads vs. non-flooded roads. In this project, we developed a real-time UNet based model and deployed that network on Jetson AGX Xavier module.
translated by 谷歌翻译
在本文中,我们提出了一个新型模型,用于同时稳定的共同检测(COSOD)和对象共裂(Coseg)。为了准确地检测共同水平(分割),核心问题是井井有条模拟图像组之间的图像间关系。一些方法设计了复杂的模块,例如复发性神经网络(RNN),以解决此问题。但是,对订单敏感的问题是RNN的主要缺点,它严重影响了拟议的COSOD(COSEG)模型的稳定性。在本文中,受基于RNN的模型的启发,我们首先提出了一个多路稳定的复发单元(MSRU),其中包含虚拟订单机制(DOM)和复发单元(RU)。我们提出的MSRU不仅有助于COSOD(COSEG)模型捕获强大的图像间关系,还可以降低订单敏感性,从而导致更稳定的推理和训练过程。 {此外,我们设计了一个跨顺序对比损失(COCL),可以通过关闭从不同输入订单生成的功能嵌入来进一步解决订单敏感问题。}我们在五个广泛使用的COSOD数据集(COCA,COOCA,COSOD3K,,,COSOD3K, COSAL2015,ICOSEG和MSRC)以及三个广泛使用的数据集(Internet,Icoseg和Pascal-Voc)用于对象进行分割,性能证明了与最先进的ART(SOTA)相比,提出的方法的优越性方法。
translated by 谷歌翻译
序列表示学习的主要挑战是捕获远程时间依赖性。监督序列表示学习的典型方法是基于复发性神经网络构建的,以捕获时间依赖性。这些方法的一个潜在局限性是,它们仅在序列中明确对相邻时间步长的一阶信息相互作用进行建模,因此,未完全利用了非相应时间步长之间的高阶相互作用。它极大地限制了建模远程时间依赖性的能力,因为由于时间信息稀释和梯度消失,无法长期保持一阶相互作用所学的时间特征。为了应对这一限制,我们提出了用于监督序列表示学习的非本地复发性神经记忆(NRNM),该学习执行非本地操作\ Mr {通过自我关注机制}以在滑动时间内学习全阶相互作用内存块和模拟内存块之间的全局相互作用以封闭式的复发方式。因此,我们的模型能够捕获远程依赖性。此外,我们的模型可以蒸馏出高阶相互作用中包含的潜在高级特征。我们验证了NRNM在不同模态的三种序列应用上的有效性和概括,包括序列分类,逐步的顺序预测和序列相似性学习。我们的模型与针对这些序列应用中的每个序列应用专门设计的其他最新方法进行了比较。
translated by 谷歌翻译
在农业中,大多数视觉系统执行静止图像分类。然而,最近的工作强调了空间和时间提示作为改善分类绩效的丰富信息来源的潜力。在本文中,我们提出了新的方法,以明确捕获空间和时间信息,以改善深卷积神经网络的分类。我们利用可用的RGB-D图像和机器人探光仪来执行框架间特征图空间注册。然后将这些信息融合在经常学习的模型中,以提高其准确性和鲁棒性。我们证明,这可以大大提高分类性能,而我们的最佳性能时空模型(ST-ATTE)可实现4.7的相互作用(IOU [%])的绝对性能改进,用于水果,为2.6。 (甜胡椒)分割。此外,我们表明这些方法对可变的帧速率和探测器误差是可靠的,这些方法在现实世界应用中经常观察到。
translated by 谷歌翻译
法医分析取决于从操纵图像识别隐藏迹线。由于它们无法处理功能衰减和依赖主导空间特征,传统的神经网络失败。在这项工作中,我们提出了一种新颖的门控语言注意力网络(GCA-NET),用于全球背景学习的非本地关注块。另外,我们利用所通用的注意机制结合密集的解码器网络,以引导在解码阶段期间的相关特征的流动,允许精确定位。所提出的注意力框架允许网络通过过滤粗糙度来专注于相关区域。此外,通过利用多尺度特征融合和有效的学习策略,GCA-Net可以更好地处理操纵区域的比例变化。我们表明,我们的方法在多个基准数据集中平均优于最先进的网络,平均为4.2%-5.4%AUC。最后,我们还开展了广泛的消融实验,以展示该方法对图像取证的鲁棒性。
translated by 谷歌翻译