在自主驾驶环境中,同时保证实时和准确的对象检测至关重要。但是,现有的对象检测神经网络系统的特征是计算时间和准确性之间的权衡,因此必须优化这种权衡。幸运的是,在许多自动驾驶环境中,图像以连续的形式出现,提供了使用光流的机会。在本文中,我们利用光流估计来提高对象检测神经网络的性能。此外,我们提出了一个lyapunov优化框架,以实现稳定性的时间平均性能最大化。它可以自适应地确定是否使用光流程适合动态车辆环境,从而确保车辆的队列稳定性和同时的时间平均最高性能。为了验证关键思想,我们使用各种对象检测神经网络和光流估计网络进行数值实验。此外,我们通过Yolov3微小和Flownet2-S展示了可自配置的稳定检测,它们分别是实时对象检测网络和光流估计网络。在演示中,我们提出的框架将准确性提高了3.02%,检测到的对象数量增加了59.6%,并且用于计算功能的队列稳定性。
translated by 谷歌翻译
事件摄像机可产生大型动态范围事件流,并具有很高的时间分辨率,可丢弃冗余视觉信息,从而为对象检测任务带来新的可能性。但是,将事件摄像机应用于使用深度学习方法对象检测任务的现有方法仍然存在许多问题。首先,由于全局同步时间窗口和时间分辨率,现有方法无法考虑具有不同速度的对象。其次,大多数现有方法都依赖于大型参数神经网络,这意味着较大的计算负担和低推理速度,因此与事件流的高时间分辨率相反。在我们的工作中,我们设计了一种使用简单但有效的数据增强方法的高速轻质检测器,称为敏捷事件检测器(AED)。此外,我们提出了一个称为“时间主动焦点(TAF)”的事件流表示张量,该量子充分利用了事件流数据的异步生成,并且对移动对象的运动非常强大。它也可以在不耗时的情况下构造。我们进一步提出了一个称为分叉折叠模块(BFM)的模块,以在AED检测器的输入层的TAF张量中提取丰富的时间信息。我们对两个典型的实体事件摄像机对象检测数据集进行了实验:完整的预言GEN1汽车检测数据集和预言1 Megapixel Automotive检测数据集,带有部分注释。实验表明,我们的方法在准确性,速度和参数数量方面具有竞争力。同样,通过基于光流密度度量的对象将对象分类为多个运动级别,我们说明了相对于摄像机具有不同速度的对象的方法的鲁棒性。
translated by 谷歌翻译
视频中的实时和在线行动本地化是一个关键但极具挑战性的问题。准确的行动定位需要利用时间和空间信息。最近的尝试通过使用计算密集的3D CNN架构或高度冗余的双流架构来实现这一目标,使它们既不适用于实时在线应用程序。为了在高度挑战的实时约束下完成活动本地化,我们提出利用基于快速高效的关键点的边界框预测到空间本地化动作。然后,我们介绍一种管链接算法,其在闭塞存在下在时间上保持动作管的连续性。此外,我们通过将时间和空间信息与级联输入组合到单个网络的级联输入来消除对双流架构的需要,允许网络从两种类型的信息中学习。使用结构相似索引图有效地提取了时间信息,而不是计算密集的光学流量。尽管我们的方法简单,我们的轻质端到端架构在挑战的UCF101-24数据集上实现了最先进的框架地图,达到了74.7%,展示了以前最好的在线方法的性能增益为6.4% 。与在线和离线方法两者相比,我们还实现了最先进的视频地图结果。此外,我们的模型实现了41.8 FPS的帧速率,这是对当代实时方法的10.7%。
translated by 谷歌翻译
基于高质量标签的鱼类跟踪和细分的DNN很昂贵。替代无监督的方法取决于视频数据中自然发生的空间和时间变化来生成嘈杂的伪界图标签。这些伪标签用于训练多任务深神经网络。在本文中,我们提出了一个三阶段的框架,用于强大的鱼类跟踪和分割,其中第一阶段是光流模型,该模型使用帧之间的空间和时间一致性生成伪标签。在第二阶段,一个自我监督的模型会逐步完善伪标签。在第三阶段,精制标签用于训练分割网络。在培训或推理期间没有使用人类注释。进行了广泛的实验来验证我们在三个公共水下视频数据集中的方法,并证明它对视频注释和细分非常有效。我们还评估框架对不同成像条件的鲁棒性,并讨论当前实施的局限性。
translated by 谷歌翻译
移动设备通过深神经网络(DNN)越来越依赖对象检测(OD)来执行关键任务。由于它们的复杂性高,这些DNN的执行需要过度的时间和能量。低复杂性对象跟踪(OT)可以与OD一起使用,后者定期应用后,以生成“新鲜”的跟踪参考。然而,使用OD处理的帧产生大的延迟,这可以使参考延迟过时并降低跟踪质量。这里,我们建议在这种情况下使用边缘计算,并在对大OD延迟中建立并行OT(在移动设备上)和OD(处于边缘服务器)的进程。我们提出Katch-Up,一种新型跟踪机制,可提高系统弹性过度OD延迟。但是,虽然Katch-up显着提高了性能,但它也增加了移动设备的计算负荷。因此,我们设计SmartDet,基于深度加强学习(DRL)的低复杂性控制器,了解资源利用率和OD性能之间的权衡。 SmartDet作为输入上下文相关信息与当前视频内容相关的信息和当前网络条件,以优化OD卸载的频率和类型,以及Katch-Up利用率。我们在通过Wi-Fi链路连接的GTX 980 TI为移动设备和GTX 980 TI,广泛地评估SmartDet。实验结果表明,SmartDET在跟踪性能 - 平均召回(MAR)和资源使用之间实现了最佳平衡。关于具有完全Katch-Upusage和最大渠道使用的基线,我们仍然将MAR增加4%,同时使用50%的通道和与Katch-Up相关的30%电力资源。对于使用最小资源的固定策略,我们在使用katch-up在框架的1/3上时,我们将MAR增加20%。
translated by 谷歌翻译
深度神经网络(DNN)由于其高度的感知,决策和控制而被广泛用于自主驾驶中。在诸如自动驾驶之类的安全至关重要系统中,实时执行感测和感知等任务对于车辆的安全至关重要,这需要应用程序的执行时间才能预测。但是,在DNN推断中观察到不可忽略的时间变化。当前的DNN推理研究要么忽略时间变化问题,要么依靠调度程序来处理它。当前的工作都没有解释DNN推理时间变化的根本原因。了解DNN推理的时间变化成为自动驾驶实时计划的基本挑战。在这项工作中,我们从六个角度分析了DNN推断的时间变化:数据,I/O,模型,运行时,硬件和端到端感知系统。在理解DNN推断的时间变化方面得出了六个见解。
translated by 谷歌翻译
当应用于自动驾驶汽车设置时,行动识别可以帮助丰富环境模型对世界的理解并改善未来行动的计划。为了改善自动驾驶汽车决策,我们在这项工作中提出了一种新型的两阶段在线行动识别系统,称为RADAC。RADAC提出了主动剂检测的问题,并在直接的两阶段管道中以进行动作检测和分类的直接识别人类活动识别中的参与者关系的想法。我们表明,我们提出的计划可以胜过ICCV2021 ROAD挑战数据集上的基线,并通过将其部署在真实的车辆平台上,我们演示了对环境中代理行动的高阶理解如何可以改善对真实自动驾驶汽车的决策。
translated by 谷歌翻译
事件摄像机由于其有益的特性,例如高时间分辨率,高带宽,几乎没有运动模糊和低功耗,因此在机器人技术和计算机视觉中变得越来越流行。但是,这些相机在市场上仍然昂贵且稀缺,使它们无法获得大多数。使用事件模拟器最大程度地减少了对真实事件摄像机开发新算法的需求。但是,由于模拟的计算复杂性,无法实时生成现有仿真器的事件流,而是必须从现有视频序列或预渲染中预先计算,然后从虚拟3D场景中进行模拟。尽管这些离线生成的事件流可以用作学习任务的培训数据,但所有响应时间的应用程序都无法从这些模拟器中受益,因为它们仍然需要实际的事件摄像头。这项工作提出了仿真方法,将事件模拟的性能提高了两个数量级(使其实时能够),同时在质量评估中保持竞争力。
translated by 谷歌翻译
Recognizing the surrounding environment at low latency is critical in autonomous driving. In real-time environment, surrounding environment changes when processing is over. Current detection models are incapable of dealing with changes in the environment that occur after processing. Streaming perception is proposed to assess the latency and accuracy of real-time video perception. However, additional problems arise in real-world applications due to limited hardware resources, high temperatures, and other factors. In this study, we develop a model that can reflect processing delays in real time and produce the most reasonable results. By incorporating the proposed feature queue and feature select module, the system gains the ability to forecast specific time steps without any additional computational costs. Our method is tested on the Argoverse-HD dataset. It achieves higher performance than the current state-of-the-art methods(2022.10) in various environments when delayed . The code is available at https://github.com/danjos95/DADE
translated by 谷歌翻译
Simultaneous Localization & Mapping (SLAM) is the process of building a mutual relationship between localization and mapping of the subject in its surrounding environment. With the help of different sensors, various types of SLAM systems have developed to deal with the problem of building the relationship between localization and mapping. A limitation in the SLAM process is the lack of consideration of dynamic objects in the mapping of the environment. We propose the Dynamic Object Tracking SLAM (DyOb-SLAM), which is a Visual SLAM system that can localize and map the surrounding dynamic objects in the environment as well as track the dynamic objects in each frame. With the help of a neural network and a dense optical flow algorithm, dynamic objects and static objects in an environment can be differentiated. DyOb-SLAM creates two separate maps for both static and dynamic contents. For the static features, a sparse map is obtained. For the dynamic contents, a trajectory global map is created as output. As a result, a frame to frame real-time based dynamic object tracking system is obtained. With the pose calculation of the dynamic objects and camera, DyOb-SLAM can estimate the speed of the dynamic objects with time. The performance of DyOb-SLAM is observed by comparing it with a similar Visual SLAM system, VDO-SLAM and the performance is measured by calculating the camera and object pose errors as well as the object speed error.
translated by 谷歌翻译
在监控和搜索和救援应用程序中,重要的是在低端设备上实时执行多目标跟踪(MOT)。今天的MOT解决方案采用深度神经网络,往往具有高计算复杂性。识别帧大小对跟踪性能的影响,我们提出了深度,一种模型不可知框架尺寸选择方法,可在现有的全卷积网络基跟踪器之上进行操作,以加速跟踪吞吐量。在培训阶段,我们将可检测性分数纳入单次跟踪器架构,使得DeepScale以自我监督的方式学习不同帧大小的表示估计。在推理期间,它可以根据基于用户控制参数根据视觉内容的复杂性来调整帧大小。为了利用边缘服务器上的计算资源,我们提出了两个计算分区模式,即仅使用自适应帧大小传输和边缘服务器辅助跟踪仅适用于MOT,即边缘服务器。 MOT数据集的广泛实验和基准测试证明了深度的有效性和灵活性。与最先进的追踪器相比,DeepScale ++,DeepScale的变种实现1.57倍加速,仅在一个配置中的MOT15数据集上跟踪准确性。我们已经实现和评估了DeepScale ++,以及由NVIDIA JETSON TX2板和GPU服务器组成的小型测试平台上所提出的计算分区方案。实验显示与仅服务器或智能相机的解决方案相比跟踪性能和延迟之间的非琐碎权衡。
translated by 谷歌翻译
事件摄像机捕获观察到的场景中的照明的变化,而不是累积光以创建图像。因此,它们允许在高速运动和复杂的照明条件下的应用,其中传统的框架传感器显示它们的模糊和过度或未出现的像素的限制。由于这些独特的属性,它们表示现在是与其相关的应用的高度有吸引力的传感器。在这些神经形式相机的普及升高之后,已经研究了基于事件的光流(EBOF)。然而,最近的高清神经晶体传感器的到来挑战现有方法,因为事件像素阵列的分辨率增加和更高的吞吐量。作为这些点的答案,我们提出了一种用于实时计算光流的优化框架,以及低分辨率的事件摄像机。我们以“逆指数距离表面”的形式为稀疏事件流制定了一种新的密集表示。它用作临时框架,专为使用证明,最先进的基于框架的光流量计算方法而设计。我们评估我们在低分辨率和高分辨率驾驶序列上的方法,并表明它通常比当前现有技术更好地实现更好的结果,同时也达到更高的帧速率,250Hz在346 x 260像素和77Hz在1280 x 720像素。
translated by 谷歌翻译
我们为路边摄像机提出了一个针对交通现场的新颖务实框架。提出的框架涵盖了基础架构辅助自动驾驶的路边知觉管道的全堆,包括对象检测,对象定位,对象跟踪和多相机信息融合。与以前的基于视觉的感知框架依赖于深度偏移或训练中的3D注释不同,我们采用模块化解耦设计并引入基于具有里程碑意义的3D本地化方法,在此方法可以很好地解耦,以便可以轻松地训练该模型仅基于2D注释。所提出的框架适用于带有针孔或鱼眼镜的光相机或热摄像机。我们的框架部署在位于Ellsworth Rd的两车道回旋处。和美国密歇根州安阿伯市的State St.,提供7x24实时交通流量监测和高精度车辆轨迹提取。整个系统在低功率边缘计算设备上有效地运行,全部端到端延迟小于20ms。
translated by 谷歌翻译
半监控视频对象分段(VOS)旨在在视频序列中分段一些移动对象,其中通过注释第一帧来指定这些对象。已经考虑了许多现有的半监督VOS方法以提高分割精度的光学流程。然而,由于光学流量估计的高复杂性,光流基的半监控VOS方法不能实时运行。在该研究中提出了由特征提取网络(F),外观网络(A),运动网络(A)和集成网络(I)组成的FAMINET,以解决上述问题。外观网络基于对象的静态外观输出初始分割结果。运动网络通过很少的参数估计光学流量,这些参数通过在线记忆算法快速优化,该算法被称为松弛最陡血迹。集成网络使用光流来改进初始分割结果。广泛的实验表明,FAMINET在DAVIS和YOUTUBE-VOS基准上表现出其他最先进的半监督VOS方法,并且它在准确性和效率之间实现了良好的权衡。我们的代码可在https://github.com/liuziyang123/faminet获得。
translated by 谷歌翻译
The last decade witnessed increasingly rapid progress in self-driving vehicle technology, mainly backed up by advances in the area of deep learning and artificial intelligence. The objective of this paper is to survey the current state-of-the-art on deep learning technologies used in autonomous driving. We start by presenting AI-based self-driving architectures, convolutional and recurrent neural networks, as well as the deep reinforcement learning paradigm. These methodologies form a base for the surveyed driving scene perception, path planning, behavior arbitration and motion control algorithms. We investigate both the modular perception-planning-action pipeline, where each module is built using deep learning methods, as well as End2End systems, which directly map sensory information to steering commands. Additionally, we tackle current challenges encountered in designing AI architectures for autonomous driving, such as their safety, training data sources and computational hardware. The comparison presented in this survey helps to gain insight into the strengths and limitations of deep learning and AI approaches for autonomous driving and assist with design choices. 1
translated by 谷歌翻译
自主驾驶的感知模型需要在低潜伏期内快速推断。尽管现有作品忽略了处理后不可避免的环境变化,但流媒体感知将延迟和准确性共同评估为视频在线感知的单个度量标准,从而指导先前的工作以搜索准确性和速度之间的权衡。在本文中,我们探讨了该指标上实时模型的性能,并赋予模型预测未来的能力,从而显着改善了流媒体感知的结果。具体来说,我们构建了一个具有两个有效模块的简单框架。一个是双流感知模块(DFP)。它分别由捕获运动趋势和基本检测特征并行的动态流和静态流动。趋势意识损失(TAL)是另一个模块,它以其移动速度适应每个对象的体重。实际上,我们考虑了多个速度驾驶场景,并进一步提出了含量不足的流媒体AP(VSAP)以共同评估准确性。在这种现实的环境中,我们设计了一种有效的混合速度训练策略,以指导检测器感知任何速度。我们的简单方法与强大的基线相比,在Argoverse-HD数据集上实现了最先进的性能,并将SAP和VSAP分别提高了4.7%和8.2%,从而验证了其有效性。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
Visually impaired people usually find it hard to travel independently in many public places such as airports and shopping malls due to the problems of obstacle avoidance and guidance to the desired location. Therefore, in the highly dynamic indoor environment, how to improve indoor navigation robot localization and navigation accuracy so that they guide the visually impaired well becomes a problem. One way is to use visual SLAM. However, typical visual SLAM either assumes a static environment, which may lead to less accurate results in dynamic environments or assumes that the targets are all dynamic and removes all the feature points above, sacrificing computational speed to a large extent with the available computational power. This paper seeks to explore marginal localization and navigation systems for indoor navigation robotics. The proposed system is designed to improve localization and navigation accuracy in highly dynamic environments by identifying and tracking potentially moving objects and using vector field histograms for local path planning and obstacle avoidance. The system has been tested on a public indoor RGB-D dataset, and the results show that the new system improves accuracy and robustness while reducing computation time in highly dynamic indoor scenes.
translated by 谷歌翻译
在这项工作中,我们提出了一个新颖的调度框架,可随时对基于深神经网络(DNN)的3D对象检测管道的感知。我们专注于计算昂贵的区域提案网络(RPN)和每个类别多头检测器组件,这些探测器组件在3D对象检测管道中很常见,并使它们变得截止日期。我们提出了一种调度算法,该算法巧妙地选择了组件的子集,以实现有效的时间和准确性权衡。我们通过通过估计将先前检测到的对象投射到当前场景上,从而最大程度地减少跳过某些神经网络子组件的准确性损失。我们将方法应用于最先进的3D对象检测网络,Pointpillars,并使用Nuscenes数据集评估其在Jetson Xavier Agx上的性能。与基线相比,我们的方法在各种截止日期限制下显着提高了网络的准确性。
translated by 谷歌翻译
基于DNN的视频对象检测(VOD)为自动驾驶和视频监视行业提供了重要的重要性和有希望的机会。但是,由于其实用性,可行性和强大的攻击效果,对抗贴片攻击在现场视觉任务中产生了巨大的关注。这项工作提出了Themis,这是一种软件/硬件系统,可防止对抗贴片,以实时稳健的视频对象检测。我们观察到,对抗斑块在具有非稳定预测的小区域中表现出极为局部的表面特征,因此提出了对抗区域检测算法,以消除对抗性效应。Themis还提出了一种系统的设计,以通过消除冗余计算和记忆运输来有效地支持该算法。实验结果表明,提出的方法可以有效地从可忽略的硬件开销中从对抗性攻击中恢复系统。
translated by 谷歌翻译