在由车辆安装的仪表板摄像机捕获的视频中检测危险交通代理(仪表板)对于促进在复杂环境中的安全导航至关重要。与事故相关的视频只是驾驶视频大数据的一小部分,并且瞬态前的事故流程具有高度动态和复杂性。此外,风险和非危险交通代理的外观可能相似。这些使驾驶视频中的风险对象本地化特别具有挑战性。为此,本文提出了一个注意力引导的多式功能融合网络(AM-NET),以将仪表板视频的危险交通代理本地化。两个封闭式复发单元(GRU)网络使用对象边界框和从连续视频帧中提取的光流功能来捕获时空提示,以区分危险交通代理。加上GRUS的注意力模块学会了与事故相关的交通代理。融合了两个功能流,AM-NET预测了视频中交通代理的风险评分。在支持这项研究的过程中,本文还引入了一个名为“风险对象本地化”(ROL)的基准数据集。该数据集包含带有事故,对象和场景级属性的空间,时间和分类注释。拟议的AM-NET在ROL数据集上实现了85.73%的AUC的有希望的性能。同时,AM-NET在DOTA数据集上优于视频异常检测的当前最新视频异常检测。一项彻底的消融研究进一步揭示了AM-NET通过评估其不同组成部分的贡献的优点。
translated by 谷歌翻译
传感器技术和人工智能的快速进步正在为交通安全增强创造新的机遇。仪表板相机(Dashcams)已广泛部署在人类驾驶车辆和自动驾驶车辆上。可以准确和迅速地预测来自Dashcam视频的事故的计算智能模型将增强事故预防的准备。交通代理的空间时间相互作用复杂。预测未来事故的视觉提示深深嵌入了Dashcam视频数据中。因此,交通事故的早期期待仍然是一个挑战。受到人类在视觉感知事故风险中的注意力行为的启发,提出了一种动态的空间 - 时间关注(DSTA)网络,用于从Dashcam视频的早期事故预期。 DSTA网络学习用动态时间关注(DTA)模块来选择视频序列的判别时间片段。它还学会专注于带有动态空间注意(DSA)模块的帧的信息空间区域。门控复发单元(GRU)与注意模块共同培训,以预测未来事故的可能性。在两个基准数据集上对DSTA网络的评估确认它已超过最先进的性能。一种彻底的消融研究,评估组件级别的DSTA网络揭示了网络如何实现这种性能。此外,本文提出了一种从两个互补模型中融合预测分数的方法,并验证其有效性进一步提高早期事故预期的性能。
translated by 谷歌翻译
交通事故预期是自动化驾驶系统(广告)提供安全保证的驾驶体验的重要功能。事故预期模型旨在在发生之前及时准确地预测事故。现有的人工智能(AI)意外预期模型缺乏对其决策的人类可意识形态的解释。虽然这些模型表现良好,但它们仍然是广告用户的黑匣子,因此难以获得他们的信任。为此,本文介绍了一个门控复发单位(GRU)网络,用于了解从Dashcam视频数据的交通事故的早期期间的时空关系特征。名为Grad-CAM的后HOC关注机制被集成到网络中,以产生显着图作为事故预期决策的视觉解释。眼跟踪器捕获人眼固定点以产生人类注意图。与人类注意图相比,评估网络生成的显着性图的解释性。在公共崩溃数据集上的定性和定量结果证实,建议的可解释网络可以平均预期事故,然后在发生之前的4.57秒,平均精度为94.02%。此外,评估各种基于HOC的基于后关注的XAI方法。它证实了本研究选择的渐变凸轮可以产生高质量的人类可解释的显着性图(具有1.23标准化的扫描路径显着性),以解释碰撞预期决定。重要的是,结果证实,拟议的AI模型,具有人类灵感设计,可以在事故期内超越人类。
translated by 谷歌翻译
考虑到安全至关重要自动化系统中情境意识的功能,对驾驶场景的风险及其解释性的感知对于自主和合作驾驶特别重要。为了实现这一目标,本文提出了在驾驶场景中的共同风险定位的新研究方向及其作为自然语言描述的风险解释。由于缺乏标准基准,我们收集了一个大规模数据集,戏剧性(带有字幕模块的驾驶风险评估机制),该数据集由17,785个在日本东京收集的互动驾驶场景组成。我们的戏剧数据集适用于带有相关重要对象的驾驶风险的视频和对象级别的问题,以实现视觉字幕的目标,作为一种自由形式的语言描述,利用封闭式和开放式响应用于多层次问题,可以用来使用这些响应,可用于在驾驶场景中评估一系列视觉字幕功能。我们将这些数据提供给社区以进行进一步研究。使用戏剧,我们探索了在互动驾驶场景中的联合风险定位和字幕的多个方面。特别是,我们基准了各种多任务预测架构,并提供了关节风险定位和风险字幕的详细分析。数据集可在https://usa.honda-ri.com/drama上获得
translated by 谷歌翻译
视频异常检测是视觉中的核心问题。正确检测和识别视频数据中行人中的异常行为将使安全至关重要的应用,例如监视,活动监测和人类机器人的互动。在本文中,我们建议利用无监督的行人异常事件检测的轨迹定位和预测。与以前的基于重建的方法不同,我们提出的框架依赖于正常和异常行人轨迹的预测误差来在空间和时间上检测异常。我们介绍了有关不同时间尺度的现实基准数据集的实验结果,并表明我们提出的基于轨迹预言的异常检测管道在识别视频中行人的异常活动方面有效有效。代码将在https://github.com/akanuasiegbu/leveraging-trajectory-prediction-for-pedestrian-video-anomaly-detection上提供。
translated by 谷歌翻译
Computer vision applications in intelligent transportation systems (ITS) and autonomous driving (AD) have gravitated towards deep neural network architectures in recent years. While performance seems to be improving on benchmark datasets, many real-world challenges are yet to be adequately considered in research. This paper conducted an extensive literature review on the applications of computer vision in ITS and AD, and discusses challenges related to data, models, and complex urban environments. The data challenges are associated with the collection and labeling of training data and its relevance to real world conditions, bias inherent in datasets, the high volume of data needed to be processed, and privacy concerns. Deep learning (DL) models are commonly too complex for real-time processing on embedded hardware, lack explainability and generalizability, and are hard to test in real-world settings. Complex urban traffic environments have irregular lighting and occlusions, and surveillance cameras can be mounted at a variety of angles, gather dirt, shake in the wind, while the traffic conditions are highly heterogeneous, with violation of rules and complex interactions in crowded scenarios. Some representative applications that suffer from these problems are traffic flow estimation, congestion detection, autonomous driving perception, vehicle interaction, and edge computing for practical deployment. The possible ways of dealing with the challenges are also explored while prioritizing practical deployment.
translated by 谷歌翻译
对行人行为的预测对于完全自主车辆安全有效地在繁忙的城市街道上驾驶至关重要。未来的自治车需要适应混合条件,不仅具有技术还是社会能力。随着更多算法和数据集已经开发出预测行人行为,这些努力缺乏基准标签和估计行人的时间动态意图变化的能力,提供了对交互场景的解释,以及具有社会智能的支持算法。本文提出并分享另一个代表数据集,称为Iupui-CSRC行人位于意图(PSI)数据,除了综合计算机视觉标签之外,具有两种创新标签。第一部小说标签是在自助式车辆前面交叉的行人的动态意图变化,从24个司机中实现了不同的背景。第二个是在估计行人意图并在交互期间预测其行为时对驾驶员推理过程的基于文本的解释。这些创新标签可以启用几个计算机视觉任务,包括行人意图/行为预测,车辆行人互动分割和用于可解释算法的视频到语言映射。发布的数据集可以从根本上从根本上改善行人行为预测模型的发展,并开发社会智能自治车,以有效地与行人进行互动。 DataSet已被不同的任务进行评估,并已释放到公众访问。
translated by 谷歌翻译
行人意图预测问题是估计目标行人是否会过马路。最先进的方法在很大程度上依赖于使用自我车辆的前置摄像头收集的视觉信息来预测行人的意图。因此,当视觉信息不准确时,例如,当行人和自我车辆之间的距离远处或照明条件不够好时,现有方法的性能会显着降低。在本文中,我们根据与行人的智能手表(或智能手机)收集的运动传感器数据的集成,设计,实施和评估第一个行人意图预测模型。提出了一种新型的机器学习体系结构,以有效地合并运动传感器数据,以加强视觉信息,以显着改善视觉信息可能不可靠的不利情况的性能。我们还进行了大规模的数据收集,并介绍了与时间同步运动传感器数据集成的第一个行人意图预测数据集。该数据集由总共128个视频剪辑组成,这些视频片段具有不同的距离和不同级别的照明条件。我们使用广泛使用的JAAD和我们自己的数据集训练了模型,并将性能与最先进的模型进行了比较。结果表明,我们的模型优于最新方法,特别是当行人的距离远(超过70m)并且照明条件不足时。
translated by 谷歌翻译
自动交通事故检测已吸引机器视觉社区,因为它对自动智能运输系统(ITS)的发展产生了影响和对交通安全的重要性。然而,大多数关于有效分析和交通事故预测的研究都使用了覆盖范围有限的小规模数据集,从而限制了其效果和适用性。交通事故中现有的数据集是小规模,不是来自监视摄像机,而不是开源的,或者不是为高速公路场景建造的。由于在高速公路上发生事故,因此往往会造成严重损坏,并且太快了,无法赶上现场。针对从监视摄像机收集的高速公路交通事故的开源数据集非常需要和实际上。为了帮助视觉社区解决这些缺点,我们努力收集涵盖丰富场景的真实交通事故的视频数据。在通过各个维度进行集成和注释后,在这项工作中提出了一个名为TAD的大规模交通事故数据集。在这项工作中,使用公共主流视觉算法或框架进行了有关图像分类,对象检测和视频分类任务的各种实验,以证明不同方法的性能。拟议的数据集以及实验结果将作为改善计算机视觉研究的新基准提出,尤其是在其中。
translated by 谷歌翻译
当应用于自动驾驶汽车设置时,行动识别可以帮助丰富环境模型对世界的理解并改善未来行动的计划。为了改善自动驾驶汽车决策,我们在这项工作中提出了一种新型的两阶段在线行动识别系统,称为RADAC。RADAC提出了主动剂检测的问题,并在直接的两阶段管道中以进行动作检测和分类的直接识别人类活动识别中的参与者关系的想法。我们表明,我们提出的计划可以胜过ICCV2021 ROAD挑战数据集上的基线,并通过将其部署在真实的车辆平台上,我们演示了对环境中代理行动的高阶理解如何可以改善对真实自动驾驶汽车的决策。
translated by 谷歌翻译
在自动车辆(AVS)中,预警系统依赖于碰撞预测,以确保乘员安全。然而,使用深度卷积网络的最先进的方法在建模冲突中失败或者太昂贵/慢,使它们不太适合在AV边缘硬件上部署。为了解决这些限制,我们提出了SG2VEC,一种使用图形神经网络(GNN)和长短期内存(LSTM)层的时空场景图嵌入方法,以通过视觉场景感知来预测未来的碰撞。我们展示SG2VEC预测碰撞8.11%,比综合数据集的最新方法提前39.07%,在挑战现实世界碰撞数据集中更准确地进行29.47%。我们还表明,SG2VEC在将知识从合成数据集转移到现实世界驾驶数据集时更好。最后,我们证明SG2VEC更快地执行推论9.3X,较小的型号为88.0%,功率少32.4%,而且能量少于行业标准的NVIDIA驱动PX 2平台,制作它更适合在边缘实施。
translated by 谷歌翻译
深度学习模型已广泛用于监控视频中的异常检测。典型模型配备了重建普通视频的能力,并评估异常视频的重建错误以指示异常的程度。然而,现有方法遭受了两个缺点。首先,它们只能独立地编码每个身份的运动,而不考虑身份之间的相互作用,这也可以指示异常。其次,他们利用了结构在不同场景下固定的粘合模型,这种配置禁止了对场景的理解。在本文中,我们提出了一个分层时空图卷积神经网络(HSTGCNN)来解决这些问题,HSTGCNN由对应于不同级别的图形表示的多个分支组成。高级图形表示编码人们的轨迹以及多个身份之间的交互,而低级图表表示编码每个人的本地身体姿势。此外,我们建议加权组合在不同场景中更好的多个分支。以这种方式实现了对单级图形表示的改进。实现了对场景的理解并提供异常检测。在低分辨率视频中为在低分辨率视频中编码低分辨率视频中的人员的移动速度和方向编码高级别的图表表示,而在高分辨率视频中将更高的权重分配更高的权重。实验结果表明,建议的HSTGCNN在四个基准数据集(UCSD Spistrian,Shanghaitech,Cuhk Aveance和IITB-Whent)上的当前最先进的模型显着优于最新的最先进模型。
translated by 谷歌翻译
Traffic accident prediction in driving videos aims to provide an early warning of the accident occurrence, and supports the decision making of safe driving systems. Previous works usually concentrate on the spatial-temporal correlation of object-level context, while they do not fit the inherent long-tailed data distribution well and are vulnerable to severe environmental change. In this work, we propose a Cognitive Accident Prediction (CAP) method that explicitly leverages human-inspired cognition of text description on the visual observation and the driver attention to facilitate model training. In particular, the text description provides a dense semantic description guidance for the primary context of the traffic scene, while the driver attention provides a traction to focus on the critical region closely correlating with safe driving. CAP is formulated by an attentive text-to-vision shift fusion module, an attentive scene context transfer module, and the driver attention guided accident prediction module. We leverage the attention mechanism in these modules to explore the core semantic cues for accident prediction. In order to train CAP, we extend an existing self-collected DADA-2000 dataset (with annotated driver attention for each frame) with further factual text descriptions for the visual observations before the accidents. Besides, we construct a new large-scale benchmark consisting of 11,727 in-the-wild accident videos with over 2.19 million frames (named as CAP-DATA) together with labeled fact-effect-reason-introspection description and temporal accident frame label. Based on extensive experiments, the superiority of CAP is validated compared with state-of-the-art approaches. The code, CAP-DATA, and all results will be released in \url{https://github.com/JWFanggit/LOTVS-CAP}.
translated by 谷歌翻译
预期周围车辆的车道变化意图对于自动驾驶系统中的有效且安全的驾驶决策至关重要。以前的作品通常采用物理变量,例如驾驶速度,加速度等进行车道变更分类。但是,物理变量不包含语义信息。尽管3D CNN正在迅速开发,但使用动作识别模型和泳道更改识别的外观特征的方法数量很低,并且它们都需要其他信息来预处理数据。在这项工作中,我们提出了一个端到端框架,包括使用相机收集的视频数据,包括两种用于车道变更识别的动作识别方法。我们的方法仅使用预防数据集的RGB视频数据来实现最佳的车道变更分类结果。类激活图表明,动作识别模型可以有效提取车道变更运动。本文还提出了一种更好地提取运动线索的方法。
translated by 谷歌翻译
计算机视觉在智能运输系统(ITS)和交通监视中发挥了重要作用。除了快速增长的自动化车辆和拥挤的城市外,通过实施深层神经网络的实施,可以使用视频监视基础架构进行自动和高级交通管理系统(ATM)。在这项研究中,我们为实时交通监控提供了一个实用的平台,包括3D车辆/行人检测,速度检测,轨迹估算,拥塞检测以及监视车辆和行人的相互作用,都使用单个CCTV交通摄像头。我们适应了定制的Yolov5深神经网络模型,用于车辆/行人检测和增强的排序跟踪算法。还开发了基于混合卫星的基于混合卫星的逆透视图(SG-IPM)方法,用于摄像机自动校准,从而导致准确的3D对象检测和可视化。我们还根据短期和长期的时间视频数据流开发了层次结构的交通建模解决方案,以了解脆弱道路使用者的交通流量,瓶颈和危险景点。关于现实世界情景和与最先进的比较的几项实验是使用各种交通监控数据集进行的,包括从高速公路,交叉路口和城市地区收集的MIO-TCD,UA-DETRAC和GRAM-RTM,在不同的照明和城市地区天气状况。
translated by 谷歌翻译
We develop a novel framework for single-scene video anomaly localization that allows for human-understandable reasons for the decisions the system makes. We first learn general representations of objects and their motions (using deep networks) and then use these representations to build a high-level, location-dependent model of any particular scene. This model can be used to detect anomalies in new videos of the same scene. Importantly, our approach is explainable - our high-level appearance and motion features can provide human-understandable reasons for why any part of a video is classified as normal or anomalous. We conduct experiments on standard video anomaly detection datasets (Street Scene, CUHK Avenue, ShanghaiTech and UCSD Ped1, Ped2) and show significant improvements over the previous state-of-the-art.
translated by 谷歌翻译
行动检测和公共交通安全是安全社区和更好社会的关键方面。使用不同的监视摄像机监视智能城市中的交通流量可以在识别事故和提醒急救人员中发挥重要作用。计算机视觉任务中的动作识别(AR)的利用为视频监视,医学成像和数字信号处理中的高精度应用做出了贡献。本文提出了一项密集的审查,重点是智能城市的事故检测和自动运输系统中的行动识别。在本文中,我们专注于使用各种交通视频捕获来源的AR系统,例如交通交叉点上的静态监视摄像头,高速公路监控摄像头,无人机摄像头和仪表板。通过这篇综述,我们确定了AR中用于自动运输和事故检测的主要技术,分类法和算法。我们还检查了AR任务中使用的数据集,并识别数据集的数据集和功能的主要来源。本文提供了潜在的研究方向,以开发和整合为自动驾驶汽车和公共交通安全系统的事故检测系统,通过警告紧急人员和执法部门,如果道路事故发生道路事故,以最大程度地减少事故报告中的人为错误,并对受害者提供自发的反应。
translated by 谷歌翻译
随着智能车辆和先进驾驶员援助系统(ADAS)的快速发展,新趋势是人类驾驶员的混合水平将参与运输系统。因此,在这种情况下,司机的必要视觉指导对于防止潜在风险至关重要。为了推进视觉指导系统的发展,我们介绍了一种新的视觉云数据融合方法,从云中集成相机图像和数字双胞胎信息,帮助智能车辆做出更好的决策。绘制目标车辆边界框并在物体检测器的帮助下(在EGO车辆上运行)和位置信息(从云接收)匹配。使用深度图像作为附加特征源获得最佳匹配结果,从工会阈值下面的0.7交叉口下的精度为79.2%。进行了对车道改变预测的案例研究,以表明所提出的数据融合方法的有效性。在案例研究中,提出了一种多层的Perceptron算法,用修改的车道改变预测方法提出。从Unity游戏发动机获得的人型仿真结果表明,在安全性,舒适度和环境可持续性方面,拟议的模型可以显着提高高速公路驾驶性能。
translated by 谷歌翻译
In this work, we tackle two vital tasks in automated driving systems, i.e., driver intent prediction and risk object identification from egocentric images. Mainly, we investigate the question: what would be good road scene-level representations for these two tasks? We contend that a scene-level representation must capture higher-level semantic and geometric representations of traffic scenes around ego-vehicle while performing actions to their destinations. To this end, we introduce the representation of semantic regions, which are areas where ego-vehicles visit while taking an afforded action (e.g., left-turn at 4-way intersections). We propose to learn scene-level representations via a novel semantic region prediction task and an automatic semantic region labeling algorithm. Extensive evaluations are conducted on the HDD and nuScenes datasets, and the learned representations lead to state-of-the-art performance for driver intention prediction and risk object identification.
translated by 谷歌翻译
Speed estimation of an ego vehicle is crucial to enable autonomous driving and advanced driver assistance technologies. Due to functional and legacy issues, conventional methods depend on in-car sensors to extract vehicle speed through the Controller Area Network bus. However, it is desirable to have modular systems that are not susceptible to external sensors to execute perception tasks. In this paper, we propose a novel 3D-CNN with masked-attention architecture to estimate ego vehicle speed using a single front-facing monocular camera. To demonstrate the effectiveness of our method, we conduct experiments on two publicly available datasets, nuImages and KITTI. We also demonstrate the efficacy of masked-attention by comparing our method with a traditional 3D-CNN.
translated by 谷歌翻译