在由车辆安装的仪表板摄像机捕获的视频中检测危险交通代理(仪表板)对于促进在复杂环境中的安全导航至关重要。与事故相关的视频只是驾驶视频大数据的一小部分,并且瞬态前的事故流程具有高度动态和复杂性。此外,风险和非危险交通代理的外观可能相似。这些使驾驶视频中的风险对象本地化特别具有挑战性。为此,本文提出了一个注意力引导的多式功能融合网络(AM-NET),以将仪表板视频的危险交通代理本地化。两个封闭式复发单元(GRU)网络使用对象边界框和从连续视频帧中提取的光流功能来捕获时空提示,以区分危险交通代理。加上GRUS的注意力模块学会了与事故相关的交通代理。融合了两个功能流,AM-NET预测了视频中交通代理的风险评分。在支持这项研究的过程中,本文还引入了一个名为“风险对象本地化”(ROL)的基准数据集。该数据集包含带有事故,对象和场景级属性的空间,时间和分类注释。拟议的AM-NET在ROL数据集上实现了85.73%的AUC的有希望的性能。同时,AM-NET在DOTA数据集上优于视频异常检测的当前最新视频异常检测。一项彻底的消融研究进一步揭示了AM-NET通过评估其不同组成部分的贡献的优点。
translated by 谷歌翻译
美国庞大的桥梁网络对其维护和康复提出了很高的要求。手动视觉检查的大量费用在某种程度上是一定程度的负担。高级机器人已被利用以自动化检查数据收集。在大量检查图像数据中,自动化多类元素的分割以及元素的表面缺陷将有助于对桥梁条件进行有效评估。培训单独的单任务网络,用于元素解析(即多类元素的语义分割)和缺陷分段无法在检查图像中合并这两个任务之间的密切连接,其中存在可识别的结构元素和明显的表面缺陷。本文的动机是开发多任务深神经网络,该网络完全利用桥梁元素和缺陷之间的这种相互依赖性来提高模型的性能和概括。此外,研究了提议的网络设计改善任务性能的有效性,包括特征分解,串扰共享和多目标损耗函数。开发了带有桥梁元件和腐蚀的像素级标签的数据集,用于培训和评估模型。评估开发的多任务深神经网络的定量和定性结果表明,推荐的网络不仅超过了独立的单任务网络(在桥梁解析上高2.59%,在腐蚀细分方面高2.59%),而且在计算时间和实施中也是如此能力。
translated by 谷歌翻译
空中机器人(例如无人机)已被利用进行桥梁检查。可以通过板载摄像机收集具有可识别的结构元素和明显表面缺陷的检查图像,以提供有价值的信息以进行条件评估。本文旨在确定用于在检查图像中解析多类桥梁元素的合适的深神经网络(DNN)。一组广泛的定量评估以及定性示例表明,高分辨率净(HRNET)具有所需的能力。通过数据增强和130张图像的训练样本,预先训练的HRNET有效地转移到结构元件解析的任务中,并达到了92.67%的平均F1得分和86.33%的平均值。
translated by 谷歌翻译
每两年必须在美国超过60,000座桥梁识别可能需要随访维护的缺陷,缺陷或潜在问题。桥梁检查采用无人驾驶飞行器(或无人机),以提高安全性,效率和成本效益。虽然无人机可以以自主模式运行,但是保持循环中的检查器对于桥接检查中的复杂任务至关重要。因此,检查员需要培养在工作中操作无人机的技能和信心。本文介绍了桥梁检验中无人机辅助的视察师的虚拟现实培训和评估系统的设计和开发。该系统由四个集成模块组成:在UNITY中开发的模拟桥检查,允许受训者在模拟中操作无人机,使用遥控器,数据监控和分析为学员提供实时反馈,这是一种界面为协助他们的学习,以及支持个性化培训的后期评估。本文还进行了概念验证的试验研究,以说明该系统的功能。该研究表明,作为早期培训的工具,Tasbid可以客观地详细识别个人的培训需求,并进一步帮助他们开发与桥接检查中的无人机合作的技能和信心。该系统建立了一种建模和分析平台,用于探索民用基础设施的人机合作检查的先进解决方案。
translated by 谷歌翻译
交通事故预期是自动化驾驶系统(广告)提供安全保证的驾驶体验的重要功能。事故预期模型旨在在发生之前及时准确地预测事故。现有的人工智能(AI)意外预期模型缺乏对其决策的人类可意识形态的解释。虽然这些模型表现良好,但它们仍然是广告用户的黑匣子,因此难以获得他们的信任。为此,本文介绍了一个门控复发单位(GRU)网络,用于了解从Dashcam视频数据的交通事故的早期期间的时空关系特征。名为Grad-CAM的后HOC关注机制被集成到网络中,以产生显着图作为事故预期决策的视觉解释。眼跟踪器捕获人眼固定点以产生人类注意图。与人类注意图相比,评估网络生成的显着性图的解释性。在公共崩溃数据集上的定性和定量结果证实,建议的可解释网络可以平均预期事故,然后在发生之前的4.57秒,平均精度为94.02%。此外,评估各种基于HOC的基于后关注的XAI方法。它证实了本研究选择的渐变凸轮可以产生高质量的人类可解释的显着性图(具有1.23标准化的扫描路径显着性),以解释碰撞预期决定。重要的是,结果证实,拟议的AI模型,具有人类灵感设计,可以在事故期内超越人类。
translated by 谷歌翻译
传感器技术和人工智能的快速进步正在为交通安全增强创造新的机遇。仪表板相机(Dashcams)已广泛部署在人类驾驶车辆和自动驾驶车辆上。可以准确和迅速地预测来自Dashcam视频的事故的计算智能模型将增强事故预防的准备。交通代理的空间时间相互作用复杂。预测未来事故的视觉提示深深嵌入了Dashcam视频数据中。因此,交通事故的早期期待仍然是一个挑战。受到人类在视觉感知事故风险中的注意力行为的启发,提出了一种动态的空间 - 时间关注(DSTA)网络,用于从Dashcam视频的早期事故预期。 DSTA网络学习用动态时间关注(DTA)模块来选择视频序列的判别时间片段。它还学会专注于带有动态空间注意(DSA)模块的帧的信息空间区域。门控复发单元(GRU)与注意模块共同培训,以预测未来事故的可能性。在两个基准数据集上对DSTA网络的评估确认它已超过最先进的性能。一种彻底的消融研究,评估组件级别的DSTA网络揭示了网络如何实现这种性能。此外,本文提出了一种从两个互补模型中融合预测分数的方法,并验证其有效性进一步提高早期事故预期的性能。
translated by 谷歌翻译
大自然影响了许多元元素算法。在过去的几十年中,它们的数量一直在升级。这些算法中的大多数试图模仿自然的生物学和物理现象。这项研究集中在花授粉算法上,该算法是几种生物启发的算法之一。建议使用特定的全球授粉和局部授粉策略,建议在限制空间中进行花粉谷物探索和剥削。作为一种“群”元元素算法,其强度在于找到最佳解决方案的附近,而不是识别最小值。这项工作详细介绍了对原始方法的修改。这项研究发现,通过更改“开关概率”的特定值,具有不同尺寸和功能的动态值,结果主要比原始花授粉法改进。
translated by 谷歌翻译
尽管用被动传感器的深度提取的深度提取可以通过深度学习的显着改善,但是如果在训练过程中未观察到的环境,这些方法可能无法获得正确的深度。在部署时神经网络训练的在线改编,通过自我监督的学习提供了方便的解决方案,因为网络可以从不外部监督的情况下从部署的场景中学习。但是,在线适应会导致神经网络忘记了过去。因此,过去的培训浪费了,如果网络观察到过去的场景,该网络将无法提供良好的结果。这项工作涉及实用的在线适应,其中输入是在线且与时间相关的,并且培训是完全自欺欺人的。提出了没有任务界限的基于正规化和基于重播的方法,以避免在适应在线数据时灾难性遗忘。已经努力使建议的方法适合实际使用。我们将我们的方法应用于结构 - 动作和立体声深度估计。我们评估了包括室外,室内和合成场景在内的不同公共数据集的方法。与最近的方法相比,结构上的定性和定量结果既显示出较高的遗忘以及适应性的表现。此外,与在线适应进行微调相比,提出的方法会忽略不计的间接费用,这在可塑性,稳定性和适用性方面是一个适当的选择。当神经网络不受监督而不断学习时,提出的方法与人工通用情报范式更加内联。源代码可从https://github.com/umarkarim/cou_sfm和https://github.com/umarkarim/cou_stereo获得。
translated by 谷歌翻译
Diabetic Retinopathy (DR) is considered one of the primary concerns due to its effect on vision loss among most people with diabetes globally. The severity of DR is mostly comprehended manually by ophthalmologists from fundus photography-based retina images. This paper deals with an automated understanding of the severity stages of DR. In the literature, researchers have focused on this automation using traditional machine learning-based algorithms and convolutional architectures. However, the past works hardly focused on essential parts of the retinal image to improve the model performance. In this paper, we adopt transformer-based learning models to capture the crucial features of retinal images to understand DR severity better. We work with ensembling image transformers, where we adopt four models, namely ViT (Vision Transformer), BEiT (Bidirectional Encoder representation for image Transformer), CaiT (Class-Attention in Image Transformers), and DeiT (Data efficient image Transformers), to infer the degree of DR severity from fundus photographs. For experiments, we used the publicly available APTOS-2019 blindness detection dataset, where the performances of the transformer-based models were quite encouraging.
translated by 谷歌翻译
This paper presents our solutions for the MediaEval 2022 task on DisasterMM. The task is composed of two subtasks, namely (i) Relevance Classification of Twitter Posts (RCTP), and (ii) Location Extraction from Twitter Texts (LETT). The RCTP subtask aims at differentiating flood-related and non-relevant social posts while LETT is a Named Entity Recognition (NER) task and aims at the extraction of location information from the text. For RCTP, we proposed four different solutions based on BERT, RoBERTa, Distil BERT, and ALBERT obtaining an F1-score of 0.7934, 0.7970, 0.7613, and 0.7924, respectively. For LETT, we used three models namely BERT, RoBERTa, and Distil BERTA obtaining an F1-score of 0.6256, 0.6744, and 0.6723, respectively.
translated by 谷歌翻译