预计将在2026年促使新兴的无人机航空公司(UAV)服务市场达到584亿美元,促使常规将常规无人机运营促进到国家空域中的重大努力,以至于它们不会损害现有的安全水平。通过感觉和避免潜在的中空碰撞威胁,将提高无人机的商业用途,但是在缺乏可用的数据集时,该领域的研究是缺乏可用的数据集,因为它们昂贵且技术上是为了捕获。在本文中,我们为基于视觉的飞机检测提供了一个数据集。 DataSet由15个图像序列组成,其中包含55,521张固定翼飞机的图像,接近固定式接地的摄像头。还提供了地面真理标签和绩效基准。为了我们的知识,这是第一个在碰撞课程上学习中型固定翼飞机的第一个公共数据集。完整的数据集和地面真理标签在https://qcr.github.io/dataset/aircraft -collision-.c资料/航空公司
translated by 谷歌翻译
检测和避免(DAA)功能对于无人飞机系统(UAS)的安全操作至关重要。本文介绍了Airtrack,这是一个仅实时视觉检测和跟踪框架,尊重SUAS系统的大小,重量和功率(交换)约束。鉴于遥远飞机的低信噪比(SNR),我们建议在深度学习框架中使用完整的分辨率图像,以对齐连续的图像以消除自我动态。然后,对齐的图像在级联的初级和次级分类器中下游使用,以改善多个指标的检测和跟踪性能。我们表明,Airtrack在亚马逊机载对象跟踪(AOT)数据集上胜过最先进的基线。多次现实世界的飞行测试与CESSNA 172与通用航空交通相互作用,并在受控的设置中朝着UAS飞向UAS的其他近碰撞飞行测试,该拟议方法满足了新引入的ASTM F3442/F3442M标准DAA标准。经验评估表明,我们的系统的概率超过900m,范围超过95%。视频可在https://youtu.be/h3ll_wjxjpw上找到。
translated by 谷歌翻译
复杂的自然环境中的小目标运动检测是自主机器人的一个极具挑战性的任务。令人惊讶的是,昆虫的视觉系统已经进化为在检测配合和跟踪猎物中的高效,即使目标占据到几个视野的少数程度上,也是如此。对小目标运动的良好敏感性依赖于一类称为小目标运动检测器(STMDS)的专用神经元。然而,现有的基于STMD的模型严重依赖于视觉对比度,并且在复杂的自然环境中表现不良,其中小目标通常呈现极低对比的邻近背景。在本文中,我们开发了一个关注和预测的导向系统,以克服这种限制。开发的视觉系统包括三个主要子系统,即注意模块,基于STMD的神经网络和预测模块。注意模块在输入图像的预测区域中搜索潜在的小目标,并增强它们对复杂背景的对比度。基于STMD的神经网络接收到对比度增强的图像,并从背景误报上区分小型移动目标。预测模块预测检测到的目标的未来位置,并为注意模块生成预测映射。三个子系统以经常性架构连接,允许顺序处理信息以激活特定区域以进行小目标检测。关于合成和现实世界数据集的广泛实验证明了所提出的视觉系统的有效性和优越性,用于检测用于复杂的自然环境的小型低对比度移动目标。
translated by 谷歌翻译
由于存在浓烟或阴霾,从室外视觉环境收集的图像通常会降解。在这些退化的视觉环境(DVE)中,在场景理解中进行研究的关键挑战是缺乏代表性的基准数据集。这些数据集需要评估降级设置中的最新对象识别和其他计算机视觉算法。在本文中,我们通过引入带有朦胧和无雾图像的第一个配对的真实图像基准数据集以及原位的雾化密度测量来解决其中的一些限制。该数据集是在受控的环境中生产的,其专业烟雾产生机器覆盖了整个场景,并由从无人机(UAV)(UAV)和无人接地车(UGV)的角度捕获的图像组成。我们还评估了一组代表性的最先进的飞行方法以及数据集中的对象探测器。本文介绍的完整数据集,包括地面真相对象分类框和雾密度测量值,为社区提供了以下网址评估其算法的信息:https://a2i2-archangel.vision。该数据集的一个子集已用于在CVPR UG2 2022挑战的雾痕中进行对象检测。
translated by 谷歌翻译
自动检测飞行无人机是一个关键问题,其存在(特别是未经授权)可以造成风险的情况或损害安全性。在这里,我们设计和评估了多传感器无人机检测系统。结合常见的摄像机和麦克风传感器,我们探索了热红外摄像机的使用,指出是一种可行且有希望的解决方案,在相关文献中几乎没有解决。我们的解决方案还集成了鱼眼相机,以监视天空的更大部分,并将其他摄像机转向感兴趣的对象。传感溶液与ADS-B接收器,GPS接收器和雷达模块相辅相成,尽管由于其有限的检测范围,后者未包含在我们的最终部署中。即使此处使用的摄像机的分辨率较低,热摄像机也被证明是与摄像机一样好的可行解决方案。我们作品的另外两个新颖性是创建一个新的公共数据集的多传感器注释数据,该数据与现有的类别相比扩大了类的数量,以及对探测器性能的研究作为传感器到传感器的函数的研究目标距离。还探索了传感器融合,表明可以以这种方式使系统更强大,从而减轻对单个传感器的虚假检测
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
由于其前所未有的优势,在规模,移动,部署和隐蔽观察能力方面,空中平台和成像传感器的快速出现是实现新的空中监测形式。本文从计算机视觉和模式识别的角度来看,全面概述了以人为本的空中监控任务。它旨在为读者提供使用无人机,无人机和其他空中平台的空中监测任务当前状态的深入系统审查和技术分析。感兴趣的主要对象是人类,其中要检测单个或多个受试者,识别,跟踪,重新识别并进行其行为。更具体地,对于这四项任务中的每一个,我们首先讨论与基于地面的设置相比在空中环境中执行这些任务的独特挑战。然后,我们审查和分析公共可用于每项任务的航空数据集,并深入了解航空文学中的方法,并调查他们目前如何应对鸟瞰挑战。我们在讨论缺失差距和开放研究问题的讨论中得出结论,告知未来的研究途径。
translated by 谷歌翻译
卫星摄像机可以为大型区域提供连续观察,这对于许多遥感应用很重要。然而,由于对象的外观信息不足和缺乏高质量数据集,在卫星视频中实现移动对象检测和跟踪仍然具有挑战性。在本文中,我们首先构建一个具有丰富注释的大型卫星视频数据集,用于移动对象检测和跟踪的任务。该数据集由Jilin-1卫星星座收集,并由47个高质量视频组成,对象检测有1,646,038兴趣的情况和用于对象跟踪的3,711个轨迹。然后,我们引入运动建模基线,以提高检测速率并基于累积多帧差异和鲁棒矩阵完成来减少误报。最后,我们建立了第一个用于在卫星视频中移动对象检测和跟踪的公共基准,并广泛地评估在我们数据集上几种代表方法的性能。还提供了综合实验分析和富有魅力的结论。数据集可在https://github.com/qingyonghu/viso提供。
translated by 谷歌翻译
这项工作为卫星视频中的车辆检测提供了一种深度学习方法。由于车辆的微小(4-10像素)及其与背景的相似性,因此在单个EO卫星图像中可能不可能进行车辆检测。取而代之的是,我们考虑卫星视频,该视频克服了由于车辆运动的时间一致性而缺乏空间信息。提出了一种紧凑型$ 3 $ 3 $卷积的神经网络的新时空模型,该模型忽略了合并层并使用泄漏的保留。然后,我们使用输出热图的重新制定,包括最终分割的非最大抑制(NMS)。两个新的带注释的卫星视频的经验结果重新确认该方法用于车辆检测的适用性。他们更重要的是表明,对WAMI数据进行预训练,然后在几个带注释的视频帧上进行微调以进行新视频就足够了。在我们的实验中,只有五个带注释的图像在新视频中产生的$ F_1 $得分为0.81,显示出比拉斯维加斯视频更复杂的流量模式。我们对拉斯维加斯的最佳结果是$ F_1 $得分为0.87,这使得拟议的方法成为该基准的领先方法。
translated by 谷歌翻译
在过去的十年中,自动驾驶航空运输车辆引起了重大兴趣。这是通过空中操纵器和新颖的握手的技术进步来实现这一目标的。此外,改进的控制方案和车辆动力学能够更好地对有效载荷进行建模和改进的感知算法,以检测无人机(UAV)环境中的关键特征。在这项调查中,对自动空中递送车辆的技术进步和开放研究问题进行了系统的审查。首先,详细讨论了各种类型的操纵器和握手,以及动态建模和控制方法。然后,讨论了降落在静态和动态平台上的。随后,诸如天气状况,州估计和避免碰撞之类的风险以确保安全过境。最后,调查了交付的UAV路由,该路由将主题分为两个领域:无人机操作和无人机合作操作。
translated by 谷歌翻译
The ability to capture detailed interactions among individuals in a social group is foundational to our study of animal behavior and neuroscience. Recent advances in deep learning and computer vision are driving rapid progress in methods that can record the actions and interactions of multiple individuals simultaneously. Many social species, such as birds, however, live deeply embedded in a three-dimensional world. This world introduces additional perceptual challenges such as occlusions, orientation-dependent appearance, large variation in apparent size, and poor sensor coverage for 3D reconstruction, that are not encountered by applications studying animals that move and interact only on 2D planes. Here we introduce a system for studying the behavioral dynamics of a group of songbirds as they move throughout a 3D aviary. We study the complexities that arise when tracking a group of closely interacting animals in three dimensions and introduce a novel dataset for evaluating multi-view trackers. Finally, we analyze captured ethogram data and demonstrate that social context affects the distribution of sequential interactions between birds in the aviary.
translated by 谷歌翻译
自主车辆的环境感知受其物理传感器范围和算法性能的限制,以及通过降低其对正在进行的交通状况的理解的闭塞。这不仅构成了对安全和限制驾驶速度的重大威胁,而且它也可能导致不方便的动作。智能基础设施系统可以帮助缓解这些问题。智能基础设施系统可以通过在当前交通情况的数字模型的形式提供关于其周围环境的额外详细信息,填补了车辆的感知中的差距并扩展了其视野。数字双胞胎。然而,这种系统的详细描述和工作原型表明其可行性稀缺。在本文中,我们提出了一种硬件和软件架构,可实现这样一个可靠的智能基础架构系统。我们在现实世界中实施了该系统,并展示了它能够创建一个准确的延伸高速公路延伸的数字双胞胎,从而提高了自主车辆超越其车载传感器的极限的感知。此外,我们通过使用空中图像和地球观测方法来评估数字双胞胎的准确性和可靠性,用于产生地面真理数据。
translated by 谷歌翻译
Computer vision applications in intelligent transportation systems (ITS) and autonomous driving (AD) have gravitated towards deep neural network architectures in recent years. While performance seems to be improving on benchmark datasets, many real-world challenges are yet to be adequately considered in research. This paper conducted an extensive literature review on the applications of computer vision in ITS and AD, and discusses challenges related to data, models, and complex urban environments. The data challenges are associated with the collection and labeling of training data and its relevance to real world conditions, bias inherent in datasets, the high volume of data needed to be processed, and privacy concerns. Deep learning (DL) models are commonly too complex for real-time processing on embedded hardware, lack explainability and generalizability, and are hard to test in real-world settings. Complex urban traffic environments have irregular lighting and occlusions, and surveillance cameras can be mounted at a variety of angles, gather dirt, shake in the wind, while the traffic conditions are highly heterogeneous, with violation of rules and complex interactions in crowded scenarios. Some representative applications that suffer from these problems are traffic flow estimation, congestion detection, autonomous driving perception, vehicle interaction, and edge computing for practical deployment. The possible ways of dealing with the challenges are also explored while prioritizing practical deployment.
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
为了使机器人系统在高风险,现实世界中取得成功,必须快速部署和强大的环境变化,表现不佳的硬件以及任务子任务失败。这些机器人通常被设计为考虑一系列任务事件,复杂的算法在某些关键的约束下降低了单个子任务失败率。我们的方法在视觉和控制中利用了共同的技术,并通过结果监测和恢复策略将鲁棒性编码为任务结构。此外,我们的系统基础架构可以快速部署,并且不需要中央通信。该报告还包括快速现场机器人开发和测试的课程。我们通过现实机器人实验在美国宾夕法尼亚州匹兹堡的户外测试地点以及2020年的穆罕默德·本·扎耶德国际机器人挑战赛开发和评估了我们的系统。所有竞争试验均在没有RTK-GP的情况下以完全自主模式完成。我们的系统在挑战2中排名第四,在大挑战赛中排名第七,诸如弹出五个气球(挑战1)之类的显着成就,成功地挑选和放置了一个障碍(挑战2),并将最多的水分配到户外,带有真正的户外火,并与自治无人机(挑战3)。
translated by 谷歌翻译
The last decade witnessed increasingly rapid progress in self-driving vehicle technology, mainly backed up by advances in the area of deep learning and artificial intelligence. The objective of this paper is to survey the current state-of-the-art on deep learning technologies used in autonomous driving. We start by presenting AI-based self-driving architectures, convolutional and recurrent neural networks, as well as the deep reinforcement learning paradigm. These methodologies form a base for the surveyed driving scene perception, path planning, behavior arbitration and motion control algorithms. We investigate both the modular perception-planning-action pipeline, where each module is built using deep learning methods, as well as End2End systems, which directly map sensory information to steering commands. Additionally, we tackle current challenges encountered in designing AI architectures for autonomous driving, such as their safety, training data sources and computational hardware. The comparison presented in this survey helps to gain insight into the strengths and limitations of deep learning and AI approaches for autonomous driving and assist with design choices. 1
translated by 谷歌翻译
Unmanned air vehicles (UAVs) popularity is on the rise as it enables the services like traffic monitoring, emergency communications, deliveries, and surveillance. However, the unauthorized usage of UAVs (a.k.a drone) may violate security and privacy protocols for security-sensitive national and international institutions. The presented challenges require fast, efficient, and precise detection of UAVs irrespective of harsh weather conditions, the presence of different objects, and their size to enable SafeSpace. Recently, there has been significant progress in using the latest deep learning models, but those models have shortcomings in terms of computational complexity, precision, and non-scalability. To overcome these limitations, we propose a precise and efficient multiscale and multifeature UAV detection network for SafeSpace, i.e., \textit{MultiFeatureNet} (\textit{MFNet}), an improved version of the popular object detection algorithm YOLOv5s. In \textit{MFNet}, we perform multiple changes in the backbone and neck of the YOLOv5s network to focus on the various small and ignored features required for accurate and fast UAV detection. To further improve the accuracy and focus on the specific situation and multiscale UAVs, we classify the \textit{MFNet} into small (S), medium (M), and large (L): these are the combinations of various size filters in the convolution and the bottleneckCSP layers, reside in the backbone and neck of the architecture. This classification helps to overcome the computational cost by training the model on a specific feature map rather than all the features. The dataset and code are available as an open source: github.com/ZeeshanKaleem/MultiFeatureNet.
translated by 谷歌翻译
我们介绍了Caltech Fish计数数据集(CFC),这是一个用于检测,跟踪和计数声纳视频中鱼类的大型数据集。我们将声纳视频识别为可以推进低信噪比计算机视觉应用程序并解决多对象跟踪(MOT)和计数中的域概括的丰富数据来源。与现有的MOT和计数数据集相比,这些数据集主要仅限于城市中的人和车辆的视频,CFC来自自然世界领域,在该域​​中,目标不容易解析,并且无法轻易利用外观功能来进行目标重新识别。 CFC允许​​研究人员训练MOT和计数算法并评估看不见的测试位置的概括性能。我们执行广泛的基线实验,并确定在MOT和计数中推进概括的最新技术的关键挑战和机会。
translated by 谷歌翻译
自动交通事故检测已吸引机器视觉社区,因为它对自动智能运输系统(ITS)的发展产生了影响和对交通安全的重要性。然而,大多数关于有效分析和交通事故预测的研究都使用了覆盖范围有限的小规模数据集,从而限制了其效果和适用性。交通事故中现有的数据集是小规模,不是来自监视摄像机,而不是开源的,或者不是为高速公路场景建造的。由于在高速公路上发生事故,因此往往会造成严重损坏,并且太快了,无法赶上现场。针对从监视摄像机收集的高速公路交通事故的开源数据集非常需要和实际上。为了帮助视觉社区解决这些缺点,我们努力收集涵盖丰富场景的真实交通事故的视频数据。在通过各个维度进行集成和注释后,在这项工作中提出了一个名为TAD的大规模交通事故数据集。在这项工作中,使用公共主流视觉算法或框架进行了有关图像分类,对象检测和视频分类任务的各种实验,以证明不同方法的性能。拟议的数据集以及实验结果将作为改善计算机视觉研究的新基准提出,尤其是在其中。
translated by 谷歌翻译