在自主驾驶系统中,感知 - 来自环境的特征和物体的识别 - 至关重要。在自主赛车中,高速和小幅度的距离需要快速准确的检测系统。在比赛期间,天气可能会突然变化,导致感知的显着降解,导致操作效果无效。为了改善恶劣天气的检测,基于深度学习的模型通常需要在这种条件下捕获的广泛数据集 - 这是一种繁琐,费力和昂贵的过程。然而,最新的Conscangan架构的发展允许在多种天气条件下合成高度现实的场景。为此,我们介绍了一种在自主赛车中使用合成的不利条件数据集(使用Cyclegan产生)来提高五个最先进的探测器的性能,平均为42.7和4.4地图百分比点分别存在夜间条件和液滴。此外,我们对五个对象探测器进行了比较分析 - 识别探测器的最佳配对和在挑战条件下自主赛车中使用的培训数据。
translated by 谷歌翻译
Computer vision applications in intelligent transportation systems (ITS) and autonomous driving (AD) have gravitated towards deep neural network architectures in recent years. While performance seems to be improving on benchmark datasets, many real-world challenges are yet to be adequately considered in research. This paper conducted an extensive literature review on the applications of computer vision in ITS and AD, and discusses challenges related to data, models, and complex urban environments. The data challenges are associated with the collection and labeling of training data and its relevance to real world conditions, bias inherent in datasets, the high volume of data needed to be processed, and privacy concerns. Deep learning (DL) models are commonly too complex for real-time processing on embedded hardware, lack explainability and generalizability, and are hard to test in real-world settings. Complex urban traffic environments have irregular lighting and occlusions, and surveillance cameras can be mounted at a variety of angles, gather dirt, shake in the wind, while the traffic conditions are highly heterogeneous, with violation of rules and complex interactions in crowded scenarios. Some representative applications that suffer from these problems are traffic flow estimation, congestion detection, autonomous driving perception, vehicle interaction, and edge computing for practical deployment. The possible ways of dealing with the challenges are also explored while prioritizing practical deployment.
translated by 谷歌翻译
作为自治车辆和自主赛车的竞争程度,所以需要更快,更准确的探测器。虽然我们的裸眼能够几乎立即提取上下文信息,但即使从远处地,图像分辨率和计算资源限制也使检测到较小的对象(即占用输入图像中小像素区域的对象)机器的真正具有挑战性的任务和一个广泛的研究领域。本研究探讨了如何修改流行的yolov5对象检测器以改善其在检测较小物体时的性能,具有自主赛车的特定应用。为实现这一目标,我们调查如何更换模型的某些结构元素(以及它们的连接和其他参数)可以影响性能和推理时间。在这样做时,我们提出了一系列模型,在不同的尺度上,我们命名为“YOLO-Z”,当时在50%iou的较小物体时,在地图上显示出高达6.9%的提高,以仅仅a与原始yolov5相比,推理时间增加3ms。我们的目标是为未来的研究提供调整流行检测器的可能性,例如YOLOV5以解决特定任务,并提供关于具体变化如何影响小对象检测的洞察。应用于自动车辆的更广泛背景的这种发现可以增加这些系统可用的上下文信息的量。
translated by 谷歌翻译
自治机器人目前是最受欢迎的人工智能问题之一,在过去十年中,从自动驾驶汽车和人形系统到交付机器人和无人机,这是一项最受欢迎的智能问题。部分问题是获得一个机器人,以模仿人类的感知,我们的视觉感,用诸如神经网络等数学模型用相机和大脑的眼睛替换眼睛。开发一个能够在没有人为干预的情况下驾驶汽车的AI和一个小型机器人在城市中递送包裹可能看起来像不同的问题,因此来自感知和视觉的观点来看,这两个问题都有几种相似之处。我们目前的主要解决方案通过使用计算机视觉技术,机器学习和各种算法来实现对环境感知的关注,使机器人理解环境或场景,移动,调整其轨迹并执行其任务(维护,探索,等。)无需人为干预。在这项工作中,我们从头开始开发一个小型自动车辆,能够仅使用视觉信息理解场景,通过工业环境导航,检测人员和障碍,或执行简单的维护任务。我们审查了基本问题的最先进问题,并证明了小规模采用的许多方法类似于来自特斯拉或Lyft等公司的真正自动驾驶汽车中使用的方法。最后,我们讨论了当前的机器人和自主驾驶状态以及我们在这一领域找到的技术和道德限制。
translated by 谷歌翻译
在离岸部门以及科学界在水下行动方面的迅速发展,水下车辆变得更加复杂。值得注意的是,许多水下任务,包括对海底基础设施的评估,都是在自动水下车辆(AUV)的帮助下进行的。最近在人工智能(AI)方面取得了突破,尤其是深度学习(DL)模型和应用,这些模型和应用在各种领域都广泛使用,包括空中无人驾驶汽车,自动驾驶汽车导航和其他应用。但是,由于难以获得特定应用的水下数据集,它们在水下应用中并不普遍。从这个意义上讲,当前的研究利用DL领域的最新进步来构建从实验室环境中捕获的物品照片产生的定制数据集。通过将收集到的图像与包含水下环境的照片相结合,将生成的对抗网络(GAN)用于将实验室对象数据集转化为水下域。这些发现证明了创建这样的数据集的可行性,因为与现实世界的水下船体船体图像相比,所得图像与真实的水下环境非常相似。因此,水下环境的人工数据集可以克服因对实际水下图像的有限访问而引起的困难,并用于通过水下对象图像分类和检测来增强水下操作。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
计算机图形技术的最新进展可以使汽车驾驶环境更现实。它们使自动驾驶汽车模拟器(例如DeepGTA-V和Carla(学习采取行动))能够生成大量的合成数据,这些数据可以补充现有的现实世界数据集中,以培训自动驾驶汽车感知。此外,由于自动驾驶汽车模拟器可以完全控制环境,因此它们可以产生危险的驾驶场景,而现实世界中数据集缺乏恶劣天气和事故情况。在本文中,我们将证明将从现实世界收集的数据与模拟世界中生成的数据相结合的有效性,以训练对象检测和本地化任务的感知系统。我们还将提出一个多层次的深度学习感知框架,旨在效仿人类的学习经验,其中在某个领域中学习了一系列从简单到更困难的任务。自动驾驶汽车感知器可以从易于驱动的方案中学习,以通过模拟软件定制的更具挑战性的方案。
translated by 谷歌翻译
本文介绍了用于合成近红外(NIR)图像生成和边界盒水平检测系统的数据集。不可否认的是,诸如Tensorflow或Pytorch之类的高质量机器学习框架以及大规模的Imagenet或可可数据集借助于加速GPU硬件,已将机器学习技术的极限推向了数十多年。在这些突破中,高质量的数据集是可以在模型概括和数据驱动的深神经网络的部署方面取得成功的基本构件之一。特别是,综合数据生成任务通常比其他监督方法需要更多的培训样本。因此,在本文中,我们共享从两个公共数据集(即Nirscene和Sen12ms)和我们的新颖NIR+RGB甜椒(辣椒(辣椒)数据集)重新处理的NIR+RGB数据集。我们定量和定性地证明了这些NIR+RGB数据集足以用于合成NIR图像生成。对于NIRSCENE1,SEN12MS和SEWT PEPPER数据集,我们实现了第11.36、26.53、26.53、26.53和40.15的距离(FID)。此外,我们发布了11个水果边界盒的手动注释,可以使用云服务将其作为各种格式导出。四个新添加的水果[蓝莓,樱桃,猕猴桃和小麦]化合物11新颖的边界盒数据集,在我们先前的DeepFruits项目中提出的作品[Apple,Appsicum,Capsicum,Capsicum,Mango,Orange,Rockmelon,Strawberry]。数据集的边界框实例总数为162K,可以从云服务中使用。为了评估数据集,YOLOV5单阶段检测器被利用并报告了令人印象深刻的平均水平前期,MAP [0.5:0.95]的结果为[min:0.49,最大:0.812]。我们希望这些数据集有用,并作为未来研究的基准。
translated by 谷歌翻译
The last decade witnessed increasingly rapid progress in self-driving vehicle technology, mainly backed up by advances in the area of deep learning and artificial intelligence. The objective of this paper is to survey the current state-of-the-art on deep learning technologies used in autonomous driving. We start by presenting AI-based self-driving architectures, convolutional and recurrent neural networks, as well as the deep reinforcement learning paradigm. These methodologies form a base for the surveyed driving scene perception, path planning, behavior arbitration and motion control algorithms. We investigate both the modular perception-planning-action pipeline, where each module is built using deep learning methods, as well as End2End systems, which directly map sensory information to steering commands. Additionally, we tackle current challenges encountered in designing AI architectures for autonomous driving, such as their safety, training data sources and computational hardware. The comparison presented in this survey helps to gain insight into the strengths and limitations of deep learning and AI approaches for autonomous driving and assist with design choices. 1
translated by 谷歌翻译
我们引入了一种新型的自动驾驶汽车 - 一种自动推土机,有望以有效,健壮和安全的方式完成建筑工地任务。为了更好地处理推土机的路径规划并确保建筑工地的安全性,对象检测是感知任务中最关键的组成部分之一。在这项工作中,我们首先通过开车来收集建筑工地数据。然后,我们彻底分析数据以了解其分布。最后,对两个众所周知的对象检测模型进行了训练,他们的性能通过广泛的训练策略和超参数进行了基准测试。
translated by 谷歌翻译
视频分析的图像分割在不同的研究领域起着重要作用,例如智能城市,医疗保健,计算机视觉和地球科学以及遥感应用。在这方面,最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地,目前正在研究Panoptic细分,以帮助获得更多对视频监控,人群计数,自主驾驶,医学图像分析的图像场景的更细致的知识,以及一般对场景更深入的了解。为此,我们介绍了本文的首次全面审查现有的Panoptic分段方法,以获得作者的知识。因此,基于所采用的算法,应用场景和主要目标的性质,执行现有的Panoptic技术的明确定义分类。此外,讨论了使用伪标签注释新数据集的Panoptic分割。继续前进,进行消融研究,以了解不同观点的Panoptic方法。此外,讨论了适合于Panoptic分割的评估度量,并提供了现有解决方案性能的比较,以告知最先进的并识别其局限性和优势。最后,目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势,可以成为即将到来的研究研究的起点。提供代码的文件可用于:https://github.com/elharroussomar/awesome-panoptic-egation
translated by 谷歌翻译
这项工作审查了水下环境中对象检测问题。我们在应用于这一具有挑战性环境时分析和量化计算机视觉社区中传统最新(SOTA)算法的缺点,以及为未来的研究努力提供见解和一般指导。首先,当对象检测器需要应用于可以应用于不同的特征分布的环境时,我们评估了对象检测器的预先估计是有益的。然后,在精度,联合(iou),每秒浮动操作(拖波)和推理时间的准确性方面,我们是否研究了两级检测器是否能够更好地产生更好的性能。最后,我们将每个模型的概括能力评估为较低质量的数据集,以模拟在实际情况下的性能,其中应该预期骚扰条件。我们的实验结果提供了证据,即水下对象检测需要搜索“ad-hoc”架构,而不是仅仅培训新数据上的SOTA架构,并且预先威胁并不有益。
translated by 谷歌翻译
获取数据以培训基于深入的学习的对象探测器(无人机)昂贵,耗时,甚至可以在特定环境中禁止。另一方面,合成数据快速且便宜。在这项工作中,我们探讨了在各种应用环境中从UVS探讨了对象检测中的合成数据。为此,我们将开源框架DeepGtav扩展到UAV方案的工作。我们在多个域中捕获各种大规模的高分辨率合成数据集,以通过分析多种型号的多种培训策略来展示它们在真实对象检测中的使用。此外,我们分析了几种不同的数据生成和采样参数,以提供可操作的工程建议,以获得进一步的科学研究。DeepGTAV框架可在https://git.io/jyf5j提供。
translated by 谷歌翻译
从汽车和交通检测到自动驾驶汽车系统,可以将街道对象的对象检测应用于各种用例。因此,找到最佳的对象检测算法对于有效应用它至关重要。已经发布了许多对象检测算法,许多对象检测算法比较了对象检测算法,但是很少有人比较了最新的算法,例如Yolov5,主要是侧重于街道级对象。本文比较了各种单阶段探测器算法; SSD MobilenetV2 FPN-Lite 320x320,Yolov3,Yolov4,Yolov5L和Yolov5S在实时图像中用于街道级对象检测。该实验利用了带有3,169张图像的修改后的自动驾驶汽车数据集。数据集分为火车,验证和测试;然后,使用重新处理,色相转移和噪音对其进行预处理和增强。然后对每种算法进行训练和评估。基于实验,算法根据推论时间及其精度,召回,F1得分和平均平均精度(MAP)产生了不错的结果。结果还表明,Yolov5L的映射@.5 of 0.593,MobileNetV2 FPN-Lite的推理时间最快,而其他推理时间仅为3.20ms。还发现Yolov5s是最有效的,其具有Yolov5L精度和速度几乎与MobilenetV2 FPN-Lite一样快。这表明各种算法适用于街道级对象检测,并且足够可行,可以用于自动驾驶汽车。
translated by 谷歌翻译
We propose an efficient and generative augmentation approach to solve the inadequacy concern of underwater debris data for visual detection. We use cycleGAN as a data augmentation technique to convert openly available, abundant data of terrestrial plastic to underwater-style images. Prior works just focus on augmenting or enhancing existing data, which moreover adds bias to the dataset. Compared to our technique, which devises variation, transforming additional in-air plastic data to the marine background. We also propose a novel architecture for underwater debris detection using an attention mechanism. Our method helps to focus only on relevant instances of the image, thereby enhancing the detector performance, which is highly obliged while detecting the marine debris using Autonomous Underwater Vehicle (AUV). We perform extensive experiments for marine debris detection using our approach. Quantitative and qualitative results demonstrate the potential of our framework that significantly outperforms the state-of-the-art methods.
translated by 谷歌翻译
Perception algorithms in autonomous driving systems confront great challenges in long-tail traffic scenarios, where the problems of Safety of the Intended Functionality (SOTIF) could be triggered by the algorithm performance insufficiencies and dynamic operational environment. However, such scenarios are not systematically included in current open-source datasets, and this paper fills the gap accordingly. Based on the analysis and enumeration of trigger conditions, a high-quality diverse dataset is released, including various long-tail traffic scenarios collected from multiple resources. Considering the development of probabilistic object detection (POD), this dataset marks trigger sources that may cause perception SOTIF problems in the scenarios as key objects. In addition, an evaluation protocol is suggested to verify the effectiveness of POD algorithms in identifying the key objects via uncertainty. The dataset never stops expanding, and the first batch of open-source data includes 1126 frames with an average of 2.27 key objects and 2.47 normal objects in each frame. To demonstrate how to use this dataset for SOTIF research, this paper further quantifies the perception SOTIF entropy to confirm whether a scenario is unknown and unsafe for a perception system. The experimental results show that the quantified entropy can effectively and efficiently reflect the failure of the perception algorithm.
translated by 谷歌翻译
如今,使用微创手术(MIS)进行了更多的手术程序。这是由于其许多好处,例如最小的术后问题,较少的出血,较小的疤痕和快速的康复。但是,MIS的视野,小手术室和对操作场景的间接查看可能导致手术工具发生冲突并可能损害人体器官或组织。因此,通过使用内窥镜视频饲料实时检测和监视手术仪器,可以大大减少MIS问题,并且可以提高手术程序的准确性和成功率。在本文中,研究,分析和评估了对Yolov5对象检测器的一系列改进,以增强手术仪器的检测。在此过程中,我们进行了基于性能的消融研究,探索了改变Yolov5模型的骨干,颈部和锚固结构元素的影响,并注释了独特的内窥镜数据集。此外,我们将消融研究的有效性与其他四个SOTA对象探测器(Yolov7,Yolor,Scaled-Yolov4和Yolov3-SPP)进行了比较。除了Yolov3-SPP(在MAP中具有98.3%的模型性能和相似的推理速度)外,我们的所有基准模型(包括原始的Yolov5)在使用新的内窥镜数据集的实验中超过了我们的顶级精制模型。
translated by 谷歌翻译
在良好的弹药条件下,车辆检测准确性相当准确,但在弱光条件下容易受到检测准确性不佳。弱光和眩光的组合效果或尾灯的眩光导致最新的对象检测模型更有可能错过车辆检测。但是,热红外图像对照明的变化是可靠的,并且基于热辐射。最近,生成对抗网络(GAN)已在图像域传输任务中广泛使用。最先进的GAN型号试图通过将红外图像转换为白天的RGB图像来提高夜间车辆检测准确性。但是,与白天条件相比,在夜间条件下,这些模型在夜间条件下表现不佳。因此,这项研究试图通过提出三种不同的方法来缓解这一缺点,该方法基于两个不同级别的GAN模型的组合,试图减少白天和夜间红外图像之间的特征分布差距。通过使用最新的对象检测模型测试模型,可以完成定量分析以比较提出模型的性能与最新模型的性能。定量和定性分析都表明,所提出的模型在夜间条件下的最新车辆检测模型优于最先进的GAN模型,显示了所提出的模型的功效。
translated by 谷歌翻译
计算机视觉在智能运输系统(ITS)和交通监视中发挥了重要作用。除了快速增长的自动化车辆和拥挤的城市外,通过实施深层神经网络的实施,可以使用视频监视基础架构进行自动和高级交通管理系统(ATM)。在这项研究中,我们为实时交通监控提供了一个实用的平台,包括3D车辆/行人检测,速度检测,轨迹估算,拥塞检测以及监视车辆和行人的相互作用,都使用单个CCTV交通摄像头。我们适应了定制的Yolov5深神经网络模型,用于车辆/行人检测和增强的排序跟踪算法。还开发了基于混合卫星的基于混合卫星的逆透视图(SG-IPM)方法,用于摄像机自动校准,从而导致准确的3D对象检测和可视化。我们还根据短期和长期的时间视频数据流开发了层次结构的交通建模解决方案,以了解脆弱道路使用者的交通流量,瓶颈和危险景点。关于现实世界情景和与最先进的比较的几项实验是使用各种交通监控数据集进行的,包括从高速公路,交叉路口和城市地区收集的MIO-TCD,UA-DETRAC和GRAM-RTM,在不同的照明和城市地区天气状况。
translated by 谷歌翻译