摄像机是自动驾驶中传感器套件的重要组成部分。地面摄像机直接暴露在外部环境中,易受污染。与其他传感器相比,相机在污染方面的性能下降得更高。因此,准确地检测相机上的污染是至关重要的,特别是对于更高水平的自动驾驶。我们创建了一个新的数据集,它有多种类型的污染,即非透明和透明。由于没有可用于此任务的公共数据集,我们将发布公共数据集以鼓励进一步研究。我们使用基于卷积神经网络(CNN)的架构证明了高精度。我们还表明,它可以与多任务学习框架中的现有对象检测任务相结合。最后,我们利用Generative AdversarialNetworks(GAN)生成更多用于数据扩充的图像,并显示itworks成功地类似于样式转移。
translated by 谷歌翻译
鱼眼摄像机通常用于获得大视场监视,增强现实以及特别是汽车应用。尽管普遍存在,但很少有公共数据集用于详细评估鱼眼图像上的计算机视觉算法。我们发布了第一个广泛的鱼眼汽车数据集WoodScape,它以1906年发明了鱼眼摄像机的罗伯特·伍德的名字命名.WoodScape包括四个环视摄像机和一些任务,包括分割,深度估计,3D边界框检测和污染检测。实例级别的40个类的语义标注为10,000多个图像提供,并为超过100,000个图像提供其他任务的注释。我们希望鼓励社区适应鱼眼摄像机的计算机视觉模型,而不是天真的整改。
translated by 谷歌翻译
Multi-task learning is commonly used in autonomous driving for solving various visual perception tasks. It offers significant benefits in terms of both performance and computational complexity. Current work on multi-task learning networks focus on processing a single input image and there is no known implementation of multi-task learning handling a sequence of images. In this work, we propose a multi-stream multi-task network to take advantage of using feature representations from preceding frames in a video sequence for joint learning of segmentation, depth, and motion. The weights of the current and previous encoder are shared so that features computed in the previous frame can be leveraged without additional computation. In addition, we propose to use the geometric mean of task losses as a better alternative to the weighted average of task losses. The proposed loss function facilitates better handling of the difference in convergence rates of different tasks. Experimental results on KITTI, Cityscapes and SYNTHIA datasets demonstrate that the proposed strategies outperform various existing multi-task learning solutions.
translated by 谷歌翻译
即使计算能力的快速增长,语义分割仍然是计算密集型算法的预嵌入部署。高效的网络设计是一个关键方面,尤其适用于需要实时性能的自动驾驶等应用。最近,在设计高效编码器方面进行了大量研究,这些编码器主要是任务不可知的。与图像分类和边界框对象检测任务不同,解码器在语义分割任务上的计算成本也很高。在这项工作中,我们专注于分割解码器的有效设计,并假设已经设计了一个高效的编码器来为多任务提供共享功能。学习系统。我们设计了一种新颖的高效非瓶颈层和一系列解码器,它们使用VGAG10作为高效编码器,符合较小的运行时预算。我们在数据集中证明,通过各种设计选择的实验导致基线性能提高了10%。
translated by 谷歌翻译
自动驾驶中的决策对环境非常具体,因此语义分割在识别汽车周围环境中的对象中起着关键作用。像素级别分类曾被认为是一项具有挑战性的任务,现在已经变得成熟,可以在汽车中实现产品化。但是,语义注释耗时且相当昂贵。已经使用具有域适应技术的合成数据集来减轻大量注释数据集的缺乏。在这项工作中,我们探索了另一种方法,即平衡其他任务的注释,以改善语义分割。最近,多任务学习成为自动驾驶的一种流行范式,表明多任务的联合学习提高了每项任务的整体性能。受此启发,我们使用depthestimation等辅助任务来提高语义分割任务的性能。我们提出了适应性任务损失加权技术,以解决多任务损失函数中的规模问题,这些问题在辅助任务中变得更加重要。我们对包括SYNTHIA和KITTI在内的汽车数据集进行了实验,分别提高了3%和5%的精度。
translated by 谷歌翻译
卷积神经网络(CNN)成功用于各种视觉感知任务,包括边界框对象检测,语义分割,光流,深度估计和视觉SLAM。通常,这些任务是独立探索和建模的。在本文中,我们提出了一个用于学习对象检测和语义分割的联合多任务网络设计。主要动机是通过共享两个编码器的编码器来实现低功率嵌入式SOC的实时性能。我们使用一个小型ResNet10 like编码器构建了一个高效的架构,该解码器为两个解码器共享。对象检测使用YOLO v2 likedecoder,语义分割使用FCN8之类的解码器。我们在两个公共数据集(KITTI,Cityscapes)和我们的私人鱼眼摄像机数据集中评估所提出的网络,并证明联合网络提供与单独网络相同的准确性。我们进一步优化网络,为1280x384分辨率图像提供30 fps。
translated by 谷歌翻译
运动是自动驾驶系统的主要线索。通常通过计算光流来检测移动物体并使用三角测量来估计深度。在本文中,我们的动机是利用现有的密集流来提高语义分割的性能。为了提供系统研究,我们构建了四种不同的架构,它们仅使用RGB,仅使用流,RGBF级联和双流RGB +流。我们使用最先进的流量估算器FlowNet v2在两个汽车数据集上评估这些网络,即Virtual KITTI和Cityscapes。我们还利用Virtual KITTI中的groundtruth光流作为理想估计器和标准Farneback光流算法来研究噪声的影响。利用Virtual KITTI中的流程真相,双流体系结构实现了最佳结果,IoU提高了4%。正如预期的那样,卡车,厢式货车和汽车等物体的运输有了很大的改进,IoU增加了38%,28%和6%。 FlowNet的平均IoU提高了2.4%,移动物体的数量大幅提升,相当于26%,11%和5%的入口,货车和汽车。在城市景观中,流量增加为摩托车和火车这样的移动物体提供了改进,在IU中增加了17%和7%。
translated by 谷歌翻译
即使在视频的情况下,大多数语义分割算法也在单个帧上运行。在这项工作中,目标是利用算法模型中的时间信息来利用运动线索和时间一致性。我们提出了两种基于RecurrentFCN(RFCN)和多流FCN(MSFCN)网络的简单高级架构。在RFCN的情况下,在编码器和解码器之间插入循环网络即LSTM。 MSFCN通过1x1通道卷积将不同帧的编码器组合成融合编码器。我们使用ResNet50网络作为基线编码器并构建三个网络,即2阶和3阶的MSFCN和2阶的RFCN.MSFCN-3产生最佳结果,对于高速公路和类似纽约的城市场景,准确度提高了9%和15%。使用IoU度量的SYNTHIA-CVPR'16数据集。 MSFCN-3在基线FCN网络上也为SegTrack V2和DAVISdatasets产生了11%和6%。我们还使用两个编码器之间的重量共享设计了MSFCN-2和RFCN-2的高效版本。对于KITTI和SYNTHIA,足够的MSFCN-2提供了11%和5%的改进,与基线转换相比,计算复杂度的增加可忽略不计。
translated by 谷歌翻译
深度强化学习(DRL)近年来变得越来越强大,其中有着显着的成就,例如Deepmind的AlphaGo。它已成功应用于Mobileye的路径规划系统等商用车辆。然而,绝大多数关于DRL的工作都集中在玩具实例上,这些实例是不受控制的合成汽车模拟器环境,如TORCS和CARLA。一般而言,DRL在实际应用中的可用性方面仍处于起步阶段。我们在本文中的目标是鼓励在各种自动驾驶(AD)应用中实际部署DRL。我们首先提供自动驾驶系统,强化学习算法和DRL在AD系统中应用的任务。然后,我们讨论必须解决的挑战,以便在实际部署方面取得进一步进展。
translated by 谷歌翻译
激光雷达已成为自动驾驶的重要传感器,因为它提供了可靠的深度估计。激光雷达也是用于构建3D图像的主要传感器,即使在不使用激光雷达的低成本系统的情况下也可以使用它。激光雷达点云的计算是密集的,因为它需要每秒处理数百万个点。此外,还有许多后续任务,例如聚类,检测,跟踪和分类,这使得实时执行具有挑战性。在本文中,我们讨论了实时动态对象检测算法,该算法利用先前映射的激光雷达点云来减少处理。先前的3D地图提供静态背景模型,并且我们将动态对象检测表示为背景减法问题。描述了映射和在线执行管道中的计算和建模挑战。我们提出了拒绝级联架构来分别减去道路区域和其他3D区域。我们实现了我们提出的算法的初始版本,并评估了CARLAsimulator的准确性。
translated by 谷歌翻译