摄像机是自动驾驶中传感器套件的重要组成部分。地面摄像机直接暴露在外部环境中,易受污染。与其他传感器相比,相机在污染方面的性能下降得更高。因此,准确地检测相机上的污染是至关重要的,特别是对于更高水平的自动驾驶。我们创建了一个新的数据集,它有多种类型的污染,即非透明和透明。由于没有可用于此任务的公共数据集,我们将发布公共数据集以鼓励进一步研究。我们使用基于卷积神经网络(CNN)的架构证明了高精度。我们还表明,它可以与多任务学习框架中的现有对象检测任务相结合。最后,我们利用Generative AdversarialNetworks(GAN)生成更多用于数据扩充的图像,并显示itworks成功地类似于样式转移。
translated by 谷歌翻译
鱼眼摄像机通常用于获得大视场监视,增强现实以及特别是汽车应用。尽管普遍存在,但很少有公共数据集用于详细评估鱼眼图像上的计算机视觉算法。我们发布了第一个广泛的鱼眼汽车数据集WoodScape,它以1906年发明了鱼眼摄像机的罗伯特·伍德的名字命名.WoodScape包括四个环视摄像机和一些任务,包括分割,深度估计,3D边界框检测和污染检测。实例级别的40个类的语义标注为10,000多个图像提供,并为超过100,000个图像提供其他任务的注释。我们希望鼓励社区适应鱼眼摄像机的计算机视觉模型,而不是天真的整改。
translated by 谷歌翻译
Multi-task learning is commonly used in autonomous driving for solving various visual perception tasks. It offers significant benefits in terms of both performance and computational complexity. Current work on multi-task learning networks focus on processing a single input image and there is no known implementation of multi-task learning handling a sequence of images. In this work, we propose a multi-stream multi-task network to take advantage of using feature representations from preceding frames in a video sequence for joint learning of segmentation, depth, and motion. The weights of the current and previous encoder are shared so that features computed in the previous frame can be leveraged without additional computation. In addition, we propose to use the geometric mean of task losses as a better alternative to the weighted average of task losses. The proposed loss function facilitates better handling of the difference in convergence rates of different tasks. Experimental results on KITTI, Cityscapes and SYNTHIA datasets demonstrate that the proposed strategies outperform various existing multi-task learning solutions.
translated by 谷歌翻译
自动驾驶中的决策对环境非常具体,因此语义分割在识别汽车周围环境中的对象中起着关键作用。像素级别分类曾被认为是一项具有挑战性的任务,现在已经变得成熟,可以在汽车中实现产品化。但是,语义注释耗时且相当昂贵。已经使用具有域适应技术的合成数据集来减轻大量注释数据集的缺乏。在这项工作中,我们探索了另一种方法,即平衡其他任务的注释,以改善语义分割。最近,多任务学习成为自动驾驶的一种流行范式,表明多任务的联合学习提高了每项任务的整体性能。受此启发,我们使用depthestimation等辅助任务来提高语义分割任务的性能。我们提出了适应性任务损失加权技术,以解决多任务损失函数中的规模问题,这些问题在辅助任务中变得更加重要。我们对包括SYNTHIA和KITTI在内的汽车数据集进行了实验,分别提高了3%和5%的精度。
translated by 谷歌翻译
卷积神经网络(CNN)成功用于各种视觉感知任务,包括边界框对象检测,语义分割,光流,深度估计和视觉SLAM。通常,这些任务是独立探索和建模的。在本文中,我们提出了一个用于学习对象检测和语义分割的联合多任务网络设计。主要动机是通过共享两个编码器的编码器来实现低功率嵌入式SOC的实时性能。我们使用一个小型ResNet10 like编码器构建了一个高效的架构,该解码器为两个解码器共享。对象检测使用YOLO v2 likedecoder,语义分割使用FCN8之类的解码器。我们在两个公共数据集(KITTI,Cityscapes)和我们的私人鱼眼摄像机数据集中评估所提出的网络,并证明联合网络提供与单独网络相同的准确性。我们进一步优化网络,为1280x384分辨率图像提供30 fps。
translated by 谷歌翻译
即使在视频的情况下,大多数语义分割算法也在单个帧上运行。在这项工作中,目标是利用算法模型中的时间信息来利用运动线索和时间一致性。我们提出了两种基于RecurrentFCN(RFCN)和多流FCN(MSFCN)网络的简单高级架构。在RFCN的情况下,在编码器和解码器之间插入循环网络即LSTM。 MSFCN通过1x1通道卷积将不同帧的编码器组合成融合编码器。我们使用ResNet50网络作为基线编码器并构建三个网络,即2阶和3阶的MSFCN和2阶的RFCN.MSFCN-3产生最佳结果,对于高速公路和类似纽约的城市场景,准确度提高了9%和15%。使用IoU度量的SYNTHIA-CVPR'16数据集。 MSFCN-3在基线FCN网络上也为SegTrack V2和DAVISdatasets产生了11%和6%。我们还使用两个编码器之间的重量共享设计了MSFCN-2和RFCN-2的高效版本。对于KITTI和SYNTHIA,足够的MSFCN-2提供了11%和5%的改进,与基线转换相比,计算复杂度的增加可忽略不计。
translated by 谷歌翻译
对抗训练显示出有希望成为训练模型的方法,这种模型对于对抗性扰动是强有力的。在本文中,我们探讨了对抗性训练的一些实际挑战。我们提出了一种敏感性分析,说明对抗性训练的有效性取决于一些显着的超参数的设置。我们表明,在这些显着参数中出现的鲁棒性表面可能令人惊讶地复杂,因此没有有效的“一刀切”参数设置。然后我们证明我们可以使用相同的显着超参数抖动旋钮来导航稳健性和准确性之间可能出现的张力。基于这些发现,我们提出了一种实用的方法,该方法利用超参数优化技术来调整对抗训练,以最大限度地提高鲁棒性,同时在精确预算内保持准确性的损失。
translated by 谷歌翻译
云计算平台提供的MLaaS(ML-as-a-Service)产品近来越来越受欢迎。预先训练的机器学习模型被部署在云上以支持基于预测的应用程序和服务。为了实现更高的吞吐量,通过在不同机器上同时运行模型的多个副本来服务传入请求。分布式推理中的斯特拉格勒节点的发生率是一个重要的问题,因为它会增加推理延迟,违反服务的SLO。在本文中,我们提出了一种新的编码推理模型来处理分布图像分类中的落后者。我们提出改进的单镜头物体检测模型,Collage-CNN模型,以有效地提供必要的弹性。拼贴 - CNN模型采用拼合图像形成的拼贴图像作为输入,并在一次拍摄中执行多图像分类。我们使用来自标准图像分类数据集的图像生成自定义训练项目,并训练模型以实现高分类准确性。在云中部署Collage-CNN模型,我们证明与基于复制的方法相比,第99百分位延迟可以减少1.45倍至2.46倍,并且不会降低预测准确性。
translated by 谷歌翻译
检测欺骗性话语是基于语音的生物识别中的基本问题。欺骗可以通过诸如语音合成,语音转换之类的逻辑访问或通过诸如重放预先录制的话语之类的物理访问来执行。受到最先进的基于x矢量的扬声器验证方法的启发,本文提出了一种深度神经网络(DNN)架构,用于从逻辑和物理访问中进行欺骗检测。与传统的基于DNN的系统相比,x向量方法的完整性在于它可以在测试期间处理可变长度的话语。在ASV-spoof-2019数据集上分析了所提出的x向量系统和基线高斯混合模型(GMM)系统的性能。所提出的系统超越了用于物理访问的GMM系统,而GMM系统更好地检测了逻辑访问。与GMM系统相比,所提出的x-vectorapproach给出了物理访问的平均相对改进14.64%。当与决策级特征切换(DLFS)范例相结合时,所提出的方法中的最佳系统优于具有相对性的最佳基线系统。在最小串联成本检测函数(min-t-DCF)方面,逻辑和物理访问的改进分别为67.48%和40.04%。
translated by 谷歌翻译
Winograd或Cook-Toom类算法有助于降低许多现代深度卷积神经网络(CNN)的整体计算复杂性。尽管已经对CNN的模型和算法优化进行了大量研究,但很少有人关注效率的实现。嵌入式CPU中的这些算法通常具有非常有限的内存和低功耗预算。本文旨在填补这一空白,重点关注现代Arm Cortex-A CPU的Winograd或Cook-Toom基于卷积的有效实现,这些CPU现在广泛用于移动设备。具体而言,我们通过使用一组优化策略证明了推理延迟的减少。提高计算资源的利用率,并有效地利用ARMv8-A NEON SIMD指令集。我们使用几个有代表性的CNN评估了我们在ArmCortex-A73平台上提出的区域多通道实现。结果表明,与基于nowim2row / im2col的优化技术相比,整个网络的性能显着提高了60%
translated by 谷歌翻译