我们提出了一种基于立体的密集映射算法,用于大规模动态城市环境。与其他现有方法相比,我们同时分别构建静态背景,移动对象和可能移动但当前静止的对象,这对于高级移动机器人任务(例如拥挤环境中的路径规划)是理想的。我们使用实例感知语义分割和稀疏场景流将对象分类为背景,移动或潜在移动,从而确保系统能够对具有从静态到动态的潜在过渡的对象建模,例如停放的汽车。给定从视觉里程计算估计的相机姿势,通过融合从立体声输入计算的深度图,分别重建背景和(可能)移动物体。除了视觉里程计,稀疏场景流也用于估计检测到的移动物体的3D运动,以便准确地重建它们。进一步开发了一种地图修剪技术,以提高重建精度并减少内存消耗,从而提高可扩展性。我们在着名的KITTI数据集上彻底评估我们的系统。我们的系统能够在大约2.5Hz的PC上运行,主要瓶颈是实例感知语义分段,这是我们希望在未来工作中解决的限制。源代码可从项目网站(http://andreibarsan.github.io/dynslam)获得。
translated by 谷歌翻译
用简约的基于部分的表示来抽象复杂的3D形状一直是计算机视觉中的一个长期目标。本文提出了基于学习的解决方案,通过利用超级元素作为原子元素,超越了传统的3Dcuboid表示。我们证明超级二次曲面导致更具表现力的3D场景解析,同时比3D立方体表示更容易学习。此外,我们提供了对倒角损失的分析解决方案,避免了计算昂贵的强化学习或迭代预测的需要。我们的模型将toparse 3D对象学习到一致的超级二次表示,而没有监督。各种ShapeNet类别以及SURREALhuman身体数据集的结果证明了我们的模型在捕获精细细节和复杂姿势方面的灵活性,这些姿势无法使用长方体进行建模。
translated by 谷歌翻译
本文将多目标跟踪的流行任务扩展到多目标跟踪和分割(MOTS)。为实现这一目标,我们使用asemi-automatic注释程序为两个现有的跟踪数据集创建密集像素级注释。我们的新注释包含70,430个像素掩模,用于10,870个视频帧中的1,084个不同对象(汽车和行人)。为了评估,我们将现有的多对象跟踪指标扩展到这个新任务。此外,我们提出了一种新的基线方法,它通过单个卷积网络共同解决检测,跟踪和分割问题。通过在MOTS注释培训时实现性能的提高,我们证明了数据集的价值。我们相信,我们的数据集,指标和基线将成为开发超越2D边界框的多目标跟踪方法的宝贵资源。
translated by 谷歌翻译
在本文中,我们考虑使用从不同视图捕获的图像重建密集3D模型的问题。最近基于卷积神经网络(CNN)的方法允许从数据中学习整个任务。然而,它们没有包括诸如几何和遮挡的图像形成的物理学。相反,基于具有射线电势的马尔科夫随机场(MRF)的经典方法明确地模拟了这些物理过程,但它们无法应对不同视点的大表面外观变化。在本文中,我们提出了RayNet,它结合了两个框架的优势。 RayNet将学习视图不变特征表示的CNN与明确编码透视投影和遮挡物理的MRF集成在一起。我们使用经验风险最小化训练RayNet端到端。我们彻底评估了我们对具有挑战性的真实世界数据集的方法,并展示了它在一个细分的基线,手工制作的模型以及其他基于学习的方法上的优势。
translated by 谷歌翻译
在本文中,我们提供了用于密集图像对齐的经典逆分解算法的现代综合。我们首先讨论这种成熟技术所做出的假设,然后通过将数据驱动的先验结合到这个模型中来提出放松这些假设。更具体地说,我们展开了逆组合算法的强大版本,并使用更多的表达模型替换了该算法的多个组成部分。我们的数据以端到端的方式从数据中进行训练。我们对几项具有挑战性的3D刚性运动估计任务进行了实验,证明了将优化与基于学习的技术相结合的优势,优于经典的逆向组合算法以及数据驱动的图像到 - 姿势回归方法。
translated by 谷歌翻译
随着深度神经网络的出现,基于学习的3D重建方法越来越受欢迎。然而,与图像不同,在3D中没有规范表示,其在计算上和存储效率上都允许表示任意拓扑的高分辨率几何。因此,许多最先进的基于学习的3D重建方法仅可表示非常粗糙的3D几何形状或仅限于受限制的域。在本文中,我们提出了占用网络,这是一种基于学习的三维重建方法的新代表。占用网络明确地将三维表面表示为神经网络分类器的连续决策边界。与现有方法相比,我们的代表性在无限分辨率下编码3D输出的描述,而没有过多的内存占用。我们验证了我们的表示可以有效地编码3D结构,并且可以从各种输入中推断出来。我们的实验证明了对于单个图像,噪声点云和粗糙离散体素网格的3D重建的挑战性任务,定性和定量的竞争结果。我们相信,占用网络将成为各种基于学习的3D任务的有用工具。
translated by 谷歌翻译
We present a real-time dense geometric mapping algorithm for large-scale environments. Unlike existing methods which use pinhole cameras, our implementation is based on fisheye cameras whose large field of view benefits various computer vision applications for self-driving vehicles such as visual-inertial odometry, visual localization, and object detection. Our algorithm runs on in-vehicle PCs at approximately 15 Hz, enabling vision-only 3D scene perception for self-driving vehicles. For each synchronized set of images captured by multiple cameras, we first compute a depth map for a reference camera using plane-sweeping stereo. To maintain both accuracy and efficiency, while accounting for the fact that fisheye images have a lower angular resolution, we recover the depths using multiple image resolutions. We adopt the fast object detection framework, YOLOv3, to remove potentially dynamic objects. At the end of the pipeline, we fuse the fisheye depth images into the truncated signed distance function (TSDF) volume to obtain a 3D map. We evaluate our method on large-scale urban datasets, and results show that our method works well in complex dynamic environments.
translated by 谷歌翻译
从3D场景生成自然图像的任务一直是计算机图形学中的长期目标。另一方面,深度神经网络的最新发展允许可训练的模型,其可以产生具有很少或不知道场景结构的自然外观图像。虽然生成的图像通常由逼真的局部图案组成,但生成的图像的整体结构通常是不一致的。在这项工作中,我们提出了一种可训练的几何感知图像生成方法,该方法利用各种类型的场景信息,包括几何和分割,创建与所需场景结构匹配的逼真的自然图像。我们的几何一致图像合成方法是深度神经网络,称为几何到图像合成(GIS)框架,它保留了可训练方法的优点,例如可微分性和适应性,但同时,朝着现代图形渲染引擎的普遍性,控制和质量输出迈出了一步。我们利用GIS框架在室外驾驶场景中插入车辆,以及从Linemod数据集生成对象的新视图。我们定性地表明,我们的网络能够在训练集之外推广到新颖的场景几何,对象形状和分割。此外,我们定量地说明GIS框架可以用于合成大量的训练数据,这证明对训练实例分割模型是有益的。
translated by 谷歌翻译
大多数现有的自动驾驶方法属于两类:模块化管道,构建广泛的环境模型,以及模仿学习方法,直接映射图像控制输出。最近提出的第三种范式,即直接感知,旨在通过使用神经网络来学习适当的低维中间表示来实现两者的优点。然而,现有的直接感知方法仅限于简单的高速公路情况,缺乏导航交叉路口的能力,在交通信号灯处停下或遵守速度限制。在这项工作中,我们提出了一种直接感知方法,该方法将视频输入映射到适合自主导航的中间表示,给出高级方向输入。相比于最先进的强化和条件模仿学习方法,我们在具有挑战性的CARLA模拟基准测试中实现了目标导向导向高达68%的改进。此外,我们的方法是首先通过仅使用图像级标签来处理交通信号灯和速度标志,以及平稳的跟车,从而显着减少模拟中的交通事故。
translated by 谷歌翻译
尽管在基于图像的3D场景流估计方面取得了重大进展,但这些方法的性能尚未达到许多应用所要求的保真度。同时,这些应用通常不限于基于图像的估计:激光扫描仪提供了一种流行的替代传统相机,例如在自动驾驶汽车的背景下,因为它们直接产生3D点云。在本文中,我们建议使用深度神经网络从这种非结构化点云估计3D sceneflow。在单向前进中,我们的模型联合预测场景中的三维场景流以及三维边界框和物体的刚体运动。虽然从非结构化点云估计3D场景流的前景是有希望的,但它也是一项具有挑战性的任务。我们证明了传统的全局表示的刚体运动禁止CNN的推论,并提出一个翻译等变量表示来规避这个问题。为了训练我们的深度网络,需要一个大型数据集。因此,我们使用虚拟对象增加KITTI的实际扫描,逼真地建模遮挡并模拟传感器噪声。与经典和基于学习的技术进行彻底的比较,突出了所提方法的稳健性。
translated by 谷歌翻译