我们提出了Urbanscene3D,这是一个大规模的数据平台,用于研究城市场景感知和重建。 Urbanscene3D包含超过128K的高分辨率图像,其中涵盖了16个场景,包括大规模的真实城市区域和合成城市,总共有136 km^2区域。该数据集还包含具有不同观察模式的高精度激光扫描和数百个图像集,它们为设计和评估空中路径计划和3D重建算法提供了全面的基准。此外,该数据集是基于虚幻引擎和AirSim模拟器构建的数据集以及数据集中每个建筑物的手动注释的唯一实例标签,启用了各种数据的生成,例如2D/3D边界框, ,以及3D点云/网状分段等。具有物理发动机和照明系统的模拟器不仅产生各种数据,而且还使用户能够在拟议的城市环境中模拟汽车或无人机以进行未来的研究。
translated by 谷歌翻译
我们介绍了第一个基于学习的可重建性预测指标,以改善使用无人机的大规模3D城市场景获取的视图和路径计划。与以前的启发式方法相反,我们的方法学习了一个模型,该模型明确预测了从一组观点重建3D城市场景的能力。为了使这种模型可训练并同时适用于无人机路径计划,我们在培训期间模拟了基于代理的3D场景重建以设置预测。具体而言,我们设计的神经网络经过训练,可以预测场景的重构性,这是代理几何学的函数,一组观点,以及在飞行中获得的一系列场景图像。为了重建一个新的城市场景,我们首先构建了3D场景代理,然后依靠我们网络的预测重建质量和不确定性度量,基于代理几何形状,以指导无人机路径计划。我们证明,与先前的启发式措施相比,我们的数据驱动的可重建性预测与真实的重建质量更加紧密相关。此外,我们学到的预测变量可以轻松地集成到现有的路径计划中,以产生改进。最后,我们根据学习的可重建性设计了一个新的迭代视图计划框架,并在重建合成场景和真实场景时展示新计划者的卓越性能。
translated by 谷歌翻译
随着商业深度传感器和3D扫描仪的最近可用性和可承受能力,越来越多的3D(即RGBD,点云)数据集已被宣传以促进3D计算机视觉的研究。但是,现有的数据集覆盖相对较小的区域或具有有限的语义注释。对城市规模3D场景的细粒度理解仍处于起步阶段。在本文中,我们介绍了Sensaturban,一个城市规模的UAV摄影测量点云数据集,包括从三个英国城市收集的近30亿积分,占地7.6公里^ 2。 DataSet中的每个点已标记为具有细粒度的语义注释,导致数据集是上一个现有最大摄影测量点云数据集的三倍的三倍。除了诸如道路和植被等诸如道路和植被的常见类别之外,我们的数据集还包含包括轨道,桥梁和河流的城市水平类别。基于此数据集,我们进一步构建了基准,以评估最先进的分段算法的性能。特别是,我们提供了全面的分析,确定了限制城市规模点云理解的几个关键挑战。数据集可在http://point-cloud-analysis.cs.ox.ac.uk中获取。
translated by 谷歌翻译
无人机已成为广泛使用的遥感平台之一,并在智能城市的建设中发挥了关键作用。但是,由于城市场景中的复杂环境,安全,准确的数据获取为3D建模和场景更新带来了巨大挑战。无人机的最佳轨迹计划和机载摄像机的准确数据收集是城市建模中的非平凡问题。这项研究介绍了优化观点的摄影测量原理,并在大规模3D建模中验证其精度和潜力。与倾斜的摄影测量法不同,优化的视图摄影测量法使用粗糙模型来生成和优化无人机轨迹,这是通过考虑模型点可重构性和视图点冗余性来实现的。基于优化视图的原理摄影测量法,本研究首先通过使用优化视图的无人机图像对3D模型进行精确分析潜在的。通过使用GCP进行图像方向精确分析和TLS(陆地激光扫描)点云进行模型质量分析,实验结果表明,优化的视图摄影测量法可以构建稳定的图像连接网络,并可以达到可比的图像方向准确性。从准确的图像采集策略中受益,网格模型的质量显着提高,尤其是对于严重阻塞的城市地区,在这种城市地区实现了3至5倍的精度。此外,青岛城的案例研究验证了优化视图摄影测量法可能是在复杂的城市场景中大规模3D建模的可靠和强大解决方案。
translated by 谷歌翻译
我们为来自多视图立体声(MVS)城市场景的3D建筑物的实例分割了一部小说框架。与关注城市场景的语义分割的现有作品不同,即使它们安装在大型和不精确的3D表面模型中,这项工作的重点是检测和分割3D构建实例。通过添加高度图,首先将多视图RGB图像增强到RGBH图像,并且被分段以使用微调的2D实例分割神经网络获得所有屋顶实例。然后将来自不同的多视图图像的屋顶实例掩码被聚集到全局掩码中。我们的面具聚类占空间闭塞和重叠,可以消除多视图图像之间的分割歧义。基于这些全局掩码,3D屋顶实例由掩码背部投影分割,并通过Markov随机字段(MRF)优化扩展到整个建筑实例。定量评估和消融研究表明了该方法的所有主要步骤的有效性。提供了一种用于评估3D建筑模型的实例分割的数据集。据我们所知,它是一个在实例分割级别的3D城市建筑的第一个数据集。
translated by 谷歌翻译
视觉同时定位和映射(VSLAM)在计算机视觉和机器人社区中取得了巨大进展,并已成功用于许多领域,例如自主机器人导航和AR/VR。但是,VSLAM无法在动态和复杂的环境中实现良好的定位。许多出版物报告说,通过与VSLAM结合语义信息,语义VSLAM系统具有近年来解决上述问题的能力。然而,尚无关于语义VSLAM的全面调查。为了填补空白,本文首先回顾了语义VSLAM的发展,并明确着眼于其优势和差异。其次,我们探讨了语义VSLAM的三个主要问题:语义信息的提取和关联,语义信息的应用以及语义VSLAM的优势。然后,我们收集和分析已广泛用于语义VSLAM系统的当前最新SLAM数据集。最后,我们讨论未来的方向,该方向将为语义VSLAM的未来发展提供蓝图。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
The emergence of low-cost, small form factor and light-weight solid-state LiDAR sensors have brought new opportunities for autonomous unmanned aerial vehicles (UAVs) by advancing navigation safety and computation efficiency. Yet the successful developments of LiDAR-based UAVs must rely on extensive simulations. Existing simulators can hardly perform simulations of real-world environments due to the requirements of dense mesh maps that are difficult to obtain. In this paper, we develop a point-realistic simulator of real-world scenes for LiDAR-based UAVs. The key idea is the underlying point rendering method, where we construct a depth image directly from the point cloud map and interpolate it to obtain realistic LiDAR point measurements. Our developed simulator is able to run on a light-weight computing platform and supports the simulation of LiDARs with different resolution and scanning patterns, dynamic obstacles, and multi-UAV systems. Developed in the ROS framework, the simulator can easily communicate with other key modules of an autonomous robot, such as perception, state estimation, planning, and control. Finally, the simulator provides 10 high-resolution point cloud maps of various real-world environments, including forests of different densities, historic building, office, parking garage, and various complex indoor environments. These realistic maps provide diverse testing scenarios for an autonomous UAV. Evaluation results show that the developed simulator achieves superior performance in terms of time and memory consumption against Gazebo and that the simulated UAV flights highly match the actual one in real-world environments. We believe such a point-realistic and light-weight simulator is crucial to bridge the gap between UAV simulation and experiments and will significantly facilitate the research of LiDAR-based autonomous UAVs in the future.
translated by 谷歌翻译
场景理解是一个活跃的研究区域。商业深度传感器(如Kinect)在过去几年中启用了几个RGB-D数据集的发布,它在3D场景理解中产生了新的方法。最近,在Apple的iPad和iPhone中推出LIDAR传感器,可以在他们通常使用的设备上访问高质量的RGB-D数据。这在对计算机视觉社区以及应用程序开发人员来说,这是一个全新的时代。现场理解的基本研究与机器学习的进步一起可以影响人们的日常经历。然而,将这些现场改变为现实世界经验的理解方法需要额外的创新和发展。在本文中,我们介绍了Arkitscenes。它不仅是具有现在广泛可用深度传感器的第一个RGB-D数据集,而且是我们最好的知识,它也是了解数据发布的最大的室内场景。除了来自移动设备的原始和处理的数据之外,Arkitscenes还包括使用固定激光扫描仪捕获的高分辨率深度图,以及手动标记为家具的大型分类的3D定向边界盒。我们进一步分析了两个下游任务数据的有用性:3D对象检测和色彩引导深度上采样。我们展示了我们的数据集可以帮助推动现有最先进的方法的边界,并引入了更好代表真实情景的新挑战。
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译
RGB-D数据对于解决计算机视觉中的许多问题至关重要。已经提出了数百个包含各种场景的公共RGB-D数据集,例如室内,室外,空中,驾驶和医疗。这些数据集对不同的应用程序很有用,对于解决经典的计算机视觉任务(例如单眼深度估计)是基础。本文审查并分类了包括深度信息的图像数据集。我们收集了203个数据集,其中包含可访问的数据,并将它们分为三类:场景/对象,身体和医疗。我们还提供了不同类型的传感器,深度应用程序的概述,并研究了包含深度数据的数据集的使用和创建的趋势和未来方向,以及如何将它们应用于研究中可推广的机器学习模型的开发。单眼深度估计场。
translated by 谷歌翻译
两栖地面汽车将飞行和驾驶模式融合在一起,以实现更灵活的空中行动能力,并且最近受到了越来越多的关注。通过分析现有的两栖车辆,我们强调了在复杂的三维城市运输系统中有效使用两栖车辆的自动驾驶功能。我们审查并总结了现有两栖车辆设计中智能飞行驾驶的关键促成技术,确定主要的技术障碍,并提出潜在的解决方案,以实现未来的研究和创新。本文旨在作为研究和开发智能两栖车辆的指南,以实现未来的城市运输。
translated by 谷歌翻译
位置识别是可以协助同时定位和映射(SLAM)进行循环闭合检测和重新定位以进行长期导航的基本模块。在过去的20美元中,该地点认可社区取得了惊人的进步,这吸引了在计算机视觉和机器人技术等多个领域的广泛研究兴趣和应用。但是,在复杂的现实世界情景中,很少有方法显示出有希望的位置识别性能,在复杂的现实世界中,长期和大规模的外观变化通常会导致故障。此外,在最先进的方法之间缺乏集成框架,可以应对所有挑战,包括外观变化,观点差异,对未知区域的稳健性以及现实世界中的效率申请。在这项工作中,我们调查针对长期本地化并讨论未来方向和机会的最先进方法。首先,我们研究了长期自主权中的位置识别以及在现实环境中面临的主要挑战。然后,我们回顾了最新的作品,以应对各种位置识别挑战的不同传感器方式和当前的策略的认可。最后,我们回顾了现有的数据集以进行长期本地化,并为不同的方法介绍了我们的数据集和评估API。本文可以成为该地点识别界新手的研究人员以及关心长期机器人自主权的研究人员。我们还对机器人技术中的常见问题提供了意见:机器人是否需要准确的本地化来实现长期自治?这项工作以及我们的数据集和评估API的摘要可向机器人社区公开,网址为:https://github.com/metaslam/gprs。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
本文提出了一个新颖的框架,用于在参考图中对车辆的实时定位和自负跟踪。核心想法是映射车辆观察到的语义对象,并将其注册到参考图中的相应对象。尽管最近的几项作品利用语义信息进行了跨视图本地化,但这项工作的主要贡献是一种视图不变的公式,该方法使该方法直接适用于可检测到对象的任何观点配置。另一个独特的特征是,由于适用于极端异常相群方案的数据关联方案,环境/对象变化的鲁棒性(例如,关联离群值90%)。为了展示我们的框架,我们考虑了仅使用汽车作为对象将地面车辆定位在参考对象图中的示例。虽然仅使用立体声摄像头用于接地车辆,但我们考虑使用立体声摄像机和激光扫描从地面观点构建了先验地图,并在不同日期捕获的地理参与的空中图像以证明框架对不同方式,观点和观点和观点和观点,观点和观点的稳健性,环境变化。对Kitti数据集的评估表明,在3.7 km的轨迹上,本地化发生在36秒内,其次是在激光雷达参考图中的平均位置误差为8.5 m,在空中对象图中的平均位置误差为8.5 m,其中77%对象是离群值,在71秒内实现定位,平均位置误差为7.9 m。
translated by 谷歌翻译
在过去的十年中,自动驾驶航空运输车辆引起了重大兴趣。这是通过空中操纵器和新颖的握手的技术进步来实现这一目标的。此外,改进的控制方案和车辆动力学能够更好地对有效载荷进行建模和改进的感知算法,以检测无人机(UAV)环境中的关键特征。在这项调查中,对自动空中递送车辆的技术进步和开放研究问题进行了系统的审查。首先,详细讨论了各种类型的操纵器和握手,以及动态建模和控制方法。然后,讨论了降落在静态和动态平台上的。随后,诸如天气状况,州估计和避免碰撞之类的风险以确保安全过境。最后,调查了交付的UAV路由,该路由将主题分为两个领域:无人机操作和无人机合作操作。
translated by 谷歌翻译
在这项工作中,我们提出了一个端到端的异质多机器人系统框架,地面机器人能够在高空四个四极管实时创建的语义图中进行本地化,计划和导航。地面机器人在没有任何外部干预的情况下独立选择并解散目标。此外,他们通过使用语义将其本地地图与高架图匹配,执行跨视图本地化。通信主链是机会主义的,并且可以分配,使整个系统除了四型四型GPS之外没有外部基础架构,没有外部基础架构。我们通过在不同环境中的多个实验上执行不同的任务,通过执行不同的任务,对系统进行了广泛的测试。我们的地面机器人在现实世界中最少的干预和96公里的模拟无需干预即可自主行驶以上超过6公里。
translated by 谷歌翻译
The last decade witnessed increasingly rapid progress in self-driving vehicle technology, mainly backed up by advances in the area of deep learning and artificial intelligence. The objective of this paper is to survey the current state-of-the-art on deep learning technologies used in autonomous driving. We start by presenting AI-based self-driving architectures, convolutional and recurrent neural networks, as well as the deep reinforcement learning paradigm. These methodologies form a base for the surveyed driving scene perception, path planning, behavior arbitration and motion control algorithms. We investigate both the modular perception-planning-action pipeline, where each module is built using deep learning methods, as well as End2End systems, which directly map sensory information to steering commands. Additionally, we tackle current challenges encountered in designing AI architectures for autonomous driving, such as their safety, training data sources and computational hardware. The comparison presented in this survey helps to gain insight into the strengths and limitations of deep learning and AI approaches for autonomous driving and assist with design choices. 1
translated by 谷歌翻译
本文介绍了Omnicity,这是一种从多层次和多视图图像中了解无所不能的城市理解的新数据集。更确切地说,Omnicity包含多视图的卫星图像以及街道级全景图和单视图图像,构成了超过100k像素的注释图像,这些图像是从纽约市的25k Geo-Locations中良好的一致性和收集的。为了减轻大量像素的注释努力,我们提出了一个有效的街景图像注释管道,该管道利用了卫星视图的现有标签地图以及不同观点之间的转换关系(卫星,Panorama和Mono-View)。有了新的Omnicity数据集,我们为各种任务提供基准,包括构建足迹提取,高度估计以及构建平面/实例/细粒细分。我们还分析了视图对每个任务的影响,不同模型的性能,现有方法的局限性等。与现有的多层次和多视图基准相比,我们的Omnicity包含更多具有更丰富注释类型和更丰富的图像更多的视图,提供了从最先进的模型获得的更多基线结果,并为街道级全景图像中的细粒度建筑实例细分介绍了一项新颖的任务。此外,Omnicity为现有任务提供了新的问题设置,例如跨视图匹配,合成,分割,检测等,并促进开发新方法,以了解大规模的城市理解,重建和仿真。 Omnicity数据集以及基准将在https://city-super.github.io/omnicity上找到。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译