为了支持行业4.0触觉和人机互动的应用,第六代(6G)需要一个完全自主,视觉和互动的新框架。在本文中,我们为专用网络计划服务提供了一个新颖的框架,提供了一种端到端解决方案,该解决方案从用户设备接收视觉和感官数据,重建3D网络环境并在服务器上执行网络计划,并可视化在用户设备显示上,具有增强现实(AR)的网络性能。该解决方案由三个关键的技术组件授权:1)基于视觉和传感器融合的3D环境重建,2)基于射线跟踪的无线电图生成和网络计划,以及3)实时摄像机启用AR-Empower的网络可视化重新定位。我们在德国的博世植物中进行了概念验证,并显示了优化天线位置的良好网络覆盖范围,并且在环境重建和摄像机重新定位中均高精度。我们还实现了实时AR支持的网络监视,每帧的端到端延迟约为32毫秒。
translated by 谷歌翻译
In recent decades, several assistive technologies for visually impaired and blind (VIB) people have been developed to improve their ability to navigate independently and safely. At the same time, simultaneous localization and mapping (SLAM) techniques have become sufficiently robust and efficient to be adopted in the development of assistive technologies. In this paper, we first report the results of an anonymous survey conducted with VIB people to understand their experience and needs; we focus on digital assistive technologies that help them with indoor and outdoor navigation. Then, we present a literature review of assistive technologies based on SLAM. We discuss proposed approaches and indicate their pros and cons. We conclude by presenting future opportunities and challenges in this domain.
translated by 谷歌翻译
同时定位和映射(SLAM)对于自主机器人(例如自动驾驶汽车,自动无人机),3D映射系统和AR/VR应用至关重要。这项工作提出了一个新颖的LIDAR惯性 - 视觉融合框架,称为R $^3 $ LIVE ++,以实现强大而准确的状态估计,同时可以随时重建光线体图。 R $^3 $ LIVE ++由LIDAR惯性探针(LIO)和视觉惯性探测器(VIO)组成,均为实时运行。 LIO子系统利用从激光雷达的测量值重建几何结构(即3D点的位置),而VIO子系统同时从输入图像中同时恢复了几何结构的辐射信息。 r $^3 $ live ++是基于r $^3 $ live开发的,并通过考虑相机光度校准(例如,非线性响应功能和镜头渐滴)和相机的在线估计,进一步提高了本地化和映射的准确性和映射接触时间。我们对公共和私人数据集进行了更广泛的实验,以将我们提出的系统与其他最先进的SLAM系统进行比较。定量和定性结果表明,我们所提出的系统在准确性和鲁棒性方面对其他系统具有显着改善。此外,为了证明我们的工作的可扩展性,{我们基于重建的辐射图开发了多个应用程序,例如高动态范围(HDR)成像,虚拟环境探索和3D视频游戏。}最后,分享我们的发现和我们的发现和为社区做出贡献,我们在GitHub上公开提供代码,硬件设计和数据集:github.com/hku-mars/r3live
translated by 谷歌翻译
先进的可穿戴设备越来越多地利用高分辨率多摄像头系统。作为用于处理所得到的图像数据的最先进的神经网络是计算要求的,对于利用第五代(5G)无线连接和移动边缘计算,已经越来越感兴趣,以将该处理卸载到云。为了评估这种可能性,本文提出了一个详细的仿真和评估,用于5G无线卸载,用于对象检测,在一个名为Vis4ion的强大新型智能可穿戴物中,用于盲目损害(BVI)。目前的Vis4ion系统是一种具有高分辨率摄像机,视觉处理和触觉和音频反馈的仪表簿。本文认为将相机数据上载到移动边缘云以执行实时对象检测并将检测结果传输回可穿戴。为了确定视频要求,纸张评估视频比特率和分辨率对物体检测精度和范围的影响。利用与BVI导航相关的标记对象的新街道场景数据集进行分析。视觉评估与详细的全堆栈无线网络仿真结合,以确定吞吐量的分布和延迟,具有来自城市环境中的新高分辨率3D模型的实际导航路径和射线跟踪。为了比较,无线仿真考虑了标准的4G长期演进(LTE)载波和高速度5G毫米波(MMWAVE)载波。因此,该工作提供了对具有高带宽和低延迟要求的应用中的MMWAVE连接的边缘计算的彻底和现实评估。
translated by 谷歌翻译
在这项研究中,我们提出了一种新型的视觉定位方法,以根据RGB摄像机的可视数据准确估计机器人在3D激光镜头内的六个自由度(6-DOF)姿势。使用基于先进的激光雷达的同时定位和映射(SLAM)算法,可获得3D地图,能够收集精确的稀疏图。将从相机图像中提取的功能与3D地图的点进行了比较,然后解决了几何优化问题,以实现精确的视觉定位。我们的方法允许使用配备昂贵激光雷达的侦察兵机器人一次 - 用于映射环境,并且仅使用RGB摄像头的多个操作机器人 - 执行任务任务,其本地化精度高于常见的基于相机的解决方案。该方法在Skolkovo科学技术研究所(Skoltech)收集的自定义数据集上进行了测试。在评估本地化准确性的过程中,我们设法达到了厘米级的准确性;中间翻译误差高达1.3厘米。仅使用相机实现的确切定位使使用自动移动机器人可以解决需要高度本地化精度的最复杂的任务。
translated by 谷歌翻译
低成本毫米波(MMWAVE)通信和雷达设备的商业可用性开始提高消费市场中这种技术的渗透,为第五代(5G)的大规模和致密的部署铺平了道路(5G) - 而且以及6G网络。同时,普遍存在MMWAVE访问将使设备定位和无设备的感测,以前所未有的精度,特别是对于Sub-6 GHz商业级设备。本文使用MMWAVE通信和雷达设备在基于设备的定位和无设备感应中进行了现有技术的调查,重点是室内部署。我们首先概述关于MMWAVE信号传播和系统设计的关键概念。然后,我们提供了MMWaves启用的本地化和感应方法和算法的详细说明。我们考虑了在我们的分析中的几个方面,包括每个工作的主要目标,技术和性能,每个研究是否达到了一定程度的实现,并且该硬件平台用于此目的。我们通过讨论消费者级设备的更好算法,密集部署的数据融合方法以及机器学习方法的受过教育应用是有前途,相关和及时的研究方向的结论。
translated by 谷歌翻译
目前,移动机器人正在迅速发展,并在工业中寻找许多应用。然而,仍然存在与其实际使用相关的一些问题,例如对昂贵的硬件及其高功耗水平的需要。在本研究中,我们提出了一种导航系统,该导航系统可在具有RGB-D相机的低端计算机上操作,以及用于操作集成自动驱动系统的移动机器人平台。建议的系统不需要Lidars或GPU。我们的原始深度图像接地分割方法提取用于低体移动机器人的安全驾驶的遍历图。它旨在保证具有集成的SLAM,全局路径规划和运动规划的低成本现成单板计算机上的实时性能。我们使用Traversability Map应用基于规则的基于学习的导航策略。同时运行传感器数据处理和其他自主驾驶功能,我们的导航策略以18Hz的刷新率为控制命令而迅速执行,而其他系统则具有较慢的刷新率。我们的方法在有限的计算资源中优于当前最先进的导航方法,如3D模拟测试所示。此外,我们通过在室内环境中成功的自动驾驶来展示移动机器人系统的适用性。我们的整个作品包括硬件和软件在开源许可(https://github.com/shinkansan/2019-ugrp-doom)下发布。我们的详细视频是https://youtu.be/mf3iufuhppm提供的。
translated by 谷歌翻译
在本文中,我们评估了八种流行和开源的3D激光雷达和视觉大满贯(同时定位和映射)算法,即壤土,乐高壤土,lio sam,hdl graph,orb slam3,basalt vio和svo2。我们已经设计了室内和室外的实验,以研究以下项目的影响:i)传感器安装位置的影响,ii)地形类型和振动的影响,iii)运动的影响(线性和角速速度的变化)。我们根据相对和绝对姿势误差比较它们的性能。我们还提供了他们所需的计算资源的比较。我们通过我们的多摄像机和多大摄像机室内和室外数据集进行彻底分析和讨论结果,并确定环境案例的最佳性能系统。我们希望我们的发现可以帮助人们根据目标环境选择一个适合其需求的传感器和相应的SLAM算法组合。
translated by 谷歌翻译
对不利环境中的行人无处不在的定位服务了很长的挑战。尽管深入学习的戏剧性进展,但多传感器深度测量系统却带来了高计算成本并随着时间的推移遭受累积漂移的错误。由于边缘设备的计算能力越来越多,我们通过在边缘与EKF(扩展卡尔曼滤波器) - 欧拉后端集成了最新的深径测量模型,提出了一种新的无处不在的定位解决方案。我们仔细比较并选择三个传感器模式,即惯性测量单元(IMU),毫米波(MMWAVE)雷达和热红外摄像机,并实现实时运行的深度内径推理引擎。提出了考虑精度,复杂性和边缘平台的深度径流的管道。我们设计一个Lora链接,用于定位数据回程,并将深度内径仪的聚合位置投影到全局框架中。我们发现简单的基于EKF的融合模块足以用于通用定位校准,具有超过34%的精度增长,针对任何独立的深径测量系统。不同环境的广泛测试验证了我们所提出的定位系统的效率和功效。
translated by 谷歌翻译
现在,基于视觉的本地化方法为来自机器人技术到辅助技术的无数用例提供了新出现的导航管道。与基于传感器的解决方案相比,基于视觉的定位不需要预安装的传感器基础架构,这是昂贵,耗时和/或通常不可行的。本文中,我们为特定用例提出了一个基于视觉的本地化管道:针对失明和低视力的最终用户的导航支持。给定最终用户在移动应用程序上拍摄的查询图像,该管道利用视觉位置识别(VPR)算法在目标空间的参考图像数据库中找到相似的图像。这些相似图像的地理位置用于采用加权平均方法来估计最终用户的位置和透视N点(PNP)算法的下游任务中,以估计最终用户的方向。此外,该系统实现了Dijkstra的算法,以根据包括Trip Origin和目的地的可通航地图计算最短路径。用于本地化和导航的层压映射是使用定制的图形用户界面构建的,该图形用户界面投影了3D重建的稀疏映射,从一系列图像构建到相应的先验2D楼平面图。用于地图构造的顺序图像可以在预映射步骤中收集,也可以通过公共数据库/公民科学清除。端到端系统可以使用带有自定义移动应用程序的相机安装在任何可互联网的设备上。出于评估目的,在复杂的医院环境中测试了映射和定位。评估结果表明,我们的系统可以以少于1米的平均误差来实现本地化,而无需了解摄像机的固有参数,例如焦距。
translated by 谷歌翻译
自治机器人目前是最受欢迎的人工智能问题之一,在过去十年中,从自动驾驶汽车和人形系统到交付机器人和无人机,这是一项最受欢迎的智能问题。部分问题是获得一个机器人,以模仿人类的感知,我们的视觉感,用诸如神经网络等数学模型用相机和大脑的眼睛替换眼睛。开发一个能够在没有人为干预的情况下驾驶汽车的AI和一个小型机器人在城市中递送包裹可能看起来像不同的问题,因此来自感知和视觉的观点来看,这两个问题都有几种相似之处。我们目前的主要解决方案通过使用计算机视觉技术,机器学习和各种算法来实现对环境感知的关注,使机器人理解环境或场景,移动,调整其轨迹并执行其任务(维护,探索,等。)无需人为干预。在这项工作中,我们从头开始开发一个小型自动车辆,能够仅使用视觉信息理解场景,通过工业环境导航,检测人员和障碍,或执行简单的维护任务。我们审查了基本问题的最先进问题,并证明了小规模采用的许多方法类似于来自特斯拉或Lyft等公司的真正自动驾驶汽车中使用的方法。最后,我们讨论了当前的机器人和自主驾驶状态以及我们在这一领域找到的技术和道德限制。
translated by 谷歌翻译
Based on WHO statistics, many individuals are suffering from visual problems, and their number is increasing yearly. One of the most critical needs they have is the ability to navigate safely, which is why researchers are trying to create and improve various navigation systems. This paper provides a navigation concept based on the visual slam and Yolo concepts using monocular cameras. Using the ORB-SLAM algorithm, our concept creates a map from a predefined route that a blind person most uses. Since visually impaired people are curious about their environment and, of course, to guide them properly, obstacle detection has been added to the system. As mentioned earlier, safe navigation is vital for visually impaired people, so our concept has a path-following part. This part consists of three steps: obstacle distance estimation, path deviation detection, and next-step prediction, done by monocular cameras.
translated by 谷歌翻译
通过智能连接设备,技术正在逐步重塑国内环境,提高家庭安全和整体环境质量。然而,人口转移和流行病最近展示导致他们房屋中的老年人隔离,产生了可靠的辅助人物的需求。机器人助理是国内福利创新的新前沿。老年人监测只是一个可能的服务应用之一,智能机器人平台可以处理集体福祉。在本文中,我们展示了一个新的辅助机器人,我们通过模块化的基于层的架构开发,使灵活的机械设计与最先进的人工智能进行了灵活的人工智能,以便感知和声音控制。关于以前的机器人助手的作品,我们提出了一个设置有四个麦粉轮的全向平台,这使得自主导航与杂乱环境中的有效障碍物避免。此外,我们设计可控定位装置,以扩展传感器的视觉范围,并改善对用户界面的访问以进行远程呈现和连接。轻量级深度学习解决方案,用于视觉感知,人员姿势分类和声乐命令完全运行机器人的嵌入式硬件,避免了云服务私有数据收集产生的隐私问题。
translated by 谷歌翻译
对无人机系统(UAS)6G通信网络的供电解决方案的发动机解决方案非常广泛地增长了基于机器学习的自主模块和嵌入式图形处理单元(GPU)的广泛可用性。虽然这些技术已经彻底改变了UAS解决方案的可能性,但为UAS设计可操作,稳健的自主框架仍然是一个多方面和难题。在这项工作中,我们向US-IFLY提供了我们的小说,模块化框架,题为MR-IFLY,并讨论如何扩展它以启用6G Swarm解决方案。我们首先详细说明基于机器学习的UAS自主权与资源受限设备相关的挑战。接下来,我们深入描述,MR-IFLY的新颖深度估计和碰撞避免技术如何满足这些挑战。最后,我们描述了我们用来测量性能的各种评估标准,展示我们的优化机器视觉组件如何提供最多15倍的基线模型,并呈现MR-Ifly基于视觉碰撞避免技术的飞行演示视频。我们认为,这些经验结果通过提供独立的碰撞避免和导航能力来减少6G通信群中的节点之间的通信开销的候选者。
translated by 谷歌翻译
随着智能机器人的广泛渗透,在多种领域,机器人中的同时定位和映射(SLAM)技术在社区中引起了不断的关注。然而,由于机器人的密集图形计算和机器人的有限计算能力之间的性能矛盾,在多个机器人上的合作仍然仍然具有挑战性。虽然传统的解决方案来到功能作为外部计算提供商的强大云服务器,但我们通过实际测量显示数据卸载中的显着通信开销可以防止其实际部署。为了解决这些挑战,本文将新兴边缘计算范例促进到多机器人SLAM中,提出了一种多机器人激光器SLAM系统,该系统专注于在机器人边缘云架构下加速映射施工过程。与传统的多机器人SLAM相比,在机器人上生成图形地图并完全合并它们在云上,recslam开发了一个分层地图融合技术,将机器人的原始数据指向用于实时融合的边缘服务器,然后发送到云端全球合并。为了优化整体管道,引入了一种有效的多机器人SLAM协作处理框架,以便自适应地优化针对异构边缘资源条件的机器人到边缘卸载,同时确保边缘服务器之间的工作量平衡。广泛的评估表明康复伍列可以通过最先进的延迟减少达到39%的处理延迟。此外,在真实场景中开发并部署了概念验证原型,以展示其有效性。
translated by 谷歌翻译
Figure 1: Example output from our system, generated in real-time with a handheld Kinect depth camera and no other sensing infrastructure. Normal maps (colour) and Phong-shaded renderings (greyscale) from our dense reconstruction system are shown. On the left for comparison is an example of the live, incomplete, and noisy data from the Kinect sensor (used as input to our system).
translated by 谷歌翻译
根据世界卫生组织的数据,估计视觉障碍会影响全球约22亿人。目前,视力障碍必须依靠导航辅助工具来替代其视觉感,例如基于白色的甘蔗或GPS(全球定位系统)导航,两者都无法在室内工作。白色的甘蔗不能用于确定用户在房间内的位置,而GPS通常可以在室内失去连接,并且不提供方向信息,这两种方法都不适合室内使用。因此,这项研究试图开发3D成像解决方案,该解决方案能够通过复杂的室内环境实现非接触式导航。与以前的方法相比,该设备可以查明用户的位置和方向,同时仅需要53.1%的内存,并且处理速度更快125%。该设备还可以比以前的最新模型检测到60.2%的障碍,同时仅需要41%的内存和处理速度260%。在与人类参与者进行测试时,该设备允许与环境障碍物的碰撞减少94.5%,并允许步行速度提高48.3%,这表明我的设备可以使视力受损更安全,更快地导航。总而言之,这项研究表明了一个基于3D的导航系统,用于视力障碍。该方法可以由多种移动低功率设备(例如手机)使用,以确保所有人都可以使用这项研究。
translated by 谷歌翻译
本文介绍了Cerberus机器人系统系统,该系统赢得了DARPA Subterranean挑战最终活动。出席机器人自主权。由于其几何复杂性,降解的感知条件以及缺乏GPS支持,严峻的导航条件和拒绝通信,地下设置使自动操作变得特别要求。为了应对这一挑战,我们开发了Cerberus系统,该系统利用了腿部和飞行机器人的协同作用,再加上可靠的控制,尤其是为了克服危险的地形,多模式和多机器人感知,以在传感器退化,以及在传感器退化的条件下进行映射以及映射通过统一的探索路径计划和本地运动计划,反映机器人特定限制的弹性自主权。 Cerberus基于其探索各种地下环境及其高级指挥和控制的能力,表现出有效的探索,对感兴趣的对象的可靠检测以及准确的映射。在本文中,我们报告了DARPA地下挑战赛的初步奔跑和最终奖项的结果,并讨论了为社区带来利益的教训所面临的亮点和挑战。
translated by 谷歌翻译
A monocular visual-inertial system (VINS), consisting of a camera and a low-cost inertial measurement unit (IMU), forms the minimum sensor suite for metric six degreesof-freedom (DOF) state estimation. However, the lack of direct distance measurement poses significant challenges in terms of IMU processing, estimator initialization, extrinsic calibration, and nonlinear optimization. In this work, we present VINS-Mono: a robust and versatile monocular visual-inertial state estimator. Our approach starts with a robust procedure for estimator initialization and failure recovery. A tightly-coupled, nonlinear optimization-based method is used to obtain high accuracy visual-inertial odometry by fusing pre-integrated IMU measurements and feature observations. A loop detection module, in combination with our tightly-coupled formulation, enables relocalization with minimum computation overhead. We additionally perform four degrees-of-freedom pose graph optimization to enforce global consistency. We validate the performance of our system on public datasets and real-world experiments and compare against other state-of-the-art algorithms. We also perform onboard closed-loop autonomous flight on the MAV platform and port the algorithm to an iOS-based demonstration. We highlight that the proposed work is a reliable, complete, and versatile system that is applicable for different applications that require high accuracy localization. We open source our implementations for both PCs 1 and iOS mobile devices 2 .
translated by 谷歌翻译
视觉同时定位和映射(VSLAM)在计算机视觉和机器人社区中取得了巨大进展,并已成功用于许多领域,例如自主机器人导航和AR/VR。但是,VSLAM无法在动态和复杂的环境中实现良好的定位。许多出版物报告说,通过与VSLAM结合语义信息,语义VSLAM系统具有近年来解决上述问题的能力。然而,尚无关于语义VSLAM的全面调查。为了填补空白,本文首先回顾了语义VSLAM的发展,并明确着眼于其优势和差异。其次,我们探讨了语义VSLAM的三个主要问题:语义信息的提取和关联,语义信息的应用以及语义VSLAM的优势。然后,我们收集和分析已广泛用于语义VSLAM系统的当前最新SLAM数据集。最后,我们讨论未来的方向,该方向将为语义VSLAM的未来发展提供蓝图。
translated by 谷歌翻译