在这项工作中,我们通过混合现实(MR)应用中的视频传球来探讨自幻想的创建。我们介绍了我们的端到端系统,包括:在商业头部安装显示器(HMD)上进行自定义MR视频通行证实现,我们基于深度学习的实时egpocentric身体细分算法以及我们优化的卸载体系结构,以交流使用HMD分割服务器。为了验证这项技术,我们设计了一种身临其境的VR体验,用户必须在活跃的火山火山口中穿过狭窄的瓷砖路径。这项研究是在三个身体表示条件下进行的:虚拟手,带有颜色的全身分割的视频传递以及深度学习全身分割的视频通行。这种身临其境的经历由30名女性和28名男性进行。据我们所知,这是首次旨在评估基于视频的自我avatar的用户研究,以代表用户在MR场景中。结果表明,不同身体表示在存在方面没有显着差异,虚拟手和全身表示之间的某些实施方案中等改善。视觉质量结果表明,就整个身体感知和整体分割质量而言,深入学习算法的结果更好。我们提供了一些关于使用基于视频的自我幻想的讨论,以及对评估方法的一些思考。提出的E2E解决方案处于最新技术状态的边界,因此在达到成熟之前仍有改进的空间。但是,该溶液是新型MR分布式溶液的关键起点。
translated by 谷歌翻译
在这项工作中,我们介绍了我们的实时自我分割算法。由于我们在Thundernet的架构中灵感的浅网络,我们的算法对于640x480的输入分辨率达到了66 fps的帧速率。此外,我们非常重视培训数据的可变性。更具体地说,我们描述了我们的自我中心物体(Egobodies)数据集的创建过程,该数据集由来自三个数据集的近10,000张图像组成,这些图像既来自综合方法和真实捕获。我们进行实验以了解各个数据集的贡献;比较用自行车训练的Thundernet模型,并以更简单,更复杂的先前方法进行比较,并在分段质量和推理时间上以现实生活设置进行了相应的性能。所描述的经过训练的语义分割算法已经集成到混合现实的端到端系统中,使用户有可能在沉浸在MR场景中时看到自己的身体。
translated by 谷歌翻译
VirtualCube系统是一个尝试克服传统技术的一些限制的3D视频会议系统。关键的成分是VirtualCube,一种用RGBD摄像机录制的现实世界隔间的抽象表示,用于捕获用户的3D几何和纹理。我们设计VirtualCube,以便数据捕获的任务是标准化和显着简化的,并且所有内容都可以使用现成的硬件构建。我们将VirtualCubes用作虚拟会议环境的基本构建块,我们为每个VirtualCube用户提供一个周围的显示,显示远程参与者的寿命型视频。为了实现远程参与者的实时渲染,我们开发了V-Cube视图算法,它使用多视图立体声进行更精确的深度估计和Lumi-Net渲染,以便更好地渲染质量。 VirtualCube系统正确保留了参与者之间的相互眼睛凝视,使他们能够建立目光接触并意识到谁在视觉上关注它们。该系统还允许参与者与远程参与者具有侧面讨论,就像他们在同一个房间一样。最后,系统揭示了如何支持如何支持工作项的共享空间(例如,文档和应用程序),并跟踪参与者的视觉注意工作项目。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
本文介绍了Cerberus机器人系统系统,该系统赢得了DARPA Subterranean挑战最终活动。出席机器人自主权。由于其几何复杂性,降解的感知条件以及缺乏GPS支持,严峻的导航条件和拒绝通信,地下设置使自动操作变得特别要求。为了应对这一挑战,我们开发了Cerberus系统,该系统利用了腿部和飞行机器人的协同作用,再加上可靠的控制,尤其是为了克服危险的地形,多模式和多机器人感知,以在传感器退化,以及在传感器退化的条件下进行映射以及映射通过统一的探索路径计划和本地运动计划,反映机器人特定限制的弹性自主权。 Cerberus基于其探索各种地下环境及其高级指挥和控制的能力,表现出有效的探索,对感兴趣的对象的可靠检测以及准确的映射。在本文中,我们报告了DARPA地下挑战赛的初步奔跑和最终奖项的结果,并讨论了为社区带来利益的教训所面临的亮点和挑战。
translated by 谷歌翻译
先进的可穿戴设备越来越多地利用高分辨率多摄像头系统。作为用于处理所得到的图像数据的最先进的神经网络是计算要求的,对于利用第五代(5G)无线连接和移动边缘计算,已经越来越感兴趣,以将该处理卸载到云。为了评估这种可能性,本文提出了一个详细的仿真和评估,用于5G无线卸载,用于对象检测,在一个名为Vis4ion的强大新型智能可穿戴物中,用于盲目损害(BVI)。目前的Vis4ion系统是一种具有高分辨率摄像机,视觉处理和触觉和音频反馈的仪表簿。本文认为将相机数据上载到移动边缘云以执行实时对象检测并将检测结果传输回可穿戴。为了确定视频要求,纸张评估视频比特率和分辨率对物体检测精度和范围的影响。利用与BVI导航相关的标记对象的新街道场景数据集进行分析。视觉评估与详细的全堆栈无线网络仿真结合,以确定吞吐量的分布和延迟,具有来自城市环境中的新高分辨率3D模型的实际导航路径和射线跟踪。为了比较,无线仿真考虑了标准的4G长期演进(LTE)载波和高速度5G毫米波(MMWAVE)载波。因此,该工作提供了对具有高带宽和低延迟要求的应用中的MMWAVE连接的边缘计算的彻底和现实评估。
translated by 谷歌翻译
天然用户界面正在上升。用于增强,虚拟和混合现实头架显示器的制造商正在越来越多地将新传感器整合到消费级产品中,从而允许没有其他硬件的手势识别。这为虚拟环境中的裸互动提供了新的可能性。这项工作提出了一种手势创作工具,用于特定对象的抓取手势,允许在现实世界中抓取虚拟对象。提出的解决方案使用模板匹配以进行手势识别,并且不需要技术知识来设计和创建定制的手势。在用户研究中,将提出的方法与捏合手势和控制虚拟对象的控制器进行了比较。根据准确性,任务完成时间,可用性和自然性比较不同的抓握技术。该研究表明,用所提出的方法创建的手势被用户视为比其他方法更自然的输入方式。
translated by 谷歌翻译
框架已开始出现,以对提供沉浸式,直观的接口提供沉浸式,直观的界面的虚拟,增强和混合现实(VAM)技术来促进人机互动。然而,这些框架未能捕获VAM-HRI的生长子场的关键特性,并且由于连续尺度而难以持续应用。这项工作通过创建用于组织VAM-HRI系统(TOKC)的关键特征来构建这些先前的框架。 Tokcs离散地分离出现在先前作品中使用的连续尺度,以获得更一致的分类,并增加与机器人的内部模型,锚点位置,可操纵性和系统的软件相关的额外特征。为了展示工具的能力,TOKCS应用于来自第四届VAM-HRI车间的十篇论文,并检查了关键趋势和外卖。这些趋势突出了TOKCS的表现能力,同时还帮助框架更新的趋势和VAM-HRI研究的未来工作建议。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
使用增强现实(AR)用于导航目的,这表明在手术手术过程中协助医生有益。这些应用通常需要知道外科手术工具和患者的姿势,以提供外科医生在任务执行过程中可以使用的视觉信息。现有的医学级跟踪系统使用放置在手术室内的红外摄像头(OR)来识别感兴趣的对象附加并计算其姿势的复古反射标记。一些市售的AR头式显示器(HMD)使用类似的摄像头进行自定位,手动跟踪和估算对象的深度。这项工作提出了一个使用AR HMD的内置摄像机来准确跟踪复古反射标记的框架,例如在手术过程中使用的标记,而无需集成任何其他组件。该框架还能够同时跟踪多个工具。我们的结果表明,横向翻译的准确度为0.09 +-0.06毫米,可以实现标记的跟踪和检测,纵向翻译的0.42 +-0.32 mm,绕垂直轴旋转的0.80 +-0.39 ver。此外,为了展示所提出的框架的相关性,我们在手术程序的背景下评估了系统的性能。该用例旨在在骨科过程中复制K-Wire插入的场景。为了进行评估,为两名外科医生和一名生物医学研究人员提供了视觉导航,每次都进行了21次注射。该用例的结果提供了与基于AR的导航程序报告的相当精度。
translated by 谷歌翻译
通过智能连接设备,技术正在逐步重塑国内环境,提高家庭安全和整体环境质量。然而,人口转移和流行病最近展示导致他们房屋中的老年人隔离,产生了可靠的辅助人物的需求。机器人助理是国内福利创新的新前沿。老年人监测只是一个可能的服务应用之一,智能机器人平台可以处理集体福祉。在本文中,我们展示了一个新的辅助机器人,我们通过模块化的基于层的架构开发,使灵活的机械设计与最先进的人工智能进行了灵活的人工智能,以便感知和声音控制。关于以前的机器人助手的作品,我们提出了一个设置有四个麦粉轮的全向平台,这使得自主导航与杂乱环境中的有效障碍物避免。此外,我们设计可控定位装置,以扩展传感器的视觉范围,并改善对用户界面的访问以进行远程呈现和连接。轻量级深度学习解决方案,用于视觉感知,人员姿势分类和声乐命令完全运行机器人的嵌入式硬件,避免了云服务私有数据收集产生的隐私问题。
translated by 谷歌翻译
Hololens(Microsoft Corp.,WA Redmond,WA)是一款头饰,光学透明的增强现实展示,是最近提高医学增强现实研究的主要参与者。在医疗环境中,HoloLens使医生能够立即了解患者信息,直接与他们对临床方案的看法,医学生,可以更好地了解复杂的解剖学或程序,甚至可以通过执行治疗任务。改进,沉浸式指导。在这篇系统的综述中,我们提供了有关医疗领域第一代霍洛伦斯在2016年3月发布到2021年的全面使用的全面概述,一直关注其继任者霍洛伦斯2号。通过系统搜索PubMed和Scopus数据库确定了171个相关出版物。我们分析了这些出版物的预期用例,注册和跟踪的技术方法,数据源,可视化以及验证和评估。我们发现,尽管已经显示出在各种医学场景中使用Hololens的可行性,但在精确,可靠性,可用性,工作流程和感知方面的努力增加了在临床实践中建立AR。
translated by 谷歌翻译
In recent decades, several assistive technologies for visually impaired and blind (VIB) people have been developed to improve their ability to navigate independently and safely. At the same time, simultaneous localization and mapping (SLAM) techniques have become sufficiently robust and efficient to be adopted in the development of assistive technologies. In this paper, we first report the results of an anonymous survey conducted with VIB people to understand their experience and needs; we focus on digital assistive technologies that help them with indoor and outdoor navigation. Then, we present a literature review of assistive technologies based on SLAM. We discuss proposed approaches and indicate their pros and cons. We conclude by presenting future opportunities and challenges in this domain.
translated by 谷歌翻译
我们探索Calico是一种微型可重新定位的可穿戴系统,具有快速,精确的运动,用于体内相互作用,驱动和感应。印花布由两轮机器人和一条轨道机制或“铁路”组成,机器人在其上行驶。机器人具有独立的,尺寸很小,并且具有其他传感器扩展选项。轨道系统允许机器人沿着用户的身体移动并到达任何预定位置。它还包括旋转开关以启用复杂的路由选项,当提出发散轨道时。我们报告了印花布的设计和实施,并通过一系列的系统性能评估。然后,我们介绍一些应用程序方案和用户研究,以了解印花布作为舞蹈教练的潜力,并探索对我们情景的定性感知,以告知该领域未来的研究。
translated by 谷歌翻译
眼目光分析是计算机视觉和人类计算机相互作用领域的重要研究问题。即使在过去十年中取得了显着进展,由于眼睛外观,眼头相互作用,遮挡,图像质量和照明条件的独特性,自动凝视分析仍然具有挑战性。有几个开放的问题,包括在没有先验知识的情况下,在不受限制的环境中解释凝视方向的重要提示以及如何实时编码它们。我们回顾了一系列目光分析任务和应用程序的进展,以阐明这些基本问题,确定凝视分析中的有效方法并提供可能的未来方向。我们根据其优势和报告的评估指标分析了最近的凝视估计和分割方法,尤其是在无监督和弱监督的领域中。我们的分析表明,强大而通用的凝视分析方法的开发仍然需要解决现实世界中的挑战,例如不受限制的设置和学习,并减少了监督。最后,我们讨论了设计现实的目光分析系统的未来研究方向,该系统可以传播到其他领域,包括计算机视觉,增强现实(AR),虚拟现实(VR)和人类计算机交互(HCI)。项目页面:https://github.com/i-am-shreya/eyegazesurvey} {https://github.com/i-am-shreya/eyegazesurvey
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译
由于需要快速原型制作和广泛的测试,模拟在自主驾驶中的作用变得越来越重要。基于物理的模拟使用涉及多个利益和优势,以合理的成本消除了对原型,驱动因素和脆弱道路使用者的风险。但是,有两个主要局限性。首先,众所周知的现实差距是指现实与模拟之间的差异,这阻止了模拟自主驾驶体验实现有效的现实性能。其次,缺乏有关真实代理商的行为的经验知识,包括备用驾驶员或乘客以及其他道路使用者,例如车辆,行人或骑自行车的人。代理仿真通常是根据实际数据进行确定性,随机概率或生成的预编程的,但它不代表与特定模拟方案相互作用的真实试剂的行为。在本文中,我们提出了一个初步框架,以实现真实试剂与模拟环境(包括自动驾驶汽车)之间的实时互动,并从多个视图中从模拟传感器数据中生成合成序列,这些视图可用于培训依赖行为模型的预测系统。我们的方法将沉浸式的虚拟现实和人类运动捕获系统与Carla模拟器进行自主驾驶。我们描述了提出的硬件和软件体系结构,并讨论所谓的行为差距或存在。我们提出了支持这种方法的潜力并讨论未来步骤的初步但有希望的结果。
translated by 谷歌翻译