增强现实(AR)透明视觉是一个有趣的研究主题,因为它使用户能够通过墙壁看到并查看被遮挡的对象。大多数现有研究的重点是透明视觉的视觉效果,而相互作用方法的研究较少。但是,我们认为,使用常见的互动方式,例如,空中点击和语音,可能不是控制透明视觉的最佳方法。这是因为当我们想浏览某些东西时,它与我们的目光深度/狂热有关,因此应由眼睛自然控制。遵循这个想法,本文提出了一种新颖的目光控制(GVC)AR中的透明视觉技术。由于需要凝视深度,因此我们使用两个红外摄像机和相应的算法构建了一个凝视跟踪模块,然后将其组装到Microsoft Hololens 2中,以实现凝视深度估计。然后,我们提出了两种不同的GVC模式,以供透明视觉拟合不同的情况。广泛的实验结果表明,我们的凝视深度估计是有效而准确的。通过与常规互动方式进行比较,我们的GVC技术在效率方面也很出色,用户更喜欢。最后,我们提出了凝视控制的透明视觉的四个示例应用。
translated by 谷歌翻译
使用增强现实(AR)用于导航目的,这表明在手术手术过程中协助医生有益。这些应用通常需要知道外科手术工具和患者的姿势,以提供外科医生在任务执行过程中可以使用的视觉信息。现有的医学级跟踪系统使用放置在手术室内的红外摄像头(OR)来识别感兴趣的对象附加并计算其姿势的复古反射标记。一些市售的AR头式显示器(HMD)使用类似的摄像头进行自定位,手动跟踪和估算对象的深度。这项工作提出了一个使用AR HMD的内置摄像机来准确跟踪复古反射标记的框架,例如在手术过程中使用的标记,而无需集成任何其他组件。该框架还能够同时跟踪多个工具。我们的结果表明,横向翻译的准确度为0.09 +-0.06毫米,可以实现标记的跟踪和检测,纵向翻译的0.42 +-0.32 mm,绕垂直轴旋转的0.80 +-0.39 ver。此外,为了展示所提出的框架的相关性,我们在手术程序的背景下评估了系统的性能。该用例旨在在骨科过程中复制K-Wire插入的场景。为了进行评估,为两名外科医生和一名生物医学研究人员提供了视觉导航,每次都进行了21次注射。该用例的结果提供了与基于AR的导航程序报告的相当精度。
translated by 谷歌翻译
Hololens(Microsoft Corp.,WA Redmond,WA)是一款头饰,光学透明的增强现实展示,是最近提高医学增强现实研究的主要参与者。在医疗环境中,HoloLens使医生能够立即了解患者信息,直接与他们对临床方案的看法,医学生,可以更好地了解复杂的解剖学或程序,甚至可以通过执行治疗任务。改进,沉浸式指导。在这篇系统的综述中,我们提供了有关医疗领域第一代霍洛伦斯在2016年3月发布到2021年的全面使用的全面概述,一直关注其继任者霍洛伦斯2号。通过系统搜索PubMed和Scopus数据库确定了171个相关出版物。我们分析了这些出版物的预期用例,注册和跟踪的技术方法,数据源,可视化以及验证和评估。我们发现,尽管已经显示出在各种医学场景中使用Hololens的可行性,但在精确,可靠性,可用性,工作流程和感知方面的努力增加了在临床实践中建立AR。
translated by 谷歌翻译
VirtualCube系统是一个尝试克服传统技术的一些限制的3D视频会议系统。关键的成分是VirtualCube,一种用RGBD摄像机录制的现实世界隔间的抽象表示,用于捕获用户的3D几何和纹理。我们设计VirtualCube,以便数据捕获的任务是标准化和显着简化的,并且所有内容都可以使用现成的硬件构建。我们将VirtualCubes用作虚拟会议环境的基本构建块,我们为每个VirtualCube用户提供一个周围的显示,显示远程参与者的寿命型视频。为了实现远程参与者的实时渲染,我们开发了V-Cube视图算法,它使用多视图立体声进行更精确的深度估计和Lumi-Net渲染,以便更好地渲染质量。 VirtualCube系统正确保留了参与者之间的相互眼睛凝视,使他们能够建立目光接触并意识到谁在视觉上关注它们。该系统还允许参与者与远程参与者具有侧面讨论,就像他们在同一个房间一样。最后,系统揭示了如何支持如何支持工作项的共享空间(例如,文档和应用程序),并跟踪参与者的视觉注意工作项目。
translated by 谷歌翻译
在这项工作中,我们通过混合现实(MR)应用中的视频传球来探讨自幻想的创建。我们介绍了我们的端到端系统,包括:在商业头部安装显示器(HMD)上进行自定义MR视频通行证实现,我们基于深度学习的实时egpocentric身体细分算法以及我们优化的卸载体系结构,以交流使用HMD分割服务器。为了验证这项技术,我们设计了一种身临其境的VR体验,用户必须在活跃的火山火山口中穿过狭窄的瓷砖路径。这项研究是在三个身体表示条件下进行的:虚拟手,带有颜色的全身分割的视频传递以及深度学习全身分割的视频通行。这种身临其境的经历由30名女性和28名男性进行。据我们所知,这是首次旨在评估基于视频的自我avatar的用户研究,以代表用户在MR场景中。结果表明,不同身体表示在存在方面没有显着差异,虚拟手和全身表示之间的某些实施方案中等改善。视觉质量结果表明,就整个身体感知和整体分割质量而言,深入学习算法的结果更好。我们提供了一些关于使用基于视频的自我幻想的讨论,以及对评估方法的一些思考。提出的E2E解决方案处于最新技术状态的边界,因此在达到成熟之前仍有改进的空间。但是,该溶液是新型MR分布式溶液的关键起点。
translated by 谷歌翻译
随着消费者显示和商业VR平台的兴起,虚拟现实(VR)变得无处不在。这样的显示器需要低潜伏期和高质量的合成成像,并减少了计算开销。神经渲染的最新进展显示出通过虚拟或物理环境的基于图像的表示,可以在3D计算机图形中解锁新的可能性。具体而言,神经辐射场(NERF)表明,可以实现光真逼真的质量和连续的3D场景变化,而不会丧失依赖观点的效果。尽管NERF可以显着利益VR应用程序的渲染,但它面临着高度视野,高分辨率和立体/中心观看的独特挑战,通常会导致渲染图像的低质量和高潜伏期。在VR中,这不仅会损害互动经历,还可能引起疾病。为了解决VR中的六级自由主义者和立体声的问题,我们介绍了第一个注视 - 矛盾的3D神经表示和视图合成方法。我们将视觉和立体声音的人类心理物理学融入了3D风景的以自我为中心的神经表示中。然后,我们共同优化了延迟/性能和视觉质量,同时相互弥合人类的感知和神经场景合成以实现感知高质量的沉浸式相互作用。我们进行了客观分析和主观研究,以评估方法的有效性。我们发现,我们的方法显着降低了潜伏期(与NERF相比,时间降低了99%),而不会损失高保真渲染(感知上与完整的地面真相相同)。提出的方法可以作为迈向未来VR/AR系统的第一步,该系统可实时捕获,传送和可视化远程环境。
translated by 谷歌翻译
眼目光分析是计算机视觉和人类计算机相互作用领域的重要研究问题。即使在过去十年中取得了显着进展,由于眼睛外观,眼头相互作用,遮挡,图像质量和照明条件的独特性,自动凝视分析仍然具有挑战性。有几个开放的问题,包括在没有先验知识的情况下,在不受限制的环境中解释凝视方向的重要提示以及如何实时编码它们。我们回顾了一系列目光分析任务和应用程序的进展,以阐明这些基本问题,确定凝视分析中的有效方法并提供可能的未来方向。我们根据其优势和报告的评估指标分析了最近的凝视估计和分割方法,尤其是在无监督和弱监督的领域中。我们的分析表明,强大而通用的凝视分析方法的开发仍然需要解决现实世界中的挑战,例如不受限制的设置和学习,并减少了监督。最后,我们讨论了设计现实的目光分析系统的未来研究方向,该系统可以传播到其他领域,包括计算机视觉,增强现实(AR),虚拟现实(VR)和人类计算机交互(HCI)。项目页面:https://github.com/i-am-shreya/eyegazesurvey} {https://github.com/i-am-shreya/eyegazesurvey
translated by 谷歌翻译
折射率是最常见的眼睛障碍,是可更正视觉障碍的关键原因,造成了美国近80%的视觉障碍。可以使用多种方法诊断折射误差,包括主观折射,视网膜镜检查和自动磨蚀器。尽管主观折射是黄金标准,但它需要患者的合作,因此不适合婴儿,幼儿和发育迟缓的成年人。视网膜镜检查是一种客观折射方法,不需要患者的任何输入。但是,视网膜镜检查需要镜头套件和训练有素的检查员,这限制了其用于大规模筛查的使用。在这项工作中,我们通过将智能手机连接到视网膜镜和录制视网膜镜视频与患者戴着定制的纸框架来自动化自动化。我们开发了一个视频处理管道,该管道将视网膜视频视为输入,并根据我们提出的视网膜镜检查数学模型的扩展来估算净屈光度错误。我们的系统减轻了对镜头套件的需求,可以由未经培训的检查员进行。在一项185只眼睛的临床试验中,我们的灵敏度为91.0%,特异性为74.0%。此外,与主观折射测量相比,我们方法的平均绝对误差为0.75 $ \ pm $ 0.67D。我们的结果表明,我们的方法有可能用作现实世界中医疗设置中的基于视网膜镜检查的折射率筛选工具。
translated by 谷歌翻译
许多钥匙孔干预依赖于双手动处理外科手术器械,强迫主要外科医生依靠第二个外科医生作为相机助理。除了过度涉及手术人员的负担外,这可能导致图像稳定性降低,增加任务完成时间,有时由于任务的单调而有时会出现错误。由一组基本说明控制的机器人内窥镜持有者已被提出作为替代方案,但它们的不自然处理可能会增加(SOLO)外科医生的认知负荷,这阻碍了它们的临床验收。如果机器人内窥镜持有者通过语义上丰富的指令与操作外科医生合作的机器人内窥镜持有者,则可以实现手术工作流程的更无缝集成。作为概念证明,本文介绍了一种新颖的系统,为外科医生和机器人内窥镜支架之间的协同相互作用铺平了道路。该拟议的平台允许外科医生执行生理协调和导航任务,而机器人臂自动执行内窥镜定位任务。在我们的系统中,我们提出了一种基于外科刀具分割的新型工具提示定位方法和一种新型的视觉伺服方法,可确保内窥镜摄像机的平滑和适当的运动。我们验证了我们的视觉管道并运行了对该系统的用户学习。通过使用欧洲妇科手术课程验证的腹腔镜运动来确保研究的临床相关性,涉及双部手动协调和导航。我们拟议的系统的成功应用提供了更广泛的临床采用机器人内窥镜架的有希望的起点。
translated by 谷歌翻译
现代目光跟踪系统中的相机具有基本的带宽和功率限制,实际上将数据采集速度限制为300 Hz。这会阻碍使用移动眼镜手术器的使用,例如低潜伏期预测性渲染,或者在野外使用头部安装的设备来快速而微妙的眼动运动,例如微扫视。在这里,我们提出了一个基于混合框架的近眼凝视跟踪系统,可提供超过10,000 Hz的更新速率,其准确性与在相同条件下评估时相匹配的高端台式机商业跟踪器。我们的系统建立在新兴事件摄像机的基础上,该摄像头同时获得定期采样框架和自适应采样事件。我们开发了一种在线2D学生拟合方法,该方法每一个或几个事件都会更新参数模型。此外,我们提出了一个多项式回归器,用于实时估算参数学生模型的凝视点。使用第一个基于事件的凝视数据集,可在https://github.com/aangelopoulos/event_based_gaze_tracking上获得,我们证明我们的系统可实现0.45度 - 1.75度的准确度,用于从45度到98度的视野。借助这项技术,我们希望能够为虚拟和增强现实提供新一代的超低延迟凝视呈现和展示技术。
translated by 谷歌翻译
可靠地定量自然和人为气体释放(例如,从海底进入海洋的自然和人为气体释放(例如,Co $ _2 $,甲烷),最终是大气,是一个具有挑战性的任务。虽然船舶的回声探测器允许在水中检测水中的自由气,但是即使从较大的距离中,精确量化需要诸如未获得的升高速度和气泡尺寸分布的参数。光学方法的意义上是互补的,即它们可以提供从近距离的单个气泡或气泡流的高时和空间分辨率。在这一贡献中,我们介绍了一种完整的仪器和评估方法,用于光学气泡流特征。专用仪器采用高速深海立体声摄像机系统,可在部署在渗透网站以进行以后的自动分析时录制泡泡图像的Tbleabytes。对于几分钟的短序列可以获得泡特性,然后将仪器迁移到其他位置,或者以自主间隔模式迁移到几天内,以捕获由于电流和压力变化和潮汐循环引起的变化。除了报告泡沫特征的步骤旁边,我们仔细评估了可达准确性并提出了一种新颖的校准程序,因为由于缺乏点对应,仅使用气泡的剪影。该系统已成功运营,在太平洋高达1000万水深,以评估甲烷通量。除了样品结果外,我们还会报告在开发期间汲取的故障案例和经验教训。
translated by 谷歌翻译
人类在交流何时和何时发生的何时和何处的意图方面非常熟练。但是,即使是最先进的机器人实现,通常缺乏这种交流技巧。这项研究调查了使用增强现实的机器人内部状态的可视化和对人向机器人移交的意图。具体而言,我们探讨了对象和机器人抓手的可视化3D模型的使用,以传达机器人对物体所在位置的估计以及机器人打算掌握对象的姿势。我们通过16名参与者的用户研究测试了这一设计,其中每个参与者将一个立方体对象交给机器人12次。结果表明,通过增强现实的通信机器人意图基本上改善了用户对移交的感知体验。结果还表明,当机器人在定位对象时犯错时,增强现实的有效性对于相互作用的安全性和交互的流利性更加明显。
translated by 谷歌翻译
天然用户界面正在上升。用于增强,虚拟和混合现实头架显示器的制造商正在越来越多地将新传感器整合到消费级产品中,从而允许没有其他硬件的手势识别。这为虚拟环境中的裸互动提供了新的可能性。这项工作提出了一种手势创作工具,用于特定对象的抓取手势,允许在现实世界中抓取虚拟对象。提出的解决方案使用模板匹配以进行手势识别,并且不需要技术知识来设计和创建定制的手势。在用户研究中,将提出的方法与捏合手势和控制虚拟对象的控制器进行了比较。根据准确性,任务完成时间,可用性和自然性比较不同的抓握技术。该研究表明,用所提出的方法创建的手势被用户视为比其他方法更自然的输入方式。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
我们介绍RealityTalk,该系统通过语音驱动的互动虚拟元素来增强实时实时演示。增强演示文稿利用嵌入式视觉效果和动画来吸引和表现力。但是,现有的实时演示工具通常缺乏互动性和即兴创作,同时在视频编辑工具中产生这种效果需要大量的时间和专业知识。RealityTalk使用户能够通过实时语音驱动的交互创建实时增强演示文稿。用户可以通过实时语音和支持方式进行交互提示,移动和操纵图形元素。根据我们对177个现有视频编辑的增强演示文稿的分析,我们提出了一套新颖的互动技术,然后将它们纳入真人秀。我们从主持人的角度评估我们的工具,以证明系统的有效性。
translated by 谷歌翻译
框架已开始出现,以对提供沉浸式,直观的接口提供沉浸式,直观的界面的虚拟,增强和混合现实(VAM)技术来促进人机互动。然而,这些框架未能捕获VAM-HRI的生长子场的关键特性,并且由于连续尺度而难以持续应用。这项工作通过创建用于组织VAM-HRI系统(TOKC)的关键特征来构建这些先前的框架。 Tokcs离散地分离出现在先前作品中使用的连续尺度,以获得更一致的分类,并增加与机器人的内部模型,锚点位置,可操纵性和系统的软件相关的额外特征。为了展示工具的能力,TOKCS应用于来自第四届VAM-HRI车间的十篇论文,并检查了关键趋势和外卖。这些趋势突出了TOKCS的表现能力,同时还帮助框架更新的趋势和VAM-HRI研究的未来工作建议。
translated by 谷歌翻译
这项工作提出了下一代人类机器人界面,只能通过视觉来推断和实现用户的操纵意图。具体而言,我们开发了一个集成了近眼跟踪和机器人操作的系统,以实现用户指定的操作(例如,抓取,拾取和位置等),在其中将视觉信息与人类的注意合并在一起,以创建为所需的映射机器人动作。为了实现视力指导的操纵,开发了一个头部安装的近眼跟踪设备,以实时跟踪眼球运动,以便可以确定用户的视觉注意力。为了提高抓地力性能,然后开发出基于变压器的GRASP模型。堆叠的变压器块用于提取层次特征,其中在每个阶段扩展了通道的体积,同时挤压了特征地图的分辨率。实验验证表明,眼球跟踪系统产生低的凝视估计误差,抓地力系统在多个握把数据集上产生有希望的结果。这项工作是基于凝视互动的辅助机器人的概念证明,该机器人具有巨大的希望,可以帮助老年人或上肢残疾在日常生活中。可在\ url {https://www.youtube.com/watch?v=yuz1hukyurm}上获得演示视频。
translated by 谷歌翻译
Mohamed Bin Zayed国际机器人挑战(MBZIRC)2020为无人机(无人机)构成了不同的挑战。我们提供了四个量身定制的无人机,专门为MBZIRC的单独空中机器人任务开发,包括自定义硬件和软件组件。在挑战1中,使用高效率,车载对象检测管道进行目标UAV,以捕获来自目标UAV的球。第二个UAV使用类似的检测方法来查找和流行散落在整个竞技场的气球。对于挑战2,我们展示了一种能够自主空中操作的更大的无人机:从相机图像找到并跟踪砖。随后,将它们接近,挑选,运输并放在墙上。最后,在挑战3中,我们的UAV自动发现使用LIDAR和热敏摄像机的火灾。它用船上灭火器熄灭火灾。虽然每个机器人都具有任务特定的子系统,但所有无人机都依赖于为该特定和未来竞争开发的标准软件堆栈。我们介绍了我们最开源的软件解决方案,包括系统配置,监控,强大无线通信,高级控制和敏捷轨迹生成的工具。为了解决MBZirc 2020任务,我们在多个研究领域提出了机器视觉和轨迹生成的多个研究领域。我们介绍了我们的科学贡献,这些贡献构成了我们的算法和系统的基础,并分析了在阿布扎比的MBZIRC竞赛2020年的结果,我们的系统在大挑战中达到了第二名。此外,我们讨论了我们参与这种复杂的机器人挑战的经验教训。
translated by 谷歌翻译
我们探索Calico是一种微型可重新定位的可穿戴系统,具有快速,精确的运动,用于体内相互作用,驱动和感应。印花布由两轮机器人和一条轨道机制或“铁路”组成,机器人在其上行驶。机器人具有独立的,尺寸很小,并且具有其他传感器扩展选项。轨道系统允许机器人沿着用户的身体移动并到达任何预定位置。它还包括旋转开关以启用复杂的路由选项,当提出发散轨道时。我们报告了印花布的设计和实施,并通过一系列的系统性能评估。然后,我们介绍一些应用程序方案和用户研究,以了解印花布作为舞蹈教练的潜力,并探索对我们情景的定性感知,以告知该领域未来的研究。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译