折射率是最常见的眼睛障碍,是可更正视觉障碍的关键原因,造成了美国近80%的视觉障碍。可以使用多种方法诊断折射误差,包括主观折射,视网膜镜检查和自动磨蚀器。尽管主观折射是黄金标准,但它需要患者的合作,因此不适合婴儿,幼儿和发育迟缓的成年人。视网膜镜检查是一种客观折射方法,不需要患者的任何输入。但是,视网膜镜检查需要镜头套件和训练有素的检查员,这限制了其用于大规模筛查的使用。在这项工作中,我们通过将智能手机连接到视网膜镜和录制视网膜镜视频与患者戴着定制的纸框架来自动化自动化。我们开发了一个视频处理管道,该管道将视网膜视频视为输入,并根据我们提出的视网膜镜检查数学模型的扩展来估算净屈光度错误。我们的系统减轻了对镜头套件的需求,可以由未经培训的检查员进行。在一项185只眼睛的临床试验中,我们的灵敏度为91.0%,特异性为74.0%。此外,与主观折射测量相比,我们方法的平均绝对误差为0.75 $ \ pm $ 0.67D。我们的结果表明,我们的方法有可能用作现实世界中医疗设置中的基于视网膜镜检查的折射率筛选工具。
translated by 谷歌翻译
该研究使用数学建模和人类对象实验,探讨了新兴网络摄像头可能在多大程度上泄漏了可识别的文本和图形信息,从网络摄像头捕获的眼镜反射中闪闪发光。我们工作的主要目标是衡量,计算和预测随着网络摄像头技术在未来发展的可识别性因素,限制和阈值。我们的工作探索并表征了基于光学攻击的可行威胁模型,该模型使用视频帧序列上的多帧超级分辨率技术。我们在受控实验室设置中的模型和实验结果表明,可以重建和识别超过75%的屏幕文本,其高度高达10毫米,并使用720p网络摄像头进行重建和识别。我们进一步将此威胁模型应用于具有不同攻击者功能的Web文本内容,以找到可以识别文本的阈值。我们与20名参与者的用户研究表明,当今的720p网络摄像头足以让对手在大芬特网站上重建文本内容。我们的模型进一步表明,向4K摄像机的演变将使文本泄漏的阈值倾斜到流行网站上大多数标题文本的重建。除文本目标外,还针对具有720p网络摄像头的Alexa前100个网站的封闭世界数据集的案例研究显示,即使没有使用机器学习模型,也没有10个参与者的最高识别精度为94%。我们的研究提出了近期缓解,包括用户可以用来模糊视频流的眼镜区域的软件原型。对于可能的长期防御,我们主张采用个人反思测试程序来评估各种环境下的威胁,并证明遵循最少特权原则对隐私敏感的情况的重要性。
translated by 谷歌翻译
对医疗保健监控的远程工具的需求从未如此明显。摄像机测量生命体征利用成像装置通过分析人体的图像来计算生理变化。建立光学,机器学习,计算机视觉和医学的进步这些技术以来的数码相机的发明以来已经显着进展。本文介绍了对生理生命体征的相机测量综合调查,描述了它们可以测量的重要标志和实现所做的计算技术。我涵盖了临床和非临床应用以及这些应用需要克服的挑战,以便从概念上推进。最后,我描述了对研究社区可用的当前资源(数据集和代码),并提供了一个全面的网页(https://cameravitals.github.io/),其中包含这些资源的链接以及其中引用的所有文件的分类列表文章。
translated by 谷歌翻译
可靠地定量自然和人为气体释放(例如,从海底进入海洋的自然和人为气体释放(例如,Co $ _2 $,甲烷),最终是大气,是一个具有挑战性的任务。虽然船舶的回声探测器允许在水中检测水中的自由气,但是即使从较大的距离中,精确量化需要诸如未获得的升高速度和气泡尺寸分布的参数。光学方法的意义上是互补的,即它们可以提供从近距离的单个气泡或气泡流的高时和空间分辨率。在这一贡献中,我们介绍了一种完整的仪器和评估方法,用于光学气泡流特征。专用仪器采用高速深海立体声摄像机系统,可在部署在渗透网站以进行以后的自动分析时录制泡泡图像的Tbleabytes。对于几分钟的短序列可以获得泡特性,然后将仪器迁移到其他位置,或者以自主间隔模式迁移到几天内,以捕获由于电流和压力变化和潮汐循环引起的变化。除了报告泡沫特征的步骤旁边,我们仔细评估了可达准确性并提出了一种新颖的校准程序,因为由于缺乏点对应,仅使用气泡的剪影。该系统已成功运营,在太平洋高达1000万水深,以评估甲烷通量。除了样品结果外,我们还会报告在开发期间汲取的故障案例和经验教训。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
视觉的触觉传感器由于经济实惠的高分辨率摄像机和成功的计算机视觉技术而被出现为机器人触摸的有希望的方法。但是,它们的物理设计和他们提供的信息尚不符合真实应用的要求。我们提供了一种名为Insight的强大,柔软,低成本,视觉拇指大小的3D触觉传感器:它不断在其整个圆锥形感测表面上提供定向力分布图。围绕内部单眼相机构造,传感器仅在刚性框架上仅成型一层弹性体,以保证灵敏度,鲁棒性和软接触。此外,Insight是第一个使用准直器将光度立体声和结构光混合的系统来检测其易于更换柔性外壳的3D变形。通过将图像映射到3D接触力的空间分布(正常和剪切)的深神经网络推断力信息。洞察力在0.4毫米的总空间分辨率,力量幅度精度约为0.03 n,并且对于具有不同接触面积的多个不同触点,在0.03-2 n的范围内的5度大约5度的力方向精度。呈现的硬件和软件设计概念可以转移到各种机器人部件。
translated by 谷歌翻译
远程光插图学(RPPG)是一种快速,有效,廉价和方便的方法,用于收集生物识别数据,因为它可以使用面部视频来估算生命体征。事实证明,远程非接触式医疗服务供应在COVID-19大流行期间是可怕的必要性。我们提出了一个端到端框架,以根据用户的视频中的RPPG方法来衡量人们的生命体征,包括心率(HR),心率变异性(HRV),氧饱和度(SPO2)和血压(BP)(BP)(BP)用智能手机相机捕获的脸。我们以实时的基于深度学习的神经网络模型来提取面部标志。通过使用预测的面部标志来提取多个称为利益区域(ROI)的面部斑块(ROI)。应用了几个过滤器,以减少称为血量脉冲(BVP)信号的提取的心脏信号中ROI的噪声。我们使用两个公共RPPG数据集培训和验证了机器学习模型,即Tokyotech RPPG和脉搏率检测(PURE)数据集,我们的模型在其上实现了以下平均绝对错误(MAE):a),HR,1.73和3.95 BEATS- beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-s-s-s-s-s-y-peats-beats-beats-beats-ship-s-s-s-in-chin-p-in-in-in-in-in-c--in-in-c-le-in-in- -t一下制。每分钟(bpm),b)分别为HRV,分别为18.55和25.03 ms,c)对于SPO2,纯数据集上的MAE为1.64。我们在现实生活环境中验证了端到端的RPPG框架,修订,从而创建了视频HR数据集。我们的人力资源估计模型在此数据集上达到了2.49 bpm的MAE。由于没有面对视频的BP测量不存在公开可用的RPPG数据集,因此我们使用了带有指标传感器信号的数据集来训练我们的模型,还创建了我们自己的视频数据集Video-BP。在我们的视频BP数据集中,我们的BP估计模型的收缩压(SBP)达到6.7 mmHg,舒张压(DBP)的MAE为9.6 mmHg。
translated by 谷歌翻译
基于相机的非接触式光电子溶血性描绘是指一组流行的非接触生理测量技术。目前的最先进的神经模型通常以伴随金标准生理测量的视频以监督方式培训。但是,它们通常概括域名差别示例(即,与培训集中的视频不同)。个性化模型可以帮助提高型号的概括性,但许多个性化技术仍然需要一些金标准数据。为了帮助缓解这一依赖性,在本文中,我们展示了一种名为Mobilememon的新型移动感应系统,该系统是第一个移动个性化远程生理传感系统,它利用智能手机上的前后相机,为培训产生高质量的自我监督标签个性化非接触式相机的PPG模型。为了评估MobilemeLephys的稳健性,我们使用39名参与者进行了一个用户学习,他们在不同的移动设备下完成了一组任务,照明条件/强度,运动任务和皮肤类型。我们的研究结果表明,Mobilephys显着优于最先进的设备监督培训和几次拍摄适应方法。通过广泛的用户研究,我们进一步检查了Mobilephys如何在复杂的真实环境中执行。我们设想,从我们所提出的双摄像机移动传感系统产生的校准或基于相机的非接触式PPG模型将为智能镜,健身和移动健康应用等许多未来应用打开门。
translated by 谷歌翻译
使用增强现实(AR)用于导航目的,这表明在手术手术过程中协助医生有益。这些应用通常需要知道外科手术工具和患者的姿势,以提供外科医生在任务执行过程中可以使用的视觉信息。现有的医学级跟踪系统使用放置在手术室内的红外摄像头(OR)来识别感兴趣的对象附加并计算其姿势的复古反射标记。一些市售的AR头式显示器(HMD)使用类似的摄像头进行自定位,手动跟踪和估算对象的深度。这项工作提出了一个使用AR HMD的内置摄像机来准确跟踪复古反射标记的框架,例如在手术过程中使用的标记,而无需集成任何其他组件。该框架还能够同时跟踪多个工具。我们的结果表明,横向翻译的准确度为0.09 +-0.06毫米,可以实现标记的跟踪和检测,纵向翻译的0.42 +-0.32 mm,绕垂直轴旋转的0.80 +-0.39 ver。此外,为了展示所提出的框架的相关性,我们在手术程序的背景下评估了系统的性能。该用例旨在在骨科过程中复制K-Wire插入的场景。为了进行评估,为两名外科医生和一名生物医学研究人员提供了视觉导航,每次都进行了21次注射。该用例的结果提供了与基于AR的导航程序报告的相当精度。
translated by 谷歌翻译
Hololens(Microsoft Corp.,WA Redmond,WA)是一款头饰,光学透明的增强现实展示,是最近提高医学增强现实研究的主要参与者。在医疗环境中,HoloLens使医生能够立即了解患者信息,直接与他们对临床方案的看法,医学生,可以更好地了解复杂的解剖学或程序,甚至可以通过执行治疗任务。改进,沉浸式指导。在这篇系统的综述中,我们提供了有关医疗领域第一代霍洛伦斯在2016年3月发布到2021年的全面使用的全面概述,一直关注其继任者霍洛伦斯2号。通过系统搜索PubMed和Scopus数据库确定了171个相关出版物。我们分析了这些出版物的预期用例,注册和跟踪的技术方法,数据源,可视化以及验证和评估。我们发现,尽管已经显示出在各种医学场景中使用Hololens的可行性,但在精确,可靠性,可用性,工作流程和感知方面的努力增加了在临床实践中建立AR。
translated by 谷歌翻译
眼目光分析是计算机视觉和人类计算机相互作用领域的重要研究问题。即使在过去十年中取得了显着进展,由于眼睛外观,眼头相互作用,遮挡,图像质量和照明条件的独特性,自动凝视分析仍然具有挑战性。有几个开放的问题,包括在没有先验知识的情况下,在不受限制的环境中解释凝视方向的重要提示以及如何实时编码它们。我们回顾了一系列目光分析任务和应用程序的进展,以阐明这些基本问题,确定凝视分析中的有效方法并提供可能的未来方向。我们根据其优势和报告的评估指标分析了最近的凝视估计和分割方法,尤其是在无监督和弱监督的领域中。我们的分析表明,强大而通用的凝视分析方法的开发仍然需要解决现实世界中的挑战,例如不受限制的设置和学习,并减少了监督。最后,我们讨论了设计现实的目光分析系统的未来研究方向,该系统可以传播到其他领域,包括计算机视觉,增强现实(AR),虚拟现实(VR)和人类计算机交互(HCI)。项目页面:https://github.com/i-am-shreya/eyegazesurvey} {https://github.com/i-am-shreya/eyegazesurvey
translated by 谷歌翻译
我们探索Calico是一种微型可重新定位的可穿戴系统,具有快速,精确的运动,用于体内相互作用,驱动和感应。印花布由两轮机器人和一条轨道机制或“铁路”组成,机器人在其上行驶。机器人具有独立的,尺寸很小,并且具有其他传感器扩展选项。轨道系统允许机器人沿着用户的身体移动并到达任何预定位置。它还包括旋转开关以启用复杂的路由选项,当提出发散轨道时。我们报告了印花布的设计和实施,并通过一系列的系统性能评估。然后,我们介绍一些应用程序方案和用户研究,以了解印花布作为舞蹈教练的潜力,并探索对我们情景的定性感知,以告知该领域未来的研究。
translated by 谷歌翻译
现代目光跟踪系统中的相机具有基本的带宽和功率限制,实际上将数据采集速度限制为300 Hz。这会阻碍使用移动眼镜手术器的使用,例如低潜伏期预测性渲染,或者在野外使用头部安装的设备来快速而微妙的眼动运动,例如微扫视。在这里,我们提出了一个基于混合框架的近眼凝视跟踪系统,可提供超过10,000 Hz的更新速率,其准确性与在相同条件下评估时相匹配的高端台式机商业跟踪器。我们的系统建立在新兴事件摄像机的基础上,该摄像头同时获得定期采样框架和自适应采样事件。我们开发了一种在线2D学生拟合方法,该方法每一个或几个事件都会更新参数模型。此外,我们提出了一个多项式回归器,用于实时估算参数学生模型的凝视点。使用第一个基于事件的凝视数据集,可在https://github.com/aangelopoulos/event_based_gaze_tracking上获得,我们证明我们的系统可实现0.45度 - 1.75度的准确度,用于从45度到98度的视野。借助这项技术,我们希望能够为虚拟和增强现实提供新一代的超低延迟凝视呈现和展示技术。
translated by 谷歌翻译
我们引入了一种新型技术和相关的高分辨率数据集,旨在精确评估基于无线信号的室内定位算法。该技术实现了基于增强的现实(AR)定位系统,该系统用于注释具有高精度位置数据的无线信号参数数据样本。我们在装饰有AR标记的区域中跟踪实用且低成本的可导航相机设置和蓝牙低能(BLE)信标的位置。我们通过使用冗余数字标记来最大程度地提高基于AR的本地化的性能。相机捕获的视频流经过一系列标记识别,子集选择和过滤操作,以产生高度精确的姿势估计。我们的结果表明,我们可以将AR定位系统的位置误差降低到0.05米以下的速率。然后,将位置数据用于注释BLE数据,这些数据由驻扎在环境中的传感器同时捕获,因此,构建具有接地真相的无线信号数据集,该数据集允许准确评估基于无线信号的本地化系统。
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译
糖尿病(DM)可导致严重的微脉管破坏,最终导致糖尿病性视网膜病变(DR)或由于糖尿病引起的眼睛并发症。如果不受组织的检查,这种疾病会随着时间的流逝而增加,并最终导致完全视力丧失。检测到这种光学发展的一般方法是通过检查视网膜图像的血管,视神经头,微型毛发,出血,渗出液等。最终,这受到经验丰富的眼科医生和大量DM案例的数量的限制。为了启用早期有效的DR诊断,眼科领域需要强大的计算机辅助诊断(CAD)系统。我们的审查旨在为从学生到成熟的研究人员提供给任何人,他们想了解CAD系统及其算法可以完成的工作,再到建模以及计算机视觉和模式识别中的视网膜图像处理领域的发展方向。对于刚开始的人来说,我们特别强调了不同数据库和算法框架的逻辑,优势和缺点,重点是最近的方法。
translated by 谷歌翻译
在这项工作中,我们通过混合现实(MR)应用中的视频传球来探讨自幻想的创建。我们介绍了我们的端到端系统,包括:在商业头部安装显示器(HMD)上进行自定义MR视频通行证实现,我们基于深度学习的实时egpocentric身体细分算法以及我们优化的卸载体系结构,以交流使用HMD分割服务器。为了验证这项技术,我们设计了一种身临其境的VR体验,用户必须在活跃的火山火山口中穿过狭窄的瓷砖路径。这项研究是在三个身体表示条件下进行的:虚拟手,带有颜色的全身分割的视频传递以及深度学习全身分割的视频通行。这种身临其境的经历由30名女性和28名男性进行。据我们所知,这是首次旨在评估基于视频的自我avatar的用户研究,以代表用户在MR场景中。结果表明,不同身体表示在存在方面没有显着差异,虚拟手和全身表示之间的某些实施方案中等改善。视觉质量结果表明,就整个身体感知和整体分割质量而言,深入学习算法的结果更好。我们提供了一些关于使用基于视频的自我幻想的讨论,以及对评估方法的一些思考。提出的E2E解决方案处于最新技术状态的边界,因此在达到成熟之前仍有改进的空间。但是,该溶液是新型MR分布式溶液的关键起点。
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
面部特征跟踪是成像跳芭式(BCG)的关键组成部分,其中需要精确定量面部关键点的位移,以获得良好的心率估计。皮肤特征跟踪能够在帕金森病中基于视频的电机降解量化。传统的计算机视觉算法包括刻度不变特征变换(SIFT),加速强大的功能(冲浪)和LUCAS-KANADE方法(LK)。这些长期代表了最先进的效率和准确性,但是当存在常见的变形时,如图所示,如图所示,如此。在过去的五年中,深度卷积神经网络对大多数计算机视觉任务的传统方法表现优于传统的传统方法。我们提出了一种用于特征跟踪的管道,其应用卷积堆积的AutoEncoder,以将图像中最相似的裁剪标识到包含感兴趣的特征的参考裁剪。 AutoEncoder学会将图像作物代表到特定于对象类别的深度特征编码。我们在面部图像上培训AutoEncoder,并验证其在手动标记的脸部和手视频中通常验证其跟踪皮肤功能的能力。独特的皮肤特征(痣)的跟踪误差是如此之小,因为我们不能排除他们基于$ \ chi ^ 2 $ -test的手动标签。对于0.6-4.2像素的平均误差,我们的方法在所有情况下都表现出了其他方法。更重要的是,我们的方法是唯一一个不分歧的方法。我们得出的结论是,我们的方法为特征跟踪,特征匹配和图像配准比传统算法创建更好的特征描述符。
translated by 谷歌翻译
Identity authentication is the process of verifying one's identity. There are several identity authentication methods, among which biometric authentication is of utmost importance. Facial recognition is a sort of biometric authentication with various applications, such as unlocking mobile phones and accessing bank accounts. However, presentation attacks pose the greatest threat to facial recognition. A presentation attack is an attempt to present a non-live face, such as a photo, video, mask, and makeup, to the camera. Presentation attack detection is a countermeasure that attempts to identify between a genuine user and a presentation attack. Several industries, such as financial services, healthcare, and education, use biometric authentication services on various devices. This illustrates the significance of presentation attack detection as the verification step. In this paper, we study state-of-the-art to cover the challenges and solutions related to presentation attack detection in a single place. We identify and classify different presentation attack types and identify the state-of-the-art methods that could be used to detect each of them. We compare the state-of-the-art literature regarding attack types, evaluation metrics, accuracy, and datasets and discuss research and industry challenges of presentation attack detection. Most presentation attack detection approaches rely on extensive data training and quality, making them difficult to implement. We introduce an efficient active presentation attack detection approach that overcomes weaknesses in the existing literature. The proposed approach does not require training data, is CPU-light, can process low-quality images, has been tested with users of various ages and is shown to be user-friendly and highly robust to 2-dimensional presentation attacks.
translated by 谷歌翻译