我们介绍了世界上最大的统一公共数据集的眼睛图像,该图像是用头部安装的设备拍摄的。 TEYED带有七个不同的头部注射痕迹。其中,将两个眼动仪集成到虚拟现实(VR)或增强现实(AR)设备中。 TEYED中的图像是从各种任务中获得的,包括乘车,模拟器骑行,户外运动活动和日常室内活动。数据集包括2D \&3D地标,语义分割,3D眼球注释以及所有图像的注视向量和眼动类型。为学生,虹膜和眼皮提供了地标和语义分割。视频长度从几分钟到几个小时不等。 TEYED拥有超过2000万次精心注释的图像,为在现代VR和AR应用中的计算机视觉,眼睛跟踪和凝视估算领域的研究中提供了一个独特的,连贯的资源和宝贵的基础。只需通过ftp作为用户teyeduser连接而在nephrit.cs.uni-tuebingen.de(ftp://teyeduser@nephrit.cs.uni-tuebingen.de)上进行数据和代码。
translated by 谷歌翻译
眼目光分析是计算机视觉和人类计算机相互作用领域的重要研究问题。即使在过去十年中取得了显着进展,由于眼睛外观,眼头相互作用,遮挡,图像质量和照明条件的独特性,自动凝视分析仍然具有挑战性。有几个开放的问题,包括在没有先验知识的情况下,在不受限制的环境中解释凝视方向的重要提示以及如何实时编码它们。我们回顾了一系列目光分析任务和应用程序的进展,以阐明这些基本问题,确定凝视分析中的有效方法并提供可能的未来方向。我们根据其优势和报告的评估指标分析了最近的凝视估计和分割方法,尤其是在无监督和弱监督的领域中。我们的分析表明,强大而通用的凝视分析方法的开发仍然需要解决现实世界中的挑战,例如不受限制的设置和学习,并减少了监督。最后,我们讨论了设计现实的目光分析系统的未来研究方向,该系统可以传播到其他领域,包括计算机视觉,增强现实(AR),虚拟现实(VR)和人类计算机交互(HCI)。项目页面:https://github.com/i-am-shreya/eyegazesurvey} {https://github.com/i-am-shreya/eyegazesurvey
translated by 谷歌翻译
我们提出了一条新型的神经管道Msgazenet,该管道通过通过多发射框架利用眼睛解剖学信息来学习凝视的表示。我们提出的解决方案包括两个组件,首先是一个用于隔离解剖眼区域的网络,以及第二个用于多发达凝视估计的网络。眼睛区域的隔离是通过U-NET样式网络进行的,我们使用合成数据集训练该网络,该数据集包含可见眼球和虹膜区域的眼睛区域掩模。此阶段使用的合成数据集是一个由60,000张眼睛图像组成的新数据集,我们使用眼视线模拟器Unityeyes创建。然后将眼睛区域隔离网络转移到真实域,以生成真实世界图像的面具。为了成功进行转移,我们在训练过程中利用域随机化,这允许合成图像从较大的差异中受益,并在类似于伪影的增强的帮助下从更大的差异中受益。然后,生成的眼睛区域掩模与原始眼睛图像一起用作我们凝视估计网络的多式输入。我们在三个基准凝视估计数据集(Mpiigaze,Eyediap和Utmultiview)上评估框架,在那里我们通过分别获得7.57%和1.85%的性能,在Eyediap和Utmultiview数据集上设置了新的最新技术Mpiigaze的竞争性能。我们还研究了方法在数据中的噪声方面的鲁棒性,并证明我们的模型对噪声数据不太敏感。最后,我们执行各种实验,包括消融研究,以评估解决方案中不同组件和设计选择的贡献。
translated by 谷歌翻译
我们探索使用机器学习的眼光估算技术。眼目光估计是各种行为分析和人类计算机界面的常见问题。这项工作的目的是讨论各种模型类型,以进行眼睛凝视估计,并通过在不受约束的环境中使用眼标预测凝视方向的结果。在不受限制的现实世界中,由于照明变化和其他视觉伪像等因素,基于特征和基于模型的方法的表现优于最近的基于外观的方法。我们讨论了一种基于学习的基于学习的方法,该方法专门针对合成数据培训。我们讨论了如何使用检测到的地标作为迭代模型拟合和轻巧学习的凝视估计方法的输入,以及如何将模型用于与人无关和个性化的凝视估计。
translated by 谷歌翻译
已经广泛地研究了使用虹膜和围眼区域作为生物特征,主要是由于虹膜特征的奇异性以及当图像分辨率不足以提取虹膜信息时的奇异区域的使用。除了提供有关个人身份的信息外,还可以探索从这些特征提取的功能,以获得其他信息,例如个人的性别,药物使用的影响,隐形眼镜的使用,欺骗等。这项工作提出了对为眼部识别创建的数据库的调查,详细说明其协议以及如何获取其图像。我们还描述并讨论了最受欢迎的眼镜识别比赛(比赛),突出了所提交的算法,只使用Iris特征和融合虹膜和周边地区信息实现了最佳结果。最后,我们描述了一些相关工程,将深度学习技术应用于眼镜识别,并指出了新的挑战和未来方向。考虑到有大量的眼部数据库,并且每个人通常都设计用于特定问题,我们认为这项调查可以广泛概述眼部生物识别学中的挑战。
translated by 谷歌翻译
研究的目的:在生物社区,可见人类的特征是普遍和可行的验证和识别移动设备上。然而,驾驶员能够通过创造假人和人工生物识别来欺骗系统来欺骗这些特征。可见的生物识别系统遭遇了呈现攻击的高安全性风险。方法:在此期间,基于挑战的方法,特别是视线跟踪和瞳孔动态似乎比别人接触生物系统更加安全的方法。我们审查了探索凝视跟踪和瞳孔动态活力检测的现有工作。主要结果:本研究分析了视线跟踪和瞳孔动态演示攻击的各个方面,如国家的最先进的活跃度检测算法,各种文物,公共数据库的可访问性和标准化的在这方面的总结。此外,我们讨论了未来的工作和开放挑战,以基于基于挑战的系统创造安全的活力检测。
translated by 谷歌翻译
作为理解人类意图的重要提示,人的凝视为人机交互(HCI)应用提供了一个关键信号。基于外观的凝视估计,直接回归来自眼睛图像的凝视向量,最近基于卷积神经网络(Coundnets)架构和开源大规模凝视数据集来实现了很大的进展。然而,将基于模型的知识进行编码为CNN模型,以进一步提高凝视估计性能仍然是需要探索的主题。在本文中,我们提出了一种明确地将几何眼球模型编码为基于外观的CNN架构的统一框架的Hybridgazenet(HGN)。由多分支网络和不确定性模块组成,使用杂文策略培训HybridgazeNet。与现有的SOTA方法相比,多个具有挑战性的凝视数据集的实验表明,杂交茎具有更好的准确性和泛化能力。稍后将发布代码。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
Biometrics is the science of identifying an individual based on their intrinsic anatomical or behavioural characteristics, such as fingerprints, face, iris, gait, and voice. Iris recognition is one of the most successful methods because it exploits the rich texture of the human iris, which is unique even for twins and does not degrade with age. Modern approaches to iris recognition utilize deep learning to segment the valid portion of the iris from the rest of the eye, so it can then be encoded, stored and compared. This paper aims to improve the accuracy of iris semantic segmentation systems by introducing a novel data augmentation technique. Our method can transform an iris image with a certain dilation level into any desired dilation level, thus augmenting the variability and number of training examples from a small dataset. The proposed method is fast and does not require training. The results indicate that our data augmentation method can improve segmentation accuracy up to 15% for images with high pupil dilation, which creates a more reliable iris recognition pipeline, even under extreme dilation.
translated by 谷歌翻译
现代目光跟踪系统中的相机具有基本的带宽和功率限制,实际上将数据采集速度限制为300 Hz。这会阻碍使用移动眼镜手术器的使用,例如低潜伏期预测性渲染,或者在野外使用头部安装的设备来快速而微妙的眼动运动,例如微扫视。在这里,我们提出了一个基于混合框架的近眼凝视跟踪系统,可提供超过10,000 Hz的更新速率,其准确性与在相同条件下评估时相匹配的高端台式机商业跟踪器。我们的系统建立在新兴事件摄像机的基础上,该摄像头同时获得定期采样框架和自适应采样事件。我们开发了一种在线2D学生拟合方法,该方法每一个或几个事件都会更新参数模型。此外,我们提出了一个多项式回归器,用于实时估算参数学生模型的凝视点。使用第一个基于事件的凝视数据集,可在https://github.com/aangelopoulos/event_based_gaze_tracking上获得,我们证明我们的系统可实现0.45度 - 1.75度的准确度,用于从45度到98度的视野。借助这项技术,我们希望能够为虚拟和增强现实提供新一代的超低延迟凝视呈现和展示技术。
translated by 谷歌翻译
在基于视觉的辅助技术中,具有不同新兴主题的用例,例如增强现实,虚拟现实和人类计算机互动等不同的主题中的用例中,自动眼目光估计是一个重要问题。在过去的几年中,由于它克服了大规模注释的数据的要求,因此人们对无监督和自我监督的学习范式的兴趣越来越大。在本文中,我们提出了Raze,Raze是一个带有自我监督的注视表示框架的区域,该框架从非宣传的面部图像数据中发挥作用。 Raze通过辅助监督(即伪凝视区域分类)学习目光的表示,其中目的是通过利用瞳孔中心的相对位置将视野分类为不同的凝视区域(即左,右和中心)。因此,我们会自动注释154K Web爬行图像的伪凝视区标签,并通过“ IZE-NET”框架学习特征表示。 “ IZE-NET”是基于胶囊层的CNN体​​系结构,可以有效地捕获丰富的眼睛表示。在四个基准数据集上评估了特征表示的判别性能:洞穴,桌面,MPII和RT-GENE。此外,我们评估了所提出的网络在其他两个下游任务(即驱动器凝视估计和视觉注意估计)上的普遍性,这证明了学习的眼睛注视表示的有效性。
translated by 谷歌翻译
3D gaze estimation is most often tackled as learning a direct mapping between input images and the gaze vector or its spherical coordinates. Recently, it has been shown that pose estimation of the face, body and hands benefits from revising the learning target from few pose parameters to dense 3D coordinates. In this work, we leverage this observation and propose to tackle 3D gaze estimation as regression of 3D eye meshes. We overcome the absence of compatible ground truth by fitting a rigid 3D eyeball template on existing gaze datasets and propose to improve generalization by making use of widely available in-the-wild face images. To this end, we propose an automatic pipeline to retrieve robust gaze pseudo-labels from arbitrary face images and design a multi-view supervision framework to balance their effect during training. In our experiments, our method achieves improvement of 30% compared to state-of-the-art in cross-dataset gaze estimation, when no ground truth data are available for training, and 7% when they are. We make our project publicly available at https://github.com/Vagver/dense3Deyes.
translated by 谷歌翻译
虹膜识别生活人员是一项成熟的生物识别方式,这些模型已通过政府ID计划,边境交通,选民登记和重复,以解锁移动电话。另一方面,最近出现了识别死者模式的死者受试者的可能性。在本文中,我们提出了一种基于端到端的深度学习方法,用于后期虹膜虹膜分割和具有特殊可视化技术的识别,旨在支持您的努力中取证人类审查员。所提出的后期虹膜分割方法优于现有技术,并且除虹膜环上,如古典虹膜分割方法 - 检测眼部分解过程所引起的异常区域,如犁沟或干燥和皱纹的不规则镜面亮点角膜。该方法培训并验证了从171名尸体获取的数据,保存在核心条件下,并在从259名死亡科目获得的主题脱节数据上进行测试。据我们所知,这是迄今为止迄今为止的虹膜识别研究中使用的最大数据核心。纸张提供了该方法的源代码。测试数据将通过刑事司法数据(NACJD)档案馆的国家档案提供。
translated by 谷歌翻译
在驾驶的背景下进行警觉性监控可改善安全性并挽救生命。基于计算机视觉的警报监视是一个活跃的研究领域。但是,存在警觉性监控的算法和数据集主要针对年轻人(18-50岁)。我们提出了一个针对老年人进行车辆警报监控的系统。通过设计研究,我们确定了适合在5级车辆中独立旅行的老年人的变量和参数。我们实施了一个原型旅行者监测系统,并评估了十个老年人(70岁及以上)的警报检测算法。我们以适合初学者或从业者的详细级别报告系统设计和实施。我们的研究表明,数据集的开发是开发针对老年人的警觉性监测系统的首要挑战。这项研究是迄今为止研究不足的人群中的第一项研究,并通过参与方法对未来的算法开发和系统设计具有影响。
translated by 谷歌翻译
我们提出了一种新型多阵线网络,用于了解凝视估计的强大眼睛表示。我们首先使用模拟器创建包含细节可见眼球和虹膜的眼睛区域掩模的合成数据集。然后,我们用U-Net类型模型执行眼部区域分割,我们以后用于生成真实眼睛图像的眼睛区域掩模。接下来,我们在真实域中预留眼睛图像编码器,具有自我监督的对比学习,以学习广义眼睛表示。最后,这种预制的眼编码器以及两个用于可见眼球区域和虹膜的另外的编码器,在我们的多阵线框架中并行使用,以提取来自现实世界图像的凝视估计的突出特征。我们在两个不同的评估设置中展示了我们对眼部数据集的方法的性能,实现了最先进的结果,优于此数据集的所有现有基准。我们还开展额外的实验,以验证我们自我监督网络的鲁棒性,了解用于培训的不同数量的标记数据。
translated by 谷歌翻译
由于长距离,照明变化,有限的用户合作和移动科目,虹膜分割和定位在不受约束环境中具有挑战性。为了解决这个问题,我们介绍了一个U-Net,具有预先培训的MobileNetv2深神经网络方法。我们使用MobileNetv2的预先训练的权重,用于想象成数据集,并在虹膜识别和本地化域上进行微调。此外,我们推出了一个名为Kartalol的新数据集,以更好地评估虹膜识别方案中的检测器。为了提供域适应,我们可以在Casia-Iris-Asia,Casia-Iris-M1和Casia-Iris-Africa和Casia-Iris-Africa和我们的数据集中微调MobileNetv2模型。我们还通过执行左右翻转,旋转,缩放和亮度来增强数据。我们通过迭代所提供的数据集中的图像来选择二进制掩码的二值化阈值。沿着Kartalol DataSet,Casia-Iris-Asia,Casia-Iris-M1,Casia-Iris-M1,Casia-Iris-M1,Casia-Iris-M1,Casia-Iris-M1,Casia-Iris-M1培训。实验结果强调了我们的方法在基于移动的基准上超越了最先进的方法。代码和评估结果在https://github.com/jalilnkh/kartalol-nir -isl2021031301上公开可用。
translated by 谷歌翻译
Periocular recognition has gained attention recently due to demands of increased robustness of face or iris in less controlled scenarios. We present a new system for eye detection based on complex symmetry filters, which has the advantage of not needing training. Also, separability of the filters allows faster detection via one-dimensional convolutions. This system is used as input to a periocular algorithm based on retinotopic sampling grids and Gabor spectrum decomposition. The evaluation framework is composed of six databases acquired both with near-infrared and visible sensors. The experimental setup is complemented with four iris matchers, used for fusion experiments. The eye detection system presented shows very high accuracy with near-infrared data, and a reasonable good accuracy with one visible database. Regarding the periocular system, it exhibits great robustness to small errors in locating the eye centre, as well as to scale changes of the input image. The density of the sampling grid can also be reduced without sacrificing accuracy. Lastly, despite the poorer performance of the iris matchers with visible data, fusion with the periocular system can provide an improvement of more than 20%. The six databases used have been manually annotated, with the annotation made publicly available.
translated by 谷歌翻译
这项研究提出了一种检测近距离红外(NIR)眼周眼图像的酒精消耗的方法。该研究的重点是确定外部因素(例如酒精对中枢神经系统(CNS))的影响。目的是分析这如何影响虹膜和学生运动,以及是否可以使用标准的Iris NIR相机捕获这些更改。本文提出了一个新型的融合胶囊网络(F-CAPSNET),以对饮酒受试者拍摄的虹膜NIR图像进行分类。结果表明,使用一半参数作为标准胶囊网络算法,F-CAPSNET算法可以检测IRIS NIR图像中的酒精消耗,精度为92.3%。这项工作是开发自动系统以估计“适合值班”并防止因饮酒而导致事故的一步。
translated by 谷歌翻译
语义图像分割是手术中的背景知识和自治机器人的重要前提。本领域的状态专注于在微创手术期间获得的传统RGB视频数据,但基于光谱成像数据的全景语义分割并在开放手术期间获得几乎没有注意到日期。为了解决文献中的这种差距,我们正在研究基于在开放手术环境中获得的猪的高光谱成像(HSI)数据的以下研究问题:(1)基于神经网络的HSI数据的充分表示是完全自动化的器官分割,尤其是关于数据的空间粒度(像素与Superpixels与Patches与完整图像)的空间粒度? (2)在执行语义器官分割时,是否有利用HSI数据使用HSI数据,即RGB数据和处理的HSI数据(例如氧合等组织参数)?根据基于20猪的506个HSI图像的全面验证研究,共注释了19个类,基于深度的学习的分割性能 - 贯穿模态 - 与输入数据的空间上下文一致。未处理的HSI数据提供优于RGB数据或来自摄像机提供商的处理数据,其中优势随着输入到神经网络的输入的尺寸而增加。最大性能(应用于整个图像的HSI)产生了0.89(标准偏差(SD)0.04)的平均骰子相似度系数(DSC),其在帧间间变异性(DSC为0.89(SD 0.07)的范围内。我们得出结论,HSI可以成为全自动手术场景理解的强大的图像模型,其具有传统成像的许多优点,包括恢复额外功能组织信息的能力。
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译