我们提出了一条新型的神经管道Msgazenet,该管道通过通过多发射框架利用眼睛解剖学信息来学习凝视的表示。我们提出的解决方案包括两个组件,首先是一个用于隔离解剖眼区域的网络,以及第二个用于多发达凝视估计的网络。眼睛区域的隔离是通过U-NET样式网络进行的,我们使用合成数据集训练该网络,该数据集包含可见眼球和虹膜区域的眼睛区域掩模。此阶段使用的合成数据集是一个由60,000张眼睛图像组成的新数据集,我们使用眼视线模拟器Unityeyes创建。然后将眼睛区域隔离网络转移到真实域,以生成真实世界图像的面具。为了成功进行转移,我们在训练过程中利用域随机化,这允许合成图像从较大的差异中受益,并在类似于伪影的增强的帮助下从更大的差异中受益。然后,生成的眼睛区域掩模与原始眼睛图像一起用作我们凝视估计网络的多式输入。我们在三个基准凝视估计数据集(Mpiigaze,Eyediap和Utmultiview)上评估框架,在那里我们通过分别获得7.57%和1.85%的性能,在Eyediap和Utmultiview数据集上设置了新的最新技术Mpiigaze的竞争性能。我们还研究了方法在数据中的噪声方面的鲁棒性,并证明我们的模型对噪声数据不太敏感。最后,我们执行各种实验,包括消融研究,以评估解决方案中不同组件和设计选择的贡献。
translated by 谷歌翻译
我们提出了一种新型多阵线网络,用于了解凝视估计的强大眼睛表示。我们首先使用模拟器创建包含细节可见眼球和虹膜的眼睛区域掩模的合成数据集。然后,我们用U-Net类型模型执行眼部区域分割,我们以后用于生成真实眼睛图像的眼睛区域掩模。接下来,我们在真实域中预留眼睛图像编码器,具有自我监督的对比学习,以学习广义眼睛表示。最后,这种预制的眼编码器以及两个用于可见眼球区域和虹膜的另外的编码器,在我们的多阵线框架中并行使用,以提取来自现实世界图像的凝视估计的突出特征。我们在两个不同的评估设置中展示了我们对眼部数据集的方法的性能,实现了最先进的结果,优于此数据集的所有现有基准。我们还开展额外的实验,以验证我们自我监督网络的鲁棒性,了解用于培训的不同数量的标记数据。
translated by 谷歌翻译
3D凝视估计是关于预测3D空间中人的视线。由于受试者的解剖学差异,与人无关的模型缺乏精确度,而特定于人的校准技术对可伸缩性增加了严格的限制。为了克服这些问题,我们提出了一种新颖的技术,面部标志热图激活的多模式凝视估计(火焰),作为使用Eye Landmark Heatmap的眼睛解剖信息结合的一种方式,以获得精确的凝视估计,而无需任何人特定的校准。我们的评估表明,在基准数据集Columbiagaze和Eyediap上的竞争性能提高了约10%。我们还进行了消融研究以验证我们的方法。
translated by 谷歌翻译
在基于视觉的辅助技术中,具有不同新兴主题的用例,例如增强现实,虚拟现实和人类计算机互动等不同的主题中的用例中,自动眼目光估计是一个重要问题。在过去的几年中,由于它克服了大规模注释的数据的要求,因此人们对无监督和自我监督的学习范式的兴趣越来越大。在本文中,我们提出了Raze,Raze是一个带有自我监督的注视表示框架的区域,该框架从非宣传的面部图像数据中发挥作用。 Raze通过辅助监督(即伪凝视区域分类)学习目光的表示,其中目的是通过利用瞳孔中心的相对位置将视野分类为不同的凝视区域(即左,右和中心)。因此,我们会自动注释154K Web爬行图像的伪凝视区标签,并通过“ IZE-NET”框架学习特征表示。 “ IZE-NET”是基于胶囊层的CNN体​​系结构,可以有效地捕获丰富的眼睛表示。在四个基准数据集上评估了特征表示的判别性能:洞穴,桌面,MPII和RT-GENE。此外,我们评估了所提出的网络在其他两个下游任务(即驱动器凝视估计和视觉注意估计)上的普遍性,这证明了学习的眼睛注视表示的有效性。
translated by 谷歌翻译
眼目光分析是计算机视觉和人类计算机相互作用领域的重要研究问题。即使在过去十年中取得了显着进展,由于眼睛外观,眼头相互作用,遮挡,图像质量和照明条件的独特性,自动凝视分析仍然具有挑战性。有几个开放的问题,包括在没有先验知识的情况下,在不受限制的环境中解释凝视方向的重要提示以及如何实时编码它们。我们回顾了一系列目光分析任务和应用程序的进展,以阐明这些基本问题,确定凝视分析中的有效方法并提供可能的未来方向。我们根据其优势和报告的评估指标分析了最近的凝视估计和分割方法,尤其是在无监督和弱监督的领域中。我们的分析表明,强大而通用的凝视分析方法的开发仍然需要解决现实世界中的挑战,例如不受限制的设置和学习,并减少了监督。最后,我们讨论了设计现实的目光分析系统的未来研究方向,该系统可以传播到其他领域,包括计算机视觉,增强现实(AR),虚拟现实(VR)和人类计算机交互(HCI)。项目页面:https://github.com/i-am-shreya/eyegazesurvey} {https://github.com/i-am-shreya/eyegazesurvey
translated by 谷歌翻译
我们探索使用机器学习的眼光估算技术。眼目光估计是各种行为分析和人类计算机界面的常见问题。这项工作的目的是讨论各种模型类型,以进行眼睛凝视估计,并通过在不受约束的环境中使用眼标预测凝视方向的结果。在不受限制的现实世界中,由于照明变化和其他视觉伪像等因素,基于特征和基于模型的方法的表现优于最近的基于外观的方法。我们讨论了一种基于学习的基于学习的方法,该方法专门针对合成数据培训。我们讨论了如何使用检测到的地标作为迭代模型拟合和轻巧学习的凝视估计方法的输入,以及如何将模型用于与人无关和个性化的凝视估计。
translated by 谷歌翻译
由于大规模标记数据的非可用性,强大的凝视估计是一个具有挑战性的任务,即使是深度的CNN。此外,凝视注释是一种耗时的过程,需要专门的硬件设置。我们提出MTGLS:具有有限监督的多任务凝视估计框架,其利用大量可用的非注释的面部图像数据。 MTGLS从架子的面部图像分析模型中蒸馏出知识,并学习人眼的强大特征表示,由三个互补辅助信号引导:(a)由本地化定义的瞳孔(即伪凝视)的视线面部地标,(b)欧拉角给出的头部姿势,(c)眼贴片的取向(左/右眼)。为了克服监控信号中的内在噪声,MTGL还包括噪声分布建模方法。我们的实验结果表明,MTGLS学习高度广泛的表示,这在一系列数据集中一直表现良好。我们所提出的框架优于无监督的洞穴(6.43%)甚至监督凝席360(按6.59%)数据集的最新方法。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
凝视和头部姿势估计模型的鲁棒性高度取决于标记的数据量。最近,生成建模在生成照片现实图像方面表现出了出色的结果,这可以减轻对标记数据的需求。但是,在新领域采用这种生成模型,同时保持其对不同图像属性的细粒度控制的能力,例如,凝视和头部姿势方向,是一个挑战性的问题。本文提出了Cuda-GHR,这是一种无监督的域适应框架,可以对凝视和头部姿势方向进行细粒度的控制,同时保留该人的外观相关因素。我们的框架同时学会了通过利用富含标签的源域和未标记的目标域来适应新的域和删除图像属性,例如外观,凝视方向和头部方向。基准测试数据集的广泛实验表明,所提出的方法在定量和定性评估上都可以胜过最先进的技术。此外,我们表明目标域中生成的图像标签对有效地传递知识并提高下游任务的性能。
translated by 谷歌翻译
作为理解人类意图的重要提示,人的凝视为人机交互(HCI)应用提供了一个关键信号。基于外观的凝视估计,直接回归来自眼睛图像的凝视向量,最近基于卷积神经网络(Coundnets)架构和开源大规模凝视数据集来实现了很大的进展。然而,将基于模型的知识进行编码为CNN模型,以进一步提高凝视估计性能仍然是需要探索的主题。在本文中,我们提出了一种明确地将几何眼球模型编码为基于外观的CNN架构的统一框架的Hybridgazenet(HGN)。由多分支网络和不确定性模块组成,使用杂文策略培训HybridgazeNet。与现有的SOTA方法相比,多个具有挑战性的凝视数据集的实验表明,杂交茎具有更好的准确性和泛化能力。稍后将发布代码。
translated by 谷歌翻译
3D gaze estimation is most often tackled as learning a direct mapping between input images and the gaze vector or its spherical coordinates. Recently, it has been shown that pose estimation of the face, body and hands benefits from revising the learning target from few pose parameters to dense 3D coordinates. In this work, we leverage this observation and propose to tackle 3D gaze estimation as regression of 3D eye meshes. We overcome the absence of compatible ground truth by fitting a rigid 3D eyeball template on existing gaze datasets and propose to improve generalization by making use of widely available in-the-wild face images. To this end, we propose an automatic pipeline to retrieve robust gaze pseudo-labels from arbitrary face images and design a multi-view supervision framework to balance their effect during training. In our experiments, our method achieves improvement of 30% compared to state-of-the-art in cross-dataset gaze estimation, when no ground truth data are available for training, and 7% when they are. We make our project publicly available at https://github.com/Vagver/dense3Deyes.
translated by 谷歌翻译
最近,面部生物识别是对传统认证系统的方便替代的巨大关注。因此,检测恶意尝试已经发现具有重要意义,导致面部抗欺骗〜(FAS),即面部呈现攻击检测。与手工制作的功能相反,深度特色学习和技术已经承诺急剧增加FAS系统的准确性,解决了实现这种系统的真实应用的关键挑战。因此,处理更广泛的发展以及准确的模型的新研究区越来越多地引起了研究界和行业的关注。在本文中,我们为自2017年以来对与基于深度特征的FAS方法相关的文献综合调查。在这一主题上阐明,基于各种特征和学习方法的语义分类。此外,我们以时间顺序排列,其进化进展和评估标准(数据集内集和数据集互联集合中集)覆盖了FAS的主要公共数据集。最后,我们讨论了开放的研究挑战和未来方向。
translated by 谷歌翻译
我们提出了自由式 - 人体神经通话的头部合成系统。我们表明,具有稀疏3D面部标志的建模面孔足以实现最先进的生成性能,而无需依赖诸如3D可变形模型之类的强统计学先验。除了3D姿势和面部表情外,我们的方法还能够将目光从驾驶演员转移到源身份。我们的完整管道由三个组件组成:一个规范的3D密钥估计器,可回归3D姿势和与表达相关的变形,凝视估计网络和建立在Headgan架构上的生成器。我们进一步实验发电机的扩展,以使用注意机制可容纳几次学习,以防万一可用多个源图像。与最新的重演和运动转移模型相比,我们的系统实现了更高的照片真实性与优越的身份保护,同时提供明确的注视控制。
translated by 谷歌翻译
先前的工作表明,使用顺序学习者学习面部不同组成部分的顺序可以在面部表达识别系统的性能中发挥重要作用。我们提出了Facetoponet,这是面部表达识别的端到端深层模型,它能够学习面部有效的树拓扑。然后,我们的模型遍历学习的树以生成序列,然后将其用于形成嵌入以喂养顺序学习者。设计的模型采用一个流进行学习结构,并为学习纹理提供一个流。结构流着重于面部地标的位置,而纹理流的主要重点是在地标周围的斑块上学习纹理信息。然后,我们通过利用有效的基于注意力的融合策略来融合两个流的输出。我们对四个大型内部面部表达数据集进行了广泛的实验 - 即Alltionnet,FER2013,ExpW和RAF-DB,以及一个实验室控制的数据集(CK+)来评估我们的方法。 Facetoponet在五个数据集中的三个数据集中达到了最新的性能,并在其他两个数据集中获得了竞争结果。我们还执行严格的消融和灵敏度实验,以评估模型中不同组件和参数的影响。最后,我们执行鲁棒性实验,并证明与该地区其他领先方法相比,Facetoponet对阻塞更具稳健性。
translated by 谷歌翻译
The emergence of COVID-19 has had a global and profound impact, not only on society as a whole, but also on the lives of individuals. Various prevention measures were introduced around the world to limit the transmission of the disease, including face masks, mandates for social distancing and regular disinfection in public spaces, and the use of screening applications. These developments also triggered the need for novel and improved computer vision techniques capable of (i) providing support to the prevention measures through an automated analysis of visual data, on the one hand, and (ii) facilitating normal operation of existing vision-based services, such as biometric authentication schemes, on the other. Especially important here, are computer vision techniques that focus on the analysis of people and faces in visual data and have been affected the most by the partial occlusions introduced by the mandates for facial masks. Such computer vision based human analysis techniques include face and face-mask detection approaches, face recognition techniques, crowd counting solutions, age and expression estimation procedures, models for detecting face-hand interactions and many others, and have seen considerable attention over recent years. The goal of this survey is to provide an introduction to the problems induced by COVID-19 into such research and to present a comprehensive review of the work done in the computer vision based human analysis field. Particular attention is paid to the impact of facial masks on the performance of various methods and recent solutions to mitigate this problem. Additionally, a detailed review of existing datasets useful for the development and evaluation of methods for COVID-19 related applications is also provided. Finally, to help advance the field further, a discussion on the main open challenges and future research direction is given.
translated by 谷歌翻译
已经广泛地研究了使用虹膜和围眼区域作为生物特征,主要是由于虹膜特征的奇异性以及当图像分辨率不足以提取虹膜信息时的奇异区域的使用。除了提供有关个人身份的信息外,还可以探索从这些特征提取的功能,以获得其他信息,例如个人的性别,药物使用的影响,隐形眼镜的使用,欺骗等。这项工作提出了对为眼部识别创建的数据库的调查,详细说明其协议以及如何获取其图像。我们还描述并讨论了最受欢迎的眼镜识别比赛(比赛),突出了所提交的算法,只使用Iris特征和融合虹膜和周边地区信息实现了最佳结果。最后,我们描述了一些相关工程,将深度学习技术应用于眼镜识别,并指出了新的挑战和未来方向。考虑到有大量的眼部数据库,并且每个人通常都设计用于特定问题,我们认为这项调查可以广泛概述眼部生物识别学中的挑战。
translated by 谷歌翻译
在过去的几年中,在有限的监督下,在不受限制的环境中解释凝视方向一直引起人们的兴趣。由于数据策展和注释问题,将目光估计方法复制到其他平台(例如不受限制的户外或AR/VR)可能会导致性能大幅下降,因为对于模型培训的准确注释数据的可用性不足。在本文中,我们探讨了一个有趣但具有挑战性的凝视估计方法的问题,其标记数据有限。所提出的方法将知识从标记的子集中提炼出具有视觉特征。包括特定身份的外观,凝视轨迹的一致性和运动特征。给定凝视轨迹,该方法仅利用凝视序列的开始和终点的标签信息。提出的方法的扩展进一步减少了标记框架的需求,仅在生成标签的质量下略有下降的起始框架。我们评估了四个基准数据集(Cave,Tabletgaze,MPII和Gaze360)的建议方法以及Web craw的YouTube视频。我们提出的方法将注释工作降低到低至2.67%,对性能的影响很小。表明我们的模型的潜力实现了凝视估计的“野外”设置。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
With recent progress in graphics, it has become more tractable to train models on synthetic images, potentially avoiding the need for expensive annotations. However, learning from synthetic images may not achieve the desired performance due to a gap between synthetic and real image distributions. To reduce this gap, we propose Simulated+Unsupervised (S+U) learning, where the task is to learn a model to improve the realism of a simulator's output using unlabeled real data, while preserving the annotation information from the simulator. We develop a method for S+U learning that uses an adversarial network similar to Generative Adversarial Networks (GANs), but with synthetic images as inputs instead of random vectors. We make several key modifications to the standard GAN algorithm to preserve annotations, avoid artifacts, and stabilize training: (i) a 'self-regularization' term, (ii) a local adversarial loss, and (iii) updating the discriminator using a history of refined images. We show that this enables generation of highly realistic images, which we demonstrate both qualitatively and with a user study. We quantitatively evaluate the generated images by training models for gaze estimation and hand pose estimation. We show a significant improvement over using synthetic images, and achieve state-of-the-art results on the MPIIGaze dataset without any labeled real data.
translated by 谷歌翻译
本文提出了一种凝视校正和动画方法,用于高分辨率,不受约束的肖像图像,可以在没有凝视角度和头部姿势注释的情况下对其进行训练。常见的凝视校正方法通常需要用精确的注视和头姿势信息对培训数据进行注释。使用无监督的方法解决此问题仍然是一个空旷的问题,尤其是对于野外高分辨率的面部图像,这并不容易用凝视和头部姿势标签注释。为了解决这个问题,我们首先创建两个新的肖像数据集:Celebgaze和高分辨率Celebhqgaze。其次,我们将目光校正任务制定为图像介绍问题,使用凝视校正模块(GCM)和凝视动画模块(GAM)解决。此外,我们提出了一种无监督的训练策略,即训练的综合训练,以学习眼睛区域特征与凝视角度之间的相关性。结果,我们可以在此空间中使用学习的潜在空间进行凝视动画。此外,为了减轻培训和推理阶段中的记忆和计算成本,我们提出了一个与GCM和GAM集成的粗到精细模块(CFM)。广泛的实验验证了我们方法对野外低和高分辨率面部数据集中的目光校正和凝视动画任务的有效性,并证明了我们方法在艺术状态方面的优越性。代码可从https://github.com/zhangqianhui/gazeanimationv2获得。
translated by 谷歌翻译