我们探索使用机器学习的眼光估算技术。眼目光估计是各种行为分析和人类计算机界面的常见问题。这项工作的目的是讨论各种模型类型,以进行眼睛凝视估计,并通过在不受约束的环境中使用眼标预测凝视方向的结果。在不受限制的现实世界中,由于照明变化和其他视觉伪像等因素,基于特征和基于模型的方法的表现优于最近的基于外观的方法。我们讨论了一种基于学习的基于学习的方法,该方法专门针对合成数据培训。我们讨论了如何使用检测到的地标作为迭代模型拟合和轻巧学习的凝视估计方法的输入,以及如何将模型用于与人无关和个性化的凝视估计。
translated by 谷歌翻译
我们提出了一条新型的神经管道Msgazenet,该管道通过通过多发射框架利用眼睛解剖学信息来学习凝视的表示。我们提出的解决方案包括两个组件,首先是一个用于隔离解剖眼区域的网络,以及第二个用于多发达凝视估计的网络。眼睛区域的隔离是通过U-NET样式网络进行的,我们使用合成数据集训练该网络,该数据集包含可见眼球和虹膜区域的眼睛区域掩模。此阶段使用的合成数据集是一个由60,000张眼睛图像组成的新数据集,我们使用眼视线模拟器Unityeyes创建。然后将眼睛区域隔离网络转移到真实域,以生成真实世界图像的面具。为了成功进行转移,我们在训练过程中利用域随机化,这允许合成图像从较大的差异中受益,并在类似于伪影的增强的帮助下从更大的差异中受益。然后,生成的眼睛区域掩模与原始眼睛图像一起用作我们凝视估计网络的多式输入。我们在三个基准凝视估计数据集(Mpiigaze,Eyediap和Utmultiview)上评估框架,在那里我们通过分别获得7.57%和1.85%的性能,在Eyediap和Utmultiview数据集上设置了新的最新技术Mpiigaze的竞争性能。我们还研究了方法在数据中的噪声方面的鲁棒性,并证明我们的模型对噪声数据不太敏感。最后,我们执行各种实验,包括消融研究,以评估解决方案中不同组件和设计选择的贡献。
translated by 谷歌翻译
眼目光分析是计算机视觉和人类计算机相互作用领域的重要研究问题。即使在过去十年中取得了显着进展,由于眼睛外观,眼头相互作用,遮挡,图像质量和照明条件的独特性,自动凝视分析仍然具有挑战性。有几个开放的问题,包括在没有先验知识的情况下,在不受限制的环境中解释凝视方向的重要提示以及如何实时编码它们。我们回顾了一系列目光分析任务和应用程序的进展,以阐明这些基本问题,确定凝视分析中的有效方法并提供可能的未来方向。我们根据其优势和报告的评估指标分析了最近的凝视估计和分割方法,尤其是在无监督和弱监督的领域中。我们的分析表明,强大而通用的凝视分析方法的开发仍然需要解决现实世界中的挑战,例如不受限制的设置和学习,并减少了监督。最后,我们讨论了设计现实的目光分析系统的未来研究方向,该系统可以传播到其他领域,包括计算机视觉,增强现实(AR),虚拟现实(VR)和人类计算机交互(HCI)。项目页面:https://github.com/i-am-shreya/eyegazesurvey} {https://github.com/i-am-shreya/eyegazesurvey
translated by 谷歌翻译
作为理解人类意图的重要提示,人的凝视为人机交互(HCI)应用提供了一个关键信号。基于外观的凝视估计,直接回归来自眼睛图像的凝视向量,最近基于卷积神经网络(Coundnets)架构和开源大规模凝视数据集来实现了很大的进展。然而,将基于模型的知识进行编码为CNN模型,以进一步提高凝视估计性能仍然是需要探索的主题。在本文中,我们提出了一种明确地将几何眼球模型编码为基于外观的CNN架构的统一框架的Hybridgazenet(HGN)。由多分支网络和不确定性模块组成,使用杂文策略培训HybridgazeNet。与现有的SOTA方法相比,多个具有挑战性的凝视数据集的实验表明,杂交茎具有更好的准确性和泛化能力。稍后将发布代码。
translated by 谷歌翻译
3D凝视估计是关于预测3D空间中人的视线。由于受试者的解剖学差异,与人无关的模型缺乏精确度,而特定于人的校准技术对可伸缩性增加了严格的限制。为了克服这些问题,我们提出了一种新颖的技术,面部标志热图激活的多模式凝视估计(火焰),作为使用Eye Landmark Heatmap的眼睛解剖信息结合的一种方式,以获得精确的凝视估计,而无需任何人特定的校准。我们的评估表明,在基准数据集Columbiagaze和Eyediap上的竞争性能提高了约10%。我们还进行了消融研究以验证我们的方法。
translated by 谷歌翻译
在基于视觉的辅助技术中,具有不同新兴主题的用例,例如增强现实,虚拟现实和人类计算机互动等不同的主题中的用例中,自动眼目光估计是一个重要问题。在过去的几年中,由于它克服了大规模注释的数据的要求,因此人们对无监督和自我监督的学习范式的兴趣越来越大。在本文中,我们提出了Raze,Raze是一个带有自我监督的注视表示框架的区域,该框架从非宣传的面部图像数据中发挥作用。 Raze通过辅助监督(即伪凝视区域分类)学习目光的表示,其中目的是通过利用瞳孔中心的相对位置将视野分类为不同的凝视区域(即左,右和中心)。因此,我们会自动注释154K Web爬行图像的伪凝视区标签,并通过“ IZE-NET”框架学习特征表示。 “ IZE-NET”是基于胶囊层的CNN体​​系结构,可以有效地捕获丰富的眼睛表示。在四个基准数据集上评估了特征表示的判别性能:洞穴,桌面,MPII和RT-GENE。此外,我们评估了所提出的网络在其他两个下游任务(即驱动器凝视估计和视觉注意估计)上的普遍性,这证明了学习的眼睛注视表示的有效性。
translated by 谷歌翻译
本文提出了一种名为定位变压器(LOTR)的新型变压器的面部地标定位网络。所提出的框架是一种直接坐标回归方法,利用变压器网络以更好地利用特征图中的空间信息。 LOTR模型由三个主要模块组成:1)将输入图像转换为特征图的视觉骨干板,2)改进Visual Backone的特征表示,以及3)直接预测的地标预测头部的变压器模块来自变压器的代表的地标坐标。给定裁剪和对齐的面部图像,所提出的LOTR可以训练结束到底,而无需任何后处理步骤。本文还介绍了光滑翼损失功能,它解决了机翼损耗的梯度不连续性,导致比L1,L2和机翼损耗等标准损耗功能更好地收敛。通过106点面部地标定位的第一个大挑战提供的JD地标数据集的实验结果表明了LOTR在排行榜上的现有方法和最近基于热爱的方法的优势。在WFLW DataSet上,所提出的Lotr框架与若干最先进的方法相比,展示了有希望的结果。此外,我们在使用我们提出的LOTRS面向对齐时,我们报告了最先进的面部识别性能的提高。
translated by 谷歌翻译
解剖标志的本地化对于临床诊断,治疗计划和研究至关重要。在本文中,我们提出了一种新的深网络,名为特征聚合和细化网络(Farnet),用于自动检测解剖标记。为了减轻医疗领域的培训数据有限的问题,我们的网络采用了在自然图像上预先培训的深网络,因为骨干网络和几个流行的网络进行了比较。我们的FARNET还包括多尺度特征聚合模块,用于多尺度特征融合和用于高分辨率热图回归的特征精制模块。粗细的监督应用于两个模块,以方便端到端培训。我们进一步提出了一种名为指数加权中心损耗的新型损失函数,用于准确的热爱回归,这侧重于地标附近的像素的损失并抑制了远处的损失。我们的网络已经在三个公开的解剖学地标检测数据集中进行了评估,包括头部测量射线照片,手射线照片和脊柱射线照相,并在所有三个数据集上实现最先进的性能。代码可用:\ url {https://github.com/juvenileinwind/farnet}
translated by 谷歌翻译
凝视估计是一种确定一个人在何处看着该人的脸的方法,是理解人类意图的宝贵线索。与其他计算机视觉领域类似,深度学习(DL)方法在凝视估计域中获得了认可。但是,凝视估计域中仍然存在凝视校准问题,从而阻止了现有方法进一步改善性能。一个有效的解决方案是直接预测两只人眼的差异信息,例如差异网络(DIFF-NN)。但是,此解决方案仅使用一个推理图像时会导致准确性丧失。我们提出了一个差异残差模型(DRNET)与新的损失函数相结合,以利用两个眼睛图像的差异信息。我们将差异信息视为辅助信息。我们主要使用两个公共数据集(1)mpiigaze和(2)Eyediap评估了提出的模型(DRNET)。仅考虑眼睛功能,DRNET分别使用Mpiigigaze和EyeDiap数据集以$ Angular-Error $为4.57和6.14的最先进的目光估计方法。此外,实验结果还表明,DRNET对噪声图像非常强大。
translated by 谷歌翻译
我们提出了自由式 - 人体神经通话的头部合成系统。我们表明,具有稀疏3D面部标志的建模面孔足以实现最先进的生成性能,而无需依赖诸如3D可变形模型之类的强统计学先验。除了3D姿势和面部表情外,我们的方法还能够将目光从驾驶演员转移到源身份。我们的完整管道由三个组件组成:一个规范的3D密钥估计器,可回归3D姿势和与表达相关的变形,凝视估计网络和建立在Headgan架构上的生成器。我们进一步实验发电机的扩展,以使用注意机制可容纳几次学习,以防万一可用多个源图像。与最新的重演和运动转移模型相比,我们的系统实现了更高的照片真实性与优越的身份保护,同时提供明确的注视控制。
translated by 谷歌翻译
我们介绍了世界上最大的统一公共数据集的眼睛图像,该图像是用头部安装的设备拍摄的。 TEYED带有七个不同的头部注射痕迹。其中,将两个眼动仪集成到虚拟现实(VR)或增强现实(AR)设备中。 TEYED中的图像是从各种任务中获得的,包括乘车,模拟器骑行,户外运动活动和日常室内活动。数据集包括2D \&3D地标,语义分割,3D眼球注释以及所有图像的注视向量和眼动类型。为学生,虹膜和眼皮提供了地标和语义分割。视频长度从几分钟到几个小时不等。 TEYED拥有超过2000万次精心注释的图像,为在现代VR和AR应用中的计算机视觉,眼睛跟踪和凝视估算领域的研究中提供了一个独特的,连贯的资源和宝贵的基础。只需通过ftp作为用户teyeduser连接而在nephrit.cs.uni-tuebingen.de(ftp://teyeduser@nephrit.cs.uni-tuebingen.de)上进行数据和代码。
translated by 谷歌翻译
Visual perception plays an important role in autonomous driving. One of the primary tasks is object detection and identification. Since the vision sensor is rich in color and texture information, it can quickly and accurately identify various road information. The commonly used technique is based on extracting and calculating various features of the image. The recent development of deep learning-based method has better reliability and processing speed and has a greater advantage in recognizing complex elements. For depth estimation, vision sensor is also used for ranging due to their small size and low cost. Monocular camera uses image data from a single viewpoint as input to estimate object depth. In contrast, stereo vision is based on parallax and matching feature points of different views, and the application of deep learning also further improves the accuracy. In addition, Simultaneous Location and Mapping (SLAM) can establish a model of the road environment, thus helping the vehicle perceive the surrounding environment and complete the tasks. In this paper, we introduce and compare various methods of object detection and identification, then explain the development of depth estimation and compare various methods based on monocular, stereo, and RDBG sensors, next review and compare various methods of SLAM, and finally summarize the current problems and present the future development trends of vision technologies.
translated by 谷歌翻译
3D gaze estimation is most often tackled as learning a direct mapping between input images and the gaze vector or its spherical coordinates. Recently, it has been shown that pose estimation of the face, body and hands benefits from revising the learning target from few pose parameters to dense 3D coordinates. In this work, we leverage this observation and propose to tackle 3D gaze estimation as regression of 3D eye meshes. We overcome the absence of compatible ground truth by fitting a rigid 3D eyeball template on existing gaze datasets and propose to improve generalization by making use of widely available in-the-wild face images. To this end, we propose an automatic pipeline to retrieve robust gaze pseudo-labels from arbitrary face images and design a multi-view supervision framework to balance their effect during training. In our experiments, our method achieves improvement of 30% compared to state-of-the-art in cross-dataset gaze estimation, when no ground truth data are available for training, and 7% when they are. We make our project publicly available at https://github.com/Vagver/dense3Deyes.
translated by 谷歌翻译
我们提出了一种新的面部锚和轮廓估计框架,ACE-Net,用于细级面向对准任务。 ACE-NET预测面部锚和轮廓比传统的面部地标更丰富,同时克服了他们的定义中的含糊不清和不一致。我们介绍了一个弱监督的损失,使ACE-Net能够从现有的面部地标数据集中学习,而无需进口。相反,在训练期间使用从该合成数据,从该合成数据可以容易地获得GT轮廓,以弥合地标和真正的面部轮廓之间的密度差距。我们对Helen DataSet的ACE-Net的面对对准精度进行了评估,其中具有194个注释的面部地标,而且它仅培训了来自300 W数据集的68或36个地标。我们表明ACE-Net生成的轮廓优于直接来自68 GT地标和ACE-NET的轮廓更优于从GT地标的轮廓的完全监督培训的型号。
translated by 谷歌翻译
3D面部重建是一个具有挑战性的问题,但也是计算机视觉和图形领域的重要任务。最近,许多研究人员对这个问题提请注意,并且已经发表了大量的文章。单个图像重建是3D面部重建的分支之一,在我们的生活中具有大量应用。本文是对从单个图像的3D面部重建最近的文献述评。
translated by 谷歌翻译
大多数实时人类姿势估计方法都基于检测接头位置。使用检测到的关节位置,可以计算偏差和肢体的俯仰。然而,由于这种旋转轴仍然不观察,因此不能计算沿着肢体沿着肢体至关重要的曲折,这对于诸如体育分析和计算机动画至关重要。在本文中,我们引入了方向关键点,一种用于估计骨骼关节的全位置和旋转的新方法,仅使用单帧RGB图像。灵感来自Motion-Capture Systems如何使用一组点标记来估计全骨骼旋转,我们的方法使用虚拟标记来生成足够的信息,以便准确地推断使用简单的后处理。旋转预测改善了接头角度最佳报告的平均误差48%,并且在15个骨骼旋转中实现了93%的精度。该方法还通过MPJPE在原理数据集上测量,通过MPJPE测量,该方法还改善了当前的最新结果14%,并概括为野外数据集。
translated by 谷歌翻译
由于大规模标记数据的非可用性,强大的凝视估计是一个具有挑战性的任务,即使是深度的CNN。此外,凝视注释是一种耗时的过程,需要专门的硬件设置。我们提出MTGLS:具有有限监督的多任务凝视估计框架,其利用大量可用的非注释的面部图像数据。 MTGLS从架子的面部图像分析模型中蒸馏出知识,并学习人眼的强大特征表示,由三个互补辅助信号引导:(a)由本地化定义的瞳孔(即伪凝视)的视线面部地标,(b)欧拉角给出的头部姿势,(c)眼贴片的取向(左/右眼)。为了克服监控信号中的内在噪声,MTGL还包括噪声分布建模方法。我们的实验结果表明,MTGLS学习高度广泛的表示,这在一系列数据集中一直表现良好。我们所提出的框架优于无监督的洞穴(6.43%)甚至监督凝席360(按6.59%)数据集的最新方法。
translated by 谷歌翻译
来自静态图像的面部表情识别是计算机视觉应用中的一个具有挑战性的问题。卷积神经网络(CNN),用于各种计算机视觉任务的最先进的方法,在预测具有极端姿势,照明和闭塞条件的面部的表达式中已经有限。为了缓解这个问题,CNN通常伴随着传输,多任务或集合学习等技术,这些技术通常以增加的计算复杂性的成本提供高精度。在这项工作中,我们提出了一种基于零件的集合转移学习网络,其模型通过将面部特征的空间方向模式与特定表达相关来模拟人类如何识别面部表达。它由5个子网络组成,每个子网络从面部地标的五个子集中执行转移学习:眉毛,眼睛,鼻子,嘴巴或颌骨表达分类。我们表明我们所提出的集合网络使用从面部肌肉的电机运动发出的视觉模式来预测表达,并展示从面部地标定位转移到面部表情识别的实用性。我们在CK +,Jaffe和SFew数据集上测试所提出的网络,并且它分别优于CK +和Jaffe数据集的基准,分别为0.51%和5.34%。此外,所提出的集合网络仅包括1.65M的型号参数,确保在培训和实时部署期间的计算效率。我们所提出的集合的Grad-Cam可视化突出了其子网的互补性质,是有效集合网络的关键设计参数。最后,交叉数据集评估结果表明,我们建议的集合具有高泛化能力,使其适合现实世界使用。
translated by 谷歌翻译
人群计数是公共场所情境意识的有效工具。使用图像和视频进行自动人群计数是一个有趣但充满挑战的问题,在计算机视觉中引起了极大的关注。在过去的几年中,已经开发了各种深度学习方法来实现最先进的表现。随着时间的流逝,这些方法在许多方面发生了变化,例如模型架构,输入管道,学习范式,计算复杂性和准确性提高等。在本文中,我们对人群计数领域中最重要的贡献进行了系统和全面的评论。 。尽管对该主题的调查很少,但我们的调查是最新的,并且在几个方面都不同。首先,它通过模型体系结构,学习方法(即损失功能)和评估方法(即评估指标)对最重要的贡献进行了更有意义的分类。我们选择了杰出和独特的作品,并排除了类似的作品。我们还通过基准数据集对著名人群计数模型进行分类。我们认为,这项调查可能是新手研究人员了解随着时间的推移和当前最新技术的逐步发展和贡献的好资源。
translated by 谷歌翻译
目前全面监督的面部地标检测方法迅速进行,实现了显着性能。然而,当在大型姿势和重闭合的面孔和重闭合时仍然遭受痛苦,以进行不准确的面部形状约束,并且标记的训练样本不足。在本文中,我们提出了一个半监督框架,即自我校准的姿势注意网络(SCPAN),以实现更具挑战性的情景中的更强大和精确的面部地标检测。具体地,建议通过定影边界和地标强度场信息来模拟更有效的面部形状约束的边界意识的地标强度(BALI)字段。此外,设计了一种自我校准的姿势注意力(SCPA)模型,用于提供自学习的目标函数,该功能通过引入自校准机制和姿势注意掩模而无需标签信息而无需标签信息。我们认为,通过将巴厘岛领域和SCPA模型集成到新颖的自我校准的姿势网络中,可以了解更多的面部现有知识,并且我们的面孔方法的检测精度和稳健性得到了改善。获得具有挑战性的基准数据集获得的实验结果表明,我们的方法优于文献中最先进的方法。
translated by 谷歌翻译