智能论文笔记

Can viewer proximity be a behavioural marker for Autism Spectrum Disorder?

Rahul Bishain , Sharat Chandran

分类：计算机视觉

2021-11-07

对任何自闭症谱系疾病的筛选是一种复杂的过程，通常涉及行为观察和基于问卷的测试的杂交。通常在受控环境中进行，此过程需要培训的临床医生或精神科医生进行此类评估。在移动平台上的技术进步浪潮中，已经在纳入移动和平板电脑设备上的这种评估时进行了多次尝试。在本文中，我们分析了使用这种筛选测试产生的视频。本文报道了使用观察者与显示屏距离的效果的第一次使用，同时向2-7岁的儿童作为自闭症的行为标记进行感官敏感性测试，在休闲家庭设置中使用如此的潜力很有希望。

translated by 谷歌翻译

Towards Automating Retinoscopy for Refractive Error Diagnosis

Aditya Aggarwal , Siddhartha Gairola , Uddeshya Upadhyay , Akshay P Vasishta , Diwakar Rao , Aditya Goyal , Kaushik Murali , Nipun Kwatra , Mohit Jain

分类：计算机视觉

2022-08-10

折射率是最常见的眼睛障碍，是可更正视觉障碍的关键原因，造成了美国近80％的视觉障碍。可以使用多种方法诊断折射误差，包括主观折射，视网膜镜检查和自动磨蚀器。尽管主观折射是黄金标准，但它需要患者的合作，因此不适合婴儿，幼儿和发育迟缓的成年人。视网膜镜检查是一种客观折射方法，不需要患者的任何输入。但是，视网膜镜检查需要镜头套件和训练有素的检查员，这限制了其用于大规模筛查的使用。在这项工作中，我们通过将智能手机连接到视网膜镜和录制视网膜镜视频与患者戴着定制的纸框架来自动化自动化。我们开发了一个视频处理管道，该管道将视网膜视频视为输入，并根据我们提出的视网膜镜检查数学模型的扩展来估算净屈光度错误。我们的系统减轻了对镜头套件的需求，可以由未经培训的检查员进行。在一项185只眼睛的临床试验中，我们的灵敏度为91.0％，特异性为74.0％。此外，与主观折射测量相比，我们方法的平均绝对误差为0.75 $ \ pm $ 0.67D。我们的结果表明，我们的方法有可能用作现实世界中医疗设置中的基于视网膜镜检查的折射率筛选工具。

translated by 谷歌翻译

DAiSEE: Towards User Engagement Recognition in the Wild

Abhay Gupta , Arjun D'Cunha , Kamal Awasthi , Vineeth Balasubramanian

分类：计算机视觉 | 机器学习

2016-09-07

我们介绍了Daisee，这是第一个多标签视频分类数据集，该数据集由112个用户捕获的9068个视频片段，用于识别野外无聊，混乱，参与度和挫败感的用户情感状态。该数据集具有四个级别的标签 - 每个情感状态都非常低，低，高和很高，它们是人群注释并与使用专家心理学家团队创建的黄金标准注释相关的。我们还使用当今可用的最先进的视频分类方法在此数据集上建立了基准结果。我们认为，黛西（Daisee）将为研究社区提供特征提取，基于上下文的推理以及为相关任务开发合适的机器学习方法的挑战，从而为进一步的研究提供了跳板。该数据集可在https://people.iith.ac.in/vineethnb/resources/daisee/daisee/index.html下载。

translated by 谷歌翻译

ConfLab: A Rich Multimodal Multisensor Dataset of Free-Standing Social Interactions in the Wild

Chirag Raman , Jose Vargas-Quiros , Stephanie Tan , Ekin Gedik , Ashraful Islam , Hayley Hung

分类：机器学习

2022-05-10

由于几个因素之间的微妙权衡：参与者的隐私，生态有效性，数据保真度和后勤开销，记录野外未脚本人类互动的动态是具有挑战性的。为了解决这些问题，在社区精神上为社区的“数据集”之后，我们提出了会议生活实验室（Conflab）：一个新的概念，用于多模式多模式数据收集，野生野外社交对话。对于此处描述的Conflab的首次实例化，我们在一次大型国际会议上组织了现实生活中的专业网络活动。该数据集涉及48个会议参与者，捕捉了地位，熟人和网络动机的各种组合。我们的捕获设置改善了先前野外数据集的数据保真度，同时保留隐私敏感性：从非侵入性的架空视图中获得8个视频（1920x1080，60 fps），并具有定制的可穿戴传感器，并带有车载记录（完整9） - 轴IMU），具有隐私性的低频音频（1250 Hz）和基于蓝牙的接近度。此外，我们开发了用于采集时分布式硬件同步的自定义解决方案，并以高采样速率对身体关键点和动作进行了及时的连续注释。我们的基准测试展示了与野外隐私保护社交数据分析有关的一些开放研究任务：从高架摄像头视图，基于骨架的No-Audio扬声器检测和F-Formation检测中的关键点检测。

translated by 谷歌翻译

Automatic Gaze Analysis: A Survey of Deep Learning based Approaches

Shreya Ghosh , Abhinav Dhall , Munawar Hayat , Jarrod Knibbe , Qiang Ji

分类：计算机视觉

2021-08-12

眼目光分析是计算机视觉和人类计算机相互作用领域的重要研究问题。即使在过去十年中取得了显着进展，由于眼睛外观，眼头相互作用，遮挡，图像质量和照明条件的独特性，自动凝视分析仍然具有挑战性。有几个开放的问题，包括在没有先验知识的情况下，在不受限制的环境中解释凝视方向的重要提示以及如何实时编码它们。我们回顾了一系列目光分析任务和应用程序的进展，以阐明这些基本问题，确定凝视分析中的有效方法并提供可能的未来方向。我们根据其优势和报告的评估指标分析了最近的凝视估计和分割方法，尤其是在无监督和弱监督的领域中。我们的分析表明，强大而通用的凝视分析方法的开发仍然需要解决现实世界中的挑战，例如不受限制的设置和学习，并减少了监督。最后，我们讨论了设计现实的目光分析系统的未来研究方向，该系统可以传播到其他领域，包括计算机视觉，增强现实（AR），虚拟现实（VR）和人类计算机交互（HCI）。项目页面：https：//github.com/i-am-shreya/eyegazesurvey} {https://github.com/i-am-shreya/eyegazesurvey

translated by 谷歌翻译

Going Deeper than Tracking: a Survey of Computer-Vision Based Recognition of Animal Pain and Affective States

Sofia Broomé , Marcelo Feighelstein , Anna Zamansky , Gabriel Carreira Lencioni , Pia Haubro Andersen , Francisca Pessanha , Marwa Mahmoud , Hedvig Kjellström , Albert Ali Salah

分类：计算机视觉

2022-06-16

动物运动跟踪和姿势识别的进步一直是动物行为研究的游戏规则改变者。最近，越来越多的作品比跟踪“更深”，并解决了对动物内部状态（例如情绪和痛苦）的自动认识，目的是改善动物福利，这使得这是对该领域进行系统化的及时时刻。本文对基于计算机的识别情感状态和动物的疼痛的研究进行了全面调查，并涉及面部行为和身体行为分析。我们总结了迄今为止在这个主题中所付出的努力 - 对它们进行分类，从不同的维度进行分类，突出挑战和研究差距，并提供最佳实践建议，以推进该领域以及一些未来的研究方向。

translated by 谷歌翻译

In-vehicle alertness monitoring for older adults

Heng Yao , Sanaz Motamedi , Wayne C. W. Giang , Alexandra Kondyli , Eakta Jain

分类：计算机视觉

2022-08-17

在驾驶的背景下进行警觉性监控可改善安全性并挽救生命。基于计算机视觉的警报监视是一个活跃的研究领域。但是，存在警觉性监控的算法和数据集主要针对年轻人（18-50岁）。我们提出了一个针对老年人进行车辆警报监控的系统。通过设计研究，我们确定了适合在5级车辆中独立旅行的老年人的变量和参数。我们实施了一个原型旅行者监测系统，并评估了十个老年人（70岁及以上）的警报检测算法。我们以适合初学者或从业者的详细级别报告系统设计和实施。我们的研究表明，数据集的开发是开发针对老年人的警觉性监测系统的首要挑战。这项研究是迄今为止研究不足的人群中的第一项研究，并通过参与方法对未来的算法开发和系统设计具有影响。

translated by 谷歌翻译

Classification of Abnormal Hand Movement for Aiding in Autism Detection: Machine Learning Study

Anish Lakkapragada , Aaron Kline , Onur Cezmi Mutlu , Kelley Paskov , Brianna Chrisman , Nate Stockham , Peter Washington , Dennis Wall

分类：计算机视觉

2021-08-18

正式的自闭症诊断可以是效率低下和冗长的过程。尽管有证据表明早期的干预导致更好的治疗结果，但家庭可能会等待几个月或更长时间。数字技术检测与自闭症相关的行为的存在可以扩展到儿科诊断。这项工作旨在展示深度学习技术的可行性，用于从非结构化的家庭视频检测手动拍打作为验证模型和数字技术是否可以利用自闭症诊断的第一步。我们使用了自我刺激行为数据集（SSBD），其中包含75个手扑扑，头部敲打和儿童展示的旋转。从所有的手拍摄视频中，我们提取了100个扑扑的100个正和控制视频，每个持续时间为2到5秒。利用地标驱动方法和MobileNet V2的预训练层，我们的最高性能模型在评估5倍的交叉验证时，达到了84％（90％精度和80％召回）的测试F1得分。这项工作为开发精确的深层学习方法提供了对自闭症相关行为的活动检测的第一步。

translated by 谷歌翻译

Private Eye: On the Limits of Textual Screen Peeking via Eyeglass Reflections in Video Conferencing

Yan Long , Chen Yan , Shilin Xiao , Shivan Prasad , Wenyuan Xu , Kevin Fu

分类：计算机视觉

2022-05-08

该研究使用数学建模和人类对象实验，探讨了新兴网络摄像头可能在多大程度上泄漏了可识别的文本和图形信息，从网络摄像头捕获的眼镜反射中闪闪发光。我们工作的主要目标是衡量，计算和预测随着网络摄像头技术在未来发展的可识别性因素，限制和阈值。我们的工作探索并表征了基于光学攻击的可行威胁模型，该模型使用视频帧序列上的多帧超级分辨率技术。我们在受控实验室设置中的模型和实验结果表明，可以重建和识别超过75％的屏幕文本，其高度高达10毫米，并使用720p网络摄像头进行重建和识别。我们进一步将此威胁模型应用于具有不同攻击者功能的Web文本内容，以找到可以识别文本的阈值。我们与20名参与者的用户研究表明，当今的720p网络摄像头足以让对手在大芬特网站上重建文本内容。我们的模型进一步表明，向4K摄像机的演变将使文本泄漏的阈值倾斜到流行网站上大多数标题文本的重建。除文本目标外，还针对具有720p网络摄像头的Alexa前100个网站的封闭世界数据集的案例研究显示，即使没有使用机器学习模型，也没有10个参与者的最高识别精度为94％。我们的研究提出了近期缓解，包括用户可以用来模糊视频流的眼镜区域的软件原型。对于可能的长期防御，我们主张采用个人反思测试程序来评估各种环境下的威胁，并证明遵循最少特权原则对隐私敏感的情况的重要性。

translated by 谷歌翻译

Face-to-Face Co-Located Human-Human Social Interaction Analysis using Nonverbal Cues: A Survey

Cigdem Beyan , Alessandro Vinciarelli , Alessio Del Bue

分类：人工智能 | 计算机视觉 | 机器学习

2022-07-20

这项工作对最近的努力进行了系统的综述（自2010年以来），旨在自动分析面对面共同关联的人类社交互动中显示的非语言提示。专注于非语言提示的主要原因是，这些是社会和心理现象的物理，可检测到的痕迹。因此，检测和理解非语言提示至少在一定程度上意味着检测和理解社会和心理现象。所涵盖的主题分为三个：a）建模社会特征，例如领导力，主导，人格特质，b）社会角色认可和社会关系检测以及c）群体凝聚力，同情，rapport和so的互动动态分析向前。我们针对共同的相互作用，其中相互作用的人永远是人类。该调查涵盖了各种各样的环境和场景，包括独立的互动，会议，室内和室外社交交流，二元对话以及人群动态。对于他们每个人，调查都考虑了非语言提示分析的三个主要要素，即数据，传感方法和计算方法。目的是突出显示过去十年的主要进步，指出现有的限制并概述未来的方向。

translated by 谷歌翻译

Py-Feat: Python Facial Expression Analysis Toolbox

Eshin Jolly , Jin Hyun Cheong , Tiankang Xie , Sophie Byrne , Matthew Kenny , Luke J. Chang

分类：计算机视觉 | 机器学习

2021-04-08

Studying facial expressions is a notoriously difficult endeavor. Recent advances in the field of affective computing have yielded impressive progress in automatically detecting facial expressions from pictures and videos. However, much of this work has yet to be widely disseminated in social science domains such as psychology. Current state of the art models require considerable domain expertise that is not traditionally incorporated into social science training programs. Furthermore, there is a notable absence of user-friendly and open-source software that provides a comprehensive set of tools and functions that support facial expression research. In this paper, we introduce Py-Feat, an open-source Python toolbox that provides support for detecting, preprocessing, analyzing, and visualizing facial expression data. Py-Feat makes it easy for domain experts to disseminate and benchmark computer vision models and also for end users to quickly process, analyze, and visualize face expression data. We hope this platform will facilitate increased use of facial expression data in human behavior research.

translated by 谷歌翻译

MobilePhys: Personalized Mobile Camera-Based Contactless Physiological Sensing

Xin Liu , Yuntao Wang , Sinan Xie , Xiaoyu Zhang , Zixian Ma , Daniel McDuff , Shwetak Patel

分类：计算机视觉

2022-01-11

基于相机的非接触式光电子溶血性描绘是指一组流行的非接触生理测量技术。目前的最先进的神经模型通常以伴随金标准生理测量的视频以监督方式培训。但是，它们通常概括域名差别示例（即，与培训集中的视频不同）。个性化模型可以帮助提高型号的概括性，但许多个性化技术仍然需要一些金标准数据。为了帮助缓解这一依赖性，在本文中，我们展示了一种名为Mobilememon的新型移动感应系统，该系统是第一个移动个性化远程生理传感系统，它利用智能手机上的前后相机，为培训产生高质量的自我监督标签个性化非接触式相机的PPG模型。为了评估MobilemeLephys的稳健性，我们使用39名参与者进行了一个用户学习，他们在不同的移动设备下完成了一组任务，照明条件/强度，运动任务和皮肤类型。我们的研究结果表明，Mobilephys显着优于最先进的设备监督培训和几次拍摄适应方法。通过广泛的用户研究，我们进一步检查了Mobilephys如何在复杂的真实环境中执行。我们设想，从我们所提出的双摄像机移动传感系统产生的校准或基于相机的非接触式PPG模型将为智能镜，健身和移动健康应用等许多未来应用打开门。

translated by 谷歌翻译

Classifying Autism from Crowdsourced Semi-Structured Speech Recordings: A Machine Learning Approach

Nathan A. Chi , Peter Washington , Aaron Kline , Arman Husic , Cathy Hou , Chloe He , Kaitlyn Dunlap , Dennis Wall

分类：机器学习

2022-01-04

自闭症谱系障碍（ASD）是一种神经发育障碍，导致发生改变的行为，社会发展和通信模式。在过去几年中，自闭症患病率增加了两倍，现在有1分中有1个现在受到影响。鉴于传统诊断是一种冗长，劳动密集型的过程，已经对自动筛选自闭症的发展系统来说，已经提出了重大关注。韵律异常是自闭症的最明显的迹象，受影响的儿童展示言语特质，包括梯度，单调的语调，非典型音高和不规则语言压力模式。在这项工作中，我们展示了一套机器学习方法，以检测自闭症和神经典型（NT）儿童在家庭环境中捕获的自闭症语音音频中的自闭症。我们考虑了三种方法来检测儿童的自闭症语言：首先，在提取的音频特征（包括熔融频率跳跃系数）上培训的随机森林;二，卷积神经网络（CNNS）培训谱图;第三，微调Wav2Vec 2.0 - 基于最先进的基于变压器的ASR模型。我们在从斯坦福的猜测中培训我们的小说Todaset的小说数据集的分类器？移动游戏，一个应用程序，旨在在自然家庭环境中占有自闭症和神经典型的儿童的视频。随机森林分类器实现了70％的精度，微调Wav2Vec 2.0型号达到了77％的精度，CNN在将儿童的音频视为ASD或NT时，CNN可实现79％的准确性。我们的模型能够在具有不一致的录制质量选择的家庭音频剪辑上培训时预测自闭症状态，这可能更广泛地对现实世界的条件。这些结果表明，机器学习方法提供了在没有专门设备的语音中自动检测自闭症的承诺。

translated by 谷歌翻译

DeepStroke: An Efficient Stroke Screening Framework for Emergency Rooms with Multimodal Adversarial Deep Learning

Tongan Cai , Haomiao Ni , Mingli Yu , Xiaolei Huang , Kelvin Wong , John Volpi , James Z. Wang , Stephen T. C. Wong

分类：计算机视觉 | 人工智能

2021-09-24

在急诊室（ER）环境中，中风分类或筛查是一个普遍的挑战。由于MRI的慢速吞吐量和高成本，通常会进行快速CT而不是MRI。在此过程中通常提到临床测试，但误诊率仍然很高。我们提出了一个新型的多模式深度学习框架，深沉的中风，以通过识别较小的面部肌肉不协调的模式来实现计算机辅助中风的存在评估，并使怀疑急性环境中的中风的患者无能为力。我们提出的深雷克斯（Deepstroke）在中风分流器中容易获得一分钟的面部视频数据和音频数据，用于局部面部瘫痪检测和全球语音障碍分析。采用了转移学习来减少面部侵蚀偏见并提高普遍性。我们利用多模式的横向融合来结合低水平和高级特征，并为关节训练提供相互正则化。引入了新型的对抗训练以获得无身份和中风的特征。与实际急诊室患者进行的视频ADIO数据集进行的实验表明，与分类团队和ER医生相比，中风的表现要优于最先进的模型，并且取得更好的性能，比传统的敏感性高出10.94％，高7.37％的精度高出7.37％。当特异性对齐时，中风分类。同时，每个评估都可以在不到六分钟的时间内完成，这表明该框架的临床翻译潜力很大。

translated by 谷歌翻译

Cross Your Body: A Cognitive Assessment System for Children

Saif Sayed , Vassilis Athitsos

分类：计算机视觉

2021-11-24

虽然许多动作识别技术在公共基准上取得了巨大成功，但是这种性能不一定在现实世界方案中复制，其中数据来自特定的应用要求。我们专注于本文的具体实际应用是使用认知要求苛刻的物理任务的儿童的认知评估。我们创建了一个称为跨你身体和录制数据的系统，这些数据在几个方面是独一无二的，包括故障学家设计的事实，受试者是儿童，并且视频捕获现实世界使用量在心理学家的现实世界评估期间表演任务的儿童。我们系统的其他显着特征是它的分数可以直接翻译，以测量执行功能，这是区分青少年儿童中ADHD发作的关键因素之一。由于不精确的儿童执行的行动的执行以及存在细粒度运动模式的存在，我们系统地研究和评估了记录数据的相关方法。我们的目标是，该系统将有助于推进对儿童认知评估的研究。

translated by 谷歌翻译

A View Independent Classification Framework for Yoga Postures

Mustafa Chasmai , Nirjhar Das , Aman Bhardwaj , Rahul Garg

分类：计算机视觉 | 人工智能 | 机器学习

2022-06-27

瑜伽是全球广受好评的，广泛推荐的健康生活实践。在执行瑜伽时保持正确的姿势至关重要。在这项工作中，我们采用了从人类姿势估计模型中的转移学习来提取整个人体的136个关键点，以训练一个随机的森林分类器，该分类器用于估算瑜伽室。在内部收集的内部收集的瑜伽视频数据库中评估了结果，该数据库是从4个不同的相机角度记录的51个主题。我们提出了一个三步方案，用于通过对1）看不见的帧，2）看不见的受试者进行测试来评估瑜伽分类器的普遍性。我们认为，对于大多数应用程序，对看不见的主题的验证精度和看不见的摄像头是最重要的。我们经验分析了三个公共数据集，转移学习的优势以及目标泄漏的可能性。我们进一步证明，分类精度在很大程度上取决于所采用的交叉验证方法，并且通常会产生误导。为了促进进一步的研究，我们已公开提供关键点数据集和代码。

translated by 谷歌翻译

Camera Measurement of Physiological Vital Signs

Daniel McDuff

分类：计算机视觉 | 机器学习

2021-11-22

对医疗保健监控的远程工具的需求从未如此明显。摄像机测量生命体征利用成像装置通过分析人体的图像来计算生理变化。建立光学，机器学习，计算机视觉和医学的进步这些技术以来的数码相机的发明以来已经显着进展。本文介绍了对生理生命体征的相机测量综合调查，描述了它们可以测量的重要标志和实现所做的计算技术。我涵盖了临床和非临床应用以及这些应用需要克服的挑战，以便从概念上推进。最后，我描述了对研究社区可用的当前资源（数据集和代码），并提供了一个全面的网页（https://cameravitals.github.io/），其中包含这些资源的链接以及其中引用的所有文件的分类列表文章。

translated by 谷歌翻译

Head and eye egocentric gesture recognition for human-robot interaction using eyewear cameras

Javier Marina-Miranda , V. Javier Traver

分类：计算机视觉 | 机器人

2022-01-27

非语言交流在人类机器人相互作用（HRI）的各种场景中起着特别重要的作用。因此，这项工作解决了人类手势识别的问题。特别是，我们专注于头部和眼睛手势，并使用眼镜摄像头采用以自我为中心的（第一人称）观点。我们认为，这种自我为中心的观点可能对场景或以机器人为中心的观点提供了许多概念和技术利益。提出了一种基于运动的识别方法，该方法以两个时间粒度运行。在本地，框架到框架的同谱是通过卷积神经网络（CNN）估算的。该CNN的输出输入了长期记忆（LSTM）以捕获与表征手势相关的长期时间视觉关系。关于网络体系结构的配置，一个特别有趣的发现是，使用同型CNN的内部层的输出增加了使用同型矩阵本身的识别率。尽管这项工作侧重于行动识别，并且尚未进行机器人或用户研究，但该系统旨在满足实时限制。令人鼓舞的结果表明，所提出的以自我为中心的观点是可行的，这项概念验证工作为HRI令人兴奋的领域提供了新颖而有用的贡献。

translated by 谷歌翻译

More is Better: A Database for Spontaneous Micro-Expression with High Frame Rates

Sirui Zhao , Huaying Tang , Xinglong Mao , Shifeng Liu , Hanqing Tao , Hao Wang , Tong Xu , Enhong Chen

分类：计算机视觉

2023-01-03

As one of the most important psychic stress reactions, micro-expressions (MEs), are spontaneous and transient facial expressions that can reveal the genuine emotions of human beings. Thus, recognizing MEs (MER) automatically is becoming increasingly crucial in the field of affective computing, and provides essential technical support in lie detection, psychological analysis and other areas. However, the lack of abundant ME data seriously restricts the development of cutting-edge data-driven MER models. Despite the recent efforts of several spontaneous ME datasets to alleviate this problem, it is still a tiny amount of work. To solve the problem of ME data hunger, we construct a dynamic spontaneous ME dataset with the largest current ME data scale, called DFME (Dynamic Facial Micro-expressions), which includes 7,526 well-labeled ME videos induced by 671 participants and annotated by more than 20 annotators throughout three years. Afterwards, we adopt four classical spatiotemporal feature learning models on DFME to perform MER experiments to objectively verify the validity of DFME dataset. In addition, we explore different solutions to the class imbalance and key-frame sequence sampling problems in dynamic MER respectively on DFME, so as to provide a valuable reference for future research. The comprehensive experimental results show that our DFME dataset can facilitate the research of automatic MER, and provide a new benchmark for MER. DFME will be published via https://mea-lab-421.github.io.

translated by 谷歌翻译

RAZE: Region Guided Self-Supervised Gaze Representation Learning

Neeru Dubey , Shreya Ghosh , Abhinav Dhall

分类：计算机视觉

2022-08-04

在基于视觉的辅助技术中，具有不同新兴主题的用例，例如增强现实，虚拟现实和人类计算机互动等不同的主题中的用例中，自动眼目光估计是一个重要问题。在过去的几年中，由于它克服了大规模注释的数据的要求，因此人们对无监督和自我监督的学习范式的兴趣越来越大。在本文中，我们提出了Raze，Raze是一个带有自我监督的注视表示框架的区域，该框架从非宣传的面部图像数据中发挥作用。 Raze通过辅助监督（即伪凝视区域分类）学习目光的表示，其中目的是通过利用瞳孔中心的相对位置将视野分类为不同的凝视区域（即左，右和中心）。因此，我们会自动注释154K Web爬行图像的伪凝视区标签，并通过“ IZE-NET”框架学习特征表示。 “ IZE-NET”是基于胶囊层的CNN体系结构，可以有效地捕获丰富的眼睛表示。在四个基准数据集上评估了特征表示的判别性能：洞穴，桌面，MPII和RT-GENE。此外，我们评估了所提出的网络在其他两个下游任务（即驱动器凝视估计和视觉注意估计）上的普遍性，这证明了学习的眼睛注视表示的有效性。

translated by 谷歌翻译