头视点标签的成本是改善细粒度头姿势估计算法的主要障碍。缺乏大量标签的一种解决方案正在使用自我监督的学习(SSL)。 SSL可以从未标记的数据中提取良好的功能,用于下游任务。因此,本文试图显示头部姿势估计的SSL方法之间的差异。通常,使用SSL的两个主要方法:(1)使用它以预先培训权重,(2)在一个训练期间除了监督学习(SL)之外的SSL作为辅助任务。在本文中,我们通过设计混合多任务学习(HMTL)架构并使用两个SSL预先文本任务,旋转和令人困惑来评估两种方法。结果表明,两种方法的组合在其中使用旋转进行预训练和使用令人难以用于辅助头的令人费示。与基线相比,误差率降低了23.1%,这与电流的SOTA方法相当。最后,我们比较了初始权重对HMTL和SL的影响。随后,通过HMTL,使用各种初始权重减少错误:随机,想象成和SSL。
translated by 谷歌翻译
在本文中,首先,研究了Imagenet预训练对细粒度面部情感识别(FER)的影响,这表明当应用图像的足够增强时,从头开始的训练比ImageNet Pre的微调提供了更好的结果。 -训练。接下来,我们提出了一种改善细粒度和野外FER的方法,称为混合多任务学习(HMTL)。 HMTL以多任务学习(MTL)的形式使用自我监督学习(SSL)作为经典监督学习(SL)期间的辅助任务。在训练过程中利用SSL可以从图像中获得其他信息,以完成主要细粒度SL任务。我们研究了如何在FER域中使用所提出的HMTL,通过设计两种定制版本的普通文本任务技术,令人困惑和涂漆。我们通过两种类型的HMTL在不利用其他数据的情况下,通过两种类型的HMTL在altimnet基准测试上实现了最新的结果。关于常见SSL预训练和提出的HMTL的实验结果证明了我们工作的差异和优势。但是,HMTL不仅限于FER域。对两种类型的细粒面部任务(即头部姿势估计和性别识别)进行的实验揭示了使用HMTL改善细粒度面部表示的潜力。
translated by 谷歌翻译
监督学习可以学习大型代表性空间,这对于处理困难的学习任务至关重要。然而,由于模型的设计,经典图像分类方法争取在处理小型数据集时概括为新的问题和新情况。事实上,监督学习可能失去图像特征的位置,这导致在非常深刻的架构中的监督崩溃。在本文中,我们调查了如何有效地对未标记数据的强大和充分增强的自我监督,可以有效地培训神经网络的第一层,甚至比监督学习更好,无需数百万标记的数据。主要目标是通过获取通用任务 - 不可知的低级功能来断开像素数据与注释的连接。此外,我们调查视觉变形金刚(VIV)并表明,从自我监督架构中得出的低级功能可以提高这种紧急架构的鲁棒性和整体性能。我们在最小的开源数据集STL-​​10上评估了我们的方法,当从自我监督的学习架构输入到vit而不是原始时,我们获得了从41.66%的显着提升到83.25%。图片。
translated by 谷歌翻译
在基于视觉的辅助技术中,具有不同新兴主题的用例,例如增强现实,虚拟现实和人类计算机互动等不同的主题中的用例中,自动眼目光估计是一个重要问题。在过去的几年中,由于它克服了大规模注释的数据的要求,因此人们对无监督和自我监督的学习范式的兴趣越来越大。在本文中,我们提出了Raze,Raze是一个带有自我监督的注视表示框架的区域,该框架从非宣传的面部图像数据中发挥作用。 Raze通过辅助监督(即伪凝视区域分类)学习目光的表示,其中目的是通过利用瞳孔中心的相对位置将视野分类为不同的凝视区域(即左,右和中心)。因此,我们会自动注释154K Web爬行图像的伪凝视区标签,并通过“ IZE-NET”框架学习特征表示。 “ IZE-NET”是基于胶囊层的CNN体​​系结构,可以有效地捕获丰富的眼睛表示。在四个基准数据集上评估了特征表示的判别性能:洞穴,桌面,MPII和RT-GENE。此外,我们评估了所提出的网络在其他两个下游任务(即驱动器凝视估计和视觉注意估计)上的普遍性,这证明了学习的眼睛注视表示的有效性。
translated by 谷歌翻译
随着服务机器人和监控摄像头的出现,近年来野外的动态面部识别(DFR)受到了很多关注。面部检测和头部姿势估计是DFR的两个重要步骤。经常,在面部检测后估计姿势。然而,这种顺序计算导致更高的延迟。在本文中,我们提出了一种低延迟和轻量级网络,用于同时脸部检测,地标定位和头部姿势估计。灵感来自观察,以大角度定位面部的面部地标更具挑战性,提出了一个姿势损失来限制学习。此外,我们还提出了不确定性的多任务损失,以便自动学习各个任务的权重。另一个挑战是,机器人通常使用武器基的计算核心等低计算单元,我们经常需要使用轻量级网络而不是沉重的网络,这导致性能下降,特别是对于小型和硬面。在本文中,我们提出了在线反馈采样来增加不同尺度的培训样本,这会自动增加培训数据的多样性。通过验证常用的更广泛的脸,AFLW和AFLW2000数据集,结果表明,该方法在低计算资源中实现了最先进的性能。代码和数据将在https://github.com/lyp-deeplearning/mos-multi-task-face-detect上使用。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
自我监督的学习(SSL)通过大量未标记的数据的先知,在各种医学成像任务上取得了出色的性能。但是,对于特定的下游任务,仍然缺乏有关如何选择合适的借口任务和实现细节的指令书。在这项工作中,我们首先回顾了医学成像分析领域中自我监督方法的最新应用。然后,我们进行了广泛的实验,以探索SSL中的四个重要问题用于医学成像,包括(1)自我监督预处理对不平衡数据集的影响,(2)网络体系结构,(3)上游任务对下游任务和下游任务和下游任务的适用性(4)SSL和常用政策用于深度学习的堆叠效果,包括数据重新采样和增强。根据实验结果,提出了潜在的指南,以在医学成像中进行自我监督预处理。最后,我们讨论未来的研究方向并提出问题,以了解新的SSL方法和范式时要注意。
translated by 谷歌翻译
In this paper, we present a method for unconstrained end-to-end head pose estimation. We address the problem of ambiguous rotation labels by introducing the rotation matrix formalism for our ground truth data and propose a continuous 6D rotation matrix representation for efficient and robust direct regression. This way, our method can learn the full rotation appearance which is contrary to previous approaches that restrict the pose prediction to a narrow-angle for satisfactory results. In addition, we propose a geodesic distance-based loss to penalize our network with respect to the SO(3) manifold geometry. Experiments on the public AFLW2000 and BIWI datasets demonstrate that our proposed method significantly outperforms other state-of-the-art methods by up to 20\%. We open-source our training and testing code along with our pre-trained models: https://github.com/thohemp/6DRepNet.
translated by 谷歌翻译
我们建议在2D域中利用自我监督的技术来实现细粒度的3D形状分割任务。这是受到观察的启发:基于视图的表面表示比基于点云或体素占用率的3D对应物更有效地建模高分辨率表面细节和纹理。具体而言,给定3D形状,我们将其从多个视图中渲染,并在对比度学习框架内建立密集的对应学习任务。结果,与仅在2D或3D中使用自学的替代方案相比,学到的2D表示是视图不变和几何一致的,在对有限的标记形状进行培训时,可以更好地概括概括。对纹理(渲染peple)和未纹理(partnet)3D数据集的实验表明,我们的方法在细粒部分分割中优于最先进的替代方案。当仅一组稀疏的视图可供训练或形状纹理时,对基准的改进就会更大,这表明MVDecor受益于2D处理和3D几何推理。
translated by 谷歌翻译
我们提出了一条新型的神经管道Msgazenet,该管道通过通过多发射框架利用眼睛解剖学信息来学习凝视的表示。我们提出的解决方案包括两个组件,首先是一个用于隔离解剖眼区域的网络,以及第二个用于多发达凝视估计的网络。眼睛区域的隔离是通过U-NET样式网络进行的,我们使用合成数据集训练该网络,该数据集包含可见眼球和虹膜区域的眼睛区域掩模。此阶段使用的合成数据集是一个由60,000张眼睛图像组成的新数据集,我们使用眼视线模拟器Unityeyes创建。然后将眼睛区域隔离网络转移到真实域,以生成真实世界图像的面具。为了成功进行转移,我们在训练过程中利用域随机化,这允许合成图像从较大的差异中受益,并在类似于伪影的增强的帮助下从更大的差异中受益。然后,生成的眼睛区域掩模与原始眼睛图像一起用作我们凝视估计网络的多式输入。我们在三个基准凝视估计数据集(Mpiigaze,Eyediap和Utmultiview)上评估框架,在那里我们通过分别获得7.57%和1.85%的性能,在Eyediap和Utmultiview数据集上设置了新的最新技术Mpiigaze的竞争性能。我们还研究了方法在数据中的噪声方面的鲁棒性,并证明我们的模型对噪声数据不太敏感。最后,我们执行各种实验,包括消融研究,以评估解决方案中不同组件和设计选择的贡献。
translated by 谷歌翻译
面姿势估计是指通过单个RGB图像预测面部取向的任务。这是一个重要的研究主题,在计算机视觉中具有广泛的应用。最近已经提出了基于标签的分布学习(LDL)方法进行面部姿势估计,从而实现了有希望的结果。但是,现有的LDL方法有两个主要问题。首先,标签分布的期望是偏见的,导致姿势估计。其次,将固定的分布参数用于所有学习样本,严重限制了模型能力。在本文中,我们提出了一种各向异性球形高斯(ASG)的LDL方法进行面部姿势估计。特别是,我们的方法在单位球体上采用了球形高斯分布,该分布不断产生公正的期望。同时,我们引入了一个新的损失功能,该功能使网络可以灵活地学习每个学习样本的分布参数。广泛的实验结果表明,我们的方法在AFLW2000和BIWI数据集上设置了新的最新记录。
translated by 谷歌翻译
数据标签通常是开发计算病理模型时最具挑战性的任务。病理学家参与是生成准确的标签,以及对病理学家的局限性和大型标有数据集的需求已经导致使用患者级标签,机器辅助注释和主动学习在内的地区研究了弱监督学习。在本文中,我们探索自我监督的学习,以减少计算病理中的标记负担。我们在使用Barlow Twiss方法对乳腺癌组织进行分类的背景下探讨这一点,我们将自我监督与低数据场景中的预先训练网络中的替代品进行了比较。对于本文探索的任务,我们发现想象成预先训练的网络在很大程度上超越了使用巴洛双胞胎获得的自我监督的表示。
translated by 谷歌翻译
Computational pathology can lead to saving human lives, but models are annotation hungry and pathology images are notoriously expensive to annotate. Self-supervised learning has shown to be an effective method for utilizing unlabeled data, and its application to pathology could greatly benefit its downstream tasks. Yet, there are no principled studies that compare SSL methods and discuss how to adapt them for pathology. To address this need, we execute the largest-scale study of SSL pre-training on pathology image data, to date. Our study is conducted using 4 representative SSL methods on diverse downstream tasks. We establish that large-scale domain-aligned pre-training in pathology consistently out-performs ImageNet pre-training in standard SSL settings such as linear and fine-tuning evaluations, as well as in low-label regimes. Moreover, we propose a set of domain-specific techniques that we experimentally show leads to a performance boost. Lastly, for the first time, we apply SSL to the challenging task of nuclei instance segmentation and show large and consistent performance improvements under diverse settings.
translated by 谷歌翻译
学习普遍面孔表示的最佳方法是什么?在面部分析领域进行深度学习的最新工作集中在监督方面的学习特定任务(例如面部识别,面部地标本地化等),但忽略了如何找到可以轻松适应面部表征的总体问题到几个面部分析任务和数据集。为此,我们做出以下4个贡献:(a)我们首次介绍面部表示学习的全面评估基准,该基准由5个重要​​的面部分析任务组成。 (b)我们系统地研究了应用于面孔的大规模表示学习的两种方式:受监督和无监督的预训练。重要的是,我们将评估重点放在几乎没有面部学习的情况下。 (c)我们研究了培训数据集的重要特性,包括其大小和质量(标记,未标记甚至未经保育)。 (d)为了得出结论,我们进行了大量实验。我们的主要两个发现是:(1)完全在野外的未经监督的预培训,未经保育的数据提供了一致的,在某些情况下,对所有面部任务进行了显着准确的改进。 (2)许多现有的面部视频数据集似乎具有大量冗余。我们将发布代码和预先培训的模型,以促进未来的研究。
translated by 谷歌翻译
在本文中,我们介绍了一种新的方法来估计从一小组头关键点开始的单个图像中的人们的头部姿势。为此目的,我们提出了一种回归模型,其利用2D姿势估计算法自动计算的关键点,并输出由偏航,间距和滚动表示的头部姿势。我们的模型很容易实现和更高效地相对于最先进的最新技术 - 在记忆占用方面的推动和更小的速度更快 - 具有可比的准确性。我们的方法还通过适当设计的损耗功能提供与三个角度相关的异源间不确定性的量度;我们在误差和不确定值之间显示了相关性,因此可以在后续计算步骤中使用这种额外的信息来源。作为示例申请,我们解决了图像中的社交交互分析:我们提出了一种算法,以定量估计人们之间的互动水平,从他们的头部姿势和推理在其相互阵地上。代码可在https://github.com/cantarinigiorgio/hhp-net中获得。
translated by 谷歌翻译
随着人类生活中的许多实际应用,包括制造监控摄像机,分析和加工客户行为,许多研究人员都注明了对数字图像的面部检测和头部姿势估计。大量提出的深度学习模型具有最先进的准确性,如YOLO,SSD,MTCNN,解决了面部检测或HOPENET的问题,FSA-NET,用于头部姿势估计问题的速度。根据许多最先进的方法,该任务的管道由两部分组成,从面部检测到头部姿势估计。这两个步骤完全独立,不共享信息。这使得模型在设置中清除但不利用每个模型中提取的大部分特色资源。在本文中,我们提出了多任务净模型,具有利用从面部检测模型提取的特征的动机,将它们与头部姿势估计分支共享以提高精度。此外,随着各种数据,表示面部的欧拉角域大,我们的模型可以预测360欧拉角域的结果。应用多任务学习方法,多任务净模型可以同时预测人头的位置和方向。为了提高预测模型的头部方向的能力,我们将人脸从欧拉角呈现到旋转矩阵的载体。
translated by 谷歌翻译
由于其最近在减少监督学习的差距方面取得了成功,自我监督的学习方法正在增加计算机愿景的牵引力。在自然语言处理(NLP)中,自我监督的学习和变形金刚已经是选择的方法。最近的文献表明,变压器也在计算机愿景中越来越受欢迎。到目前为止,当使用大规模监督数据或某种共同监督时,视觉变压器已被证明可以很好地工作。在教师网络方面。这些监督的普试视觉变压器在下游任务中实现了非常好的变化,变化最小。在这项工作中,我们调查自我监督学习的预用图像/视觉变压器,然后使用它们进行下游分类任务的优点。我们提出了自我监督的视觉变压器(坐在)并讨论了几种自我监督的培训机制,以获得借口模型。静坐的架构灵活性允许我们将其用作自动统计器,并无缝地使用多个自我监控任务。我们表明,可以在小规模数据集上进行预训练,以便在小型数据集上进行下游分类任务,包括几千个图像而不是数百万的图像。使用公共协议对所提出的方法进行评估标准数据集。结果展示了变压器的强度及其对自我监督学习的适用性。我们通过大边缘表现出现有的自我监督学习方法。我们还观察到坐着很好,很少有镜头学习,并且还表明它通过简单地训练从坐的学到的学习功能的线性分类器来学习有用的表示。预先训练,FineTuning和评估代码将在以下:https://github.com/sara-ahmed/sit。
translated by 谷歌翻译
胸部射线照相是一种相对便宜,广泛的医疗程序,可传达用于进行诊断决策的关键信息。胸部X射线几乎总是用于诊断呼吸系统疾病,如肺炎或最近的Covid-19。在本文中,我们提出了一个自我监督的深神经网络,其在未标记的胸部X射线数据集上掠夺。学习的陈述转移到下游任务 - 呼吸系统疾病的分类。在四个公共数据集获得的结果表明,我们的方法在不需要大量标记的培训数据的情况下产生竞争力。
translated by 谷歌翻译
由于大规模标记数据的非可用性,强大的凝视估计是一个具有挑战性的任务,即使是深度的CNN。此外,凝视注释是一种耗时的过程,需要专门的硬件设置。我们提出MTGLS:具有有限监督的多任务凝视估计框架,其利用大量可用的非注释的面部图像数据。 MTGLS从架子的面部图像分析模型中蒸馏出知识,并学习人眼的强大特征表示,由三个互补辅助信号引导:(a)由本地化定义的瞳孔(即伪凝视)的视线面部地标,(b)欧拉角给出的头部姿势,(c)眼贴片的取向(左/右眼)。为了克服监控信号中的内在噪声,MTGL还包括噪声分布建模方法。我们的实验结果表明,MTGLS学习高度广泛的表示,这在一系列数据集中一直表现良好。我们所提出的框架优于无监督的洞穴(6.43%)甚至监督凝席360(按6.59%)数据集的最新方法。
translated by 谷歌翻译
高质量注释的医学成像数据集的稀缺性是一个主要问题,它与医学成像分析领域的机器学习应用相撞并阻碍了其进步。自我监督学习是一种最近的培训范式,可以使学习强大的表示无需人类注释,这可以被视为有效的解决方案,以解决带注释的医学数据的稀缺性。本文回顾了自我监督学习方法的最新研究方向,用于图像数据,并将其专注于其在医学成像分析领域的应用。本文涵盖了从计算机视野领域的最新自我监督学习方法,因为它们适用于医学成像分析,并将其归类为预测性,生成性和对比性方法。此外,该文章涵盖了40个在医学成像分析中自学学习领域的最新研究论文,旨在阐明该领域的最新创新。最后,本文以该领域的未来研究指示结束。
translated by 谷歌翻译