智能论文笔记

Subpixel Heatmap Regression for Facial Landmark Localization

Adrian Bulat , Enrique Sanchez , Georgios Tzimiropoulos

分类：计算机视觉

2021-11-03

基于Heatmap回归的深度学习模型彻底改变了面部地标定位的任务，现有模型在大型姿势，非均匀照明和阴影，闭塞和自闭合，低分辨率和模糊。然而，尽管采用了广泛的采用，Heatmap回归方法遭受与热图编码和解码过程相关的离散化引起的误差。在这项工作中，我们表明这些误差对面部对准精度具有令人惊讶的大量负面影响。为了减轻这个问题，我们通过利用底层连续分布提出了一种热爱编码和解码过程的新方法。为了充分利用新提出的编码解码机制，我们还介绍了基于暹罗的训练，该训练能够在各种几何图像变换上实施热线图一致性。我们的方法在多个数据集中提供了明显的增益，在面部地标本地化中设置新的最先进的结果。旁边的代码将在https://www.adrianbulat.com/face-alignment上提供

translated by 谷歌翻译

LOTR: Face Landmark Localization Using Localization Transformer

Ukrit Watchareeruetai , Benjaphan Sommana , Sanjana Jain , Pavit Noinongyao , Ankush Ganguly , Aubin Samacoits , Samuel W. F. Earp , Nakarin Sritrakool

分类：计算机视觉 | 人工智能 | 机器学习

2021-09-21

本文提出了一种名为定位变压器（LOTR）的新型变压器的面部地标定位网络。所提出的框架是一种直接坐标回归方法，利用变压器网络以更好地利用特征图中的空间信息。 LOTR模型由三个主要模块组成：1）将输入图像转换为特征图的视觉骨干板，2）改进Visual Backone的特征表示，以及3）直接预测的地标预测头部的变压器模块来自变压器的代表的地标坐标。给定裁剪和对齐的面部图像，所提出的LOTR可以训练结束到底，而无需任何后处理步骤。本文还介绍了光滑翼损失功能，它解决了机翼损耗的梯度不连续性，导致比L1，L2和机翼损耗等标准损耗功能更好地收敛。通过106点面部地标定位的第一个大挑战提供的JD地标数据集的实验结果表明了LOTR在排行榜上的现有方法和最近基于热爱的方法的优势。在WFLW DataSet上，所提出的Lotr框架与若干最先进的方法相比，展示了有希望的结果。此外，我们在使用我们提出的LOTRS面向对齐时，我们报告了最先进的面部识别性能的提高。

translated by 谷歌翻译

Robust and Precise Facial Landmark Detection by Self-Calibrated Pose Attention Network

Jun Wan , Hui Xi , Jie Zhou , Zhihui Lai , Witold Pedrycz , Xu Wang , Hang Sun

分类：计算机视觉

2021-12-23

目前全面监督的面部地标检测方法迅速进行，实现了显着性能。然而，当在大型姿势和重闭合的面孔和重闭合时仍然遭受痛苦，以进行不准确的面部形状约束，并且标记的训练样本不足。在本文中，我们提出了一个半监督框架，即自我校准的姿势注意网络（SCPAN），以实现更具挑战性的情景中的更强大和精确的面部地标检测。具体地，建议通过定影边界和地标强度场信息来模拟更有效的面部形状约束的边界意识的地标强度（BALI）字段。此外，设计了一种自我校准的姿势注意力（SCPA）模型，用于提供自学习的目标函数，该功能通过引入自校准机制和姿势注意掩模而无需标签信息而无需标签信息。我们认为，通过将巴厘岛领域和SCPA模型集成到新颖的自我校准的姿势网络中，可以了解更多的面部现有知识，并且我们的面孔方法的检测精度和稳健性得到了改善。获得具有挑战性的基准数据集获得的实验结果表明，我们的方法优于文献中最先进的方法。

translated by 谷歌翻译

Towards Accurate Facial Landmark Detection via Cascaded Transformers

Hui Li , Zidong Guo , Seon-Min Rhee , Seungju Han , Jae-Joon Han

分类：计算机视觉

2022-08-23

准确的面部标志是许多与人面孔有关的任务的重要先决条件。在本文中，根据级联变压器提出了精确的面部标志性检测器。我们将面部标志性检测作为坐标回归任务，以便可以端对端训练该模型。通过在变压器中的自我注意力，我们的模型可以固有地利用地标之间的结构化关系，这将受益于在挑战性条件（例如大姿势和遮挡）下具有里程碑意义的检测。在级联精炼期间，我们的模型能够根据可变形的注意机制提取目标地标周围的最相关图像特征，以进行坐标预测，从而带来更准确的对齐。此外，我们提出了一个新颖的解码器，可以同时完善图像特征和地标性位置。随着参数增加，检测性能进一步提高。我们的模型在几个标准的面部标准检测基准上实现了新的最新性能，并在跨数据库评估中显示出良好的概括能力。

translated by 谷歌翻译

ZoomNAS: Searching for Whole-body Human Pose Estimation in the Wild

Lumin Xu , Sheng Jin , Wentao Liu , Chen Qian , Wanli Ouyang , Ping Luo , Xiaogang Wang

分类：计算机视觉

2022-08-23

本文调查了2D全身人类姿势估计的任务，该任务旨在将整个人体（包括身体，脚，脸部和手）局部定位在整个人体上。我们提出了一种称为Zoomnet的单网络方法，以考虑到完整人体的层次结构，并解决不同身体部位的规模变化。我们进一步提出了一个称为Zoomnas的神经体系结构搜索框架，以促进全身姿势估计的准确性和效率。Zoomnas共同搜索模型体系结构和不同子模块之间的连接，并自动为搜索的子模块分配计算复杂性。为了训练和评估Zoomnas，我们介绍了第一个大型2D人类全身数据集，即可可叶全体V1.0，它注释了133个用于野外图像的关键点。广泛的实验证明了Zoomnas的有效性和可可叶v1.0的重要性。

translated by 谷歌翻译

Multi-Domain Multi-Definition Landmark Localization for Small Datasets

David Ferman , Gaurav Bharaj

分类：计算机视觉

2022-03-19

我们提出了一种用于多图像域和小型数据集面部定位的多个图像定义学习的新方法。培训小型数据集和大型（R）数据集并为前者提供了强大的学习，并为新标准数据集提供了面部地标本地化的通用机制。为此，我们提出了一个具有新颖的解码器的视觉变压器编码器，其定义不可知的具有里程碑意义的语义群体结构为先验，这是在我们同时在多个数据集上进行训练时所学的。由于我们新颖的定义不可知论群体，数据集可能在具有里程碑意义的定义和域上有所不同。在解码器阶段，我们使用交叉和自我注意力，其输出后来将其输入到域/定义特定的头部，从而最大程度地减少了laplacian-log类损失。当使用较大的数据集接受培训时，我们在标准地标本地化数据集（例如COFW和WFLW）上实现了最先进的性能。我们还在几个不同的图像域上显示了最先进的性能，用于动物，漫画和面部肖像画。此外，我们为Pareidolias的一个小数据集（150张图像）贡献了我们方法的功效。最后，我们提供了几项分析和消融研究，以证明我们的主张是合理的。

translated by 谷歌翻译

ADNet: Leveraging Error-Bias Towards Normal Direction in Face Alignment

Yangyu Huang , Hao Yang , Chong Li , Jongyoo Kim , Fangyun Wei

分类：计算机视觉

2021-09-13

The recent progress of CNN has dramatically improved face alignment performance. However, few works have paid attention to the error-bias with respect to error distribution of facial landmarks. In this paper, we investigate the error-bias issue in face alignment, where the distributions of landmark errors tend to spread along the tangent line to landmark curves. This error-bias is not trivial since it is closely connected to the ambiguous landmark labeling task. Inspired by this observation, we seek a way to leverage the error-bias property for better convergence of CNN model. To this end, we propose anisotropic direction loss (ADL) and anisotropic attention module (AAM) for coordinate and heatmap regression, respectively. ADL imposes strong binding force in normal direction for each landmark point on facial boundaries. On the other hand, AAM is an attention module which can get anisotropic attention mask focusing on the region of point and its local edge connected by adjacent points, it has a stronger response in tangent than in normal, which means relaxed constraints in the tangent. These two methods work in a complementary manner to learn both facial structures and texture details. Finally, we integrate them into an optimized end-to-end training pipeline named ADNet. Our ADNet achieves state-of-the-art results on 300W, WFLW and COFW datasets, which demonstrates the effectiveness and robustness.

translated by 谷歌翻译

Feature Aggregation and Refinement Network for 2D AnatomicalLandmark Detection

Yueyuan Ao , Hong Wu

分类：计算机视觉

2021-11-01

解剖标志的本地化对于临床诊断，治疗计划和研究至关重要。在本文中，我们提出了一种新的深网络，名为特征聚合和细化网络（Farnet），用于自动检测解剖标记。为了减轻医疗领域的培训数据有限的问题，我们的网络采用了在自然图像上预先培训的深网络，因为骨干网络和几个流行的网络进行了比较。我们的FARNET还包括多尺度特征聚合模块，用于多尺度特征融合和用于高分辨率热图回归的特征精制模块。粗细的监督应用于两个模块，以方便端到端培训。我们进一步提出了一种名为指数加权中心损耗的新型损失函数，用于准确的热爱回归，这侧重于地标附近的像素的损失并抑制了远处的损失。我们的网络已经在三个公开的解剖学地标检测数据集中进行了评估，包括头部测量射线照片，手射线照片和脊柱射线照相，并在所有三个数据集上实现最先进的性能。代码可用：\ url {https://github.com/juvenileinwind/farnet}

translated by 谷歌翻译

Face Shape-Guided Deep Feature Alignment for Face Recognition Robust to Face Misalignment

Hyung-Il Kim , Kimin Yun , Yong Man Ro

分类：计算机视觉

2022-09-15

在过去的几十年中，面部识别（FR）在计算机视觉和模式识别社会中进行了积极研究。最近，由于深度学习的进步，FR技术在大多数基准数据集中都显示出高性能。但是，当将FR算法应用于现实世界的情况时，该性能仍然不令人满意。这主要归因于训练和测试集之间的不匹配。在此类不匹配中，训练和测试面之间的面部不对对准是阻碍成功的FR的因素之一。为了解决这一限制，我们提出了一个脸型引导的深度特征对齐框架，以使fr稳健地对脸错位。基于面部形状的先验（例如，面部关键点），我们通过引入对齐方式和未对准的面部图像之间的对齐过程，即像素和特征对齐方式来训练所提出的深网。通过像从面部图像和面部形状提取的聚合特征解码的像素对齐过程，我们添加了辅助任务以重建良好的面部图像。由于汇总功能通过特征对齐过程链接到面部功能提取网络作为指南，因此我们将强大的面部功能训练到面部未对准。即使在训练阶段需要面部形状估计，通常在传统的FR管道中纳入的额外面部对齐过程在测试阶段不一定需要。通过比较实验，我们验证了提出的方法与FR数据集的面部未对准的有效性。

translated by 谷歌翻译

Facial Landmark Points Detection Using Knowledge Distillation-Based Neural Networks

Ali Pourramezan Fard , Mohammad H. Mahoor

分类：计算机视觉

2021-11-13

面部地标检测是许多面部图像分析应用的重要步骤。虽然基于深入的学习的方法在此任务中取得了良好的性能，但它们通常不适合在移动设备上运行。这些方法依赖于具有许多参数的网络，这使得训练和推动耗时。培训轻量级神经网络，如移动单元往往是具有挑战性的，并且模型可能具有低的准确性。通过知识蒸馏（KD）的启发，本文提出了一种新的损失函数，用于培养用于面部地标检测的轻量级学生网络（例如MobileNetv2）。我们与学生网络一起使用两个教师网络，宽容教师和艰难的老师。宽容老师使用主动形状模型创建的软标志培训，而艰难的老师使用地面真理（AKA硬质标）训练。为了利用教师网络预测的面部地标点，我们为每个教师网络定义辅助丢失（alloss）。此外，我们定义称为KD损失的损失函数，它利用两个预先训练的教师网络（AfficesTET-B3）预测的面部地标点来指导轻量级学生网络朝向预测硬质标志。我们对三个挑战性面部数据集的实验结果表明，拟议的架构将导致培训的学生网络，可以高精度提取面部地标点。

translated by 谷歌翻译

ACR Loss: Adaptive Coordinate-based Regression Loss for Face Alignment

Ali Pourramezan Fard , Mohammad H. Mahoor

分类：计算机视觉

2022-03-29

尽管深度神经网络在解决面部对齐方面取得了合理的准确性，但它仍然是一项艰巨的任务，特别是当我们处理面部图像，闭塞或极端头部姿势时。基于热图的回归（HBR）和基于坐标的回归（CBR）是面部比对的两种主要使用方法之一。 CBR方法需要更少的计算机内存，尽管它们的性能小于HBR方法。在本文中，我们提出了一种基于自适应坐标的回归（ACR）损失，以提高CBR对面对对准的准确性。受主动形状模型（ASM）的启发，我们生成平滑面对象，与地面真相标记点相比，一组面部标志点具有更少的变化。然后，我们引入了一种方法来估计通过比较地面真相标记点和相应的平滑面对象的分布来预测网络的每个地标点的难度水平。我们提出的ACR损失可以根据预测面部中每个地标点的难度水平来适应其曲率和损失的影响。因此，ACR损失指导网络朝着具有挑战性的点而不是更容易的点，这提高了面部对齐任务的准确性。我们的广泛评估表明，拟议的ACR损失在预测各种面部图像中的面部标志点方面的能力。

translated by 谷歌翻译

Reasoning Structural Relation for Occlusion-Robust Facial Landmark Localization

Congcong Zhu , Xiaoqiang Li , Jide Li , Songmin Dai , Weiqin Tong

分类：计算机视觉

2021-12-19

在面部地标定位任务中，各种遮挡由于面部特征的部分可观察性，各种闭塞性严重降低了定位精度。本文提出了一种用于遮挡强大的地标定位的结构关系网络（SRN）。与只需利用形状约束的大多数现有方法不同，所提出的SRN旨在捕捉不同面部部件之间的结构关系。这些关系可以被认为是对遮挡的更强大的形状约束。为实现这一点，分层结构关系模块（HSRM）被设计成分层原因，结构关系代表长距离空间依赖性的结构关系。与现有网络架构相比，HSRM可以通过利用其几何感知网络架构有效地模拟空间关系，这减少了由遮挡引起的语义模糊性。此外，SRN通过合成封闭面来增强训练数据。为了进一步扩展我们的SRN以进行遮挡视频数据，我们将闭塞面为Markov决策过程（MDP）制定。具体地，它计划基于与预训练的SRN的性能劣化相关的累积奖励来移动动态遮挡的移动。此程序增加了强大的面部地标跟踪的硬样品。广泛的实验结果表明，该方法在遮挡和遮蔽面上取得了出色的性能。代码在https://github.com/zhuccly/srn获得。

translated by 谷歌翻译

AlphaPose: Whole-Body Regional Multi-Person Pose Estimation and Tracking in Real-Time

Hao-Shu Fang , Jiefeng Li , Hongyang Tang , Chao Xu , Haoyi Zhu , Yuliang Xiu , Yong-Lu Li , Cewu Lu

分类：计算机视觉

2022-11-07

Accurate whole-body multi-person pose estimation and tracking is an important yet challenging topic in computer vision. To capture the subtle actions of humans for complex behavior analysis, whole-body pose estimation including the face, body, hand and foot is essential over conventional body-only pose estimation. In this paper, we present AlphaPose, a system that can perform accurate whole-body pose estimation and tracking jointly while running in realtime. To this end, we propose several new techniques: Symmetric Integral Keypoint Regression (SIKR) for fast and fine localization, Parametric Pose Non-Maximum-Suppression (P-NMS) for eliminating redundant human detections and Pose Aware Identity Embedding for jointly pose estimation and tracking. During training, we resort to Part-Guided Proposal Generator (PGPG) and multi-domain knowledge distillation to further improve the accuracy. Our method is able to localize whole-body keypoints accurately and tracks humans simultaneously given inaccurate bounding boxes and redundant detections. We show a significant improvement over current state-of-the-art methods in both speed and accuracy on COCO-wholebody, COCO, PoseTrack, and our proposed Halpe-FullBody pose estimation dataset. Our model, source codes and dataset are made publicly available at https://github.com/MVIG-SJTU/AlphaPose.

translated by 谷歌翻译

Label Encoding for Regression Networks

Deval Shah , Zi Yu Xue , Tor M. Aamodt

分类：机器学习 | 计算机视觉

2022-12-04

Deep neural networks are used for a wide range of regression problems. However, there exists a significant gap in accuracy between specialized approaches and generic direct regression in which a network is trained by minimizing the squared or absolute error of output labels. Prior work has shown that solving a regression problem with a set of binary classifiers can improve accuracy by utilizing well-studied binary classification algorithms. We introduce binary-encoded labels (BEL), which generalizes the application of binary classification to regression by providing a framework for considering arbitrary multi-bit values when encoding target values. We identify desirable properties of suitable encoding and decoding functions used for the conversion between real-valued and binary-encoded labels based on theoretical and empirical study. These properties highlight a tradeoff between classification error probability and error-correction capabilities of label encodings. BEL can be combined with off-the-shelf task-specific feature extractors and trained end-to-end. We propose a series of sample encoding, decoding, and training loss functions for BEL and demonstrate they result in lower error than direct regression and specialized approaches while being suitable for a diverse set of regression problems, network architectures, and evaluation metrics. BEL achieves state-of-the-art accuracies for several regression benchmarks. Code is available at https://github.com/ubc-aamodt-group/BEL_regression.

translated by 谷歌翻译

ACE-Net: Fine-Level Face Alignment through Anchors and Contours Estimation

Jihua Huang , Amir Tamrakar

分类：计算机视觉

2020-12-02

我们提出了一种新的面部锚和轮廓估计框架，ACE-Net，用于细级面向对准任务。 ACE-NET预测面部锚和轮廓比传统的面部地标更丰富，同时克服了他们的定义中的含糊不清和不一致。我们介绍了一个弱监督的损失，使ACE-Net能够从现有的面部地标数据集中学习，而无需进口。相反，在训练期间使用从该合成数据，从该合成数据可以容易地获得GT轮廓，以弥合地标和真正的面部轮廓之间的密度差距。我们对Helen DataSet的ACE-Net的面对对准精度进行了评估，其中具有194个注释的面部地标，而且它仅培训了来自300 W数据集的68或36个地标。我们表明ACE-Net生成的轮廓优于直接来自68 GT地标和ACE-NET的轮廓更优于从GT地标的轮廓的完全监督培训的型号。

translated by 谷歌翻译

Orientation Keypoints for 6D Human Pose Estimation

Martin Fisch , Ronald Clark

分类：计算机视觉

2020-09-10

大多数实时人类姿势估计方法都基于检测接头位置。使用检测到的关节位置，可以计算偏差和肢体的俯仰。然而，由于这种旋转轴仍然不观察，因此不能计算沿着肢体沿着肢体至关重要的曲折，这对于诸如体育分析和计算机动画至关重要。在本文中，我们引入了方向关键点，一种用于估计骨骼关节的全位置和旋转的新方法，仅使用单帧RGB图像。灵感来自Motion-Capture Systems如何使用一组点标记来估计全骨骼旋转，我们的方法使用虚拟标记来生成足够的信息，以便准确地推断使用简单的后处理。旋转预测改善了接头角度最佳报告的平均误差48％，并且在15个骨骼旋转中实现了93％的精度。该方法还通过MPJPE在原理数据集上测量，通过MPJPE测量，该方法还改善了当前的最新结果14％，并概括为野外数据集。

translated by 谷歌翻译

Probabilistic Regression with Huber Distributions

David Mohlin , Gerald Bianchi , Josephine Sullivan

分类：计算机视觉

2021-11-19

在本文中，我们描述了一种概率方法，用于使用神经网络估计物体的位置以及其协方差矩阵。我们的方法被设计为强大对异常值，在其他期望的属性中具有相对于网络输出的有界梯度。为了实现这一目标，我们介绍了由Huber损失启发的新概率分布。我们还介绍了一种新的方式来参数化正定矩阵，以确保不对我们回归的坐标系的方向选择。我们评估我们对流行的身体姿势和面部地标数据集的方法，并在PAR或超出非热映射方法的性能上获得性能。我们的代码可在github.com/davmo049/public_prob_regression_with_huber_distributions提供

translated by 谷歌翻译

Point detection through multi-instance deep heatmap regression for sutures in endoscopy

Lalith Sharan , Gabriele Romano , Julian Brand , Halvar Kelm , Matthias Karck , Raffaele De Simone , Sandy Engelhardt

分类：计算机视觉 | 人工智能

2021-11-16

目的：二尖瓣修复是心脏瓣膜的复杂微创手术。在这种情况下，来自内窥镜图像的缝合线检测是一种高度相关的任务，该任务提供了分析缝合模式的定量信息，评估假肢配置并产生增强的现实可视化。面部或解剖标志性的检测任务通常包含固定数量的地标，并使用回归或固定的基于热线图的方法来定位标志性。然而，在内窥镜检查中，每个图像中存在不同数量的缝合线，并且缝合线可能发生在环形空中的任何位置，因为它们不是语义唯一的。方法：在这项工作中，我们将缝合检测任务制定为多实例的深热映射回归问题，以识别缝合线的进入和退出点。我们扩展了我们以前的工作，并介绍了一个新颖的使用2D高斯层，然后是可分辨率的2D空间软氩模层作为局部非最大抑制。结果：我们用多种热映射分布功能和所提出的模型的两个变体呈现广泛的实验。在术中帧内结构域中，变体1在基线上显示了+0.0422的平均f1。类似地，在模拟器域中，变体1在基线上显示了+0.0865的平均f1。结论：拟议的模型显示出在帧内和模拟器域中的基线上的改进。在Miccai Adaptor2021挑战HTTPS://Adaptor2021.github.io/的范围内公开可用，以及https://github.com/cardio-ai/suture-detection-pytorch/的代码。 DOI：10.1007 / S11548-021-02523-W。可以在此处找到与开放式接入文章的链接：https://link.springer.com/article/10.1007%2FS11548-021-02523

translated by 谷歌翻译

MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image

Xingyu Chen , Yufeng Liu , Yajiao Dong , Xiong Zhang , Chongyang Ma , Yanmin Xiong , Yuan Zhang , Xiaoyan Guo

分类：计算机视觉

2021-12-06

在这项工作中，我们提出了一个单视手网格重建框架，可以同时实现高重建精度，快速推断速度和时间相干性。具体而言，对于2D编码，我们提出了轻量级但有效的堆叠结构。关于3D解码，我们提供有效的图形操作员，即深度可分离的螺旋卷积。此外，我们提出了一种用于桥接2D和3D表示之间的间隙的新颖特征提升模块。该模块以基于地图的位置回归（MapReg）块开头，以集成HeatMap编码和位置回归范例的优点，以提高2D精度和时间相干性。此外，MapReg之后是姿势池和姿势到顶点提升方法，它将2D姿势编码转换为3D顶点的语义特征。总体而言，我们的手部重建框架称为MobRecon，包括经济实惠的计算成本和微型模型大小，在Apple A14 CPU上达到83FP的高推理速度。广泛的对流行数据集如弗里安，RHD和HO3DV2的实验表明，我们的Mobrecon在重建准确性和时间一致性方面取得了卓越的性能。我们的代码在https://github.com/seanchenxy/handmesh公开提供。

translated by 谷歌翻译

Stacked Hourglass Networks for Human Pose Estimation

Alejandro Newell , Kaiyu Yang , Jia Deng

分类：

2016-03-22

This work introduces a novel convolutional network architecture for the task of human pose estimation. Features are processed across all scales and consolidated to best capture the various spatial relationships associated with the body. We show how repeated bottom-up, top-down processing used in conjunction with intermediate supervision is critical to improving the performance of the network. We refer to the architecture as a "stacked hourglass" network based on the successive steps of pooling and upsampling that are done to produce a final set of predictions. State-of-the-art results are achieved on the FLIC and MPII benchmarks outcompeting all recent methods.

translated by 谷歌翻译