Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
Graph neural networks (GNNs) have demonstrated excellent performance in a wide range of applications. However, the enormous size of large-scale graphs hinders their applications under real-time inference scenarios. Although existing scalable GNNs leverage linear propagation to preprocess the features and accelerate the training and inference procedure, these methods still suffer from scalability issues when making inferences on unseen nodes, as the feature preprocessing requires the graph is known and fixed. To speed up the inference in the inductive setting, we propose a novel adaptive propagation order approach that generates the personalized propagation order for each node based on its topological information. This could successfully avoid the redundant computation of feature propagation. Moreover, the trade-off between accuracy and inference latency can be flexibly controlled by simple hyper-parameters to match different latency constraints of application scenarios. To compensate for the potential inference accuracy loss, we further propose Inception Distillation to exploit the multi scale reception information and improve the inference performance. Extensive experiments are conducted on four public datasets with different scales and characteristics, and the experimental results show that our proposed inference acceleration framework outperforms the SOTA graph inference acceleration baselines in terms of both accuracy and efficiency. In particular, the advantage of our proposed method is more significant on larger-scale datasets, and our framework achieves $75\times$ inference speedup on the largest Ogbn-products dataset.
translated by 谷歌翻译
许多数据分析任务在很大程度上依赖对表的深入了解(多维数据)。在整个任务中,都存在表字段 /列的共同使用的元数据属性。在本文中,我们确定了四个这样的分析元数据:测量/维度二分法,公共场作用,语义场类型和默认聚集函数。尽管这些元数据面临不足的监督信号的挑战,利用现有的知识和理解分布。为了将这些元数据推理为原始表,我们提出了多任务元数据模型,该模型将现场分布和知识图信息融合到预训练的表格模型中。对于模型培训和评估,我们通过使用下游任务的各种智能监督来收集分析元数据的大型语料库(来自私人电子表格和公共表格数据集的〜582K表)。我们的最佳模型的精度= 98%,命中率在TOP-1> 67%,精度> 80%和四个分析元数据推理任务的精度= 88%。它的表现优于基于规则,传统机器学习方法和预训练的表格模型的一系列基线。分析元数据模型被部署在流行的数据分析产品中,帮助下游智能功能,例如Insights挖掘,图表 /枢轴表建议和自然语言QA ...
translated by 谷歌翻译
多标签图像分类旨在预测图像中的所有可能标签。考虑到在每个培训图像中注释所有标签可能是昂贵的,通常将其作为部分标签的学习问题。关于部分标签学习的现有作品集中在每个训练图像只有其标签的子集注释的情况下。一种特殊情况是在每个训练图像中仅注释一个正标签。为了进一步减轻注释负担并增强了分类器的性能,本文提出了一个新的部分标签设置,其中仅标记了训练图像的一个子集,每个图像只有一个正面标签,而其余的培训图像仍保留未标记。为了处理这个新设置,我们建议一个端到端的深层网络PLMCL(部分标签动量课程学习),可以学会为部分标记和未标记的培训图像生成自信的伪标签。基于动量的新法律通过考虑更新伪标签的速度,更新每个训练图像上的软伪标签,这些标签的更新有助于避免捕获到低信心的本地最低限度,尤其是在培训的早期阶段,由于缺乏观察到的标签和培训的早期阶段对伪标签的信心。此外,我们还提出了一个信心的调度程序,以适应性地对不同标签进行易于锻炼的学习。广泛的实验表明,我们提出的PLMCL在三个不同数据集上的各个部分标签设置下优于许多最先进的多标签分类方法。
translated by 谷歌翻译
近年来,移动机器人变得雄心勃勃,并在大规模场景中部署。作为对环境的高级理解,稀疏的骨骼图对更有效的全球计划有益。当前,现有的骨骼图生成解决方案受到了几个主要局限性,包括对不同地图表示的适应性不佳,对机器人检查轨迹的依赖和高计算开销。在本文中,我们提出了一种有效且柔性的算法,该算法生成轨迹独立的3D稀疏拓扑骨架图,捕获了自由空间的空间结构。在我们的方法中,采用了有效的射线采样和验证机制来找到独特的自由空间区域,这有助于骨架图顶点,并且在相邻的顶点作为边缘之间具有遍历性。周期形成方案还用于维持骨架图紧凑度。基准测试与最先进的作品的比较表明,我们的方法在较短的时间内生成稀疏的图形,从而提供了高质量的全球计划路径。在现实世界中进行的实验进一步验证了我们在现实情况下我们方法的能力。我们的方法将成为开源以使社区受益的开源。
translated by 谷歌翻译
自动面部识别是一个知名的研究领域。在该领域的最后三十年的深入研究中,已经提出了许多不同的面部识别算法。随着深度学习的普及及其解决各种不同问题的能力,面部识别研究人员集中精力在此范式下创建更好的模型。从2015年开始,最先进的面部识别就植根于深度学习模型。尽管有大规模和多样化的数据集可用于评估面部识别算法的性能,但许多现代数据集仅结合了影响面部识别的不同因素,例如面部姿势,遮挡,照明,面部表情和图像质量。当算法在这些数据集上产生错误时,尚不清楚哪些因素导致了此错误,因此,没有指导需要多个方向进行更多的研究。这项工作是我们以前在2014年开发的作品的后续作品,最终于2016年发表,显示了各种面部方面对面部识别算法的影响。通过将当前的最新技术与过去的最佳系统进行比较,我们证明了在强烈的遮挡下,某些类型的照明和强烈表达的面孔是深入学习算法所掌握的问题,而具有低分辨率图像的识别,极端的姿势变化和开放式识别仍然是一个开放的问题。为了证明这一点,我们使用六个不同的数据集和五种不同的面部识别算法以开源和可重现的方式运行一系列实验。我们提供了运行所有实验的源代码,这很容易扩展,因此在我们的评估中利用自己的深网只有几分钟的路程。
translated by 谷歌翻译
表的智能分析和可视化表使用技术自动从数据中推荐有用的知识,从而使用户免于乏味的多维数据挖掘。尽管许多研究成功地通过规则或机器学习来自动化建议,但很难概括专家知识并提供可解释的建议。在本文中,我们首次提出条件格式的建议,以及图表建议,以示例智能表分析。我们建议对表上的分析语义,以发现用户创建的分析背后的共同分析模式。在这里,我们通过将数据重点与用户意图分开,从而分别从数据和人类的角度提取了用户的动机来设计分析语义。此外,我们设计的ASTA框架是为了将分析语义应用于多个自动化建议。 ASTA框架通过根据专家知识设计签名来提取数据功能,并在现场(图)或细胞级(条件格式)(条件格式化)中启用数据引用。实验表明,我们的框架在公共图表中的62.86%中的前1位获得了召回率,在公共图表中,最佳基准优于14%的最佳基准,并在收集的语料库中获得了72.31%的召回,证明ASTA框架有效地提供了准确且可解释的建议。
translated by 谷歌翻译
当前,借助监督学习方法,基于深度学习的视觉检查已取得了非常成功的成功。但是,在实际的工业场景中,缺陷样本的稀缺性,注释的成本以及缺乏缺陷的先验知识可能会使基于监督的方法无效。近年来,无监督的异常定位算法已在工业检查任务中广泛使用。本文旨在通过深入学习在工业图像中无视无视的异常定位中的最新成就来帮助该领域的研究人员。该调查回顾了120多个重要出版物,其中涵盖了异常定位的各个方面,主要涵盖了所审查方法的各种概念,挑战,分类法,基准数据集和定量性能比较。在审查迄今为止的成就时,本文提供了一些未来研究方向的详细预测和分析。这篇综述为对工业异常本地化感兴趣的研究人员提供了详细的技术信息,并希望将其应用于其他领域的异常本质。
translated by 谷歌翻译
深度监督或称为“中间监督”或“辅助监督”是在神经网络的隐藏层上增加监督。最近,该技术越来越多地应用于深层神经网络学习系统中,以用于各种计算机视觉应用。人们达成共识,即深层监督有助于通过减轻梯度消失的问题来改善神经网络的性能,这是深层监督的众多优势之一。此外,在不同的计算机视觉应用程序中,可以以不同的方式应用深度监督。如何最大程度地利用深度监督来改善不同应用程序中的网络性能。在本文中,我们对理论和应用程序中的深入监督进行了全面的深入审查。我们建议对不同深度监督网络进行新的分类,并讨论计算机视觉应用程序中当前深层监督网络的优势和局限性。
translated by 谷歌翻译
非凸松弛方法已被广泛用于张量恢复问题,并且与凸松弛方法相比,可以实现更好的恢复结果。在本文中,提出了一种新的非凸函数,最小值对数凹点(MLCP)函数,并分析了其某些固有属性,其中有趣的是发现对数函数是MLCP的上限功能。所提出的功能概括为张量病例,得出张量MLCP和加权张量$ l \ gamma $ -norm。考虑到将其直接应用于张量恢复问题时无法获得其明确解决方案。因此,给出了解决此类问题的相应等效定理,即张量等效的MLCP定理和等效加权张量$ l \ gamma $ -norm定理。此外,我们提出了两个基于EMLCP的经典张量恢复问题的模型,即低秩量张量完成(LRTC)和张量稳健的主组件分析(TRPCA)以及设计近端替代线性化最小化(棕榈)算法以单独解决它们。此外,基于Kurdyka - {\ l} ojasiwicz属性,证明所提出算法的溶液序列具有有限的长度并在全球范围内收敛到临界点。最后,广泛的实验表明,提出的算法取得了良好的结果,并证实MLCP函数确实比最小化问题中的对数函数更好,这与理论特性的分析一致。
translated by 谷歌翻译