随着对手工卫生的需求不断增长和使用的便利性,掌上识别最近具有淡淡的发展,为人识别提供了有效的解决方案。尽管已经致力于该地区的许多努力,但仍然不确定无接触棕榈污染的辨别能力,特别是对于大规模数据集。为了解决问题,在本文中,我们构建了一个大型无尺寸的棕榈纹数据集,其中包含了来自1167人的2334个棕榈手机。为了我们的最佳知识,它是有史以来最大的非接触式手掌形象基准,而是关于个人和棕榈树的数量收集。此外,我们提出了一个名为3DCPN(3D卷积棕榈识别网络)的无棕榈识别的新型深度学习框架,它利用3D卷积来动态地集成多个Gabor功能。在3DCPN中,嵌入到第一层中的新颖变体以增强曲线特征提取。通过精心设计的集合方案,然后将低级别的3D功能卷积以提取高级功能。最后在顶部,我们设置了基于地区的损失功能,以加强全局和本地描述符的辨别能力。为了展示我们方法的优越性,在我们的数据集和其他流行数据库同济和IITD上进行了广泛的实验,其中结果显示了所提出的3DCPN实现最先进的或可比性的性能。
translated by 谷歌翻译
双峰掌纹识别同时利用掌纹和棕榈静脉图像,通过多模型信息融合来实现高精度,并具有强烈​​的防伪性能。在识别管道中,掌心的检测和感兴趣区域(ROI)的对准是用于准确匹配的两个关键步骤。大多数现有方法通过关键点检测算法本地化Palm RoI,但是关键点检测任务的内在困难使结果不令人满意。此外,图像级的ROI对齐和融合算法没有完全调查。桥梁桥梁,在本文中,我们提出了专注于ROI本地化,对齐和双峰图像Fusion.bpfnet的双峰掌纹融合网络(BPFNET).bpfnet是一个包含两个子网的端到端框架:检测网络基于边界框预测直接回归PalmPrint ROIS,并通过翻译估计进行对准。在下游,双模融合网络实现双峰ROI图像融合利用新颖的提出的跨模型选择方案。为了显示BPFNET的有效性,我们对大规模无尺寸的掌纹数据集CUHKSZ-V1和同济进行实验,并且该方法实现了最先进的表演。
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
大多数手指静脉特征提取算法由于其质地表示能力而达到满意的性能,尽管同时忽略了手指组织形成的强度分布,以及在某些情况下,将其加工为背景噪声。在本文中,我们利用这种噪音作为一种新型软生物识别性状,以实现更好的手指静脉识别性能。首先,提出了对手指静脉成像原理的详细分析和图像的特性,以表明由背景中的手指组织形成的强度分布可以作为柔软的生物分析来识别。然后,提出了两个指静脉背景层提取算法和三个软生物识别性提取算法,用于强度分布特征提取。最后,提出了一种混合匹配策略来解决初级和软生物识别性质之间的尺寸差异在得分水平上。三个开放式数据库的一系列严格对比实验表明,我们所提出的方法是手指静脉识别的可行和有效。
translated by 谷歌翻译
由于单峰生物识别系统的不稳定性和局限性,多模式系统吸引了研究人员的关注。但是,如何利用不同方式之间的独立和互补信息仍然是一个关键和具有挑战性的问题。在本文中,我们提出了一种基于指纹和手指静脉的多模式融合识别算法(指纹手指静脉 - 通道 - 通道空间注意融合模块,FPV-CSAFM)。具体而言,对于每对指纹和手指静脉图像,我们首先提出一个简单有效的卷积神经网络(CNN)来提取特征。然后,我们构建一个多模式融合模块(通道空间注意融合模块,CSAFM),以完全融合指纹和指纹之间的互补信息。与现有的融合策略不同,我们的融合方法可以根据渠道和空间维度不同模态的重要性动态调整融合权重,以便更好地将信息之间的信息更好地结合在一起,并提高整体识别性能。为了评估我们方法的性能,我们在多个公共数据集上进行了一系列实验。实验结果表明,所提出的FPV-CSAFM基于指纹和手指静脉在三个多模式数据集上实现了出色的识别性能。
translated by 谷歌翻译
在过去的几十年中,面部识别(FR)在计算机视觉和模式识别社会中进行了积极研究。最近,由于深度学习的进步,FR技术在大多数基准数据集中都显示出高性能。但是,当将FR算法应用于现实世界的情况时,该性能仍然不令人满意。这主要归因于训练和测试集之间的不匹配。在此类不匹配中,训练和测试面之间的面部不对对准是阻碍成功的FR的因素之一。为了解决这一限制,我们提出了一个脸型引导的深度特征对齐框架,以使fr稳健地对脸错位。基于面部形状的先验(例如,面部关键点),我们通过引入对齐方式和未对准的面部图像之间的对齐过程,即像素和特征对齐方式来训练所提出的深网。通过像从面部图像和面部形状提取的聚合特征解码的像素对齐过程,我们添加了辅助任务以重建良好的面部图像。由于汇总功能通过特征对齐过程链接到面部功能提取网络作为指南,因此我们将强大的面部功能训练到面部未对准。即使在训练阶段需要面部形状估计,通常在传统的FR管道中纳入的额外面部对齐过程在测试阶段不一定需要。通过比较实验,我们验证了提出的方法与FR数据集的面部未对准的有效性。
translated by 谷歌翻译
横梁面部识别(CFR)旨在识别个体,其中比较面部图像源自不同的感测模式,例如红外与可见的。虽然CFR由于与模态差距相关的面部外观的显着变化,但CFR具有比经典的面部识别更具挑战性,但它在具有有限或挑战的照明的场景中,以及在呈现攻击的情况下,它是优越的。与卷积神经网络(CNNS)相关的人工智能最近的进展使CFR的显着性能提高了。由此激励,这项调查的贡献是三倍。我们提供CFR的概述,目标是通过首先正式化CFR然后呈现具体相关的应用来比较不同光谱中捕获的面部图像。其次,我们探索合适的谱带进行识别和讨论最近的CFR方法,重点放在神经网络上。特别是,我们提出了提取和比较异构特征以及数据集的重新访问技术。我们枚举不同光谱和相关算法的优势和局限性。最后,我们讨论了研究挑战和未来的研究线。
translated by 谷歌翻译
已经广泛地研究了使用虹膜和围眼区域作为生物特征,主要是由于虹膜特征的奇异性以及当图像分辨率不足以提取虹膜信息时的奇异区域的使用。除了提供有关个人身份的信息外,还可以探索从这些特征提取的功能,以获得其他信息,例如个人的性别,药物使用的影响,隐形眼镜的使用,欺骗等。这项工作提出了对为眼部识别创建的数据库的调查,详细说明其协议以及如何获取其图像。我们还描述并讨论了最受欢迎的眼镜识别比赛(比赛),突出了所提交的算法,只使用Iris特征和融合虹膜和周边地区信息实现了最佳结果。最后,我们描述了一些相关工程,将深度学习技术应用于眼镜识别,并指出了新的挑战和未来方向。考虑到有大量的眼部数据库,并且每个人通常都设计用于特定问题,我们认为这项调查可以广泛概述眼部生物识别学中的挑战。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
我们提出了一种质量感知的多模式识别框架,其将来自多个生物特征的表示与不同的质量和样本数量相结合,以通过基于样本的质量提取互补识别信息来实现增加的识别准确性。我们通过使用以弱监督时尚估计的质量分数加权,为融合输入方式的质量意识框架,以融合输入方式的融合。此框架利用两个融合块,每个融合块由一组质量感知和聚合网络表示。除了架构修改外,我们还提出了两种特定于任务特定的损耗功能:多模式可分离性损失和多模式紧凑性损失。第一个损失确保了类的模态的表示具有可比的大小来提供更好的质量估计,而不同类别的多式数代表分布以实现嵌入空间中的最大判别。第二次丢失,被认为是正规化网络权重,通过规范框架来提高泛化性能。我们通过考虑由面部,虹膜和指纹方式组成的三个多模式数据集来评估性能。通过与最先进的算法进行比较来证明框架的功效。特别是,我们的框架优于BioMdata的模式的级别和得分级别融合超过30%以获得$ 10 ^ { - 4} $ 10 ^ { - 4} $的真正验收率。
translated by 谷歌翻译
视觉地点识别(VPR)是一个具有挑战性的任务,具有巨大的计算成本与高识别性能之间的不平衡。由于轻质卷积神经网络(CNNS)和局部聚合描述符(VLAD)层向量的火车能力的实用特征提取能力,我们提出了一种由前部组成的轻量级弱监管的端到端神经网络-anded的感知模型称为ghostcnn和学习的VLAD层作为后端。 Ghostcnn基于幽灵模块,这些模块是基于重量的CNN架构。它们可以使用线性操作而不是传统的卷积过程生成冗余特征映射,从而在计算资源和识别准确性之间进行良好的权衡。为了进一步增强我们提出的轻量级模型,我们将扩张的卷曲添加到Ghost模块中,以获取包含更多空间语义信息的功能,提高准确性。最后,在常用的公共基准和我们的私人数据集上进行的丰富实验验证了所提出的神经网络,分别将VGG16-NetVlad的拖鞋和参数减少了99.04%和80.16%。此外,两种模型都达到了类似的准确性。
translated by 谷歌翻译
近年来,已经产生了大量的视觉内容,并从许多领域共享,例如社交媒体平台,医学成像和机器人。这种丰富的内容创建和共享引入了新的挑战,特别是在寻找类似内容内容的图像检索(CBIR)-A的数据库中,即长期建立的研究区域,其中需要改进的效率和准确性来实时检索。人工智能在CBIR中取得了进展,并大大促进了实例搜索过程。在本调查中,我们审查了最近基于深度学习算法和技术开发的实例检索工作,通过深网络架构类型,深度功能,功能嵌入方法以及网络微调策略组织了调查。我们的调查考虑了各种各样的最新方法,在那里,我们识别里程碑工作,揭示各种方法之间的联系,并呈现常用的基准,评估结果,共同挑战,并提出未来的未来方向。
translated by 谷歌翻译
潜在的指纹对于识别犯罪嫌疑人很重要。但是,认识到参考指纹集中的潜在指纹仍然是一个挑战。现有方法的大多数(如果不是全部)将独立提取每个指纹的表示特征,然后比较这些表示特征在不同过程中识别的相似性。如果没有对特征提取过程的相似性的监督,则很难在最佳地反映两种指纹的相似性,这是匹配决策的基础。在本文中,我们提出了一种新方案,可以将两个指纹的配对关系建模为识别的相似性功能。配对关系是由混合深网建模的,该网络可以处理随机大小的困难和潜在指纹的损坏区域。两个数据库的实验结果表明,所提出的方法的表现优于最新技术。
translated by 谷歌翻译
在这项工作中,我们设计了一个完全复杂的神经网络,用于虹膜识别的任务。与一般物体识别的问题不同,在实际值的神经网络可以用于提取相关特征的情况下,虹膜识别取决于从输入的虹膜纹理提取两个相位和幅度信息,以便更好地表示其生物识别内容。这需要提取和处理不能由实值神经网络有效处理的相位信息。在这方面,我们设计了一个完全复杂的神经网络,可以更好地捕获虹膜纹理的多尺度,多分辨率和多向阶段和多向阶段和幅度特征。我们展示了具有用于生成经典iRIscode的Gabor小波的提出的复合值虹膜识别网络的强烈对应关系;然而,所提出的方法使得能够为IRIS识别量身定​​制的自动复数特征学习的新能力。我们对三个基准数据集进行实验 - Nd-Crosssensor-2013,Casia-Iris-千和Ubiris.v2 - 并显示了拟议网络的虹膜识别任务的好处。我们利用可视化方案来传达复合网络的方式,与标准的实际网络相比,从虹膜纹理提取根本不同的特征。
translated by 谷歌翻译
Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.
translated by 谷歌翻译
人类生理学中的各种结构遵循特异性形态,通常在非常细的尺度上表达复杂性。这种结构的例子是胸前气道,视网膜血管和肝血管。可以观察到可以观察到可以观察到可以观察到可以观察到空间排列的磁共振成像(MRI),计算机断层扫描(CT),光学相干断层扫描(OCT)等医学成像模式(MRI),计算机断层扫描(CT),可以观察到空间排列的大量2D和3D图像的集合。这些结构在医学成像中的分割非常重要,因为对结构的分析提供了对疾病诊断,治疗计划和预后的见解。放射科医生手动标记广泛的数据通常是耗时且容易出错的。结果,在过去的二十年中,自动化或半自动化的计算模型已成为医学成像的流行研究领域,迄今为止,许多计算模型已经开发出来。在这项调查中,我们旨在对当前公开可用的数据集,细分算法和评估指标进行全面审查。此外,讨论了当前的挑战和未来的研究方向。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
由于其实际意义,跨情态人重新识别的问题已得到越来越多的关注。由于人类通常会在比较两个类似的物体时参加差异的事实,我们提出了一种双径跨模型特征学习框架,其保留了内在空间缩小,并参加了输入跨模型图像对的差异。我们的框架由两个主要组件组成:双路径空间结构保留公共空间网络(DSCSN)和对比相关网络(CCN)。前者将跨型号图像嵌入到共同的3D张量空间而不失去空间结构,而后者通过动态比较输入图像对提取对比特征。注意,为输入RGB和红外图像生成的表示彼此相互依赖。我们对两个公共可用RGB-IR REID数据集,SYSU-MM01和REGDB进行了广泛的实验,我们提出的方法优于完整和简化的评估模式的大边距优于最先进的算法。
translated by 谷歌翻译