指纹特征提取是使用全局或局部表示的求解的任务。最先进的全球方法使用大量深度学习模型一次处理完整的指纹图像,从而使相应的方法记忆密集型。另一方面,本地方法涉及基于细节的补丁提取,多个特征提取步骤和昂贵的匹配阶段,从而使相应的接近时间密集型。但是,这两种方法都为解决问题提供了有用的,有时甚至是独家见解。使用两种方法一起提取指纹表示,在语义上是有用的,但效率很低。我们采用内置小型萃取器的基于卷积变压器的方法为提取指纹的全局和局部表示提供了时间和记忆有效的解决方案。这些表示形式的使用以及智能匹配过程为我们提供了多个数据库的最先进性能。项目页面可以在https://saraansh199999.github.io/global-plus-plus-local-fp-transformer上找到。
translated by 谷歌翻译
匹配的非接触式指纹或手指照片到基于接触的指纹印象在Covid-19尾之后,由于非接触式采集的优越性卫生以及能够以足够的分辨率捕获指纹照片的低成本移动电话的广泛可用性用于验证目的。本文介绍了一个名为C2CL的端到端自动化系统,包括移动手指照片捕获应用,预处理和匹配算法,以处理抑制先前交叉匹配方法的挑战;即i)低脊谷非接触式指纹对比,II)不同卷,俯仰,偏航和手指的距离,III的距离,III)非线性扭曲的基于接触的指纹,和VI)智能手机的不同图像质量。相机。我们的预处理算法段,增强,尺度和不可接受的非接触式指纹,而我们的匹配算法提取细节和纹理表示。使用我们的移动捕获App获取的206个受理接触式2D指纹和基于相应的基于接触的指纹的DataSet和来自206个受试者(每个受试者的2拇指和2个索引手指的指纹)用于评估我们所提出的算法的跨数据库性能。此外,在3个公共数据集上的额外实验结果表明,最先进的与非接触式指纹匹配(焦油为96.67%至98.30%,= 0.01%的焦油)显着提高。
translated by 谷歌翻译
The use of vision transformers (ViT) in computer vision is increasing due to limited inductive biases (e.g., locality, weight sharing, etc.) and increased scalability compared to other deep learning methods. This has led to some initial studies on the use of ViT for biometric recognition, including fingerprint recognition. In this work, we improve on these initial studies for transformers in fingerprint recognition by i.) evaluating additional attention-based architectures, ii.) scaling to larger and more diverse training and evaluation datasets, and iii.) combining the complimentary representations of attention-based and CNN-based embeddings for improved state-of-the-art (SOTA) fingerprint recognition (both authentication and identification). Our combined architecture, AFR-Net (Attention-Driven Fingerprint Recognition Network), outperforms several baseline transformer and CNN-based models, including a SOTA commercial fingerprint system, Verifinger v12.3, across intra-sensor, cross-sensor, and latent to rolled fingerprint matching datasets. Additionally, we propose a realignment strategy using local embeddings extracted from intermediate feature maps within the networks to refine the global embeddings in low certainty situations, which boosts the overall recognition accuracy significantly across each of the models. This realignment strategy requires no additional training and can be applied as a wrapper to any existing deep learning network (including attention-based, CNN-based, or both) to boost its performance.
translated by 谷歌翻译
深度神经网络(DNN)在学习指纹的固定长度表示方面表现出了不可思议的希望。由于表示学习通常集中在捕获特定的先验知识(例如细节)上,因此没有普遍的表示可以全面地封装在指纹中的所有歧视性信息。在学习一系列表示的过程中可以缓解这个问题,但需要解决两个关键的挑战:(i)如何从相同的指纹图像中提取多种不同的表示? (ii)如何在匹配过程中最佳利用这些表示形式?在这项工作中,我们在输入图像的不同转换上训练多个Deepprint(一种基于DNN的指纹编码器)的多个实例,以生成指纹嵌入的集合。我们还提出了一种功能融合技术,该技术将这些多个表示形式提炼成单个嵌入,该技术忠实地捕获了合奏中存在的多样性而不会增加计算复杂性。已在五个数据库中进行了全面评估所提出的方法,这些数据库包含滚动,普通和潜在的指纹(NIST SD4,NIST SD14,NIST SD14,NIST SD27,NIST SD302和FVC2004 DB2A)和统计上的显着改进,在验证范围内已始终如一地证明以及封闭式和开放设定的标识设置。提出的方法是能够提高任何基于DNN识别系统的准确性的包装器。
translated by 谷歌翻译
由于攻击材料的多样性,指纹识别系统(AFRSS)容易受到恶意攻击的影响。为AFRSS的安全性和可靠性提出有效的指纹介绍攻击检测(PAD)方法是非常重要的。然而,当前焊盘方法通常在新攻击材料或传感器设置下具有差的鲁棒性。因此,本文通过考虑处理先前作品中忽略的冗余“噪声”信息,提出了一种新的通道 - 方向特征去噪焊盘(CFD-PAD)方法。所提出的方法通过加权每个信道的重要性并找到这些鉴别性信道和“噪声”通道来学习指纹图像的重要特征。然后,在特征图中抑制了“噪声”通道的传播以减少干扰。具体地,设计了PA-Adaption损耗来限制特征分布,以使实时指纹的特征分布更具聚合和欺骗指纹更多的分散。我们在Livdet 2017上评估的实验结果表明,当假检出率等于1.0%(TDR @FDR = 1%)时,我们所提出的CFD-PAD可以达到2.53%的ace和93.83%的真实检测率,并且优于基于最佳的单一模型在ACE(2.53%与4.56%)和TDR @FDR方面的方法明显显着(93.83%,93.83%\%),这证明了该方法的有效性。虽然我们已经实现了与最先进的基于多模型的方法相比的可比结果,但是通过我们的方法仍然可以实现TDR @ FDR增加到91.19%的1%至93.83%。此外,与基于多模型的多模型的方法相比,我们的模型更简单,更轻,更高效,更高效地实现了74.76%的耗时减少。代码将公开。
translated by 谷歌翻译
在指纹识别领域工作的研究人员的主要障碍是缺乏公开的,大规模的指纹数据集。确实存在的公开数据集包含每个手指的少数身份和印象。这限制了关于许多主题的研究,包括例如,使用深网络来学习固定长度指纹嵌入。因此,我们提出了Printsgan,一种能够产生独特指纹的合成指纹发生器以及给定指纹的多个印象。使用Printsgan,我们合成525,000个指纹的数据库(35,000个不同的手指,每次有15个印象)。接下来,我们通过训练深网络来提取来自指纹的固定长度嵌入的固定长度来显示Printsgan生成的数据集的实用程序。特别是,对我们的合成指纹培训并进行微调的嵌入式模型和在NIST SD302的25,000个印刷品上进行微调)在NIST SD4数据库上获得87.03%的焦点为87.03%(一个升压)当仅在NIST SD302上培训时,来自Tar = 73.37%)。普遍的合成指纹产生方法不会使I)缺乏现实主义或ii)无法产生多个印象。我们计划向公众释放我们的合成指纹数据库。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
我们通过无监督学习的角度探索语义对应估计。我们使用标准化的评估协议彻底评估了最近提出的几种跨多个挑战数据集的无监督方法,在该协议中,我们会改变诸如骨干架构,预训练策略以及预训练和填充数据集等因素。为了更好地了解这些方法的故障模式,并为了提供更清晰的改进途径,我们提供了一个新的诊断框架以及一个新的性能指标,该指标更适合于语义匹配任务。最后,我们引入了一种新的无监督的对应方法,该方法利用了预训练的功能的强度,同时鼓励在训练过程中进行更好的比赛。与当前的最新方法相比,这会导致匹配性能明显更好。
translated by 谷歌翻译
变压器最近在计算机视觉中获得了越来越高的关注。然而,现有研究大多用于特征表示学习的变压器,例如,用于图像分类和密集预测,变压器的普遍性是未知的。在这项工作中,我们进一步调查了对图像匹配和度量学习的应用变压器的可能性。我们发现视觉变压器(VIT)和带解码器的Vanilla变压器由于它们缺乏图像与图像而受到图像匹配。因此,我们进一步设计了两种天真的解决方案,即vit的查询画廊串联,并在香草变压器中的Query-Gallery横向关注。后者提高了性能,但它仍然有限。这意味着变压器中的注意机制主要用于全局特征聚合,这不是自然适用于图像匹配。因此,我们提出了一种新的简化解码器,它可以使用SoftMax加权丢弃全部注意力实现,只能保持查询关键相似性计算。此外,还应用全局最大池和多层的Perceptron(MLP)头来解码匹配结果。这样,简化的解码器在计算上更有效,而同时对图像匹配更有效。所谓的方法称为传输函数,在概括的人重新识别中实现最先进的性能,在几个流行的数据集中分别在Rank-1中的性能增长高达6.1%和5.7%。代码可在https://github.com/shengcailiao/qaconv获得。
translated by 谷歌翻译
We report on experiments for the fingerprint modality conducted during the First BioSecure Residential Workshop. Two reference systems for fingerprint verification have been tested together with two additional non-reference systems. These systems follow different approaches of fingerprint processing and are discussed in detail. Fusion experiments I volving different combinations of the available systems are presented. The experimental results show that the best recognition strategy involves both minutiae-based and correlation-based measurements. Regarding the fusion experiments, the best relative improvement is obtained when fusing systems that are based on heterogeneous strategies for feature extraction and/or matching. The best combinations of two/three/four systems always include the best individual systems whereas the best verification performance is obtained when combining all the available systems.
translated by 谷歌翻译
我们提出了一种新的成本聚合网络,称为成本聚合变压器(CAT),在语义类似的图像之间找到密集的对应关系,其中具有大型类内外观和几何变化构成的额外挑战。成本聚合是匹配任务的一个非常重要的过程,匹配精度取决于其输出的质量。与寻址成本聚集的手工制作或基于CNN的方法相比,缺乏严重变形的鲁棒性或继承了由于接受领域有限而无法区分错误匹配的CNN的限制,猫探讨了初始相关图之间的全球共识一些建筑设计的帮助,使我们能够充分利用自我关注机制。具体地,我们包括外观亲和力建模,以帮助成本聚合过程,以消除嘈杂的初始相关映射并提出多级聚合,以有效地从分层特征表示中捕获不同的语义。然后,我们与交换自我关注技术和残留连接相结合,不仅要强制执行一致的匹配,而且还可以缓解学习过程,我们发现这些结果导致了表观性能提升。我们进行实验,以证明拟议模型在最新方法中的有效性,并提供广泛的消融研究。代码和培训的型号可以在https://github.com/sunghwanhong/cats提供。
translated by 谷歌翻译
鉴于完整的指纹图像(滚动或拍打),我们介绍了Cyclegan模型,以生成与完整印刷相同身份的多个潜在印象。我们的模型可以控制生成的潜在打印图像中的失真,噪声,模糊和遮挡程度,以获得NIST SD27潜在数据库中介绍的好,坏和丑陋的潜在图像类别。我们的工作的贡献是双重的:(i)证明合成生成的潜在指纹图像与NIST SD27和MSP数据库中的犯罪现场潜伏期的相似性,并由NIST NIST NFIQ 2质量度量和由SOTA指纹匹配器和ROC曲线评估。 (ii)使用合成潜伏期在公共领域增强小型的潜在训练数据库,以提高Deepprint的性能,Deepprint是一种SOTA指纹匹配器,设计用于在三个潜在数据库上滚动的指纹匹配(NIST SD27,NIST SD302和IIITD,以及IIITD,以及IIITD,以及IIITD,以及-slf)。例如,随着合成潜在数据的增强,在具有挑战性的NIST SD27潜在数据库中,Deepprint的排名1检索性能从15.50%提高到29.07%。我们生成合成潜在指纹的方法可用于改善任何潜在匹配器及其单个组件的识别性能(例如增强,分割和特征提取)。
translated by 谷歌翻译
宽阔的区域运动图像(瓦米)产生具有大量极小物体的高分辨率图像。目标物体在连续帧中具有大的空间位移。令人讨厌的图像的这种性质使对象跟踪和检测具有挑战性。在本文中,我们介绍了我们基于深度神经网络的组合对象检测和跟踪模型,即热图网络(HM-Net)。 HM-Net明显快于最先进的帧差异和基于背景减法的方法,而不会影响检测和跟踪性能。 HM-Net遵循基于对象的联合检测和跟踪范式。简单的热图的预测支持无限数量的同时检测。所提出的方法使用来自前一帧的两个连续帧和物体检测热图作为输入,这有助于帧之间的HM-Net监视器时空变化并跟踪先前预测的对象。尽管重复使用先前的物体检测热图作为基于生命的反馈的存储器元件,但它可能导致假阳性检测的意外浪涌。为了增加对误报和消除低置信度检测的方法的稳健性,HM-Net采用新的反馈滤波器和高级数据增强。 HM-Net优于最先进的WAMI移动对象检测和跟踪WPAFB数据集的跟踪方法,其96.2%F1和94.4%地图检测分数,同时在同一数据集上实现61.8%的地图跟踪分数。这种性能对应于F1,6.1%的地图分数的增长率为2.1%,而在追踪最先进的地图分数的地图分数为9.5%。
translated by 谷歌翻译
在本文中,我们解决了估算图像之间尺度因子的问题。我们制定规模估计问题作为对尺度因素的概率分布的预测。我们设计了一种新的架构,ScaleNet,它利用扩张的卷积以及自我和互相关层来预测图像之间的比例。我们展示了具有估计尺度的整流图像导致各种任务和方法的显着性能改进。具体而言,我们展示了ScaleNet如何与稀疏的本地特征和密集的通信网络组合,以改善不同的基准和数据集中的相机姿势估计,3D重建或密集的几何匹配。我们对多项任务提供了广泛的评估,并分析了标准齿的计算开销。代码,评估协议和培训的型号在https://github.com/axelbarroso/scalenet上公开提供。
translated by 谷歌翻译
由于技术成本的降低和卫星发射的增加,卫星图像变得越来越流行和更容易获得。除了提供仁慈的目的外,还可以出于恶意原因(例如错误信息)使用卫星数据。事实上,可以依靠一般图像编辑工具来轻松操纵卫星图像。此外,随着深层神经网络(DNN)的激增,可以生成属于各种领域的现实合成图像,与合成生成的卫星图像的扩散有关的其他威胁正在出现。在本文中,我们回顾了关于卫星图像的产生和操纵的最新技术(SOTA)。特别是,我们既关注从头开始的合成卫星图像的产生,又要通过图像转移技术对卫星图像进行语义操纵,包括从一种类型的传感器到另一种传感器获得的图像的转换。我们还描述了迄今已研究的法医检测技术,以对合成图像伪造进行分类和检测。虽然我们主要集中在法医技术上明确定制的,该技术是针对AI生成的合成内容物的检测,但我们还审查了一些用于一般剪接检测的方法,这些方法原则上也可以用于发现AI操纵图像
translated by 谷歌翻译
随着对手工卫生的需求不断增长和使用的便利性,掌上识别最近具有淡淡的发展,为人识别提供了有效的解决方案。尽管已经致力于该地区的许多努力,但仍然不确定无接触棕榈污染的辨别能力,特别是对于大规模数据集。为了解决问题,在本文中,我们构建了一个大型无尺寸的棕榈纹数据集,其中包含了来自1167人的2334个棕榈手机。为了我们的最佳知识,它是有史以来最大的非接触式手掌形象基准,而是关于个人和棕榈树的数量收集。此外,我们提出了一个名为3DCPN(3D卷积棕榈识别网络)的无棕榈识别的新型深度学习框架,它利用3D卷积来动态地集成多个Gabor功能。在3DCPN中,嵌入到第一层中的新颖变体以增强曲线特征提取。通过精心设计的集合方案,然后将低级别的3D功能卷积以提取高级功能。最后在顶部,我们设置了基于地区的损失功能,以加强全局和本地描述符的辨别能力。为了展示我们方法的优越性,在我们的数据集和其他流行数据库同济和IITD上进行了广泛的实验,其中结果显示了所提出的3DCPN实现最先进的或可比性的性能。
translated by 谷歌翻译
我们提出了一种新型的基于网络的基于网络的HDR Duthosting方法,用于融合任意长度的动态序列。所提出的方法使用卷积和经常性架构来产生视觉上令人愉悦的重影的HDR图像。我们介绍了一个新的反复间谍架构,即自动门控内存(SGM)单元格,这胜过标准LSTM单元格,同时包含更少的参数并具有更快的运行时间。在SGM小区中,通过将门的输出乘以自身的函数来控制通过门的信息流。此外,我们在双向设置中使用两个SGM单元来提高输出质量。该方法的方法与现有的HDR Deghosting方法定量跨三个公共数据集相比,实现了最先进的性能,同时同时实现熔断器可变长度输入顺序的可扩展性而不需要重新训练。通过广泛的消融,我们证明了各个组件以拟议方法的重要性。该代码可在https://val.cds.iisc.ac.in.in/hdr/hdrrn/index.html中获得。
translated by 谷歌翻译
Images with haze of different varieties often pose a significant challenge to dehazing. Therefore, guidance by estimates of haze parameters related to the variety would be beneficial and their progressive update jointly with haze reduction will allow effective dehazing. To this end, we propose a multi-network dehazing framework containing novel interdependent dehazing and haze parameter updater networks that operate in a progressive manner. The haze parameters, transmission map and atmospheric light, are first estimated using specific convolutional networks allowing color-cast handling. The estimated parameters are then used to guide our dehazing module, where the estimates are progressively updated by novel convolutional networks. The updating takes place jointly with progressive dehazing by a convolutional network that invokes inter-step dependencies. The joint progressive updating and dehazing gradually modify the haze parameter estimates toward achieving effective dehazing. Through different studies, our dehazing framework is shown to be more effective than image-to-image mapping or predefined haze formation model based dehazing. Our dehazing framework is qualitatively and quantitatively found to outperform the state-of-the-art on synthetic and real-world hazy images of several datasets with varied haze conditions.
translated by 谷歌翻译
Transformers are powerful visual learners, in large part due to their conspicuous lack of manually-specified priors. This flexibility can be problematic in tasks that involve multiple-view geometry, due to the near-infinite possible variations in 3D shapes and viewpoints (requiring flexibility), and the precise nature of projective geometry (obeying rigid laws). To resolve this conundrum, we propose a "light touch" approach, guiding visual Transformers to learn multiple-view geometry but allowing them to break free when needed. We achieve this by using epipolar lines to guide the Transformer's cross-attention maps, penalizing attention values outside the epipolar lines and encouraging higher attention along these lines since they contain geometrically plausible matches. Unlike previous methods, our proposal does not require any camera pose information at test-time. We focus on pose-invariant object instance retrieval, where standard Transformer networks struggle, due to the large differences in viewpoint between query and retrieved images. Experimentally, our method outperforms state-of-the-art approaches at object retrieval, without needing pose information at test-time.
translated by 谷歌翻译
基于传感器的相机识别(SCI)方法的性能严重依赖于估计光响应非均匀性(PRNU)的去噪滤波器。鉴于各种对提高提取的PRNU质量的尝试,它仍然存在于低分辨率图像和高计算需求中的不令人满意的性能。利用PRNU估计和图像去噪的相似性,利用了基于PRNU提取的卷积神经网络(CNN)的最新成就。本文在公共“德累斯顿图像数据库”上对SCI性能进行了对比较评估。我们的研究结果是两倍。从一个方面,来自图像内容的PRNU提取和图像去噪分开噪声。因此,如果仔细培训,SCI可以从最近的CNN Denoisers受益。从另一方面,PRNU提取和图像去噪的目标和场景是不同的,因为一个优化噪声质量和另一个优化图像质量。当CNN Denoisers用于PRNU估计时,需要精心定制的培训。理论上和实际评估培训数据准备和损失功能设计的替代策略。我们指出,用图像 - PRNU对喂养CNN,并以基于相关的损耗函数训练它们导致最好的PRNU估计性能。为了便于对SCI的进一步研究,我们还提出了一种最小损失相机指纹量化方案,我们使用该量化方案将指纹保存为PNG格式的图像文件。此外,我们从“德累斯顿图像数据库”公开可用的相机的量化指纹。
translated by 谷歌翻译