虹膜识别生活人员是一项成熟的生物识别方式,这些模型已通过政府ID计划,边境交通,选民登记和重复,以解锁移动电话。另一方面,最近出现了识别死者模式的死者受试者的可能性。在本文中,我们提出了一种基于端到端的深度学习方法,用于后期虹膜虹膜分割和具有特殊可视化技术的识别,旨在支持您的努力中取证人类审查员。所提出的后期虹膜分割方法优于现有技术,并且除虹膜环上,如古典虹膜分割方法 - 检测眼部分解过程所引起的异常区域,如犁沟或干燥和皱纹的不规则镜面亮点角膜。该方法培训并验证了从171名尸体获取的数据,保存在核心条件下,并在从259名死亡科目获得的主题脱节数据上进行测试。据我们所知,这是迄今为止迄今为止的虹膜识别研究中使用的最大数据核心。纸张提供了该方法的源代码。测试数据将通过刑事司法数据(NACJD)档案馆的国家档案提供。
translated by 谷歌翻译
法医虹膜认可,而不是活着的Iris认可,是一个新兴的研究领域,它利用Iris Biometrics的判别能力来帮助人类检查员识别死者。作为一种主要是人为控制的任务,作为一种基于机器学习的技术,法医识别是在验证后识别任务中对人类专业知识的“备份”。因此,机器学习模型必须是(a)可解释的,并且(b)验尸特异性,以说明衰减眼组织的变化。在这项工作中,我们提出了一种满足需求的方法,并以人类感知的方式以一种新颖的方式接近验尸的创建。我们首先使用人类突出的图像区域的注释来训练基于学习的特征探测器,这是他们的决策。实际上,该方法直接从人类那里学习可解释的特征,而不是纯粹的数据驱动特征。其次,区域虹膜代码(同样,具有人体驱动的过滤内核)用于配对检测到的虹膜斑块,这些颗粒被转化为基于斑块的比较分数。通过这种方式,我们的方法为人类考官提供了人为理解的视觉提示,以证明身份决定和相应的置信度得分是合理的。当在259名死者的验尸虹膜图像的数据集上进行测试时,提出的三个最佳虹膜匹配者中提出的方法位置比商业(非人类互换)的Verieye方法更好。我们提出了一种独特的验尸后虹膜识别方法,该方法接受了人类显着性的培训,可以在法医检查的背景下提供完全解释的比较结果,从而实现最先进的识别表现。
translated by 谷歌翻译
已经广泛地研究了使用虹膜和围眼区域作为生物特征,主要是由于虹膜特征的奇异性以及当图像分辨率不足以提取虹膜信息时的奇异区域的使用。除了提供有关个人身份的信息外,还可以探索从这些特征提取的功能,以获得其他信息,例如个人的性别,药物使用的影响,隐形眼镜的使用,欺骗等。这项工作提出了对为眼部识别创建的数据库的调查,详细说明其协议以及如何获取其图像。我们还描述并讨论了最受欢迎的眼镜识别比赛(比赛),突出了所提交的算法,只使用Iris特征和融合虹膜和周边地区信息实现了最佳结果。最后,我们描述了一些相关工程,将深度学习技术应用于眼镜识别,并指出了新的挑战和未来方向。考虑到有大量的眼部数据库,并且每个人通常都设计用于特定问题,我们认为这项调查可以广泛概述眼部生物识别学中的挑战。
translated by 谷歌翻译
在这项工作中,我们设计了一个完全复杂的神经网络,用于虹膜识别的任务。与一般物体识别的问题不同,在实际值的神经网络可以用于提取相关特征的情况下,虹膜识别取决于从输入的虹膜纹理提取两个相位和幅度信息,以便更好地表示其生物识别内容。这需要提取和处理不能由实值神经网络有效处理的相位信息。在这方面,我们设计了一个完全复杂的神经网络,可以更好地捕获虹膜纹理的多尺度,多分辨率和多向阶段和多向阶段和幅度特征。我们展示了具有用于生成经典iRIscode的Gabor小波的提出的复合值虹膜识别网络的强烈对应关系;然而,所提出的方法使得能够为IRIS识别量身定​​制的自动复数特征学习的新能力。我们对三个基准数据集进行实验 - Nd-Crosssensor-2013,Casia-Iris-千和Ubiris.v2 - 并显示了拟议网络的虹膜识别任务的好处。我们利用可视化方案来传达复合网络的方式,与标准的实际网络相比,从虹膜纹理提取根本不同的特征。
translated by 谷歌翻译
由于长距离,照明变化,有限的用户合作和移动科目,虹膜分割和定位在不受约束环境中具有挑战性。为了解决这个问题,我们介绍了一个U-Net,具有预先培训的MobileNetv2深神经网络方法。我们使用MobileNetv2的预先训练的权重,用于想象成数据集,并在虹膜识别和本地化域上进行微调。此外,我们推出了一个名为Kartalol的新数据集,以更好地评估虹膜识别方案中的检测器。为了提供域适应,我们可以在Casia-Iris-Asia,Casia-Iris-M1和Casia-Iris-Africa和Casia-Iris-Africa和我们的数据集中微调MobileNetv2模型。我们还通过执行左右翻转,旋转,缩放和亮度来增强数据。我们通过迭代所提供的数据集中的图像来选择二进制掩码的二值化阈值。沿着Kartalol DataSet,Casia-Iris-Asia,Casia-Iris-M1,Casia-Iris-M1,Casia-Iris-M1,Casia-Iris-M1,Casia-Iris-M1,Casia-Iris-M1培训。实验结果强调了我们的方法在基于移动的基准上超越了最先进的方法。代码和评估结果在https://github.com/jalilnkh/kartalol-nir -isl2021031301上公开可用。
translated by 谷歌翻译
在“封闭设置”场景中的评估之外,在呈现虹膜识别的演示攻击检测(PAD)中的研究基本上已经转移,以强调概括培训数据中不存在的演示攻击类型的能力。本文提供了几项贡献,可以理解和扩展开放式虹膜垫的最先进。首先,它描述了虹膜垫迄今为止最权威的评估。我们已经为此问题策划了最大的公共可用图像数据集,该数据集从先前由各个组发布的26个基准中绘制出来,并在本文的期刊版本中添加了150,000张图像,以创建一组450,000张代表正宗Iris和7的图像演示攻击工具的类型(PAI)。我们制定了一项保留的评估协议,并表明封闭式评估中的最佳算法在开放集情况下在多种攻击类型上都会显示出灾难性的失败。这包括在最新的Livdet-IRIS 2020竞赛中表现良好的算法,这可能来自以下事实:Livdet-IRIS协议强调隔离图像而不是看不见的攻击类型。其次,我们评估了当今可用的五种开源虹膜呈现攻击算法的准确性,其中一种是本文新近提出的,并建立了一种合奏方法,该方法以大幅度的利润击败了Livdet-IRIS 2020的获胜者。本文表明,当训练期间所有PAIS都知道时,封闭设置的虹膜垫是一个解决问题,多种算法显示出非常高的精度,而开放式虹膜垫(正确评估)尚未解决。新创建的数据集,新的开源算法和评估协议可公开使用本文的期刊版本,提供了研究人员可以用来衡量这一重要问题的进度的实验文物。
translated by 谷歌翻译
由于瞳孔大小变化而导致的非线性虹膜纹理变形是导致虹膜识别中真正比较分数的类内差异的主要因素之一。在虹膜识别的主要方法中,环形虹膜区域的大小线性缩放到规范矩形,在编码和匹配中进一步使用。然而,虹膜括约肌和扩张肌的生物复杂性导致虹膜特征的运动在学生大小的函数中是非线性的,而不仅仅是沿着径向路径的组织。或者,与基于虹膜肌肉的生物力学的现有理论模型,在本文中,我们提出了一种新型的基于Deep AutoCoder的模型,该模型可以直接从数据中直接从数据中直接学习虹膜纹理特征的复杂运动。提出的模型采用两个输入,(a)具有初始瞳孔大小的ISO兼容近红外虹膜图像,以及(b)定义虹膜目标形状的二进制掩码。该模型使虹膜纹理的所有必要的非线性变形使图像(a)中的虹膜形状与目标蒙版(b)提供的形状相匹配。损失函数的身份保护成分有助于模型找到保留身份的变形,而不仅仅是生成样品的视觉现实主义。我们还展示了该模型的两个直接应用:与线性模型相比,虹膜识别算法中的虹膜纹理变形更好,以及创建可以帮助人类法医检查人员的生成算法,他们可能需要比较虹膜图像与学生差异很大的图像扩张。我们提供源代码和模型权重,以及本文。
translated by 谷歌翻译
能够分析和量化人体或行为特征的系统(称为生物识别系统)正在使用和应用变异性增长。由于其从手工制作的功能和传统的机器学习转变为深度学习和自动特征提取,因此生物识别系统的性能增加到了出色的价值。尽管如此,这种快速进步的成本仍然尚不清楚。由于其不透明度,深层神经网络很难理解和分析,因此,由错误动机动机动机的隐藏能力或决定是潜在的风险。研究人员已经开始将注意力集中在理解深度神经网络及其预测的解释上。在本文中,我们根据47篇论文的研究提供了可解释生物识别技术的当前状态,并全面讨论了该领域的发展方向。
translated by 谷歌翻译
随着面部生物识别技术的广泛采用,在自动面部识别(FR)应用中区分相同的双胞胎和非双胞胎外观相似的问题变得越来越重要。由于同卵双胞胎和外观相似的面部相似性很高,因此这些面对对面部识别工具表示最困难的病例。这项工作介绍了迄今为止汇编的最大的双胞胎数据集之一,以应对两个挑战:1)确定相同双胞胎和2)的面部相似性的基线度量和2)应用此相似性措施来确定多ppelgangers的影响或外观 - Alikes,关于大面部数据集的FR性能。面部相似性度量是通过深度卷积神经网络确定的。该网络经过量身定制的验证任务进行培训,旨在鼓励网络在嵌入空间中将高度相似的面对对组合在一起,并达到0.9799的测试AUC。所提出的网络为任何两个给定的面提供了定量相似性评分,并已应用于大规模面部数据集以识别相似的面对对。还执行了一个附加分析,该分析还将面部识别工具返回的比较分数以及提议网络返回的相似性分数。
translated by 谷歌翻译
The emergence of COVID-19 has had a global and profound impact, not only on society as a whole, but also on the lives of individuals. Various prevention measures were introduced around the world to limit the transmission of the disease, including face masks, mandates for social distancing and regular disinfection in public spaces, and the use of screening applications. These developments also triggered the need for novel and improved computer vision techniques capable of (i) providing support to the prevention measures through an automated analysis of visual data, on the one hand, and (ii) facilitating normal operation of existing vision-based services, such as biometric authentication schemes, on the other. Especially important here, are computer vision techniques that focus on the analysis of people and faces in visual data and have been affected the most by the partial occlusions introduced by the mandates for facial masks. Such computer vision based human analysis techniques include face and face-mask detection approaches, face recognition techniques, crowd counting solutions, age and expression estimation procedures, models for detecting face-hand interactions and many others, and have seen considerable attention over recent years. The goal of this survey is to provide an introduction to the problems induced by COVID-19 into such research and to present a comprehensive review of the work done in the computer vision based human analysis field. Particular attention is paid to the impact of facial masks on the performance of various methods and recent solutions to mitigate this problem. Additionally, a detailed review of existing datasets useful for the development and evaluation of methods for COVID-19 related applications is also provided. Finally, to help advance the field further, a discussion on the main open challenges and future research direction is given.
translated by 谷歌翻译
Current state-of-the-art segmentation techniques for ocular images are critically dependent on large-scale annotated datasets, which are labor-intensive to gather and often raise privacy concerns. In this paper, we present a novel framework, called BiOcularGAN, capable of generating synthetic large-scale datasets of photorealistic (visible light and near-infrared) ocular images, together with corresponding segmentation labels to address these issues. At its core, the framework relies on a novel Dual-Branch StyleGAN2 (DB-StyleGAN2) model that facilitates bimodal image generation, and a Semantic Mask Generator (SMG) component that produces semantic annotations by exploiting latent features of the DB-StyleGAN2 model. We evaluate BiOcularGAN through extensive experiments across five diverse ocular datasets and analyze the effects of bimodal data generation on image quality and the produced annotations. Our experimental results show that BiOcularGAN is able to produce high-quality matching bimodal images and annotations (with minimal manual intervention) that can be used to train highly competitive (deep) segmentation models (in a privacy aware-manner) that perform well across multiple real-world datasets. The source code for the BiOcularGAN framework is publicly available at https://github.com/dariant/BiOcularGAN.
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
这项研究提出了一种新的数据库和方法,以检测由于酒精,药物消耗和昏昏欲睡而导致的警报条件的减少,而近亲(NIR)眼球周围眼部图像。该研究的重点是确定外部因素对中枢神经系统(CNS)的影响。目的是分析这如何影响虹膜和学生运动行为,以及是否可以用标准的IRIS NIR捕获装置对这些更改进行分类。本文提出了修改的MobileNetV2,以对来自酒精/药物/嗜睡影响的受试者拍摄的虹膜NIR图像进行分类。结果表明,基于MobileNETV2的分类器可以在耐心等方面从饮酒和药物消耗后捕获的虹膜样品的不合适性条件,分别检测精度分别为91.3%和99.1%。嗜睡状况是最具挑战性的72.4%。对于属于FIT/UNFIT类的两类分组图像,该模型的准确度分别为94.0%和84.0%,使用的参数数量较小,而不是标准的深度学习网络算法。这项工作是开发自动系统以对“适合值班”进行分类并防止因酒精/吸毒和嗜睡而导致事故的生物识别应用程序迈出的一步。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
我们研究了两种现实情景中的一系列识别任务,要求在强闭塞下分析面孔。一方面,我们的目标是识别佩戴虚拟现实(VR)耳机的人们的面部表情。另一方面,我们的目标是估计年龄并确定穿手术面具的人们的性别。对于所有这些任务,共同的地面是遮挡的一半面孔。在这一具有挑战性的环境中,我们表明,在完全可见的面上培训的卷积神经网络(CNNS)表现出非常低的性能水平。在微调遮挡面上的深度学习模型非常有用,我们表明可以通过从完全可见面上培训的模型蒸馏出来的知识来获得额外的性能增益。为此,我们研究了两种知识蒸馏方法,一个基于教师学生培训,一个基于三重态损失。我们的主要贡献包括基于三态损失的知识蒸馏的新方法,这遍历模型和任务。此外,我们考虑通过传统的师生培训或通过我们的小型教师学生培训来组合蒸馏模型,或通过基于三态损失的小说学生培训。我们提供了实证证据表明,在大多数情况下,个人和组合的知识蒸馏方法都会带来统计上显着的性能改进。我们在各种任务(面部表情识别,性别识别,年龄估计)上进行三种不同的神经模型(VGG-F,Vogg-Face,Reset-50)进行实验,而不管模型或任务如何,都显示出一致的改进。
translated by 谷歌翻译
横梁面部识别(CFR)旨在识别个体,其中比较面部图像源自不同的感测模式,例如红外与可见的。虽然CFR由于与模态差距相关的面部外观的显着变化,但CFR具有比经典的面部识别更具挑战性,但它在具有有限或挑战的照明的场景中,以及在呈现攻击的情况下,它是优越的。与卷积神经网络(CNNS)相关的人工智能最近的进展使CFR的显着性能提高了。由此激励,这项调查的贡献是三倍。我们提供CFR的概述,目标是通过首先正式化CFR然后呈现具体相关的应用来比较不同光谱中捕获的面部图像。其次,我们探索合适的谱带进行识别和讨论最近的CFR方法,重点放在神经网络上。特别是,我们提出了提取和比较异构特征以及数据集的重新访问技术。我们枚举不同光谱和相关算法的优势和局限性。最后,我们讨论了研究挑战和未来的研究线。
translated by 谷歌翻译
Age-related macular degeneration (AMD) is a degenerative disorder affecting the macula, a key area of the retina for visual acuity. Nowadays, it is the most frequent cause of blindness in developed countries. Although some promising treatments have been developed, their effectiveness is low in advanced stages. This emphasizes the importance of large-scale screening programs. Nevertheless, implementing such programs for AMD is usually unfeasible, since the population at risk is large and the diagnosis is challenging. All this motivates the development of automatic methods. In this sense, several works have achieved positive results for AMD diagnosis using convolutional neural networks (CNNs). However, none incorporates explainability mechanisms, which limits their use in clinical practice. In that regard, we propose an explainable deep learning approach for the diagnosis of AMD via the joint identification of its associated retinal lesions. In our proposal, a CNN is trained end-to-end for the joint task using image-level labels. The provided lesion information is of clinical interest, as it allows to assess the developmental stage of AMD. Additionally, the approach allows to explain the diagnosis from the identified lesions. This is possible thanks to the use of a CNN with a custom setting that links the lesions and the diagnosis. Furthermore, the proposed setting also allows to obtain coarse lesion segmentation maps in a weakly-supervised way, further improving the explainability. The training data for the approach can be obtained without much extra work by clinicians. The experiments conducted demonstrate that our approach can identify AMD and its associated lesions satisfactorily, while providing adequate coarse segmentation maps for most common lesions.
translated by 谷歌翻译
We propose a technique for producing 'visual explanations' for decisions from a large class of Convolutional Neural Network (CNN)-based models, making them more transparent and explainable.Our approach -Gradient-weighted Class Activation Mapping (Grad-CAM), uses the gradients of any target concept (say 'dog' in a classification network or a sequence of words in captioning network) flowing into the final convolutional layer to produce a coarse localization map highlighting the important regions in the image for predicting the concept.Unlike previous approaches, Grad-CAM is applicable to a wide variety of CNN model-families: (1) CNNs with fullyconnected layers (e.g. VGG), (2) CNNs used for structured outputs (e.g. captioning), (3) CNNs used in tasks with multimodal inputs (e.g. visual question answering) or reinforcement learning, all without architectural changes or re-training. We combine Grad-CAM with existing fine-grained visualizations to create a high-resolution class-discriminative vi-
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
组织学图像中核和腺体的实例分割是用于癌症诊断,治疗计划和生存分析的计算病理学工作流程中的重要一步。随着现代硬件的出现,大规模质量公共数据集的最新可用性以及社区组织的宏伟挑战已经看到了自动化方法的激增,重点是特定领域的挑战,这对于技术进步和临床翻译至关重要。在这项调查中,深入分析了过去五年(2017-2022)中发表的原子核和腺体实例细分的126篇论文,进行了深入分析,讨论了当前方法的局限性和公开挑战。此外,提出了潜在的未来研究方向,并总结了最先进方法的贡献。此外,还提供了有关公开可用数据集的概括摘要以及关于说明每种挑战的最佳性能方法的巨大挑战的详细见解。此外,我们旨在使读者现有研究的现状和指针在未来的发展方向上开发可用于临床实践的方法,从而可以改善诊断,分级,预后和癌症的治疗计划。据我们所知,以前没有工作回顾了朝向这一方向的组织学图像中的实例细分。
translated by 谷歌翻译