智能论文笔记

Finger-NestNet: Interpretable Fingerphoto Verification on Smartphone using Deep Nested Residual Network

Raghavendra Ramachandra , Hailin Li

分类：计算机视觉

2022-12-09

Fingerphoto images captured using a smartphone are successfully used to verify the individuals that have enabled several applications. This work presents a novel algorithm for fingerphoto verification using a nested residual block: Finger-NestNet. The proposed Finger-NestNet architecture is designed with three consecutive convolution blocks followed by a series of nested residual blocks to achieve reliable fingerphoto verification. This paper also presents the interpretability of the proposed method using four different visualization techniques that can shed light on the critical regions in the fingerphoto biometrics that can contribute to the reliable verification performance of the proposed method. Extensive experiments are performed on the fingerphoto dataset comprised of 196 unique fingers collected from 52 unique data subjects using an iPhone6S. Experimental results indicate the improved verification of the proposed method compared to six different existing methods with EER = 1.15%.

translated by 谷歌翻译

Interpretable Deep Learning-Based Forensic Iris Segmentation and Recognition

Andrey Kuehlkamp , Aidan Boyd , Adam Czajka , Kevin Bowyer , Patrick Flynn , Dennis Chute , Eric Benjamin

分类：计算机视觉

2021-12-01

虹膜识别生活人员是一项成熟的生物识别方式，这些模型已通过政府ID计划，边境交通，选民登记和重复，以解锁移动电话。另一方面，最近出现了识别死者模式的死者受试者的可能性。在本文中，我们提出了一种基于端到端的深度学习方法，用于后期虹膜虹膜分割和具有特殊可视化技术的识别，旨在支持您的努力中取证人类审查员。所提出的后期虹膜分割方法优于现有技术，并且除虹膜环上，如古典虹膜分割方法 - 检测眼部分解过程所引起的异常区域，如犁沟或干燥和皱纹的不规则镜面亮点角膜。该方法培训并验证了从171名尸体获取的数据，保存在核心条件下，并在从259名死亡科目获得的主题脱节数据上进行测试。据我们所知，这是迄今为止迄今为止的虹膜识别研究中使用的最大数据核心。纸张提供了该方法的源代码。测试数据将通过刑事司法数据（NACJD）档案馆的国家档案提供。

translated by 谷歌翻译

Ocular Recognition Databases and Competitions: A Survey

Luiz A. Zanlorensi , Rayson Laroca , Eduardo Luz , Alceu S. Britto Jr. , Luiz S. Oliveira , David Menotti

分类：计算机视觉

2019-11-21

已经广泛地研究了使用虹膜和围眼区域作为生物特征，主要是由于虹膜特征的奇异性以及当图像分辨率不足以提取虹膜信息时的奇异区域的使用。除了提供有关个人身份的信息外，还可以探索从这些特征提取的功能，以获得其他信息，例如个人的性别，药物使用的影响，隐形眼镜的使用，欺骗等。这项工作提出了对为眼部识别创建的数据库的调查，详细说明其协议以及如何获取其图像。我们还描述并讨论了最受欢迎的眼镜识别比赛（比赛），突出了所提交的算法，只使用Iris特征和融合虹膜和周边地区信息实现了最佳结果。最后，我们描述了一些相关工程，将深度学习技术应用于眼镜识别，并指出了新的挑战和未来方向。考虑到有大量的眼部数据库，并且每个人通常都设计用于特定问题，我们认为这项调查可以广泛概述眼部生物识别学中的挑战。

translated by 谷歌翻译

Complex-valued Iris Recognition Network

Kien Nguyen , Clinton Fookes , Sridha Sridharan , Arun Ross

分类：计算机视觉

2020-11-23

在这项工作中，我们设计了一个完全复杂的神经网络，用于虹膜识别的任务。与一般物体识别的问题不同，在实际值的神经网络可以用于提取相关特征的情况下，虹膜识别取决于从输入的虹膜纹理提取两个相位和幅度信息，以便更好地表示其生物识别内容。这需要提取和处理不能由实值神经网络有效处理的相位信息。在这方面，我们设计了一个完全复杂的神经网络，可以更好地捕获虹膜纹理的多尺度，多分辨率和多向阶段和多向阶段和幅度特征。我们展示了具有用于生成经典iRIscode的Gabor小波的提出的复合值虹膜识别网络的强烈对应关系;然而，所提出的方法使得能够为IRIS识别量身定制的自动复数特征学习的新能力。我们对三个基准数据集进行实验 - Nd-Crosssensor-2013，Casia-Iris-千和Ubiris.v2 - 并显示了拟议网络的虹膜识别任务的好处。我们利用可视化方案来传达复合网络的方式，与标准的实际网络相比，从虹膜纹理提取根本不同的特征。

translated by 谷歌翻译

Quality-Aware Multimodal Biometric Recognition

Sobhan Soleymani , Ali Dabouei , Fariborz Taherkhani , Seyed Mehdi Iranmanesh , Jeremy Dawson , Nasser M. Nasrabadi

分类：计算机视觉 | 机器学习

2021-12-10

我们提出了一种质量感知的多模式识别框架，其将来自多个生物特征的表示与不同的质量和样本数量相结合，以通过基于样本的质量提取互补识别信息来实现增加的识别准确性。我们通过使用以弱监督时尚估计的质量分数加权，为融合输入方式的质量意识框架，以融合输入方式的融合。此框架利用两个融合块，每个融合块由一组质量感知和聚合网络表示。除了架构修改外，我们还提出了两种特定于任务特定的损耗功能：多模式可分离性损失和多模式紧凑性损失。第一个损失确保了类的模态的表示具有可比的大小来提供更好的质量估计，而不同类别的多式数代表分布以实现嵌入空间中的最大判别。第二次丢失，被认为是正规化网络权重，通过规范框架来提高泛化性能。我们通过考虑由面部，虹膜和指纹方式组成的三个多模式数据集来评估性能。通过与最先进的算法进行比较来证明框架的功效。特别是，我们的框架优于BioMdata的模式的级别和得分级别融合超过30％以获得$ 10 ^ { - 4} $ 10 ^ { - 4} $的真正验收率。

translated by 谷歌翻译

From Interpretable Filters to Predictions of Convolutional Neural Networks with Explainable Artificial Intelligence

Shagufta Henna , Juan Miguel Lopez Alcaraz

分类：机器学习

2022-07-26

卷积神经网络（CNN）以其出色的功能提取能力而闻名，可以从数据中学习模型，但被用作黑匣子。对卷积滤液和相关特征的解释可以帮助建立对CNN的理解，以区分各种类别。在这项工作中，我们关注的是CNN模型的解释性，称为CNNexplain，该模型用于COVID-19和非CoVID-19分类，重点是卷积过滤器的特征解释性，以及这些功能如何有助于分类。具体而言，我们使用了各种可解释的人工智能（XAI）方法，例如可视化，SmoothGrad，Grad-Cam和Lime来提供卷积滤液的解释及相关特征及其在分类中的作用。我们已经分析了使用干咳嗽光谱图的这些方法的解释。从石灰，光滑果实和GRAD-CAM获得的解释结果突出了不同频谱图的重要特征及其与分类的相关性。

translated by 谷歌翻译

C2CL: Contact to Contactless Fingerprint Matching

Steven A. Grosz , Joshua J. Engelsma , Eryun Liu , Anil K. Jain

分类：计算机视觉 | 机器学习

2021-04-06

匹配的非接触式指纹或手指照片到基于接触的指纹印象在Covid-19尾之后，由于非接触式采集的优越性卫生以及能够以足够的分辨率捕获指纹照片的低成本移动电话的广泛可用性用于验证目的。本文介绍了一个名为C2CL的端到端自动化系统，包括移动手指照片捕获应用，预处理和匹配算法，以处理抑制先前交叉匹配方法的挑战;即i）低脊谷非接触式指纹对比，II）不同卷，俯仰，偏航和手指的距离，III的距离，III）非线性扭曲的基于接触的指纹，和VI）智能手机的不同图像质量。相机。我们的预处理算法段，增强，尺度和不可接受的非接触式指纹，而我们的匹配算法提取细节和纹理表示。使用我们的移动捕获App获取的206个受理接触式2D指纹和基于相应的基于接触的指纹的DataSet和来自206个受试者（每个受试者的2拇指和2个索引手指的指纹）用于评估我们所提出的算法的跨数据库性能。此外，在3个公共数据集上的额外实验结果表明，最先进的与非接触式指纹匹配（焦油为96.67％至98.30％，= 0.01％的焦油）显着提高。

translated by 谷歌翻译

Monkeypox virus detection using pre-trained deep learning-based approaches

Chiranjibi Sitaula , Tej Bahadur Shahi

分类：计算机视觉 | 机器学习

2022-09-06

随着世界各地的COVID-19病毒感染的下降，Monkeypox病毒正在缓慢地出现。人们害怕它，认为它看起来像是Covid-19的大流行。因此，在广泛的社区传播之前，至关重要的是检测到它们。基于AI的检测可以帮助他们在早期识别它们。在本文中，我们首先比较了13个不同的预训练的深度学习（DL）模型，以检测蒙基氧基病毒。为此，我们首先将它们添加到所有这些层中，并使用四个完善的措施进行分析：精度，召回，F1得分和准确性。在确定了表现最佳的DL模型之后，我们将它们整合以利用从其获得的概率输出的多数投票来提高整体绩效。我们在公开可用的数据集上执行实验，这表明我们的集合方法提供了精度，召回，F1得分和精度为85.44 \％，85.47 \％，85.40 \％和87.13 \％。这些令人鼓舞的结果表明，所提出的方法适用于卫生从业人员进行大规模筛查。

translated by 谷歌翻译

XCM: An Explainable Convolutional Neural Network for Multivariate Time Series Classification

Kevin Fauvel , Tao Lin , Véronique Masson , Élisa Fromont , Alexandre Termier

分类：机器学习 | (统计)机器学习

2020-09-10

多元时间序列（MTS）分类在过去十年中获得了重要性，随着多个域中的时间数数据集数量的增加。目前的最先进的MTS分类器是一种重量级的深度学习方法，其仅在大型数据集上优于第二个最佳MTS分类器。此外，这种深入学习方法不能提供忠诚的解释，因为它依赖于后的HOC模型 - 无止性解释性方法，这可能会阻止其在许多应用中的应用。在本文中，我们展示了XCM，可解释的卷积神经网络用于MTS分类。 XCM是一种新的紧凑型卷积神经网络，其直接从输入数据中提取相对于观察变量的信息。因此，XCM架构在大小的数据集中实现了良好的泛化能力，同时通过精确地识别所观察到的变量和时间戳，允许完全利用忠实的后HOC模型特定的解释方法（梯度加权类激活映射）对预测很重要的数据。首先表明XCM在大型公共UEA数据集中优于最先进的MTS分类器。然后，我们说明了XCM如何在合成数据集上调和性能和解释性，并显示XCM对预测的输入数据的区域的区域更精确地识别，与当前的深度学习MTS分类器相比也提供忠诚的解释性。最后，我们介绍了XCM如何优于现实世界应用中最准确的最先进的算法，同时通过提供忠诚和更具信息性的解释来提高可解释性。

translated by 谷歌翻译

Explainable vision transformer enabled convolutional neural network for plant disease identification: PlantXViT

Poornima Singh Thakur , Pritee Khanna , Tanuja Sheorey , Aparajita Ojha

分类：计算机视觉

2022-07-16

植物疾病是全球作物损失的主要原因，对世界经济产生了影响。为了解决这些问题，智能农业解决方案正在发展，将物联网和机器学习结合起来，以进行早期疾病检测和控制。许多这样的系统使用基于视觉的机器学习方法进行实时疾病检测和诊断。随着深度学习技术的发展，已经出现了新方法，这些方法采用卷积神经网络进行植物性疾病检测和鉴定。基于视觉的深度学习的另一个趋势是使用视觉变压器，事实证明，这些变压器是分类和其他问题的强大模型。但是，很少研究视力变压器以进行植物病理应用。在这项研究中，为植物性疾病鉴定提出了一个启用视觉变压器的卷积神经网络模型。提出的模型将传统卷积神经网络的能力与视觉变压器有效地识别出多种农作物的大量植物疾病。拟议的模型具有轻巧的结构，只有80万个可训练的参数，这使其适合基于物联网的智能农业服务。 PlantXvit的性能在五个公开可用的数据集上进行了评估。拟议的PlantXvit网络在所有五个数据集上的性能要比五种最先进的方法更好。即使在挑战性的背景条件下，识别植物性疾病的平均准确性分别超过了苹果，玉米和稻米数据集的93.55％，92.59％和98.33％。使用梯度加权的类激活图和局部可解释的模型不可思议的解释来评估所提出模型的解释性效率。

translated by 谷歌翻译

A Hybrid Convolutional Neural Network with Meta Feature Learning for Abnormality Detection in Wireless Capsule Endoscopy Images

Samir Jain , Ayan Seal , Aparajita Ojha

分类：计算机视觉 | 人工智能

2022-07-20

无线胶囊内窥镜检查是检查胃肠道的最先进的非侵入性方法之一。一种用于检测胃肠道异常（如息肉，出血，炎症等）的智能计算机辅助诊断系统在无线胶囊内窥镜图像分析中非常紧张。异常的形状，大小，颜色和纹理有很大不同，有些在视觉上与正常区域相似。由于类内的变化，这在设计二进制分类器方面构成了挑战。在这项研究中，提出了一个混合卷积神经网络，用于异常检测，该检测从无线胶囊内窥镜图像中提取了丰富的有意义的特征，并使用各种卷积操作提取。它由三个平行的卷积神经网络组成，每个神经网络具有独特的特征学习能力。第一个网络利用了深度可分离的卷积，而第二个网络采用余弦归一化的卷积操作。在第三个网络中引入了一种新颖的元效力提取机制，以从第一和第二网络及其自己的先前层中生成的特征中汲取的统计信息中提取模式。网络三重奏有效地处理了类内的方差，并有效地检测到胃肠道异常。拟议的混合卷积神经网络模型对两个广泛使用的公开数据集进行了训练和测试。测试结果表明，所提出的模型在KID和Kvasir-Capsule数据集上分别优于97 \％和98 \％分类精度的六种最先进方法。交叉数据集评估结果还证明了所提出的模型的概括性能。

translated by 谷歌翻译

DFCANet: Dense Feature Calibration-Attention Guided Network for Cross Domain Iris Presentation Attack Detection

Gaurav Jaswal , Aman Verma , Sumantra Dutta Roy , Raghavendra Ramachandra

分类：计算机视觉

2021-11-01

虹膜呈现攻击检测（iPad）对于确保个人身份至关重要是广泛使用的虹膜识别系统。然而，由于在不受约束的环境中捕获和攻击样本之间的高视觉相关性，现有的iPad算法不会概括到看不见和跨域场景。虹膜眼镜图像复杂纹理和形态模式的这些相似之处进一步促进了性能降解。为了减轻这些缺点，本文提出了DFCanet：密集特征校准和注意力引导网络，其校准了与全球位于全球位于局部涂抹的虹膜模式。从特征校准卷积和剩余学习中振衡优势，DFCanet会生成特定于域的IRIS特征表示。由于校准特征映射中的一些通道包含更突出的信息，因此我们通过通道注意机制利用频道跨越渠道的鉴别特征学习。为了加强挑战我们所提出的模型，我们使DFCanet通过非统一和非归一化的眼虹膜图像运行。在挑战性跨域和域内场景中进行的广泛实验突出了一致的表现优势。与最先进的方法相比，DFCanet分别实现了基准IIITD CLI，IIIT CSD和NDCLD13数据库的性能显着提升。此外，已经引入了一种新的基于增量学习的方法，以克服解散的虹膜数据特征和数据稀缺。本文还追求了在各种跨域协议下进行评估的攻击类别下进行软镜头的具有挑战性的情景。该代码将公开可用。

translated by 谷歌翻译

Fruit Quality Assessment with Densely Connected Convolutional Neural Network

Md. Samin Morshed , Sabbir Ahmed , Tasnim Ahmed , Muhammad Usama Islam , A. B. M. Ashikur Rahman

分类：计算机视觉

2022-12-08

Accurate recognition of food items along with quality assessment is of paramount importance in the agricultural industry. Such automated systems can speed up the wheel of the food processing sector and save tons of manual labor. In this connection, the recent advancement of Deep learning-based architectures has introduced a wide variety of solutions offering remarkable performance in several classification tasks. In this work, we have exploited the concept of Densely Connected Convolutional Neural Networks (DenseNets) for fruit quality assessment. The feature propagation towards the deeper layers has enabled the network to tackle the vanishing gradient problems and ensured the reuse of features to learn meaningful insights. Evaluating on a dataset of 19,526 images containing six fruits having three quality grades for each, the proposed pipeline achieved a remarkable accuracy of 99.67%. The robustness of the model was further tested for fruit classification and quality assessment tasks where the model produced a similar performance, which makes it suitable for real-life applications.

translated by 谷歌翻译

Dense Extreme Inception Network for Edge Detection

Xavier Soria Poma , Angel Sappa , Patricio Humanante , Arash Arbarinia

分类：计算机视觉 | 机器学习

2021-12-04

边缘检测是许多计算机视觉应用的基础。最先进的国家主要依赖于两个决定性因素的深度学习：数据集内容和网络的体系结构。大多数公共可用数据集未策划边缘检测任务。在这里，我们为此约束提供解决方案。首先，我们认为边缘，轮廓和边界尽管它们重叠，是需要单独的基准数据集的三个不同的视觉功能。为此，我们介绍了一个新的边缘数据集。其次，我们提出了一种新颖的架构，称为边缘检测（Dexined）的密集极端成立网络，可以从划痕的情况下培训，而没有任何预先训练的重量。Dexined优于所呈现的数据集中的其他算法。它还概括到其他数据集没有任何微调。由于IT输出的更锐利和更精细的边缘，所以更高的Dexined质量也显着显着。

translated by 谷歌翻译

LDNet: End-to-End Lane Marking Detection Approach Using a Dynamic Vision Sensor

Farzeen Munir , Shoaib Azam , Moongu Jeon , Byung-Geun Lee , Witold Pedrycz

分类：计算机视觉

2020-09-17

现代车辆配备各种驾驶员辅助系统，包括自动车道保持，这防止了无意的车道偏离。传统车道检测方法采用了手工制作或基于深度的学习功能，然后使用基于帧的RGB摄像机进行通道提取的后处理技术。用于车道检测任务的帧的RGB摄像机的利用易于照明变化，太阳眩光和运动模糊，这限制了车道检测方法的性能。在自主驾驶中的感知堆栈中结合了一个事件摄像机，用于自动驾驶的感知堆栈是用于减轻基于帧的RGB摄像机遇到的挑战的最有希望的解决方案之一。这项工作的主要贡献是设计车道标记检测模型，它采用动态视觉传感器。本文探讨了使用事件摄像机通过设计卷积编码器后跟注意引导的解码器的新颖性应用了车道标记检测。编码特征的空间分辨率由致密的区域空间金字塔池（ASPP）块保持。解码器中的添加剂注意机制可提高促进车道本地化的高维输入编码特征的性能，并缓解后处理计算。使用DVS数据集进行通道提取（DET）的DVS数据集进行评估所提出的工作的功效。实验结果表明，多人和二进制车道标记检测任务中的5.54 \％$ 5.54 \％$ 5.54 \％$ 5.03 \％$ 5.03 \％$ 5.03。此外，在建议方法的联盟（$ iou $）分数上的交叉点将超越最佳最先进的方法，分别以6.50 \％$ 6.50 \％$ 6.5.37 \％$ 9.37 \％$ 。

translated by 谷歌翻译

3D Face Morphing Attacks: Generation, Vulnerability and Detection

Jag Mohan Singh , Raghavendra Ramachandra

分类：计算机视觉

2022-01-10

已经发现面部识别系统（FRS）容易发生变形攻击，其中通过将面部图像与来自贡献数据主体混合来产生变形的面部图像。这项工作提出了一种朝着3D产生面部变形攻击的新方向。在这种程度上，我们引入了一种基于混合与贡献数据主体对应的3D面点云的新方法。所提出的方法将通过将输入的3D面点云突出到深度映射\＆2D彩色图像，然后在彩色图像和深度图上独立地执行图像混合和包装操作来生成3D面部变形。然后，我们使用规范（固定）视图将2D变形颜色映射和深度映射返回到点云。鉴于产生的3D面部变形模型将导致由于单个规范视图引起的孔，我们提出了一种新的孔填充算法，这将导致高质量的3D面部变形模型。对应于41个唯一数据受试者的新生成的3D面部数据集进行了广泛的实验，其包括对应于41个唯一数据受试者的675个3D扫描。进行实验以基准自动2D和3D FRS和人体观察分析的脆弱性。我们还使用八种不同质量指标介绍了产生的3D面部变形模型的质量的定量评估。最后，我们提出了三种不同的3D面部变形攻击检测（3D Mad-Mad）算法来基准3D MAD算法的性能。

translated by 谷歌翻译

Touchless Palmprint Recognition based on 3D Gabor Template and Block Feature Refinement

Zhaoqun Li , Xu Liang , Dandan Fan , Jinxing Li , Wei Jia , David Zhang

分类：计算机视觉 | 人工智能

2021-03-03

随着对手工卫生的需求不断增长和使用的便利性，掌上识别最近具有淡淡的发展，为人识别提供了有效的解决方案。尽管已经致力于该地区的许多努力，但仍然不确定无接触棕榈污染的辨别能力，特别是对于大规模数据集。为了解决问题，在本文中，我们构建了一个大型无尺寸的棕榈纹数据集，其中包含了来自1167人的2334个棕榈手机。为了我们的最佳知识，它是有史以来最大的非接触式手掌形象基准，而是关于个人和棕榈树的数量收集。此外，我们提出了一个名为3DCPN（3D卷积棕榈识别网络）的无棕榈识别的新型深度学习框架，它利用3D卷积来动态地集成多个Gabor功能。在3DCPN中，嵌入到第一层中的新颖变体以增强曲线特征提取。通过精心设计的集合方案，然后将低级别的3D功能卷积以提取高级功能。最后在顶部，我们设置了基于地区的损失功能，以加强全局和本地描述符的辨别能力。为了展示我们方法的优越性，在我们的数据集和其他流行数据库同济和IITD上进行了广泛的实验，其中结果显示了所提出的3DCPN实现最先进的或可比性的性能。

translated by 谷歌翻译

Fingerprint Presentation Attack Detection by Channel-wise Feature Denoising

Feng Liu , Zhe Kong , Haozhe Liu , Wentian Zhang , Linlin Shen

分类：计算机视觉

2021-11-15

由于攻击材料的多样性，指纹识别系统（AFRSS）容易受到恶意攻击的影响。为AFRSS的安全性和可靠性提出有效的指纹介绍攻击检测（PAD）方法是非常重要的。然而，当前焊盘方法通常在新攻击材料或传感器设置下具有差的鲁棒性。因此，本文通过考虑处理先前作品中忽略的冗余“噪声”信息，提出了一种新的通道 - 方向特征去噪焊盘（CFD-PAD）方法。所提出的方法通过加权每个信道的重要性并找到这些鉴别性信道和“噪声”通道来学习指纹图像的重要特征。然后，在特征图中抑制了“噪声”通道的传播以减少干扰。具体地，设计了PA-Adaption损耗来限制特征分布，以使实时指纹的特征分布更具聚合和欺骗指纹更多的分散。我们在Livdet 2017上评估的实验结果表明，当假检出率等于1.0％（TDR @FDR = 1％）时，我们所提出的CFD-PAD可以达到2.53％的ace和93.83％的真实检测率，并且优于基于最佳的单一模型在ACE（2.53％与4.56％）和TDR @FDR方面的方法明显显着（93.83％，93.83％\％），这证明了该方法的有效性。虽然我们已经实现了与最先进的基于多模型的方法相比的可比结果，但是通过我们的方法仍然可以实现TDR @ FDR增加到91.19％的1％至93.83％。此外，与基于多模型的多模型的方法相比，我们的模型更简单，更轻，更高效，更高效地实现了74.76％的耗时减少。代码将公开。

translated by 谷歌翻译

Breast Cancer Classification using Deep Learned Features Boosted with Handcrafted Features

Unaiza Sajid , Dr. Rizwan Ahmed Khan , Dr. Shahid Munir Shah , Dr. Sheeraz Arif

分类：计算机视觉 | 机器学习

2022-06-26

乳腺癌是全球女性死亡的主要原因之一。如果在高级阶段检测到很难治疗，但是，早期发现可以显着增加生存机会，并改善数百万妇女的生活。鉴于乳腺癌的普遍流行，研究界提出早期检测，分类和诊断的框架至关重要。与医生协调的人工智能研究社区正在开发此类框架以自动化检测任务。随着研究活动的激增，加上大型数据集的可用性和增强的计算能力，预计AI框架结果将有助于更多的临床医生做出正确的预测。在本文中，提出了使用乳房X线照片对乳腺癌进行分类的新框架。所提出的框架结合了从新颖的卷积神经网络（CNN）功能中提取的强大特征，以及手工制作的功能，包括猪（定向梯度的直方图）和LBP（本地二进制图案）。在CBIS-DDSM数据集上获得的结果超过了技术状态。

translated by 谷歌翻译

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

Ramprasaath R. Selvaraju , Michael Cogswell , Abhishek Das , Ramakrishna Vedantam , Devi Parikh , Dhruv Batra

分类：

2016-10-07

We propose a technique for producing 'visual explanations' for decisions from a large class of Convolutional Neural Network (CNN)-based models, making them more transparent and explainable.Our approach -Gradient-weighted Class Activation Mapping (Grad-CAM), uses the gradients of any target concept (say 'dog' in a classification network or a sequence of words in captioning network) flowing into the final convolutional layer to produce a coarse localization map highlighting the important regions in the image for predicting the concept.Unlike previous approaches, Grad-CAM is applicable to a wide variety of CNN model-families: (1) CNNs with fullyconnected layers (e.g. VGG), (2) CNNs used for structured outputs (e.g. captioning), (3) CNNs used in tasks with multimodal inputs (e.g. visual question answering) or reinforcement learning, all without architectural changes or re-training. We combine Grad-CAM with existing fine-grained visualizations to create a high-resolution class-discriminative vi-

translated by 谷歌翻译