Different from the general visual classification, some classification tasks are more challenging as they need the professional categories of the images. In the paper, we call them expert-level classification. Previous fine-grained vision classification (FGVC) has made many efforts on some of its specific sub-tasks. However, they are difficult to expand to the general cases which rely on the comprehensive analysis of part-global correlation and the hierarchical features interaction. In this paper, we propose Expert Network (ExpNet) to address the unique challenges of expert-level classification through a unified network. In ExpNet, we hierarchically decouple the part and context features and individually process them using a novel attentive mechanism, called Gaze-Shift. In each stage, Gaze-Shift produces a focal-part feature for the subsequent abstraction and memorizes a context-related embedding. Then we fuse the final focal embedding with all memorized context-related embedding to make the prediction. Such an architecture realizes the dual-track processing of partial and global information and hierarchical feature interactions. We conduct the experiments over three representative expert-level classification tasks: FGVC, disease classification, and artwork attributes classification. In these experiments, superior performance of our ExpNet is observed comparing to the state-of-the-arts in a wide range of fields, indicating the effectiveness and generalization of our ExpNet. The code will be made publicly available.
translated by 谷歌翻译
弱监督对象本地化(WSOL)旨在仅使用图像级标签作为监控本地化对象区域。最近,通过生成前景预测映射(FPM)来实现新的范例来实现本地化任务。现有的基于FPM的方法使用跨熵(CE)来评估前景预测映射并引导发电机的学习。我们争辩使用激活值来实现更高效的学习。它基于实验观察,对于培训的网络,CE当前景掩模仅覆盖物体区域的一部分时,CE会聚到零。虽然激活值增加,直到掩码扩展到对象边界,这表明可以通过使用激活值来学习更多对象区域。在本文中,我们提出了背景激活抑制(BAS)方法。具体地,设计激活地图约束模块(AMC)以通过抑制背景激活值来促进生成器的学习。同时,通过使用前景区域指导和区域约束,BAS可以学习对象的整个区域。此外,在推理阶段,我们考虑不同类别的预测映射,以获得最终的本地化结果。广泛的实验表明,BAS通过CUB-200-2011和ILSVRC数据集的基线方法实现了显着和一致的改进。
translated by 谷歌翻译
弱监督对象本地化(WSOL)旨在仅通过使用图像级标签来学习对象本地化器。基于卷积神经网络(CNN)的技术通常导致突出显示物体的最辨别部分,同时忽略整个对象范围。最近,变压器架构已经部署到WSOL,以捕获具有自我关注机制和多层的Perceptron结构的远程特征依赖性。然而,变压器缺乏CNN所固有的局部感应偏差,因此可以恶化WSOL中的局部特征细节。在本文中,我们提出了一种基于变压器的新型框架,称为LCTR(局部连续性变压器),该框架被称为LCTR(局部连续性变压器),该框架在长期特征依赖项中提高全局特征的本地感知能力。为此,我们提出了一个关系的修补程序注意模块(RPAM),其考虑全球跨补丁信息。我们进一步设计了一个CUE挖掘模块(CDM),它利用本地特征来指导模型的学习趋势,以突出弱局部响应。最后,在两个广泛使用的数据集,即Cub-200-2011和ILSVRC上进行综合实验,以验证我们方法的有效性。
translated by 谷歌翻译
弱监督对象本地化(WSOL)是一个具有挑战性的任务,可以仅通过类别标签本地化对象。然而,分类和定位之间存在矛盾,因为准确的分类网络倾向于注意物体的歧视区域而不是整体。我们提出这种歧视是由基于CAM的方法选择的手工阈值引起的。因此,我们提出了具有视觉变压器(VIV)骨干的令牌(CAFT)的聚类和过滤器,以以另一种方式解决这个问题。 CAFT首先将图像的修补程序令牌拆分为VIT和群集输出令牌以生成对象的初始掩码。其次,CAFT将初始掩码视为伪标签,以训练骨干后骨干的浅卷积头(注意滤波器,atf)直接从令牌中提取掩码。然后,CAFT将图像分成零件,分别输出掩码并将它们合并到一个精制的掩模中。最后,新的ATF培训在精制的掩模上,并用于预测对象的框。实验验证CAFT优于上一个工作,并分别在CUB-200和Imagenet-1K上与地面真理类实现97.55 \%和69.86 \%。 CAFT提供了一种思考WSOL任务的新方法。
translated by 谷歌翻译
弱监督的对象定位(WSOL)旨在仅通过使用图像级标签来定位对象,由于其在实际应用中的注释成本较低,因此引起了很多关注。最近的研究利用自我发挥作用在视觉变压器中对远程依赖性的优势来重新活跃的语义区域,旨在避免在传统的类激活映射(CAM)中进行部分激活。但是,变压器中的远程建模忽略了对象的固有空间连贯性,并且通常会扩散远离对象边界的语义感知区域,从而使定位结果明显更大或更小。为了解决此类问题,我们引入了一个简单而有效的空间校准模块(SCM),以进行准确的WSOL,将斑块令牌的语义相似性及其空间关系融合到统一的扩散模型中。具体而言,我们引入了一个可学习的参数,以动态调整语义相关性和空间上下文强度,以进行有效的信息传播。实际上,SCM被设计为变压器的外部模块,可以在推断过程中删除以降低计算成本。对象敏感的定位能力通过在训练阶段的优化中隐式嵌入到变压器编码中。它使生成的注意力图能够捕获锐利对象边界并过滤对象 - 近距离背景区域。广泛的实验结果证明了该方法的有效性,该方法在CUB-200和Imagenet-1K基准测试基准上的表现明显优于其对应物TS-CAM。该代码可从https://github.com/164140757/scm获得。
translated by 谷歌翻译
细粒度的图像识别是具有挑战性的,因为鉴别性线索通常是碎片化的,无论是来自单个图像还是多个图像。尽管有重要的改进,但大多数现有方法仍然专注于从单个图像中的最辨别部分,忽略其他地区的信息细节,缺乏从其他相关图像的线索考虑。在本文中,我们从新的角度分析了微粒图像识别的困难,并提出了一种具有峰值抑制模块和知识引导模块的变压器架构,其尊重单个图像中辨别特征的多样化和鉴别线索的聚合在多个图像中。具体地,峰值抑制模块首先利用线性投影来将输入图像转换为顺序令牌。然后,它基于变压器编码器产生的注意响应来阻止令牌。该模块因特征学习过程中的最辨别部分而受到惩罚,因此,提高了忽视区域的信息利用。知识引导模块将从峰值抑制模块生成的基于图像的表示与被学习的知识嵌入集进行比较,以获得知识响应系数。之后,使用响应系数作为分类分数,将知识学习形式形式化为分类问题。在训练期间更新知识嵌入和基于图像的表示,以便知识嵌入包括不同图像的鉴别线索。最后,我们将所获得的知识嵌入纳入基于形象的表示,作为全面的表示,导致性能显着提高。对六个流行数据集的广泛评估证明了所提出的方法的优势。
translated by 谷歌翻译
基于弱监管的像素 - 明显的密集预测任务当前使用类注意映射(CAM)以产生伪掩模作为地面真理。然而,现有方法通常取决于诱人的训练模块,这可能会引入磨削计算开销和复杂的培训程序。在这项工作中,提出了语义结构知识推断(SSA)来探索隐藏在基于CNN的网络的不同阶段的语义结构信息,以在模型推断中产生高质量凸轮。具体地,首先提出语义结构建模模块(SSM)来生成类别不可知语义相关表示,其中每个项目表示一个类别对象和所有其他类别之间的亲和程度。然后,探索结构化特征表示通过点产品操作来抛光不成熟的凸轮。最后,来自不同骨架级的抛光凸轮融合为输出。所提出的方法具有没有参数的优点,不需要培训。因此,它可以应用于广泛的弱监管像素 - 明智的密集预测任务。对弱势监督对象本地化和弱监督语义分割任务的实验结果证明了该方法的效力,这使得新的最先进的结果实现了这两项任务。
translated by 谷歌翻译
采用注意机制的普遍性引起了人们对注意力分布的解释性的关注。尽管它提供了有关模型如何运行的见解,但由于对模型预测的解释仍然非常怀疑,但它利用了注意力。社区仍在寻求更容易解释的策略,以更好地识别最终决定最大的本地活跃地区。为了提高现有注意模型的解释性,我们提出了一种新型的双线性代表性非参数注意(BR-NPA)策略,该策略捕获了与任务相关的人类解剖信息。目标模型首先要蒸馏以具有高分辨率中间特征图。然后,根据本地成对特征相似性将代表性特征分组,以产生更精确的,更精确的注意力图,突出显示输入的任务相关部分。获得的注意图根据化合物特征的活性水平进行对,该功能提供了有关突出显示区域的重要水平的信息。提出的模型可以很容易地在涉及分类的各种现代深层模型中进行调整。与最先进的注意力模型和可视化方法相比,广泛的定量和定性实验显示了更全面和准确的视觉解释,以及跨多个任务的可视化方法,包括细粒度的图像分类,很少的射击分类和人重新识别,而无需损害该方法分类精度。提出的可视化模型急切地阐明了神经网络如何在不同任务中以不同的方式“注意他们的注意力”。
translated by 谷歌翻译
旨在识别来自子类别的对象的细粒度视觉分类(FGVC)是一个非常具有挑战性的任务,因为固有的微妙级别差异。大多数现有工程主要通过重用骨干网络来提取检测到的歧视区域的特征来解决这个问题。然而,该策略不可避免地使管道复杂化并推动所提出的区域,其中大多数物体的大多数部分未能定位真正重要的部分。最近,视觉变压器(VIT)在传统的分类任务中表现出其强大的表现。变压器的自我关注机制将每个补丁令牌链接到分类令牌。在这项工作中,我们首先评估vit框架在细粒度识别环境中的有效性。然后,由于注意力的强度,可以直观地被认为是令牌重要性的指标,我们进一步提出了一种新颖的部分选择模块,可以应用于我们整合变压器的所有原始注意力的变压器架构进入注意地图,用于指导网络以有效,准确地选择鉴别的图像斑块并计算它们的关系。应用对比损失来扩大混淆类的特征表示之间的距离。我们将基于增强的变压器的模型Transfg命名,并通过在我们实现最先进的绩效的五个流行的细粒度基准测试中进行实验来展示它的价值。提出了更好地理解模型的定性结果。
translated by 谷歌翻译
在深度学习方法进行自动医学图像分析的最新成功之前,从业者使用手工制作的放射线特征来定量描述当地的医学图像斑块。但是,提取区分性放射素特征取决于准确的病理定位,这在现实世界中很难获得。尽管疾病分类和胸部X射线的定位方面取得了进步,但许多方法未能纳入临床知名的领域知识。由于这些原因,我们提出了一个放射素引导的变压器(RGT),该变压器(RGT)与\ textit {global}图像信息与\ textit {local}知识引导的放射线信息信息提供准确的心肺病理学定位和分类\ textit {无需任何界限盒{ }。 RGT由图像变压器分支,放射线变压器分支以及聚集图像和放射线信息的融合层组成。 RGT使用对图像分支的自我注意事项,提取了一个边界框来计算放射线特征,该特征由放射线分支进一步处理。然后通过交叉注意层融合学习的图像和放射线特征。因此,RGT利用了一种新型的端到端反馈回路,该回路只能使用图像水平疾病标签引导精确的病理定位。 NIH CHESTXRAR数据集的实验表明,RGT的表现优于弱监督疾病定位的先前作品(在各个相交联合阈值的平均余量为3.6 \%)和分类(在接收器操作方下平均1.1 \%\%\%\%曲线)。接受代码和训练有素的模型将在接受后发布。
translated by 谷歌翻译
细粒度的视觉分类(FGVC)旨在识别类似下属类别的对象,这对于人类的准确自动识别需求而言是挑战性和实用性的。大多数FGVC方法都集中在判别区域开采的注意力机制研究上,同时忽略了它们的相互依赖性和组成的整体对象结构,这对于模型的判别信息本地化和理解能力至关重要。为了解决上述限制,我们建议结构信息建模变压器(SIM-TRANS)将对象结构信息纳入变压器,以增强判别性表示学习,以包含外观信息和结构信息。具体而言,我们将图像编码为一系列贴片令牌,并使用两个精心设计的模块构建强大的视觉变压器框架:(i)提出了结构信息学习(SIL)模块以挖掘出在该模块中的空间上下文关系,对象范围借助变压器的自我发项权重,进一步注入导入结构信息的模型; (ii)引入了多级特征增强(MFB)模块,以利用类中多级特征和对比度学习的互补性,以增强功能鲁棒性,以获得准确的识别。提出的两个模块具有轻加权,可以插入任何变压器网络并轻松地端到端训练,这仅取决于视觉变压器本身带来的注意力重量。广泛的实验和分析表明,所提出的SIM-TRANS在细粒度的视觉分类基准上实现了最先进的性能。该代码可在https://github.com/pku-icst-mipl/sim-trans_acmmm2022上获得。
translated by 谷歌翻译
我们考虑临床应用异常定位问题。虽然深入学习推动了最近的医学成像进展,但许多临床挑战都没有完全解决,限制了其更广泛的使用。虽然最近的方法报告了高的诊断准确性,但医生因普遍缺乏算法决策和解释性而涉及诊断决策的这些算法,这是关注这些算法。解决这个问题的一种潜在方法是进一步培训这些模型,以便除了分类它们之外,除了分类。然而,准确地进行这一临床专家需要大量的疾病定位注释,这是对大多数应用程序来实现昂贵的任务。在这项工作中,我们通过一种新的注意力弱监督算法来解决这些问题,该弱势监督算法包括分层关注挖掘框架,可以以整体方式统一激活和基于梯度的视觉关注。我们的关键算法创新包括明确序号注意约束的设计,实现了以弱监督的方式实现了原则的模型培训,同时还通过本地化线索促进了产生视觉关注驱动的模型解释。在两个大型胸部X射线数据集(NIH Chescx-Ray14和Chexpert)上,我们展示了对现有技术的显着本地化性能,同时也实现了竞争的分类性能。我们的代码可在https://github.com/oyxhust/ham上找到。
translated by 谷歌翻译
弱监督的语义分割(WSSS)是具有挑战性的,特别是当使用图像级标签来监督像素级预测时。为了弥合它们的差距,通常生成一个类激活图(CAM)以提供像素级伪标签。卷积神经网络中的凸轮患有部分激活,即,仅激活最多的识别区域。另一方面,基于变压器的方法在探索具有长范围依赖性建模的全球背景下,非常有效,可能会减轻“部分激活”问题。在本文中,我们提出了基于第一变压器的WSSS方法,并介绍了梯度加权元素明智的变压器注意图(GetAn)。 GetaN显示所有特征映射元素的精确激活,跨越变压器层显示对象的不同部分。此外,我们提出了一种激活感知标签完成模块来生成高质量的伪标签。最后,我们将我们的方法纳入了使用双向向上传播的WSS的结束框架。 Pascal VOC和Coco的广泛实验表明,我们的结果通过显着的保证金击败了最先进的端到端方法,并且优于大多数多级方法.M大多数多级方法。
translated by 谷歌翻译
Fine-grained visual recognition is to classify objects with visually similar appearances into subcategories, which has made great progress with the development of deep CNNs. However, handling subtle differences between different subcategories still remains a challenge. In this paper, we propose to solve this issue in one unified framework from two aspects, i.e., constructing feature-level interrelationships, and capturing part-level discriminative features. This framework, namely PArt-guided Relational Transformers (PART), is proposed to learn the discriminative part features with an automatic part discovery module, and to explore the intrinsic correlations with a feature transformation module by adapting the Transformer models from the field of natural language processing. The part discovery module efficiently discovers the discriminative regions which are highly-corresponded to the gradient descent procedure. Then the second feature transformation module builds correlations within the global embedding and multiple part embedding, enhancing spatial interactions among semantic pixels. Moreover, our proposed approach does not rely on additional part branches in the inference time and reaches state-of-the-art performance on 3 widely-used fine-grained object recognition benchmarks. Experimental results and explainable visualizations demonstrate the effectiveness of our proposed approach. The code can be found at https://github.com/iCVTEAM/PART.
translated by 谷歌翻译
通过使用图像级分类掩模监督其学习过程,弱监督对象本地化(WSOL)放宽对对象本地化的密度注释的要求。然而,当前的WSOL方法遭受背景位置的过度激活,并且需要后处理以获得定位掩模。本文将这些问题归因于背景提示的不明显,并提出了背景感知分类激活映射(B-CAM),以便仅使用图像级标签同时学习对象和背景的本地化分数。在我们的B-CAM中,两个图像级功能,由潜在背景和对象位置的像素级别功能聚合,用于从对象相关的背景中净化对象功能,并表示纯背景样本的功能,分别。然后基于这两个特征,学习对象分类器和背景分类器,以确定二进制对象本地化掩码。我们的B-CAM可以基于提出的错开分类损失以端到端的方式培训,这不仅可以改善对象本地化,而且还抑制了背景激活。实验表明,我们的B-CAM在Cub-200,OpenImages和VOC2012数据集上优于一级WSOL方法。
translated by 谷歌翻译
变形金刚占据了自然语言处理领域,最近影响了计算机视觉区域。在医学图像分析领域中,变压器也已成功应用于全栈临床应用,包括图像合成/重建,注册,分割,检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言,我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次,我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构,并讨论其局限性。在这篇综述中,我们调查了围绕在不同学习范式中使用变压器,提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。
translated by 谷歌翻译
在医学图像上,许多组织/病变可能模棱两可。这就是为什么一群临床专家通常会注释医疗细分以减轻个人偏见的原因。但是,这种临床常规也为机器学习算法的应用带来了新的挑战。如果没有确定的基础真相,将很难训练和评估深度学习模型。当从不同的级别收集注释时,一个共同的选择是多数票。然而,这样的策略忽略了分级专家之间的差异。在本文中,我们考虑使用校准的观察者间的不确定性来预测分割的任务。我们注意到,在临床实践中,医学图像分割通常用于帮助疾病诊断。受到这一观察的启发,我们提出了诊断优先的原则,该原则是将疾病诊断作为校准观察者间分段不确定性的标准。遵循这个想法,提出了一个名为诊断的诊断框架(DIFF)以估算从原始图像中进行诊断,从原始图像进行诊断。特别是,DIFF将首先学会融合多论者分段标签,以最大程度地提高单个地面真相疾病诊断表现。我们将融合的地面真相称为诊断第一基地真实(DF-GT)。我们验证了DIFF对三个不同的医学分割任务的有效性:对眼底图像的OD/OC分割,超声图像上的甲状腺结节分割以及皮肤镜图像上的皮肤病变分割。实验结果表明,拟议的DIFF能够显着促进相应的疾病诊断,这表现优于先前的最先进的多评论者学习方法。
translated by 谷歌翻译
弱监督的对象本地化是一项具有挑战性的任务,旨在将对象定位具有粗糙注释(例如图像类别)。现有的深网方法主要基于类激活图,该图的重点是突出显示歧视性局部区域,同时忽略了整个对象。此外,基于变压器的技术不断地重点放在阻碍识别完整对象的能力的背景上。为了解决这些问题,我们提出了一种称为令牌改进变压器(TRT)的重新注意事项机制,该机制捕获了对象级语义,以很好地指导本地化。具体而言,TRT引入了一个名为令牌优先级评分模块(TPSM)的新型模块,以抑制背景噪声的效果,同时重点放在目标对象上。然后,我们将类激活图作为语义意识的输入合并,以将注意力图限制为目标对象。在两个基准测试上进行的广泛实验展示了我们提出的方法与现有方法的优势,该方法具有带有图像类别注释的现有方法。源代码可在\ url {https://github.com/su-hui-zz/reattentiontransformer}中获得。
translated by 谷歌翻译
人类参加,过程和分类给定图像的方式有可能使深层学习模型的性能大大效益。利用人类聚焦的地方可以在偏离基本特征时纠正模型以获得正确的决策。为了验证人类注意力包含诸如细粒度分类等决策过程的有价值的信息,我们可以比较人类注意和模型解释在发现重要特征方面。为了实现这一目标,我们为细粒度分类数据集幼崽收集人的凝视数据,并建立一个名为CUB-GHA的数据集(基于凝视的人类注意)。此外,我们提出了凝视增强培训(GAT)和知识融合网络(KFN),将人类凝视知识整合到分类模型中。我们在Cub-Gha和最近发布的医疗数据集CXR眼中实施了我们的胸部X射线图像的建议,包括从放射科医师收集的凝视数据。我们的结果表明,整合人类注意知识有效效益,有效地进行分类,例如,在CXR上改善基线4.38%。因此,我们的工作不仅提供了在细粒度分类中了解人类注意的有价值的见解,而且还有助于将人类凝视与计算机视觉任务集成的未来研究。 CUB-GHA和代码可在https://github.com/yaorong0921/cub -gha获得。
translated by 谷歌翻译
很少有细粒度的分类和人搜索作为独特的任务和文学作品,已经分别对待了它们。但是,仔细观察揭示了重要的相似之处:这两个任务的目标类别只能由特定的对象细节歧视;相关模型应概括为新类别,而在培训期间看不到。我们提出了一个适用于这两个任务的新型统一查询引导网络(QGN)。QGN由一个查询引导的暹罗引文和兴奋子网组成,该子网还重新进行了所有网络层的查询和画廊功能,一个查询实习的区域建议特定于特定于特定的本地化以及查询指导的相似性子网络子网本网络用于公制学习。QGN在最近的一些少数细颗粒数据集上有所改善,在幼崽上的其他技术优于大幅度。QGN还对人搜索Cuhk-Sysu和PRW数据集进行了竞争性执行,我们在其中进行了深入的分析。
translated by 谷歌翻译