由于复杂且巨大的模型结构,大多数现有的显着对象检测(SOD)模型很难应用。尽管提出了一些轻巧的模型,但准确性几乎不令人满意。在本文中,我们设计了一种新颖的语义引导的上下文融合网络(SCFNET),该网络重点介绍了多层次特征的交互式融合,以进行准确有效的显着对象检测。此外,我们将知识蒸馏应用于SOD任务,并提供相当大的数据集KD-SOD80K。详细说明,我们通过未标记的图像将丰富的知识从经验丰富的老师转移到未经训练的SCFNET,使SCFNET能够学习强大的概括能力,以更准确地检测显着对象。基于知识蒸馏的SCFNET(KDSCFNET)具有与最先进的重量级方法相当的精度,该方法少于1M参数和174 fps实时检测速度。广泛的实验证明了所提出的蒸馏方法和SOD框架的鲁棒性和有效性。代码和数据:https://github.com/zhangjincv/kd-scfnet。
translated by 谷歌翻译
完全监督的显着对象检测(SOD)方法取得了长足的进步,但是这种方法通常依赖大量的像素级注释,这些注释耗时且耗时。在本文中,我们专注于混合标签下的新的弱监督SOD任务,其中监督标签包括传统无监督方法生成的大量粗标签和少量的真实标签。为了解决此任务中标签噪声和数量不平衡问题的问题,我们设计了一个新的管道框架,采用三种复杂的培训策略。在模型框架方面,我们将任务分解为标签细化子任务和显着对象检测子任务,它们相互合作并交替训练。具体而言,R-NET设计为配备有指导和聚合机制的搅拌机的两流编码器模型(BGA),旨在纠正更可靠的伪标签的粗标签,而S-NET是可更换的。由当前R-NET生成的伪标签监督的SOD网络。请注意,我们只需要使用训练有素的S-NET进行测试。此外,为了确保网络培训的有效性和效率,我们设计了三种培训策略,包括替代迭代机制,小组智慧的增量机制和信誉验证机制。五个草皮基准的实验表明,我们的方法在定性和定量上都针对弱监督/无监督/无监督的方法实现了竞争性能。
translated by 谷歌翻译
尽管当前的显着对象检测(SOD)作品已经取得了重大进展,但在预测的显着区域的完整性方面,它们受到限制。我们在微观和宏观水平上定义了完整性的概念。具体而言,在微观层面上,该模型应突出显示属于某个显着对象的所有部分。同时,在宏观层面上,模型需要在给定图像中发现所有显着对象。为了促进SOD的完整性学习,我们设计了一个新颖的完整性认知网络(ICON),该网络探讨了学习强大完整性特征的三个重要组成部分。 1)与现有模型不同,该模型更多地集中在功能可区分性上,我们引入了各种功能集合(DFA)组件,以汇总具有各种接受场(即内核形状和背景)的特征,并增加了功能多样性。这种多样性是挖掘积分显着物体的基础。 2)基于DFA功能,我们引入了一个完整性通道增强(ICE)组件,其目标是增强功能通道,以突出积分显着对象,同时抑制其他分心的对象。 3)提取增强功能后,采用零件整体验证(PWV)方法来确定零件和整个对象特征是否具有很强的一致性。这样的部分协议可以进一步改善每个显着对象的微观完整性。为了证明我们图标的有效性,对七个具有挑战性的基准进行了全面的实验。我们的图标在广泛的指标方面优于基线方法。值得注意的是,我们的图标在六个数据集上的平均假阴影(FNR)(FNR)方面,相对于以前的最佳模型的相对改善约为10%。代码和结果可在以下网址获得:https://github.com/mczhuge/icon。
translated by 谷歌翻译
在线知识蒸馏会在所有学生模型之间进行知识转移,以减轻对预培训模型的依赖。但是,现有的在线方法在很大程度上依赖于预测分布并忽略了代表性知识的进一步探索。在本文中,我们提出了一种用于在线知识蒸馏的新颖的多尺度功能提取和融合方法(MFEF),其中包括三个关键组成部分:多尺度功能提取,双重注意和功能融合,以生成更有信息的特征图,以用于蒸馏。提出了在通道维度中的多尺度提取利用分界线和catenate,以提高特征图的多尺度表示能力。为了获得更准确的信息,我们设计了双重注意,以适应重要的渠道和空间区域。此外,我们通过功能融合来汇总并融合了以前的处理功能地图,以帮助培训学生模型。关于CIF AR-10,CIF AR-100和Cinic-10的广泛实验表明,MFEF转移了更有益的代表性知识,以蒸馏和胜过各种网络体系结构之间的替代方法
translated by 谷歌翻译
准确的语义分割模型通常需要大量的计算资源,从而抑制其在实际应用中的使用。最近的作品依靠精心制作的轻质模型来快速推断。但是,这些模型不能灵活地适应不同的准确性和效率要求。在本文中,我们提出了一种简单但有效的微小语义细分(SLIMSEG)方法,该方法可以在推理期间以不同的能力执行,具体取决于所需的准确性效率 - 折衷。更具体地说,我们在训练过程中采用逐步向下知识蒸馏采用参数化通道。观察到每个子模型的分割结果之间的差异主要在语义边界附近,我们引入了额外的边界指导语义分割损失,以进一步提高每个子模型的性能。我们表明,我们提出的具有各种主流网络的Slimseg可以产生灵活的模型,从而使计算成本的动态调整和比独立模型更好。关于语义分割基准,城市景观和Camvid的广泛实验证明了我们框架的概括能力。
translated by 谷歌翻译
大型预训练的变压器是现代语义分割基准的顶部,但具有高计算成本和冗长的培训。为了提高这种约束,我们从综合知识蒸馏的角度来研究有效的语义分割,并考虑弥合多源知识提取和特定于变压器特定的斑块嵌入之间的差距。我们提出了基于变压器的知识蒸馏(TransKD)框架,该框架通过蒸馏出大型教师变压器的特征地图和补丁嵌入来学习紧凑的学生变形金刚,绕过长期的预训练过程并将FLOPS降低> 85.0%。具体而言,我们提出了两个基本和两个优化模块:(1)交叉选择性融合(CSF)可以通过通道注意和层次变压器内的特征图蒸馏之间的知识转移; (2)嵌入对齐(PEA)在斑块过程中执行尺寸转换,以促进贴片嵌入蒸馏; (3)全局本地上下文混合器(GL-MIXER)提取了代表性嵌入的全局和局部信息; (4)嵌入助手(EA)是一种嵌入方法,可以无缝地桥接老师和学生模型,并具有老师的渠道数量。关于CityScapes,ACDC和NYUV2数据集的实验表明,TransKD的表现优于最先进的蒸馏框架,并竞争了耗时的预训练方法。代码可在https://github.com/ruipingl/transkd上找到。
translated by 谷歌翻译
Fully convolutional neural networks (FCNs) have shown their advantages in the salient object detection task. However, most existing FCNs-based methods still suffer from coarse object boundaries. In this paper, to solve this problem, we focus on the complementarity between salient edge information and salient object information. Accordingly, we present an edge guidance network (EGNet) for salient object detection with three steps to simultaneously model these two kinds of complementary information in a single network. In the first step, we extract the salient object features by a progressive fusion way. In the second step, we integrate the local edge information and global location information to obtain the salient edge features. Finally, to sufficiently leverage these complementary features, we couple the same salient edge features with salient object features at various resolutions. Benefiting from the rich edge information and location information in salient edge features, the fused features can help locate salient objects, especially their boundaries more accurately. Experimental results demonstrate that the proposed method performs favorably against the state-of-the-art methods on six widely used datasets without any pre-processing and post-processing. The source code is available at http: //mmcheng.net/egnet/.
translated by 谷歌翻译
现有的RGB-D SOD方法主要依赖于对称的两个基于CNN的网络来分别提取RGB和深度通道特征。但是,对称传统网络结构有两个问题:首先,CNN在学习全球环境中的能力是有限的。其次,对称的两流结构忽略了模态之间的固有差异。在本文中,我们提出了一个基于变压器的非对称网络(TANET),以解决上述问题。我们采用了变压器(PVTV2)的强大功能提取能力,从RGB数据中提取全局语义信息,并设计轻巧的CNN骨架(LWDEPTHNET),以从深度数据中提取空间结构信息,而无需预训练。不对称混合编码器(AHE)有效地减少了模型中参数的数量,同时不牺牲性能而增加速度。然后,我们设计了一个跨模式特征融合模块(CMFFM),该模块增强并互相融合了RGB和深度特征。最后,我们将边缘预测添加为辅助任务,并提出一个边缘增强模块(EEM)以生成更清晰的轮廓。广泛的实验表明,我们的方法在六个公共数据集上实现了超过14种最先进的RGB-D方法的卓越性能。我们的代码将在https://github.com/lc012463/tanet上发布。
translated by 谷歌翻译
We solve the problem of salient object detection by investigating how to expand the role of pooling in convolutional neural networks. Based on the U-shape architecture, we first build a global guidance module (GGM) upon the bottom-up pathway, aiming at providing layers at different feature levels the location information of potential salient objects. We further design a feature aggregation module (FAM) to make the coarse-level semantic information well fused with the fine-level features from the top-down pathway. By adding FAMs after the fusion operations in the topdown pathway, coarse-level features from the GGM can be seamlessly merged with features at various scales. These two pooling-based modules allow the high-level semantic features to be progressively refined, yielding detail enriched saliency maps. Experiment results show that our proposed approach can more accurately locate the salient objects with sharpened details and hence substantially improve the performance compared to the previous state-of-the-arts. Our approach is fast as well and can run at a speed of more than 30 FPS when processing a 300 × 400 image. Code can be found at http://mmcheng.net/poolnet/.
translated by 谷歌翻译
在当前的突出物体检测网络中,最流行的方法是使用U形结构。然而,大量的参数导致更多的计算和存储资源的消耗,无法在有限的存储器设备上部署在有限的存储器设备上不可行。其他一些浅层网络与U形结构相比不会保持相同的精度,并且具有更多参数的深网络结构不会收敛到全球最小损耗,速度很大。为了克服所有这些缺点,我们提出了一种具有三种贡献的新的深度卷积网络架构:(1)使用较小的卷积神经网络(CNN)在我们改进的凸起物体中压缩模型,包括压缩和强化提取模块(ISFCREM)以减少模型的参数。 (2)在ISFCREM中引入信道注意机制,以称量不同的通道,以提高特征表示的能力。 (3)应用新优化器在培训期间累积长期梯度信息,以便自适应地调整学习率。结果表明,该方法几乎可以将模型压缩到原始尺寸的1/3,而不会在与其他模型相比的六个广泛使用的突出物体检测的六个广泛使用的数据集中更快地播放。我们的代码在https://gitee.com/binzhangbinzhangbin/code-a-novel-tentent-based-network-for-fast-salient-object-detection.git
translated by 谷歌翻译
玻璃在现实世界中非常普遍。受玻璃区域的不确定性以及玻璃背后的各种复杂场景的影响,玻璃的存在对许多计算机视觉任务构成了严重的挑战,从而使玻璃分割成为重要的计算机视觉任务。玻璃没有自己的视觉外观,而只能传输/反映其周围环境的外观,从而与其他常见对象根本不同。为了解决此类具有挑战性的任务,现有方法通常会探索并结合深网络中不同特征级别的有用线索。由于存在级别不同的特征之间的特征差距,即,深层特征嵌入了更多高级语义,并且更好地定位目标对象,而浅层特征具有更大的空间尺寸,并保持更丰富,更详细的低级信息,因此,将这些特征融合到天真的融合将导致亚最佳溶液。在本文中,我们将有效的特征融合到两个步骤中,以朝着精确的玻璃分割。首先,我们试图通过开发可区分性增强(DE)模块来弥合不同级别特征之间的特征差距,该模块使特定于级别的特征成为更具歧视性的表示,从而减轻了融合不兼容的特征。其次,我们设计了一个基于焦点和探索的融合(FEBF)模块,以通过突出显示常见并探索级别差异特征之间的差异,从而在融合过程中丰富挖掘有用的信息。
translated by 谷歌翻译
现有的凸起对象检测(SOD)方法主要依赖于基于CNN的U形结构,跳过连接以将全局上下文和局部空间细节分别用于分别用于定位突出对象和精炼对象细节至关重要。尽管取得了巨大成功,但CNN在学习全球背景下的能力是有限的。最近,由于其强大的全球依赖性建模,视觉变压器在计算机愿景中取得了革命性进展。但是,直接将变压器施加到SOD是次优,因为变压器缺乏学习局部空间表示的能力。为此,本文探讨了变压器和CNN的组合,以了解SOD的全球和本地表示。我们提出了一种基于变压器的非对称双侧U-Net(Abiu-net)。非对称双边编码器具有变压器路径和轻质CNN路径,其中两个路径在每个编码器阶段通信,以分别学习互补的全局背景和局部空间细节。非对称双边解码器还由两个路径组成,用于从变压器和CNN编码器路径处理特征,在每个解码器级的通信分别用于解码粗突出对象位置并分别找到粗糙的对象细节。两个编码器/解码器路径之间的这种通信使ABIU-Net能够分别利用变压器和CNN的自然特性来学习互补的全局和局部表示。因此,Abiu-Net为基于变压器的SOD提供了一种新的视角。广泛的实验表明,ABIU-NET对以前的最先进的SOD方法表现出有利。代码将被释放。
translated by 谷歌翻译
由于不规则的形状,正常和感染组织之间的各种尺寸和无法区分的边界,仍然是一种具有挑战性的任务,可以准确地在CT图像上进行Covid-19的感染病变。在本文中,提出了一种新的分段方案,用于通过增强基于编码器 - 解码器架构的不同级别的监督信息和融合多尺度特征映射来感染Covid-19。为此,提出了深入的协作监督(共同监督)计划,以指导网络学习边缘和语义的特征。更具体地,首先设计边缘监控模块(ESM),以通过将边缘监督信息结合到初始阶段的下采样的初始阶段来突出显示低电平边界特征。同时,提出了一种辅助语义监督模块(ASSM)来加强通过将掩码监督信息集成到稍后阶段来加强高电平语义信息。然后,通过使用注意机制来扩展高级和低电平特征映射之间的语义间隙,开发了一种注意融合模块(AFM)以融合不同级别的多个规模特征图。最后,在四个各种Covid-19 CT数据集上证明了所提出的方案的有效性。结果表明,提出的三个模块都是有希望的。基于基线(RESUNT),单独使用ESM,ASSM或AFM可以分别将骰子度量增加1.12 \%,1.95 \%,1.63 \%,而在我们的数据集中,通过将三个模型结合在一起可以上升3.97 \% 。与各个数据集的现有方法相比,所提出的方法可以在某些主要指标中获得更好的分段性能,并可实现最佳的泛化和全面的性能。
translated by 谷歌翻译
在语义分段中广泛采用知识蒸馏以降低计算成本。先前的知识蒸馏方法的语义分割方法的重点是像素的特征特征对齐和阶级内特征变化蒸馏,从特征空间,这对于语义分割很重要。为了解决此问题,我们提出了一种类间距离蒸馏(IDD)方法,以将特征空间中的类间距离从教师网络转移到学生网络。此外,语义分割是一项依赖位置的任务,因此我们利用位置信息蒸馏模块来帮助学生网络编码更多的位置信息。在三个受欢迎的数据集上进行了广泛的实验:CityScapes,Pascal VOC和ADE20K表明,我们的方法有助于提高语义细分模型的准确性并实现最先进的性能。例如。它在CityScapes数据集上的准确性将基准模型(“ PSPNET+RESNET18”)提高了7.50%。
translated by 谷歌翻译
神经网络的高计算成本阻止了RGB-D突出物体检测(SOD)的最新成功,从受益现实世界应用。因此,本文介绍了一种新颖的网络,Mobily,它专注于使用移动网络进行深度特征提取的高效RGB-D SOD。然而,移动网络在特征表示中的功能较小比麻烦的网络更强大。为此,我们观察到彩色图像的深度信息可以加强与SOD相关的特征表示,如果正确杠杆。因此,我们提出了一种隐式深度恢复(IDR)技术,以加强用于RGB-D SOD的移动网络的特征表示能力。 IDR仅在训练阶段采用并在测试期间省略,因此它是免费的。此外,我们提出了用于有效的多级特征聚合的紧凑金字塔精制(CPR),以获得具有清晰边界的突出对象。与IDR和CPR合并,Mobilesal在六个挑战RGB-D SOD数据集上具有更快的速度(450fps 320 $ 320的输入尺寸为320美元)和更少的参数(6.5米)。代码在https://mmcheng.net/mobilesal发布。
translated by 谷歌翻译
尽管已经开发了疫苗,并且国家疫苗接种率正在稳步提高,但2019年冠状病毒病(COVID-19)仍对世界各地的医疗保健系统产生负面影响。在当前阶段,从CT图像中自动分割肺部感染区域对于诊断和治疗COVID-19至关重要。得益于深度学习技术的发展,已经提出了一些针对肺部感染细分的深度学习解决方案。但是,由于分布分布,复杂的背景干扰和界限模糊,现有模型的准确性和完整性仍然不令人满意。为此,我们在本文中提出了一个边界引导的语义学习网络(BSNET)。一方面,结合顶级语义保存和渐进式语义集成的双分支语义增强模块旨在建模不同的高级特征之间的互补关系,从而促进产生更完整的分割结果。另一方面,提出了镜像对称边界引导模块,以以镜像对称方式准确检测病变区域的边界。公开可用数据集的实验表明,我们的BSNET优于现有的最新竞争对手,并实现了44 fps的实时推理速度。
translated by 谷歌翻译
基于3DCNN,ConvlSTM或光流的先前方法在视频显着对象检测(VSOD)方面取得了巨大成功。但是,它们仍然遭受高计算成本或产生的显着图质量较差的困扰。为了解决这些问题,我们设计了一个基于时空存储器(STM)网络,该网络从相邻帧中提取当前帧的有用时间信息作为VSOD的时间分支。此外,以前的方法仅考虑无时间关联的单帧预测。结果,模型可能无法充分关注时间信息。因此,我们最初将框架间的对象运动预测引入VSOD。我们的模型遵循标准编码器 - 编码器体系结构。在编码阶段,我们通过使用电流及其相邻帧的高级功能来生成高级的时间特征。这种方法比基于光流的方法更有效。在解码阶段,我们提出了一种有效的空间和时间分支融合策略。高级特征的语义信息用于融合低级特征中的对象细节,然后逐步获得时空特征以重建显着性图。此外,受图像显着对象检测(ISOD)中常用的边界监督的启发,我们设计了一种运动感知损失,用于预测对象边界运动,并同时对VSOD和对象运动预测执行多任务学习,这可以进一步促进模型以提取提取的模型时空特征准确并保持对象完整性。在几个数据集上进行的广泛实验证明了我们方法的有效性,并且可以在某些数据集上实现最新指标。所提出的模型不需要光流或其他预处理,并且在推理过程中可以达到近100 fps的速度。
translated by 谷歌翻译
在计算机视觉社区中,从自然场景图像(NSI-SOD)的突出对象检测中取得了巨大进展;相比之下,光学遥感图像(RSI-SOD)中的突出物体检测仍然是一个具有挑战性的新兴主题。光学RSI的独特特性,如尺度,照明和成像方向,在NSI-SOD和RSI-SOD之间带来显着差异。在本文中,我们提出了一种新的多内容互补网络(MCCNet)来探讨RSI-SOD的多个内容的互补性。具体地,MCCNet基于常规编码器解码器架构,并包含一个名为多内容互补模块(MCCM)的新型密钥组件,其桥接编码器和解码器。在MCCM中,我们考虑多种类型的功能对RSI-SOD至关重要的功能,包括前景特征,边缘功能,后台功能和全局图像级别功能,并利用它们之间的内容互补性来突出显示RSI中各种刻度的突出区域通过注意机制的特点。此外,我们全面引入训练阶段的像素级,地图级和公制感知损失。在两个流行的数据集上进行广泛的实验表明,所提出的MCCNet优于23个最先进的方法,包括NSI-SOD和RSI-SOD方法。我们方法的代码和结果可在https://github.com/mathlee/mccnet上获得。
translated by 谷歌翻译
尽管在半监督语义细分领域的进度程度不同,但其最近的大部分成功都涉及笨拙的模型,并且尚未探索轻量级解决方案。我们发现,现有的知识蒸馏技术更多地关注标签数据中的像素级概念,该数据未能在未标记的数据中考虑更有用的线索。因此,我们提供了首次尝试通过新颖的多晶蒸馏(MGD)方案提供轻量级SSS模型,其中从三个方面捕获了多个跨性别:i)互补的教师结构; ii)标记为未标记的数据合作蒸馏; iii)分层和多层次损失设置。具体而言,MGD被配制为标记的未标记数据合作蒸馏方案,该方案有助于充分利用在半监督环境中必不可少的不同数据特征。图像水平的语义敏感损失,区域级别的内容感知损失和像素级的一致性损失是通过结构互补的教师来丰富层次蒸馏抽象的。 Pascal VOC2012和CityScapes的实验结果表明,在不同的分区协议下,MGD可以超越竞争方法。例如,在1/16的CityScapes分区协议下,RESNET-18和MOBILENET-V2主链的性能分别增长了11.5%和4.6%。尽管模型骨干的拖曳量被3.4-5.3倍(RESNET-18)和38.7-59.6X(MobileNetV2)压缩,但该模型旨在实现令人满意的分割结果。
translated by 谷歌翻译
Deep Convolutional Neural Networks have been adopted for salient object detection and achieved the state-of-the-art performance. Most of the previous works however focus on region accuracy but not on the boundary quality. In this paper, we propose a predict-refine architecture, BASNet, and a new hybrid loss for Boundary-Aware Salient object detection. Specifically, the architecture is composed of a densely supervised Encoder-Decoder network and a residual refinement module, which are respectively in charge of saliency prediction and saliency map refinement. The hybrid loss guides the network to learn the transformation between the input image and the ground truth in a three-level hierarchy -pixel-, patch-and map-level -by fusing Binary Cross Entropy (BCE), Structural SIMilarity (SSIM) and Intersectionover-Union (IoU) losses. Equipped with the hybrid loss, the proposed predict-refine architecture is able to effectively segment the salient object regions and accurately predict the fine structures with clear boundaries. Experimental results on six public datasets show that our method outperforms the state-of-the-art methods both in terms of regional and boundary evaluation measures. Our method runs at over 25 fps on a single GPU. The code is available at: https://github.com/NathanUA/BASNet.
translated by 谷歌翻译