使用变压器 - 卷积神经网络(CNN)的视觉显着性预测具有显着的高级计算模型,以实现显着性预测。但是,准确模拟人类皮层中视觉注意的机制仍然是一个学术挑战。将人类视力的属性集成到CNN体系结构的设计中,这是至关重要的,从而导致感知上更相关的显着性预测。由于CNN体系结构的固有归纳偏见,因此缺乏足够的长距离上下文编码能力。这阻碍了基于CNN的显着性模型,无法捕获模仿人类观看行为的属性。通过利用自我发项机制来编码远程信息,变形金刚在编码远程信息方面表现出了巨大潜力。在本文中,我们提出了一个新颖的显着性模型,该模型将变压器组件集成到CNNs以捕获远程上下文视觉信息。实验结果表明,变压器为显着性预测提供了附加的价值,从而增强了其在性能中的感知相关性。我们提出的使用变压器的显着性模型在公共基准和显着性预测模型的竞争上取得了卓越的成果。我们提出的显着模型TransAlnet的源代码可在以下网址获得:https://github.com/ljovo/transalnet
translated by 谷歌翻译
尽管有重要的表示能力,但馈通仅卷积神经网络(CNNS)可以忽略视觉任务中反馈连接的内在关系和潜在好处。在这项工作中,我们提出了一个反馈递归卷积框架(SALFBNET),可加于显着性检测。所提出的反馈模型可以通过从更高级别的特征块到低级层来缩小递归通路来学习丰富的上下文表示。此外,我们创建了一个大规模的伪显着数据集来缓解显着性检测的数据缺陷问题。我们首先使用所提出的反馈模型来从伪地面真理中学习显着分布。之后,我们微调现有眼固定数据集的反馈模型。此外,我们提出了一种新颖的选择性固定和非固定误差(SFNE)丢失,以使提出的反馈模型更好地学习可区分的基于眼固定的特征。广泛的实验结果表明,我们的SALFBNET具有较少参数的竞争结果对公共显着性检测基准进行了竞争力,这证明了提出的反馈模型和伪显着数据的有效性。源代码和伪显着数据集可以在https://github.com/gqding/salfbnet找到
translated by 谷歌翻译
现有的凸起对象检测(SOD)方法主要依赖于基于CNN的U形结构,跳过连接以将全局上下文和局部空间细节分别用于分别用于定位突出对象和精炼对象细节至关重要。尽管取得了巨大成功,但CNN在学习全球背景下的能力是有限的。最近,由于其强大的全球依赖性建模,视觉变压器在计算机愿景中取得了革命性进展。但是,直接将变压器施加到SOD是次优,因为变压器缺乏学习局部空间表示的能力。为此,本文探讨了变压器和CNN的组合,以了解SOD的全球和本地表示。我们提出了一种基于变压器的非对称双侧U-Net(Abiu-net)。非对称双边编码器具有变压器路径和轻质CNN路径,其中两个路径在每个编码器阶段通信,以分别学习互补的全局背景和局部空间细节。非对称双边解码器还由两个路径组成,用于从变压器和CNN编码器路径处理特征,在每个解码器级的通信分别用于解码粗突出对象位置并分别找到粗糙的对象细节。两个编码器/解码器路径之间的这种通信使ABIU-Net能够分别利用变压器和CNN的自然特性来学习互补的全局和局部表示。因此,Abiu-Net为基于变压器的SOD提供了一种新的视角。广泛的实验表明,ABIU-NET对以前的最先进的SOD方法表现出有利。代码将被释放。
translated by 谷歌翻译
大多数现有的RGB-D突出物体检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模型信息集成。卷积操作的固有局部连接将基于卷积的方法的性能进行了限制到天花板的性能。在这项工作中,我们从全球信息对齐和转换的角度重新思考此任务。具体地,所提出的方法(Transcmd)级联几个跨模型集成单元来构造基于自上而下的变换器的信息传播路径(TIPP)。 Transcmd将多尺度和多模态特征集成作为序列到序列上下文传播和内置于变压器上的更新过程。此外,考虑到二次复杂性W.R.T.输入令牌的数量,我们设计了具有可接受的计算成本的修补程序令牌重新嵌入策略(Ptre)。七个RGB-D SOD基准数据集上的实验结果表明,在配备TIPP时,简单的两流编码器 - 解码器框架可以超越最先进的基于CNN的方法。
translated by 谷歌翻译
卷积神经网络(CNN)已成为医疗图像分割任务的共识。但是,由于卷积操作的性质,它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题,但它们未能捕获低级功能。相比之下,证明本地和全球特征对于密集的预测至关重要,例如在具有挑战性的环境中细分。在本文中,我们提出了一种新型方法,该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言,我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合,我们建议在编码器编码器结构的跳过连接中提出一个双层融合(DLF)模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的,基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取:https://github.com/amirhossein-kz/hiformer
translated by 谷歌翻译
Visual ScanPath是人类凝视在观察图像时行进的固定点序列,其预测有助于建模图像的视觉注意。为此,使用复杂的深度学习架构和框架在文献中提出了多种模型。在这里,我们以简单的完全卷积回归方式探讨使用共同的深度学习架构的效率。我们尝试这些模型可以在2个数据集上预测扫描路径的程度。我们与使用不同指标的其他模型进行比较,并显示有时超越以前复杂的架构的竞争结果。我们还根据实验的表演比较不同的杠杆骨干架构,推断哪些是最适合任务的。
translated by 谷歌翻译
玻璃在我们的日常生活中非常普遍。现有的计算机视觉系统忽略了它,因此可能会产生严重的后果,例如,机器人可能会坠入玻璃墙。但是,感知玻璃的存在并不简单。关键的挑战是,任意物体/场景可以出现在玻璃后面。在本文中,我们提出了一个重要的问题,即从单个RGB图像中检测玻璃表面。为了解决这个问题,我们构建了第一个大规模玻璃检测数据集(GDD),并提出了一个名为GDNet-B的新颖玻璃检测网络,该网络通过新颖的大型场探索大型视野中的丰富上下文提示上下文特征集成(LCFI)模块并将高级和低级边界特征与边界特征增强(BFE)模块集成在一起。广泛的实验表明,我们的GDNET-B可以在GDD测试集内外的图像上达到满足玻璃检测结果。我们通过将其应用于其他视觉任务(包括镜像分割和显着对象检测)来进一步验证我们提出的GDNET-B的有效性和概括能力。最后,我们显示了玻璃检测的潜在应用,并讨论了可能的未来研究方向。
translated by 谷歌翻译
计算机辅助医学图像分割已广泛应用于诊断和治疗,以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中,基于卷积神经网络(CNN)的方法(例如,U-Net)占主导地位,但仍遭受了不足的远程信息捕获。因此,最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体,并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而,它们促进了禁止的计算成本,尤其是在3D医学图像(例如,CT和MRI)上。在本文中,我们提出了一种称为扩张变压器的新方法,该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核,我们以扩张的方式进行全球自我关注,扩大接收领域而不增加所涉及的斑块,从而降低计算成本。基于这种扩展变压器的设计,我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明,我们的D-Ager Model从头开始培训,以低计算成本从划痕训练,优于各种竞争力的CNN或基于变压器的分段模型,而不耗时的每训练过程。
translated by 谷歌翻译
RGB和深度图像上的突出物体检测(SOD)引起了越来越多的研究兴趣,因为它的有效性和现在可以方便地捕获深度线索的事实。现有的RGB-D SOD模型通常采用不同的融合策略来学习来自两个模态(\即RGB和深度)的共享表示,而几个方法明确考虑如何保留特定模态特征。在这项研究中,我们提出了一种新的框架,被称为SPNET}(特异性保存网络),这通过探索共享信息和模态特定属性(例如,特异性)来利益SOD性能。具体地,我们建议采用两个模态特定的网络和共享学习网络来分别生成个体和共享显着性预测映射。为了有效地融合共享学习网络中的跨模型特征,我们提出了一个交叉增强的集成模块(CIM),然后将融合特征传播到下一个层以集成交叉级信息。此外,为了捕获丰富的互补多模态信息,用于提高SOD性能,我们提出了一个多模态特征聚合(MFA)模块,将每个单独解码器的模态特定功能集成到共享解码器中。通过使用跳过连接,可以完全组合编码器和解码器层之间的分层功能。广泛的实验表明我们的〜\我们的〜优于六种流行的RGB-D SOD和三个伪装对象检测基准测试的前沿方法。该项目可在公开提供:https://github.com/taozh2017/spnet。
translated by 谷歌翻译
在本文中,我们提出了一个基于变压器的架构,即TF-Grasp,用于机器人Grasp检测。开发的TF-Grasp框架具有两个精心设计的设计,使其非常适合视觉抓握任务。第一个关键设计是,我们采用本地窗口的注意来捕获本地上下文信息和可抓取对象的详细特征。然后,我们将跨窗户注意力应用于建模遥远像素之间的长期依赖性。对象知识,环境配置和不同视觉实体之间的关系汇总以进行后续的掌握检测。第二个关键设计是,我们构建了具有跳过连接的层次编码器架构,从编码器到解码器提供了浅特征,以启用多尺度功能融合。由于具有强大的注意力机制,TF-Grasp可以同时获得局部信息(即对象的轮廓),并建模长期连接,例如混乱中不同的视觉概念之间的关系。广泛的计算实验表明,TF-GRASP在康奈尔(Cornell)和雅克(Jacquard)握把数据集上分别获得了较高的结果与最先进的卷积模型,并获得了97.99%和94.6%的较高精度。使用7DOF Franka Emika Panda机器人进行的现实世界实验也证明了其在各种情况下抓住看不见的物体的能力。代码和预培训模型将在https://github.com/wangshaosun/grasp-transformer上找到
translated by 谷歌翻译
显着对象检测是预测给定场景中人类参加区域的任务。融合深度信息已被证明在此任务中有效。该问题的主要挑战是如何从RGB模式和深度模式中汇总互补信息。但是,传统的深层模型在很大程度上依赖CNN特征提取器,并且通常会忽略远距离的依赖性。在这项工作中,我们提出了基于双Swin-Transformer的相互交互式网络。我们采用Swin-Transformer作为RGB和深度模态的特征提取器,以模拟视觉输入中的远程依赖性。在将两个特征分支融合到一个分支之前,将应用基于注意力的模块来增强每​​种模式的特征。我们设计了一个基于自我注意力的跨模式交互模块和一个封闭式的模态注意模块,以利用两种方式之间的互补信息。对于显着解码,我们创建了通过密集的连接增强的不同阶段,并保持解码的内存,而多级编码功能则被同时考虑。考虑到不准确的深度图问题,我们将早期阶段的RGB特征收集到跳过卷积模块中,以提供从RGB模式到最终显着性预测的更多指导。此外,我们添加了边缘监督以使功能学习过程正常。对四个评估指标的五个标准RGB-D SOD基准数据集进行了全面的实验,证明了所提出的DTMINET方法的优势。
translated by 谷歌翻译
Camouflaged objects are seamlessly blended in with their surroundings, which brings a challenging detection task in computer vision. Optimizing a convolutional neural network (CNN) for camouflaged object detection (COD) tends to activate local discriminative regions while ignoring complete object extent, causing the partial activation issue which inevitably leads to missing or redundant regions of objects. In this paper, we argue that partial activation is caused by the intrinsic characteristics of CNN, where the convolution operations produce local receptive fields and experience difficulty to capture long-range feature dependency among image regions. In order to obtain feature maps that could activate full object extent, keeping the segmental results from being overwhelmed by noisy features, a novel framework termed Cross-Model Detail Querying network (DQnet) is proposed. It reasons the relations between long-range-aware representations and multi-scale local details to make the enhanced representation fully highlight the object regions and eliminate noise on non-object regions. Specifically, a vanilla ViT pretrained with self-supervised learning (SSL) is employed to model long-range dependencies among image regions. A ResNet is employed to enable learning fine-grained spatial local details in multiple scales. Then, to effectively retrieve object-related details, a Relation-Based Querying (RBQ) module is proposed to explore window-based interactions between the global representations and the multi-scale local details. Extensive experiments are conducted on the widely used COD datasets and show that our DQnet outperforms the current state-of-the-arts.
translated by 谷歌翻译
表面缺陷检测是确保工业产品质量的极其至关重要的步骤。如今,基于编码器架构的卷积神经网络(CNN)在各种缺陷检测任务中取得了巨大的成功。然而,由于卷积的内在局部性,它们通常在明确建模长距离相互作用时表现出限制,这对于复杂情况下的像素缺陷检测至关重要,例如杂乱的背景和难以辨认的伪缺陷。最近的变压器尤其擅长学习全球图像依赖性,但对于详细的缺陷位置所需的本地结构信息有限。为了克服上述局限性,我们提出了一个有效的混合变压器体系结构,称为缺陷变压器(faft),用于表面缺陷检测,该检测将CNN和Transferaler纳入统一模型,以协作捕获本地和非本地关系。具体而言,在编码器模块中,首先采用卷积茎块来保留更详细的空间信息。然后,贴片聚合块用于生成具有四个层次结构的多尺度表示形式,每个层次结构之后分别是一系列的feft块,该块分别包括用于本地位置编码的本地位置块,一个轻巧的多功能自我自我 - 注意与良好的计算效率建模多尺度的全球上下文关系,以及用于功能转换和进一步位置信息学习的卷积馈送网络。最后,提出了一个简单但有效的解码器模块,以从编码器中的跳过连接中逐渐恢复空间细节。与其他基于CNN的网络相比,三个数据集上的广泛实验证明了我们方法的优势和效率。
translated by 谷歌翻译
尽管当前的显着对象检测(SOD)作品已经取得了重大进展,但在预测的显着区域的完整性方面,它们受到限制。我们在微观和宏观水平上定义了完整性的概念。具体而言,在微观层面上,该模型应突出显示属于某个显着对象的所有部分。同时,在宏观层面上,模型需要在给定图像中发现所有显着对象。为了促进SOD的完整性学习,我们设计了一个新颖的完整性认知网络(ICON),该网络探讨了学习强大完整性特征的三个重要组成部分。 1)与现有模型不同,该模型更多地集中在功能可区分性上,我们引入了各种功能集合(DFA)组件,以汇总具有各种接受场(即内核形状和背景)的特征,并增加了功能多样性。这种多样性是挖掘积分显着物体的基础。 2)基于DFA功能,我们引入了一个完整性通道增强(ICE)组件,其目标是增强功能通道,以突出积分显着对象,同时抑制其他分心的对象。 3)提取增强功能后,采用零件整体验证(PWV)方法来确定零件和整个对象特征是否具有很强的一致性。这样的部分协议可以进一步改善每个显着对象的微观完整性。为了证明我们图标的有效性,对七个具有挑战性的基准进行了全面的实验。我们的图标在广泛的指标方面优于基线方法。值得注意的是,我们的图标在六个数据集上的平均假阴影(FNR)(FNR)方面,相对于以前的最佳模型的相对改善约为10%。代码和结果可在以下网址获得:https://github.com/mczhuge/icon。
translated by 谷歌翻译
在过去的几年中,卷积神经网络(CNN),尤其是U-NET,一直是医学图像处理时代的流行技术。具体而言,开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是,这些体系结构在本质上是不完美的,因为它们无法表现出长距离相互作用和空间依赖性,从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构,以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计,但利用纯变压器来进行图像分割目的,可能导致限制的定位容量,导致低级功能不足。因此,一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中,我们提出了Trans-Norm,这是一种新型的深层分割框架,它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为,跳过连接的方便设计对于准确的分割至关重要,因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面,我们从变压器模块中得出了一种空间归一化机制,以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验,证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。
translated by 谷歌翻译
多任务密集的场景理解是一个蓬勃发展的研究领域,需要同时对与像素预测的一系列相关任务进行推理。由于卷积操作的大量利用,大多数现有作品都会遇到当地建模的严重限制,而在全球空间位置和多任务背景中学习相互作用和推断对于此问题至关重要。在本文中,我们提出了一种新颖的端到端倒立金字塔多任务变压器(Invpt),以在统一框架中对空间位置和多个任务进行同时建模。据我们所知,这是探索设计变压器结构的第一项工作,以用于多任务密集的预测以进行场景理解。此外,人们广泛证明,较高的空间分辨率对密集的预测非常有益,而对于现有的变压器来说,由于对大空间大小的巨大复杂性,现有变形金刚更深入地采用更高的分辨率。 Invpt提出了一个有效的上移动器块,以逐渐增加分辨率学习多任务特征交互,这还结合了有效的自我发言消息传递和多规模特征聚合,以高分辨率产生特定于任务的预测。我们的方法分别在NYUD-V2和PASCAL-CONTEXT数据集上实现了卓越的多任务性能,并且显着优于先前的最先前。该代码可在https://github.com/prismformore/invpt上获得
translated by 谷歌翻译
由于长距离依赖性建模的能力,变压器在各种自然语言处理和计算机视觉任务中表现出令人印象深刻的性能。最近的进展证明,将这种变压器与基于CNN的语义图像分割模型相结合非常有前途。然而,目前还没有很好地研究了纯变压器的方法如何实现图像分割。在这项工作中,我们探索了语义图像分割的新框架,它是基于编码器 - 解码器的完全变压器网络(FTN)。具体地,我们首先提出金字塔组变压器(PGT)作为逐步学习分层特征的编码器,同时降低标准视觉变压器(VIT)的计算复杂性。然后,我们将特征金字塔变换器(FPT)提出了来自PGT编码器的多电平进行语义图像分割的多级别的语义级别和空间级信息。令人惊讶的是,这种简单的基线可以在多个具有挑战性的语义细分和面部解析基准上实现更好的结果,包括帕斯卡背景,ADE20K,Cocostuff和Celebamask-HQ。源代码将在https://github.com/br -dl/paddlevit上发布。
translated by 谷歌翻译
随着多媒体技术的快速发展,增强现实(AR)已成为一个有希望的下一代移动平台。 AR的基本理论是人类的视觉混乱,它使用户可以通过将它们叠加在一起,同时感知现实世界的场景和增强内容(虚拟世界场景)。为了获得优质的经验(QOE),重要的是要了解两种情况之间的相互作用并和谐地显示AR内容。但是,关于这种叠加将如何影响人类视觉关注的研究。因此,在本文中,我们主要分析背景(BG)场景和AR内容之间的相互作用效果,并研究AR中的显着性预测问题。具体而言,我们首先在AR数据集(SARD)中构建显着性,其中包含450 bg图像,450次AR图像以及由叠加BG和AR图像产生的1350个叠加图像,并配对三个混合级别。在60个受试者中进行了大规模的眼睛跟踪实验,以收集眼动数据。为了更好地预测AR的显着性,我们提出了一种量化显着性预测方法,并将其推广为AR显着性预测。为了进行比较,提出并评估了三种基准方法,并与我们在沙德上提出的方法一起进行了评估。实验结果证明了我们提出的方法在常见的显着性预测问题和AR显着性预测问题上的优越性比基准方法的优势。我们的数据集和代码可在以下网址获得:https://github.com/duanhuiyu/arsality。
translated by 谷歌翻译
图像中的场景细分是视觉内容理解中的一个基本而又具有挑战性的问题,即学习一个模型,将每个图像像素分配给分类标签。这项学习任务的挑战之一是考虑空间和语义关系以获得描述性特征表示,因此从多个量表中学习特征图是场景细分中的一种常见实践。在本文中,我们探讨了在多尺度图像窗口中自我发挥的有效使用来学习描述性视觉特征,然后提出三种不同的策略来汇总这些特征图以解码特征表示形式以进行密集的预测。我们的设计基于最近提出的SWIN Transformer模型,该模型完全放弃了卷积操作。借助简单而有效的多尺度功能学习和聚合,我们的模型在四个公共场景细分数据集,Pascal VOC2012,Coco-STUFF 10K,ADE20K和CITYSCAPES上实现了非常有希望的性能。
translated by 谷歌翻译
识别息肉对于在计算机辅助临床支持系统中自动分析内窥镜图像的自动分析具有挑战性。已经提出了基于卷积网络(CNN),变压器及其组合的模型,以分割息肉以有希望的结果。但是,这些方法在模拟息肉的局部外观方面存在局限性,或者在解码过程中缺乏用于空间依赖性的多层次特征。本文提出了一个新颖的网络,即结肠形式,以解决这些局限性。 Colonformer是一种编码器架构,能够在编码器和解码器分支上对远程语义信息进行建模。编码器是一种基于变压器的轻量级体系结构,用于在多尺度上建模全局语义关系。解码器是一种层次结构结构,旨在学习多层功能以丰富特征表示。此外,添加了一个新的Skip连接技术,以完善整体地图中的息肉对象的边界以进行精确分割。已经在五个流行的基准数据集上进行了广泛的实验,以进行息肉分割,包括Kvasir,CVC-Clinic DB,CVC-ColondB,CVC-T和Etis-Larib。实验结果表明,我们的结肠构造者在所有基准数据集上的表现优于其他最先进的方法。
translated by 谷歌翻译