镜像检测旨在识别给定输入图像中的镜像区域。现有作品主要集中于整合语义特征和结构特征,以挖掘镜像和非摩尔区域之间的相似性和不连续性,或者引入深度信息以帮助分析镜像的存在。在这项工作中,我们观察到一个真实的对象通常与镜子中的相应反射形成松散的对称关系,这有助于区分镜子和真实对象。基于此观察结果,我们提出了一个基于双路对称性变压器的镜像检测网络(SATNET),其中包括两个新型模块:对称性吸引注意的注意模块(SAAM)以及对比度和融合解码器模块(CFDM)。具体而言,我们首先引入了变压器主干,以模拟图像中的全局信息聚合,并在两条路径中提取多尺度特征。然后,我们将高级双路径特征喂给Saams以捕获对称关系。最后,我们融合了双路径功能,并使用CFDM逐渐完善我们的预测图,以获得最终的镜面掩码。实验结果表明,在所有可用的镜像检测数据集上,Satnet优于RGB和RGB-D镜检测方法。
translated by 谷歌翻译
玻璃在我们的日常生活中非常普遍。现有的计算机视觉系统忽略了它,因此可能会产生严重的后果,例如,机器人可能会坠入玻璃墙。但是,感知玻璃的存在并不简单。关键的挑战是,任意物体/场景可以出现在玻璃后面。在本文中,我们提出了一个重要的问题,即从单个RGB图像中检测玻璃表面。为了解决这个问题,我们构建了第一个大规模玻璃检测数据集(GDD),并提出了一个名为GDNet-B的新颖玻璃检测网络,该网络通过新颖的大型场探索大型视野中的丰富上下文提示上下文特征集成(LCFI)模块并将高级和低级边界特征与边界特征增强(BFE)模块集成在一起。广泛的实验表明,我们的GDNET-B可以在GDD测试集内外的图像上达到满足玻璃检测结果。我们通过将其应用于其他视觉任务(包括镜像分割和显着对象检测)来进一步验证我们提出的GDNET-B的有效性和概括能力。最后,我们显示了玻璃检测的潜在应用,并讨论了可能的未来研究方向。
translated by 谷歌翻译
We present HetNet (Multi-level \textbf{Het}erogeneous \textbf{Net}work), a highly efficient mirror detection network. Current mirror detection methods focus more on performance than efficiency, limiting the real-time applications (such as drones). Their lack of efficiency is aroused by the common design of adopting homogeneous modules at different levels, which ignores the difference between different levels of features. In contrast, HetNet detects potential mirror regions initially through low-level understandings (\textit{e.g.}, intensity contrasts) and then combines with high-level understandings (contextual discontinuity for instance) to finalize the predictions. To perform accurate yet efficient mirror detection, HetNet follows an effective architecture that obtains specific information at different stages to detect mirrors. We further propose a multi-orientation intensity-based contrasted module (MIC) and a reflection semantic logical module (RSL), equipped on HetNet, to predict potential mirror regions by low-level understandings and analyze semantic logic in scenarios by high-level understandings, respectively. Compared to the state-of-the-art method, HetNet runs 664$\%$ faster and draws an average performance gain of 8.9$\%$ on MAE, 3.1$\%$ on IoU, and 2.0$\%$ on F-measure on two mirror detection benchmarks.
translated by 谷歌翻译
玻璃在现实世界中非常普遍。受玻璃区域的不确定性以及玻璃背后的各种复杂场景的影响,玻璃的存在对许多计算机视觉任务构成了严重的挑战,从而使玻璃分割成为重要的计算机视觉任务。玻璃没有自己的视觉外观,而只能传输/反映其周围环境的外观,从而与其他常见对象根本不同。为了解决此类具有挑战性的任务,现有方法通常会探索并结合深网络中不同特征级别的有用线索。由于存在级别不同的特征之间的特征差距,即,深层特征嵌入了更多高级语义,并且更好地定位目标对象,而浅层特征具有更大的空间尺寸,并保持更丰富,更详细的低级信息,因此,将这些特征融合到天真的融合将导致亚最佳溶液。在本文中,我们将有效的特征融合到两个步骤中,以朝着精确的玻璃分割。首先,我们试图通过开发可区分性增强(DE)模块来弥合不同级别特征之间的特征差距,该模块使特定于级别的特征成为更具歧视性的表示,从而减轻了融合不兼容的特征。其次,我们设计了一个基于焦点和探索的融合(FEBF)模块,以通过突出显示常见并探索级别差异特征之间的差异,从而在融合过程中丰富挖掘有用的信息。
translated by 谷歌翻译
RGB-thermal显着对象检测(RGB-T SOD)旨在定位对齐可见的和热红外图像对的共同突出对象,并准确地分割所有属于这些对象的像素。由于对热图像的照明条件不敏感,它在诸如夜间和复杂背景之类的具有挑战性的场景中很有希望。因此,RGB-T SOD的关键问题是使两种方式的功能相互补充并互相调整,因为不可避免的是,由于极端光条件和诸如极端光条件和诸如极端光明条件和热跨界。在本文中,我们提出了一个针对RGB-T SOD的新型镜子互补变压器网络(MCNET)。具体而言,我们将基于变压器的特征提取模块引入RGB和热图像的有效提取分层特征。然后,通过基于注意力的特征相互作用和基于串行的多尺度扩张卷积(SDC)特征融合模块,提出的模型实现了低级特征的互补相互作用以及深度特征的语义融合。最后,基于镜子互补结构,即使是一种模态也可以准确地提取两种方式的显着区域也是无效的。为了证明在现实世界中具有挑战性的场景下提出的模型的鲁棒性,我们基于自动驾驶域中使用的大型公共语义分段RGB-T数据集建立了一种新颖的RGB-T SOD数据集VT723。基准和VT723数据集上的昂贵实验表明,所提出的方法优于最先进的方法,包括基于CNN的方法和基于变压器的方法。该代码和数据集将在稍后在https://github.com/jxr326/swinmcnet上发布。
translated by 谷歌翻译
现有的RGB-D SOD方法主要依赖于对称的两个基于CNN的网络来分别提取RGB和深度通道特征。但是,对称传统网络结构有两个问题:首先,CNN在学习全球环境中的能力是有限的。其次,对称的两流结构忽略了模态之间的固有差异。在本文中,我们提出了一个基于变压器的非对称网络(TANET),以解决上述问题。我们采用了变压器(PVTV2)的强大功能提取能力,从RGB数据中提取全局语义信息,并设计轻巧的CNN骨架(LWDEPTHNET),以从深度数据中提取空间结构信息,而无需预训练。不对称混合编码器(AHE)有效地减少了模型中参数的数量,同时不牺牲性能而增加速度。然后,我们设计了一个跨模式特征融合模块(CMFFM),该模块增强并互相融合了RGB和深度特征。最后,我们将边缘预测添加为辅助任务,并提出一个边缘增强模块(EEM)以生成更清晰的轮廓。广泛的实验表明,我们的方法在六个公共数据集上实现了超过14种最先进的RGB-D方法的卓越性能。我们的代码将在https://github.com/lc012463/tanet上发布。
translated by 谷歌翻译
由于透明玻璃与图像中的任意物体相同,大多数现有物体检测方法产生较差的玻璃检测结果。与众不同的基于深度学习的智慧不同,只需使用对象边界作为辅助监督,我们利用标签解耦将原始标记的地图(GT)映射分解为内部扩散图和边界扩散图。与两个新生成的地图合作的GT映射破坏了物体边界的不平衡分布,导致玻璃检测质量改善。我们有三个关键贡献来解决透明的玻璃探测问题:(1)我们提出了一个三流神经网络(短暂的呼叫GlassNet),完全吸收三张地图中的有益功能。 (2)我们设计多尺度交互扩张模块,以探索更广泛的上下文信息。 (3)我们开发了一个基于关注的边界意识的功能拼接模块,用于集成多模态信息。基准数据集的广泛实验表明,在整体玻璃检测精度和边界清晰度方面,在SOTA方面对我们的方法进行了明确的改进。
translated by 谷歌翻译
尽管已经开发了疫苗,并且国家疫苗接种率正在稳步提高,但2019年冠状病毒病(COVID-19)仍对世界各地的医疗保健系统产生负面影响。在当前阶段,从CT图像中自动分割肺部感染区域对于诊断和治疗COVID-19至关重要。得益于深度学习技术的发展,已经提出了一些针对肺部感染细分的深度学习解决方案。但是,由于分布分布,复杂的背景干扰和界限模糊,现有模型的准确性和完整性仍然不令人满意。为此,我们在本文中提出了一个边界引导的语义学习网络(BSNET)。一方面,结合顶级语义保存和渐进式语义集成的双分支语义增强模块旨在建模不同的高级特征之间的互补关系,从而促进产生更完整的分割结果。另一方面,提出了镜像对称边界引导模块,以以镜像对称方式准确检测病变区域的边界。公开可用数据集的实验表明,我们的BSNET优于现有的最新竞争对手,并实现了44 fps的实时推理速度。
translated by 谷歌翻译
突出对象检测在许多下游任务中发挥着重要作用。然而,复杂的现实世界场景具有不同尺度和突出对象的数量仍然构成挑战。在本文中,我们直接解决了在复杂场景中检测多个突出对象的问题。我们提出了一种在空间和频道空间中的非本地特征信息的网络架构,捕获单独对象之间的远程依赖性。传统的自下而上和非本地特征与特征融合门中的边缘特性相结合,逐渐改进解码器中的突出物体预测。我们表明,即使在复杂的情况下,我们的方法也可以准确地定位多个突出区域。为了证明我们对多个突出对象问题的方法的功效,我们策划仅包含多个突出对象的新数据集。我们的实验证明了所提出的方法在没有任何预处理和后处理的情况下展示了五种广泛使用的数据集的最新结果。我们在我们的多对象数据集中获得了对竞争技术的进一步绩效改进。数据集和源代码是可用的:https://github.com/ericdengbowen/dslrdnet。
translated by 谷歌翻译
RGB热点对象检测(SOD)结合了两个光谱,以分段图像中的视觉明显区域。大多数现有方法都使用边界图来学习锋利的边界。这些方法忽略了孤立的边界像素与其他自信像素之间的相互作用,从而导致了次优性能。为了解决这个问题,我们为基于SWIN Transformer的RGB-T SOD提出了一个职位感知关系学习网络(PRLNET)。 PRLNET探索像素之间的距离和方向关系,以增强阶层内的紧凑性和类间的分离,从而产生具有清晰边界和均匀区域的显着对象掩模。具体而言,我们开发了一个新颖的签名距离辅助模块(SDMAM)来改善编码器特征表示,该模块考虑了边界邻域中不同像素的距离关系。然后,我们使用定向字段(FRDF)设计一种功能改进方法,该方法通过利用明显对象内部的功能来纠正边界邻域的特征。 FRDF利用对象像素之间的方向信息有效地增强了显着区域的阶层紧凑性。此外,我们构成了一个纯变压器编码器 - 模块网络,以增强RGB-T SOD的多光谱特征表示。最后,我们对三个公共基准数据集进行了定量和定性实验。结果表明,我们所提出的方法的表现优于最新方法。
translated by 谷歌翻译
随着现代建筑倾向于使用大量玻璃面板,玻璃表面变得越来越无处不在。然而,这对机器人,自动驾驶汽车和无人机等自主系统的运营构成了重大挑战,因为玻璃板可能会成为导航的透明障碍。存在的工作试图利用各种线索,包括玻璃边界上下文或反思,例如先验。但是,它们都是基于输入RGB图像的。我们观察到3D深度传感器光线通过玻璃表面的传输通常会在深度图中产生空白区域,这可以提供其他见解以补充RGB图像特征以进行玻璃表面检测。在本文中,我们通过将RGB-D信息合并到两个新型模块中提出了一个新颖的玻璃表面检测框架:(1)一个跨模式环境挖掘(CCM)模块,以适应从RGB和深度学习个人和相互的上下文特征信息,以及(2)深度失误的注意力(DAA)模块,以明确利用空间位置,在这些空间位置存在缺失的深度以帮助检测玻璃表面的存在。此外,我们提出了一个大规模的RGB-D玻璃表面检测数据集,称为\ textit {RGB-D GSD},用于RGB-D玻璃表面检测。我们的数据集包含3,009个现实世界的RGB-D玻璃表面图像,并具有精确的注释。广泛的实验结果表明,我们提出的模型优于最先进的方法。
translated by 谷歌翻译
显着对象检测是预测给定场景中人类参加区域的任务。融合深度信息已被证明在此任务中有效。该问题的主要挑战是如何从RGB模式和深度模式中汇总互补信息。但是,传统的深层模型在很大程度上依赖CNN特征提取器,并且通常会忽略远距离的依赖性。在这项工作中,我们提出了基于双Swin-Transformer的相互交互式网络。我们采用Swin-Transformer作为RGB和深度模态的特征提取器,以模拟视觉输入中的远程依赖性。在将两个特征分支融合到一个分支之前,将应用基于注意力的模块来增强每​​种模式的特征。我们设计了一个基于自我注意力的跨模式交互模块和一个封闭式的模态注意模块,以利用两种方式之间的互补信息。对于显着解码,我们创建了通过密集的连接增强的不同阶段,并保持解码的内存,而多级编码功能则被同时考虑。考虑到不准确的深度图问题,我们将早期阶段的RGB特征收集到跳过卷积模块中,以提供从RGB模式到最终显着性预测的更多指导。此外,我们添加了边缘监督以使功能学习过程正常。对四个评估指标的五个标准RGB-D SOD基准数据集进行了全面的实验,证明了所提出的DTMINET方法的优势。
translated by 谷歌翻译
以前的多任务密集预测研究开发了复杂的管道,例如在多个阶段进行多模式蒸馏或为每个任务寻找任务关系上下文。这些方法以外的核心洞察力是最大程度地利用每个任务之间的相互作用。受到最近基于查询的变压器的启发,我们提出了一条更简单的管道,称为Multi-Querti-Transformer(MQTRANSFORMER),该管道配备了来自不同任务的多个查询,以促进多个任务之间的推理并简化交叉任务管道。我们没有在不同任务之间建模每个像素上下文的密集上下文,而是寻求特定于任务的代理,以通过每个查询编码与任务相关的上下文进行编码的多个查询执行交叉任务推理。 MQTRANSFORMER由三个关键组件组成:共享编码器,交叉任务注意和共享解码器。我们首先将每个任务与任务相关且具有比例意识的查询对每个任务进行建模,然后将功能提取器的图像功能输出和与任务相关的查询功能都馈入共享编码器,从而从图像功能中编码查询功能。其次,我们设计了一个交叉任务注意模块,以从两个角度来推理多个任务和特征量表之间的依赖项,包括相同尺度的不同任务和同一任务的不同尺度。然后,我们使用共享解码器逐渐使用来自不同任务的合理查询功能来逐步完善图像功能。对两个密集的预测数据集(NYUD-V2和Pascal-Context)的广泛实验结果表明,该方法是一种有效的方法,并实现了最新结果。
translated by 谷歌翻译
In this paper, we address the scene segmentation task by capturing rich contextual dependencies based on the self-attention mechanism. Unlike previous works that capture contexts by multi-scale feature fusion, we propose a Dual Attention Network (DANet) to adaptively integrate local features with their global dependencies. Specifically, we append two types of attention modules on top of dilated FCN, which model the semantic interdependencies in spatial and channel dimensions respectively. The position attention module selectively aggregates the feature at each position by a weighted sum of the features at all positions. Similar features would be related to each other regardless of their distances. Meanwhile, the channel attention module selectively emphasizes interdependent channel maps by integrating associated features among all channel maps. We sum the outputs of the two attention modules to further improve feature representation which contributes to more precise segmentation results. We achieve new state-of-theart segmentation performance on three challenging scene segmentation datasets, i.e., Cityscapes, PASCAL Context and COCO Stuff dataset. In particular, a Mean IoU score of 81.5% on Cityscapes test set is achieved without using coarse data. 1 .
translated by 谷歌翻译
How to identify and segment camouflaged objects from the background is challenging. Inspired by the multi-head self-attention in Transformers, we present a simple masked separable attention (MSA) for camouflaged object detection. We first separate the multi-head self-attention into three parts, which are responsible for distinguishing the camouflaged objects from the background using different mask strategies. Furthermore, we propose to capture high-resolution semantic representations progressively based on a simple top-down decoder with the proposed MSA to attain precise segmentation results. These structures plus a backbone encoder form a new model, dubbed CamoFormer. Extensive experiments show that CamoFormer surpasses all existing state-of-the-art methods on three widely-used camouflaged object detection benchmarks. There are on average around 5% relative improvements over previous methods in terms of S-measure and weighted F-measure.
translated by 谷歌翻译
Transformer-based models have been widely demonstrated to be successful in computer vision tasks by modelling long-range dependencies and capturing global representations. However, they are often dominated by features of large patterns leading to the loss of local details (e.g., boundaries and small objects), which are critical in medical image segmentation. To alleviate this problem, we propose a Dual-Aggregation Transformer Network called DuAT, which is characterized by two innovative designs, namely, the Global-to-Local Spatial Aggregation (GLSA) and Selective Boundary Aggregation (SBA) modules. The GLSA has the ability to aggregate and represent both global and local spatial features, which are beneficial for locating large and small objects, respectively. The SBA module is used to aggregate the boundary characteristic from low-level features and semantic information from high-level features for better preserving boundary details and locating the re-calibration objects. Extensive experiments in six benchmark datasets demonstrate that our proposed model outperforms state-of-the-art methods in the segmentation of skin lesion images, and polyps in colonoscopy images. In addition, our approach is more robust than existing methods in various challenging situations such as small object segmentation and ambiguous object boundaries.
translated by 谷歌翻译
像窗户,瓶子和镜子等玻璃状物体在现实世界中存在广泛存在。感应这些对象有许多应用,包括机器人导航和抓握。然而,由于玻璃样物体背后的任意场景,这项任务非常具有挑战性。本文旨在通过增强的边界学习解决玻璃状物体分割问题。特别是,我们首先提出了一种新的精致差分模块,其输出更精细的边界线索。然后,我们介绍了一个边缘感知点的图形卷积网络模块,以沿边界模拟全局形状。我们使用这两个模块来设计解码器,该解码器产生准确和干净的分段结果,尤其是在对象轮廓上。两个模块都是重量轻且有效的:它们可以嵌入到各种分段模型中。在最近的三个玻璃状物体分割数据集上进行了广泛的实验,包括Trans10K,MSD和GDD,我们的方法建立了新的最先进的结果。我们还说明了我们在三个通用分段数据集中的方法的强大泛化属性,包括城市景观,BDD和Coco Sift。代码和模型可用于\ url {https:/github.com/hehao13/ebrnet}。
translated by 谷歌翻译
RGB-D显着性检测将来自RGB图像和深度图的信息集成在挑战条件下改善突出区域的预测。 RGB-D显着性检测的关键是在两个模态的多个尺度上完全挖掘和保险丝信息。以前的方法倾向于通过本地操作分开应用多尺度和多模态融合,这不能捕获远程依赖性。在这里,我们提出了一个基于变换器的网络来解决这个问题。我们所提出的架构由两个模块组成:基于变换器的模态功能增强模块(TWFEM)和基于变压器的特征融合模块(TFFM)。 TFFM通过同时将特征与来自多个位置的两个模式集成在所有位置上的特征来进行足够的特征融合。 TWFEM通过在TFFM之前的同一模态中选择和集成来自其他刻度的互补信息来增强每种比例的特征。我们表明,变压器是一种统一的操作,它在特征融合和特征增强中具有良好的功效,并简化了模型设计。六个基准数据集的广泛实验结果表明,我们所提出的网络对最先进的RGB-D显着性检测方法表现出有利。
translated by 谷歌翻译
现有的凸起对象检测(SOD)方法主要依赖于基于CNN的U形结构,跳过连接以将全局上下文和局部空间细节分别用于分别用于定位突出对象和精炼对象细节至关重要。尽管取得了巨大成功,但CNN在学习全球背景下的能力是有限的。最近,由于其强大的全球依赖性建模,视觉变压器在计算机愿景中取得了革命性进展。但是,直接将变压器施加到SOD是次优,因为变压器缺乏学习局部空间表示的能力。为此,本文探讨了变压器和CNN的组合,以了解SOD的全球和本地表示。我们提出了一种基于变压器的非对称双侧U-Net(Abiu-net)。非对称双边编码器具有变压器路径和轻质CNN路径,其中两个路径在每个编码器阶段通信,以分别学习互补的全局背景和局部空间细节。非对称双边解码器还由两个路径组成,用于从变压器和CNN编码器路径处理特征,在每个解码器级的通信分别用于解码粗突出对象位置并分别找到粗糙的对象细节。两个编码器/解码器路径之间的这种通信使ABIU-Net能够分别利用变压器和CNN的自然特性来学习互补的全局和局部表示。因此,Abiu-Net为基于变压器的SOD提供了一种新的视角。广泛的实验表明,ABIU-NET对以前的最先进的SOD方法表现出有利。代码将被释放。
translated by 谷歌翻译
尽管当前的显着对象检测(SOD)作品已经取得了重大进展,但在预测的显着区域的完整性方面,它们受到限制。我们在微观和宏观水平上定义了完整性的概念。具体而言,在微观层面上,该模型应突出显示属于某个显着对象的所有部分。同时,在宏观层面上,模型需要在给定图像中发现所有显着对象。为了促进SOD的完整性学习,我们设计了一个新颖的完整性认知网络(ICON),该网络探讨了学习强大完整性特征的三个重要组成部分。 1)与现有模型不同,该模型更多地集中在功能可区分性上,我们引入了各种功能集合(DFA)组件,以汇总具有各种接受场(即内核形状和背景)的特征,并增加了功能多样性。这种多样性是挖掘积分显着物体的基础。 2)基于DFA功能,我们引入了一个完整性通道增强(ICE)组件,其目标是增强功能通道,以突出积分显着对象,同时抑制其他分心的对象。 3)提取增强功能后,采用零件整体验证(PWV)方法来确定零件和整个对象特征是否具有很强的一致性。这样的部分协议可以进一步改善每个显着对象的微观完整性。为了证明我们图标的有效性,对七个具有挑战性的基准进行了全面的实验。我们的图标在广泛的指标方面优于基线方法。值得注意的是,我们的图标在六个数据集上的平均假阴影(FNR)(FNR)方面,相对于以前的最佳模型的相对改善约为10%。代码和结果可在以下网址获得:https://github.com/mczhuge/icon。
translated by 谷歌翻译