With the development of depth sensors in recent years, RGBD object tracking has received significant attention. Compared with the traditional RGB object tracking, the addition of the depth modality can effectively solve the target and background interference. However, some existing RGBD trackers use the two modalities separately and thus some particularly useful shared information between them is ignored. On the other hand, some methods attempt to fuse the two modalities by treating them equally, resulting in the missing of modality-specific features. To tackle these limitations, we propose a novel Dual-fused Modality-aware Tracker (termed DMTracker) which aims to learn informative and discriminative representations of the target objects for robust RGBD tracking. The first fusion module focuses on extracting the shared information between modalities based on cross-modal attention. The second aims at integrating the RGB-specific and depth-specific information to enhance the fused features. By fusing both the modality-shared and modality-specific information in a modality-aware scheme, our DMTracker can learn discriminative representations in complex tracking scenes. Experiments show that our proposed tracker achieves very promising results on challenging RGBD benchmarks. Code is available at \url{https://github.com/ShangGaoG/DMTracker}.
translated by 谷歌翻译
RGB和深度图像上的突出物体检测(SOD)引起了越来越多的研究兴趣,因为它的有效性和现在可以方便地捕获深度线索的事实。现有的RGB-D SOD模型通常采用不同的融合策略来学习来自两个模态(\即RGB和深度)的共享表示,而几个方法明确考虑如何保留特定模态特征。在这项研究中,我们提出了一种新的框架,被称为SPNET}(特异性保存网络),这通过探索共享信息和模态特定属性(例如,特异性)来利益SOD性能。具体地,我们建议采用两个模态特定的网络和共享学习网络来分别生成个体和共享显着性预测映射。为了有效地融合共享学习网络中的跨模型特征,我们提出了一个交叉增强的集成模块(CIM),然后将融合特征传播到下一个层以集成交叉级信息。此外,为了捕获丰富的互补多模态信息,用于提高SOD性能,我们提出了一个多模态特征聚合(MFA)模块,将每个单独解码器的模态特定功能集成到共享解码器中。通过使用跳过连接,可以完全组合编码器和解码器层之间的分层功能。广泛的实验表明我们的〜\我们的〜优于六种流行的RGB-D SOD和三个伪装对象检测基准测试的前沿方法。该项目可在公开提供:https://github.com/taozh2017/spnet。
translated by 谷歌翻译
由于与传统的基于RGB的跟踪相比,多模式跟踪的能力在复杂的情况下更准确和健壮,因此获得了关注。它的关键在于如何融合多模式数据并减少模式之间的差距。但是,多模式跟踪仍然严重遭受数据缺乏症的影响,从而导致融合模块的学习不足。我们没有在本文中构建这样的融合模块,而是通过将重要性附加到多模式的视觉提示中,为多模式跟踪提供了新的视角。我们设计了一种新型的多模式及时跟踪器(Protrack),可以通过及时范式将多模式输入传递到单个模态。通过最好地利用预先训练的RGB跟踪器在大规模学习的跟踪能力,我们的突起即使没有对多模式数据进行任何额外的培训,我们的突起也可以通过更改输入来实现高性能多模式跟踪。 5个基准数据集的广泛实验证明了所提出的突起的有效性。
translated by 谷歌翻译
与可见的摄像机不同的是逐帧记录强度图像的可见摄像机,生物学启发的事件摄像头会产生一系列的异步和稀疏事件,并且延迟较低。在实践中,可见的摄像机可以更好地感知纹理细节和慢动作,而事件摄像机可以没有运动模糊并具有更大的动态范围,从而使它们能够在快速运动和低照明下良好地工作。因此,两个传感器可以相互合作以实现更可靠的对象跟踪。在这项工作中,我们提出了一个大规模可见事件基准(称为Visevent),因为缺乏针对此任务的现实和缩放数据集。我们的数据集由在低照明,高速和背景混乱场景下捕获的820个视频对组成,并将其分为训练和测试子集,每个培训和测试子集分别包含500和320个视频。基于Visevent,我们通过将当前的单模式跟踪器扩展到双模式版本,将事件流转换为事件图像,并构建30多种基线方法。更重要的是,我们通过提出跨模式变压器来进一步构建一种简单但有效的跟踪算法,以在可见光和事件数据之间实现更有效的功能融合。对拟议的Visevent数据集(FE108)和两个模拟数据集(即OTB-DVS和fot-DVS)进行了广泛的实验,验证了我们模型的有效性。数据集和源代码已在我们的项目页面上发布:\ url {https://sites.google.com/view/viseventtrack/}。
translated by 谷歌翻译
Correlation acts as a critical role in the tracking field, especially in recent popular Siamese-based trackers. The correlation operation is a simple fusion manner to consider the similarity between the template and the search re-
translated by 谷歌翻译
最近的跟踪器采用变压器来组合或替换广泛使用的重新NET作为其新的骨干网络。尽管他们的跟踪器在常规场景中运行良好,但是他们只是将2D功能弄平为序列,以更好地匹配变压器。我们认为这些操作忽略了目标对象的空间先验,这可能仅导致次优结果。此外,许多作品表明,自我注意力实际上是一个低通滤波器,它与输入功能或键/查询无关。也就是说,它可能会抑制输入功能的高频组成部分,并保留甚至放大低频信息。为了解决这些问题,在本文中,我们提出了一个统一的空间频率变压器,该变压器同时建模高斯空间先验和高频强调(GPHA)。具体而言,高斯空间先验是使用双重多层感知器(MLP)生成的,并注入了通过将查询和自我注意的关键特征乘产生的相似性矩阵。输出将被馈入软磁层,然后分解为两个组件,即直接信号和高频信号。低通和高通的分支被重新缩放并组合以实现全通,因此,高频特征将在堆叠的自发层中得到很好的保护。我们进一步将空间频率变压器整合到暹罗跟踪框架中,并提出一种新颖的跟踪算法,称为SFTRANST。基于跨级融合的SwintransFormer被用作骨干,还使用多头交叉意见模块来增强搜索和模板功能之间的相互作用。输出将被馈入跟踪头以进行目标定位。短期和长期跟踪基准的广泛实验都证明了我们提出的框架的有效性。
translated by 谷歌翻译
RGB-D对象跟踪最近引起了广泛的关注,这得益于视觉和深度通道之间的共生能力。但是,鉴于有限的注释RGB-D跟踪数据,大多数最先进的RGB-D跟踪器是高性能RGB的简单扩展程序,而无需完全利用深度通道中深度通道的潜在潜力离线训练阶段。为了解决数据集缺乏问题,本文发布了一个名为RGBD1K的新的RGB-D数据集。 RGBD1K包含1,050个序列,总计约250万帧。为了证明对较大的RGB-D数据集的培训的好处,尤其是RGBD1K,我们开发了一个基于变压器的RGB-D跟踪器,名为SPT,是使用新数据集的未来视觉对象跟踪研究的基线。使用SPT跟踪器进行的广泛实验的结果表明,RGBD1K数据集的潜力可以提高RGB-D跟踪的性能,从而激发了有效跟踪器设计的未来发展。数据集和代码将在项目主页上提供:https://will.be.available.at.at.this.website。
translated by 谷歌翻译
大多数现有的RGB-D突出物体检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模型信息集成。卷积操作的固有局部连接将基于卷积的方法的性能进行了限制到天花板的性能。在这项工作中,我们从全球信息对齐和转换的角度重新思考此任务。具体地,所提出的方法(Transcmd)级联几个跨模型集成单元来构造基于自上而下的变换器的信息传播路径(TIPP)。 Transcmd将多尺度和多模态特征集成作为序列到序列上下文传播和内置于变压器上的更新过程。此外,考虑到二次复杂性W.R.T.输入令牌的数量,我们设计了具有可接受的计算成本的修补程序令牌重新嵌入策略(Ptre)。七个RGB-D SOD基准数据集上的实验结果表明,在配备TIPP时,简单的两流编码器 - 解码器框架可以超越最先进的基于CNN的方法。
translated by 谷歌翻译
RGB-thermal显着对象检测(RGB-T SOD)旨在定位对齐可见的和热红外图像对的共同突出对象,并准确地分割所有属于这些对象的像素。由于对热图像的照明条件不敏感,它在诸如夜间和复杂背景之类的具有挑战性的场景中很有希望。因此,RGB-T SOD的关键问题是使两种方式的功能相互补充并互相调整,因为不可避免的是,由于极端光条件和诸如极端光条件和诸如极端光明条件和热跨界。在本文中,我们提出了一个针对RGB-T SOD的新型镜子互补变压器网络(MCNET)。具体而言,我们将基于变压器的特征提取模块引入RGB和热图像的有效提取分层特征。然后,通过基于注意力的特征相互作用和基于串行的多尺度扩张卷积(SDC)特征融合模块,提出的模型实现了低级特征的互补相互作用以及深度特征的语义融合。最后,基于镜子互补结构,即使是一种模态也可以准确地提取两种方式的显着区域也是无效的。为了证明在现实世界中具有挑战性的场景下提出的模型的鲁棒性,我们基于自动驾驶域中使用的大型公共语义分段RGB-T数据集建立了一种新颖的RGB-T SOD数据集VT723。基准和VT723数据集上的昂贵实验表明,所提出的方法优于最先进的方法,包括基于CNN的方法和基于变压器的方法。该代码和数据集将在稍后在https://github.com/jxr326/swinmcnet上发布。
translated by 谷歌翻译
现有的RGB-D SOD方法主要依赖于对称的两个基于CNN的网络来分别提取RGB和深度通道特征。但是,对称传统网络结构有两个问题:首先,CNN在学习全球环境中的能力是有限的。其次,对称的两流结构忽略了模态之间的固有差异。在本文中,我们提出了一个基于变压器的非对称网络(TANET),以解决上述问题。我们采用了变压器(PVTV2)的强大功能提取能力,从RGB数据中提取全局语义信息,并设计轻巧的CNN骨架(LWDEPTHNET),以从深度数据中提取空间结构信息,而无需预训练。不对称混合编码器(AHE)有效地减少了模型中参数的数量,同时不牺牲性能而增加速度。然后,我们设计了一个跨模式特征融合模块(CMFFM),该模块增强并互相融合了RGB和深度特征。最后,我们将边缘预测添加为辅助任务,并提出一个边缘增强模块(EEM)以生成更清晰的轮廓。广泛的实验表明,我们的方法在六个公共数据集上实现了超过14种最先进的RGB-D方法的卓越性能。我们的代码将在https://github.com/lc012463/tanet上发布。
translated by 谷歌翻译
RGB-D图像上的突出对象检测(SOD)是计算机视觉中的主动问题。 RGB-D SOD问题的主要挑战是1)提取RGB的准确特征和杂物背景或图像质量差的深度图像数据,2)探索RGB和深度图像数据之间的互补信息。为了解决这些挑战,我们提出了一种用于RGB-D SOD的新型互变融合网络(MTFNET)。 MTFNET包含两个主要模块,$ i. $,焦点特征提取器(FFE)和相互变压器融合(MTF)。 FFE旨在通过引入新的像素级焦点正则化来引导CNN特征提取器来提取RGB和深度图像的更准确的CNN特征。 MTF旨在深入利用RGB与粗略和精细尺度之间的多模态交互。 MTF的主要好处是它同时对模态和模态的学习进行了学习,因此可以更直接且充分地实现不同方式的通信。六个公共基准的综合实验结果展示了我们提出的MTFNET的优越性。
translated by 谷歌翻译
在许多可视化系统中,视觉跟踪通常基于RGB图像序列,其中一些目标在低光条件下无效,因此追踪性能显着影响。介绍深度和红外数据等其他模态是处理单个来源的成像限制的有效方法,但多模态成像平台通常需要详细设计,并且目前不能应用于许多现实世界应用。近红外(NIR)成像成为许多监视摄像机的重要组成部分,其成像基于光强度在RGB和NIR之间切换。这两种方式具有异质性,视觉特性非常不同,因此为视觉跟踪带来了大量挑战。但是,现有的作品没有研究过这个具有挑战性的问题。在这项工作中,我们解决了跨模型对象跟踪问题并贡献新的视频数据集,包括总共具有超过481K帧的654个跨模型图像序列,并且平均视频长度超过735帧。为促进跨模型对象跟踪的研究和开发,我们提出了一种新的算法,它学习模态感知目标表示,以减轻跟踪过程中RGB和NIR模式之间的外观差距。它是即插即用,因此可以灵活地嵌入到不同的跟踪框架中。对数据集进行广泛的实验,我们展示了两个代表性跟踪框架中提出的算法的有效性,其针对17个最先进的跟踪方法。我们将发布数据集进行免费学术用法,数据集下载链接和代码即将发布。
translated by 谷歌翻译
变压器跟踪器最近取得了令人印象深刻的进步,注意力机制起着重要作用。但是,注意机制的独立相关计算可能导致嘈杂和模棱两可的注意力重量,从而抑制了进一步的性能改善。为了解决这个问题,我们提出了注意力(AIA)模块,该模块通过在所有相关向量之间寻求共识来增强适当的相关性并抑制错误的相关性。我们的AIA模块可以很容易地应用于自我注意解区和交叉注意区块,以促进特征聚集和信息传播以进行视觉跟踪。此外,我们通过引入有效的功能重复使用和目标背景嵌入来充分利用时间参考,提出了一个流线型的变压器跟踪框架,称为AIATRACK。实验表明,我们的跟踪器以实时速度运行时在六个跟踪基准测试中实现最先进的性能。
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
Benefiting from color independence, illumination invariance and location discrimination attributed by the depth map, it can provide important supplemental information for extracting salient objects in complex environments. However, high-quality depth sensors are expensive and can not be widely applied. While general depth sensors produce the noisy and sparse depth information, which brings the depth-based networks with irreversible interference. In this paper, we propose a novel multi-task and multi-modal filtered transformer (MMFT) network for RGB-D salient object detection (SOD). Specifically, we unify three complementary tasks: depth estimation, salient object detection and contour estimation. The multi-task mechanism promotes the model to learn the task-aware features from the auxiliary tasks. In this way, the depth information can be completed and purified. Moreover, we introduce a multi-modal filtered transformer (MFT) module, which equips with three modality-specific filters to generate the transformer-enhanced feature for each modality. The proposed model works in a depth-free style during the testing phase. Experiments show that it not only significantly surpasses the depth-based RGB-D SOD methods on multiple datasets, but also precisely predicts a high-quality depth map and salient contour at the same time. And, the resulted depth map can help existing RGB-D SOD methods obtain significant performance gain. The source code will be publicly available at https://github.com/Xiaoqi-Zhao-DLUT/MMFT.
translated by 谷歌翻译
我们介绍了一个基于仅用于跟踪的变压器的暹罗样的双分支网络。给定模板和搜索映像,我们将它们分成非重叠补丁,并基于其在注意窗口中的其他人的匹配结果提取每个补丁的特征向量。对于每个令牌,我们估计它是否包含目标对象和相应的大小。该方法的优点是,该特征从匹配中学到,最终匹配。因此,功能与目标跟踪任务对齐。该方法实现更好或比较的结果作为首先使用CNN提取特征的最佳性能,然后使用变压器熔断它们。它优于GOT-10K和VOT2020基准上的最先进的方法。此外,该方法在一个GPU上实现了实时推理速度(约为40美元的FPS)。代码和模型将被释放。
translated by 谷歌翻译
显着对象检测(SOD)模拟了人类视觉感知系统以在场景中定位最具吸引力的对象,已广泛应用于各种计算机视觉任务。现在,随着深度传感器的出现,可以轻松捕获具有富裕的空间信息的深度图,并有利于提高SOD的性能。尽管在过去几年中提出了各种具有有前途的性能的基于RGB-D的SOD模型,但仍缺乏对这些主题的这些模型和挑战的深入了解。在本文中,我们从各个角度提供了基于RGB-D的SOD模型的全面调查,并详细介绍了相关的基准数据集。此外,考虑到光场还可以提供深度图,我们还从该域中回顾了SOD模型和流行的基准数据集。此外,为了研究现有模型的SOD能力,我们进行了全面的评估,以及基于属性的几种基于RGB-D的SOD模型的评估。最后,我们讨论了基于RGB-D的SOD的几个挑战和开放方向,以供未来的研究。将在https://github.com/taozh2017/rgbdsodsurvey上公开提供所有收集的模型,基准数据集,源代码链接,用于基于属性的评估的数据集以及评估代码
translated by 谷歌翻译
准确且强大的视觉对象跟踪是最具挑战性和最基本的计算机视觉问题之一。它需要在图像序列中估计目标的轨迹,仅给出其初始位置和分段,或者在边界框的形式中粗略近似。判别相关滤波器(DCF)和深度暹罗网络(SNS)被出现为主导跟踪范式,这导致了重大进展。在过去十年的视觉对象跟踪快速演变之后,该调查介绍了90多个DCFS和暹罗跟踪器的系统和彻底审查,基于九个跟踪基准。首先,我们介绍了DCF和暹罗跟踪核心配方的背景理论。然后,我们在这些跟踪范式中区分和全面地审查共享以及具体的开放研究挑战。此外,我们彻底分析了DCF和暹罗跟踪器对九个基准的性能,涵盖了视觉跟踪的不同实验方面:数据集,评估度量,性能和速度比较。通过提出根据我们的分析提出尊重开放挑战的建议和建议来完成调查。
translated by 谷歌翻译
随着现代建筑倾向于使用大量玻璃面板,玻璃表面变得越来越无处不在。然而,这对机器人,自动驾驶汽车和无人机等自主系统的运营构成了重大挑战,因为玻璃板可能会成为导航的透明障碍。存在的工作试图利用各种线索,包括玻璃边界上下文或反思,例如先验。但是,它们都是基于输入RGB图像的。我们观察到3D深度传感器光线通过玻璃表面的传输通常会在深度图中产生空白区域,这可以提供其他见解以补充RGB图像特征以进行玻璃表面检测。在本文中,我们通过将RGB-D信息合并到两个新型模块中提出了一个新颖的玻璃表面检测框架:(1)一个跨模式环境挖掘(CCM)模块,以适应从RGB和深度学习个人和相互的上下文特征信息,以及(2)深度失误的注意力(DAA)模块,以明确利用空间位置,在这些空间位置存在缺失的深度以帮助检测玻璃表面的存在。此外,我们提出了一个大规模的RGB-D玻璃表面检测数据集,称为\ textit {RGB-D GSD},用于RGB-D玻璃表面检测。我们的数据集包含3,009个现实世界的RGB-D玻璃表面图像,并具有精确的注释。广泛的实验结果表明,我们提出的模型优于最先进的方法。
translated by 谷歌翻译
变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性,变压器已被用作广泛使用的卷积运算符的替代品。事实证明,这种替代者在许多任务中都取得了成功,其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中,3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上,但由于与2D视觉相比,由于数据表示和处理的差异,3D视觉需要特别注意。在这项工作中,我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查,包括分类,细分,检测,完成,姿势估计等。我们在3D Vision中讨论了变形金刚的设计,该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序,我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力,我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外,我们的目标是频繁更新最新的相关论文及其相应的实现:https://github.com/lahoud/3d-vision-transformers。
translated by 谷歌翻译