智能论文笔记

Changer: Feature Interaction is What You Need for Change Detection

Sheng Fang , Kaiyu Li , Zhe Li

分类：计算机视觉

2022-09-17

变更检测是长期地球观察任务的重要工具。它将双向图像作为输入，并预测发生变化的地方。与其他密集的预测任务不同，变更检测的有意义的考虑因素是双向特征之间的相互作用。通过这种动机，在本文中，我们提出了一种新型的通用变化检测体系结构Metachanger，其中包括特征提取器中的一系列替代相互作用层。为了验证Metachanger的有效性，我们提出了两个衍生模型，即Changerad和Changerex，具有简单的交互策略：聚合 - 分布（AD）和“ Exchange”。 AD是从某些复杂的交互方法中抽象的，“ Exchange”是通过交换Bi-stormoral特征的完全参数\和无计算操作。此外，为了更好地对齐双期特征，我们提出了一个流动双对齐融合（FDAF）模块，该模块允许交互式比对和特征融合。至关重要的是，我们观察到改变器系列模型在不同量表变更检测数据集上实现竞争性能。此外，我们提议的张冠军和Changerex可以作为未来Metachanger Design的首发基线。

translated by 谷歌翻译

RCDT: Relational Remote Sensing Change Detection with Transformer

Kaixuan Lu , Xiao Huang

分类：计算机视觉

2022-12-09

Deep learning based change detection methods have received wide attentoion, thanks to their strong capability in obtaining rich features from images. However, existing AI-based CD methods largely rely on three functionality-enhancing modules, i.e., semantic enhancement, attention mechanisms, and correspondence enhancement. The stacking of these modules leads to great model complexity. To unify these three modules into a simple pipeline, we introduce Relational Change Detection Transformer (RCDT), a novel and simple framework for remote sensing change detection tasks. The proposed RCDT consists of three major components, a weight-sharing Siamese Backbone to obtain bi-temporal features, a Relational Cross Attention Module (RCAM) that implements offset cross attention to obtain bi-temporal relation-aware features, and a Features Constrain Module (FCM) to achieve the final refined predictions with high-resolution constraints. Extensive experiments on four different publically available datasets suggest that our proposed RCDT exhibits superior change detection performance compared with other competing methods. The therotical, methodogical, and experimental knowledge of this study is expected to benefit future change detection efforts that involve the cross attention mechanism.

translated by 谷歌翻译

TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D Salient Object Detection

Youwei Pang , Xiaoqi Zhao , Lihe Zhang , Huchuan Lu

分类：计算机视觉

2021-12-04

大多数现有的RGB-D突出物体检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模型信息集成。卷积操作的固有局部连接将基于卷积的方法的性能进行了限制到天花板的性能。在这项工作中，我们从全球信息对齐和转换的角度重新思考此任务。具体地，所提出的方法（Transcmd）级联几个跨模型集成单元来构造基于自上而下的变换器的信息传播路径（TIPP）。 Transcmd将多尺度和多模态特征集成作为序列到序列上下文传播和内置于变压器上的更新过程。此外，考虑到二次复杂性W.R.T.输入令牌的数量，我们设计了具有可接受的计算成本的修补程序令牌重新嵌入策略（Ptre）。七个RGB-D SOD基准数据集上的实验结果表明，在配备TIPP时，简单的两流编码器 - 解码器框架可以超越最先进的基于CNN的方法。

translated by 谷歌翻译

Efficient deep learning models for land cover image classification

Ioannis Papoutsis , Nikolaos-Ioannis Bountos , Angelos Zavras , Dimitrios Michail , Christos Tryfonopoulos

分类：计算机视觉

2021-11-18

哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖（Lulc）映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中，我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集，包括卷积神经网络，多层感知，视觉变压器，高效导通和宽残余网络（WRN）架构。我们的目标是利用分类准确性，培训时间和推理率。我们提出了一种基于用于网络深度，宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架，以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构，增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数，实现所有19个LULC类的平均F分类准确度达到4.5％，并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号，以及我们在多个GPU节点上分布式培训的代码。

translated by 谷歌翻译

A Transformer-Based Siamese Network for Change Detection

Wele Gedara Chaminda Bandara , Vishal M. Patel

分类：计算机视觉

2022-01-04

本文介绍了一种基于变压器的暹罗网络架构（由Cradiformer缩写），用于从一对共同登记的遥感图像改变检测（CD）。与最近的CD框架不同，该CD框架基于完全卷积的网络（CoundNets），该方法将具有多层感知（MLP）解码器的分层结构化变压器编码器统一，以暹罗网络架构中的多层感知器，以有效地呈现所需的多尺度远程详细信息用于准确的CD。两个CD数据集上的实验表明，所提出的端到端培训变换器架构比以前的同行实现更好的CD性能。我们的代码可在https://github.com/wgcban/changeFormer获得。

translated by 谷歌翻译

DPTNet: A Dual-Path Transformer Architecture for Scene Text Detection

Jingyu Lin , Jie Jiang , Yan Yan , Chunchao Guo , Hongfa Wang , Wei Liu , Hanzi Wang

分类：计算机视觉

2022-08-21

深度学习的繁荣有助于场景文本检测的快速进步。在所有具有卷积网络的方法中，基于细分的方法在检测任意形状和极端纵横比的文本实例方面的优越性，引起了广泛的关注。但是，自下而上的方法仅限于其分割模型的性能。在本文中，我们提出了DPTNET（双路线变压器网络），这是一种简单而有效的体系结构，可为场景文本检测任务建模全局和本地信息。我们进一步提出了一种平行的设计，将卷积网络与强大的自我发场机制相结合，以在注意力路径和卷积路径之间提供互补的线索。此外，开发了两个路径上的双向相互作用模块，以提供通道和空间尺寸的互补线索。我们还通过向其添加额外的多头注意力层来升级集中操作。我们的DPTNET在MSRA-TD500数据集上实现了最先进的结果，并就检测准确性和速度提供了其他标准基准的竞争结果。

translated by 谷歌翻译

Transformers in Remote Sensing: A Survey

Abdulaziz Amer Aleissaee , Amandeep Kumar , Rao Muhammad Anwer , Salman Khan , Hisham Cholakkal , Gui-Song Xia , Fahad Shahbaz khan

分类：计算机视觉

2022-09-02

在过去的十年中，基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近，最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域，在该字段中，自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发，遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上，但据我们所知，我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法，用于遥感子方面的不同遥感问题：非常高分辨率（VHR），高光谱（HSI）和合成孔径雷达（SAR）图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外，我们打算在遥感论文中频繁更新和维护最新的变压器，及其各自的代码：https：//github.com/virobo-15/transformer-in-in-remote-sensing

translated by 谷歌翻译

HTML版本

SiamixFormer: A Siamese Transformer Network For Building Detection And Change Detection From Bi-Temporal Remote Sensing Images

Amir mohammadian , Foad Ghaderi

分类：计算机视觉

2022-08-01

使用遥感图像进行建筑检测和变更检测可以帮助城市和救援计划。此外，它们可用于自然灾害后的建筑损害评估。当前，大多数用于建筑物检测的现有模型仅使用一个图像（预拆架图像）来检测建筑物。这是基于这样的想法：由于存在被破坏的建筑物，后沙仪图像降低了模型的性能。在本文中，我们提出了一种称为暹罗形式的暹罗模型，该模型使用前和垃圾后图像作为输入。我们的模型有两个编码器，并具有分层变压器体系结构。两个编码器中每个阶段的输出都以特征融合的方式给予特征融合，以从disasaster图像生成查询，并且（键，值）是从disasaster图像中生成的。为此，在特征融合中也考虑了时间特征。在特征融合中使用颞变压器的另一个优点是，与CNN相比，它们可以更好地维持由变压器编码器产生的大型接受场。最后，在每个阶段，将颞变压器的输出输入简单的MLP解码器。在XBD和WHU数据集上评估了暹罗形式模型，用于构建检测以及Levir-CD和CDD数据集，以进行更改检测，并可以胜过最新的。

translated by 谷歌翻译

SARAS-Net: Scale and Relation Aware Siamese Network for Change Detection

Chao-Peng Chen , Jun-Wei Hsieh , Ping-Yang Chen , Yi-Kuan Hsieh , Bor-Shiun Wang

分类：计算机视觉 | 人工智能

2022-12-02

Change detection (CD) aims to find the difference between two images at different times and outputs a change map to represent whether the region has changed or not. To achieve a better result in generating the change map, many State-of-The-Art (SoTA) methods design a deep learning model that has a powerful discriminative ability. However, these methods still get lower performance because they ignore spatial information and scaling changes between objects, giving rise to blurry or wrong boundaries. In addition to these, they also neglect the interactive information of two different images. To alleviate these problems, we propose our network, the Scale and Relation-Aware Siamese Network (SARAS-Net) to deal with this issue. In this paper, three modules are proposed that include relation-aware, scale-aware, and cross-transformer to tackle the problem of scene change detection more effectively. To verify our model, we tested three public datasets, including LEVIR-CD, WHU-CD, and DSFIN, and obtained SoTA accuracy. Our code is available at https://github.com/f64051041/SARAS-Net.

translated by 谷歌翻译

How to Reduce Change Detection to Semantic Segmentation

Guo-Hua Wang , Bin-Bin Gao , Chengjie Wang

分类：计算机视觉 | 人工智能

2022-06-15

变更检测（CD）旨在识别在不同时间拍摄的图像对中发生的变化。先前的方法从头开始设计特定的网络，以预测像素级别中的更改口罩，并与一般分割问题斗争。在本文中，我们提出了一种新的范式，该范式将CD降低到语义分割，这意味着调整现有且强大的语义分割网络以求解CD。这种新的范式方便地享受主流语义分割技术，以解决CD中的一般细分问题。因此，我们可以集中精力研究如何检测变化。我们提出了一种新颖而重要的见解，即CD中存在不同的变化类型，应分别学习它们。基于它，我们设计了一个名为MTF的模块来提取更改信息和融合时间功能。 MTF具有高解释性，并揭示了CD的基本特征。并且大多数分割网络都可以通过我们的MTF模块来解决CD问题。最后，我们提出了C-3PO，该网络可检测像素级别的变化。 C-3PO在没有铃铛和哨子的情况下实现最先进的表现。它很简单但有效，可以被视为该领域的新基线。我们的代码将可用。

translated by 谷歌翻译

Attention Mechanisms in Computer Vision: A Survey

Meng-Hao Guo , Tian-Xing Xu , Jiang-Jiang Liu , Zheng-Ning Liu , Peng-Tao Jiang , Tai-Jiang Mu , Song-Hai Zhang , Ralph R. Martin , Ming-Ming Cheng , Shi-Min Hu

分类：计算机视觉

2021-11-15

人类自然有效地在复杂的场景中找到突出区域。通过这种观察的动机，引入了计算机视觉中的注意力机制，目的是模仿人类视觉系统的这一方面。这种注意机制可以基于输入图像的特征被视为动态权重调整过程。注意机制在许多视觉任务中取得了巨大的成功，包括图像分类，对象检测，语义分割，视频理解，图像生成，3D视觉，多模态任务和自我监督的学习。在本调查中，我们对计算机愿景中的各种关注机制进行了全面的审查，并根据渠道注意，空间关注，暂时关注和分支注意力进行分类。相关的存储库https：//github.com/menghaoguo/awesome-vision-tions致力于收集相关的工作。我们还建议了未来的注意机制研究方向。

translated by 谷歌翻译

DAHiTrA: Damage Assessment Using a Novel Hierarchical Transformer Architecture

Navjot Kaur , Cheng-Chun Lee , Ali Mostafavi , Ali Mahdavi-Amiri

分类：计算机视觉

2022-08-03

本文介绍了Dahitra，这是一种具有分层变压器的新型深度学习模型，可在飓风后根据卫星图像对建筑物的损害进行分类。自动化的建筑损害评估为决策和资源分配提供了关键信息，以快速应急响应。卫星图像提供了实时，高覆盖的信息，并提供了向大规模污点后建筑物损失评估提供信息的机会。此外，深入学习方法已证明在对建筑物的损害进行分类方面有希望。在这项工作中，提出了一个基于变压器的新型网络来评估建筑物的损失。该网络利用多个分辨率的层次空间特征，并在将变压器编码器应用于空间特征后捕获特征域的时间差异。当对大规模灾难损坏数据集（XBD）进行测试以构建本地化和损坏分类以及在Levir-CD数据集上进行更改检测任务时，该网络将实现最先进的绩效。此外，我们引入了一个新的高分辨率卫星图像数据集，IDA-BD（与2021年路易斯安那州的2021年飓风IDA有关，以便域名适应以进一步评估该模型的能力，以适用于新损坏的区域。域的适应结果表明，所提出的模型可以适应一个新事件，只有有限的微调。因此，所提出的模型通过更好的性能和域的适应来推进艺术的当前状态。此外，IDA-BD也提供了A高分辨率注释的数据集用于该领域的未来研究。

translated by 谷歌翻译

TINYCD: A (Not So) Deep Learning Model For Change Detection

Andrea Codegoni , Gabriele Lombardi , Alessandro Ferrari

分类：计算机视觉 | 机器学习

2022-07-26

更改检测的目的（CD）是通过比较在不同时间拍摄的两张图像来检测变化。 CD的挑战性部分是跟踪用户想要突出显示的变化，例如新建筑物，并忽略了由于外部因素（例如环境，照明条件，雾或季节性变化）而引起的变化。深度学习领域的最新发展使研究人员能够在这一领域取得出色的表现。特别是，时空注意的不同机制允许利用从模型中提取的空间特征，并通过利用这两个可用图像来以时间方式将它们相关联。不利的一面是，这些模型已经变得越来越复杂且大，对于边缘应用来说通常是不可行的。当必须将模型应用于工业领域或需要实时性能的应用程序时，这些都是限制。在这项工作中，我们提出了一个名为TinyCD的新型模型，证明既轻量级又有效，能够实现较少参数13-150x的最新技术状态。在我们的方法中，我们利用了低级功能比较图像的重要性。为此，我们仅使用几个骨干块。此策略使我们能够保持网络参数的数量较低。为了构成从这两个图像中提取的特征，我们在参数方面引入了一种新颖的经济性，混合块能够在时空和时域中交叉相关的特征。最后，为了充分利用计算功能中包含的信息，我们定义了能够执行像素明智分类的PW-MLP块。源代码，模型和结果可在此处找到：https：//github.com/andreacodegoni/tiny_model_4_cd

translated by 谷歌翻译

TransKD: Transformer Knowledge Distillation for Efficient Semantic Segmentation

Ruiping Liu , Kailun Yang , Alina Roitberg , Jiaming Zhang , Kunyu Peng , Huayao Liu , Rainer Stiefelhagen

分类：计算机视觉 | 机器人

2022-02-27

大型预训练的变压器是现代语义分割基准的顶部，但具有高计算成本和冗长的培训。为了提高这种约束，我们从综合知识蒸馏的角度来研究有效的语义分割，并考虑弥合多源知识提取和特定于变压器特定的斑块嵌入之间的差距。我们提出了基于变压器的知识蒸馏（TransKD）框架，该框架通过蒸馏出大型教师变压器的特征地图和补丁嵌入来学习紧凑的学生变形金刚，绕过长期的预训练过程并将FLOPS降低> 85.0％。具体而言，我们提出了两个基本和两个优化模块：（1）交叉选择性融合（CSF）可以通过通道注意和层次变压器内的特征图蒸馏之间的知识转移；（2）嵌入对齐（PEA）在斑块过程中执行尺寸转换，以促进贴片嵌入蒸馏；（3）全局本地上下文混合器（GL-MIXER）提取了代表性嵌入的全局和局部信息；（4）嵌入助手（EA）是一种嵌入方法，可以无缝地桥接老师和学生模型，并具有老师的渠道数量。关于CityScapes，ACDC和NYUV2数据集的实验表明，TransKD的表现优于最先进的蒸馏框架，并竞争了耗时的预训练方法。代码可在https://github.com/ruipingl/transkd上找到。

translated by 谷歌翻译

Learning Tracking Representations via Dual-Branch Fully Transformer Networks

Fei Xie , Chunyu Wang , Guangting Wang , Wankou Yang , Wenjun Zeng

分类：计算机视觉

2021-12-05

我们介绍了一个基于仅用于跟踪的变压器的暹罗样的双分支网络。给定模板和搜索映像，我们将它们分成非重叠补丁，并基于其在注意窗口中的其他人的匹配结果提取每个补丁的特征向量。对于每个令牌，我们估计它是否包含目标对象和相应的大小。该方法的优点是，该特征从匹配中学到，最终匹配。因此，功能与目标跟踪任务对齐。该方法实现更好或比较的结果作为首先使用CNN提取特征的最佳性能，然后使用变压器熔断它们。它优于GOT-10K和VOT2020基准上的最先进的方法。此外，该方法在一个GPU上实现了实时推理速度（约为40美元的FPS）。代码和模型将被释放。

translated by 谷歌翻译

An End-to-end Supervised Domain Adaptation Framework for Cross-Domain Change Detection

Jia Liu , Wenjie Xuan , Yuhang Gan , Juhua Liu , Bo Du

分类：计算机视觉

2022-04-01

现有的基于深度学习的变更检测方法试图精心设计具有功能强大特征表示的复杂神经网络，但忽略了随时间变化的土地覆盖变化引起的通用域转移，包括亮度波动和事件前和事后图像之间的季节变化，从而产生亚最佳结果。在本文中，我们提出了一个端到端监督域的适应框架，用于跨域变更检测，即SDACD，以有效地减轻双期颞图像之间的域移位，以更好地变更预测。具体而言，我们的SDACD通过有监督的学习从图像和特征角度介绍了合作改编。图像适应性利用了具有循环矛盾的限制来利用生成的对抗学习，以执行跨域样式转换，从而有效地以两边的方式缩小了域间隙。为了特征适应性，我们提取域不变特征以对齐特征空间中的不同特征分布，这可以进一步减少跨域图像的域间隙。为了进一步提高性能，我们结合了三种类型的双颞图像，以进行最终变化预测，包括初始输入双期图像和两个来自事件前和事后域的生成的双颞图像。对两个基准的广泛实验和分析证明了我们提出的框架的有效性和普遍性。值得注意的是，我们的框架将几个代表性的基线模型推向了新的最先进的记录，分别在CDD和WHU建筑数据集上分别达到97.34％和92.36％。源代码和模型可在https://github.com/perfect-you/sdacd上公开获得。

translated by 谷歌翻译

Semantic-aware Dense Representation Learning for Remote Sensing Image Change Detection

Hao Chen , Wenyuan Li , Song Chen , Zhenwei Shi

分类：计算机视觉

2022-05-27

监督的深度学习模型取决于大量标记的数据。不幸的是，收集和注释包含所需更改的零花态样本是耗时和劳动密集型的。从预训练模型中转移学习可有效减轻遥感（RS）变化检测（CD）中标签不足。我们探索在预训练期间使用语义信息的使用。不同于传统的监督预训练，该预训练从图像到标签，我们将语义监督纳入了自我监督的学习（SSL）框架中。通常，多个感兴趣的对象（例如，建筑物）以未经切割的RS图像分布在各个位置。我们没有通过全局池操纵图像级表示，而是在每个像素嵌入式上引入点级监督以学习空间敏感的特征，从而使下游密集的CD受益。为了实现这一目标，我们通过使用语义掩码在视图之间的重叠区域上通过类平衡的采样获得了多个点。我们学会了一个嵌入式空间，将背景和前景点分开，并将视图之间的空间对齐点齐聚在一起。我们的直觉是导致的语义歧视性表示与无关的变化不变（照明和无关紧要的土地覆盖）可能有助于改变识别。我们在RS社区中免费提供大规模的图像面罩，用于预训练。在三个CD数据集上进行的大量实验验证了我们方法的有效性。我们的表现明显优于Imagenet预训练，内域监督和几种SSL方法。经验结果表明我们的预训练提高了CD模型的概括和数据效率。值得注意的是，我们使用20％的培训数据获得了比基线（随机初始化）使用100％数据获得竞争结果。我们的代码可用。

translated by 谷歌翻译

dual unet:a novel siamese network for change detection with cascade differential fusion

Kaixuan Jiang , Ja Liu , Fang Liu , Wenhua Zhang , Yangguang Liu

分类：计算机视觉

2022-08-12

遥感图像的更改检测（CD）是通过分析两个次时图像之间的差异来检测变化区域。它广泛用于土地资源规划，自然危害监测和其他领域。在我们的研究中，我们提出了一个新型的暹罗神经网络，用于变化检测任务，即双UNET。与以前的单独编码BITEMAL图像相反，我们设计了一个编码器差分注意模块，以关注像素的空间差异关系。为了改善网络的概括，它计算了咬合图像之间的任何像素之间的注意力权重，并使用它们来引起更具区别的特征。为了改善特征融合并避免梯度消失，在解码阶段提出了多尺度加权方差图融合策略。实验表明，所提出的方法始终优于流行的季节性变化检测数据集最先进的方法。

translated by 谷歌翻译

SFNet: Faster, Accurate, and Domain Agnostic Semantic Segmentation via Semantic Flow

Xiangtai Li , Jiangning Zhang , Yibo Yang , Guangliang Cheng , Kuiyuan Yang , Yunhai Tong , Dacheng Tao

分类：计算机视觉

2022-07-10

在本文中，我们专注于探索有效的方法，以更快，准确和域的不可知性语义分割。受到相邻视频帧之间运动对齐的光流的启发，我们提出了一个流对齐模块（FAM），以了解相邻级别的特征映射之间的\ textit {语义流}，并将高级特征广播到高分辨率特征有效地，有效地有效。。此外，将我们的FAM与共同特征的金字塔结构集成在一起，甚至在轻量重量骨干网络（例如Resnet-18和DFNET）上也表现出优于其他实时方法的性能。然后，为了进一步加快推理过程，我们还提出了一个新型的封闭式双流对齐模块，以直接对齐高分辨率特征图和低分辨率特征图，在该图中我们将改进版本网络称为SFNET-LITE。广泛的实验是在几个具有挑战性的数据集上进行的，结果显示了SFNET和SFNET-LITE的有效性。特别是，建议的SFNET-LITE系列在使用RESNET-18主链和78.8 MIOU以120 fps运行的情况下，使用RTX-3090上的STDC主链在120 fps运行时，在60 fps运行时达到80.1 miou。此外，我们将四个具有挑战性的驾驶数据集（即CityScapes，Mapillary，IDD和BDD）统一到一个大数据集中，我们将其命名为Unified Drive细分（UDS）数据集。它包含不同的域和样式信息。我们基准了UDS上的几项代表性作品。 SFNET和SFNET-LITE仍然可以在UDS上取得最佳的速度和准确性权衡，这在如此新的挑战性环境中是强大的基准。所有代码和模型均可在https://github.com/lxtgh/sfsegnets上公开获得。

translated by 谷歌翻译

Learning Spatial-Frequency Transformer for Visual Object Tracking

Chuanming Tang , Xiao Wang , Yuanchao Bai , Zhe Wu , Jianlin Zhang , Yongmei Huang

分类：计算机视觉

2022-08-18

最近的跟踪器采用变压器来组合或替换广泛使用的重新NET作为其新的骨干网络。尽管他们的跟踪器在常规场景中运行良好，但是他们只是将2D功能弄平为序列，以更好地匹配变压器。我们认为这些操作忽略了目标对象的空间先验，这可能仅导致次优结果。此外，许多作品表明，自我注意力实际上是一个低通滤波器，它与输入功能或键/查询无关。也就是说，它可能会抑制输入功能的高频组成部分，并保留甚至放大低频信息。为了解决这些问题，在本文中，我们提出了一个统一的空间频率变压器，该变压器同时建模高斯空间先验和高频强调（GPHA）。具体而言，高斯空间先验是使用双重多层感知器（MLP）生成的，并注入了通过将查询和自我注意的关键特征乘产生的相似性矩阵。输出将被馈入软磁层，然后分解为两个组件，即直接信号和高频信号。低通和高通的分支被重新缩放并组合以实现全通，因此，高频特征将在堆叠的自发层中得到很好的保护。我们进一步将空间频率变压器整合到暹罗跟踪框架中，并提出一种新颖的跟踪算法，称为SFTRANST。基于跨级融合的SwintransFormer被用作骨干，还使用多头交叉意见模块来增强搜索和模板功能之间的相互作用。输出将被馈入跟踪头以进行目标定位。短期和长期跟踪基准的广泛实验都证明了我们提出的框架的有效性。

translated by 谷歌翻译