基于变压器的视觉对象跟踪已广泛使用。但是,变压器结构缺乏足够的电感偏差。此外,仅专注于编码全局功能会损害建模本地细节,这限制了航空机器人中跟踪的能力。具体而言,通过局部模型为全球搜索机制,提出的跟踪器将全局编码器替换为新型的局部识别编码器。在使用的编码器中,仔细设计了局部识别的关注和局部元素校正网络,以减少全局冗余信息干扰和增加局部归纳偏见。同时,后者可以通过详细信息网络准确地在空中视图下对本地对象详细信息进行建模。所提出的方法在几种权威的空中基准中实现了竞争精度和鲁棒性,总共有316个序列。拟议的跟踪器的实用性和效率已通过现实世界测试得到了验证。
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
最近的跟踪器采用变压器来组合或替换广泛使用的重新NET作为其新的骨干网络。尽管他们的跟踪器在常规场景中运行良好,但是他们只是将2D功能弄平为序列,以更好地匹配变压器。我们认为这些操作忽略了目标对象的空间先验,这可能仅导致次优结果。此外,许多作品表明,自我注意力实际上是一个低通滤波器,它与输入功能或键/查询无关。也就是说,它可能会抑制输入功能的高频组成部分,并保留甚至放大低频信息。为了解决这些问题,在本文中,我们提出了一个统一的空间频率变压器,该变压器同时建模高斯空间先验和高频强调(GPHA)。具体而言,高斯空间先验是使用双重多层感知器(MLP)生成的,并注入了通过将查询和自我注意的关键特征乘产生的相似性矩阵。输出将被馈入软磁层,然后分解为两个组件,即直接信号和高频信号。低通和高通的分支被重新缩放并组合以实现全通,因此,高频特征将在堆叠的自发层中得到很好的保护。我们进一步将空间频率变压器整合到暹罗跟踪框架中,并提出一种新颖的跟踪算法,称为SFTRANST。基于跨级融合的SwintransFormer被用作骨干,还使用多头交叉意见模块来增强搜索和模板功能之间的相互作用。输出将被馈入跟踪头以进行目标定位。短期和长期跟踪基准的广泛实验都证明了我们提出的框架的有效性。
translated by 谷歌翻译
我们介绍了一个基于仅用于跟踪的变压器的暹罗样的双分支网络。给定模板和搜索映像,我们将它们分成非重叠补丁,并基于其在注意窗口中的其他人的匹配结果提取每个补丁的特征向量。对于每个令牌,我们估计它是否包含目标对象和相应的大小。该方法的优点是,该特征从匹配中学到,最终匹配。因此,功能与目标跟踪任务对齐。该方法实现更好或比较的结果作为首先使用CNN提取特征的最佳性能,然后使用变压器熔断它们。它优于GOT-10K和VOT2020基准上的最先进的方法。此外,该方法在一个GPU上实现了实时推理速度(约为40美元的FPS)。代码和模型将被释放。
translated by 谷歌翻译
更复杂和强大的神经网络模型的设计在视觉对象跟踪中具有显着提升的最先进。这些前进可以归因于更深的网络,或引入新的构建块,例如变形金刚。然而,在追求增加的跟踪性能时,有效的跟踪架构令人惊讶地注意到很少的关注。在本文中,我们介绍了用于实时视觉对象跟踪的高效变压器的示例变压器。 E.T.Track我们的视觉跟踪器包含示例变换器层,在CPU上以47 FPS运行。这比其他基于变压器的型号快8倍,使其成为唯一基于实时变压器的跟踪器。与可在标准CPU上实时运行的轻量级跟踪器相比,E.T.Track始终如一地优于锯齿,OTB-100,NFS,TrackingNet和Vot-ST2020数据集上的所有其他方法。代码很快将在https://github.com/visionml/pytracking上发布。
translated by 谷歌翻译
Correlation acts as a critical role in the tracking field, especially in recent popular Siamese-based trackers. The correlation operation is a simple fusion manner to consider the similarity between the template and the search re-
translated by 谷歌翻译
我们介绍了一种新颖的骨干架构,提高特征表示的目标感知能力。具体地,已经观察到事实上框架简单地使用来自骨干网的输出来执行特征匹配,从备份目标本地化,没有从匹配模块到骨干网的直接反馈,尤其是浅层。更具体地,只有匹配模块可以直接访问目标信息(在参考帧中),而候选帧的表示学习对参考目标是盲目的。结果,浅级中的目标 - 无关干扰的累积效果可能降低更深层的特征质量。在本文中,我们通过在暹罗类似的骨干网(inbn)内进行多个分支 - 方面交互来从不同角度接近问题。在INBN的核心是一个通用交互建模器(GIM),其将参考图像的先前知识注入骨干网络的不同阶段,导致候选特征表示的更好的目标感知和鲁棒的牵引力,其计算成本具有可忽略的计算成本。所提出的GIM模块和INBN机制是一般的,适用于不同的骨干类型,包括CNN和变压器,以改进,如我们在多个基准上的广泛实验所证明的那样。特别是,CNN版本(基于Siamcar),分别在Lasot / TNL2K上改善了3.2 / 6.9的Suc绝对收益。变压器版本获取Lasot / TNL2K的SUC 25.7 / 52.0,与最近的艺术态度相提并论。代码和模型将被释放。
translated by 谷歌翻译
变压器最近展示了改进视觉跟踪算法的明显潜力。尽管如此,基于变压器的跟踪器主要使用变压器熔断并增强由卷积神经网络(CNNS)产生的功能。相比之下,在本文中,我们提出了一个完全基于注意力的变压器跟踪算法,Swin-Cranstormer Tracker(SwintRack)。 SwintRack使用变压器进行特征提取和特征融合,允许目标对象和搜索区域之间的完全交互进行跟踪。为了进一步提高性能,我们调查了全面的不同策略,用于特征融合,位置编码和培训损失。所有这些努力都使SwintRack成为一个简单但坚实的基线。在我们的彻底实验中,SwintRack在leasot上设置了一个新的记录,在4.6 \%的情况下超过4.6 \%,同时仍然以45 fps运行。此外,它达到了最先进的表演,0.483 Suc,0.832 Suc和0.694 Ao,其他具有挑战性的leasot _ {ext} $,trackingnet和got-10k。我们的实施和培训型号可在HTTPS://github.com/litinglin/swintrack获得。
translated by 谷歌翻译
Siamese network based trackers formulate tracking as convolutional feature cross-correlation between a target template and a search region. However, Siamese trackers still have an accuracy gap compared with state-of-theart algorithms and they cannot take advantage of features from deep networks, such as ResNet-50 or deeper. In this work we prove the core reason comes from the lack of strict translation invariance. By comprehensive theoretical analysis and experimental validations, we break this restriction through a simple yet effective spatial aware sampling strategy and successfully train a ResNet-driven Siamese tracker with significant performance gain. Moreover, we propose a new model architecture to perform layer-wise and depthwise aggregations, which not only further improves the accuracy but also reduces the model size. We conduct extensive ablation studies to demonstrate the effectiveness of the proposed tracker, which obtains currently the best results on five large tracking benchmarks, including OTB2015, VOT2018, UAV123, LaSOT, and TrackingNet. Our model will be released to facilitate further researches.
translated by 谷歌翻译
低光环境对强大的无人驾驶汽车(UAV)跟踪也构成了巨大的挑战,即使使用最新的(SOTA)跟踪器,由于潜在的图像特征在不利的光条件下很难提取。此外,由于可见性较低,人类监视器的准确在线选择也极为难以在地面控制站中初始化无人机跟踪。为了解决这些问题,这项工作提出了一个新颖的增强剂,即凸线网,以点燃人类操作员和无人机跟踪器的潜在对象。通过采用变压器,LightlightNet可以根据全局特征调整增强参数,因此可以适应照明变化。引入了像素级范围掩模,以使光明网络更加专注于没有光源的跟踪对象和区域的增强。此外,建立了一种软截断机制,以防止背景噪声被误认为关键特征。对图像增强基准测试的评估表明,光明网络在促进人类感知方面具有优势。公共Uavdark135基准进行的实验表明,HightlightNet比其他SOTA低光增强剂更适合无人机跟踪任务。此外,在典型的无人机平台上进行的现实世界测试验证了HightlightNet在夜间航空跟踪相关应用中的实用性和效率。代码和演示视频可在https://github.com/vision4robotics/highlightnet上找到。
translated by 谷歌翻译
准确且强大的视觉对象跟踪是最具挑战性和最基本的计算机视觉问题之一。它需要在图像序列中估计目标的轨迹,仅给出其初始位置和分段,或者在边界框的形式中粗略近似。判别相关滤波器(DCF)和深度暹罗网络(SNS)被出现为主导跟踪范式,这导致了重大进展。在过去十年的视觉对象跟踪快速演变之后,该调查介绍了90多个DCFS和暹罗跟踪器的系统和彻底审查,基于九个跟踪基准。首先,我们介绍了DCF和暹罗跟踪核心配方的背景理论。然后,我们在这些跟踪范式中区分和全面地审查共享以及具体的开放研究挑战。此外,我们彻底分析了DCF和暹罗跟踪器对九个基准的性能,涵盖了视觉跟踪的不同实验方面:数据集,评估度量,性能和速度比较。通过提出根据我们的分析提出尊重开放挑战的建议和建议来完成调查。
translated by 谷歌翻译
变压器跟踪器最近取得了令人印象深刻的进步,注意力机制起着重要作用。但是,注意机制的独立相关计算可能导致嘈杂和模棱两可的注意力重量,从而抑制了进一步的性能改善。为了解决这个问题,我们提出了注意力(AIA)模块,该模块通过在所有相关向量之间寻求共识来增强适当的相关性并抑制错误的相关性。我们的AIA模块可以很容易地应用于自我注意解区和交叉注意区块,以促进特征聚集和信息传播以进行视觉跟踪。此外,我们通过引入有效的功能重复使用和目标背景嵌入来充分利用时间参考,提出了一个流线型的变压器跟踪框架,称为AIATRACK。实验表明,我们的跟踪器以实时速度运行时在六个跟踪基准测试中实现最先进的性能。
translated by 谷歌翻译
我们呈现恐惧,新颖,快速,高效,准确,强大的暹罗视觉跟踪器。我们介绍了对象模型适配的架构块,称为双模板表示,以及像素 - 明智的融合块,以实现模型的额外灵活性和效率。双模板模块仅包含单个学习参数的时间信息,而像素-Wise融合块与标准相关模块相比,像素-Wise融合块对具有较少参数的判别特征进行了更多的辨别特征。通过用新型模块插入复杂的骨干,恐惧-M和恐惧-L跟踪器在既准确性和效率的几个学术基准上超过大多数暹粒例子。使用轻质骨干,优化的版本恐惧-XS提供了超过10倍的跟踪跟踪,而不是当前暹罗跟踪器,同时保持最先进的结果。 GEAF-XS跟踪器比LightTrack [62]更小2.4倍,比LightTrack [62]更高。此外,我们通过在能量消耗和执行速度上引入基准来扩展模型效率的定义。源代码,预先训练的模型和评估协议将根据要求提供
translated by 谷歌翻译
大多数现有的RGB-D突出物体检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模型信息集成。卷积操作的固有局部连接将基于卷积的方法的性能进行了限制到天花板的性能。在这项工作中,我们从全球信息对齐和转换的角度重新思考此任务。具体地,所提出的方法(Transcmd)级联几个跨模型集成单元来构造基于自上而下的变换器的信息传播路径(TIPP)。 Transcmd将多尺度和多模态特征集成作为序列到序列上下文传播和内置于变压器上的更新过程。此外,考虑到二次复杂性W.R.T.输入令牌的数量,我们设计了具有可接受的计算成本的修补程序令牌重新嵌入策略(Ptre)。七个RGB-D SOD基准数据集上的实验结果表明,在配备TIPP时,简单的两流编码器 - 解码器框架可以超越最先进的基于CNN的方法。
translated by 谷歌翻译
变压器是一种基于关注的编码器解码器架构,彻底改变了自然语言处理领域。灵感来自这一重大成就,最近在将变形式架构调整到计算机视觉(CV)领域的一些开创性作品,这已经证明了他们对各种简历任务的有效性。依靠竞争力的建模能力,与现代卷积神经网络相比在本文中,我们已经为三百不同的视觉变压器进行了全面的审查,用于三个基本的CV任务(分类,检测和分割),提出了根据其动机,结构和使用情况组织这些方法的分类。 。由于培训设置和面向任务的差异,我们还在不同的配置上进行了评估了这些方法,以便于易于和直观的比较而不是各种基准。此外,我们已经揭示了一系列必不可少的,但可能使变压器能够从众多架构中脱颖而出,例如松弛的高级语义嵌入,以弥合视觉和顺序变压器之间的差距。最后,提出了三个未来的未来研究方向进行进一步投资。
translated by 谷歌翻译
在过去的十年中,基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近,最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域,在该字段中,自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发,遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上,但据我们所知,我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法,用于遥感子方面的不同遥感问题:非常高分辨率(VHR),高光谱(HSI)和合成孔径雷达(SAR)图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外,我们打算在遥感论文中频繁更新和维护最新的变压器,及其各自的代码:https://github.com/virobo-15/transformer-in-in-remote-sensing
translated by 谷歌翻译
最近,基于模板的跟踪器已成为领先的跟踪算法,在效率和准确性方面具有希望的性能。然而,查询特征与给定模板之间的相关操作仅利用准确的目标本地化,导致状态估计误差,特别是当目标遭受严重可变形变化时。为了解决这个问题,已经提出了基于分段的跟踪器,以便使用每像素匹配来有效地提高可变形物体的跟踪性能。然而,大多数现有跟踪器仅指初始帧中的目标特征,从而缺乏处理具有挑战性因素的辨别能力,例如,类似的分心,背景杂乱,外观变化等。在此目的,我们提出了一种动态的紧凑型存储器嵌入以增强基于分段的可变形视觉跟踪方法的辨别。具体而言,我们初始化与第一帧中的目标功能嵌入的内存嵌入。在跟踪过程中,与现有内存具有高相关的当前目标特征被更新为在线嵌入的内存。为了进一步提高可变形对象的分割精度,我们采用了点对集的匹配策略来测量像素 - 方向查询特征和整个模板之间的相关性,以捕获更详细的变形信息。关于六个具有挑战性的跟踪基准的广泛评估,包括VOT2016,VOT2018,VOT2019,GOT-10K,TrackingNet和莱斯特展示了我们对近期近似追踪者的方法的优势。此外,我们的方法优于基于出色的基于分段的跟踪器,即DVIS2017基准测试。
translated by 谷歌翻译
在本文中,我们提出了一个基于变压器的架构,即TF-Grasp,用于机器人Grasp检测。开发的TF-Grasp框架具有两个精心设计的设计,使其非常适合视觉抓握任务。第一个关键设计是,我们采用本地窗口的注意来捕获本地上下文信息和可抓取对象的详细特征。然后,我们将跨窗户注意力应用于建模遥远像素之间的长期依赖性。对象知识,环境配置和不同视觉实体之间的关系汇总以进行后续的掌握检测。第二个关键设计是,我们构建了具有跳过连接的层次编码器架构,从编码器到解码器提供了浅特征,以启用多尺度功能融合。由于具有强大的注意力机制,TF-Grasp可以同时获得局部信息(即对象的轮廓),并建模长期连接,例如混乱中不同的视觉概念之间的关系。广泛的计算实验表明,TF-GRASP在康奈尔(Cornell)和雅克(Jacquard)握把数据集上分别获得了较高的结果与最先进的卷积模型,并获得了97.99%和94.6%的较高精度。使用7DOF Franka Emika Panda机器人进行的现实世界实验也证明了其在各种情况下抓住看不见的物体的能力。代码和预培训模型将在https://github.com/wangshaosun/grasp-transformer上找到
translated by 谷歌翻译
变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性,变压器已被用作广泛使用的卷积运算符的替代品。事实证明,这种替代者在许多任务中都取得了成功,其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中,3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上,但由于与2D视觉相比,由于数据表示和处理的差异,3D视觉需要特别注意。在这项工作中,我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查,包括分类,细分,检测,完成,姿势估计等。我们在3D Vision中讨论了变形金刚的设计,该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序,我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力,我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外,我们的目标是频繁更新最新的相关论文及其相应的实现:https://github.com/lahoud/3d-vision-transformers。
translated by 谷歌翻译
表面缺陷检测是确保工业产品质量的极其至关重要的步骤。如今,基于编码器架构的卷积神经网络(CNN)在各种缺陷检测任务中取得了巨大的成功。然而,由于卷积的内在局部性,它们通常在明确建模长距离相互作用时表现出限制,这对于复杂情况下的像素缺陷检测至关重要,例如杂乱的背景和难以辨认的伪缺陷。最近的变压器尤其擅长学习全球图像依赖性,但对于详细的缺陷位置所需的本地结构信息有限。为了克服上述局限性,我们提出了一个有效的混合变压器体系结构,称为缺陷变压器(faft),用于表面缺陷检测,该检测将CNN和Transferaler纳入统一模型,以协作捕获本地和非本地关系。具体而言,在编码器模块中,首先采用卷积茎块来保留更详细的空间信息。然后,贴片聚合块用于生成具有四个层次结构的多尺度表示形式,每个层次结构之后分别是一系列的feft块,该块分别包括用于本地位置编码的本地位置块,一个轻巧的多功能自我自我 - 注意与良好的计算效率建模多尺度的全球上下文关系,以及用于功能转换和进一步位置信息学习的卷积馈送网络。最后,提出了一个简单但有效的解码器模块,以从编码器中的跳过连接中逐渐恢复空间细节。与其他基于CNN的网络相比,三个数据集上的广泛实验证明了我们方法的优势和效率。
translated by 谷歌翻译