在这项工作中,我们呈现SEQFormer,这是一个令人沮丧的视频实例分段模型。 SEQFormer遵循Vision变换器的原理,该方法模型视频帧之间的实例关系。然而,我们观察到一个独立的实例查询足以捕获视频中的时间序列,但应该独立地使用每个帧进行注意力机制。为此,SEQFormer在每个帧中定位一个实例,并聚合时间信息以学习视频级实例的强大表示,其用于动态地预测每个帧上的掩模序列。实例跟踪自然地实现而不进行跟踪分支或后处理。在YouTube-VIS数据集上,SEQFormer使用Reset-50个骨干和49.0 AP实现47.4个AP,其中Reset-101骨干,没有响铃和吹口哨。此类成果分别显着超过了以前的最先进的性能4.6和4.4。此外,与最近提出的Swin变压器集成,SEQFormer可以实现59.3的高得多。我们希望SEQFormer可能是一个强大的基线,促进了视频实例分段中的未来研究,同时使用更强大,准确,整洁的模型来实现该字段。代码和预先训练的型号在https://github.com/wjf5203/seqformer上公开使用。
translated by 谷歌翻译
参照视频对象分割(R-VOS)是一个新兴的跨通道任务,其目的是分割目标对象中的所有的视频帧称为一个语言表达式。在这项工作中,我们提出了一个简单并在变压器建成统一的框架,称为ReferFormer。它认为在语言查询,并直接参加到视频帧中的最相关的区域。具体而言,我们引入一个小套空调的语言作为输入Transformer对象的查询。通过这种方式,所有的查询有义务仅发现指的对象。他们最终都转化为动态的内核,其捕捉的关键对象级信息,并发挥卷积过滤器的作用,生成特征地图分割口罩。对象跟踪通过连接在帧之间相应的查询自然实现。这种机制极大地简化了管道和终端到终端的框架是从以前的方法不同显著。在REF-YouTube的VOS,REF-DAVIS17大量的实验,A2D-句子和JHMDB-句显示ReferFormer的有效性。上REF-YouTube的VOS,参见-前达到55.6J&F与RESNET-50主链而不花哨,这超过了8.4点之前的状态的最先进的性能。此外,与强斯文 - 大型骨干,ReferFormer实现了所有现有的方法中最好的J&62.4 F。歼&F度量可以通过采用一个简单的后处理技术来进一步升压到63.3。此外,我们分别显示55.0地图和43.7地图上A2D-句andJHMDB-句令人印象深刻的结果,这显著优于大幅度以前的方法。代码是公开的,在https://github.com/wjn922/ReferFormer。
translated by 谷歌翻译
变压器是一种基于关注的编码器解码器架构,彻底改变了自然语言处理领域。灵感来自这一重大成就,最近在将变形式架构调整到计算机视觉(CV)领域的一些开创性作品,这已经证明了他们对各种简历任务的有效性。依靠竞争力的建模能力,与现代卷积神经网络相比在本文中,我们已经为三百不同的视觉变压器进行了全面的审查,用于三个基本的CV任务(分类,检测和分割),提出了根据其动机,结构和使用情况组织这些方法的分类。 。由于培训设置和面向任务的差异,我们还在不同的配置上进行了评估了这些方法,以便于易于和直观的比较而不是各种基准。此外,我们已经揭示了一系列必不可少的,但可能使变压器能够从众多架构中脱颖而出,例如松弛的高级语义嵌入,以弥合视觉和顺序变压器之间的差距。最后,提出了三个未来的未来研究方向进行进一步投资。
translated by 谷歌翻译
本文介绍了端到端的实例分段框架,称为SOIT,该段具有实例感知变压器的段对象。灵感来自Detr〜\ Cite {carion2020end},我们的方法视图实例分段为直接设置预测问题,有效地消除了对ROI裁剪,一对多标签分配等许多手工制作组件的需求,以及非最大抑制( nms)。在SOIT中,通过在全局图像上下文下直接地将多个查询直接理解语义类别,边界框位置和像素 - WISE掩码的一组对象嵌入。类和边界盒可以通过固定长度的向量轻松嵌入。尤其是由一组参数嵌入像素方面的掩模以构建轻量级实例感知变压器。之后,实例感知变压器产生全分辨率掩码,而不涉及基于ROI的任何操作。总的来说,SOIT介绍了一个简单的单级实例分段框架,它是无乐和NMS的。 MS Coco DataSet上的实验结果表明,优于最先进的实例分割显着的优势。此外,在统一查询嵌入中的多个任务的联合学习还可以大大提高检测性能。代码可用于\ url {https://github.com/yuxiaodonghri/soit}。
translated by 谷歌翻译
视觉变压器(VIT)正在改变对象检测方法的景观。 VIT的自然使用方法是用基于变压器的骨干替换基于CNN的骨干,该主链很简单有效,其价格为推理带来了可观的计算负担。更微妙的用法是DEDR家族,它消除了对物体检测中许多手工设计的组件的需求,但引入了一个解码器,要求超长时间进行融合。结果,基于变压器的对象检测不能在大规模应用中占上风。为了克服这些问题,我们提出了一种新型的无解码器基于完全变压器(DFFT)对象检测器,这是第一次在训练和推理阶段达到高效率。我们通过居中两个切入点来简化反对检测到仅编码单级锚点的密集预测问题:1)消除训练感知的解码器,并利用两个强的编码器来保留单层特征映射预测的准确性; 2)探索具有有限的计算资源的检测任务的低级语义特征。特别是,我们设计了一种新型的轻巧的面向检测的变压器主链,该主链有效地捕获了基于良好的消融研究的丰富语义的低级特征。 MS Coco基准测试的广泛实验表明,DFFT_SMALL的表现优于2.5%AP,计算成本降低28%,$ 10 \ $ 10 \乘以$ 10 \乘以$较少的培训时期。与尖端的基于锚的探测器视网膜相比,DFFT_SMALL获得了超过5.5%的AP增益,同时降低了70%的计算成本。
translated by 谷歌翻译
时间动作检测(TAD)旨在确定未修剪视频中每个动作实例的语义标签和边界。先前的方法通过复杂的管道来解决此任务。在本文中,我们提出了一个具有简单集的预测管道的端到端时间动作检测变压器(TADTR)。给定一组名为“动作查询”的可学习嵌入,Tadtr可以从每个查询的视频中自适应提取时间上下文,并直接预测动作实例。为了适应TAD的变压器,我们提出了三个改进,以提高其所在地意识。核心是一个时间可变形的注意模块,在视频中有选择地参加一组稀疏的密钥片段。片段的完善机制和动作回归头旨在完善预测实例的边界和信心。 TADTR需要比以前的检测器更低的计算成本,同时保留了出色的性能。作为一个独立的检测器,它在Thumos14(56.7%地图)和HACS段(32.09%地图)上实现了最先进的性能。结合一个额外的动作分类器,它在ActivityNet-1.3上获得了36.75%的地图。我们的代码可在\ url {https://github.com/xlliu7/tadtr}上获得。
translated by 谷歌翻译
在本文中,我们提出了简单的关注机制,我们称之为箱子。它可以实现网格特征之间的空间交互,从感兴趣的框中采样,并提高变压器的学习能力,以获得几个视觉任务。具体而言,我们呈现拳击手,短暂的框变压器,通过从输入特征映射上的参考窗口预测其转换来参加一组框。通过考虑其网格结构,拳击手通过考虑其网格结构来计算这些框的注意力。值得注意的是,Boxer-2D自然有关于其注意模块内容信息的框信息的原因,使其适用于端到端实例检测和分段任务。通过在盒注意模块中旋转的旋转的不变性,Boxer-3D能够从用于3D端到端对象检测的鸟瞰图平面产生识别信息。我们的实验表明,拟议的拳击手-2D在Coco检测中实现了更好的结果,并且在Coco实例分割上具有良好的和高度优化的掩模R-CNN可比性。 Boxer-3D已经为Waymo开放的车辆类别提供了令人信服的性能,而无需任何特定的类优化。代码将被释放。
translated by 谷歌翻译
虽然用变压器(DETR)的检测越来越受欢迎,但其全球注意力建模需要极其长的培训期,以优化和实现有前途的检测性能。现有研究的替代方案主要开发先进的特征或嵌入设计来解决培训问题,指出,基于地区的兴趣区域(ROI)的检测细化可以很容易地帮助减轻DETR方法培训的难度。基于此,我们在本文中介绍了一种新型的经常性闪闪发光的解码器(Rego)。特别是,REGO采用多级复发处理结构,以帮助更准确地逐渐关注前景物体。在每个处理阶段,从ROI的闪烁特征提取视觉特征,其中来自上阶段的检测结果的放大边界框区域。然后,引入了基于一瞥的解码器,以提供基于前一级的瞥见特征和注意力建模输出的精细检测结果。在实践中,Refo可以很容易地嵌入代表性的DETR变体,同时保持其完全端到端的训练和推理管道。特别地,Refo帮助可变形的DETR在MSCOCO数据集上实现44.8AP,只有36个训练时期,与需要500和50时期的第一DETR和可变形的DETR相比,分别可以分别实现相当的性能。实验还表明,Rego始终如一地提升不同DETR探测器的性能高达7%的相对增益,在相同的50次训练时期。代码可通过https://github.com/zhechen/deformable-detr-rego获得。
translated by 谷歌翻译
Panoptic semonation涉及联合语义分割和实例分割的组合,其中图像内容分为两种类型:事物和东西。我们展示了Panoptic SegFormer,是与变压器的Panoptic Semonation的一般框架。它包含三个创新组件:高效的深度监督掩模解码器,查询解耦策略以及改进的后处理方法。我们还使用可变形的DETR来有效地处理多尺度功能,这是一种快速高效的DETR版本。具体而言,我们以层式方式监督掩模解码器中的注意模块。这种深度监督策略让注意模块快速关注有意义的语义区域。与可变形的DETR相比,它可以提高性能并将所需培训纪元的数量减少一半。我们的查询解耦策略对查询集的职责解耦并避免了事物和东西之间的相互干扰。此外,我们的后处理策略通过联合考虑分类和分割质量来解决突出的面具重叠而没有额外成本的情况。我们的方法会在基线DETR模型上增加6.2 \%PQ。 Panoptic SegFormer通过56.2 \%PQ实现最先进的结果。它还显示出对现有方法的更强大的零射鲁布利。代码释放\ url {https://github.com/zhiqi-li/panoptic-segformer}。
translated by 谷歌翻译
人对象交互(HOI)检测作为对象检测任务的下游需要本地化人和对象,并从图像中提取人类和对象之间的语义关系。最近,由于其高效率,一步方法已成为这项任务的新趋势。然而,这些方法侧重于检测可能的交互点或过滤人对象对,忽略空间尺度处的不同物体的位置和大小的可变性。为了解决这个问题,我们提出了一种基于变压器的方法,Qahoi(用于人对象交互检测的查询锚点),它利用了多尺度架构来提取来自不同空间尺度的特征,并使用基于查询的锚来预测全部Hoi实例的元素。我们进一步调查了强大的骨干,显着提高了QAHOI的准确性,QAHOI与基于变压器的骨干优于最近的最近最先进的方法,通过HICO-DEC基准。源代码以$ \ href {https://github.com/cjw2021/qhoii} {\ text {this https url}} $。
translated by 谷歌翻译
DETR方法中引入的查询机制正在改变对象检测的范例,最近有许多基于查询的方法获得了强对象检测性能。但是,当前基于查询的检测管道遇到了以下两个问题。首先,需要多阶段解码器来优化随机初始化的对象查询,从而产生较大的计算负担。其次,训练后的查询是固定的,导致不满意的概括能力。为了纠正上述问题,我们在较快的R-CNN框架中提出了通过查询生成网络预测的特征对象查询,并开发了一个功能性的查询R-CNN。可可数据集的广泛实验表明,我们的特征查询R-CNN获得了所有R-CNN探测器的最佳速度准确性权衡,包括最近的最新稀疏R-CNN检测器。该代码可在\ url {https://github.com/hustvl/featurized-queryrcnn}中获得。
translated by 谷歌翻译
变形金刚正在改变计算机视觉的景观,特别是对于识别任务。检测变压器是对象检测的第一个完全结束的学习系统,而视觉变压器是用于图像分类的第一个完全变压器的架构。在本文中,我们集成了视觉和检测变压器(Vidt)以构建有效和高效的物体探测器。 VIDT引入了重新配置的注意模块,将最近的Swin变压器扩展为独立对象检测器,然后是计算高效的变压器解码器,该解码器利用多尺度特征和辅助技术来提高检测性能,而无需多大增加计算负载。 Microsoft Coco基准数据集上的广泛评估结果表明,VIDT在现有的基于变压器的对象检测器中获得了最佳的AP和延迟折衷,并且由于大型型号的高可扩展性而实现了49.2AP。我们将在https://github.com/naver-ai/vidt发布代码和培训的型号
translated by 谷歌翻译
变压器最近在各种视觉任务上表现出卓越的性能。大型有时甚至全球,接收领域赋予变换器模型,并通过其CNN对应物具有更高的表示功率。然而,简单地扩大接收领域也产生了几个问题。一方面,使用致密的注意,例如,在VIT中,导致过度的记忆和计算成本,并且特征可以受到超出兴趣区域的无关紧要的影响。另一方面,PVT或SWIN变压器采用的稀疏注意是数据不可知论,可能会限制模拟长距离关系的能力。为了缓解这些问题,我们提出了一种新型可变形的自我关注模块,其中以数据相关的方式选择密钥和值对中的密钥和值对的位置。这种灵活的方案使自我关注模块能够专注于相关区域并捕获更多的信息性功能。在此基础上,我们呈现可变形的关注变压器,一般骨干模型,具有可变形关注的图像分类和密集预测任务。广泛的实验表明,我们的模型在综合基准上实现了一致的改善结果。代码可在https://github.com/leaplabthu/dat上获得。
translated by 谷歌翻译
我们提出了块茎:一种简单的时空视频动作检测解决方案。与依赖于离线演员检测器或手工设计的演员位置假设的现有方法不同,我们建议通过同时执行动作定位和识别从单个表示来直接检测视频中的动作微管。块茎学习一组管芯查询,并利用微调模块来模拟视频剪辑的动态时空性质,其有效地加强了与在时空空间中的演员位置假设相比的模型容量。对于包含过渡状态或场景变更的视频,我们提出了一种上下文意识的分类头来利用短期和长期上下文来加强行动分类,以及用于检测精确的时间动作程度的动作开关回归头。块茎直接产生具有可变长度的动作管,甚至对长视频剪辑保持良好的结果。块茎在常用的动作检测数据集AVA,UCF101-24和JHMDB51-21上优于先前的最先进。
translated by 谷歌翻译
DETR是使用变压器编码器 - 解码器架构的第一端到端对象检测器,并在高分辨率特征映射上展示竞争性能但低计算效率。随后的工作变形Detr,通过更换可变形的关注来提高DEDR的效率,这实现了10倍的收敛性和改进的性能。可变形DETR使用多尺度特征来改善性能,但是,与DETR相比,编码器令牌的数量增加了20倍,编码器注意的计算成本仍然是瓶颈。在我们的初步实验中,我们观察到,即使只更新了编码器令牌的一部分,检测性能也几乎没有恶化。灵感来自该观察,我们提出了稀疏的DETR,其仅选择性更新预期的解码器预期的令牌,从而有效地检测模型。此外,我们表明在编码器中的所选令牌上应用辅助检测丢失可以提高性能,同时最小化计算开销。即使在Coco数据集上只有10%的编码器令牌,我们验证稀疏DETR也可以比可变形DETR实现更好的性能。尽管只有编码器令牌稀疏,但总计算成本减少了38%,与可变形的Detr相比,每秒帧(FPS)增加42%。代码可在https://github.com/kakaobrain/sparse-dett
translated by 谷歌翻译
视频实例分割旨在预测每个帧的对象分割掩码,并关联多个帧的实例。最近的端到端视频实例分割方法能够在直接并行序列解码/预测框架中共同执行对象分割和实例关联。尽管这些方法通常可以预测较高质量的对象分割掩码,但它们可能无法在具有挑战性的情况下与实例相关联,因为它们没有明确对相邻帧的时间实例一致性进行建模。我们提出了一个一致的端到端视频实例分割框架,并在框架间反复注意,以建模相邻帧的时间实例一致性和全局时间上下文。我们的广泛实验表明,框架间的重复注意显着提高了时间实例的一致性,同时保持对象分割掩模的质量。我们的模型在YouTubevis-2019(62.1 \%)和YouTubevis-2021(54.7 \%)数据集上都达到了最新的精度。此外,定量和定性结果表明,所提出的方法可以预测更具时间一致的实例分割掩码。
translated by 谷歌翻译
在本文中,我们开发了用于多视图3D对象检测的位置嵌入转换(PETR)。PETR将3D坐标的位置信息编码为图像特征,从而产生3D位置感知功能。对象查询可以感知3D位置感知功能并执行端到端对象检测。PETR在标准Nuscenes数据集上实现了最先进的性能(50.4%NDS和44.1%的地图),并在基准中排名第一。它可以作为未来研究的简单但强大的基准。代码可在\ url {https://github.com/megvii-research/petr}中获得。
translated by 谷歌翻译
已经提出了各种模型来执行对象检测。但是,大多数人都需要许多手工设计的组件,例如锚和非最大抑制(NMS),以表现出良好的性能。为了减轻这些问题,建议了基于变压器的DETR及其变体可变形DETR。这些解决了为对象检测模型设计头部时的许多复杂问题。但是,当将基于变压器的模型视为其他模型的对象检测中的最新方法时,仍然存在对性能的疑问,这取决于锚定和NMS,揭示了更好的结果。此外,目前尚不清楚是否可以仅与注意模块结合使用端到端管道,因为Detr适应的变压器方法使用卷积神经网络(CNN)作为骨干身体。在这项研究中,我们建议将几个注意力模块与我们的新任务特异性分裂变压器(TSST)相结合是一种有力的方法,可以在没有传统手工设计的组件的情况下生成可可结果上最先进的性能。通过将通用注意模块分为两个分开的目标注意模块,该方法允许设计简单的对象检测模型。对可可基准的广泛实验证明了我们方法的有效性。代码可在https://github.com/navervision/tsst上获得
translated by 谷歌翻译
表示像素位移的光流量广泛用于许多计算机视觉任务中以提供像素级运动信息。然而,随着卷积神经网络的显着进展,建议最近的最先进的方法直接在特征级别解决问题。由于特征向量的位移不与像素位移不一致,因此常用方法是:将光流向神经网络向前传递到任务数据集上的微调该网络。利用这种方法,他们期望微调网络来产生编码特征级运动信息的张量。在本文中,我们重新思考此事实上的范式并分析了视频对象检测任务中的缺点。为了缓解这些问题,我们提出了一种具有视频对象检测的\ textBF {i} n-network \ textbf {f} eature \ textbf {f} eature \ textbf {f}低估计模块(iff模块)的新型网络(iff-net)。在不借鉴任何其他数据集的预先训练,我们的IFF模块能够直接产生\ textBF {feature flow},表示特征位移。我们的IFF模块由一个浅模块组成,它与检测分支共享该功能。这种紧凑的设计使我们的IFF-Net能够准确地检测对象,同时保持快速推断速度。此外,我们提出了基于\ Textit {自我监督}的转换剩余损失(TRL),这进一步提高了IFF-Net的性能。我们的IFF-Net优于现有方法,并在Imagenet VID上设置最先进的性能。
translated by 谷歌翻译
本文研究了如何实现更好,更有效的学习学习,以解决在有挑战性的多对象方案下应对半监督视频对象细分。最先进的方法学会用单个正对象解码特征,因此必须在多对象方案下分别匹配和分割每个目标,从而多次消耗计算资源。为了解决问题,我们提出了一个与变压器(AOT)方法的关联对象,以共同且协作匹配和解码多个对象。详细说明,AOT采用识别机制将多个目标关联到相同的高维嵌入空间中。因此,我们可以同时处理多个对象的匹配和分割解码,就像处理单个对象一样有效地解码。为了充分模型多对象关联,设计了长期的短期变压器(LSTT)来构建层次匹配和传播。基于AOT,我们进一步提出了一个更灵活,更健壮的框架,将对象与可扩展的变压器(AOST)相关联,其中LSTT的可扩展版本旨在实现准确性效率折衷的运行时间适应。此外,AOST引入了更好的层次方式,以使识别和视力嵌入。我们对多对象和单对象基准进行了广泛的实验,以检查AOT系列框架。与最先进的竞争对手相比,我们的方法可以保持运行时效率的时间和卓越的性能。值得注意的是,我们在三个受欢迎的基准测试(即YouTube-VOS(86.5%),Davis 2017 Val/Test/Test(87.0%/84.7%)和Davis 2016(93.0%)(93.0%)上,我们实现了新的最先进性能。项目页面:https://github.com/z-x-yang/aot。
translated by 谷歌翻译