多标签映像分类是预测一组类标签,可以视为有序的顺序数据。变形金刚整体处理顺序数据,因此它们本质上擅长设置预测。第一个基于视觉的变压器模型,提出了对象检测任务,引入了对象查询的概念。对象查询是可学习的位置编码,其被解码器层中的注意模块使用,以使用图像中的兴趣区域对对象类或边界框进行解码。但是,将相同的对象查询集输入到不同的解码器层阻碍了培训:它会导致性能下降和延迟收敛。在本文中,我们提出了仅在变压器解码器堆栈开始时提供的原始对象查询的使用。此外,我们改进了为多标签分类提出的混合技术。具有原始对象查询的所提出的变压器模型可提高最先进的阶级明智的F1度量2.1%和1.8%;并分别在MS-COCO和NUS范围的数据集中速度提高79.0%和38.6%。
translated by 谷歌翻译