如今,视觉变压器在几个计算机视觉任务中的最新性能,例如图像分类和动作识别,因此非常受欢迎。尽管通过采用卷积神经网络,层次结构和紧凑的形式,视觉变压器的性能得到了极大的改善,但对利用其他数据表示形式的方法的研究有限,以完善从变形金刚网络的多头关注的注意力图。这项工作提出了一种新型的注意机制,称为Multi-manifold注意,可以替代基于变压器网络中的任何标准注意机制。提出的注意力模拟了三个不同的流形的输入空间,即欧几里得,对称的正定和格拉曼,具有不同的统计和几何特性,指导网络来考虑一组丰富的信息,描述了一组描述外观,颜色和质感的信息,图像,用于计算高度描述性的注意图。通过这种方式,指导具有拟议注意力的视觉变压器更加专注于判别特征,从而改善了分类结果,如几个知名图像分类数据集的实验结果所示。
translated by 谷歌翻译