视力转换器被广泛用于各种视觉任务。同时,从MLP-Mixer开始尝试使用基于MLP的体系结构实现类似性能的一系列作品。有趣的是,到目前为止,没有人报告使用它们执行NLP任务,此外,直到现在,这些基于MLP的架构却没有声称可以实现视觉任务最新的架构。在本文中,我们分析了基于MLP的体系结构同时在多个不同输入之间建模依赖性中的表达能力,并显示了注意力与基于MLP的机制之间的指数差距。我们的结果表明,MLP无法与NLP问题中的基于注意力的机制竞争的理论解释,他们还表明,视觉任务的性能差距可能是由于MLP相对弱点在多个不同位置之间的建模依赖性中的相对弱点所致,并且结合在一起。对MLP体系结构的智能输入排列可能不足以缩小性能差距。
translated by 谷歌翻译