视觉变压器(VITS)最近在各种视觉任务中展示了最先进的性能,更换了卷积神经网络(CNN)。同时,由于VIT具有比CNN不同的结构,因此它可能表现不同。探讨VIT的可靠性,本文研究了VIT的行为和稳健性。我们通过假设可能出现在实际视觉任务中的各种图像损坏来比较CNN和Vit的稳健性。我们确认,对于大多数图像转换,Vit显示出与CNN或更高的鲁棒性相当。然而,对于对比增强,在Vit中一直观察到严重的性能降解。从详细分析中,我们确定了潜在的问题:在颜色比例变化时,韦特的贴片嵌入中的位置嵌入可能不正确地工作。在这里,我们声称使用PRELAYORNOM,修改后的贴片嵌入结构,以确保VIT的鳞片不变行为。 PRELAYORMOM的VIT显示在包括对比度不同环境的各种腐败中的鲁棒性。
translated by 谷歌翻译