智能论文笔记

Prior Knowledge-Guided Attention in Self-Supervised Vision Transformers

Kevin Miao , Akash Gokul , Raghav Singh , Suzanne Petryk , Joseph Gonzalez , Kurt Keutzer , Trevor Darrell , Colorado Reed

分类：计算机视觉

2022-09-07

自我监督的表示学习的最新趋势集中在消除训练管道中的归纳偏见。但是，当可用数据有限时，归纳偏差在设置中可能很有用，或者提供对基础数据分布的更多见解。我们提出了空间注意（SPAN），该框架利用未标记的图像数据集中使用一致的空间和语义结构来指导视觉变压器的注意。 SPAN通过将注意力面罩从单独的变压器头正规化，以跟随语义区域的各个先验。这些先验可以从数据统计数据或域专家提供的单个标记样本中得出。我们研究了几种详细的现实情况，包括医学图像分析和视觉质量保证。我们发现，所产生的注意力面膜比从域 - 不合义预审进的掩码更容易解释。 SPAN可为肺和心脏分割产生58.7的地图改进。我们还发现，与结构域 - 不合稳定的预处理相比，我们的方法在将验证的模型转移到下游胸部疾病分类任务时会产生2.2个MAUC的改善。最后，我们表明，与域 - 不可屈服的预处理相比，跨越预处理会导致低数据表格中的下游分类性能更高。

translated by 谷歌翻译

Radiomics-Guided Global-Local Transformer for Weakly Supervised Pathology Localization in Chest X-Rays

Yan Han , Gregory Holste , Ying Ding , Ahmed Tewfik , Yifan Peng , Zhangyang Wang

分类：计算机视觉

2022-07-10

在深度学习方法进行自动医学图像分析的最新成功之前，从业者使用手工制作的放射线特征来定量描述当地的医学图像斑块。但是，提取区分性放射素特征取决于准确的病理定位，这在现实世界中很难获得。尽管疾病分类和胸部X射线的定位方面取得了进步，但许多方法未能纳入临床知名的领域知识。由于这些原因，我们提出了一个放射素引导的变压器（RGT），该变压器（RGT）与\ textit {global}图像信息与\ textit {local}知识引导的放射线信息信息提供准确的心肺病理学定位和分类\ textit {无需任何界限盒{ }。 RGT由图像变压器分支，放射线变压器分支以及聚集图像和放射线信息的融合层组成。 RGT使用对图像分支的自我注意事项，提取了一个边界框来计算放射线特征，该特征由放射线分支进一步处理。然后通过交叉注意层融合学习的图像和放射线特征。因此，RGT利用了一种新型的端到端反馈回路，该回路只能使用图像水平疾病标签引导精确的病理定位。 NIH CHESTXRAR数据集的实验表明，RGT的表现优于弱监督疾病定位的先前作品（在各个相交联合阈值的平均余量为3.6 \％）和分类（在接收器操作方下平均1.1 \％\％\％\％曲线）。接受代码和训练有素的模型将在接受后发布。

translated by 谷歌翻译

Teaching Matters: Investigating the Role of Supervision in Vision Transformers

Matthew Walmer , Saksham Suri , Kamal Gupta , Abhinav Shrivastava

分类：计算机视觉 | 机器学习

2022-12-07

Vision Transformers (ViTs) have gained significant popularity in recent years and have proliferated into many applications. However, it is not well explored how varied their behavior is under different learning paradigms. We compare ViTs trained through different methods of supervision, and show that they learn a diverse range of behaviors in terms of their attention, representations, and downstream performance. We also discover ViT behaviors that are consistent across supervision, including the emergence of Offset Local Attention Heads. These are self-attention heads that attend to a token adjacent to the current token with a fixed directional offset, a phenomenon that to the best of our knowledge has not been highlighted in any prior work. Our analysis shows that ViTs are highly flexible and learn to process local and global information in different orders depending on their training method. We find that contrastive self-supervised methods learn features that are competitive with explicitly supervised features, and they can even be superior for part-level tasks. We also find that the representations of reconstruction-based models show non-trivial similarity to contrastive self-supervised models. Finally, we show how the "best" layer for a given task varies by both supervision method and task, further demonstrating the differing order of information processing in ViTs.

translated by 谷歌翻译

Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation

Wouter Van Gansbeke , Simon Vandenhende , Luc Van Gool

分类：计算机视觉 | 机器学习

2022-06-13

无监督语义分割的任务旨在将像素聚集到语义上有意义的群体中。具体而言，分配给同一群集的像素应共享高级语义属性，例如其对象或零件类别。本文介绍了MaskDistill：基于三个关键想法的无监督语义细分的新颖框架。首先，我们提倡一种数据驱动的策略，以生成对象掩模作为语义分割事先的像素分组。这种方法省略了手工制作的先验，这些先验通常是为特定场景组成而设计的，并限制了竞争框架的适用性。其次，MaskDistill将对象掩盖簇簇以获取伪地真相，以训练初始对象分割模型。第三，我们利用此模型过滤出低质量的对象掩模。这种策略减轻了我们像素分组中的噪声，并导致了我们用来训练最终分割模型的干净掩模集合。通过组合这些组件，我们可以大大优于以前的作品，用于对Pascal（+11％MIOU）和COCO（+4％Mask AP50）进行无监督的语义分割。有趣的是，与现有方法相反，我们的框架不在低级图像提示上，也不限于以对象为中心的数据集。代码和型号将提供。

translated by 谷歌翻译

Transformers in Medical Image Analysis: A Review

Kelei He , Chen Gan , Zhuoyuan Li , Islem Rekik , Zihao Yin , Wen Ji , Yang Gao , Qian Wang , Junfeng Zhang , Dinggang Shen

分类：计算机视觉

2022-02-24

变形金刚占据了自然语言处理领域，最近影响了计算机视觉区域。在医学图像分析领域中，变压器也已成功应用于全栈临床应用，包括图像合成/重建，注册，分割，检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言，我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次，我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构，并讨论其局限性。在这篇综述中，我们调查了围绕在不同学习范式中使用变压器，提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。

translated by 谷歌翻译

What to Hide from Your Students: Attention-Guided Masked Image Modeling

Ioannis Kakogeorgiou , Spyros Gidaris , Bill Psomas , Yannis Avrithis , Andrei Bursuc , Konstantinos Karantzalos , Nikos Komodakis

分类：计算机视觉

2022-03-23

变形金刚和蒙版语言建模在计算机视觉中很快被视为视觉变压器和蒙版图像建模（MIM）。在这项工作中，我们认为由于图像中令牌的数量和相关性，图像令牌掩盖与文本中的令牌掩盖有所不同。特别是，为了为MIM产生具有挑战性的借口任务，我们主张从随机掩盖到知情掩盖的转变。我们在基于蒸馏的MIM的背景下开发并展示了这一想法，其中教师变压器编码器生成了一个注意力图，我们用它来指导学生为学生指导掩盖。因此，我们引入了一种新颖的掩蔽策略，称为注意引导蒙版（ATTMASK），我们证明了其对基于密集蒸馏的MIM以及基于普通蒸馏的自然剥离的自助力学习的有效性。我们确认ATTMASK可以加快学习过程，并提高各种下游任务的性能。我们在https://github.com/gkakogeorgiou/attmask上提供实现代码。

translated by 谷歌翻译

Self-Supervised Learning of Object Parts for Semantic Segmentation

Adrian Ziegler , Yuki M. Asano

分类：计算机视觉

2022-04-27

自我监督学习的进步带来了强大的一般图像表示学习方法。到目前为止，它主要集中在图像级学习上。反过来，诸如无监督图像细分之类的任务并没有从这种趋势中受益，因为它们需要空间多样性的表示。但是，学习密集的表示具有挑战性，因为在无监督的环境中，尚不清楚如何指导模型学习与各种潜在对象类别相对应的表示形式。在本文中，我们认为对物体部分的自我监督学习是解决此问题的方法。对象部分是可以推广的：它们是独立于对象定义的先验性，但可以分组以形成对象后验。为此，我们利用最近提出的视觉变压器参与对象的能力，并将其与空间密集的聚类任务相结合，以微调空间令牌。我们的方法超过了三个语义分割基准的最新方法，提高了17％-3％，表明我们的表示在各种对象定义下都是用途广泛的。最后，我们将其扩展到完全无监督的分割 - 即使在测试时间也可以完全避免使用标签信息 - 并证明了一种基于社区检测的自动合并发现的对象零件的简单方法可产生可观的收益。

translated by 谷歌翻译

eX-ViT: A Novel eXplainable Vision Transformer for Weakly Supervised Semantic Segmentation

Lu Yu , Wei Xiang , Juan Fang , Yi-Ping Phoebe Chen , Lianhua Chi

分类：计算机视觉

2022-07-12

最近，Vision Transformer模型已成为一系列视觉任务的重要模型。但是，这些模型通常是不透明的，特征可解释性较弱。此外，目前尚无针对本质上可解释的变压器构建的方法，该方法能够解释其推理过程并提供忠实的解释。为了缩小这些关键差距，我们提出了一种新型视觉变压器，称为“可解释的视觉变压器”（Ex-Vit），这是一种本质上可解释的变压器模型，能够共同发现可鲁棒的可解释特征并执行预测。具体而言，前vit由可解释的多头注意（E-MHA）模块，属性引导的解释器（ATTE）模块和自我监督属性引导的损失组成。 E-MHA裁缝可以解释的注意力重量，能够从本地贴片中学习具有噪音稳健性的模型决策的语义解释表示。同时，提议通过不同的属性发现来编码目标对象的歧视性属性特征，该发现构成了模型预测的忠实证据。此外，为我们的前武器开发了自我监督的属性引导损失，该损失旨在通过属性可区分性机制和属性多样性机制来学习增强表示形式，以定位多样性和歧视性属性并产生更健壮的解释。结果，我们可以通过拟议的前武器发现具有多种属性的忠实和强大的解释。

translated by 谷歌翻译

ScoreNet: Learning Non-Uniform Attention and Augmentation for Transformer-Based Histopathological Image Classification

Thomas Stegmüller , Behzad Bozorgtabar , Antoine Spahr , Jean-Philippe Thiran

分类：计算机视觉

2022-02-15

高分辨率图像和详尽的局部注释成本的过高成本阻碍了数字病理学的进展。用于对病理图像进行分类的常用范式是基于贴片的处理，该处理通常结合了多个实例学习（MIL）以汇总局部补丁级表示，从而得出图像级预测。尽管如此，诊断相关的区域只能占整个组织的一小部分，而当前基于MIL的方法通常会均匀地处理图像，从而丢弃相互作用的相互作用。为了减轻这些问题，我们提出了Scorenet，Scorenet是一种新的有效的变压器，利用可区分的建议阶段来提取区分图像区域并相应地专用计算资源。提出的变压器利用一些动态推荐的高分辨率区域的本地和全球关注，以有效的计算成本。我们通过利用图像的语义分布来指导数据混合并产生连贯的样品标签对，进一步介绍了一种新型的混合数据启发，即SCOREX。 SCOREMIX令人尴尬地简单，并减轻了先前的增强的陷阱，该增强性的陷阱假设了统一的语义分布，并冒着标签样品的风险。对血久毒素和曙红（H＆E）的三个乳腺癌组织学数据集（H＆E）的三个乳腺癌组织学数据集（H＆E）的彻底实验和消融研究验证了我们的方法优于先前的艺术，包括基于变压器的肿瘤区域（TORIS）分类的模型。与其他混合增强变体相比，配备了拟议的得分增强的Scorenet表现出更好的概括能力，并实现了新的最先进的结果（SOTA）结果，仅50％的数据。最后，Scorenet产生了高疗效，并且胜过SOTA有效变压器，即TransPath和SwintransFormer。

translated by 谷歌翻译

How Transferable Are Self-supervised Features in Medical Image Classification Tasks?

Tuan Truong , Sadegh Mohammadi , Matthias Lenga

分类：计算机视觉

2021-08-23

转移学习已成为减轻医疗分类任务中缺乏标记数据的标准做法。虽然FineEning使用受监督的想象佩尔预押的下游任务预磨损的功能是简单的，并且在许多作品中进行了广泛的调查，但对自我监督预测的有用性很少有研究。在本文中，我们评估了通过从三种自我监督技术（SIMCLR，SWAV和DINO）对所选医疗分类任务的三种自我监控技术（SIMCLRR，SWAV和DINO）初始化的模型的性能来评估想象成自我监督的可转换性。所选择的任务涵盖Sentinel腋窝淋巴结图像中的肿瘤检测，眼底图像中的糖尿病视网膜病变分类以及胸部X射线图像中的多种病理条件分类。我们展示了自我监督的佩戴模型产生比其监督对应物更丰富的嵌入式，这鉴于线性评估和FineTuning均有益处下游任务。例如，考虑到在织物上的数据的线性评估，我们在糖尿病视网膜病变分类任务中看到高达14.79％的提高，肿瘤分类任务中的5.4％，肺炎中的7.03％AUC检测和9.4％的AUC在胸部X射线的病理条件下检测。此外，我们将动态视觉元嵌入（DVME）引入端到端的转移学习方法，融合来自多种型号的佩尔净化的嵌入物。我们表明，与使用单个掠过的模型方法相比，DVME获得的集体表示导致所选任务的性能的显着改进，并且可以推广到预磨料模型的任何组合。

translated by 谷歌翻译

A Survey of Self-Supervised and Few-Shot Object Detection

Gabriel Huang , Issam Laradji , David Vazquez , Simon Lacoste-Julien , Pau Rodriguez

分类：计算机视觉 | 人工智能 | 机器学习

2021-10-27

标记数据通常昂贵且耗时，特别是对于诸如对象检测和实例分割之类的任务，这需要对图像的密集标签进行密集的标签。虽然几张拍摄对象检测是关于培训小说中的模型（看不见的）对象类具有很少的数据，但它仍然需要在许多标记的基础（见）类的课程上进行训练。另一方面，自我监督的方法旨在从未标记数据学习的学习表示，该数据转移到诸如物体检测的下游任务。结合几次射击和自我监督的物体检测是一个有前途的研究方向。在本调查中，我们审查并表征了几次射击和自我监督对象检测的最新方法。然后，我们给我们的主要外卖，并讨论未来的研究方向。https://gabrielhuang.github.io/fsod-survey/的项目页面

translated by 谷歌翻译

Transformers in Vision: A Survey

Salman Khan , Muzammal Naseer , Munawar Hayat , Syed Waqas Zamir , Fahad Shahbaz Khan , Mubarak Shah

分类：

2021-01-04

Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.

translated by 谷歌翻译

Learning Hierarchical Attention for Weakly-supervised Chest X-Ray Abnormality Localization and Diagnosis

Xi Ouyang , Srikrishna Karanam , Ziyan Wu , Terrence Chen , Jiayu Huo , Xiang Sean Zhou , Qian Wang , Jie-Zhi Cheng

分类：计算机视觉

2021-12-23

我们考虑临床应用异常定位问题。虽然深入学习推动了最近的医学成像进展，但许多临床挑战都没有完全解决，限制了其更广泛的使用。虽然最近的方法报告了高的诊断准确性，但医生因普遍缺乏算法决策和解释性而涉及诊断决策的这些算法，这是关注这些算法。解决这个问题的一种潜在方法是进一步培训这些模型，以便除了分类它们之外，除了分类。然而，准确地进行这一临床专家需要大量的疾病定位注释，这是对大多数应用程序来实现昂贵的任务。在这项工作中，我们通过一种新的注意力弱监督算法来解决这些问题，该弱势监督算法包括分层关注挖掘框架，可以以整体方式统一激活和基于梯度的视觉关注。我们的关键算法创新包括明确序号注意约束的设计，实现了以弱监督的方式实现了原则的模型培训，同时还通过本地化线索促进了产生视觉关注驱动的模型解释。在两个大型胸部X射线数据集（NIH Chescx-Ray14和Chexpert）上，我们展示了对现有技术的显着本地化性能，同时也实现了竞争的分类性能。我们的代码可在https://github.com/oyxhust/ham上找到。

translated by 谷歌翻译

Emerging Properties in Self-Supervised Vision Transformers

Mathilde Caron , Hugo Touvron , Ishan Misra , Hervé Jégou , Julien Mairal , Piotr Bojanowski , Armand Joulin

分类：

2021-04-29

translated by 谷歌翻译

Making the Most of Text Semantics to Improve Biomedical Vision--Language Processing

Benedikt Boecking , Naoto Usuyama , Shruthi Bannur , Daniel C. Castro , Anton Schwaighofer , Stephanie Hyland , Maria Wetscherek , Tristan Naumann , Aditya Nori , Javier Alvarez-Valle

分类：计算机视觉 | 自然语言处理

2022-04-21

生物医学中的多模式数据遍布，例如放射学图像和报告。大规模解释这些数据对于改善临床护理和加速临床研究至关重要。与一般领域相比，具有复杂语义的生物医学文本在视觉建模中提出了其他挑战，并且先前的工作使用了缺乏特定领域语言理解的适应性模型不足。在本文中，我们表明，有原则的文本语义建模可以大大改善自我监督的视力 - 语言处理中的对比度学习。我们发布了一种实现最先进的语言模型，从而通过改进的词汇和新颖的语言预测客观的客观利用语义和话语特征在放射学报告中获得了自然语言推断。此外，我们提出了一种自我监督的联合视觉 - 语言方法，重点是更好的文本建模。它在广泛的公开基准上建立了新的最新结果，部分是通过利用我们新的特定领域的语言模型。我们释放了一个新的数据集，该数据集具有放射科医生的局部对齐短语接地注释，以促进生物医学视觉处理中复杂语义建模的研究。广泛的评估，包括在此新数据集中，表明我们的对比学习方法在文本语义建模的帮助下，尽管仅使用了全球对准目标，但在细分任务中的表现都优于细分任务中的先验方法。

translated by 谷歌翻译

A Survey on Deep Learning and Explainability for Automatic Report Generation from Medical Images

Pablo Messina , Pablo Pino , Denis Parra , Alvaro Soto , Cecilia Besa , Sergio Uribe , Marcelo andía , Cristian Tejos , Claudia Prieto , Daniel Capurro

分类：计算机视觉 | 人工智能 | 自然语言处理 | 机器学习

2020-10-20

每年医生对患者的基于形象的诊断需求越来越大，是最近的人工智能方法可以解决的问题。在这种情况下，我们在医学图像的自动报告领域进行了调查，重点是使用深神经网络的方法，了解：（1）数据集，（2）架构设计，（3）解释性和（4）评估指标。我们的调查确定了有趣的发展，也是留下挑战。其中，目前对生成的报告的评估尤为薄弱，因为它主要依赖于传统的自然语言处理（NLP）指标，这不准确地捕获医疗正确性。

translated by 谷歌翻译

OAMixer: Object-aware Mixing Layer for Vision Transformers

Hyunwoo Kang , Sangwoo Mo , Jinwoo Shin

分类：计算机视觉 | 机器学习

2022-12-13

Patch-based models, e.g., Vision Transformers (ViTs) and Mixers, have shown impressive results on various visual recognition tasks, alternating classic convolutional networks. While the initial patch-based models (ViTs) treated all patches equally, recent studies reveal that incorporating inductive bias like spatiality benefits the representations. However, most prior works solely focused on the location of patches, overlooking the scene structure of images. Thus, we aim to further guide the interaction of patches using the object information. Specifically, we propose OAMixer (object-aware mixing layer), which calibrates the patch mixing layers of patch-based models based on the object labels. Here, we obtain the object labels in unsupervised or weakly-supervised manners, i.e., no additional human-annotating cost is necessary. Using the object labels, OAMixer computes a reweighting mask with a learnable scale parameter that intensifies the interaction of patches containing similar objects and applies the mask to the patch mixing layers. By learning an object-centric representation, we demonstrate that OAMixer improves the classification accuracy and background robustness of various patch-based models, including ViTs, MLP-Mixers, and ConvMixers. Moreover, we show that OAMixer enhances various downstream tasks, including large-scale classification, self-supervised learning, and multi-object recognition, verifying the generic applicability of OAMixer

translated by 谷歌翻译

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Alexey Dosovitskiy , Lucas Beyer , Alexander Kolesnikov , Dirk Weissenborn , Xiaohua Zhai , Thomas Unterthiner , Mostafa Dehghani , Matthias Minderer , Georg Heigold , Sylvain Gelly

分类：

2020-10-22

While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place. We show that this reliance on CNNs is not necessary and a pure transformer applied directly to sequences of image patches can perform very well on image classification tasks. When pre-trained on large amounts of data and transferred to multiple mid-sized or small image recognition benchmarks (ImageNet, CIFAR-100, VTAB, etc.), Vision Transformer (ViT) attains excellent results compared to state-of-the-art convolutional networks while requiring substantially fewer computational resources to train. 1

translated by 谷歌翻译

Anatomy-XNet: An Anatomy Aware Convolutional Neural Network for Thoracic Disease Classification in Chest X-rays

Uday Kamal , Mohammad Zunaed , Nusrat Binta Nizam , Taufiq Hasan

分类：计算机视觉 | 机器学习

2021-06-10

在过去的十年中，使用深度学习方法从胸部X光片检测到胸部X光片是一个活跃的研究领域。大多数以前的方法试图通过识别负责对模型预测的重要贡献的空间区域来关注图像的患病器官。相比之下，专家放射科医生在确定这些区域是否异常之前首先找到突出的解剖结构。因此，将解剖学知识纳入深度学习模型可能会带来自动疾病分类的大幅改善。在此激励的情况下，我们提出了解剖学XNET，这是一种基于解剖学注意的胸腔疾病分类网络，该网络优先考虑由预识别的解剖区域引导的空间特征。我们通过利用可用的小规模器官级注释来采用半监督的学习方法，将解剖区域定位在没有器官级注释的大规模数据集中。拟议的解剖学XNET使用预先训练的Densenet-121作为骨干网络，具有两个相应的结构化模块，解剖学意识到（$^3 $）和概率加权平均池（PWAP），在凝聚力框架中引起解剖学的关注学习。我们通过实验表明，我们提出的方法通过在三个公开可用的大规模CXR数据集中获得85.78％，92.07％和84.04％的AUC得分来设置新的最先进基准测试。和模拟CXR。这不仅证明了利用解剖学分割知识来改善胸病疾病分类的功效，而且还证明了所提出的框架的普遍性。

translated by 谷歌翻译

SiT: Self-supervised vIsion Transformer

Sara Atito , Muhammad Awais , Josef Kittler

分类：计算机视觉 | 机器学习

2021-04-08

由于其最近在减少监督学习的差距方面取得了成功，自我监督的学习方法正在增加计算机愿景的牵引力。在自然语言处理（NLP）中，自我监督的学习和变形金刚已经是选择的方法。最近的文献表明，变压器也在计算机愿景中越来越受欢迎。到目前为止，当使用大规模监督数据或某种共同监督时，视觉变压器已被证明可以很好地工作。在教师网络方面。这些监督的普试视觉变压器在下游任务中实现了非常好的变化，变化最小。在这项工作中，我们调查自我监督学习的预用图像/视觉变压器，然后使用它们进行下游分类任务的优点。我们提出了自我监督的视觉变压器（坐在）并讨论了几种自我监督的培训机制，以获得借口模型。静坐的架构灵活性允许我们将其用作自动统计器，并无缝地使用多个自我监控任务。我们表明，可以在小规模数据集上进行预训练，以便在小型数据集上进行下游分类任务，包括几千个图像而不是数百万的图像。使用公共协议对所提出的方法进行评估标准数据集。结果展示了变压器的强度及其对自我监督学习的适用性。我们通过大边缘表现出现有的自我监督学习方法。我们还观察到坐着很好，很少有镜头学习，并且还表明它通过简单地训练从坐的学到的学习功能的线性分类器来学习有用的表示。预先训练，FineTuning和评估代码将在以下：https://github.com/sara-ahmed/sit。

translated by 谷歌翻译