尽管视觉变压器(VIT)表现出令人印象深刻的表示学习能力,但我们从经验上发现,它们不能很好地将其概括为具有以前的域泛化算法的看不见的域。在本文中,我们提出了一种基于迅速学习的新方法,以嵌入域中的源域的知识提示目标域预测。具体而言,在来自相应的源域中的VIT输入令牌之前先进行域提示。每个域提示都可以有效地学习特定于领域的知识,因为仅针对一个域进行了优化。同时,我们训练一个及时的适配器,根据学习的源域提示为每个输入图像生成适当的提示。在测试时,提示适配器生成的改编提示可以利用室外图像和源域的特征之间的相似性,以正确整合源域知识。广泛的实验是在四个基准数据集上进行的。我们的方法在平均准确性方面提高了1.4%,这是使用VIT主链改善最先进算法的3.5倍。
translated by 谷歌翻译
域泛化(DG)是一个难度的学习问题,旨在学习一个概念域的概念模型。最近的巨型预训练模型,如剪辑和GPT-3,即基础模型(FMS),已被证明对许多分布换档具有强大,因此应导致DG的大量改进。在这项工作中,我们研究了在图像分类中采用DG问题采用剪辑的通用方法,在那里我们评估了天真零射击学习和全DG学习设置。对于后者,我们提出了AP(摊销提示),作为迅速生成形式的域推断的新方法。在域泛化基准上使用多个标准数据集,即PACS,VLC,OfficeHome和Terraincognita,Clip提供了可比的性能而无需微调任何参数,这表明FM在DG中的适用性和重要性。此外,我们表明,组合域提示跟踪带剪辑使AP能够以大的余量越大,从71.3 \%升高到79.3 \%的精度。我们希望我们的方法的简单性和成功强调强调的重要性并导致更广泛采用和分析域泛化领域的基础模型。
translated by 谷歌翻译
Models should be able to adapt to unseen data during test-time to avoid performance drops caused by inevitable distribution shifts in real-world deployment scenarios. In this work, we tackle the practical yet challenging test-time adaptation (TTA) problem, where a model adapts to the target domain without accessing the source data. We propose a simple recipe called \textit{Data-efficient Prompt Tuning} (DePT) with two key ingredients. First, DePT plugs visual prompts into the vision Transformer and only tunes these source-initialized prompts during adaptation. We find such parameter-efficient finetuning can efficiently adapt the model representation to the target domain without overfitting to the noise in the learning objective. Second, DePT bootstraps the source representation to the target domain by memory bank-based online pseudo-labeling. A hierarchical self-supervised regularization specially designed for prompts is jointly optimized to alleviate error accumulation during self-training. With much fewer tunable parameters, DePT demonstrates not only state-of-the-art performance on major adaptation benchmarks VisDA-C, ImageNet-C, and DomainNet-126, but also superior data efficiency, i.e., adaptation with only 1\% or 10\% data without much performance degradation compared to 100\% data. In addition, DePT is also versatile to be extended to online or multi-source TTA settings.
translated by 谷歌翻译
当前的Modus Operandi在改编预训练的模型中涉及更新所有骨干参数,即,完整的微调。本文介绍了视觉及时调整(VPT),作为视觉中大规模变压器模型的全面微调的有效替代方案。VPT从最近有效地调整大型语言模型的最新进展中汲取灵感,在输入空间中仅引入了少量的可训练参数(少于模型参数),同时保持模型骨架冻结。通过对各种下游识别任务的广泛实验,我们表明VPT与其他参数有效调整协议相比获得了显着的性能增长。最重要的是,在许多情况下,VPT甚至在模型能力和培训数据量表的许多情况下都胜过全面的微调,同时降低了每任务的存储成本。
translated by 谷歌翻译
域的概括(DG)研究了深度学习模型推广到训练分布的能力。在过去的十年中,文献已经大量填充了一系列培训方法,这些方法声称获得了更抽象和强大的数据表示以应对域的转移。最近的研究为DG提供了可再现的基准,指出了天真的经验风险最小化(ERM)对现有算法的有效性。然而,研究人员坚持使用相同过时的特征提取器,并且尚未注意不同骨干的影响。在本文中,我们从骨干开始,提出了对其内在概括能力的全面分析,迄今为止,研究界忽略了。我们评估了各种特征提取器,从标准残差解决方案到基于变压器的架构,发现大规模单域分类精度和DG功能之间的线性相关性。我们广泛的实验表明,通过采用竞争性骨干与有效的数据增强结合使用,普通ERM的表现优于最近的DG解决方案,并实现了最先进的准确性。此外,我们的其他定性研究表明,新型骨架提供了与同类样本更相似的表示,从而将特征空间中的不同域分开。这种概括能力的增强功能使DG算法的边缘空间为调查问题,提出了一个新的范式,将骨干放在聚光灯下,并鼓励在其顶部开发一致的算法。
translated by 谷歌翻译
当部署和培训之间存在分配变化时,深层神经网络的性能恶化严重。域的概括(DG)旨在通过仅依靠一组源域来安全地传输模型以看不见目标域。尽管已经提出了各种DG方法,但最近的一项名为Domainbed的研究表明,其中大多数没有超过简单的经验风险最小化(ERM)。为此,我们提出了一个通用框架,该框架与现有的DG算法是正交的,并且可以始终如一地提高其性能。与以前的DG作品不同的是,在静态源模型上有希望成为通用的DG,我们提出的ADAODM会在测试时间适应不同目标域的源模型。具体而言,我们在共享域形式的特征提取器上创建多个域特异性分类器。特征提取器和分类器以对抗性方式进行了训练,其中特征提取器将输入样品嵌入到域不变的空间中,并且多个分类器捕获了每个分类器与特定源域有关的独特决策边界。在测试过程中,可以通过利用源分类器之间的预测分歧来有效地衡量目标和源域之间的分布差异。通过微调源模型以最大程度地减少测试时间的分歧,目标域特征与不变特征空间很好地对齐。我们验证了两种流行的DG方法,即ERM和Coral,以及四个DG基准,即VLCS,PACS,OfficeHome和TerrainCognita。结果表明,ADAODM稳定地提高了对看不见的域的概括能力,并实现了最先进的性能。
translated by 谷歌翻译
最近,已经提出了几种领域的概括(DG)方法,表现出令人鼓舞的性能,但是,几乎所有的都基于卷积神经网络(CNN)。研究视觉变压器(VIT)的DG性能(VIT)几乎没有进展,这挑战了CNN在标准基准测试基准上的至高无上,通常是基于I.I.D假设。这使VITS的现实部署令人怀疑。在本文中,我们试图探索解决DG问题的VIT。与CNN类似,VIT在分发场景中也挣扎,主要的罪魁祸首过于适合来源域。受VIT的模块化体系结构的启发,我们提出了一种简单的DG方法,用于VIT,以VIT的自我验证。它通过策划中间变压器块的非零熵监管信号来减少输入输出映射问题的学习来减少源域的过度拟合。此外,它不会引入任何新参数,并且可以无缝地插入不同VIT的模块化组成中。我们在五个具有挑战性的数据集中以不同的DG基准和各种VIT骨架表现出显着的性能提高。此外,我们报告了针对最近最新的DG方法的有利性能。我们的代码以及预培训的模型可在以下网址公开获取:https://github.com/maryam089/sdvit
translated by 谷歌翻译
在过去的几年中,视觉模型的规模呈指数增长,尤其是在视觉变压器出现之后。这激发了参数有效调整方法的开发,例如学习适配器层或视觉及时令牌,这允许训练一小部分模型参数,而从预训练中获得的绝大多数则可以冷冻。但是,设计适当的调整方法是不平凡的:可能需要尝试冗长的设计选择列表,更不用说每个下游数据集通常都需要自定义设计。在本文中,我们将现有的参数效率调整方法视为“及时模块”,并提出了神经及时搜索(Noah),这是一种新颖的方法,可以学习大型视觉模型,通过神经体系结构搜索算法的及时模型的最佳设计, ,专门针对每个下游数据集。通过对20多个视觉数据集进行广泛的实验,我们证明了Noah(i)优于单个提示模块,(ii)具有良好的少数学习能力,并且(iii)可以域名。代码和型号可在https://github.com/davidzhangyuanhan/noah上找到。
translated by 谷歌翻译
关于无监督的域适应性(UDA)的广泛研究已将有限的实验数据集深入学习到现实世界中无约束的领域。大多数UDA接近通用嵌入空间中的对齐功能,并将共享分类器应用于目标预测。但是,由于当域差异很大时可能不存在完全排列的特征空间,因此这些方法受到了两个局限性。首先,由于缺乏目标标签监督,强制域的比对会恶化目标域的可区分性。其次,源监督分类器不可避免地偏向源数据,因此它在目标域中的表现可能不佳。为了减轻这些问题,我们建议在两个集中在不同领域的空间中同时进行特征对齐,并为每个空间创建一个针对该域的面向域的分类器。具体而言,我们设计了一个面向域的变压器(DOT),该变压器(DOT)具有两个单独的分类令牌,以学习不同的面向域的表示形式和两个分类器,以保持域的可区分性。理论保证的基于对比度的对齐和源指导的伪标签细化策略被用来探索域名和特定信息。全面的实验验证了我们的方法在几个基准上实现了最先进的方法。
translated by 谷歌翻译
我们介绍了域名感知持续零射击学习(DACZSL),顺序地在视觉域中视觉识别未经证实的类别的图像。我们通过将其划分为一系列任务,在DomainEnt数据集之上创建了DACZSL,其中类在培训期间在所见的域中逐步提供,并且在看见和看不见的课程上进行了看不见的域。我们还提出了一种新颖的域名不变的CZSL网络(DIN),这胜过了我们适用于DACZSL设置的最先进的基线模型。除了全球共享网络之外,我们采用基于结构的方法来缓解来自以前的任务的知识,并使用小的每任务私有网络。为了鼓励私人网络捕获域和任务特定的表示,我们用一个新的对抗性知识解除义目设置训练我们的模型,以使我们的全局网络任务 - 不变和域中的所有任务都是不变的。我们的方法还要学习类明智的学习提示,以获取更好的类级文本表示,用于表示侧面信息,以启用未来的未经看不见的类的零拍摄预测。我们的代码和基准将公开可用。
translated by 谷歌翻译
为了使模型在看不见的域(又称域的概括)下进行概括,学习是域 - 不可思议的特征表示并捕获构成对象类别的基础语义。朝着弱监督的视力语言模型的最新进展,从廉价监督的嘈杂文本注释中学习整体表示,通过捕获在不同域下概括的对象特征,表明了他们在语义理解上的能力。但是,当涉及多个源域时,数据集中每个图像的策划文本注释的成本可能会爆炸多次,具体取决于其数字。这使得该过程乏味和不可行,阻碍了我们直接使用这些监督视觉语言方法来实现对看不见的领域的最佳概括。从此激励的是,我们研究了如何以“内在”的方式利用现有预训练的多模式网络的多模式信息,以使系统在看不见的域下概括。为此,我们提出了用于域概括(Indigo)的固有多模式,这是一种简单而优雅的方式,用于利用这些预训练的多模式网络中存在的固有模态以及视觉模态以增强概括性在测试时间内看不见域。我们在几个领域的概括设置(封闭状态,OPENDG和有限的来源)上进行了实验,并在看不见的域上显示了最新的概括性能。此外,我们提供了彻底的分析,以发展对靛蓝的整体理解。
translated by 谷歌翻译
域的概括(DG)旨在仅使用有限的源域学习一个通用模型。先前的DG尝试仅由于训练和测试域之间的显着域移动而无法从源域中学习域不变表示。取而代之的是,我们使用Oracle模型使用共同信息重新构建了DG目标,该模型将概括为任何可能的域。我们通过通过预训练的模型近似oracle模型来得出一个可拖动的变化下限,称为使用Oracle(Miro)的相互信息正则化。我们的广泛实验表明,Miro可显着提高分布性能。此外,我们的缩放实验表明,预训练模型的尺度越大,miro的性能提高就越大。源代码可在https://github.com/kakaobrain/miro中获得。
translated by 谷歌翻译
无监督的域适应(UDA)旨在将知识从标记的源域传输到未标记的目标域。大多数现有的UDA方法通过学习域 - 不变的表示和在两个域中共享一个分类器来实现知识传输。但是,忽略与任务相关的域特定信息,并强制统一的分类器以适合两个域将限制每个域中的特征表达性。在本文中,通过观察到具有可比参数的变压器架构可以产生比CNN对应的更可转换的表示,我们提出了一个双赢的变压器框架(WINTR),它分别探讨了每个域的特定于域的知识,而同时交互式跨域知识。具体而言,我们使用变压器中的两个单独的分类令牌学习两个不同的映射,以及每个特定于域的分类器的设计。跨域知识通过源引导标签改进和与源或目标的单侧特征对齐传输,这保持了特定于域的信息的完整性。三个基准数据集的广泛实验表明,我们的方法优于最先进的UDA方法,验证利用域特定和不变性的有效性
translated by 谷歌翻译
优化从看不见域的样本上的分类器的性能仍然是一个具有挑战性的问题。虽然大多数关于域泛化的研究侧重于学习域名特征表示,但已经提出了多专家框架作为可能的解决方案,并且已经表现出了有希望的性能。但是,当前的多专家学习框架在推理期间未能充分利用源域知识,从而导致次优性能。在这项工作中,我们建议适应变压器,以便动态解码域泛化的源域知识。具体来说,我们将一个特定于域的本地专家域每个源域和一个域 - 不可知要素分支为查询。变压器编码器将所有域特定功能编码为内存中的源域知识。在变压器解码器中,域名忽视查询与跨关注模块中的存储器交互,并且类似于输入的域将有助于注意输出。因此,源域知识得到动态解码,以推动来自未经看不见的域的电流输入。该机制使得提出的方法能够概括到看不见的域。所提出的方法已经在域泛化领域的三个基准中进行了评估,并与最先进的方法相比,具有最佳性能。
translated by 谷歌翻译
域的概括(DG)旨在学习分配变化的可推广模型,以避免重新拟合大规模训练数据。以前具有复杂损失设计和梯度约束的作品尚未在大规模基准上取得经验成功。在这项工作中,我们通过利用跨域跨域的预测特征的多个方面来揭示Experts(MOE)模型对DG的概括性的混合物。为此,我们提出了稀疏的融合混合物(SF-MOE),该混合物将稀疏性和融合机制纳入MOE框架中,以使模型保持稀疏和预测性。 SF-MOE有两个专用模块:1)稀疏块和2)融合块,它们分别分别分离和汇总对象的多样化信号。广泛的实验表明,SF-MOE是大规模基准的域名学习者。在5个大规模的DG数据集(例如域内)中,它的表现优于最佳同行,其计算成本相同甚至较低。我们从分布式表示的角度(例如,视觉属性)进一步揭示了SF-MOE的内部机制。我们希望这个框架可以促进未来的研究,将可普遍的对象识别推向现实世界。代码和模型在https://github.com/luodian/sf-moe-dg上发布。
translated by 谷歌翻译
预训练的视觉模型(例如,剪辑)在许多下游任务中显示出有希望的零弹性概括,并具有正确设计的文本提示。最近的作品不依赖手工设计的提示,而是使用下游任务的培训数据来学习提示。虽然有效,但针对领域数据的培训却降低了模型的概括能力,使其无法看到新领域。在这项工作中,我们提出了测试时间提示调整(TPT),该方法可以通过单个测试样本即时学习自适应提示。对于图像分类,TPT通过使用置信度选择最小化熵来优化提示,以便模型在每个测试样本的不同增强视图上都具有一致的预测。在评估对自然分布变化的概括时,TPT平均将零击的TOP-1精度提高了3.6%,超过了先前需要其他特定于任务的训练数据的迅速调整方法。在评估看不见类别的跨数据集泛化时,TPT与使用其他培训数据的最先进方法相当。项目页面:https://azshue.github.io/tpt。
translated by 谷歌翻译
在计算机视觉中广泛采用了预处理 - 最终的范式。但是,随着视觉变压器(VIT)的尺寸呈指数增长,鉴于较重的存储空间的头顶,完整的燃料变得过于望而却步。最近的研究是由参数效率转移学习(PETL)的动机,最近的研究试图插入轻巧的适应模块(例如,适配器层或及时令牌)以预处理VIT,并且仅释放这些模块,而预处理的权重则是冷冻的。但是,这些模块最初是为了芬太尼语言模型而提出的。尽管对VIT的口号很好,但他们的设计缺乏视觉任务的先验知识。在本文中,我们建议在VIT中构建卷积旁路(Convass)作为适应模块,仅引入了可训练参数的少量(少于模型参数的0.5%)以适应大型VIT。与其他PETL方法不同,卷积层的硬编码电感偏置的互惠受益,因此更适合视觉任务,尤其是在低数据表格中。 VTAB-1K基准和少量学习数据集的实验结果表明,Convass的表现优于当前面向语言的适应模块,这证明了对视觉模型量身定制面向视觉的适应模块的必要性。
translated by 谷歌翻译
Prompt learning is one of the most effective and trending ways to adapt powerful vision-language foundation models like CLIP to downstream datasets by tuning learnable prompt vectors with very few samples. However, although prompt learning achieves excellent performance over in-domain data, it still faces the major challenge of generalizing to unseen classes and domains. Some existing prompt learning methods tackle this issue by adaptively generating different prompts for different tokens or domains but neglecting the ability of learned prompts to generalize to unseen domains. In this paper, we propose a novel prompt learning paradigm that directly generates domain invariant prompt generalizable to unseen domains, called MetaPrompt. Specifically, a dual-modality prompt tuning network is proposed to generate prompts for inputs from both image and text modalities. More importantly, we propose a meta-learning-based prompt tuning algorithm that explicitly constrains the prompt tuned on a specific domain or class also to achieve good performance on another domain or class. Extensive experiments on 11 datasets for base-to-new generalization and four datasets for domain generalization demonstrate that our method consistently and significantly outperforms existing methods.
translated by 谷歌翻译
Vision transformer has demonstrated great potential in abundant vision tasks. However, it also inevitably suffers from poor generalization capability when the distribution shift occurs in testing (i.e., out-of-distribution data). To mitigate this issue, we propose a novel method, Semantic-aware Message Broadcasting (SAMB), which enables more informative and flexible feature alignment for unsupervised domain adaptation (UDA). Particularly, we study the attention module in the vision transformer and notice that the alignment space using one global class token lacks enough flexibility, where it interacts information with all image tokens in the same manner but ignores the rich semantics of different regions. In this paper, we aim to improve the richness of the alignment features by enabling semantic-aware adaptive message broadcasting. Particularly, we introduce a group of learned group tokens as nodes to aggregate the global information from all image tokens, but encourage different group tokens to adaptively focus on the message broadcasting to different semantic regions. In this way, our message broadcasting encourages the group tokens to learn more informative and diverse information for effective domain alignment. Moreover, we systematically study the effects of adversarial-based feature alignment (ADA) and pseudo-label based self-training (PST) on UDA. We find that one simple two-stage training strategy with the cooperation of ADA and PST can further improve the adaptation capability of the vision transformer. Extensive experiments on DomainNet, OfficeHome, and VisDA-2017 demonstrate the effectiveness of our methods for UDA.
translated by 谷歌翻译
作为剪辑的对比视觉语言预培训为通过使用大规模对比图像文本对提供了学习视觉表示的新范式。它显示了零击中知识转移到下游任务的令人印象深刻的性能。为了进一步增强剪辑的几次射击功能,提出的剪辑适配器提出微调轻量级残留功能适配器,并显着提高了几次拍摄分类的性能。但是,这样的过程仍然需要额外的培训和计算资源。在本文中,我们提出了\ textbf {t}下雨的cl \ textbf {ip} - \ textbf {适配器}(\ textbf {tip-adapter}),它不仅继承了剪辑的无训练优势,还可以相当地执行或甚至比剪辑适配器更好。提示 - 适配器不需要任何用于训练适配器的备份传播,而是通过从几次拍摄训练集构造的键值高速缓存模型创建权重。在这种非参数的方式中,提示适配器在没有任何训练的情况下获取良好的适配器权重,这既有效且有效。此外,可以通过微调这种适当的初始化适配器进一步提高尖端适配器的性能,仅用于具有超快速收敛速度的几个时期。我们对ImageNet和其他10个数据集进行了广泛的小型分类实验,以证明提出的提示适配器的优越性。代码将以\ URL {https://github.com/gaopengcuhk/tip-adapter}释放。
translated by 谷歌翻译