优化从看不见域的样本上的分类器的性能仍然是一个具有挑战性的问题。虽然大多数关于域泛化的研究侧重于学习域名特征表示,但已经提出了多专家框架作为可能的解决方案,并且已经表现出了有希望的性能。但是,当前的多专家学习框架在推理期间未能充分利用源域知识,从而导致次优性能。在这项工作中,我们建议适应变压器,以便动态解码域泛化的源域知识。具体来说,我们将一个特定于域的本地专家域每个源域和一个域 - 不可知要素分支为查询。变压器编码器将所有域特定功能编码为内存中的源域知识。在变压器解码器中,域名忽视查询与跨关注模块中的存储器交互,并且类似于输入的域将有助于注意输出。因此,源域知识得到动态解码,以推动来自未经看不见的域的电流输入。该机制使得提出的方法能够概括到看不见的域。所提出的方法已经在域泛化领域的三个基准中进行了评估,并与最先进的方法相比,具有最佳性能。
translated by 谷歌翻译
域泛化(DG)方法旨在开发概括到测试分布与训练数据不同的设置的模型。在本文中,我们专注于多源零拍DG的挑战性问题,其中来自多个源域的标记训练数据可用,但无法从目标域中访问数据。虽然这个问题已成为研究的重要话题,但令人惊讶的是,将所有源数据汇集在一起​​和培训单个分类器的简单解决方案在标准基准中具有竞争力。更重要的是,即使在不同域中明确地优化不变性的复杂方法也不一定提供对ERM的非微不足道的增益。在本文中,我们首次研究了预先指定的域标签和泛化性能之间的重要链接。使用动机案例研究和分布稳健优化算法的新变种,我们首先演示了如何推断的自定义域组可以通过数据集的原始域标签来实现一致的改进。随后,我们介绍了一种用于多域泛化,Muldens的一般方法,它使用基于ERM的深度合并骨干,并通过元优化算法执行隐式域重标。使用对多个标准基准测试的经验研究,我们表明Muldens不需要定制增强策略或特定于数据集的培训过程,始终如一地优于ERM,通过显着的边距,即使在比较时也会产生最先进的泛化性能对于利用域标签的现有方法。
translated by 谷歌翻译
域泛化(DG)利用多个标记的源数据集来训练未经化的目标域的概括模型。然而,由于昂贵的注释成本,在现实世界应用中难以满足标记所有源数据的要求。在本文中,我们调查单个标记的域泛化(SLDG)任务,只标有一个源域,这比传统的域泛化(CDG)更实用和具有挑战性。 SLDG任务中的主要障碍是可怜的概括偏置:标记源数据集中的鉴别信息可以包含特定于域的偏差,限制训练模型的泛化。为了解决这个具有挑战性的任务,我们提出了一种称为域特定偏置滤波(DSBF)的新方法,该方法用标记的源数据初始化识别模型,然后通过用于泛化改进的未标记的源数据来滤除其域特定的偏差。我们将过滤过程划分为(1)特征提取器扩展通过K-Means的基于聚类的语义特征重新提取和(2)分类器通过注意引导语义特征投影校准。 DSBF统一探索标签和未标记的源数据,以增强培训模型的可辨性和泛化,从而产生高度普遍的模型。我们进一步提供了理论分析,以验证所提出的域特定的偏置滤波过程。关于多个数据集的广泛实验显示了DSBF在解决具有挑战性的SLDG任务和CDG任务时的优越性。
translated by 谷歌翻译
随着各种面部表现攻击不断出现,基于域概括(DG)的面部抗散热(FAS)方法引起了人们的注意。现有的基于DG的FAS方法始终捕获用于概括各种看不见域的域不变功能。但是,他们忽略了单个源域的歧视性特征和不同域的不同域特异性信息,并且训练有素的模型不足以适应各种看不见的域。为了解决这个问题,我们提出了专家学习(AMEL)框架的自适应混合物,该框架利用了特定于域的信息以适应性地在可见的源域和看不见的目标域之间建立链接,以进一步改善概括。具体而言,特定领域的专家(DSE)旨在研究歧视性和独特的域特异性特征,以作为对共同域不变特征的补充。此外,提出了动态专家聚合(DEA),以根据与看不见的目标域相关的域相关的每个源专家的互补信息来自适应地汇总信息。并结合元学习,这些模块合作,可适应各种看不见的目标域的有意义的特定于域特异性信息。广泛的实验和可视化证明了我们对最先进竞争者的方法的有效性。
translated by 谷歌翻译
机器学习系统通常假设训练和测试分布是相同的。为此,关键要求是开发可以概括到未经看不见的分布的模型。领域泛化(DG),即分销概括,近年来引起了越来越令人利益。域概括处理了一个具有挑战性的设置,其中给出了一个或几个不同但相关域,并且目标是学习可以概括到看不见的测试域的模型。多年来,域概括地区已经取得了巨大进展。本文提出了对该地区最近进步的首次审查。首先,我们提供了域泛化的正式定义,并讨论了几个相关领域。然后,我们彻底审查了与域泛化相关的理论,并仔细分析了泛化背后的理论。我们将最近的算法分为三个类:数据操作,表示学习和学习策略,并为每个类别详细介绍几种流行的算法。第三,我们介绍常用的数据集,应用程序和我们的开放源代码库进行公平评估。最后,我们总结了现有文学,并为未来提供了一些潜在的研究主题。
translated by 谷歌翻译
Deep Neural Networks (DNNs) suffer from domain shift when the test dataset follows a distribution different from the training dataset. Domain generalization aims to tackle this issue by learning a model that can generalize to unseen domains. In this paper, we propose a new approach that aims to explicitly remove domain-specific features for domain generalization. Following this approach, we propose a novel framework called Learning and Removing Domain-specific features for Generalization (LRDG) that learns a domain-invariant model by tactically removing domain-specific features from the input images. Specifically, we design a classifier to effectively learn the domain-specific features for each source domain, respectively. We then develop an encoder-decoder network to map each input image into a new image space where the learned domain-specific features are removed. With the images output by the encoder-decoder network, another classifier is designed to learn the domain-invariant features to conduct image classification. Extensive experiments demonstrate that our framework achieves superior performance compared with state-of-the-art methods.
translated by 谷歌翻译
最近,已经提出了几种领域的概括(DG)方法,表现出令人鼓舞的性能,但是,几乎所有的都基于卷积神经网络(CNN)。研究视觉变压器(VIT)的DG性能(VIT)几乎没有进展,这挑战了CNN在标准基准测试基准上的至高无上,通常是基于I.I.D假设。这使VITS的现实部署令人怀疑。在本文中,我们试图探索解决DG问题的VIT。与CNN类似,VIT在分发场景中也挣扎,主要的罪魁祸首过于适合来源域。受VIT的模块化体系结构的启发,我们提出了一种简单的DG方法,用于VIT,以VIT的自我验证。它通过策划中间变压器块的非零熵监管信号来减少输入输出映射问题的学习来减少源域的过度拟合。此外,它不会引入任何新参数,并且可以无缝地插入不同VIT的模块化组成中。我们在五个具有挑战性的数据集中以不同的DG基准和各种VIT骨架表现出显着的性能提高。此外,我们报告了针对最近最新的DG方法的有利性能。我们的代码以及预培训的模型可在以下网址公开获取:https://github.com/maryam089/sdvit
translated by 谷歌翻译
Though convolutional neural networks (CNNs) have demonstrated remarkable ability in learning discriminative features, they often generalize poorly to unseen domains. Domain generalization aims to address this problem by learning from a set of source domains a model that is generalizable to any unseen domain. In this paper, a novel approach is proposed based on probabilistically mixing instancelevel feature statistics of training samples across source domains. Our method, termed MixStyle, is motivated by the observation that visual domain is closely related to image style (e.g., photo vs. sketch images). Such style information is captured by the bottom layers of a CNN where our proposed style-mixing takes place. Mixing styles of training instances results in novel domains being synthesized implicitly, which increase the domain diversity of the source domains, and hence the generalizability of the trained model. MixStyle fits into mini-batch training perfectly and is extremely easy to implement. The effectiveness of MixStyle is demonstrated on a wide range of tasks including category classification, instance retrieval and reinforcement learning.
translated by 谷歌翻译
Domain generalization (DG) is the challenging and topical problem of learning models that generalize to novel testing domains with different statistics than a set of known training domains. The simple approach of aggregating data from all source domains and training a single deep neural network end-to-end on all the data provides a surprisingly strong baseline that surpasses many prior published methods. In this paper we build on this strong baseline by designing an episodic training procedure that trains a single deep network in a way that exposes it to the domain shift that characterises a novel domain at runtime. Specifically, we decompose a deep network into feature extractor and classifier components, and then train each component by simulating it interacting with a partner who is badly tuned for the current domain. This makes both components more robust, ultimately leading to our networks producing state-of-the-art performance on three DG benchmarks. Furthermore, we consider the pervasive workflow of using an ImageNet trained CNN as a fixed feature extractor for downstream recognition tasks. Using the Visual Decathlon benchmark, we demonstrate that our episodic-DG training improves the performance of such a general purpose feature extractor by explicitly training a feature for robustness to novel problems. This shows that DG training can benefit standard practice in computer vision.
translated by 谷歌翻译
域的概括(DG)旨在学习分配变化的可推广模型,以避免重新拟合大规模训练数据。以前具有复杂损失设计和梯度约束的作品尚未在大规模基准上取得经验成功。在这项工作中,我们通过利用跨域跨域的预测特征的多个方面来揭示Experts(MOE)模型对DG的概括性的混合物。为此,我们提出了稀疏的融合混合物(SF-MOE),该混合物将稀疏性和融合机制纳入MOE框架中,以使模型保持稀疏和预测性。 SF-MOE有两个专用模块:1)稀疏块和2)融合块,它们分别分别分离和汇总对象的多样化信号。广泛的实验表明,SF-MOE是大规模基准的域名学习者。在5个大规模的DG数据集(例如域内)中,它的表现优于最佳同行,其计算成本相同甚至较低。我们从分布式表示的角度(例如,视觉属性)进一步揭示了SF-MOE的内部机制。我们希望这个框架可以促进未来的研究,将可普遍的对象识别推向现实世界。代码和模型在https://github.com/luodian/sf-moe-dg上发布。
translated by 谷歌翻译
无监督域适应(UDA)旨在将从标记的源域中学习的知识转移到未标记的目标域。以前的工作主要是在卷积神经网络(CNNS)上建立的,以学习域名不变的表示。随着近期应用视觉变压器(VIT)对视力任务的指数增加,然而,在文献中仍未开发了调整跨领域知识的能力。为了填补这一差距,本文首先全面调查了vit的各种域适应任务的可转移性。令人惊讶的是,VIT通过其具有大边缘的基于CNNS的对应物来证明优异的可转移性,而通过掺入抗体适应可以进一步提高性能。尽管如此,直接使用基于CNNS的适应策略未能利用Vit的内在优点(例如,注意机制和顺序图像表示)在知识转移中起重要作用。为了解决这个问题,我们提出了一个统一的框架,即可转换的视觉变压器(TVT),以充分利用VIT的可转换性来实现域适应。具体而言,我们精致地设计了一种新颖且有效的单位,我们术语可转移适应模块(TAM)。通过将学习的传递注入注意块,TAM压迫重点是可转移和辨别特征。此外,我们利用判别聚类来增强在对抗域对齐期间破坏的特征分集和分离。为了验证其多功能性,我们在四个基准测试中对TVT进行了广泛的研究,实验结果表明,与现有的最先进的UDA方法相比,TVT达到了显着的改进。
translated by 谷歌翻译
为了使模型在看不见的域(又称域的概括)下进行概括,学习是域 - 不可思议的特征表示并捕获构成对象类别的基础语义。朝着弱监督的视力语言模型的最新进展,从廉价监督的嘈杂文本注释中学习整体表示,通过捕获在不同域下概括的对象特征,表明了他们在语义理解上的能力。但是,当涉及多个源域时,数据集中每个图像的策划文本注释的成本可能会爆炸多次,具体取决于其数字。这使得该过程乏味和不可行,阻碍了我们直接使用这些监督视觉语言方法来实现对看不见的领域的最佳概括。从此激励的是,我们研究了如何以“内在”的方式利用现有预训练的多模式网络的多模式信息,以使系统在看不见的域下概括。为此,我们提出了用于域概括(Indigo)的固有多模式,这是一种简单而优雅的方式,用于利用这些预训练的多模式网络中存在的固有模态以及视觉模态以增强概括性在测试时间内看不见域。我们在几个领域的概括设置(封闭状态,OPENDG和有限的来源)上进行了实验,并在看不见的域上显示了最新的概括性能。此外,我们提供了彻底的分析,以发展对靛蓝的整体理解。
translated by 谷歌翻译
尽管视觉变压器(VIT)表现出令人印象深刻的表示学习能力,但我们从经验上发现,它们不能很好地将其概括为具有以前的域泛化算法的看不见的域。在本文中,我们提出了一种基于迅速学习的新方法,以嵌入域中的源域的知识提示目标域预测。具体而言,在来自相应的源域中的VIT输入令牌之前先进行域提示。每个域提示都可以有效地学习特定于领域的知识,因为仅针对一个域进行了优化。同时,我们训练一个及时的适配器,根据学习的源域提示为每个输入图像生成适当的提示。在测试时,提示适配器生成的改编提示可以利用室外图像和源域的特征之间的相似性,以正确整合源域知识。广泛的实验是在四个基准数据集上进行的。我们的方法在平均准确性方面提高了1.4%,这是使用VIT主链改善最先进算法的3.5倍。
translated by 谷歌翻译
适应分布数据的数据是所有统计学习算法的元挑战,这些算法强烈依赖于I.I.D.假设。它导致不可避免的人工成本和在现实应用中的信心危机。为此,域的概括旨在从多个源域中的挖掘域 - 核定知识,这些知识可以推广到看不见的目标域。在本文中,通过利用图像的频域,我们独特地使用两个关键观察:(i)图像的高频信息描绘了对象边缘结构,该信息保留对象的高级语义信息自然是一致的跨不同域,(ii)低频组件保留对象平滑结构,而此信息易于域移动。在上述观察结果的激励下,我们引入(i)图像的高频和低频功能,(ii)一种信息交互机制,以确保两个部分的有用知识可以有效地合作,并且(iii)一种新型的数据增强技术,可在频域上起作用,以鼓励频率特征的稳健性。提出的方法在三个广泛使用的域概括基准(Digit-DG,Office-home和pac)上获得了最先进的性能。
translated by 谷歌翻译
域泛化(DG)是一个难度的学习问题,旨在学习一个概念域的概念模型。最近的巨型预训练模型,如剪辑和GPT-3,即基础模型(FMS),已被证明对许多分布换档具有强大,因此应导致DG的大量改进。在这项工作中,我们研究了在图像分类中采用DG问题采用剪辑的通用方法,在那里我们评估了天真零射击学习和全DG学习设置。对于后者,我们提出了AP(摊销提示),作为迅速生成形式的域推断的新方法。在域泛化基准上使用多个标准数据集,即PACS,VLC,OfficeHome和Terraincognita,Clip提供了可比的性能而无需微调任何参数,这表明FM在DG中的适用性和重要性。此外,我们表明,组合域提示跟踪带剪辑使AP能够以大的余量越大,从71.3 \%升高到79.3 \%的精度。我们希望我们的方法的简单性和成功强调强调的重要性并导致更广泛采用和分析域泛化领域的基础模型。
translated by 谷歌翻译
机器学习系统,尤其是基于深度学习的方法,在实验设置下的现代计算机视觉任务中享有巨大成功。通常,这些经典的深度学习方法建立在\ emph {i.i.d。}假设上,假设训练和测试数据是独立且相同的相同分布绘制的。但是,在现实世界中,通常无法获得上述\ emph {i.i.d。}的假设,因此导致深度学习算法的急剧性能衰减。在此背后,域转移是要责备的主要因素之一。为了解决此问题,我们建议使用\ textbf {po} tient \ textbf {e} nergy \ textbf {r} anking(poer)将对象功能和域特征(\ emph {i.e.e。在给定的图像中,促进对标签 - 歧义特征的学习,同时滤除对象与背景之间的无关相关性。 POER帮助神经网络捕获与标签相关的功能,这些功能首先包含域信息,然后逐渐逐渐蒸发标签 - 歧义表示形式,从而强制执行神经网络,以了解对象和背景的特征,这对物体和背景至关重要生成域不变特征。 Poer报告了域泛化基准的卓越性能,与现有方法相比,平均TOP-1的准确性至少提高了1.20 \%。此外,我们在ECCV 2022 NICO Challenge \ footNote {https://nicochallenge.com}中使用POER,仅使用Vanilla Resnet-18获得顶级。该代码已在https://github.com/foreverps/poer上提供。
translated by 谷歌翻译
无监督域适应(UDA)旨在将从标记的源域中学习的知识转移到不同的未标记的目标域。大多数现有的UDA方法专注于使用卷积神经网络(CNNS)的框架来学习域级别或类别级别的域不变特征表示。基于类别级别的UDA的一个根本问题是针对目标域中的样本的伪标签的生产通常太嘈杂,对于精确的域对齐,不可避免地影响UDA性能。随着变压器在各种任务中的成功,我们发现变压器中的横向对嘈杂的输入对具有鲁棒,以进行更好的特征对齐,因此在挑战的UDA任务中采用了该变压器。具体地,为了生成准确的输入对,我们设计了一种双向中心感知标记算法,为目标样本产生伪标签。随着伪标签,提出了一种重量共享三分支变压器框架,以分别应用用于源/目标特征学习和源极域对齐的自我关注和横向。这种设计明确强制执行框架,以便同时学习鉴别的域和域不变的表示。所提出的方法是Dubbed CDTrans(跨域变压器),它提供了第一次尝试用纯变压器解决方案解决UDA任务。实验表明,我们的拟议方法实现了公共UDA数据集的最佳表现,例如, Visda-2017和DomainNet。代码和模型可在https://github.com/cdtrans/cdtrans中获得。
translated by 谷歌翻译
变压器最近在计算机视觉中获得了越来越高的关注。然而,现有研究大多用于特征表示学习的变压器,例如,用于图像分类和密集预测,变压器的普遍性是未知的。在这项工作中,我们进一步调查了对图像匹配和度量学习的应用变压器的可能性。我们发现视觉变压器(VIT)和带解码器的Vanilla变压器由于它们缺乏图像与图像而受到图像匹配。因此,我们进一步设计了两种天真的解决方案,即vit的查询画廊串联,并在香草变压器中的Query-Gallery横向关注。后者提高了性能,但它仍然有限。这意味着变压器中的注意机制主要用于全局特征聚合,这不是自然适用于图像匹配。因此,我们提出了一种新的简化解码器,它可以使用SoftMax加权丢弃全部注意力实现,只能保持查询关键相似性计算。此外,还应用全局最大池和多层的Perceptron(MLP)头来解码匹配结果。这样,简化的解码器在计算上更有效,而同时对图像匹配更有效。所谓的方法称为传输函数,在概括的人重新识别中实现最先进的性能,在几个流行的数据集中分别在Rank-1中的性能增长高达6.1%和5.7%。代码可在https://github.com/shengcailiao/qaconv获得。
translated by 谷歌翻译
最近,由于受监督人员重新识别(REID)的表现不佳,域名概括(DG)人REID引起了很多关注,旨在学习一个不敏感的模型,并可以抵抗域的影响偏见。在本文中,我们首先通过实验验证样式因素是域偏差的重要组成部分。基于这个结论,我们提出了一种样式变量且无关紧要的学习方法(SVIL)方法,以消除样式因素对模型的影响。具体来说,我们在SVIL中设计了样式的抖动模块(SJM)。 SJM模块可以丰富特定源域的样式多样性,并减少各种源域的样式差异。这导致该模型重点关注与身份相关的信息,并对样式变化不敏感。此外,我们将SJM模块与元学习算法有机结合,从而最大程度地提高了好处并进一步提高模型的概括能力。请注意,我们的SJM模块是插件和推理,无需成本。广泛的实验证实了我们的SVIL的有效性,而我们的方法的表现优于DG-REID基准测试的最先进方法。
translated by 谷歌翻译
域名概括(DG)人重新识别(REID)旨在通过在培训时间进行无需目标域数据的未经访问域来测试,这是一个现实但具有挑战性的问题。与假设不同域的相同模型的方法相反,专家(MOE)的混合利用多个域特定网络来利用域之间的互补信息,获得令人印象深刻的结果。然而,基于MOE的DG REID方法随着源极域的数量的增加而遭受大型模型尺寸,而且大多数忽略了域不变特性的开发。要处理上面的两个问题,本文介绍了一种通过其他人对DG REID的聚合(META)嵌入模拟嵌入的新方法。为避免大型型号大小,元的专家对每个源域的分支网络不添加分支网络,但共享除批量归一化层外的所有参数。除了多个专家外,Meta除了实例规范化(IN)并将其介绍到全球分支中,以跨域追求不变的功能。同时,META考虑通过归一化统计数据的看不见的目标样本和源域的相关性,并开发聚合网络以自适应地集成多个专家来模仿未经调用的目标域。受益于拟议的一致性损失和episodic训练算法,我们可以预期元模仿真正看不见的目标域的嵌入。广泛的实验核实,META通过大边缘超越最先进的DG REID方法。
translated by 谷歌翻译