机器学习系统,尤其是基于深度学习的方法,在实验设置下的现代计算机视觉任务中享有巨大成功。通常,这些经典的深度学习方法建立在\ emph {i.i.d。}假设上,假设训练和测试数据是独立且相同的相同分布绘制的。但是,在现实世界中,通常无法获得上述\ emph {i.i.d。}的假设,因此导致深度学习算法的急剧性能衰减。在此背后,域转移是要责备的主要因素之一。为了解决此问题,我们建议使用\ textbf {po} tient \ textbf {e} nergy \ textbf {r} anking(poer)将对象功能和域特征(\ emph {i.e.e。在给定的图像中,促进对标签 - 歧义特征的学习,同时滤除对象与背景之间的无关相关性。 POER帮助神经网络捕获与标签相关的功能,这些功能首先包含域信息,然后逐渐逐渐蒸发标签 - 歧义表示形式,从而强制执行神经网络,以了解对象和背景的特征,这对物体和背景至关重要生成域不变特征。 Poer报告了域泛化基准的卓越性能,与现有方法相比,平均TOP-1的准确性至少提高了1.20 \%。此外,我们在ECCV 2022 NICO Challenge \ footNote {https://nicochallenge.com}中使用POER,仅使用Vanilla Resnet-18获得顶级。该代码已在https://github.com/foreverps/poer上提供。
translated by 谷歌翻译
Though convolutional neural networks (CNNs) have demonstrated remarkable ability in learning discriminative features, they often generalize poorly to unseen domains. Domain generalization aims to address this problem by learning from a set of source domains a model that is generalizable to any unseen domain. In this paper, a novel approach is proposed based on probabilistically mixing instancelevel feature statistics of training samples across source domains. Our method, termed MixStyle, is motivated by the observation that visual domain is closely related to image style (e.g., photo vs. sketch images). Such style information is captured by the bottom layers of a CNN where our proposed style-mixing takes place. Mixing styles of training instances results in novel domains being synthesized implicitly, which increase the domain diversity of the source domains, and hence the generalizability of the trained model. MixStyle fits into mini-batch training perfectly and is extremely easy to implement. The effectiveness of MixStyle is demonstrated on a wide range of tasks including category classification, instance retrieval and reinforcement learning.
translated by 谷歌翻译
优化从看不见域的样本上的分类器的性能仍然是一个具有挑战性的问题。虽然大多数关于域泛化的研究侧重于学习域名特征表示,但已经提出了多专家框架作为可能的解决方案,并且已经表现出了有希望的性能。但是,当前的多专家学习框架在推理期间未能充分利用源域知识,从而导致次优性能。在这项工作中,我们建议适应变压器,以便动态解码域泛化的源域知识。具体来说,我们将一个特定于域的本地专家域每个源域和一个域 - 不可知要素分支为查询。变压器编码器将所有域特定功能编码为内存中的源域知识。在变压器解码器中,域名忽视查询与跨关注模块中的存储器交互,并且类似于输入的域将有助于注意输出。因此,源域知识得到动态解码,以推动来自未经看不见的域的电流输入。该机制使得提出的方法能够概括到看不见的域。所提出的方法已经在域泛化领域的三个基准中进行了评估,并与最先进的方法相比,具有最佳性能。
translated by 谷歌翻译
通过在多个观察到的源极域上培训模型,域概括旨在概括到无需进一步培训的任意看不见的目标领域。现有的作品主要专注于学习域不变的功能,以提高泛化能力。然而,由于在训练期间不可用目标域,因此前面的方法不可避免地遭受源极域中的过度。为了解决这个问题,我们开发了一个有效的基于辍学的框架,可以扩大模型的注意力,这可以有效地减轻过度的问题。特别地,与典型的辍学方案不同,通常在固定层上进行丢失,首先,我们随机选择一层,然后我们随机选择其通道以进行丢弃。此外,我们利用进步方案增加训练期间辍学的比率,这可以逐步提高培训模型的难度,以增强模型的稳健性。此外,为了进一步缓解过度拟合问题的影响,我们利用了在图像级和特征级别的增强方案来产生强大的基线模型。我们对多个基准数据集进行广泛的实验,该数据集显示了我们的方法可以优于最先进的方法。
translated by 谷歌翻译
Though impressive success has been witnessed in computer vision, deep learning still suffers from the domain shift challenge when the target domain for testing and the source domain for training do not share an identical distribution. To address this, domain generalization approaches intend to extract domain invariant features that can lead to a more robust model. Hence, increasing the source domain diversity is a key component of domain generalization. Style augmentation takes advantage of instance-specific feature statistics containing informative style characteristics to synthetic novel domains. However, all previous works ignored the correlation between different feature channels or only limited the style augmentation through linear interpolation. In this work, we propose a novel augmentation method, called \textit{Correlated Style Uncertainty (CSU)}, to go beyond the linear interpolation of style statistic space while preserving the essential correlation information. We validate our method's effectiveness by extensive experiments on multiple cross-domain classification tasks, including widely used PACS, Office-Home, Camelyon17 datasets and the Duke-Market1501 instance retrieval task and obtained significant margin improvements over the state-of-the-art methods. The source code is available for public use.
translated by 谷歌翻译
域泛化(DG)利用多个标记的源数据集来训练未经化的目标域的概括模型。然而,由于昂贵的注释成本,在现实世界应用中难以满足标记所有源数据的要求。在本文中,我们调查单个标记的域泛化(SLDG)任务,只标有一个源域,这比传统的域泛化(CDG)更实用和具有挑战性。 SLDG任务中的主要障碍是可怜的概括偏置:标记源数据集中的鉴别信息可以包含特定于域的偏差,限制训练模型的泛化。为了解决这个具有挑战性的任务,我们提出了一种称为域特定偏置滤波(DSBF)的新方法,该方法用标记的源数据初始化识别模型,然后通过用于泛化改进的未标记的源数据来滤除其域特定的偏差。我们将过滤过程划分为(1)特征提取器扩展通过K-Means的基于聚类的语义特征重新提取和(2)分类器通过注意引导语义特征投影校准。 DSBF统一探索标签和未标记的源数据,以增强培训模型的可辨性和泛化,从而产生高度普遍的模型。我们进一步提供了理论分析,以验证所提出的域特定的偏置滤波过程。关于多个数据集的广泛实验显示了DSBF在解决具有挑战性的SLDG任务和CDG任务时的优越性。
translated by 谷歌翻译
为了将训练有素的模型直接概括为看不见的目标域,域概括(DG)是一种新提出的学习范式,引起了很大的关注。以前的DG模型通常需要在训练过程中观察到的源域中的足够数量的带注释的样品。在本文中,我们放宽了有关完全注释的要求,并研究了半监督域的概括(SSDG),在训练过程中,只有一个源域与其他完全未标记的域一起完全注释。由于要解决观察到的源域之间的域间隙和预测看不见的目标域之间的挑战,我们提出了一个通过关节域吸引的标签和双分类器的新型深框架,以产生高质量的伪标记。具体来说,为了预测域移位下的准确伪标记,开发了一个域吸引的伪标记模块。此外,考虑到概括和伪标记之间的目标不一致:前者防止在所有源域上过度拟合,而后者可能过分适合未标记的源域,以高精度,我们采用双分类器来独立执行伪标记和域名,并在训练过程中执行伪造域通用化。 。当为未标记的源域生成准确的伪标记时,将域混合操作应用于标记和未标记域之间的新域,这对于提高模型的通用能力是有益的。公开可用的DG基准数据集的广泛结果显示了我们提出的SSDG方法的功效。
translated by 谷歌翻译
机器学习系统通常假设训练和测试分布是相同的。为此,关键要求是开发可以概括到未经看不见的分布的模型。领域泛化(DG),即分销概括,近年来引起了越来越令人利益。域概括处理了一个具有挑战性的设置,其中给出了一个或几个不同但相关域,并且目标是学习可以概括到看不见的测试域的模型。多年来,域概括地区已经取得了巨大进展。本文提出了对该地区最近进步的首次审查。首先,我们提供了域泛化的正式定义,并讨论了几个相关领域。然后,我们彻底审查了与域泛化相关的理论,并仔细分析了泛化背后的理论。我们将最近的算法分为三个类:数据操作,表示学习和学习策略,并为每个类别详细介绍几种流行的算法。第三,我们介绍常用的数据集,应用程序和我们的开放源代码库进行公平评估。最后,我们总结了现有文学,并为未来提供了一些潜在的研究主题。
translated by 谷歌翻译
域的概括(DG)旨在在一个或多个不同但相关的源域上学习一个模型,这些模型可以推广到看不见的目标域。现有的DG方法试图提示模型的概括能力的源域的多样性,同时他们可能必须引入辅助网络或达到计算成本。相反,这项工作应用了特征空间中的隐式语义增强来捕获源域的多样性。具体来说,包括距离度量学习(DML)的附加损失函数,以优化数据分布的局部几何形状。此外,采用跨熵损失的逻辑被无限增强作为DML损失的输入特征,以代替深度特征。我们还提供了理论分析,以表明逻辑可以近似于原始特征上定义的距离。此外,我们对方法背后的机制和理性进行了深入的分析,这使我们可以更好地了解为什么要代替特征的杠杆逻辑可以帮助域的概括。拟议的DML损失与隐式增强作用纳入了最近的DG方法中,即傅立叶增强联合老师框架(FACT)。同时,我们的方法也可以轻松地插入各种DG方法中。对三个基准测试(Digits-DG,PAC和办公室家庭)进行的广泛实验表明,该建议的方法能够实现最新的性能。
translated by 谷歌翻译
理想情况下,应概遍的视觉学习算法,用于在新目标环境中部署时处理任何看不见的域移位;和数据效率,通过使用尽可能少的标签来降低开发成本。为此,我们研究半监督域泛化(SSDG),旨在使用多源,部分标记的培训数据学习域广泛的模型。我们设计了两个基准,涵盖了两个相关领域,即域泛化(DG)和半监督学习(SSL)开发的最先进方法。我们发现,通过设计无法处理未标记数据的DG方法,在SSDG中使用有限的标签表现不佳; SSL方法,尤其是FixMatch,获得更好的结果,但仍远离使用完整标签培训的基本vanilla模型。我们提出了一种简单的方法,一种简单的方法,将FixMatch扩展到SSDG的几个新成分:1)随机模型,用于减少稀缺标签的过度拟合,2)多视图一致性学习,用于增强域泛化。尽管设计简洁,StyleAtch可以实现SSDG的显着改进。我们希望我们的方法和全面的基准可以为未来的概括和数据高效学习系统进行铺平。源代码以\ url {https://github.com/kaiyangzhou/ssdg-benchmark}释放。
translated by 谷歌翻译
关于无监督域适应性(UDA)的大多数现有研究都认为每个域的训练样本都带有域标签(例如绘画,照片)。假定每个域中的样品都遵循相同的分布,并利用域标签通过特征对齐来学习域不变特征。但是,这样的假设通常并不成立 - 通常存在许多较细粒的领域(例如,已经开发出了数十种现代绘画样式,每种绘画样式与经典风格的范围都有很大不同)。因此,在每个人工定义和粗粒结构域之间强迫特征分布对齐可能是无效的。在本文中,我们从完全不同的角度解决了单源和多源UDA,即将每个实例视为一个良好的域。因此,跨域的特征对齐是冗余。相反,我们建议执行动态实例域的适应性(DIDA)。具体而言,开发了具有自适应卷积内核的动态神经网络,以生成实例自适应残差,以使域 - 无知的深度特征适应每个单独的实例。这使得共享分类器可以同时应用于源域数据,而无需依赖任何域注释。此外,我们没有施加复杂的特征对准损失,而是仅使用标记的源和伪标记为目标数据的跨透镜损失采用简单的半监督学习范式。我们的模型被称为DIDA-NET,可以在几种常用的单源和多源UDA数据集上实现最先进的性能,包括数字,办公室房屋,域名,域名,Digit-Five和PAC。
translated by 谷歌翻译
多源域适应(MSDA)着重于将知识从多个源域转移到目标域,这与常规的单源域适应性相比,这是一个更实用和具有挑战性的问题。在此问题中,必须共同对多个源域和目标域进行建模,并且也需要有效的域组合方案。不同领域之间的图形结构对于应对这些挑战很有用,在这些挑战中,可以有效地对各种实例/类别之间的相互依赖性进行建模。在这项工作中,我们提出了两种类型的图形模型,即MSDA(CRF-MSDA)的条件随机场和MSDA的Markov随机场(MRF-MSDA),用于跨域关节建模和可学习的域组合。简而言之,给定一个由查询样品和语义原型(即代表性类别嵌入)组成的观察集,CRF-MSDA模型旨在学习根据观测值调节标签的联合分布。我们通过在所有观察结果上构建一个关系图并进行当地消息来实现这一目标。相比之下,MRF-MSDA旨在通过基于能量的公式对观测值的联合分布进行建模,并且它可以通过求和几个特定网络的联合可能性来自然执行标签预测。与CRF-MSDA对应物相比,MRF-MSDA模型具有更高的表达性,并且具有较低的计算成本。我们在具有独特的域移位和数据复杂性的四个标准基准数据集上评估了这两个模型,并且两个模型都在所有基准测试基准上都具有优于现有方法的性能。此外,分析研究说明了不同模型成分的效果,并提供了有关跨域关节建模如何执行的见解。
translated by 谷歌翻译
无监督域适应(UDA)旨在将知识从相关但不同的良好标记的源域转移到新的未标记的目标域。大多数现有的UDA方法需要访问源数据,因此当数据保密而不相配在隐私问题时,不适用。本文旨在仅使用培训的分类模型来解决现实设置,而不是访问源数据。为了有效地利用适应源模型,我们提出了一种新颖的方法,称为源假设转移(拍摄),其通过将目标数据特征拟合到冻结源分类模块(表示分类假设)来学习目标域的特征提取模块。具体而言,拍摄挖掘出于特征提取模块的信息最大化和自我监督学习,以确保目标特征通过同一假设与看不见的源数据的特征隐式对齐。此外,我们提出了一种新的标签转移策略,它基于预测的置信度(标签信息),然后采用半监督学习来将目标数据分成两个分裂,然后提高目标域中的较为自信预测的准确性。如果通过拍摄获得预测,我们表示标记转移为拍摄++。关于两位数分类和对象识别任务的广泛实验表明,拍摄和射击++实现了与最先进的结果超越或相当的结果,展示了我们对各种视域适应问题的方法的有效性。代码可用于\ url {https://github.com/tim-learn/shot-plus}。
translated by 谷歌翻译
Recent works on domain adaptation reveal the effectiveness of adversarial learning on filling the discrepancy between source and target domains. However, two common limitations exist in current adversarial-learning-based methods. First, samples from two domains alone are not sufficient to ensure domain-invariance at most part of latent space. Second, the domain discriminator involved in these methods can only judge real or fake with the guidance of hard label, while it is more reasonable to use soft scores to evaluate the generated images or features, i.e., to fully utilize the inter-domain information. In this paper, we present adversarial domain adaptation with domain mixup (DM-ADA), which guarantees domain-invariance in a more continuous latent space and guides the domain discriminator in judging samples' difference relative to source and target domains. Domain mixup is jointly conducted on pixel and feature level to improve the robustness of models. Extensive experiments prove that the proposed approach can achieve superior performance on tasks with various degrees of domain shift and data complexity.
translated by 谷歌翻译
在过去的几年中,深度学习取得了巨大的成功。但是,面对非IID情况,深度学习的表现可能会阻碍。域的概括(DG)使模型可以概括为看不见的测试分布,即学习域不变表示。在本文中,我们认为域不变的特征应起源于内部和相互侧面。内部不变性意味着可以通过单个域学习这些功能,并且该功能捕获了数据的内在语义,即在域内的属性,这是其他域的不可知论。相互不变性意味着可以通过多个域(跨域)学习这些特征,并且功能包含常见信息,即可转移的功能W.R.T.其他域。然后,我们为域不变特征探索提出了DIFEX。 DIFEX采用知识蒸馏框架来捕获高级傅立叶相,作为内部不变的特征,并将跨域相关对准作为相互不变的特征。我们进一步设计了探索损失,以增加功能多样性以更好地概括。对时间序列和视觉基准测试的广泛实验表明,所提出的DIFEX实现了最先进的性能。
translated by 谷歌翻译
语义新颖性检测旨在发现测试数据中未知类别。此任务在安全至关重要的应用中特别相关,例如自动驾驶或医疗保健,在部署时间识别未知物体并相应地向用户发出警告至关重要。尽管深度学习研究取得了令人印象深刻的进步,但现有模型仍然需要在已知类别上进行填充阶段才能识别未知类别。当隐私规则限制数据访问或严格的内存和计算约束(例如边缘计算)时,这可能是令人难以置信的。我们声称,量身定制的表示策略可能是有效,有效的语义新颖性检测的正确解决方案。除了对此任务的最新方法进行最新的方法外,我们还提出了一种基于关系推理的新表示学习范式。它着重于学习如何衡量语义相似性而不是识别已知类别。我们的实验表明,这些知识可直接传输到各种场景,并且可以用作插件模块,以将封闭设置的识别模型转换为可靠的开放式开放集。
translated by 谷歌翻译
适应分布数据的数据是所有统计学习算法的元挑战,这些算法强烈依赖于I.I.D.假设。它导致不可避免的人工成本和在现实应用中的信心危机。为此,域的概括旨在从多个源域中的挖掘域 - 核定知识,这些知识可以推广到看不见的目标域。在本文中,通过利用图像的频域,我们独特地使用两个关键观察:(i)图像的高频信息描绘了对象边缘结构,该信息保留对象的高级语义信息自然是一致的跨不同域,(ii)低频组件保留对象平滑结构,而此信息易于域移动。在上述观察结果的激励下,我们引入(i)图像的高频和低频功能,(ii)一种信息交互机制,以确保两个部分的有用知识可以有效地合作,并且(iii)一种新型的数据增强技术,可在频域上起作用,以鼓励频率特征的稳健性。提出的方法在三个广泛使用的域概括基准(Digit-DG,Office-home和pac)上获得了最先进的性能。
translated by 谷歌翻译
人重新识别(RE-ID)是视频监视系统中的一项关键技术,在监督环境中取得了重大成功。但是,由于可用源域和看不见的目标域之间的域间隙,很难将监督模型直接应用于任意看不见的域。在本文中,我们提出了一种新颖的标签分布学习(LDL)方法,以解决可推广的多源人员重新ID任务(即,有多个可用的源域,并且在培训期间看不到测试域),旨在旨在探索不同类别的关系,并减轻跨不同域的域转移,以改善模型的歧视并同时学习域不变特征。具体而言,在培训过程中,我们通过在线方式生产标签分布来挖掘不同类别的关系信息,因此它有益于提取判别特征。此外,对于每个类别的标签分布,我们进一步对其进行了修改,以更多和同等的关注该类不属于的其他域,这可以有效地减少跨不同域的域间隙并获得域不变特征。此外,我们还提供了理论分析,以证明所提出的方法可以有效地处理域转移问题。在多个基准数据集上进行的广泛实验验证了所提出的方法的有效性,并表明所提出的方法可以胜过最先进的方法。此外,进一步的分析还揭示了所提出的方法的优越性。
translated by 谷歌翻译
虽然在许多域内生成并提供了大量的未标记数据,但对视觉数据的自动理解的需求高于以往任何时候。大多数现有机器学习模型通常依赖于大量标记的训练数据来实现高性能。不幸的是,在现实世界的应用中,不能满足这种要求。标签的数量有限,手动注释数据昂贵且耗时。通常需要将知识从现有标记域传输到新域。但是,模型性能因域之间的差异(域移位或数据集偏差)而劣化。为了克服注释的负担,域适应(DA)旨在在将知识从一个域转移到另一个类似但不同的域中时减轻域移位问题。无监督的DA(UDA)处理标记的源域和未标记的目标域。 UDA的主要目标是减少标记的源数据和未标记的目标数据之间的域差异,并在培训期间在两个域中学习域不变的表示。在本文中,我们首先定义UDA问题。其次,我们从传统方法和基于深度学习的方法中概述了不同类别的UDA的最先进的方法。最后,我们收集常用的基准数据集和UDA最先进方法的报告结果对视觉识别问题。
translated by 谷歌翻译
视频亮点检测长期以来一直是计算机视觉任务中的主题,挖掘出未接触的原始视频输入的用户出现剪辑。但是,在大多数情况下,这一研究中的主流方法建立在封闭的世界假设上,在封闭的世界假设中,固定数量的突出显示类别是提前正确定义的,并且需要同时可用的所有培训数据,并且作为一个结果,相对于突出显示类别和数据集大小的可伸缩性差。为了解决上面提到的问题,我们提出了一个视频突出显示检测器,能够逐步学习,即\ textbf {g} lobal \ textbf {p} rototype \ textbf {e} ncoding(gpe),捕获新定义的视频亮点。通过其相应的原型扩展数据集。除此之外,我们提供了一个注释且昂贵的数据集,称为\ emph {Bytefood},包括超过5.1k的美食视频属于\ emph {cooke},\ emph {eat},\ emph {food Material},\ emph {cooke},和\ emph {演示}。据我们所知,这是第一次将增量学习设置引入视频突出显示检测,从而减轻培训视频输入的负担,并促进了按数据集的大小成比例的传统神经网络的可扩展性和域的数量。此外,所提出的GPE超过了\ emph {Bytefood}上的当前增量学习方法,至少报告了1.57 \%MAP的改善。代码和数据集将更早提供。
translated by 谷歌翻译