在测试时间适应(TTA)中,给定在某些源数据上培训的模型,目标是使其适应从不同分布的测试实例更好地预测。至关重要的是,TTA假设从目标分布到Finetune源模型,无法访问源数据或甚至从目标分布到任何其他标记/未标记的样本。在这项工作中,我们考虑TTA在更务实的设置中,我们称为SITA(单图像测试时间适应)。这里,在制作每个预测时,该模型只能访问给定的\ emph {单}测试实例,而不是实例的\ emph {批次}。通常在文献中被考虑。这是由逼真的情况激励,其中在按需时尚中需要推断,可能不会被延迟到“批量 - iFY”传入请求或者在没有范围的边缘设备(如移动电话中)发生推断批处理。 SITA的整个适应过程应在推理时间发生时非常快。为了解决这个问题,我们提出了一种新颖的AUGBN,用于仅需要转发传播的SITA设置。该方法可以为分类和分段任务的单个测试实例调整任何特征训练模型。 AUGBN估计仅使用具有标签保存的转换的一个前进通过的给定测试图像的看不见的测试分布的正常化统计。由于AUGBN不涉及任何反向传播,与其他最近的方法相比,它显着更快。据我们所知,这是仅使用单个测试图像解决此硬调整问题的第一个工作。尽管非常简单,但我们的框架能够在我们广泛的实验和消融研究中对目标实例上应用源模型来实现显着的性能增益。
translated by 谷歌翻译
我们考虑了源模型的无监督域适应的新问题,而无需访问语义分段的源数据。无监督的域适配旨在使标记为源数据的模型调整到新的未标记目标数据集。现有方法假设源数据在自适应期间与目标数据一起使用。但是,在实际情况下,由于在本工作中的原因,我们只能访问源模型和未标记的目标数据,但不是标记的来源,我们提出了一种自我训练方法从源模型中提取知识。要弥补从源到目标的分发班次,我们首先使用未标记的目标数据更新网络的标准化参数。然后我们采用信心过滤的伪标签,并强制执行某些转换。尽管非常简单直观,但我们的框架能够在我们广泛的实验和消融研究中直接应用于目标数据的源模型来实现显着的性能。事实上,性能只是几个远离最近的最先进的方法,它使用源数据进行适应。我们进一步展示了完全测试时间适应设置的所提出方法的恒定性,在那里我们不需要任何目标培训数据并仅在测试时适应。
translated by 谷歌翻译
域适应对于将学习模型调整到新方案,例如域移位或更改数据分布,这是至关重要的。目前的方法通常需要来自移位域的大量标记或未标记的数据。这可以是在需要连续动态适应或遭受数据稀缺的领域的障碍,例如,自动驾驶在挑战天气条件下。为了解决持续适应分配班的问题,我们提出了动态无监督的适应(DUA)。我们通过持续调整批量归一化层的统计来修改模型的特征表示。我们表明,通过从移位域中仅访问一小部分未标记的数据并按顺序调整,可以实现强大的性能增益。甚至从目标领域的未标记数据的少于1%,Dua已经实现了强大的基线的竞争结果。此外,与先前的方法相比,计算开销最小。我们的方法很简单,但有效,可以应用于任何使用批量归一化作为其组件之一的架构。我们通过在各种域适应数据集和任务中评估DUA的效用,包括对象识别,数字识别和对象检测。
translated by 谷歌翻译
Although action recognition systems can achieve top performance when evaluated on in-distribution test points, they are vulnerable to unanticipated distribution shifts in test data. However, test-time adaptation of video action recognition models against common distribution shifts has so far not been demonstrated. We propose to address this problem with an approach tailored to spatio-temporal models that is capable of adaptation on a single video sample at a step. It consists in a feature distribution alignment technique that aligns online estimates of test set statistics towards the training statistics. We further enforce prediction consistency over temporally augmented views of the same test video sample. Evaluations on three benchmark action recognition datasets show that our proposed technique is architecture-agnostic and able to significantly boost the performance on both, the state of the art convolutional architecture TANet and the Video Swin Transformer. Our proposed method demonstrates a substantial performance gain over existing test-time adaptation approaches in both evaluations of a single distribution shift and the challenging case of random distribution shifts. Code will be available at \url{https://github.com/wlin-at/ViTTA}.
translated by 谷歌翻译
尽管进行了多年的研究,但跨域的概括仍然是深层网络的语义分割的关键弱点。先前的研究取决于静态模型的假设,即训练过程完成后,模型参数在测试时间保持固定。在这项工作中,我们通过一种自适应方法来挑战这一前提,用于语义分割,将推理过程调整为每个输入样本。自我适应在两个级别上运行。首先,它采用了自我监督的损失,该损失将网络中卷积层的参数定制为输入图像。其次,在批准层中,自适应近似于整个测试数据的平均值和方差,这是不可用的。它通过在训练和从单个测试样本得出的参考分布之间进行插值来实现这一目标。为了凭经验分析我们的自适应推理策略,我们制定并遵循严格的评估协议,以解决先前工作的严重局限性。我们的广泛分析得出了一个令人惊讶的结论:使用标准训练程序,自我适应大大优于强大的基准,并在多域基准测试方面设定了新的最先进的准确性。我们的研究表明,自适应推断可以补充培训时间的既定模型正规化实践,以改善深度网络的概括到异域数据。
translated by 谷歌翻译
In this paper, we propose Test-Time Training, a general approach for improving the performance of predictive models when training and test data come from different distributions. We turn a single unlabeled test sample into a self-supervised learning problem, on which we update the model parameters before making a prediction. This also extends naturally to data in an online stream. Our simple approach leads to improvements on diverse image classification benchmarks aimed at evaluating robustness to distribution shifts.
translated by 谷歌翻译
分批归一化(BN)是一种无处不在的技术,用于训练深层神经网络,可加速其收敛以达到更高的准确性。但是,我们证明了BN具有根本的缺点:它激励该模型依赖于训练(内域)数据高度特定的低变义特征,从而损害了室外示例的概括性能。在这项工作中,我们首先表明在各种架构上删除BN层会导致较低的域外和腐败错误,而造成较高的内域错误,因此我们首先研究了这种现象。然后,我们提出了反平衡老师(CT),该方法利用与老师的老师一起利用同一模型的冷冻副本,通过通过一致性损失功能实质上调整其权重来实现学生网络对强大表示的学习。该正则化信号有助于CT在不可预见的数据变化中表现良好,即使没有从目标域中的信息如先前的工作中。从理论上讲,我们在过度参数化的线性回归设置中显示了为什么归一化导致模型对这种内域特征的依赖,并通过验证CT的功效来证明CT的功效,从而在稳健性基准(例如CIFAR-10-C,CIFAR-10-C,CIFAR-100-C,CIFAR-100-C,CIFAR-100-C,CIFAR-100-C,CIFAR-100-C,CIFAR-100-C,CIFAR-100-C,CIFAR-100)上表现出了疗效。和VLCS。
translated by 谷歌翻译
We demonstrate that self-learning techniques like entropy minimization and pseudo-labeling are simple and effective at improving performance of a deployed computer vision model under systematic domain shifts. We conduct a wide range of large-scale experiments and show consistent improvements irrespective of the model architecture, the pre-training technique or the type of distribution shift. At the same time, self-learning is simple to use in practice because it does not require knowledge or access to the original training data or scheme, is robust to hyperparameter choices, is straight-forward to implement and requires only a few adaptation epochs. This makes self-learning techniques highly attractive for any practitioner who applies machine learning algorithms in the real world. We present state-of-the-art adaptation results on CIFAR10-C (8.5% error), ImageNet-C (22.0% mCE), ImageNet-R (17.4% error) and ImageNet-A (14.8% error), theoretically study the dynamics of self-supervised adaptation methods and propose a new classification dataset (ImageNet-D) which is challenging even with adaptation.
translated by 谷歌翻译
本文提出了一种新颖的测试时间适应策略,该策略仅使用来自目标域的未标记的在线数据来调整在源域上预先训练的模型,以减轻由于源和目标域之间的分布变化而导致的性能降低。使用未标记的在线数据调整整个模型参数可能是有害的,这是由于无监督目标的错误信号。为了减轻此问题,我们提出了一个偏僻的权重正则化,该调整重量正规化鼓励在很大程度上更新模型参数对分布移位敏感的参数,同时在测试时间适应期间稍微更新那些对变化的不敏感的参数。这种正则化使该模型能够通过利用高学习率的好处来快速适应目标域而无需性能降低。此外,我们提出了一个基于最近的源原型来对齐源和目标特征的辅助任务,这有​​助于减少分布转移并导致进一步的性能提高。我们表明,我们的方法在各种标准基准方面展示了最先进的性能,甚至超过其监督的对手。
translated by 谷歌翻译
在本文中,我们在不依赖于任何源域表示的情况下向“无监督域适应(UDA)的任务”的任务提供了一个解决方案。以前的UDA用于语义细分的方法使用在源域和目标域中的模型的同时训练,或者它们依赖于附加网络,在适应期间将源域知识重放到模型。相比之下,我们介绍了我们的小说无监督的批量适应(UBNA)方法,它将给定的预先训练模型适应未经使用的策略域而不使用 - 超出现有模型参数 - 任何源域表示(既不是数据或者,也可以在在线设置或仅以几滴方式使用从目标域中的几个未标记的图像中应用的。具体地,我们使用指数衰减的动量因子部分地将归一化层统计数据调整到目标域,从而将统计数据与两个域混合。通过评估语义分割的标准UDA基准测试,我们认为这优于一个没有适应的模型以及仅使用目标域中的统计数据的基线方法。与标准UDA方法相比,我们在源域表示的性能和使用之间报告权衡。
translated by 谷歌翻译
本文对实例分割模型进行了全面评估,这些模型与现实世界图像损坏以及室外图像集合,例如与培训数据集不同的设置捕获的图像。室外图像评估显示了模型的概括能力,现实世界应用的一个基本方面以及广泛研究的域适应性主题。当设计用于现实世界应用程序的实例分割模型并选择现成的预期模型以直接用于手头的任务时,这些提出的鲁棒性和泛化评估很重要。具体而言,这项基准研究包括最先进的网络架构,网络骨架,标准化层,从头开始训练的模型,从头开始与预处理的网络以及多任务培训对稳健性和概括的影响。通过这项研究,我们获得了一些见解。例如,我们发现组归一化增强了跨损坏的网络的鲁棒性,其中图像内容保持不变,但损坏却添加在顶部。另一方面,分批归一化改善了图像特征统计信息在不同数据集上的概括。我们还发现,单阶段探测器比其训练大小不太概括到更大的图像分辨率。另一方面,多阶段探测器可以轻松地用于不同尺寸的图像上。我们希望我们的全面研究能够激发更强大和可靠的实例细分模型的发展。
translated by 谷歌翻译
尽管对图像分类任务的表现令人印象深刻,但深网络仍然难以概括其数据的许多常见损坏。为解决此漏洞,事先作品主要专注于提高其培训管道的复杂性,以多样性的名义结合多种方法。然而,在这项工作中,我们逐步回来并遵循原则的方法来实现共同腐败的稳健性。我们提出了一个普遍的数据增强方案,包括最大熵图像变换的简单系列。我们展示了Prime优于现有技术的腐败鲁棒性,而其简单和即插即用性质使其能够与其他方法结合以进一步提升其稳健性。此外,我们分析了对综合腐败图像混合策略的重要性,并揭示了在共同腐败背景下产生的鲁棒性准确性权衡的重要性。最后,我们表明我们的方法的计算效率允许它在线和离线数据增强方案轻松使用。
translated by 谷歌翻译
Vision Transformer(VIT)在图像处理中变得越来越流行。具体而言,我们研究了测试时间适应(TTA)对VIT的有效性,VIT是一种已经出现的技术,可以自行纠正其在测试时间期间的预测。首先,我们在VIT-B16和VIT-L16上基准了各种测试时间适应方法。结果表明,使用适当的损耗函数时,TTA对VIT有效,并且先前的投入(明智地选择调制参数)是不需要的。基于观察结果,我们提出了一种称为类条件特征对齐(CFA)的新的测试时间适应方法,该方法将类别条件分布的差异和在线源中隐藏表示的整个分布差异最小化,在线中的整个分布差异方式。图像分类任务(CIFAR-10-C,CIFAR-100-C和Imagenet-C)和域适应性(Digits DataSet和Imagenet-Sketch)的实验表明,CFA稳定地超过了各种数据集中的现有基础。我们还通过在RESNET,MLP混合和几种VIT变体(Vit-augreg,Deit和Beit)上实验来验证CFA是模型不可知论。使用BEIT主链,CFA在Imagenet-C上达到了19.8%的TOP-1错误率,表现优于现有的测试时间适应基线44.0%。这是不需要改变训练阶段的TTA方法中的最新结果。
translated by 谷歌翻译
不变性于广泛的图像损坏,例如翘曲,噪声或颜色移位,是在计算机视觉中建立强大模型的一个重要方面。最近,已经提出了几种新的数据增强,从而显着提高了Imagenet-C的性能,这是这种腐败的基准。但是,对数据增强和测试时间损坏之间的关系仍然缺乏基本的理解。为此,我们开发了图像变换的一个特征空间,然后在增强和损坏之间使用该空间中的新措施,称为最小示例距离,以演示相似性和性能之间的强相关性。然后,当测试时间损坏被对来自Imagenet-C中的测试时间损坏被采样时,我们调查最近的数据增强并观察腐败鲁棒性的重大退化。我们的结果表明,通过对感知同类增强的培训来提高测试错误,数据增强可能不会超出现有的基准。我们希望我们的结果和工具将允许更强大的进展,以提高对图像损坏的稳健性。我们在https://github.com/facebookresearch/augmentation - 窗子提供代码。
translated by 谷歌翻译
测试时间适应(TTA)是一个新兴范式,可解决培训和测试阶段之间的分布变化,而无需其他数据采集或标签成本;仅使用未标记的测试数据流进行连续模型适应。以前的TTA方案假设测试样本是独立的,并且分布相同(i.i.d.),即使它们在应用程序方案中通常在时间上相关(non-i.i.d。),例如自动驾驶。我们发现,在这种情况下,大多数现有的TTA方法急剧失败。由此激励,我们提出了一种新的测试时间适应方案,该方案对非I.I.D具有强大的态度。测试数据流。我们的新颖性主要是两倍:(a)纠正分布样本的归一化的实例感知批归归量表(IABN),以及(b)模拟I.I.D.的预测均衡储层采样(PBRS)。来自非i.i.d的数据流。以班级平衡的方式流式传输。我们对各种数据集的评估,包括现实世界非i.i.d。流,表明所提出的强大TTA不仅优于非i.i.d的最先进的TTA算法。设置,但也可以实现与I.I.D.下的这些算法相当的性能。假设。
translated by 谷歌翻译
域自适应语义分割的大多数现代方法依赖于适应期间继续访问源数据,这可能是由于计算或隐私约束而不可行的。我们专注于对语义分割的无源域适应,其中源模型必须仅为仅给出未标记的目标数据给出的新目标域。我们提出了增强一致性引导的自我培训(ATHCO),一种无源适应算法,它使用模型的像素级预测一致性,各种目标图像的自动生成的视图以及模型置信度来识别可靠的像素预测,并选择性地那些人的自动训练。ATHCO在三个标准基准测试中实现最先进的结果,以便在语义分割中的3个标准基准,所有内部都在实现和快速收敛方法中。
translated by 谷歌翻译
大多数机器学习算法的基本假设是培训和测试数据是从相同的底层分布中汲取的。然而,在几乎所有实际应用中违反了这种假设:由于不断变化的时间相关,非典型最终用户或其他因素,机器学习系统经常测试。在这项工作中,我们考虑域泛化的问题设置,其中训练数据被构造成域,并且可能有多个测试时间偏移,对应于新域或域分布。大多数事先方法旨在学习在所有域上执行良好的单一强大模型或不变的功能空间。相比之下,我们的目标是使用未标记的测试点学习适应域转移到域移的模型。我们的主要贡献是介绍自适应风险最小化(ARM)的框架,其中模型被直接优化,以便通过学习来转移以适应培训域来改编。与稳健性,不变性和适应性的先前方法相比,ARM方法提供了在表现域移位的多个图像分类问题上的性能增益为1-4%的测试精度。
translated by 谷歌翻译
测试时间的域变化在实践中是不可避免的。测试时间适应性通过在部署过程中调整模型来解决此问题。从理论上讲,最近的工作表明,自我训练可能是逐渐域移动的强大方法。在这项工作中,我们显示了渐进域适应与测试时间适应之间的自然联系。我们发布了一个名为Carlatta的新合成数据集,该数据集允许在测试时间期间探索渐进的域移动,并评估无监督域适应和测试时间适应的几种方法。我们提出了一种基于自我训练和样式转移的新方法GTTA。GTTA明确利用渐进域移动并在该区域设置新标准。我们进一步证明了我们的方法对连续和逐渐的CIFAR10C,CIFAR100C和Imagenet-C基准的有效性。
translated by 谷歌翻译
当测试数据与培训数据不同时,机器学习模型很容易失败,这种情况通常在称为分销转移的真实应用程序中遇到。尽管仍然有效,但培训时间知识的效率就降低了,需要进行测试时间适应以保持高性能。以下方法假设批处理层并使用其统计数据进行适应,我们提出了使用主成分分析(TTAWPCA)的测试时间适应,该测试时间假定拟合的PCA并在测试时间适应基于光谱过滤器,基于奇异的滤波器。 PCA可用于腐败的鲁棒性。 TTAWPCA结合了三个组件:使用主成分分析(PCA)分解给定层的输出,并通过其单数值的惩罚过滤,并用PCA逆变换重建。与当前方法相比,这种通用增强功能增加的参数少。在CIFAR-10-C和CIFAR-100-C上进行的实验证明了使用2000参数的唯一滤波器的有效性和限制。
translated by 谷歌翻译
当源(训练)数据和目标(测试)数据之间存在域移动时,深网很容易降级。最近的测试时间适应方法更新了通过流数据部署在新目标环境中的预训练源模型的批归归式层,以减轻这种性能降低。尽管此类方法可以在不首先收集大型目标域数据集的情况下进行调整,但它们的性能取决于流媒体条件,例如迷你批量的大小和类别分布,在实践中可能无法预测。在这项工作中,我们提出了一个框架,以适应几个域的适应性,以应对数据有效适应的实际挑战。具体而言,我们提出了在预训练的源模型中对特征归一化统计量的约束优化,该模型由目标域的小支持集监督。我们的方法易于实现,并改善每类用于分类任务的示例较小的源模型性能。对5个跨域分类和4个语义分割数据集进行了广泛的实验表明,我们的方法比测试时间适应更准确,更可靠,同时不受流媒体条件的约束。
translated by 谷歌翻译