Although action recognition systems can achieve top performance when evaluated on in-distribution test points, they are vulnerable to unanticipated distribution shifts in test data. However, test-time adaptation of video action recognition models against common distribution shifts has so far not been demonstrated. We propose to address this problem with an approach tailored to spatio-temporal models that is capable of adaptation on a single video sample at a step. It consists in a feature distribution alignment technique that aligns online estimates of test set statistics towards the training statistics. We further enforce prediction consistency over temporally augmented views of the same test video sample. Evaluations on three benchmark action recognition datasets show that our proposed technique is architecture-agnostic and able to significantly boost the performance on both, the state of the art convolutional architecture TANet and the Video Swin Transformer. Our proposed method demonstrates a substantial performance gain over existing test-time adaptation approaches in both evaluations of a single distribution shift and the challenging case of random distribution shifts. Code will be available at \url{https://github.com/wlin-at/ViTTA}.
translated by 谷歌翻译
域适应对于将学习模型调整到新方案,例如域移位或更改数据分布,这是至关重要的。目前的方法通常需要来自移位域的大量标记或未标记的数据。这可以是在需要连续动态适应或遭受数据稀缺的领域的障碍,例如,自动驾驶在挑战天气条件下。为了解决持续适应分配班的问题,我们提出了动态无监督的适应(DUA)。我们通过持续调整批量归一化层的统计来修改模型的特征表示。我们表明,通过从移位域中仅访问一小部分未标记的数据并按顺序调整,可以实现强大的性能增益。甚至从目标领域的未标记数据的少于1%,Dua已经实现了强大的基线的竞争结果。此外,与先前的方法相比,计算开销最小。我们的方法很简单,但有效,可以应用于任何使用批量归一化作为其组件之一的架构。我们通过在各种域适应数据集和任务中评估DUA的效用,包括对象识别,数字识别和对象检测。
translated by 谷歌翻译
在测试时间适应(TTA)中,给定在某些源数据上培训的模型,目标是使其适应从不同分布的测试实例更好地预测。至关重要的是,TTA假设从目标分布到Finetune源模型,无法访问源数据或甚至从目标分布到任何其他标记/未标记的样本。在这项工作中,我们考虑TTA在更务实的设置中,我们称为SITA(单图像测试时间适应)。这里,在制作每个预测时,该模型只能访问给定的\ emph {单}测试实例,而不是实例的\ emph {批次}。通常在文献中被考虑。这是由逼真的情况激励,其中在按需时尚中需要推断,可能不会被延迟到“批量 - iFY”传入请求或者在没有范围的边缘设备(如移动电话中)发生推断批处理。 SITA的整个适应过程应在推理时间发生时非常快。为了解决这个问题,我们提出了一种新颖的AUGBN,用于仅需要转发传播的SITA设置。该方法可以为分类和分段任务的单个测试实例调整任何特征训练模型。 AUGBN估计仅使用具有标签保存的转换的一个前进通过的给定测试图像的看不见的测试分布的正常化统计。由于AUGBN不涉及任何反向传播,与其他最近的方法相比,它显着更快。据我们所知,这是仅使用单个测试图像解决此硬调整问题的第一个工作。尽管非常简单,但我们的框架能够在我们广泛的实验和消融研究中对目标实例上应用源模型来实现显着的性能增益。
translated by 谷歌翻译
最新的深层神经网络容易受到共同损坏的影响(例如,由天气变化,系统错误和处理引起的输入数据降解,扭曲和干扰)。尽管在分析和改善模型在图像理解中的鲁棒性方面取得了很多进展,但视频理解中的鲁棒性在很大程度上没有探索。在本文中,我们建立了腐败的鲁棒性基准,迷你动力学-C和Mini SSV2-C,该基准认为图像中的空间腐败以外的时间腐败。我们首次尝试对建立的基于CNN和基于变压器的时空模型的腐败鲁棒性进行详尽的研究。该研究提供了有关强大模型设计和培训的一些指导:基于变压器的模型比基于CNN的模型更好地腐败鲁棒性。时空模型的概括能力意味着对时间腐败的鲁棒性;模型腐败鲁棒性(尤其是时间领域的鲁棒性)通过计算成本和模型容量增强,这可能与提高模型计算效率的当前趋势相矛盾。此外,我们发现与图像相关的任务(例如,具有噪声的训练模型)的鲁棒性干预可能对时空模型不起作用。
translated by 谷歌翻译
近年来,我们在视频动作识别方面取得了巨大进展。有几种基于卷积神经网络(CNN)的模型,采用了一些基于变压器的方法,可在现有基准数据集上提供最先进的性能。但是,对于这些模型,尚未研究大规模的鲁棒性,这对于现实世界应用而言是关键方面。在这项工作中,我们对这些现有模型进行大规模鲁棒性分析,以供视频识别。我们主要关注因现实世界扰动而不是对抗性扰动引起的分配变化的鲁棒性。我们提出了四个不同的基准数据集,即HMDB-51P,UCF-101P,Kinetics-400P和SSV2P,并研究了六种针对90种不同扰动的六种不同最先进的动作识别模型的鲁棒性。该研究揭示了一些有趣的发现,1)基于变压器的模型与基于CNN的模型相比,对于大多数扰动,基于变压器的模型始终更健壮,2)预训练有助于基于变压器的模型比基于CNN的模型更适合不同的扰动,而3)所有研究的模型对动力学数据集的时间扰动都具有鲁棒性,但在SSV2上却不是。这表明时间信息对于SSV2数据集的动作标签预​​测比动力学数据集更为重要。我们希望这项研究能够作为在强大的视频行动识别中进行未来研究的基准。有关该项目的更多详细信息,请访问https://rose-ar.github.io/。
translated by 谷歌翻译
本文对实例分割模型进行了全面评估,这些模型与现实世界图像损坏以及室外图像集合,例如与培训数据集不同的设置捕获的图像。室外图像评估显示了模型的概括能力,现实世界应用的一个基本方面以及广泛研究的域适应性主题。当设计用于现实世界应用程序的实例分割模型并选择现成的预期模型以直接用于手头的任务时,这些提出的鲁棒性和泛化评估很重要。具体而言,这项基准研究包括最先进的网络架构,网络骨架,标准化层,从头开始训练的模型,从头开始与预处理的网络以及多任务培训对稳健性和概括的影响。通过这项研究,我们获得了一些见解。例如,我们发现组归一化增强了跨损坏的网络的鲁棒性,其中图像内容保持不变,但损坏却添加在顶部。另一方面,分批归一化改善了图像特征统计信息在不同数据集上的概括。我们还发现,单阶段探测器比其训练大小不太概括到更大的图像分辨率。另一方面,多阶段探测器可以轻松地用于不同尺寸的图像上。我们希望我们的全面研究能够激发更强大和可靠的实例细分模型的发展。
translated by 谷歌翻译
In this paper, we propose Test-Time Training, a general approach for improving the performance of predictive models when training and test data come from different distributions. We turn a single unlabeled test sample into a self-supervised learning problem, on which we update the model parameters before making a prediction. This also extends naturally to data in an online stream. Our simple approach leads to improvements on diverse image classification benchmarks aimed at evaluating robustness to distribution shifts.
translated by 谷歌翻译
We demonstrate that self-learning techniques like entropy minimization and pseudo-labeling are simple and effective at improving performance of a deployed computer vision model under systematic domain shifts. We conduct a wide range of large-scale experiments and show consistent improvements irrespective of the model architecture, the pre-training technique or the type of distribution shift. At the same time, self-learning is simple to use in practice because it does not require knowledge or access to the original training data or scheme, is robust to hyperparameter choices, is straight-forward to implement and requires only a few adaptation epochs. This makes self-learning techniques highly attractive for any practitioner who applies machine learning algorithms in the real world. We present state-of-the-art adaptation results on CIFAR10-C (8.5% error), ImageNet-C (22.0% mCE), ImageNet-R (17.4% error) and ImageNet-A (14.8% error), theoretically study the dynamics of self-supervised adaptation methods and propose a new classification dataset (ImageNet-D) which is challenging even with adaptation.
translated by 谷歌翻译
测试时间的域变化在实践中是不可避免的。测试时间适应性通过在部署过程中调整模型来解决此问题。从理论上讲,最近的工作表明,自我训练可能是逐渐域移动的强大方法。在这项工作中,我们显示了渐进域适应与测试时间适应之间的自然联系。我们发布了一个名为Carlatta的新合成数据集,该数据集允许在测试时间期间探索渐进的域移动,并评估无监督域适应和测试时间适应的几种方法。我们提出了一种基于自我训练和样式转移的新方法GTTA。GTTA明确利用渐进域移动并在该区域设置新标准。我们进一步证明了我们的方法对连续和逐渐的CIFAR10C,CIFAR100C和Imagenet-C基准的有效性。
translated by 谷歌翻译
Vision Transformer(VIT)在图像处理中变得越来越流行。具体而言,我们研究了测试时间适应(TTA)对VIT的有效性,VIT是一种已经出现的技术,可以自行纠正其在测试时间期间的预测。首先,我们在VIT-B16和VIT-L16上基准了各种测试时间适应方法。结果表明,使用适当的损耗函数时,TTA对VIT有效,并且先前的投入(明智地选择调制参数)是不需要的。基于观察结果,我们提出了一种称为类条件特征对齐(CFA)的新的测试时间适应方法,该方法将类别条件分布的差异和在线源中隐藏表示的整个分布差异最小化,在线中的整个分布差异方式。图像分类任务(CIFAR-10-C,CIFAR-100-C和Imagenet-C)和域适应性(Digits DataSet和Imagenet-Sketch)的实验表明,CFA稳定地超过了各种数据集中的现有基础。我们还通过在RESNET,MLP混合和几种VIT变体(Vit-augreg,Deit和Beit)上实验来验证CFA是模型不可知论。使用BEIT主链,CFA在Imagenet-C上达到了19.8%的TOP-1错误率,表现优于现有的测试时间适应基线44.0%。这是不需要改变训练阶段的TTA方法中的最新结果。
translated by 谷歌翻译
本文提出了一种新颖的测试时间适应策略,该策略仅使用来自目标域的未标记的在线数据来调整在源域上预先训练的模型,以减轻由于源和目标域之间的分布变化而导致的性能降低。使用未标记的在线数据调整整个模型参数可能是有害的,这是由于无监督目标的错误信号。为了减轻此问题,我们提出了一个偏僻的权重正则化,该调整重量正规化鼓励在很大程度上更新模型参数对分布移位敏感的参数,同时在测试时间适应期间稍微更新那些对变化的不敏感的参数。这种正则化使该模型能够通过利用高学习率的好处来快速适应目标域而无需性能降低。此外,我们提出了一个基于最近的源原型来对齐源和目标特征的辅助任务,这有​​助于减少分布转移并导致进一步的性能提高。我们表明,我们的方法在各种标准基准方面展示了最先进的性能,甚至超过其监督的对手。
translated by 谷歌翻译
尽管进行了多年的研究,但跨域的概括仍然是深层网络的语义分割的关键弱点。先前的研究取决于静态模型的假设,即训练过程完成后,模型参数在测试时间保持固定。在这项工作中,我们通过一种自适应方法来挑战这一前提,用于语义分割,将推理过程调整为每个输入样本。自我适应在两个级别上运行。首先,它采用了自我监督的损失,该损失将网络中卷积层的参数定制为输入图像。其次,在批准层中,自适应近似于整个测试数据的平均值和方差,这是不可用的。它通过在训练和从单个测试样本得出的参考分布之间进行插值来实现这一目标。为了凭经验分析我们的自适应推理策略,我们制定并遵循严格的评估协议,以解决先前工作的严重局限性。我们的广泛分析得出了一个令人惊讶的结论:使用标准训练程序,自我适应大大优于强大的基准,并在多域基准测试方面设定了新的最先进的准确性。我们的研究表明,自适应推断可以补充培训时间的既定模型正规化实践,以改善深度网络的概括到异域数据。
translated by 谷歌翻译
测试时间适应(TTA)是一个新兴范式,可解决培训和测试阶段之间的分布变化,而无需其他数据采集或标签成本;仅使用未标记的测试数据流进行连续模型适应。以前的TTA方案假设测试样本是独立的,并且分布相同(i.i.d.),即使它们在应用程序方案中通常在时间上相关(non-i.i.d。),例如自动驾驶。我们发现,在这种情况下,大多数现有的TTA方法急剧失败。由此激励,我们提出了一种新的测试时间适应方案,该方案对非I.I.D具有强大的态度。测试数据流。我们的新颖性主要是两倍:(a)纠正分布样本的归一化的实例感知批归归量表(IABN),以及(b)模拟I.I.D.的预测均衡储层采样(PBRS)。来自非i.i.d的数据流。以班级平衡的方式流式传输。我们对各种数据集的评估,包括现实世界非i.i.d。流,表明所提出的强大TTA不仅优于非i.i.d的最先进的TTA算法。设置,但也可以实现与I.I.D.下的这些算法相当的性能。假设。
translated by 谷歌翻译
部署的ML模型的基本要求是从与培训不同的测试分布中汲取的数据概括。解决此问题的一个流行解决方案是,仅使用未标记的数据将预训练的模型调整为新的域。在本文中,我们关注该问题的挑战性变体,其中访问原始源数据受到限制。虽然完全测试时间适应(FTTA)和无监督的域适应性(UDA)密切相关,但由于大多数UDA方法需要访问源数据,因此UDA的进展不容易适用于TTA。因此,我们提出了一种新方法,即Cattan,它通过放松了通过新颖的深层子空间对准策略来放松访问整个源数据的需求,从而弥合了UDA和FTTA。通过为源数据存储的子空间基础设置的最小开销,Cattan在适应过程中可以在源数据和目标数据之间进行无监督的对齐。通过对多个2D和3D Vision基准测试(Imagenet-C,Office-31,OfficeHome,Domainnet,PointDa-10)和模型体系结构进行广泛的实验评估,我们在FTTA性能方面表现出显着提高。此外,即使使用固有健壮的模型,预训练的VIT表示以及目标域中的样本可用性低,我们也会对对齐目标的实用性做出许多关键发现。
translated by 谷歌翻译
尽管对图像分类任务的表现令人印象深刻,但深网络仍然难以概括其数据的许多常见损坏。为解决此漏洞,事先作品主要专注于提高其培训管道的复杂性,以多样性的名义结合多种方法。然而,在这项工作中,我们逐步回来并遵循原则的方法来实现共同腐败的稳健性。我们提出了一个普遍的数据增强方案,包括最大熵图像变换的简单系列。我们展示了Prime优于现有技术的腐败鲁棒性,而其简单和即插即用性质使其能够与其他方法结合以进一步提升其稳健性。此外,我们分析了对综合腐败图像混合策略的重要性,并揭示了在共同腐败背景下产生的鲁棒性准确性权衡的重要性。最后,我们表明我们的方法的计算效率允许它在线和离线数据增强方案轻松使用。
translated by 谷歌翻译
尽管近年来行动认可取得了令人印象深刻的结果,但视频培训数据的收集和注释仍然很耗时和成本密集。因此,已经提出了图像到视频改编,以利用无标签的Web图像源来适应未标记的目标视频。这提出了两个主要挑战:(1)Web图像和视频帧之间的空间域移动; (2)图像和视频数据之间的模态差距。为了应对这些挑战,我们提出了自行车域的适应(CYCDA),这是一种基于周期的方法,用于通过在图像和视频中利用图像和视频中的联合空间信息来适应无监督的图像到视频域,另一方面,训练一个独立的时空模型,用于弥合模式差距。我们在每个周期中的两者之间的知识转移之间在空间和时空学习之间交替。我们在基准数据集上评估了图像到视频的方法,以及用于实现最新结果的混合源域的适应性,并证明了我们的循环适应性的好处。
translated by 谷歌翻译
通过自学学习的视觉表示是一项极具挑战性的任务,因为网络需要在没有监督提供的主动指导的情况下筛选出相关模式。这是通过大量数据增强,大规模数据集和过量量的计算来实现的。视频自我监督学习(SSL)面临着额外的挑战:视频数据集通常不如图像数据集那么大,计算是一个数量级,并且优化器所必须通过的伪造模式数量乘以几倍。因此,直接从视频数据中学习自我监督的表示可能会导致次优性能。为了解决这个问题,我们建议在视频表示学习框架中利用一个以自我或语言监督为基础的强大模型,并在不依赖视频标记的数据的情况下学习强大的空间和时间信息。为此,我们修改了典型的基于视频的SSL设计和目标,以鼓励视频编码器\ textit {subsume}基于图像模型的语义内容,该模型在通用域上训练。所提出的算法被证明可以更有效地学习(即在较小的时期和较小的批次中),并在单模式SSL方法中对标准下游任务进行了新的最新性能。
translated by 谷歌翻译
最近,数据增强已成为视觉识别任务的现代培训食谱的重要组成部分。但是,尽管有效性,但很少探索视频识别的数据增强。很少有用于视频识别的现有增强食谱通过将相同的操作应用于整个视频框架来天真地扩展图像增强方法。我们的主要思想是,每帧的增强操作的大小都需要随着时间的推移而更改,以捕获现实世界视频的时间变化。在训练过程中,应使用更少的额外超参数来尽可能多地生成这些变化。通过这种动机,我们提出了一个简单而有效的视频数据增强框架Dynaaugment。每个帧上增强操作的大小通过有效的机制,傅立叶采样更改,该采样将各种,平滑和现实的时间变化参数化。 Dynaaugment还包括一个适用于视频的扩展搜索空间,用于自动数据增强方法。 Dynaaugment在实验上表明,从各种视频模型的静态增强中可以改善其他性能室。具体而言,我们在各种视频数据集和任务上显示了Dynaaugment的有效性:大规模视频识别(Kinetics-400和Sothings-Something-v2),小规模视频识别(UCF-101和HMDB-51),精细元素视频识别(潜水48和FINEGYM),早餐的视频动作细分,Thumos'14上的视频动作本地化以及MOT17DET上的视频对象检测。 Dynaaugment还使视频模型能够学习更广泛的表示形式,以改善损坏视频的模型鲁棒性。
translated by 谷歌翻译
在学习动作识别中,模型通常预先接受对象识别,例如图像,例如想象成,稍后在与视频的目标动作识别上微调。这种方法造成了良好的经验性能,特别是最近的基于变压器的视频架构。虽然最近许多作品旨在为行动识别设计更先进的变压器架构,但如何训练视频变压器的努力。在这项工作中,我们探索了几种培训范式并提出了两个结果。首先,视频变压器受益于各种视频数据集和标签空间的联合培训(例如,动力学是关注的,而某些东西是以运动为中心的)。其次,通过进一步与图像共同训练(作为单帧视频),视频变换器学习更好的视频表示。我们将这种方法作为用于行动识别的共同培训视频和图像(封面)。特别是,当基于时序形式的架构上的ImageNet-21k上掠夺时,盖子将动力学-400的前1个精度提高2.4%,动力学-600以2.3%,有些东西-V2达2.3%。当以前最先进的较大刻度图像数据集预先磨削时,覆盖覆盖在动力学-400(87.2%),动力学-600(87.9%),动力学-700(79.8%),有些内容达到最佳结果(70.9%),和时刻 - 时间(46.1%),具有简单的时空视频变压器。
translated by 谷歌翻译
最近的动作识别模型通过整合对象,其位置和互动来取得令人印象深刻的结果。但是,为每个框架获得密集的结构化注释是乏味且耗时的,使这些方法的训练昂贵且可扩展性较低。同时,如果可以在感兴趣的域内或之外使用一小部分带注释的图像,我们如何将它们用于下游任务的视频?我们提出了一个学习框架的结构(简称SVIT),该结构证明了仅在训练过程中仅可用的少量图像的结构才能改善视频模型。 SVIT依靠两个关键见解。首先,由于图像和视频都包含结构化信息,因此我们用一组\ emph {对象令牌}丰富了一个可以在图像和视频中使用的\ emph {对象令牌}的模型。其次,视频中各个帧的场景表示应与静止图像的场景表示“对齐”。这是通过\ emph {frame-clip一致性}损失来实现的,该损失可确保图像和视频之间结构化信息的流动。我们探索场景结构的特定实例化,即\ emph {手对象图},由手和对象组成,其位置为节点,以及触点/no-contact的物理关系作为边缘。 SVIT在多个视频理解任务和数据集上显示出强烈的性能改进;它在EGO4D CVPR'22对象状态本地化挑战中赢得了第一名。对于代码和预算模型,请访问\ url {https://eladb3.github.io/svit/}的项目页面
translated by 谷歌翻译