This work explores an efficient approach to establish a foundational video-text model for tasks including open-vocabulary video classification, text-to-video retrieval, video captioning and video question-answering. We present VideoCoCa that reuses a pretrained image-text contrastive captioner (CoCa) model and adapt it to video-text tasks with minimal extra training. While previous works adapt image-text models with various cross-frame fusion modules (for example, cross-frame attention layer or perceiver resampler) and finetune the modified architecture on video-text data, we surprisingly find that the generative attentional pooling and contrastive attentional pooling layers in the image-text CoCa design are instantly adaptable to ``flattened frame embeddings'', yielding a strong zero-shot transfer baseline for many video-text tasks. Specifically, the frozen image encoder of a pretrained image-text CoCa takes each video frame as inputs and generates \(N\) token embeddings per frame for totally \(T\) video frames. We flatten \(N \times T\) token embeddings as a long sequence of frozen video representation and apply CoCa's generative attentional pooling and contrastive attentional pooling on top. All model weights including pooling layers are directly loaded from an image-text CoCa pretrained model. Without any video or video-text data, VideoCoCa's zero-shot transfer baseline already achieves state-of-the-art results on zero-shot video classification on Kinetics 400/600/700, UCF101, HMDB51, and Charades, as well as zero-shot text-to-video retrieval on MSR-VTT and ActivityNet Captions. We also explore lightweight finetuning on top of VideoCoCa, and achieve strong results on video question-answering (iVQA, MSRVTT-QA, MSVD-QA) and video captioning (MSR-VTT, ActivityNet, Youcook2). Our approach establishes a simple and effective video-text baseline for future research.
translated by 谷歌翻译
Vision-language foundation models pretrained on large-scale data provide a powerful tool for many visual understanding tasks. Notably, many vision-language models build two encoders (visual and textual) that can map two modalities into the same embedding space. As a result, the learned representations achieve good zero-shot performance on tasks like image classification. However, when there are only a few examples per category, the potential of large vision-language models is often underperformed, mainly due to the gap between a large number of parameters and a relatively small amount of training data. This paper shows that we can significantly improve the performance of few-shot classification by using the category names to initialize the classification head. More interestingly, we can borrow the non-perfect category names, or even names from a foreign language, to improve the few-shot classification performance compared with random initialization. With the proposed category name initialization method, our model obtains the state-of-the-art performance on a number of few-shot image classification benchmarks (e.g., 87.37\% on ImageNet and 96.08\% on Stanford Cars, both using five-shot learning). We also investigate and analyze when the benefit of category names diminishes and how to use distillation to improve the performance of smaller models, providing guidance for future research.
translated by 谷歌翻译
我们研究归一化对馈送前馈类型深神经网络层的影响。给定的图层$ i $,带有$ n_ {i} $隐藏单位,可以通过$ 1/n_ {i}^{\ gamma_ {i}} $带有$ \ gamma_ {i} 1] $,我们研究了$ \ gamma_ {i} $选择对神经网络输出(例如方差)的统计行为的影响,以及MNIST数据集的测试准确性。我们发现,就神经网络的输出和测试准确性的差异而言,最佳选择是选择$ \ gamma_ {i} $等于一个,即平均场比例。我们还发现,对于外层,尤其如此,因为神经网络的行为在外层的缩放层中更敏感,而不是内层的缩放。数学分析的机制是神经网络输出的渐近扩展。该分析的一个重要实际结果是,它提供了一种系统性和数学知情的方式来选择学习率超级标准。这样的选择可以保证,随着$ n_i $的增长,神经网络的行为在统计上具有稳健的方式。
translated by 谷歌翻译
现成的实用工具采矿(OSUM)是数据挖掘的新兴研究方向。它的目的是发现在销售时间内具有相对效用的物品集。与传统的公用事业开采相比,Osum可以在现实生活中找到更多实用和有意义的模式。但是,传统Osum有一个主要的缺点。对于普通用户而言,很难定义最低阈值细节,以挖掘适量的货架上的高实用物品集。一方面,如果设置阈值太高,则图案的数量将不够。另一方面,如果设定阈值太低,则会发现太多模式,并导致不必要的时间和记忆消耗。为了解决此问题,用户通常直接指定一个参数k,其中仅考虑顶级相对实用项目集。因此,在本文中,我们提出了一种通用算法TOIT,用于挖掘Top-K On-Shelf高耗时模式来解决此问题。 TOIT采用了一种新颖的策略来根据架子上的数据集提高细节。此外,还采用了两种名为Subtree实用程序的新型上限策略,并应用了本地实用程序来修剪搜索空间。通过采用上述策略,TOIT算法可以尽早缩小搜索空间,提高采矿效率并降低记忆消耗,从而比其他算法获得更好的性能。在具有不同样式的真实数据集上进行了一系列实验,以将效果与最新的Koshu算法进行比较。实验结果表明,TOIT在运行时间和内存消耗中都优于Koshu。
translated by 谷歌翻译
最近,在大型缩放因素下,单图像超分辨率(SR)通过将预训练的生成对抗网络(GAN)作为先验,见证了令人印象深刻的进步。但是,大多数基于GAN的SR方法受到倒置潜在代码中的属性分离问题的约束,该属性直接导致发电机层中的视觉属性不匹配并进一步退化重建。此外,将馈送给发电机的随机噪声用于无条件的细节生成,这往往会产生不忠的细节,从而损害了生成的SR图像的忠诚度。我们设计了Laren,这是一种潜在的多关系推理技术,可以通过潜在空间中的基于图的多关系推理来实现出色的大型SR。 Laren由两种创新设计组成。第一个是基于图的分离,该解散通过层次多相关推理构建了较高的分离潜在空间。第二个是基于图形的代码生成,该代码生成通过递归关系推理逐渐生成特定于图像的代码,这使先前的gans能够生成理想的图像详细信息。广泛的实验表明,Laren实现了优越的大型图像SR,并且在多个基准测试中始终如一地超过最先进的方法。
translated by 谷歌翻译
深层生成模型在逼真的图像合成中取得了显着的进展,并具有多种有条件的输入,而生成多样化但高保真的图像仍然是有条件图像生成的巨大挑战。本文介绍了有条件图像生成的多功能框架,其中包含了CNN的电感偏置和自动回归的强大序列建模,自然会导致图像生成多样化。我们没有像在先前的研究中独立量化多个域的特征,而是设计了一个具有变异正常化程序的集成量化方案,该方案将特征离散化在多个域中,并显着提高了自动回归建模性能。值得注意的是,变异正常器使通过惩罚分布的内域变化来使特征分布在无与伦比的潜在空间中进行正规化。此外,我们设计了一种牙龈样本策略,该策略允许将分配不确定性纳入自动回归训练程序中。牙胶采样大大减轻了暴露偏见,通常会在训练和推理阶段造成未对准并严重损害推理性能。对多条条件图像生成任务进行的广泛实验表明,与最先进的方法相比,我们的方法在定性和定量上实现了卓越的图像生成性能。
translated by 谷歌翻译
利用Stylegan的表现力及其分离的潜在代码,现有方法可以实现对不同视觉属性的现实编辑,例如年龄和面部图像的性别。出现了一个有趣而又具有挑战性的问题:生成模型能否针对他们博学的先验进行反事实编辑?由于自然数据集中缺乏反事实样本,我们以文本驱动的方式研究了这个问题,并具有对比语言图像预言(剪辑),这些(剪辑)甚至可以为各种反事实概念提供丰富的语义知识。与内域操作不同,反事实操作需要更全面地剥削夹包含的语义知识,以及对编辑方向的更微妙的处理,以避免被卡在局部最低或不需要的编辑中。为此,我们设计了一种新颖的对比损失,该损失利用了预定义的夹子空间方向,从不同的角度将编辑指向所需的方向。此外,我们设计了一个简单而有效的方案,该方案将(目标文本)明确映射到潜在空间,并将其与潜在代码融合在一起,以进行有效的潜在代码优化和准确的编辑。广泛的实验表明,我们的设计在乘坐各种反事实概念的目标文本驾驶时,可以实现准确,现实的编辑。
translated by 谷歌翻译
神经辐射场(NERF)通过从多视图2D图像中隐式建模3D表示,在新型视图合成中表现出非常令人印象深刻的性能。但是,大多数现有的研究都使用合理的相机姿势初始化或手动制作的摄像头分布来训练NERF模型,这些分布通常不可用或在各种真实世界中很难获取。我们设计了VMRF,这是一种匹配NERF的创新视图,可以进行有效的NERF培训,而无需在相机姿势或相机姿势分布中进行先验知识。 VMRF引入了视图匹配方案,该方案利用了不平衡的最佳传输来制定功能传输计划,以映射带有随机初始化的摄像头姿势的渲染图像,以映射到相应的真实图像。通过功能传输计划作为指导,设计了一种新颖的姿势校准技术,可以通过预测两对渲染图像和真实图像之间的相对姿势转换来纠正最初的随机摄像头姿势。对许多合成数据集进行的广泛实验表明,所提出的VMRF的性能优于最先进的质量和定量,这是大幅度的。
translated by 谷歌翻译
我们介绍了自回归文本到图像(Parti)模型的途径,该模型生成高保真的影像图像并支持涉及复杂组成和世界知识的内容丰富的合成。 Parti将文本对图像生成视为类似于机器翻译的序列到序列建模问题,图像令牌的序列是目标输出,而不是其他语言的文本令牌。这种策略自然可以利用大型语言模型的先前工作,通过扩展数据和模型尺寸,能力和性能的持续进展。我们的方法很简单:首先,Parti使用基于变压器的图像令牌VIT-VQGAN将图像编码为离散令牌的序列。其次,我们通过将编码器二次变压器模型缩放到20B参数来实现一致的质量改进,其新的最新零弹药FID得分为7.23,而MS-Coco的FIDED得分为3.22。我们对本地化叙述以及党的详细分析(P2),这是1600多个英语提示的新的整体基准,证明了Parti在各种类别和难度方面的有效性。我们还探索并突出了我们的模型的局限性,以定义和体现关注重点领域以进一步改进。有关高分辨率图像,请参见https://parti.research.google/。
translated by 谷歌翻译
探索大规模预处理的基础模型对计算机视觉具有重大兴趣,因为这些模型可以快速转移到许多下游任务中。本文介绍了对比字幕(COCA),这是一种极简主义的设计,旨在为图像文本编码器编码器基础模型预算与对比度损失和字幕损失,从而从剪辑和诸如simvlm之类的生成方法之类的对比方法中包含模型能力。与所有解码器层都参与编码器输出的标准编码器 - 模块变压器相反,可口可乐省略了解码器层的上半部分的交叉注意,以编码单峰文本表示,并串联到剩余的解码器层,这些解码器与图像编码器相交的解码器层多模式图像文本表示。除了对多模态解码器输出的字幕损失外,我们还应用了单峰图像和文本嵌入之间的对比损失,该输出可以预测文本令牌自动加压。通过共享相同的计算图,可以用最小的开销有效地计算两个培训目标。可口可乐是端到端和从头开始的网络尺度alt-text数据和带注释的图像,通过将所有标签视为文本,无缝地统一自然语言监督以进行表示。从经验上讲,可口可乐通过零拍传输或在广泛的下游任务上进行零摄像转移或最少的特定任务适应,跨越视觉识别(Imagenet,Kinetics-400/600/700,瞬间, ),交叉模式检索(MSCOCO,FLICKR30K,MSR-VTT),多模式理解(VQA,SNLI-VE,NLVR2)和图像字幕(MSCOCO,NOCAPS)。值得注意的是,在Imagenet分类方面,COCA获得了86.3%的TOP-1准确性,带有冷冻编码器和学习的分类头90.6%,以及带有填充编码器的Imagenet上的新最先进的91.0%Top-1 Top-1精度。
translated by 谷歌翻译