Transformers are powerful visual learners, in large part due to their conspicuous lack of manually-specified priors. This flexibility can be problematic in tasks that involve multiple-view geometry, due to the near-infinite possible variations in 3D shapes and viewpoints (requiring flexibility), and the precise nature of projective geometry (obeying rigid laws). To resolve this conundrum, we propose a "light touch" approach, guiding visual Transformers to learn multiple-view geometry but allowing them to break free when needed. We achieve this by using epipolar lines to guide the Transformer's cross-attention maps, penalizing attention values outside the epipolar lines and encouraging higher attention along these lines since they contain geometrically plausible matches. Unlike previous methods, our proposal does not require any camera pose information at test-time. We focus on pose-invariant object instance retrieval, where standard Transformer networks struggle, due to the large differences in viewpoint between query and retrieved images. Experimentally, our method outperforms state-of-the-art approaches at object retrieval, without needing pose information at test-time.
translated by 谷歌翻译
Generic motion understanding from video involves not only tracking objects, but also perceiving how their surfaces deform and move. This information is useful to make inferences about 3D shape, physical properties and object interactions. While the problem of tracking arbitrary physical points on surfaces over longer video clips has received some attention, no dataset or benchmark for evaluation existed, until now. In this paper, we first formalize the problem, naming it tracking any point (TAP). We introduce a companion benchmark, TAP-Vid, which is composed of both real-world videos with accurate human annotations of point tracks, and synthetic videos with perfect ground-truth point tracks. Central to the construction of our benchmark is a novel semi-automatic crowdsourced pipeline which uses optical flow estimates to compensate for easier, short-term motion like camera shake, allowing annotators to focus on harder sections of video. We validate our pipeline on synthetic data and propose a simple end-to-end point tracking model TAP-Net, showing that it outperforms all prior methods on our benchmark when trained on synthetic data.
translated by 谷歌翻译
我们生活在一个充满活力的世界中,事物一直在改变。给定两张同一场景的图像,能够自动检测它们的变化在各种域中具有实际应用。在本文中,我们解决了变更检测问题,目的是检测图像对的“对象级”变化,尽管其观点和照明差异有所不同。为此,我们做出以下四个贡献:(i)我们提出了一种可扩展的方法,用于通过利用现有的对象分割基准来获得大规模更改检测培训数据集; (ii)我们介绍了基于共同注意的新型架构,能够隐含地确定图像对之间的对应关系,并在边界框预测的形式中找到变化; (iii)我们贡献了四个评估数据集,这些数据集涵盖了各种域和转换,包括合成图像变化,3D场景的实际监视图像以及带有摄像头运动的合成3D场景; (iv)我们在这四个数据集上评估了我们的模型,并证明了零拍摄并超出训练转换概括。
translated by 谷歌翻译
在本文中,我们考虑了通用视觉对象计数的问题,其目的是开发一种计算模型,用于使用任意数量的“示例”,即零射击或几次计数来计算任意语义类别的对象数量。为此,我们做出以下四个贡献:(1)我们引入了一种基于变压器的新型架构,用于广义视觉对象计数,称为计数变压器(乡村),该架构明确捕获图像贴片或给定的“示例”之间的相似性,通过注意机制;(2)我们采用了两阶段的训练制度,首先通过自我监督的学习预先培训模型,然后进行监督的微调;(3)我们提出了一个简单,可扩展的管道,以合成合成用大量实例或不同语义类别的训练图像明确迫使模型使用给定的“示例”;(4)我们对大规模计数基准的彻底消融研究,例如FSC-147,并在零和少数设置上展示了最先进的性能。
translated by 谷歌翻译
最近,手语研究人员已转向手语解释的电视广播,包括(i)连续签名的视频和(ii)与音频内容相对应的字幕,作为易于使用和大规模的培训数据来源。此类数据可用性的一个关键挑战是缺乏标志注释。利用这种弱对准数据的先前工作仅发现字幕中的关键字与单个符号之间的稀疏对应关系。在这项工作中,我们提出了一个简单,可扩展的框架,以极大地增加自动注释的密度。我们的贡献如下:(1)我们通过使用同义词和字幕签名对齐来显着改善先前的注释方法; (2)我们将标志识别模型中的伪标签的价值作为标志发现的方式; (3)我们提出了一种新的方法,以增加基于内域示例的已知和未知类别的注释; (4)在Bobsl BSL手语语料库上,我们将自信自动注释的数量从670K增加到5M。我们将这些注释公开用于支持手语研究社区。
translated by 谷歌翻译
这项工作的目的是学习以对象为中心的视频表示形式,以改善对新任务的可转让性,即与动作分类前训练任务不同的任务。为此,我们介绍了基于变压器体系结构的新的以对象为中心的视频识别模型。该模型学习了视频中以对象为中心的摘要向量,并使用这些向量融合视频剪辑的视觉和时空轨迹“模态”。我们还引入了一种新型的轨迹对比损失,以进一步增强这些摘要矢量的物质性。通过在四个数据集上进行实验 - Somethingsometh-v2,Somethingse,Action Genome和Epickitchens-我们表明,以对象为中心的模型优于先验的视频表示(对象 - 敏捷和对象感知)看不见的对象和看不见的环境; (2)小型学习新课程; (3)线性探测到其他下游任务;以及(4)用于标准动作分类。
translated by 谷歌翻译
本文的目的是一个模型,能够在视频中发现,跟踪和细分多个移动对象。我们做出四个贡献:首先,我们引入了一个以对象为中心的分段模型,具有深度订购的层表示。这是使用摄入光流的变压器体系结构的变体来实现的,每个查询向量为整个视频指定对象及其层。该模型可以有效地发现多个移动对象并处理相互阻塞。其次,我们引入了一条可扩展的管道,用于生成具有多个对象的合成训练数据,从而大大降低了对劳动密集型注释的要求,并支持SIM2REAL概括;第三,我们表明该模型能够学习对象的持久性和时间形状的一致性,并能够预测Amodal分割掩码。第四,我们评估了标准视频细分基准测试模型,戴维斯,MOCA,SEGTRACK,FBMS-59,并实现最新的无监督分割性能,甚至优于几种监督方法。通过测试时间适应,我们观察到进一步的性能提高。
translated by 谷歌翻译
本文提出了一种基于变压器的新型模型架构,用于涉及椎骨分析的医学成像问题。它考虑了此类模型在MR图像中的两种应用:(a)脊柱转移的检测以及椎骨骨折和转移索压缩的相关条件,(b)椎间盘上常见变性变化的放射学分级。我们的贡献如下:(i)我们提出了一个脊柱上下文变压器(SCT),这是一种适合分析椎体(VBS)等医学成像中重复解剖结构的深度学习结构。与以前的相关方法不同,SCT考虑了所有可用图像模式中观看的所有VBS,从而根据脊柱的其余部分和所有可用成像方式对每种图像进行了预测。 (ii)我们将体系结构应用于新颖而重要的任务:检测脊柱转移以及绳索压缩和椎骨骨折的相关条件/多系列脊柱MR扫描中的崩溃。这是使用从自由文本放射学报告中提取的注释而不是定制注释来完成的。然而,最终的模型表现出与测试集上椎骨级别放射科医师注释的强烈一致性。 (iii)我们还将SCT应用于现有问题:腰椎MR扫描中脊椎间盘(IVD)的放射学分级以进行常见的退化性变化。我们表明,通过考虑图像中椎体的背景,SCT提高了SCT的上下文,提高了SCT的准确性与先前发布的模型相比,几个等级。
translated by 谷歌翻译
自我监督学习(SSL)的承诺是利用大量未标记的数据来解决复杂的任务。尽管简单,图像级学习取得了出色的进步,但最新方法显示出包括图像结构知识的优势。但是,通过引入手工制作的图像分割来定义感兴趣的区域或专门的增强策略,这些方法牺牲了使SSL如此强大的简单性和通用性。取而代之的是,我们提出了一个自我监督的学习范式,该学习范式本身会发现这种图像结构。我们的方法,ODIN,夫妻对象发现和表示网络,以发现有意义的图像分割,而无需任何监督。由此产生的学习范式更简单,更易碎,更一般,并且取得了最先进的转移学习结果,以进行对象检测和实例对可可的细分,以及对Pascal和CityScapes的语义细分,同时超过监督的预先培训,用于戴维斯的视频细分。
translated by 谷歌翻译
General perception systems such as Perceivers can process arbitrary modalities in any combination and are able to handle up to a few hundred thousand inputs. They achieve this generality by using exclusively global attention operations. This however hinders them from scaling up to the inputs sizes required to process raw high-resolution images or video. In this paper, we show that some degree of locality can be introduced back into these models, greatly improving their efficiency while preserving their generality. To scale them further, we introduce a self-supervised approach that enables learning dense low-dimensional positional embeddings for very large signals. We call the resulting model a Hierarchical Perceiver (HiP). In sum our contributions are: 1) scaling Perceiver-type models to raw high-resolution images and audio+video, 2) showing the feasibility of learning 1M+ positional embeddings from scratch using masked auto-encoding, 3) demonstrating competitive performance on raw data from ImageNet, AudioSet, PASCAL VOC, ModelNet40 and Kinetics datasets with the same exact, unchanged model and without specialized preprocessing or any tokenization.
translated by 谷歌翻译