智能论文笔记

Semantic-aware Dense Representation Learning for Remote Sensing Image Change Detection

Hao Chen , Wenyuan Li , Song Chen , Zhenwei Shi

分类：计算机视觉

2022-05-27

监督的深度学习模型取决于大量标记的数据。不幸的是，收集和注释包含所需更改的零花态样本是耗时和劳动密集型的。从预训练模型中转移学习可有效减轻遥感（RS）变化检测（CD）中标签不足。我们探索在预训练期间使用语义信息的使用。不同于传统的监督预训练，该预训练从图像到标签，我们将语义监督纳入了自我监督的学习（SSL）框架中。通常，多个感兴趣的对象（例如，建筑物）以未经切割的RS图像分布在各个位置。我们没有通过全局池操纵图像级表示，而是在每个像素嵌入式上引入点级监督以学习空间敏感的特征，从而使下游密集的CD受益。为了实现这一目标，我们通过使用语义掩码在视图之间的重叠区域上通过类平衡的采样获得了多个点。我们学会了一个嵌入式空间，将背景和前景点分开，并将视图之间的空间对齐点齐聚在一起。我们的直觉是导致的语义歧视性表示与无关的变化不变（照明和无关紧要的土地覆盖）可能有助于改变识别。我们在RS社区中免费提供大规模的图像面罩，用于预训练。在三个CD数据集上进行的大量实验验证了我们方法的有效性。我们的表现明显优于Imagenet预训练，内域监督和几种SSL方法。经验结果表明我们的预训练提高了CD模型的概括和数据效率。值得注意的是，我们使用20％的培训数据获得了比基线（随机初始化）使用100％数据获得竞争结果。我们的代码可用。

translated by 谷歌翻译

Self-supervised Learning in Remote Sensing: A Review

Yi Wang , Conrad M Albrecht , Nassim Ait Ali Braham , Lichao Mou , Xiao Xiang Zhu

分类：计算机视觉

2022-06-27

在深度学习研究中，自学学习（SSL）引起了极大的关注，引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功，但SSL在地球观测领域的大部分潜力仍然锁定。在本文中，我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍，并回顾了SSL中的概念和最新发展。此外，我们在流行的遥感数据集上提供了现代SSL算法的初步基准，从而验证了SSL在遥感中的潜力，并提供了有关数据增强的扩展研究。最后，我们确定了SSL未来研究的有希望的方向的地球观察（SSL4EO），以铺平了两个领域的富有成效的相互作用。

translated by 谷歌翻译

Unsupervised Object-Level Representation Learning from Scene Images

Jiahao Xie , Xiaohang Zhan , Ziwei Liu , Yew Soon Ong , Chen Change Loy

分类：计算机视觉

2021-06-22

对比的自我监督学习在很大程度上缩小了对想象成的预先训练的差距。然而，它的成功高度依赖于想象成的以对象形象，即相同图像的不同增强视图对应于相同的对象。当预先训练在具有许多物体的更复杂的场景图像上，如此重种策划约束会立即不可行。为了克服这一限制，我们介绍了对象级表示学习（ORL），这是一个新的自我监督的学习框架迈向场景图像。我们的主要洞察力是利用图像级自我监督的预培训作为发现对象级语义对应之前的，从而实现了从场景图像中学习的对象级表示。对Coco的广泛实验表明，ORL显着提高了自我监督学习在场景图像上的性能，甚至超过了在几个下游任务上的监督Imagenet预训练。此外，当可用更加解标的场景图像时，ORL提高了下游性能，证明其在野外利用未标记数据的巨大潜力。我们希望我们的方法可以激励未来的研究从场景数据的更多通用无人监督的代表。

translated by 谷歌翻译

Dense Siamese Network for Dense Unsupervised Learning

Wenwei Zhang , Jiangmiao Pang , Kai Chen , Chen Change Loy

分类：计算机视觉 | 人工智能

2022-03-21

本文介绍了密集的暹罗网络（Denseiam），这是一个简单的无监督学习框架，用于密集的预测任务。它通过以两种类型的一致性（即像素一致性和区域一致性）之间最大化一个图像的两个视图之间的相似性来学习视觉表示。具体地，根据重叠区域中的确切位置对应关系，Denseiam首先最大化像素级的空间一致性。它还提取一批与重叠区域中某些子区域相对应的区域嵌入，以形成区域一致性。与以前需要负像素对，动量编码器或启发式面膜的方法相反，Denseiam受益于简单的暹罗网络，并优化了不同粒度的一致性。它还证明了简单的位置对应关系和相互作用的区域嵌入足以学习相似性。我们将Denseiam应用于ImageNet，并在各种下游任务上获得竞争性改进。我们还表明，只有在一些特定于任务的损失中，简单的框架才能直接执行密集的预测任务。在现有的无监督语义细分基准中，它以2.1 miou的速度超过了最新的细分方法，培训成本为28％。代码和型号在https://github.com/zwwwayne/densesiam上发布。

translated by 谷歌翻译

Evaluating Self and Semi-Supervised Methods for Remote Sensing Segmentation Tasks

Chaitanya Patel , Shashank Sharma , Varun Gulshan

分类：计算机视觉 | 机器学习

2021-11-19

我们对最近的自我和半监督ML技术进行严格的评估，从而利用未标记的数据来改善下游任务绩效，以河床分割的三个遥感任务，陆地覆盖映射和洪水映射。这些方法对于遥感任务特别有价值，因为易于访问未标记的图像，并获得地面真理标签通常可以昂贵。当未标记的图像（标记数据集之外）提供培训时，我们量化性能改进可以对这些遥感分割任务进行期望。我们还设计实验以测试这些技术的有效性，当测试集相对于训练和验证集具有域移位时。

translated by 谷歌翻译

RegionCL: Can Simple Region Swapping Contribute to Contrastive Learning?

Yufei Xu , Qiming Zhang , Jing Zhang , Dacheng Tao

分类：计算机视觉

2021-11-24

自我监督的方法（SSL）通过最大化两个增强视图之间的相互信息，裁剪是一种巨大的成功，其中裁剪是一种流行的增强技术。裁剪区域广泛用于构造正对，而裁剪后的左侧区域很少被探讨在现有方法中，尽管它们在一起构成相同的图像实例并且两者都有助于对类别的描述。在本文中，我们首次尝试从完整的角度来展示两种地区的重要性，并提出称为区域对比学习（RegionCl）的简单但有效的借口任务。具体地，给定两个不同的图像，我们随机从具有相同大小的每个图像随机裁剪区域（称为粘贴视图）并将它们交换以分别与左区域（称为CANVAS视图）一起组成两个新图像。然后，可以根据以下简单标准提供对比度对，即，每个视图是（1）阳性，其视图从相同的原始图像增强，并且与从其他图像增强的视图增强的视图。对于对流行的SSL方法进行微小的修改，RegionCL利用这些丰富的对并帮助模型区分来自画布和粘贴视图的区域特征，因此学习更好的视觉表示。 Imagenet，Coco和Citycapes上的实验表明，RegionCL通过大型边缘改善Moco V2，Densecl和Simsiam，并在分类，检测和分割任务上实现最先进的性能。代码将在https://github.com/annbless/regioncl.git上获得。

translated by 谷歌翻译

Self-Supervised Learning for Invariant Representations from Multi-Spectral and SAR Images

Pallavi Jain , Bianca Schoen-Phelan , Robert Ross

分类：计算机视觉

2022-05-04

自我监督的学习（SSL）已成为几个领域分类和分割任务中的新最先进。其中，SSL中的一个流行类别是蒸馏网络，例如BYOL。这项工作提出了RSDNET，该RSDNET在遥感（RS）域中应用蒸馏网络（BYOL），其中数据与天然RGB图像无关。由于多光谱（MS）和合成孔径雷达（SAR）传感器提供各种光谱和空间分辨率信息，因此我们将它们用作隐式增强，以学习不变特征嵌入。为了通过SSL学习基于RS的不变功能，我们通过两种方式训练了RSDNET，即单频道功能学习和三个通道功能学习。与使用三个或更多频段的常见概念相比，这项工作探讨了从随机MS和SAR频段学习的单个通道特征学习的有用性。在我们的线性评估中，这些单个通道功能在EuroSat分类任务上达到了0.92 F1分数，对于某些单个频段，DFC分割任务上达到了59.6 MIOU。我们还将我们的结果与成像网的重量进行了比较，并表明基于RS的SSL模型的表现优于基于有监督的Imagenet模型。我们进一步探讨了多模式数据与单个模态数据相比的实用性，并且表明，使用MS和SAR数据比仅利用MS数据更好地学习不变表示。

translated by 谷歌翻译

Semantic-Aware Fine-Grained Correspondence

Yingdong Hu , Renhao Wang , Kaifeng Zhang , Yang Gao

分类：计算机视觉

2022-07-21

跨图像建立视觉对应是一项具有挑战性且必不可少的任务。最近，已经提出了大量的自我监督方法，以更好地学习视觉对应的表示。但是，我们发现这些方法通常无法利用语义信息，并且在低级功能的匹配方面过度融合。相反，人类的视觉能够将不同的物体区分为跟踪的借口。受此范式的启发，我们建议学习语义意识的细粒对应关系。首先，我们证明语义对应是通过一组丰富的图像级别自我监督方法隐式获得的。我们进一步设计了一个像素级的自我监督学习目标，该目标专门针对细粒的对应关系。对于下游任务，我们将这两种互补的对应表示形式融合在一起，表明它们是协同增强性能的。我们的方法超过了先前的最先进的自我监督方法，使用卷积网络在各种视觉通信任务上，包括视频对象分割，人姿势跟踪和人类部分跟踪。

translated by 谷歌翻译

Differencing based Self-supervised pretraining for Scene Change Detection

Vijaya Raghavan T. Ramkumar , Elahe Arani , Bahram Zonooz

分类：计算机视觉

2022-08-11

场景变化检测（SCD）是一项关键的感知任务，通过比较在不同时间捕获的场景来确定变化。 SCD由于嘈杂的照明，季节性变化和两次观点的透视差异而具有挑战性。基于深度神经网络的解决方案需要大量的注释数据，这些数据乏味而昂贵。另一方面，从大型数据集中传输学习会导致域移动。为了应对这些挑战，我们提出了一种新颖的\ textit {差异自我监督预审（DSP）}方法，该方法使用特征差异来学习与变化区域相对应的歧视性表示，同时通过跨视图来实现时间不变性来解决嘈杂的变化。我们对SCD数据集的实验结果证明了我们方法的有效性，特别是在摄像机观点和照明条件下的差异。与使用超过一百万个标记的图像的自我监督的Barlow双胞胎和标准图像预处理相比，DSP可以超过它而无需使用任何其他数据。我们的结果还证明了DSP对自然腐败，分配转移和学习有限的数据的鲁棒性。

translated by 谷歌翻译

ConCL: Concept Contrastive Learning for Dense Prediction Pre-training in Pathology Images

Jiawei Yang , Hanbo Chen , Yuan Liang , Junzhou Huang , Lei He , Jianhua Yao

分类：计算机视觉

2022-07-14

在计算病理学工作流程中检测和分裂ObjectSwithinWholesLideImagesis。自我监督学习（SSL）吸引了这种重度注释的任务。尽管自然图像的密集任务具有广泛的基准，但不幸的是，在当前的病理学作品中，此类研究仍然没有。我们的论文打算缩小这一差距。我们首先基于病理图像中密集预测任务的代表性SSL方法。然后，我们提出了概念对比学习（结论），这是密集预训练的SSL框架。我们探讨了结论如何使用不同来源提供的概念，并最终提出了一种简单的无依赖性概念生成方法，该方法不依赖于外部分割算法或显着检测模型。广泛的实验表明，在不同环境中，结论比以前的最新SSL方法具有优势。沿着我们的探索，我们弥补了几个重要而有趣的组成部分，这有助于致力于病理图像的密集预训练。我们希望这项工作可以提供有用的数据点，并鼓励社区为感兴趣的问题进行结论预培训。代码可用。

translated by 谷歌翻译

Benchmarking Self-Supervised Learning on Diverse Pathology Datasets

Mingu Kang , Heon Song , Seonwook Park , Donggeun Yoo , Sérgio Pereira

分类：计算机视觉 | 机器学习

2022-12-09

Computational pathology can lead to saving human lives, but models are annotation hungry and pathology images are notoriously expensive to annotate. Self-supervised learning has shown to be an effective method for utilizing unlabeled data, and its application to pathology could greatly benefit its downstream tasks. Yet, there are no principled studies that compare SSL methods and discuss how to adapt them for pathology. To address this need, we execute the largest-scale study of SSL pre-training on pathology image data, to date. Our study is conducted using 4 representative SSL methods on diverse downstream tasks. We establish that large-scale domain-aligned pre-training in pathology consistently out-performs ImageNet pre-training in standard SSL settings such as linear and fine-tuning evaluations, as well as in low-label regimes. Moreover, we propose a set of domain-specific techniques that we experimentally show leads to a performance boost. Lastly, for the first time, we apply SSL to the challenging task of nuclei instance segmentation and show large and consistent performance improvements under diverse settings.

translated by 谷歌翻译

Dense contrastive learning for self-supervised visual pre-training

分类：

To date, most existing self-supervised learning methods are designed and optimized for image classification. These pre-trained models can be sub-optimal for dense prediction tasks due to the discrepancy between image-level prediction and pixel-level prediction. To fill this gap, we aim to design an effective, dense self-supervised learning method that directly works at the level of pixels (or local features) by taking into account the correspondence between local features. We present dense contrastive learning (DenseCL), which implements self-supervised learning by optimizing a pairwise contrastive (dis)similarity loss at the pixel level between two views of input images.Compared to the baseline method MoCo-v2, our method introduces negligible computation overhead (only <1% slower), but demonstrates consistently superior performance when transferring to downstream dense prediction tasks including object detection, semantic segmentation and instance segmentation; and outperforms the state-of-the-art methods by a large margin. Specifically, over the strong MoCo-v2 baseline, our method achieves significant improvements of 2.0% AP on PASCAL VOC object detection, 1.1% AP on COCO object detection, 0.9% AP on COCO instance segmentation, 3.0% mIoU on PASCAL VOC semantic segmentation and 1.8% mIoU on Cityscapes semantic segmentation.

translated by 谷歌翻译

Self-Supervised Pyramid Representation Learning for Multi-Label Visual Analysis and Beyond

Cheng-Yen Hsieh , Chih-Jung Chang , Fu-En Yang , Yu-Chiang Frank Wang

分类：计算机视觉 | 机器学习

2022-08-30

尽管已显示自我监督的学习受益于许多视觉任务，但现有技术主要集中在图像级操作上，这可能无法很好地概括为补丁或像素级别的下游任务。此外，现有的SSL方法可能无法充分描述和关联图像量表内和跨图像量表的上述表示。在本文中，我们提出了一个自制的金字塔表示学习（SS-PRL）框架。所提出的SS-PRL旨在通过学习适当的原型在斑块级别得出金字塔表示，并在图像中观察和关联固有的语义信息。特别是，我们在SS-PRL中提出了跨尺度贴片级的相关性学习，该学习允许模型汇总和关联信息跨贴片量表。我们表明，借助我们提出的用于模型预训练的SS-PRL，可以轻松适应和调整模型，以适应各种应用程序，包括多标签分类，对象检测和实例分割。

translated by 谷歌翻译

HTML版本

Generating and Weighting Semantically Consistent Sample Pairs for Ultrasound Contrastive Learning

Yixiong Chen , Chunhui Zhang , Chris H. Q. Ding , Li Liu

分类：计算机视觉 | 机器学习

2022-12-08

Well-annotated medical datasets enable deep neural networks (DNNs) to gain strong power in extracting lesion-related features. Building such large and well-designed medical datasets is costly due to the need for high-level expertise. Model pre-training based on ImageNet is a common practice to gain better generalization when the data amount is limited. However, it suffers from the domain gap between natural and medical images. In this work, we pre-train DNNs on ultrasound (US) domains instead of ImageNet to reduce the domain gap in medical US applications. To learn US image representations based on unlabeled US videos, we propose a novel meta-learning-based contrastive learning method, namely Meta Ultrasound Contrastive Learning (Meta-USCL). To tackle the key challenge of obtaining semantically consistent sample pairs for contrastive learning, we present a positive pair generation module along with an automatic sample weighting module based on meta-learning. Experimental results on multiple computer-aided diagnosis (CAD) problems, including pneumonia detection, breast cancer classification, and breast tumor segmentation, show that the proposed self-supervised method reaches state-of-the-art (SOTA). The codes are available at https://github.com/Schuture/Meta-USCL.

translated by 谷歌翻译

Consecutive Pretraining: A Knowledge Transfer Learning Strategy with Relevant Unlabeled Data for Remote Sensing Domain

Tong Zhang , Peng Gao , Hao Dong , Yin Zhuang , Guanqun Wang , Wei Zhang , He Chen

分类：计算机视觉

2022-07-08

目前，在有监督的学习下，由大规模自然界数据集预测的模型，然后在一些特定的任务标签数据上进行微调，这是主导知识转移学习的范式。它已达到遥感域（RSD）中任务感知模型培训的共识解决方案的状态。不幸的是，由于不同类别的成像数据和数据注释的严峻挑战，因此没有足够大且均匀的遥感数据集来支持RSD中的大规模预处理。此外，通过监督学习，然后直接对不同的下游任务进行微调，在大规模自然场景数据集上进行了预处理的模型似乎是一种粗略的方法，这很容易受到不可避免的标记噪声，严重的域间隙和任务意识到的差异的影响。因此，在本文中，考虑了一个简洁有效的知识转移学习策略，称为连续预审计（CSPT），考虑了不停止在自然语言处理中预处理的想法（CSPT）（CSPT）（CSPT）（CSPT）（CSPT）（CSPT）（CSPT）（CSPT）（CSPT）（CSPT）（CSPT）（CSPT）（CSPT）（CSPT）（CSPT），那么在本文中。 NLP），可以逐渐弥合域间隙并将知识从自然场景域转移到RSD。拟议的CSPT还可以发布未标记数据的巨大潜力，以进行任务感知模型培训。最后，在RSD的十二个数据集上进行了广泛的实验，涉及三种类型的下游任务（例如，场景分类，对象检测和土地覆盖分类）和两种类型的成像数据（例如，光学和SAR）。结果表明，通过利用拟议的CSPT进行任务感知模型培训，RSD中的几乎所有下游任务都可以胜过先前的监督预处理的方法，然后再进行预先调整，甚至超过了最先进的方法（SOTA）（SOTA）（SOTA）性能没有任何昂贵的标签消费和仔细的模型设计。

translated by 谷歌翻译

HyperNet: Self-Supervised Hyperspectral Spatial-Spectral Feature Understanding Network for Hyperspectral Change Detection

Meiqi Hu , Chen Wu , Liangpei Zhang

分类：计算机视觉

2022-07-20

自我监督学习的快速发展降低了从大量未标记的数据中的条形学习特征表示形式，并触发了一系列有关遥感图像的变更检测的研究。从自然图像分类到遥感图像的自我监督学习的挑战是从两个任务之间的差异引起的。对于像素级的精确更改检测，学习的补丁级特征表示不满意。在本文中，我们提出了一种新颖的像素级自我观察的高光谱空间传播理解网络（HyperNet），以完成像素的特征表示，以有效地进行高光谱变化检测。具体而言，不是斑块，而是整个图像被馈入网络，并且通过像素比较多个颞空间光谱特征。提出了一个强大的空间光谱注意模块，而不是处理二维成像空间和光谱响应维度，而是提出了一个强大的空间光谱注意模块，以探索分别分别的多个颞高光谱图像（HSIS）的空间相关性和判别光谱特征。仅创建并被迫对齐双期HSI的同一位置的正样品，旨在学习光谱差异不变的特征。此外，提出了一种新的相似性损失函数，以解决不平衡的简单和硬阳性样品比较的问题，其中这些硬样品的重量被扩大并突出显示以促进网络训练。已经采用了六个高光谱数据集来测试拟议的HyperNET的有效性和概括。广泛的实验表明，在下游高光谱变化检测任务上，HyperNET优于最先进的算法。

translated by 谷歌翻译

Semantics-Consistent Feature Search for Self-Supervised Visual Representation Learning

Kaiyou Song , Shan Zhang , Zihao An , Zimeng Luo , Tong Wang , Jin Xie

分类：计算机视觉

2022-12-13

In contrastive self-supervised learning, the common way to learn discriminative representation is to pull different augmented "views" of the same image closer while pushing all other images further apart, which has been proven to be effective. However, it is unavoidable to construct undesirable views containing different semantic concepts during the augmentation procedure. It would damage the semantic consistency of representation to pull these augmentations closer in the feature space indiscriminately. In this study, we introduce feature-level augmentation and propose a novel semantics-consistent feature search (SCFS) method to mitigate this negative effect. The main idea of SCFS is to adaptively search semantics-consistent features to enhance the contrast between semantics-consistent regions in different augmentations. Thus, the trained model can learn to focus on meaningful object regions, improving the semantic representation ability. Extensive experiments conducted on different datasets and tasks demonstrate that SCFS effectively improves the performance of self-supervised learning and achieves state-of-the-art performance on different downstream tasks.

translated by 谷歌翻译

iBoot: Image-bootstrapped Self-Supervised Video Representation Learning

Fatemeh Saleh , Fuwen Tan , Adrian Bulat , Georgios Tzimiropoulos , Brais Martinez

分类：计算机视觉 | 机器学习

2022-06-16

通过自学学习的视觉表示是一项极具挑战性的任务，因为网络需要在没有监督提供的主动指导的情况下筛选出相关模式。这是通过大量数据增强，大规模数据集和过量量的计算来实现的。视频自我监督学习（SSL）面临着额外的挑战：视频数据集通常不如图像数据集那么大，计算是一个数量级，并且优化器所必须通过的伪造模式数量乘以几倍。因此，直接从视频数据中学习自我监督的表示可能会导致次优性能。为了解决这个问题，我们建议在视频表示学习框架中利用一个以自我或语言监督为基础的强大模型，并在不依赖视频标记的数据的情况下学习强大的空间和时间信息。为此，我们修改了典型的基于视频的SSL设计和目标，以鼓励视频编码器\ textit {subsume}基于图像模型的语义内容，该模型在通用域上训练。所提出的算法被证明可以更有效地学习（即在较小的时期和较小的批次中），并在单模式SSL方法中对标准下游任务进行了新的最新性能。

translated by 谷歌翻译

BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations

Daiqing Li , Huan Ling , Seung Wook Kim , Karsten Kreis , Adela Barriuso , Sanja Fidler , Antonio Torralba

分类：计算机视觉

2022-01-12

带有像素天标签的注释图像是耗时和昂贵的过程。最近，DataSetGan展示了有希望的替代方案 - 通过利用一小组手动标记的GaN生成的图像来通过生成的对抗网络（GAN）来综合大型标记数据集。在这里，我们将DataSetGan缩放到ImageNet类别的规模。我们从ImageNet上训练的类条件生成模型中拍摄图像样本，并为所有1K类手动注释每个类的5张图像。通过在Biggan之上培训有效的特征分割架构，我们将Bigan转换为标记的DataSet生成器。我们进一步表明，VQGan可以类似地用作数据集生成器，利用已经注释的数据。我们通过在各种设置中标记一组8K实图像并在各种设置中评估分段性能来创建一个新的想象因基准。通过广泛的消融研究，我们展示了利用大型生成的数据集来培训在像素 - 明智的任务上培训不同的监督和自我监督的骨干模型的大增益。此外，我们证明，使用我们的合成数据集进行预培训，以改善在几个下游数据集上的标准Imagenet预培训，例如Pascal-VOC，MS-Coco，Citycapes和Chink X射线以及任务（检测，细分）。我们的基准将公开并维护一个具有挑战性的任务的排行榜。项目页面：https://nv-tlabs.github.io/big-dataseTgan/

translated by 谷歌翻译

Contextualized Spatio-Temporal Contrastive Learning with Self-Supervision

Liangzhe Yuan , Rui Qian , Yin Cui , Boqing Gong , Florian Schroff , Ming-Hsuan Yang , Hartwig Adam , Ting Liu

分类：计算机视觉

2021-12-09

现代自我监督的学习算法通常强制执行跨视图实例的表示的持久性。虽然非常有效地学习整体图像和视频表示，但这种方法成为在视频中学习时空时间细粒度的特征的子最优，其中场景和情况通过空间和时间演变。在本文中，我们介绍了上下文化的时空对比学习（Const-CL）框架，以利用自我监督有效学习时空时间细粒度的表示。我们首先设计一种基于区域的自我监督的借口任务，该任务要求模型从一个视图中学习将实例表示转换为上下文特征的另一个视图。此外，我们介绍了一个简单的网络设计，有效地调和了整体和本地表示的同时学习过程。我们评估我们对各种下游任务和CONST-CL的学习表现，实现了四个数据集的最先进结果。对于时空行动本地化，Const-CL可以使用AVA-Kinetics验证集的检测到框实现39.4％的地图和30.5％地图。对于对象跟踪，Const-CL在OTB2015上实现了78.1％的精度和55.2％的成功分数。此外，Const-CL分别在视频动作识别数据集，UCF101和HMDB51上实现了94.8％和71.9％的前1个微调精度。我们计划向公众发布我们的代码和模型。

translated by 谷歌翻译