视频突出显示检测是一个至关重要但充满挑战的问题,旨在识别未修剪视频中有趣的时刻。该任务的关键在于有效的视频表示形式共同追求两个目标,即\ textit {i.e。},跨模式表示学习和精细元素特征歧视。在本文中,这两个挑战不仅通过丰富表示建模的模式内部和跨模式关系来应对,而且还以歧视性的方式塑造了这些特征。我们提出的方法主要利用模式内编码和交叉模式共发生编码来完全表示建模。具体而言,编码的模式内模式可以增强模态特征,并通过音频和视觉信号中的模式关系学习来抑制无关的模态。同时,跨模式的共同发生编码着重于同时模式间关系,并选择性地捕获了多模式之间的有效信息。从本地上下文中抽象的全局信息进一步增强了多模式表示。此外,我们使用硬对对比度学习(HPCL)方案扩大了特征嵌入的判别能力。进一步采用了硬对采样策略来开采硬样品,以改善HPCL中的特征歧视。与其他最新方法相比,在两个基准上进行的广泛实验证明了我们提出的方法的有效性和优势。
translated by 谷歌翻译
本文重点介绍了弱监督的视频视频解析任务,该任务旨在识别属于每种模式的所有事件并定位其时间界。此任务是具有挑战性的,因为只有表示视频事件的整体标签用于培训。但是,事件可能被标记,但不会出现在其中一种方式中,这导致了特定于模态的嘈杂标签问题。在这项工作中,我们提出了一种培训策略,以动态识别和删除特定于模式的嘈杂标签。它是由两个关键观察的动机:1)网络倾向于首先学习干净的样本; 2)标记的事件至少以一种方式出现。具体而言,我们将每个实例在每种模式中单独分别对所有实例的损失进行排序,然后根据模式内和模式间损耗之间的关系选择嘈杂的样本。此外,我们还通过计算置信度低于预设阈值的实例的比例来提出一种简单但有效的噪声比率估计方法。我们的方法对先前的艺术状态进行了大量改进(\ eg,从60.0 \%到63.8 \%\%在细分级视觉度量中),这证明了我们方法的有效性。代码和训练有素的模型可在\ url {https://github.com/mcg-nju/jomold}上公开获得。
translated by 谷歌翻译
弱监督的视听暴力检测旨在区分包含带有视频级标签的多模式暴力事件的片段。许多先前的作品以早期或中间的方式执行视听整合和互动,但在弱监督的设置上忽略了模态异质性。在本文中,我们分析了多种实例学习(MIL)程序的模式异步和未分化的实例现象,并进一步研究了其对弱监督视听学习的负面影响。为了解决这些问题,我们提出了一种以自我验证(MACIL-SD)策略学习的方式感知的对比实例。具体而言,我们利用轻量级的两流网络来生成音频和视觉袋,其中单峰背景,暴力和普通实例以一种无监督的方式聚集到半袋中。然后,将音频和视觉剧烈的半袋表示作为正对组装,将暴力半袋与背景和正常实例相结合,以对比性负对。此外,将自我验证模块应用于将单峰视觉知识传输到视听模型,该模型减轻了噪音并缩小单峰和多模式特征之间的语义差距。实验表明,我们的框架在大规模XD-Violence数据集上的复杂性较低的方法优于先前的方法。结果还表明,我们提出的方法可以用作增强其他网络的插件模块。代码可在https://github.com/justinyuu/macil_sd上找到。
translated by 谷歌翻译
The booming development and huge market of micro-videos bring new e-commerce channels for merchants. Currently, more micro-video publishers prefer to embed relevant ads into their micro-videos, which not only provides them with business income but helps the audiences to discover their interesting products. However, due to the micro-video recording by unprofessional equipment, involving various topics and including multiple modalities, it is challenging to locate the products related to micro-videos efficiently, appropriately, and accurately. We formulate the microvideo-product retrieval task, which is the first attempt to explore the retrieval between the multi-modal and multi-modal instances. A novel approach named Multi-Queue Momentum Contrast (MQMC) network is proposed for bidirectional retrieval, consisting of the uni-modal feature and multi-modal instance representation learning. Moreover, a discriminative selection strategy with a multi-queue is used to distinguish the importance of different negatives based on their categories. We collect two large-scale microvideo-product datasets (MVS and MVS-large) for evaluation and manually construct the hierarchical category ontology, which covers sundry products in daily life. Extensive experiments show that MQMC outperforms the state-of-the-art baselines. Our replication package (including code, dataset, etc.) is publicly available at https://github.com/duyali2000/MQMC.
translated by 谷歌翻译
参考图像分割旨在通过自然语言表达段段。在文本和图像之间的不同数据属性中,对网络充满良好的对齐文本和像素级别特征是具有挑战性的。现有方法使用借预制模型来促进学习,但分别从预磨料模型转移语言/视觉知识,忽略多模态对应信息。灵感来自最近对比语言 - 图像预测(剪辑)的预先推进(剪辑),在本文中,我们提出了一个端到端的剪辑驱动的参考图像分割框架(CRIS)。有效地转移多模态知识,克里斯语言解码和对比学习来实现文本到像素对齐的对比学习。更具体地,我们设计了一种视觉语言解码器,以将微粒语义信息从文本表示传播到每个像素级激活,这促进了两个模态之间的一致性。此外,我们呈现文本到像素对比学学习,明确强制执行类似于相关像素级别特征的文本特征,并与无关相似。三个基准数据集的实验结果表明,我们的拟议框架显着优于现有的性能而无需任何后处理。代码将被释放。
translated by 谷歌翻译
Previous work on action representation learning focused on global representations for short video clips. In contrast, many practical applications, such as video alignment, strongly demand learning the intensive representation of long videos. In this paper, we introduce a new framework of contrastive action representation learning (CARL) to learn frame-wise action representation in a self-supervised or weakly-supervised manner, especially for long videos. Specifically, we introduce a simple but effective video encoder that considers both spatial and temporal context by combining convolution and transformer. Inspired by the recent massive progress in self-supervised learning, we propose a new sequence contrast loss (SCL) applied to two related views obtained by expanding a series of spatio-temporal data in two versions. One is the self-supervised version that optimizes embedding space by minimizing KL-divergence between sequence similarity of two augmented views and prior Gaussian distribution of timestamp distance. The other is the weakly-supervised version that builds more sample pairs among videos using video-level labels by dynamic time wrapping (DTW). Experiments on FineGym, PennAction, and Pouring datasets show that our method outperforms previous state-of-the-art by a large margin for downstream fine-grained action classification and even faster inference. Surprisingly, although without training on paired videos like in previous works, our self-supervised version also shows outstanding performance in video alignment and fine-grained frame retrieval tasks.
translated by 谷歌翻译
The heterogeneity gap problem is the main challenge in cross-modal retrieval. Because cross-modal data (e.g. audiovisual) have different distributions and representations that cannot be directly compared. To bridge the gap between audiovisual modalities, we learn a common subspace for them by utilizing the intrinsic correlation in the natural synchronization of audio-visual data with the aid of annotated labels. TNN-CCCA is the best audio-visual cross-modal retrieval (AV-CMR) model so far, but the model training is sensitive to hard negative samples when learning common subspace by applying triplet loss to predict the relative distance between inputs. In this paper, to reduce the interference of hard negative samples in representation learning, we propose a new AV-CMR model to optimize semantic features by directly predicting labels and then measuring the intrinsic correlation between audio-visual data using complete cross-triple loss. In particular, our model projects audio-visual features into label space by minimizing the distance between predicted label features after feature projection and ground label representations. Moreover, we adopt complete cross-triplet loss to optimize the predicted label features by leveraging the relationship between all possible similarity and dissimilarity semantic information across modalities. The extensive experimental results on two audio-visual double-checked datasets have shown an improvement of approximately 2.1% in terms of average MAP over the current state-of-the-art method TNN-CCCA for the AV-CMR task, which indicates the effectiveness of our proposed model.
translated by 谷歌翻译
识别和本地化视频中的事件是视频理解的基本任务。由于事件可能发生在听觉和视觉方式中,因此多式联合的详细感知对于完全的场景理解至关重要。最先前的作品试图从整体角度分析视频。但是,它们不考虑多个尺度的语义信息,这使得模型难以定位各种长度的事件。在本文中,我们提供了一个多模式金字塔注意网络(MM-PYRAMID),用于捕获和集成多级时间特征,用于视听事件定位和视听视频解析。具体而言,我们首先提出了专注特征金字塔模块。该模块通过多个堆叠金字塔单元捕获时间金字塔特征,每个单元都由固定尺寸的注意力块和扩张的卷积块组成。我们还设计了一种自适应语义融合模块,它利用单位级注意块和选择性融合块以交互地集成金字塔特征。对视听事件定位的广泛实验和虚线监督的视听视频解析任务验证了我们方法的有效性。
translated by 谷歌翻译
主动演讲者的检测和语音增强已成为视听场景中越来越有吸引力的主题。根据它们各自的特征,独立设计的体系结构方案已被广泛用于与每个任务的对应。这可能导致模型特定于任务所学的表示形式,并且不可避免地会导致基于多模式建模的功能缺乏概括能力。最近的研究表明,建立听觉和视觉流之间的跨模式关系是针对视听多任务学习挑战的有前途的解决方案。因此,作为弥合视听任务中多模式关联的动机,提出了一个统一的框架,以通过在本研究中通过联合学习视听模型来实现目标扬声器的检测和语音增强。
translated by 谷歌翻译
视频摘要旨在自动生成视频的摘要(故事板或视频浏览器),这可以促进大规模视频检索和浏览。大多数现有方法对单个视频进行视频摘要,这些视频忽略了相似视频之间的相关性。然而,这种相关性也是视频理解和视频摘要的信息。为了解决此限制,我们提出了基于分层变压器(VJMHT)的视频联合建模,共综合化,这考虑了跨视频的语义依赖关系。具体而言,VJMHT由两层变压器组成:第一层从类似视频的各个拍摄提取语义表示,而第二层执行射门视频联合建模以聚合交叉视频语义信息。通过这种方式,可以明确建模并学习完整的跨视频高级模式,以便为个人视频的摘要而学习。此外,引入了基于变压器的视频表示重建,以最大化摘要和原始视频之间的高电平相似性。进行广泛的实验以验证所提出的模块的有效性以及VJMHT在F测量和基于秩的评估方面的优越性。
translated by 谷歌翻译
我们介绍了空间本地化叙述中的视频中的任务。我们的方法的关键是能够学会在与随附的叙述的视频中的大型视频中对自我监督进行空间地定位与自我监督的互动。为实现这一目标,我们提出了一种多层跨模型关注网络,可以在培训期间有效优化对比损失。我们介绍了一种分割的策略,可以通过视觉和自然语言方式计算和中间模态注意力之间的交替,这允许通过直接对比两种方式的表示来实现有效的培训。我们展示了我们对HOWTO100M教学数据集的自我训练的方法的有效性,并在YouCook2 DataSet中的本地化描述交互的新收集数据集上进行评估。我们展示了我们的方法优于替代基准,包括浅薄的共同关注和完全跨越的关注。我们还将我们的方法应用于在Flickr30k上的弱监管下的图像中的接地短语,并显示堆叠多个注意层是有效的,并且当与对区域丢失相结合时,在召回召回和指向时达到最先进的艺术状态手准确性。
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
Modality representation learning is an important problem for multimodal sentiment analysis (MSA), since the highly distinguishable representations can contribute to improving the analysis effect. Previous works of MSA have usually focused on multimodal fusion strategies, and the deep study of modal representation learning was given less attention. Recently, contrastive learning has been confirmed effective at endowing the learned representation with stronger discriminate ability. Inspired by this, we explore the improvement approaches of modality representation with contrastive learning in this study. To this end, we devise a three-stages framework with multi-view contrastive learning to refine representations for the specific objectives. At the first stage, for the improvement of unimodal representations, we employ the supervised contrastive learning to pull samples within the same class together while the other samples are pushed apart. At the second stage, a self-supervised contrastive learning is designed for the improvement of the distilled unimodal representations after cross-modal interaction. At last, we leverage again the supervised contrastive learning to enhance the fused multimodal representation. After all the contrast trainings, we next achieve the classification task based on frozen representations. We conduct experiments on three open datasets, and results show the advance of our model.
translated by 谷歌翻译
在视觉和声音内利用时间同步和关联是朝向探测物体的强大定位的重要一步。为此,我们提出了一个节省空间内存网络,用于探测视频中的对象本地化。它可以同时通过音频和视觉方式的单模和跨模型表示来同时学习时空关注。我们在定量和定性地展示和分析了在本地化视听物体中结合时空学习的有效性。我们展示了我们的方法通过各种复杂的视听场景概括,最近最先进的方法概括。
translated by 谷歌翻译
We focus on the audio-visual video parsing (AVVP) problem that involves detecting audio and visual event labels with temporal boundaries. The task is especially challenging since it is weakly supervised with only event labels available as a bag of labels for each video. An existing state-of-the-art model for AVVP uses a hybrid attention network (HAN) to generate cross-modal features for both audio and visual modalities, and an attentive pooling module that aggregates predicted audio and visual segment-level event probabilities to yield video-level event probabilities. We provide a detailed analysis of modality bias in the existing HAN architecture, where a modality is completely ignored during prediction. We also propose a variant of feature aggregation in HAN that leads to an absolute gain in F-scores of about 2% and 1.6% for visual and audio-visual events at both segment-level and event-level, in comparison to the existing HAN model.
translated by 谷歌翻译
现代自我监督的学习算法通常强制执行跨视图实例的表示的持久性。虽然非常有效地学习整体图像和视频表示,但这种方法成为在视频中学习时空时间细粒度的特征的子最优,其中场景和情况通过空间和时间演变。在本文中,我们介绍了上下文化的时空对比学习(Const-CL)框架,以利用自我监督有效学习时空时间细粒度的表示。我们首先设计一种基于区域的自我监督的借口任务,该任务要求模型从一个视图中学习将实例表示转换为上下文特征的另一个视图。此外,我们介绍了一个简单的网络设计,有效地调和了整体和本地表示的同时学习过程。我们评估我们对各种下游任务和CONST-CL的学习表现,实现了四个数据集的最先进结果。对于时空行动本地化,Const-CL可以使用AVA-Kinetics验证集的检测到框实现39.4%的地图和30.5%地图。对于对象跟踪,Const-CL在OTB2015上实现了78.1%的精度和55.2%的成功分数。此外,Const-CL分别在视频动作识别数据集,UCF101和HMDB51上实现了94.8%和71.9%的前1个微调精度。我们计划向公众发布我们的代码和模型。
translated by 谷歌翻译
有效的视频识别是一个热点研究主题,具有互联网和移动设备上多媒体数据的爆炸性增长。大多数现有方法都选择了显着帧,而不意识对特定于类的显着性分数,这忽略了框架显着性及其归属类别之间的隐式关联。为了减轻此问题,我们设计了一种新颖的时间显着性查询(TSQ)机制,该机制引入了特定于类的信息,以提供明显测量的细粒线索。具体而言,我们将特定于类的显着性测量过程建模为查询响应任务。对于每个类别,它的共同模式被用作查询,最突出的框架对其进行了响应。然后,计算出的相似性被用作框架显着性得分。为了实现这一目标,我们提出了一个时间显着性查询网络(TSQNET),其中包括基于视觉外观相似性和文本事件对象关系的TSQ机制的两个实例化。之后,实施了交叉模式相互作用以促进它们之间的信息交换。最后,我们使用了两种模式生成的最自信类别的特定阶级销售,以执行显着框架的选择。广泛的实验通过在ActivityNet,FCVID和Mini-Kinetics数据集上实现最新结果来证明我们方法的有效性。我们的项目页面位于https://lawrencexia2008.github.io/projects/tsqnet。
translated by 谷歌翻译
时间句子接地(TSG)是多媒体信息检索中的一项重要但具有挑战性的任务。尽管以前的TSG方法已经达到了不错的性能,但它们倾向于捕获数据集中经常出现的视频问题对的选择偏差,而不是呈现强大的多模式推理能力,尤其是对于很少出现的对。在本文中,我们研究了上述选择偏见的问题,并因此提出了一个偏见-TSG(D-TSG)模型,以过滤和消除视觉和语言方式中的负偏见,以增强模型的概括能力。具体来说,我们建议从两个角度来减轻问题:1)特征蒸馏。我们构建了一个多模式的偏见分支,以首先捕获视觉和语言偏见,然后应用一个偏差识别模块以明确识别真正的负偏见并将其从良性多模式表示中删除。 2)对比样品产生。我们构建两种类型的负样本来强制执行模型,以准确学习对齐的多模式语义并做出完整的语义推理。我们将提出的模型应用于通常和很少出现的TSG案例,并通过在三个基准数据集(ActivityNet标题,Tacos和Charades-STA)上实现最先进的性能来证明其有效性。
translated by 谷歌翻译
We present Masked Audio-Video Learners (MAViL) to train audio-visual representations. Our approach learns with three complementary forms of self-supervision: (1) reconstruction of masked audio and video input data, (2) intra- and inter-modal contrastive learning with masking, and (3) self-training by reconstructing joint audio-video contextualized features learned from the first two objectives. Pre-training with MAViL not only enables the model to perform well in audio-visual classification and retrieval tasks but also improves representations of each modality in isolation, without using information from the other modality for fine-tuning or inference. Empirically, MAViL sets a new state-of-the-art on AudioSet (53.1 mAP) and VGGSound (67.1% accuracy). For the first time, a self-supervised audio-visual model outperforms ones that use external supervision on these benchmarks. Code will be available soon.
translated by 谷歌翻译
本文研究了时间句子接地的多媒体问题(TSG),该问题旨在根据给定的句子查询准确地确定未修剪视频中的特定视频段。传统的TSG方法主要遵循自上而下或自下而上的框架,不是端到端。他们严重依靠耗时的后处理来完善接地结果。最近,提出了一些基于变压器的方法来有效地对视频和查询之间的细粒语义对齐进行建模。尽管这些方法在一定程度上达到了显着的性能,但它们同样将视频的框架和查询的单词视为用于关联的变压器输入,未能捕获其不同水平的粒度与独特的语义。为了解决这个问题,在本文中,我们提出了一种新型的等级局部 - 全球变压器(HLGT)来利用这种层次结构信息,并模拟不同粒度的不同级别的相互作用和不同的模态之间的相互作用,以学习更多细粒度的多模式表示。具体而言,我们首先将视频和查询分为单个剪辑和短语,以通过时间变压器学习其本地上下文(相邻依赖关系)和全局相关性(远程依赖)。然后,引入了全球本地变压器,以了解本地级别和全球级别语义之间的相互作用,以提供更好的多模式推理。此外,我们开发了一种新的跨模式周期一致性损失,以在两种模式之间实施相互作用,并鼓励它们之间的语义一致性。最后,我们设计了一个全新的跨模式平行变压器解码器,以集成编码的视觉和文本特征,以进行最终接地。在三个具有挑战性的数据集上进行了广泛的实验表明,我们提出的HLGT实现了新的最新性能。
translated by 谷歌翻译