作为多媒体信息检索中越来越流行的任务,视频瞬间检索(VMR)旨在根据给定的语言查询从未修剪视频中定位目标时刻。以前的大多数方法都在很大程度上取决于众多手动注释(即瞬间边界),在实践中获取非常昂贵。此外,由于不同数据集之间的域间隙,直接将这些预训练的模型应用于看不见的域,这会导致显着的性能下降。在本文中,我们专注于一项新任务:跨域VMR,其中一个域中完全注重数据集(````源域'''),但是感兴趣的域(``目标域'')仅包含未通知的数据集。据我们所知,我们介绍了有关跨域VMR的第一项研究。为了解决这一新任务,我们提出了一个新型的多模式跨域比对(MMCDA)网络,以将注释知识从源域转移到目标域。但是,由于源和目标域之间的域差异以及视频和查询之间的语义差距,直接将经过训练的模型应用于目标域通常会导致性能下降。为了解决这个问题,我们开发了三个新型模块:(i)域对齐模块旨在使每种模式的不同域之间的特征分布对齐; (ii)跨模式对齐模块旨在将视频和查询特征映射到关节嵌入空间中,并将目标域不同模态之间的特征分布对齐; (iii)特定的比对模块试图获得特定帧与给定查询之间的细粒度相似性以进行最佳定位。通过共同训练这三个模块,我们的MMCDA可以学习域不变和语义一致的跨模式表示。
translated by 谷歌翻译
本文研究了时间句子接地的多媒体问题(TSG),该问题旨在根据给定的句子查询准确地确定未修剪视频中的特定视频段。传统的TSG方法主要遵循自上而下或自下而上的框架,不是端到端。他们严重依靠耗时的后处理来完善接地结果。最近,提出了一些基于变压器的方法来有效地对视频和查询之间的细粒语义对齐进行建模。尽管这些方法在一定程度上达到了显着的性能,但它们同样将视频的框架和查询的单词视为用于关联的变压器输入,未能捕获其不同水平的粒度与独特的语义。为了解决这个问题,在本文中,我们提出了一种新型的等级局部 - 全球变压器(HLGT)来利用这种层次结构信息,并模拟不同粒度的不同级别的相互作用和不同的模态之间的相互作用,以学习更多细粒度的多模式表示。具体而言,我们首先将视频和查询分为单个剪辑和短语,以通过时间变压器学习其本地上下文(相邻依赖关系)和全局相关性(远程依赖)。然后,引入了全球本地变压器,以了解本地级别和全球级别语义之间的相互作用,以提供更好的多模式推理。此外,我们开发了一种新的跨模式周期一致性损失,以在两种模式之间实施相互作用,并鼓励它们之间的语义一致性。最后,我们设计了一个全新的跨模式平行变压器解码器,以集成编码的视觉和文本特征,以进行最终接地。在三个具有挑战性的数据集上进行了广泛的实验表明,我们提出的HLGT实现了新的最新性能。
translated by 谷歌翻译
时间句地接地(TSG)是视频理解的关键和基础。虽然现有方法训练具有大量数据的精心设计的深网络,但我们发现他们可以轻松忘记由于偏移数据分布而在训练阶段的很少出现的情况,这影响了模型概括并导致不希望的表现。为了解决这个问题,我们提出了一个内存增强的网络,称为内存引导的语义学习网络(MGSL-net),它学习并记住在TSG任务中的很少出现的内容。具体而言,MGSL-Net由三个主要部件组成:跨模型互动模块,存储器增强模块和异构注意力模块。我们首先将给定的视频查询对与跨模型图卷积网络对齐,然后利用内存模块在域特定的持久存储器中记录跨模板共享语义功能。在培训期间,内存插槽与常见和罕见的案例动态相关,减轻了遗忘问题。在测试中,可以通过检索存储的存储器来提高罕见的情况,从而产生更好的概括。最后,使用异构注意力模块在视频和查询域中集成增强的多模态特征。三个基准测试的实验结果表明了我们对效率和效率的方法的优势,这在整个数据集上显着提高了准确性,而且在罕见的情况下也是如此。
translated by 谷歌翻译
本文解决了自然语言视频本地化(NLVL)的问题。几乎所有现有的作品都遵循“仅一次外观”框架,该框架利用单个模型直接捕获视频疑问对之间的复杂跨和自模式关系并检索相关段。但是,我们认为这些方法忽略了理想本地化方法的两个必不可少的特征:1)帧差异:考虑正/负视频帧的不平衡,在本地化过程中突出显示正帧并削弱负面框架是有效的。 2)边界优先:为了预测确切的段边界,该模型应捕获连续帧之间更细粒度的差异,因为它们的变化通常是平滑的。为此,我们灵感来自于人类如何看待和定位一个细分市场,我们提出了一个两步的人类框架,称为掠夺 - 储存式融合(SLP)。 SLP由脱脂和排列(SL)模块和双向仔细(BP)模块组成。 SL模块首先是指查询语义,并在滤除无关的帧时从视频中选择最佳匹配的帧。然后,BP模块基于此框架构造了初始段,并通过探索其相邻帧来动态更新它,直到没有帧共享相同的活动语义为止。三个具有挑战性的基准测试的实验结果表明,我们的SLP优于最新方法,并将其定位更精确的段边界。
translated by 谷歌翻译
视频瞬间检索旨在找到给定自然语言查询描述的片刻的开始和结束时间戳(视频的一部分)。全面监督的方法需要完整的时间边界注释才能获得有希望的结果,这是昂贵的,因为注释者需要关注整个时刻。弱监督的方法仅依赖于配对的视频和查询,但性能相对较差。在本文中,我们仔细研究了注释过程,并提出了一种称为“ Glance注释”的新范式。该范式需要一个只有一个随机框架的时间戳,我们将其称为“目光”,在完全监督的对应物的时间边界内。我们认为这是有益的,因为与弱监督相比,添加了琐碎的成本,还提供了更大的潜力。在一眼注释设置下,我们提出了一种基于对比度学习的一眼注释(VIGA),称为视频力矩检索的方法。 Viga将输入视频切成片段,并在剪辑和查询之间形成对比,其中一眼指导的高斯分布重量被分配给所有夹子。我们的广泛实验表明,VIGA通过很大的边距较小的弱监督方法获得了更好的结果,甚至可以在某些情况下与完全监督的方法相媲美。
translated by 谷歌翻译
Given an untrimmed video and natural language query, video sentence grounding aims to localize the target temporal moment in the video. Existing methods mainly tackle this task by matching and aligning semantics of the descriptive sentence and video segments on a single temporal resolution, while neglecting the temporal consistency of video content in different resolutions. In this work, we propose a novel multi-resolution temporal video sentence grounding network: MRTNet, which consists of a multi-modal feature encoder, a Multi-Resolution Temporal (MRT) module, and a predictor module. MRT module is an encoder-decoder network, and output features in the decoder part are in conjunction with Transformers to predict the final start and end timestamps. Particularly, our MRT module is hot-pluggable, which means it can be seamlessly incorporated into any anchor-free models. Besides, we utilize a hybrid loss to supervise cross-modal features in MRT module for more accurate grounding in three scales: frame-level, clip-level and sequence-level. Extensive experiments on three prevalent datasets have shown the effectiveness of MRTNet.
translated by 谷歌翻译
Temporal sentence grounding (TSG) aims to identify the temporal boundary of a specific segment from an untrimmed video by a sentence query. All existing works first utilize a sparse sampling strategy to extract a fixed number of video frames and then conduct multi-modal interactions with query sentence for reasoning. However, we argue that these methods have overlooked two indispensable issues: 1) Boundary-bias: The annotated target segment generally refers to two specific frames as corresponding start and end timestamps. The video downsampling process may lose these two frames and take the adjacent irrelevant frames as new boundaries. 2) Reasoning-bias: Such incorrect new boundary frames also lead to the reasoning bias during frame-query interaction, reducing the generalization ability of model. To alleviate above limitations, in this paper, we propose a novel Siamese Sampling and Reasoning Network (SSRN) for TSG, which introduces a siamese sampling mechanism to generate additional contextual frames to enrich and refine the new boundaries. Specifically, a reasoning strategy is developed to learn the inter-relationship among these frames and generate soft labels on boundaries for more accurate frame-query reasoning. Such mechanism is also able to supplement the absent consecutive visual semantics to the sampled sparse frames for fine-grained activity understanding. Extensive experiments demonstrate the effectiveness of SSRN on three challenging datasets.
translated by 谷歌翻译
视频时刻检索旨在搜索与给定语言查询最相关的那一刻。然而,该社区中的大多数现有方法通常需要季节边界注释,这昂贵且耗时地标记。因此,最近仅通过使用粗略视频级标签来提出弱监督的方法。尽管有效,但这些方法通常是独立处理候选人的候选人,同时忽略了不同时间尺度中候选者之间的自然时间依赖性的关键问题。要应对这个问题,我们提出了一种多尺度的2D表示学习方法,用于弱监督视频时刻检索。具体地,我们首先构造每个时间刻度的二维图以捕获候选者之间的时间依赖性。该地图中的两个维度表示这些候选人的开始和结束时间点。然后,我们使用学习卷积神经网络从每个刻度变化的地图中选择Top-K候选。通过新设计的时刻评估模块,我们获得所选候选人的对齐分数。最后,标题和语言查询之间的相似性被用作进一步培训候选者选择器的监督。两个基准数据集Charades-STA和ActivityNet标题的实验表明,我们的方法能够实现最先进的结果。
translated by 谷歌翻译
时间句子接地(TSG)是多媒体信息检索中的一项重要但具有挑战性的任务。尽管以前的TSG方法已经达到了不错的性能,但它们倾向于捕获数据集中经常出现的视频问题对的选择偏差,而不是呈现强大的多模式推理能力,尤其是对于很少出现的对。在本文中,我们研究了上述选择偏见的问题,并因此提出了一个偏见-TSG(D-TSG)模型,以过滤和消除视觉和语言方式中的负偏见,以增强模型的概括能力。具体来说,我们建议从两个角度来减轻问题:1)特征蒸馏。我们构建了一个多模式的偏见分支,以首先捕获视觉和语言偏见,然后应用一个偏差识别模块以明确识别真正的负偏见并将其从良性多模式表示中删除。 2)对比样品产生。我们构建两种类型的负样本来强制执行模型,以准确学习对齐的多模式语义并做出完整的语义推理。我们将提出的模型应用于通常和很少出现的TSG案例,并通过在三个基准数据集(ActivityNet标题,Tacos和Charades-STA)上实现最先进的性能来证明其有效性。
translated by 谷歌翻译
时间基础旨在找到目标视频时刻,该目标瞬间与未修剪视频中给定的句子查询相对应。但是,最近的作品发现现有方法遇到了严重的时间偏见问题。这些方法并不是根据训练集中查询的时间偏见过度依赖基于视觉文本语义对齐的目标矩位置。为此,本文提出了一个新颖的培训框架,用于接地模型,以使用洗牌视频解决时间偏见问题而不会失去接地精度。我们的框架介绍了两个辅助任务,即跨模式匹配和时间订单歧视,以促进接地模型训练。跨模式匹配任务利用了洗牌和原始视频之间的内容一致性迫使接地模型以挖掘视觉内容以匹配语义的查询。时间秩序歧视任务利用时间顺序的差异来加强对长期时间环境的理解。关于Charades-STA和活动网字幕的广泛实验证明了我们方法可以减轻对时间偏差的依赖并增强模型对不同时间分布的概括能力的有效性。代码可从https://github.com/haojc/shufflingvideosfortsg获得。
translated by 谷歌翻译
基于文本的视频细分旨在通过用文本查询指定演员及其表演动作来细分视频序列中的演员。由于\ emph {emph {语义不对称}的问题,以前的方法无法根据演员及其动作以细粒度的方式将视频内容与文本查询对齐。 \ emph {语义不对称}意味着在多模式融合过程中包含不同量的语义信息。为了减轻这个问题,我们提出了一个新颖的演员和动作模块化网络,该网络将演员及其动作分别定位在两个单独的模块中。具体来说,我们首先从视频和文本查询中学习与参与者相关的内容,然后以对称方式匹配它们以定位目标管。目标管包含所需的参与者和动作,然后将其送入完全卷积的网络,以预测演员的分割掩模。我们的方法还建立了对象的关联,使其与所提出的时间建议聚合机制交叉多个框架。这使我们的方法能够有效地细分视频并保持预测的时间一致性。整个模型允许联合学习参与者的匹配和细分,并在A2D句子和J-HMDB句子数据集上实现单帧细分和完整视频细分的最新性能。
translated by 谷歌翻译
State-of-the-art 3D semantic segmentation models are trained on the off-the-shelf public benchmarks, but they often face the major challenge when these well-trained models are deployed to a new domain. In this paper, we propose an Active-and-Adaptive Segmentation (ADAS) baseline to enhance the weak cross-domain generalization ability of a well-trained 3D segmentation model, and bridge the point distribution gap between domains. Specifically, before the cross-domain adaptation stage begins, ADAS performs an active sampling operation to select a maximally-informative subset from both source and target domains for effective adaptation, reducing the adaptation difficulty under 3D scenarios. Benefiting from the rise of multi-modal 2D-3D datasets, ADAS utilizes a cross-modal attention-based feature fusion module that can extract a representative pair of image features and point features to achieve a bi-directional image-point feature interaction for better safe adaptation. Experimentally, ADAS is verified to be effective in many cross-domain settings including: 1) Unsupervised Domain Adaptation (UDA), which means that all samples from target domain are unlabeled; 2) Unsupervised Few-shot Domain Adaptation (UFDA) which means that only a few unlabeled samples are available in the unlabeled target domain; 3) Active Domain Adaptation (ADA) which means that the selected target samples by ADAS are manually annotated. Their results demonstrate that ADAS achieves a significant accuracy gain by easily coupling ADAS with self-training methods or off-the-shelf UDA works.
translated by 谷歌翻译
时间接地旨在本地化与给定的自然语言查询语义对齐的视频片刻。现有方法通常在融合表示上应用检测或回归管道,研究重点是设计复杂的预测头或融合策略。相反,从时间接地作为度量学习问题的角度来看,我们呈现了一个相互匹配的网络(MMN),以直接模拟联合嵌入空间中的语言查询和视频矩之间的相似性。这种新的公制学习框架可以完全利用两个新方面的负面样本:在相互匹配方案中构建负跨模型对和跨不同视频的挖掘负对。这些新的阴性样本可以通过跨模态相互匹配来增强两个模式的联合表示学习,以最大化其互信。实验表明,与四个视频接地基准测试的最先进的方法相比,我们的MMN实现了竞争力的表现。基于MMN,我们为第三张图片车间的HC-STVG挑战提供了一个胜利者解决方案。这表明度量学习仍然是通过捕获关节嵌入空间中的基本跨模式相关性的时间接地的有希望的方法。代码可在https://github.com/mcg-nju/mmn获得。
translated by 谷歌翻译
本文解决了颞句的接地。以前的作品通常通过学习帧级视频功能来解决此任务并将其与文本信息对齐。这些作品的一个主要限制是,由于帧级特征提取,它们未能利用具有微妙的外观差异的模糊视频帧。最近,一些方法采用更快的R-CNN来提取每帧中的详细物体特征来区分细粒的外观相似性。然而,由于对象检测模型缺乏时间建模,因此通过更快的R-CNN提取的对象级别特征遭受缺失的运动分析。为了解决这个问题,我们提出了一种新颖的运动外观推理网络(MARN),其包括动作感知和外观感知对象特征,以更好的原因对象关系来建立连续帧之间的活动。具体而言,我们首先介绍两个单独的视频编码器以将视频嵌入到相应的主导和外观 - 方面对象表示中。然后,我们开发单独的运动和外观分支,以分别学习运动引导和外观引导的对象关系。最后,来自两个分支的运动和外观信息都与用于最终接地的更多代表性的特征相关联。对两个具有挑战性的数据集(Chardes-Sta和Tacos)的广泛实验表明,我们提出的马恩在以前的最先进的方法中大大优于大幅度。
translated by 谷歌翻译
视频文本预训练(VTP)旨在从大规模的网络视频中学习可转移的代表。迄今为止,几乎所有现有的VTP方法都仅限于基于检索的下游任务,例如视频检索,而它们在基于本地化的任务(例如时间基础)上的转移潜力不足。在本文中,我们实验分析并证明了当前VTP方法与本地化任务的不相容性,并提出了一种新颖的面向定位的视频文本预训练框架,称为LocvTP。具体而言,我们执行细粒对比度对准作为通过剪贴字对数发现方案对粗粒粒度的补充。为了进一步增强学习功能的时间推理能力,我们提出了一个上下文投影头和暂时意识的对比损失,以感知上下文关系。对六个数据集的四个下游任务进行的广泛实验表明,我们的LOCVTP在基于检索和基于本地化的任务上都达到了最先进的性能。此外,我们进行了全面的消融研究和彻底的分析,以探索最佳的模型设计和培训策略。
translated by 谷歌翻译
了解人类情绪是智能机器人提供更好的人类机器人相互作用的关键能力。现有作品仅限于修剪视频级别的情感分类,无法找到与情感相对应的时间窗口。在本文中,我们介绍了一项新任务,称为视频中的时间情感本地化(TEL),该任务旨在检测人类的情感并将其相应的时间边界定位在带有校准字幕的未修剪视频中。与时间动作本地化相比,TEL提出了三个独特的挑战:1)情绪的时间动态极为多样; 2)情绪提示都嵌入了外观和复杂的情节中; 3)细粒度的时间注释是复杂且劳动密集型的。为了应对前两个挑战,我们提出了一个新颖的扩张上下文集成网络,该网络与粗细的两流体系结构。粗流通过建模多粒性时间上下文来捕获各种时间动力学。细流通过推理从粗流的多晶格时间上下文之间的依赖性来实现复杂的理解,并将它们自适应地集成到细粒度的视频段特征中。为了应对第三个挑战,我们引入了跨模式共识学习范式,该范式利用了对齐视频和字幕之间的固有语义共识,以实现弱监督的学习。我们为新的测试集提供了3,000个手动注释的时间边界,因此可以对TEL问题进行未来的研究进行定量评估。广泛的实验显示了我们方法对时间情绪定位的有效性。这项工作的存储库位于https://github.com/yyjmjc/temporal-emotion-localization-in-videos。
translated by 谷歌翻译
给定文本描述,时间语言接地(TLG)旨在本地化包含未经监控视频中指定语义的段的时间边界。 TLG本质上是一个具有挑战性的任务,因为它需要全面了解句子语义和视频内容。以前的作品可以在完全监督的设置中解决此任务,需要大量的时间注释或在通常无法实现令人满意的性能的弱监管设置中。由于手动注释是昂贵的,以应对有限的注释,我们通过纳入自我监督的学习以半监督方式解决TLG,并提出自我监督的半监督时间语言接地(S ^ 4TLG)。 S ^ 4TLG由两部分组成:(1)基于来自教师模型的预测,自适应为未标记的样本进行自适应生产即时伪标签的伪标签生成模块; (2)具有模态和模态对比度损耗的自我监督特征学习模块,以在视频内容一致性和视频文本对齐的约束下学习视频特征表示。我们对ActivityNet-CD-OOD和Charades-CD-OOD数据集进行了广泛的实验。结果表明,与完全监督的最新方法相比,我们所提出的S ^ 4TLG可以实现竞争性能,同时只需要一小部分时间注释。
translated by 谷歌翻译
Domain adaptation (DA) approaches address domain shift and enable networks to be applied to different scenarios. Although various image DA approaches have been proposed in recent years, there is limited research towards video DA. This is partly due to the complexity in adapting the different modalities of features in videos, which includes the correlation features extracted as long-term dependencies of pixels across spatiotemporal dimensions. The correlation features are highly associated with action classes and proven their effectiveness in accurate video feature extraction through the supervised action recognition task. Yet correlation features of the same action would differ across domains due to domain shift. Therefore we propose a novel Adversarial Correlation Adaptation Network (ACAN) to align action videos by aligning pixel correlations. ACAN aims to minimize the distribution of correlation information, termed as Pixel Correlation Discrepancy (PCD). Additionally, video DA research is also limited by the lack of cross-domain video datasets with larger domain shifts. We, therefore, introduce a novel HMDB-ARID dataset with a larger domain shift caused by a larger statistical difference between domains. This dataset is built in an effort to leverage current datasets for dark video classification. Empirical results demonstrate the state-of-the-art performance of our proposed ACAN for both existing and the new video DA datasets.
translated by 谷歌翻译
在本文中,我们介绍了一项新任务,口语视频接地(SVG),旨在将口语描述中所需的视频片段定位。与使用文本相比,使用音频需要模型直接利用与原始语音视频相关的有用音素和音节。此外,我们在语音音频中随机添加环境声音,进一步增加了此任务的困难并更好地模拟真实应用程序。为了纠正歧视性音素并从嘈杂的音频中提取与视频相关的信息,我们在音频预训练过程中开发了一种新颖的视频指导课程学习(VGCL),可以利用重要的视觉感知来帮助理解口语语言并抑制外部噪音。考虑到推理期间,模型无法获得地面真实视频片段,我们设计了一种课程策略,该策略将输入视频从地面真相转移到预训练期间的整个视频内容。最后,该模型可以学习如何从整个视频剪辑中提取关键的视觉信息,以帮助了解口语。此外,我们基于ActivityNet收集了第一个大规模口语视频接地数据集,该数据集称为ActivityNet语音数据集。广泛的实验表明,我们提出的视频指导课程学习可以促进预训练过程以获得相互的音频编码器,从而大大促进了口头视频接地任务的性能。此外,我们证明,在嘈杂的声音的情况下,我们的模型优于将视频与ASR转录本扎根的方法,进一步证明了我们课程策略的有效性。
translated by 谷歌翻译
当前的文本到视频检索方法(T2VR)经过培训和测试,并在视频捕获方向的数据集(例如MSVD,MSR-VTT和VATEX)上进行了测试。这些数据集的一个关键属性是,假定视频在短时间内被暂时预先修剪,而提供的字幕很好地描述了视频内容的要旨。因此,对于给定的配对视频和标题,该视频应该与标题完全相关。但是,实际上,由于查询尚不清楚,因此预处理的视频剪辑可能不包含足够的内容来完全满足查询。这表明文学与现实世界之间存在差距。为了填补空白,我们在本文中提出了一个新颖的T2VR子任务,称为部分相关的视频检索(PRVR)。未修剪的视频被认为是部分相关的W.R.T.给定的文本查询是否包含与查询相关的时刻。 PRVR旨在从大量未修剪视频中检索此类相关视频。 PRVR与单个视频时刻检索和视频语料库时刻的检索有所不同,因为后两个是要检索时刻而不是未修剪的视频。我们将PRVR作为多个实例学习(MIL)问题,同时将视频视为一袋视频片段和一袋视频帧。剪辑和帧表示不同时间尺度的视频内容。我们提出了一个多尺度的相似性学习(MS-SL)网络,该网络共同学习PRVR的剪辑规模和框架尺度相似性。在三个数据集(TVR,ActivityNet字幕和Charades-STA)上进行了广泛的实验,证明了该方法的可行性。我们还表明,我们的方法可用于改善视频语料库时刻的检索。
translated by 谷歌翻译