作为多媒体信息检索中越来越流行的任务,视频瞬间检索(VMR)旨在根据给定的语言查询从未修剪视频中定位目标时刻。以前的大多数方法都在很大程度上取决于众多手动注释(即瞬间边界),在实践中获取非常昂贵。此外,由于不同数据集之间的域间隙,直接将这些预训练的模型应用于看不见的域,这会导致显着的性能下降。在本文中,我们专注于一项新任务:跨域VMR,其中一个域中完全注重数据集(````源域'''),但是感兴趣的域(``目标域'')仅包含未通知的数据集。据我们所知,我们介绍了有关跨域VMR的第一项研究。为了解决这一新任务,我们提出了一个新型的多模式跨域比对(MMCDA)网络,以将注释知识从源域转移到目标域。但是,由于源和目标域之间的域差异以及视频和查询之间的语义差距,直接将经过训练的模型应用于目标域通常会导致性能下降。为了解决这个问题,我们开发了三个新型模块:(i)域对齐模块旨在使每种模式的不同域之间的特征分布对齐; (ii)跨模式对齐模块旨在将视频和查询特征映射到关节嵌入空间中,并将目标域不同模态之间的特征分布对齐; (iii)特定的比对模块试图获得特定帧与给定查询之间的细粒度相似性以进行最佳定位。通过共同训练这三个模块,我们的MMCDA可以学习域不变和语义一致的跨模式表示。
translated by 谷歌翻译
本文研究了时间句子接地的多媒体问题(TSG),该问题旨在根据给定的句子查询准确地确定未修剪视频中的特定视频段。传统的TSG方法主要遵循自上而下或自下而上的框架,不是端到端。他们严重依靠耗时的后处理来完善接地结果。最近,提出了一些基于变压器的方法来有效地对视频和查询之间的细粒语义对齐进行建模。尽管这些方法在一定程度上达到了显着的性能,但它们同样将视频的框架和查询的单词视为用于关联的变压器输入,未能捕获其不同水平的粒度与独特的语义。为了解决这个问题,在本文中,我们提出了一种新型的等级局部 - 全球变压器(HLGT)来利用这种层次结构信息,并模拟不同粒度的不同级别的相互作用和不同的模态之间的相互作用,以学习更多细粒度的多模式表示。具体而言,我们首先将视频和查询分为单个剪辑和短语,以通过时间变压器学习其本地上下文(相邻依赖关系)和全局相关性(远程依赖)。然后,引入了全球本地变压器,以了解本地级别和全球级别语义之间的相互作用,以提供更好的多模式推理。此外,我们开发了一种新的跨模式周期一致性损失,以在两种模式之间实施相互作用,并鼓励它们之间的语义一致性。最后,我们设计了一个全新的跨模式平行变压器解码器,以集成编码的视觉和文本特征,以进行最终接地。在三个具有挑战性的数据集上进行了广泛的实验表明,我们提出的HLGT实现了新的最新性能。
translated by 谷歌翻译
时间句子接地(TSG)是多媒体信息检索中的一项重要但具有挑战性的任务。尽管以前的TSG方法已经达到了不错的性能,但它们倾向于捕获数据集中经常出现的视频问题对的选择偏差,而不是呈现强大的多模式推理能力,尤其是对于很少出现的对。在本文中,我们研究了上述选择偏见的问题,并因此提出了一个偏见-TSG(D-TSG)模型,以过滤和消除视觉和语言方式中的负偏见,以增强模型的概括能力。具体来说,我们建议从两个角度来减轻问题:1)特征蒸馏。我们构建了一个多模式的偏见分支,以首先捕获视觉和语言偏见,然后应用一个偏差识别模块以明确识别真正的负偏见并将其从良性多模式表示中删除。 2)对比样品产生。我们构建两种类型的负样本来强制执行模型,以准确学习对齐的多模式语义并做出完整的语义推理。我们将提出的模型应用于通常和很少出现的TSG案例,并通过在三个基准数据集(ActivityNet标题,Tacos和Charades-STA)上实现最先进的性能来证明其有效性。
translated by 谷歌翻译
本文解决了自然语言视频本地化(NLVL)的问题。几乎所有现有的作品都遵循“仅一次外观”框架,该框架利用单个模型直接捕获视频疑问对之间的复杂跨和自模式关系并检索相关段。但是,我们认为这些方法忽略了理想本地化方法的两个必不可少的特征:1)帧差异:考虑正/负视频帧的不平衡,在本地化过程中突出显示正帧并削弱负面框架是有效的。 2)边界优先:为了预测确切的段边界,该模型应捕获连续帧之间更细粒度的差异,因为它们的变化通常是平滑的。为此,我们灵感来自于人类如何看待和定位一个细分市场,我们提出了一个两步的人类框架,称为掠夺 - 储存式融合(SLP)。 SLP由脱脂和排列(SL)模块和双向仔细(BP)模块组成。 SL模块首先是指查询语义,并在滤除无关的帧时从视频中选择最佳匹配的帧。然后,BP模块基于此框架构造了初始段,并通过探索其相邻帧来动态更新它,直到没有帧共享相同的活动语义为止。三个具有挑战性的基准测试的实验结果表明,我们的SLP优于最新方法,并将其定位更精确的段边界。
translated by 谷歌翻译
随着各种3D安全关键应用的关注,点云学习模型已被证明容易受到对抗性攻击的影响。尽管现有的3D攻击方法达到了很高的成功率,但它们会以明显的扰动来深入研究数据空间,这可能会忽略几何特征。取而代之的是,我们从新的角度提出了点云攻击 - 图谱域攻击,旨在在光谱域中扰动图形转换系数,该系数对应于改变某些几何结构。具体而言,利用图形信号处理,我们首先通过图形傅立叶变换(GFT)自适应地将点的坐标转换为光谱域,以进行紧凑的表示。然后,我们基于我们建议通过可学习的图形光谱滤波器扰动GFT系数的几何结构的影响。考虑到低频组件主要有助于3D对象的粗糙形状,我们进一步引入了低频约束,以限制不察觉到的高频组件中的扰动。最后,通过将扰动的光谱表示形式转换回数据域,从而生成对抗点云。实验结果证明了拟议攻击的有效性,这些攻击既有易经性和攻击成功率。
translated by 谷歌翻译
时空视频接地(STVG)是一项具有挑战性的任务,旨在根据自然语言查询在语义上在语义上定位感兴趣的对象的时空管。大多数以前的作品不仅严重依赖于更快的R-CNN提取的锚盒,而且还简单地将视频视为一系列单独的帧,因此缺乏其时间建模。取而代之的是,在本文中,我们是第一个为STVG提出的无锚框架的人,称为Gaussian基于高斯内核的交叉模态网络(GKCMN)。具体而言,我们利用每个视频框架的基于高斯内核的热图来定位与查询相关的对象。混合的串行和并行连接网络进一步开发,以利用框架之间的空间和时间关系以更好地接地。VIDSTG数据集的实验结果证明了我们提出的GKCMN的有效性。
translated by 谷歌翻译
3D动态点云提供了现实世界中的对象或运动场景的离散表示,这些对象已被广泛应用于沉浸式触发,自主驾驶,监视,\ textit {etc}。但是,从传感器中获得的点云通常受到噪声的扰动,这会影响下游任务,例如表面重建和分析。尽管为静态点云降级而做出了许多努力,但很少有作品解决动态点云降级。在本文中,我们提出了一种新型的基于梯度的动态点云降解方法,利用了梯度场估计的时间对应关系,这也是动态点云处理和分析中的基本问题。梯度场是嘈杂点云的对数概况函数的梯度,我们基于我们执行梯度上升,以使每个点收敛到下面的清洁表面。我们通过利用时间对应关系来估计每个表面斑块的梯度,在该时间对应关系中,在经典力学中搜索了在刚性运动的情况下搜索的时间对应贴片。特别是,我们将每个贴片视为一个刚性对象,它通过力在相邻框架的梯度场中移动,直到达到平衡状态,即当贴片上的梯度总和到达0时。由于梯度在该点更接近下面的表面,平衡贴片将适合下层表面,从而导致时间对应关系。最后,沿贴片中每个点的位置沿相邻帧中相应的贴片平均的梯度方向更新。实验结果表明,所提出的模型优于最先进的方法。
translated by 谷歌翻译
本文解决了颞句的接地。以前的作品通常通过学习帧级视频功能来解决此任务并将其与文本信息对齐。这些作品的一个主要限制是,由于帧级特征提取,它们未能利用具有微妙的外观差异的模糊视频帧。最近,一些方法采用更快的R-CNN来提取每帧中的详细物体特征来区分细粒的外观相似性。然而,由于对象检测模型缺乏时间建模,因此通过更快的R-CNN提取的对象级别特征遭受缺失的运动分析。为了解决这个问题,我们提出了一种新颖的运动外观推理网络(MARN),其包括动作感知和外观感知对象特征,以更好的原因对象关系来建立连续帧之间的活动。具体而言,我们首先介绍两个单独的视频编码器以将视频嵌入到相应的主导和外观 - 方面对象表示中。然后,我们开发单独的运动和外观分支,以分别学习运动引导和外观引导的对象关系。最后,来自两个分支的运动和外观信息都与用于最终接地的更多代表性的特征相关联。对两个具有挑战性的数据集(Chardes-Sta和Tacos)的广泛实验表明,我们提出的马恩在以前的最先进的方法中大大优于大幅度。
translated by 谷歌翻译
时间句地接地(TSG)是视频理解的关键和基础。虽然现有方法训练具有大量数据的精心设计的深网络,但我们发现他们可以轻松忘记由于偏移数据分布而在训练阶段的很少出现的情况,这影响了模型概括并导致不希望的表现。为了解决这个问题,我们提出了一个内存增强的网络,称为内存引导的语义学习网络(MGSL-net),它学习并记住在TSG任务中的很少出现的内容。具体而言,MGSL-Net由三个主要部件组成:跨模型互动模块,存储器增强模块和异构注意力模块。我们首先将给定的视频查询对与跨模型图卷积网络对齐,然后利用内存模块在域特定的持久存储器中记录跨模板共享语义功能。在培训期间,内存插槽与常见和罕见的案例动态相关,减轻了遗忘问题。在测试中,可以通过检索存储的存储器来提高罕见的情况,从而产生更好的概括。最后,使用异构注意力模块在视频和查询域中集成增强的多模态特征。三个基准测试的实验结果表明了我们对效率和效率的方法的优势,这在整个数据集上显着提高了准确性,而且在罕见的情况下也是如此。
translated by 谷歌翻译
虽然近年来,在2D图像领域的攻击和防御中,许多努力已经探讨了3D模型的脆弱性。现有的3D攻击者通常在点云上执行点明智的扰动,从而导致变形的结构或异常值,这很容易被人类察觉。此外,它们的对抗示例是在白盒设置下产生的,当转移到攻击远程黑匣子型号时经常遭受低成功率。在本文中,我们通过提出一种新的难以察觉的转移攻击(ITA):1)难以察觉的3D点云攻击来自两个新的和具有挑战性的观点:1)难以察觉:沿着邻域表面的正常向量限制每个点的扰动方向,导致产生具有类似几何特性的示例,从而增强了难以察觉。 2)可转移性:我们开发了一个对抗性转变模型,以产生最有害的扭曲,并强制实施对抗性示例来抵抗它,从而提高其对未知黑匣子型号的可转移性。此外,我们建议通过学习更辨别的点云表示来培训更强大的黑盒3D模型来防御此类ITA攻击。广泛的评估表明,我们的ITA攻击比最先进的人更令人无法察觉和可转让,并验证我们的国防战略的优势。
translated by 谷歌翻译