大多数现有的视觉语言预训练方法侧重于在预先绘制期间了解解决任务并使用伯特样目标(屏蔽语言建模和图像 - 文本匹配)。虽然它们在许多理解下游任务中表现良好,但是,例如,视觉问题应答,图像文本检索和视觉存在,它们没有生成的能力。为了解决这个问题,我们为视觉语言理解和一代(UNIVL)提出了统一的多模式预培训。建议的UNIVL能够处理理解任务和生成任务。我们增强了现有的预押范例,只使用带有因果面罩的随机掩模,即掩盖未来令牌的三角面具,使得预先接受的模型可以通过设计具有自动发育能力。我们将几个以前的理解任务作为文本生成任务制定,并建议使用基于提示的方法来进行不同的下游任务进行微调。我们的实验表明,在使用相同型号的同时了解任务和生成任务之间存在权衡,以及改善两个任务的可行方式是使用更多数据。我们的UNIVL框架可以在近似验证任务和生成任务中获得最近的愿景预培训方法的性能。此外,我们开展了基于及时的FineTuning更具数据效率 - 在几次拍摄场景中表现出差异的方法。
translated by 谷歌翻译
最近的研究表明,在一个白盒模型上手工制作的对抗性示例可用于攻击其他黑箱型号。这种跨模型可转换性使得执行黑匣子攻击可行,这对现实世界的DNN应用程序提出了安全性问题。尽管如此,现有的作品主要专注于调查跨不同深层模型的对抗性可转移,该模型共享相同的输入数据模型。从未探索过对抗扰动的跨莫代尔转移性。本文研究了不同方式的对抗性扰动的可转移性,即利用在白盒图像模型上产生的对抗扰动,以攻击黑盒视频模型。具体而言,通过观察到图像和视频帧之间的低级特征空间是相似的,我们提出了一种简单但有效的跨模型攻击方法,名称为图像到视频(I2V)攻击。通过最小化来自对手和良性示例的预先接受的图像模型的特征之间的特征之间的余弦相似性来生成对抗性帧,然后组合生成的对抗性帧以对视频识别模型进行黑盒攻击。广泛的实验表明,I2V可以在不同的黑匣子视频识别模型上实现高攻击成功率。在动力学-400和UCF-101上,I2V分别实现了77.88%和65.68%的平均攻击成功率,阐明了跨越模态对抗攻击的可行性。
translated by 谷歌翻译
本文研究了视频变压器的BERT预借鉴。考虑到近期图像变形金刚的伯爵预借鉴成功,这是一个简单但值得学习的延伸。我们介绍了Decouples将视频表示学习学习的BEVT进入空间代表学习和时间动态学习。特别地,BEVT首先在图像数据上执行屏蔽图像建模,然后在视频数据上与屏蔽视频建模联合进行屏蔽图像建模。这种设计具有两个观察的动机:1)在图像数据集上学习的变压器提供了体面的空间前沿,可以缓解视频变压器的学习,这通常是从划痕训练的计算密集型的时间。 2)鉴别的线索,即空间和时间信息,需要在不同的视频中进行正确的预测,由于阶级的阶级和阶级际变化而不同。我们对三个具有挑战性的视频基准进行了广泛的实验,其中BEVT达到了非常有前途的结果。在动力学400上,哪些识别主要依赖于歧视性空间表示,BEVT达到了强大的监督基线的可比结果。在某种东西 - V2和潜水48上,其中包含依靠时间动态的视频,BEVT优于所有替代基准,分别实现了70.6%和86.7%的最新性能。
translated by 谷歌翻译
基于自我关注机制的顶部,视觉变压器最近在各种视觉任务上表现出显着的性能。虽然实现出色的性能,但它们仍然需要相对密集的计算成本,随着斑块的数量,自我关注头和变压器块增加而剧烈缩放。在本文中,我们争辩说,由于图像的变化大,因此它们对贴片之间的长距离依赖性建模的需要不同。为此,我们介绍了一个Adavit,一个自适应计算框架,学习在每次输入的基础上派生在整个骨干内的修补程序,自我注意力头和变压器块的使用策略,旨在提高视觉变压器的推理效率图像识别的最小精度降低。以端到端的方式与变压器骨架一起优化,轻量级决策网络连接到骨架上,以便在飞行中产生决定。关于ImageNet的广泛实验表明,与最先进的视觉变压器相比,我们的方法对效率的提高超过了2倍的效率,只有0.8%的准确性,实现了在不同的计算预算上的良好效率/准确性权衡权衡。我们进一步对学习使用政策进行了定量和定性分析,并对视觉变压器的冗余提供了更多的见解。
translated by 谷歌翻译
视频变压器在主要视频识别基准上取得了令人印象深刻的结果,但它们遭受了高计算成本。在本文中,我们呈现Stts,一个令牌选择框架,动态地在输入视频样本上调节的时间和空间尺寸的几个信息令牌。具体而言,我们将令牌选择作为一个排名问题,估计每个令牌通过轻量级选择网络的重要性,并且只有顶级分数的人将用于下游评估。在时间维度中,我们将最相关的帧保持对识别作用类别的帧,而在空间维度中,我们确定特征映射中最辨别的区域,而不会影响大多数视频变换器中以分层方式使用的空间上下文。由于令牌选择的决定是不可差异的,因此我们采用了一个扰动最大的可分辨率Top-K运算符,用于最终培训。我们对动力学-400进行广泛的实验,最近推出的视频变压器骨架MVIT。我们的框架实现了类似的结果,同时需要计算20%。我们还表明我们的方法与其他变压器架构兼容。
translated by 谷歌翻译
我们研究了视觉变压器的培训,用于半监督图像分类。变形金刚最近在众多监督的学习任务中表现出令人印象深刻的表现。令人惊讶的是,我们发现视觉变形金刚在半监督的想象中心设置上表现不佳。相比之下,卷积神经网络(CNNS)实现了小标记数据制度的卓越结果。进一步调查揭示了原因是CNN具有强大的空间归纳偏差。灵感来自这一观察,我们介绍了一个联合半监督学习框架,半统一,其中包含变压器分支,卷积分支和精心设计的融合模块,用于分支之间的知识共享。卷积分支在有限监督数据上培训,并生成伪标签,以监督变压器分支对未标记数据的培训。关于Imagenet的广泛实验表明,半统一达到75.5 \%的前1个精度,优于最先进的。此外,我们显示Semifirmer是一般框架,与大多数现代变压器和卷积神经结构兼容。
translated by 谷歌翻译
基于关注的编码器 - 解码器框架在现场文本识别中变得流行,主要是由于其在从视觉和语义域集成识别线索方面的优越性。然而,最近的研究表明,这两个线索可能在困难的文本中错位(例如,具有稀有文本形状)并引入诸如角色位置的约束来缓解问题。尽管有一定的成功,但无内容的位置嵌入稳定地与有意义的本地图像区域嵌入。在本文中,我们提出了一种名为多域字符距离感知(MDCDP)的新型模块,以建立视觉和语义相关位置编码。 MDCDP使用位置嵌入在注意机制后查询视觉和语义功能。它自然地编码了位置线索,其描述了字符之间的视觉和语义距离。我们开发一个名为CDISTNET的新型架构,堆叠MDCDP几次以指导精确的距离建模。因此,即使呈现的各种困难,视觉语义对准也很好地建造。我们将CDISTNET应用于两个增强的数据集和六个公共基准。实验表明,CDISTNET实现了最先进的识别准确性。虽然可视化也表明CDISTNET在视觉和语义域中实现了适当的注意本地化。我们将在验收时发布我们的代码。
translated by 谷歌翻译
最近的研究表明,深神经网络(DNN)易受对抗的对抗性斑块,这引入了对输入的可察觉而且局部化的变化。尽管如此,现有的方法都集中在图像上产生对抗性补丁,视频中的对应于视频的探索。与图像相比,攻击视频更具挑战性,因为它不仅需要考虑空间线索,而且需要考虑时间线索。为了缩短这种差距,我们在本文中介绍了一种新的对抗性攻击,子弹屏幕评论(BSC)攻击,攻击了BSC的视频识别模型。具体地,通过增强学习(RL)框架产生对抗性BSC,其中环境被设置为目标模型,并且代理商扮演选择每个BSC的位置和透明度的作用。通过不断查询目标模型和接收反馈,代理程序逐渐调整其选择策略,以实现具有非重叠BSC的高鬼速。由于BSC可以被视为一种有意义的补丁,将它添加到清洁视频不会影响人们对视频内容的理解,也不会引起人们的怀疑。我们进行广泛的实验,以验证所提出的方法的有效性。在UCF-101和HMDB-51数据集中,我们的BSC攻击方法可以在攻击三个主流视频识别模型时达到约90 \%的愚蠢速率,同时仅在视频中封闭\无文无线8 \%区域。我们的代码可在https://github.com/kay -ck/bsc-attack获得。
translated by 谷歌翻译
虽然基于深度学习的视频识别模型取得了显着的成功,但它们易于通过在清洁视频样本上添加人难以扰动而产生的对抗性示例。如最近的研究所述,对抗性示例是可转换的,这使得对现实世界应用中的黑匣子攻击是可行的。然而,当攻击其他视频模型和基于转移的视频模型的转移攻击时,大多数现有的对抗性攻击方法具有差的可转移性仍未开发。为此,我们建议促进对视频识别模型的黑匣子攻击的视频逆势示例的可转移性。通过广泛的分析,我们发现不同的视频识别模型依赖于不同的鉴别性时间模式,导致视频逆势示例的可转移性差。这使我们引入了延时翻译攻击方法,该方法优化了一组时间翻译视频剪辑上的对抗扰动。通过在翻译视频中产生对抗性示例,所得到的对手示例对白盒模型中存在的时间模式不太敏感,因此可以更好地转移。在动力学-400数据集和UCF-101数据集上的广泛实验表明,我们的方法可以显着提高视频逆势示例的可转移性。对于对视频识别模型的基于转移的攻击,在UCF-101上实现了动力学-400和48.60%的61.56%的平均攻击成功率。代码可在https://github.com/zhipeng-wei/tt上获得。
translated by 谷歌翻译
给定文本描述,时间语言接地(TLG)旨在本地化包含未经监控视频中指定语义的段的时间边界。 TLG本质上是一个具有挑战性的任务,因为它需要全面了解句子语义和视频内容。以前的作品可以在完全监督的设置中解决此任务,需要大量的时间注释或在通常无法实现令人满意的性能的弱监管设置中。由于手动注释是昂贵的,以应对有限的注释,我们通过纳入自我监督的学习以半监督方式解决TLG,并提出自我监督的半监督时间语言接地(S ^ 4TLG)。 S ^ 4TLG由两部分组成:(1)基于来自教师模型的预测,自适应为未标记的样本进行自适应生产即时伪标签的伪标签生成模块; (2)具有模态和模态对比度损耗的自我监督特征学习模块,以在视频内容一致性和视频文本对齐的约束下学习视频特征表示。我们对ActivityNet-CD-OOD和Charades-CD-OOD数据集进行了广泛的实验。结果表明,与完全监督的最新方法相比,我们所提出的S ^ 4TLG可以实现竞争性能,同时只需要一小部分时间注释。
translated by 谷歌翻译