本文介绍了一种基于纯变压器的方法,称为视频动作识别的多模态视频变压器(MM-VIT)。与仅利用解码的RGB帧的其他方案不同,MM-VIT专门在压缩视频域中进行操作,并利用所有容易获得的模式,即I帧,运动向量,残差和音频波形。为了处理从多种方式提取的大量时空令牌,我们开发了几种可扩展的模型变体,它们将自我关注分解在空间,时间和模态尺寸上。此外,为了进一步探索丰富的模态互动及其效果,我们开发并比较了可以无缝集成到变压器构建块中的三种不同的交叉模态注意力机制。关于三个公共行动识别基准的广泛实验(UCF-101,某事-V2,Kinetics-600)证明了MM-VIT以效率和准确性的最先进的视频变压器,并且表现更好或同样地表现出对于具有计算重型光学流的最先进的CNN对应物。
translated by 谷歌翻译
基于音频视频的多模式情绪识别由于其强大的性能引起了很多人。大多数现有方法都侧重于提出不同的跨模态融合策略。然而,这些策略在不同模式的特征中引入了冗余,而无需完全考虑模态信息之间的互补特性,并且这些方法不保证在跨跨和间间交互期间的原始语义信息的非损失。在本文中,我们提出了一种基于自我关注和残余结构(CFN-SR)的新型跨模型融合网络,用于多式联情绪识别。首先,我们对音频和视频模型执行表示学习,以通过有效的ResNext和1D CNN获得两个模态的语义特征。其次,我们将两个模态的特征分别馈送到跨模块块中,以确保通过自我关注机制和残余结构来确保信息的有效互补性和完整性。最后,我们通过用原始表示拼接获得的融合表示来获得情绪的产出。为了验证所提出的方法的有效性,我们对Ravdess数据集进行实验。实验结果表明,拟议的CFN-SR实现了最先进的,并以26.30M参数获得75.76%的精度。我们的代码可在https://github.com/skeletonnn/cfn-sr获得。
translated by 谷歌翻译
在Enocentric视频中,行动在快速连续中发生。我们利用了行动的时间背景,并提出了一种学习参加周围行动的方法,以提高识别性能。为了纳入时间上下文,我们提出了一种基于变换器的多模式模型,可将视频和音频作为输入模式摄取,具有显式语言模型,提供动作序列上下文来增强预测。我们在史诗厨房和EGTEA数据集上测试我们的方法,报告最先进的性能。我们的消融展示了利用时间上下文的优势以及将音频输入模态和语言模型结合到Rescore预测。代码和模型在:https://github.com/ekazakos/mtcn。
translated by 谷歌翻译
人类通过不同的渠道表达感受或情绪。以语言为例,它在不同的视觉声学上下文下需要不同的情绪。为了精确了解人类意图,并减少歧义和讽刺引起的误解,我们应该考虑多式联路信号,包括文本,视觉和声学信号。至关重要的挑战是融合不同的特征模式以进行情绪分析。为了有效地融合不同的方式携带的信息,更好地预测情绪,我们设计了一种基于新的多主题的融合网络,这是由任何两个对方式之间的相互作用不同的观察来启发,它们是不同的,并且它们不同样有助于最终的情绪预测。通过分配具有合理关注和利用残余结构的声学 - 视觉,声学 - 文本和视觉文本特征,我们参加了重要的特征。我们对四个公共多模式数据集进行了广泛的实验,包括中文和三种英文中的一个。结果表明,我们的方法优于现有的方法,并可以解释双模相互作用在多种模式中的贡献。
translated by 谷歌翻译
我们可以训练一个能够处理多个模态和数据集的单个变压器模型,同时分享几乎所有的学习参数?我们呈现Polyvit,一种培训的模型,在图像,音频和视频上接受了讲述这个问题。通过在单一的方式上培训不同的任务,我们能够提高每个任务的准确性,并在5个标准视频和音频分类数据集中实现最先进的结果。多种模式和任务上的共同训练Polyvit会导致一个更具参数效率的模型,并学习遍历多个域的表示。此外,我们展示了实施的共同培训和实用,因为我们不需要调整数据集的每个组合的超级参数,但可以简单地调整来自标准的单一任务培训。
translated by 谷歌翻译
我们呈现了基于纯变压器的视频分类模型,在图像分类中最近的近期成功进行了借鉴。我们的模型从输入视频中提取了时空令牌,然后由一系列变压器层编码。为了处理视频中遇到的令牌的长序列,我们提出了我们模型的几种有效的变体,它们将输入的空间和时间维构建。虽然已知基于变换器的模型只有在可用的大型训练数据集时才有效,但我们展示了我们如何在训练期间有效地规范模型,并利用预先训练的图像模型能够在相对小的数据集上训练。我们进行彻底的消融研究,并在包括动力学400和600,史诗厨房,东西的多个视频分类基准上实现最先进的结果,其中 - 基于深度3D卷积网络的现有方法表现出优先的方法。为了促进进一步的研究,我们在https://github.com/google-research/scenic/tree/main/scenic/projects/vivit发布代码
translated by 谷歌翻译
多模式分析最近对情感计算的兴趣很大,因为它可以提高情感识别对孤立的单模态方法的整体准确性。多式联情绪识别最有效的技术有效地利用各种和互补的信息来源,例如面部,声带和生理方式,提供全面的特征表示。在本文中,我们专注于基于视频中提取的面部和声乐方式的融合的尺寸情感识别,其中可以捕获复杂的时空关系。大多数现有的融合技术依赖于经常性网络或传统的注意机制,这些机制没有有效地利用视听(A-V)方式的互补性质。我们介绍了一种跨关注融合方法来提取A-V模式的显着特征,允许准确地预测连续值的价值和唤醒。我们的新的跨关节A-V融合模型有效利用了模态关系。特别地,它计算跨关注权重,以专注于各个模态跨越更贡献的特征,从而组合贡献特征表示,然后将其馈送到完全连接的层以用于预测价和唤醒。所提出的方法的有效性在通过Recolat和疲劳(私人)数据集中的视频上进行了实验验证。结果表明,我们的跨关节A-V融合模型是一种经济高效的方法,优于最先进的融合方法。代码可用:\ url {https://github.com/praveena2j/cross-attentional-av-fusion}
translated by 谷歌翻译
分类组级情绪是由于视频的复杂性,其中不仅是视觉的,而且应该考虑音频信息。对多模式情感识别的现有工作是使用庞大的方法,其中使用掠夺性神经网络作为特征提取器,然后提取的特征被融合。然而,这种方法不考虑多模式数据的属性,并且特征提取器不能用于对整体模型精度不利的特定任务的微调。为此,我们的影响是双重的:(i)我们训练模型端到端,这允许早期的神经网络层考虑到后来的两种方式的融合层; (ii)我们模型的所有层都针对情感认可的下游任务进行了微调,因此无需从头划伤训练神经网络。我们的模型实现了最佳验证精度为60.37%,比VGAF数据集基线更高,比VGAF数据集基线更高,并且与现有工程,音频和视频模式具有竞争力。
translated by 谷歌翻译
大规模未标记数据集的预培训显示了计算机视觉和自然语言处理领域的令人印象深刻的性能改进。鉴于大规模教学视频数据集的出现,预训练视频编码器的常见策略是使用随附的语音作为弱监管。但是,由于演讲用于监督预培训,视频编码器从未见过,这不会学会处理该模态。我们解决了当前预训练方法的这种缺点,这未能利用口语语言中的丰富的线索。我们的提议是使用所有可用的视频模型作为监督,即外观,声音和转录语音预先列车。我们在输入中掩盖了整个模态并使用其他两个模态预测它。这鼓励每个码头与其他方式合作,我们的视频编码器学会处理外观和音频以及语音。我们展示了我们在How2R,YouScook2和浓缩电影数据集上视频检索的“模态屏蔽”预培训方法的卓越性能。
translated by 谷歌翻译
变压器架构已经带来了计算语言领域的根本变化,这已经由经常性神经网络主导多年。它的成功还意味着具有语言和愿景的跨模型任务的大幅度变化,许多研究人员已经解决了这个问题。在本文中,我们审查了该领域中的一些最关键的里程碑,以及变压器架构如何纳入Visuol语言跨模型任务的整体趋势。此外,我们讨论了当前的局限性,并推测了我们发现迫在眉睫的一些前景。
translated by 谷歌翻译
睡眠是一种基本的生理过程,对于维持健康的身心至关重要。临床睡眠监测的黄金标准是多核桃摄影(PSG),基于哪个睡眠可以分为五个阶段,包括尾脉冲睡眠(REM睡眠)/非REM睡眠1(N1)/非REM睡眠2 (n2)/非REM睡眠3(n3)。然而,PSG昂贵,繁重,不适合日常使用。对于长期睡眠监测,无处不在的感测可以是解决方案。最近,心脏和运动感测在分类三阶段睡眠方面变得流行,因为两种方式都可以从研究级或消费者级设备中获得(例如,Apple Watch)。但是,为最大准确性融合数据的最佳仍然是一个打开的问题。在这项工作中,我们综合地研究了深度学习(DL)的高级融合技术,包括三种融合策略,三个融合方法以及三级睡眠分类,基于两个公共数据集。实验结果表明,通过融合心脏/运动传感方式可以可靠地分类三阶段睡眠,这可能成为在睡眠中进行大规模睡眠阶段评估研究或长期自动跟踪的实用工具。为了加快普遍存在/可穿戴计算社区的睡眠研究的进展,我们制作了该项目开源,可以在:https://github.com/bzhai/ubi-sleepnet找到代码。
translated by 谷歌翻译
我们考虑使用自动监督学习系统的数据表,不仅包含数字/分类列,而且还包含一个或多个文本字段。在这里,我们组装了18个多模式数据表,每个数据表都包含一些文本字段并源于真正的业务应用程序。我们的公开的基准使研究人员能够通过数字,分类和文本功能全面评估自己的监督学习方法。为了确保在所有18个数据集上执行良好的任何单一建模策略将作为多式化文本/表格自动机的实用基础,我们的基准中的不同数据集在:样本大小,问题类型(分类和回归任务组合),功能数量(数据集之间的文本列的数量范围为1到28),以及预测信号如何在文本与数字/分类特征(以及预测相互作用)之间分解。在此基准测试中,我们评估各种直接的流水线来模拟这些数据,包括标准的两阶段方法,其中NLP用于团体化文本,然后可以应用表格数据的自动机。与人类数据科学团队相比,在我们的基准测试(堆叠与各种树模型的堆栈组合多峰变压器的堆栈)的全自动方法也可以在两个机器预测竞赛中符合原始文本/表格数据和第二次在卡格的Mercari价格建议挑战中的地方(2380支球队)。
translated by 谷歌翻译
视频变压器在主要视频识别基准上取得了令人印象深刻的结果,但它们遭受了高计算成本。在本文中,我们呈现Stts,一个令牌选择框架,动态地在输入视频样本上调节的时间和空间尺寸的几个信息令牌。具体而言,我们将令牌选择作为一个排名问题,估计每个令牌通过轻量级选择网络的重要性,并且只有顶级分数的人将用于下游评估。在时间维度中,我们将最相关的帧保持对识别作用类别的帧,而在空间维度中,我们确定特征映射中最辨别的区域,而不会影响大多数视频变换器中以分层方式使用的空间上下文。由于令牌选择的决定是不可差异的,因此我们采用了一个扰动最大的可分辨率Top-K运算符,用于最终培训。我们对动力学-400进行广泛的实验,最近推出的视频变压器骨架MVIT。我们的框架实现了类似的结果,同时需要计算20%。我们还表明我们的方法与其他变压器架构兼容。
translated by 谷歌翻译
识别和本地化视频中的事件是视频理解的基本任务。由于事件可能发生在听觉和视觉方式中,因此多式联合的详细感知对于完全的场景理解至关重要。最先前的作品试图从整体角度分析视频。但是,它们不考虑多个尺度的语义信息,这使得模型难以定位各种长度的事件。在本文中,我们提供了一个多模式金字塔注意网络(MM-PYRAMID),用于捕获和集成多级时间特征,用于视听事件定位和视听视频解析。具体而言,我们首先提出了专注特征金字塔模块。该模块通过多个堆叠金字塔单元捕获时间金字塔特征,每个单元都由固定尺寸的注意力块和扩张的卷积块组成。我们还设计了一种自适应语义融合模块,它利用单位级注意块和选择性融合块以交互地集成金字塔特征。对视听事件定位的广泛实验和虚线监督的视听视频解析任务验证了我们方法的有效性。
translated by 谷歌翻译
文本和视频之间交叉模态检索的任务旨在了解视觉和语言之间的对应关系。现有研究遵循基于文本和视频嵌入的测量文本视频相似度的趋势。在常见的做法中,通过将视频帧馈送到用于全球视觉特征提取的视频帧或仅通过使用图形卷积网络使用本地细粒度的框架区域来实现简单的语义关系来构造视频表示。然而,这些视频表示在学习视频表示中的视觉组件之间没有充分利用时空关系,从而无法区分具有相同视觉组件但具有不同关系的视频。为了解决这个问题,我们提出了一种视觉时空关系增强的网络(VSR-Net),这是一种新的跨模型检索框架,其考虑组件之间的空间视觉关系,以增强桥接文本 - 视频模型中的全局视频表示。具体地,使用多层时空变压器来编码视觉时空关系,以学习视觉关系特征。我们将全局视觉和细粒度的关系功能与两个嵌入空格上的文本功能对齐,用于交叉模态文本 - 视频检索。在MSR-VTT和MSVD数据集中进行了广泛的实验。结果表明了我们提出的模型的有效性。我们将发布促进未来研究的代码。
translated by 谷歌翻译
最近,视频变压器在视频理解方面取得了巨大成功,超过了CNN性能;然而,现有的视频变换器模型不会明确地模拟对象,尽管对象对于识别操作至关重要。在这项工作中,我们呈现对象区域视频变换器(Orvit),一个\ emph {对象为中心}方法,它与直接包含对象表示的块扩展视频变压器图层。关键的想法是从早期层开始融合以对象形式的表示,并将它们传播到变压器层中,从而影响整个网络的时空表示。我们的orvit块由两个对象级流组成:外观和动态。在外观流中,“对象区域关注”模块在修补程序上应用自我关注和\ emph {对象区域}。以这种方式,Visual对象区域与统一修补程序令牌交互,并通过上下文化对象信息来丰富它们。我们通过单独的“对象 - 动态模块”进一步模型对象动态,捕获轨迹交互,并显示如何集成两个流。我们在四个任务和五个数据集中评估我们的模型:在某事物中的某些问题和几次射击动作识别,以及在AVA上的某些时空动作检测,以及在某种东西上的标准动作识别 - 某种东西 - 东西,潜水48和EPIC-Kitchen100。我们在考虑的所有任务和数据集中展示了强大的性能改进,展示了将对象表示的模型的值集成到变压器体系结构中。对于代码和预用模型,请访问项目页面\ url {https://roeiherz.github.io/orvit/}
translated by 谷歌翻译
我们呈现了一个用于学习视听表示的自我监督的框架。在我们的框架中引入了一种小说概念,其中除了学习模态和标准的“同步的”跨模型关系之外,riscross也会学习“异步”的跨模式关系。我们展示通过放松音频和视觉模态之间的时间同步性,网络了解强劲的时间不变的表示。我们的实验表明,音频和视觉方式的强大增强,可放松交叉模态时间同步优化性能。要预先绘制我们提出的框架,我们使用具有不同大小,动力学,动力学-400和augioset的不同数据集。学习的表示是在许多下游任务中评估的,即行动识别,声音分类和检索。 Crisscross显示了动作识别的最先进的性能(UCF101和HMDB51)和声音分类(ESC50)。将公开可用的代码和预赠品模型。
translated by 谷歌翻译
跨模型检索已成为仅限文本搜索引擎(SE)最重要的升级之一。最近,通过早期交互的成对文本图像输入的强大表示,Vision-Language(VL)变压器的准确性已经表现优于文本图像检索的现有方法。然而,当使用相同的范例来推理时,VL变压器的效率仍然太低,不能应用于真正的跨模型SE。通过人类学习机制和使用跨模型知识的启发,本文提出了一种新颖的视觉语言分解变压器(VLDEFormer),这大大提高了VL变压器的效率,同时保持了它们的出色准确性。通过所提出的方法,跨模型检索分为两个阶段:VL变压器学习阶段和V​​L分解阶段。后期阶段发挥单一模态索引的作用,这在某种程度上是文本SE的术语索引。该模型从早期交互预训练中学习跨模型知识,然后将其分解为单个编码器。分解只需要监督和达到1000美元+ $倍的小目标数据集,并且少于0.6美元\%平均召回。 VLDEFormer还优于COCO和FLICKR30K的最先进的视觉语义嵌入方法。
translated by 谷歌翻译
舞蹈挑战现在是Tiktok这样的视频社区中的病毒性。一旦挑战变得流行,就会在几天内上传成千上万的短型视频。因此,来自舞蹈挑战的病毒预测具有很大的商业价值,具有广泛的应用,例如智能推荐和普及促销。本文提出了一种集成骨骼,整体外观,面部和景区提示的新型多模态框架,以综合舞蹈病毒预测。为了模拟身体运动,我们提出了一种层次地改进了时空骨架图的金字塔骨架图卷积网络(PSGCN)。同时,我们介绍了一个关系时间卷积网络(RTCN),以利用非局部时间关系利用外观动态。最终提出了一种细心的融合方法,以自适应地从不同方式汇总预测。为了验证我们的方法,我们介绍了一个大规模的病毒舞蹈视频(VDV)数据集,其中包含超过4,000个病毒舞蹈挑战的舞蹈剪辑。 VDV数据集的广泛实验证明了我们模型的功效。对VDV数据集的广泛实验良好地证明了我们方法的有效性。此外,我们表明,可以从我们的模型中派生类似多维推荐和动作反馈等的短视频应用。
translated by 谷歌翻译
视频字幕的规范方法决定了用于从离线提取的密集视频特征学习的标题生成模型。这些特征提取器通常在以固定帧速率采样的视频帧上操作,并且通常在图像/视频理解任务上培训,而不适用于视频标题数据。在这项工作中,我们展示了Swinbert,一种用于视频字幕的基于端到端的变换器的模型,它将视频帧贴片直接作为输入,并输出自然语言描述。我们的方法代替利用多个2D / 3D特征提取器,该方法采用视频变压器来编码可适应可变长度的视频输入,而无需专用设计,可以针对不同的帧速率进行专用设计。基于该模型架构,我们表明视频标题可以从更密集地采样的视频帧中受益匪浅,而不是以前的成功,用于视频和语言理解任务的稀疏采样视频帧(例如,视频问题应答)。此外,为了避免连续视频帧中固有的冗余,我们建议通过更好的远程视频序列建模来自适应地学习稀疏的注意掩模并优化任务特定性能改进。通过对5个视频字幕数据集的广泛实验,我们展示了Swinbert通过较大的余量来实现对以前的方法的整体性能改进。此外,学习的稀疏注意力掩模将限制推向新的技术,可以在不同的视频长度和不同的数据集之间传输。
translated by 谷歌翻译