在本文中,我们专注于单次符号发现的任务,即给定孤立的符号(查询)的示例,我们希望识别是否在连续,共同铰接的手语视频中出现此标志(目标)。为了实现这一目标,我们提出了一个转换器的网络,称为SignLookup。我们使用3D卷积神经网络(CNNS)来提取视频剪辑的时空表示。为了解决查询和目标视频之间的时间尺度差异,我们使用不同的帧级级别构造来自单个视频剪辑的多个查询。在这些查询剪辑中应用自我关注以模拟连续刻度空间。我们还在目标视频上使用另一个自我关注模块来学习序列内的上下文。最后,使用相互关注来匹配时间尺度来定位目标序列内的查询。广泛的实验表明,无论签名者的外观如何,所提出的方法不仅可以可靠地识别连续视频中的孤立的标志,但也可以概括不同的标志语言。通过利用注意机制和自适应功能,我们的模型在符号发现任务上实现了最先进的性能,精度高达96%,在具有挑战性的基准数据集,并显着优于其他方法。
translated by 谷歌翻译
最近,手语研究人员已转向手语解释的电视广播,包括(i)连续签名的视频和(ii)与音频内容相对应的字幕,作为易于使用和大规模的培训数据来源。此类数据可用性的一个关键挑战是缺乏标志注释。利用这种弱对准数据的先前工作仅发现字幕中的关键字与单个符号之间的稀疏对应关系。在这项工作中,我们提出了一个简单,可扩展的框架,以极大地增加自动注释的密度。我们的贡献如下:(1)我们通过使用同义词和字幕签名对齐来显着改善先前的注释方法; (2)我们将标志识别模型中的伪标签的价值作为标志发现的方式; (3)我们提出了一种新的方法,以增加基于内域示例的已知和未知类别的注释; (4)在Bobsl BSL手语语料库上,我们将自信自动注释的数量从670K增加到5M。我们将这些注释公开用于支持手语研究社区。
translated by 谷歌翻译
可以突出显示可以有效地搜索一牌语视频集合的系统作为手语技术的有用应用。然而,在单个关键字超越各个关键字超出视频的问题已经受到文学中的有限关注。为了解决这个差距,在这项工作中,我们介绍了使用自由形式文本查询的手语检索的任务:给定书面查询(例如,句子)和大量的手语视频,目标是找到签名视频在最符合书面查询的集合中。我们建议通过在最近推出的大型How2sign数据集(ASL)上学习跨模型嵌入式来解决这项任务。我们确定系统性能的关键瓶颈是标志视频嵌入的质量,其缺乏标记的训练数据的稀缺。因此,我们提出了迭代对齐的框架,用于交错迭代轮符号斑点和特征对齐,以扩展可用培训数据的范围和规模。我们验证了通过改进签名识别和建议的视频检索任务的嵌入强大的标志视频嵌入的稳健标志视频的有效性。
translated by 谷歌翻译
在这项工作中,我们介绍了BBC-oxford英国手语(Bobsl)数据集,这是英国手语的大规模视频集合(BSL)。Bobsl是一个基于以前工作中引入的BSL-1K数据集的扩展和公开发布的数据集。我们描述了数据集的动机,以及统计和可用注释。我们进行实验,为标志识别,手语对齐和手语翻译的任务提供基线。最后,我们从机器学习和语言学的角度描述了数据的几个优势和局限,注意数据集中存在的偏差源,并在手语技术背景下讨论Bobsl的潜在应用。数据集可在https://www.robots.ox.ac.uk/~vgg/data/bobsl/处获得。
translated by 谷歌翻译
尽管完全监督的人类骨架序列建模成功,但使用自我监督的预训练进行骨架序列表示学习一直是一个活跃的领域,因为很难在大规模上获取特定于任务的骨骼注释。最近的研究重点是使用对比学习学习视频级别的时间和歧视性信息,但忽略了人类骨骼的层次空间时间。与视频级别的这种表面监督不同,我们提出了一种自我监督的分层预训练方案,该方案纳入了基于层次变压器的骨骼骨骼序列编码器(HI-TRS),以明确捕获空间,短期和长期和长期框架,剪辑和视频级别的时间依赖性分别。为了通过HI-TR评估提出的自我监督预训练方案,我们进行了广泛的实验,涵盖了三个基于骨架的下游任务,包括动作识别,动作检测和运动预测。根据监督和半监督评估协议,我们的方法实现了最新的性能。此外,我们证明了我们的模型在训练阶段中学到的先验知识具有强大的下游任务的转移能力。
translated by 谷歌翻译
连续的手语识别(CSLR)是一项具有挑战性的研究任务,因为对手语数据的时间顺序缺乏准确的注释。最近流行的用法是基于CSLR的“ CNN + RNN”的混合模型。但是,当在这些作品中提取时间特征时,大多数方法都使用固定的时间接受字段,并且不能很好地提取每个手语单词的时间功能。为了获得更准确的时间特征,本文提出了一个多尺度的时间网络(MSTNET)。网络主要由三个部分组成。重新连接和两个完全连接(FC)层构成框架特征提取部分。时间方面的特征提取部分通过首先使用拟议的多尺度时间块(MST-block)提高不同尺度的时间功能来进行时间特征学习,以提高时间建模能力,然后进一步编码不同的时间特征。通过变压器模块缩放以获得更准确的时间特征。最后,拟议的多级连接派时间分类(CTC)损失零件用于训练以获得识别结果。多级CTC损失可以更好地学习和更新CNN中的浅网络参数,该方法没有参数增加,并且可以灵活地嵌入其他模型中。两个公开可用数据集的实验结果表明,我们的方法可以在没有任何先验知识的情况下以端到端的方式有效地提取手语特征,从而提高CSLR的准确性并实现竞争成果。
translated by 谷歌翻译
手语翻译(SLT),它以手语中的视觉内容以口语中的语言生成文本,很重要,以协助听力态度的沟通。灵感来自神经机翻译(NMT),最现有的SLT研究采用了一般序列来序列学习策略。然而,SLT与常规NMT任务显着不同,因为Sign语言通过多个视觉手动方面传达了消息。因此,在本文中,标志语言的这些独特的特征被制定为分层时空图表示,包括高级和微级图形,顶点表征指定的身体部位和边缘表示它们的交互。特别地,高级图表代表了手表和面部的区域中的图案,并且细级图考虑了面部区域的手和地标的关系。为了了解这些图形模式,提出了一种新颖的深度学习架构,即分层时空图神经网络(HST-GNN)。提出了具有邻域上下文的图形卷积和图形自我关注,以表征本地和全局图形属性。基准数据集的实验结果证明了该方法的有效性。
translated by 谷歌翻译
人类活动识别是计算机视觉中的新出现和重要领域,旨在确定个体或个体正在执行的活动。该领域的应用包括从体育中生成重点视频到智能监视和手势识别。大多数活动识别系统依赖于卷积神经网络(CNN)的组合来从数据和复发性神经网络(RNN)中进行特征提取来确定数据的时间依赖性。本文提出并设计了两个用于人类活动识别的变压器神经网络:一个经常性变压器(RET),这是一个专门的神经网络,用于对数据序列进行预测,以及视觉变压器(VIT),一种用于提取显着的变压器的变压器(VIT)图像的特征,以提高活动识别的速度和可扩展性。我们在速度和准确性方面提供了对拟议的变压器神经网络与现代CNN和基于RNN的人类活动识别模型的广泛比较。
translated by 谷歌翻译
视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中,由于其广泛的应用,人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献,同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用,我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构,方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下,我们探讨了编码时空数据,降低维度降低,框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化,以处理更长的序列,通常通过减少单个注意操作中的令牌数量。此外,我们还研究了不同的网络学习策略,例如自我监督和零局学习,以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后,它提供了有关该研究方向的挑战,前景和未来途径的讨论。
translated by 谷歌翻译
执法和城市安全受到监视系统中的暴力事件的严重影响。尽管现代(智能)相机广泛可用且负担得起,但在大多数情况下,这种技术解决方案无能为力。此外,监测CCTV记录的人员经常显示出迟来的反应,从而导致对人和财产的灾难。因此,对迅速行动的暴力自动检测至关重要。拟议的解决方案使用了一种新颖的端到端深度学习视频视觉变压器(Vivit),可以在视频序列中熟练地辨别战斗,敌对运动和暴力事件。该研究提出了利用数据增强策略来克服较弱的电感偏见的缺点,同时在较小的培训数据集中训练视觉变压器。评估的结果随后可以发送给当地有关当局,可以分析捕获的视频。与最先进的(SOTA)相比,所提出的方法在某些具有挑战性的基准数据集上实现了吉祥的性能。
translated by 谷歌翻译
无意识和自发的,微小表达在一个人的真实情绪的推动中是有用的,即使尝试隐藏它们。由于它们短的持续时间和低强度,对微表达的识别是情感计算中的艰巨任务。基于手工制作的时空特征的早期工作最近被不同的深度学习方法取代了现在竞争最先进的性能。然而,捕获本地和全球时空模式的问题仍然挑战。为此,本文我们提出了一种新颖的时空变压器架构 - 据我们所知,是微表达识别的第一种纯粹变压器的方法(即任何卷积网络使用的方法)。该架构包括用于学习空间模式的空间编码器,用于时间维度分析的时间聚合器和分类头。三种广泛使用的自发性微表达数据集,即Smic-HS,Casme II和SAMM的综合评估表明,该方法始终如一地优于现有技术,是发表在微表达上发表文献中的第一个框架在任何上述数据集上识别以实现未加权的F1分数大于0.9。
translated by 谷歌翻译
视频摘要旨在自动生成视频的摘要(故事板或视频浏览器),这可以促进大规模视频检索和浏览。大多数现有方法对单个视频进行视频摘要,这些视频忽略了相似视频之间的相关性。然而,这种相关性也是视频理解和视频摘要的信息。为了解决此限制,我们提出了基于分层变压器(VJMHT)的视频联合建模,共综合化,这考虑了跨视频的语义依赖关系。具体而言,VJMHT由两层变压器组成:第一层从类似视频的各个拍摄提取语义表示,而第二层执行射门视频联合建模以聚合交叉视频语义信息。通过这种方式,可以明确建模并学习完整的跨视频高级模式,以便为个人视频的摘要而学习。此外,引入了基于变压器的视频表示重建,以最大化摘要和原始视频之间的高电平相似性。进行广泛的实验以验证所提出的模块的有效性以及VJMHT在F测量和基于秩的评估方面的优越性。
translated by 谷歌翻译
我们提出STAF,一种用于几次视频分类的时空关注融合网络。STAF首先通过应用3D卷积神经网络嵌入网络来提取视频的粗粒度的空间和时间特征。然后使用自我关注和跨关注网络微调提取的特征。最后,STAF应用轻量级融合网络和最近的邻邻分类器来分类每个查询视频。为了评估STAF,我们在三个基准(UCF101,HMDB51和SomeS-V2)上进行广泛的实验。实验结果表明,STAF通过大边缘提高了最先进的准确性,例如,STAF分别将五向单拍精度增加5.3%和7.0%,分别为UCF101和HMDB51增加。
translated by 谷歌翻译
基于文本的视频细分旨在通过用文本查询指定演员及其表演动作来细分视频序列中的演员。由于\ emph {emph {语义不对称}的问题,以前的方法无法根据演员及其动作以细粒度的方式将视频内容与文本查询对齐。 \ emph {语义不对称}意味着在多模式融合过程中包含不同量的语义信息。为了减轻这个问题,我们提出了一个新颖的演员和动作模块化网络,该网络将演员及其动作分别定位在两个单独的模块中。具体来说,我们首先从视频和文本查询中学习与参与者相关的内容,然后以对称方式匹配它们以定位目标管。目标管包含所需的参与者和动作,然后将其送入完全卷积的网络,以预测演员的分割掩模。我们的方法还建立了对象的关联,使其与所提出的时间建议聚合机制交叉多个框架。这使我们的方法能够有效地细分视频并保持预测的时间一致性。整个模型允许联合学习参与者的匹配和细分,并在A2D句子和J-HMDB句子数据集上实现单帧细分和完整视频细分的最新性能。
translated by 谷歌翻译
对于人类的行动理解,流行的研究方向是分析具有明确的语义含量的短视频剪辑,例如跳跃和饮酒。然而,了解短语行动的方法不能直接翻译成长期以来的人类动态,如跳舞,即使在语义上也是挑战的挑战。同时,自然语言处理(NLP)社区通过大规模预培训解决了稀缺的类似挑战,这改善了一种模型的几个下游任务。在这项工作中,我们研究如何以自我监督的方式进行分段和群集视频,即Acton Discovery,朝向视频标记的主要障碍。我们提出了一种两级框架,首先通过对应于它们的时间上下文的视频帧的两个增强视图对比其次的视频帧的两个增强视图来获得帧智表示。然后通过k-means群集视频集集中的帧展表示。然后通过从同一簇内的帧形成连续的运动序列来自动提取actons。通过标准化的相互信息和语言熵,我们通过Kendall的Tau和Lexicon构建步骤进行评估框架明智的表现。我们还研究了这个标记化的三种应用:类型分类,行动细分和行动组成。在AIST ++和PKU-MMD数据集上,与几个基线相比,Actons带来了显着的性能改进。
translated by 谷歌翻译
Transformer models have shown great success handling long-range interactions, making them a promising tool for modeling video. However they lack inductive biases and scale quadratically with input length. These limitations are further exacerbated when dealing with the high dimensionality introduced with the temporal dimension. While there are surveys analyzing the advances of Transformers for vision, none focus on an in-depth analysis of video-specific designs. In this survey we analyze main contributions and trends of works leveraging Transformers to model video. Specifically, we delve into how videos are handled as input-level first. Then, we study the architectural changes made to deal with video more efficiently, reduce redundancy, re-introduce useful inductive biases, and capture long-term temporal dynamics. In addition we provide an overview of different training regimes and explore effective self-supervised learning strategies for video. Finally, we conduct a performance comparison on the most common benchmark for Video Transformers (i.e., action classification), finding them to outperform 3D ConvNets even with less computational complexity.
translated by 谷歌翻译
我们提出了一种新颖的基于变压器的架构,用于3D人类运动的生成建模任务。以前的工作通常依赖于基于RNN的模型,考虑到更短的预测视野迅速达到静止和通常难以置信的状态。最近的研究表明,频域中的隐式时间表示也是有效地制定预定地平线的预测。我们的重点是学习自向学习时空陈述,从而在短期和长期生成合理的未来发展。该模型学习骨骼关节的高尺寸嵌入,以及如何通过去耦的时间和空间自我关注机制来组成时间相干的姿势。我们的双重关注概念允许模型直接访问电流和过去信息,并明确捕获结构和时间依赖项。我们凭经验显示,这有效地了解潜在的运动动态,并减少自动回归模型中观察到的误差累积。我们的模型能够在长视程中产生准确的短期预测和产生合理的运动序列。我们在HTTPS://github.com/eth-Ation-Transformer中公开公开提供我们的代码。
translated by 谷歌翻译
自动音频字幕是一项跨模式翻译任务,旨在为给定的音频剪辑生成自然语言描述。近年来,随着免费可用数据集的发布,该任务受到了越来越多的关注。该问题主要通过深度学习技术解决。已经提出了许多方法,例如研究不同的神经网络架构,利用辅助信息,例如关键字或句子信息来指导字幕生成,并采用了不同的培训策略,这些策略极大地促进了该领域的发展。在本文中,我们对自动音频字幕的已发表贡献进行了全面综述,从各种现有方法到评估指标和数据集。我们还讨论了公开挑战,并设想可能的未来研究方向。
translated by 谷歌翻译
Previous work on action representation learning focused on global representations for short video clips. In contrast, many practical applications, such as video alignment, strongly demand learning the intensive representation of long videos. In this paper, we introduce a new framework of contrastive action representation learning (CARL) to learn frame-wise action representation in a self-supervised or weakly-supervised manner, especially for long videos. Specifically, we introduce a simple but effective video encoder that considers both spatial and temporal context by combining convolution and transformer. Inspired by the recent massive progress in self-supervised learning, we propose a new sequence contrast loss (SCL) applied to two related views obtained by expanding a series of spatio-temporal data in two versions. One is the self-supervised version that optimizes embedding space by minimizing KL-divergence between sequence similarity of two augmented views and prior Gaussian distribution of timestamp distance. The other is the weakly-supervised version that builds more sample pairs among videos using video-level labels by dynamic time wrapping (DTW). Experiments on FineGym, PennAction, and Pouring datasets show that our method outperforms previous state-of-the-art by a large margin for downstream fine-grained action classification and even faster inference. Surprisingly, although without training on paired videos like in previous works, our self-supervised version also shows outstanding performance in video alignment and fine-grained frame retrieval tasks.
translated by 谷歌翻译
Video prediction is a challenging computer vision task that has a wide range of applications. In this work, we present a new family of Transformer-based models for video prediction. Firstly, an efficient local spatial-temporal separation attention mechanism is proposed to reduce the complexity of standard Transformers. Then, a full autoregressive model, a partial autoregressive model and a non-autoregressive model are developed based on the new efficient Transformer. The partial autoregressive model has a similar performance with the full autoregressive model but a faster inference speed. The non-autoregressive model not only achieves a faster inference speed but also mitigates the quality degradation problem of the autoregressive counterparts, but it requires additional parameters and loss function for learning. Given the same attention mechanism, we conducted a comprehensive study to compare the proposed three video prediction variants. Experiments show that the proposed video prediction models are competitive with more complex state-of-the-art convolutional-LSTM based models. The source code is available at https://github.com/XiYe20/VPTR.
translated by 谷歌翻译