Hand and face play an important role in expressing sign language. Their features are usually especially leveraged to improve system performance. However, to effectively extract visual representations and capture trajectories for hands and face, previous methods always come at high computations with increased training complexity. They usually employ extra heavy pose-estimation networks to locate human body keypoints or rely on additional pre-extracted heatmaps for supervision. To relieve this problem, we propose a self-emphasizing network (SEN) to emphasize informative spatial regions in a self-motivated way, with few extra computations and without additional expensive supervision. Specifically, SEN first employs a lightweight subnetwork to incorporate local spatial-temporal features to identify informative regions, and then dynamically augment original features via attention maps. It's also observed that not all frames contribute equally to recognition. We present a temporal self-emphasizing module to adaptively emphasize those discriminative frames and suppress redundant ones. A comprehensive comparison with previous methods equipped with hand and face features demonstrates the superiority of our method, even though they always require huge computations and rely on expensive extra supervision. Remarkably, with few extra computations, SEN achieves new state-of-the-art accuracy on four large-scale datasets, PHOENIX14, PHOENIX14-T, CSL-Daily, and CSL. Visualizations verify the effects of SEN on emphasizing informative spatial and temporal features. Code is available at https://github.com/hulianyuyy/SEN_CSLR
translated by 谷歌翻译
合并方法是现代神经网络增加接受场并降低计算成本的必要性。但是,通常使用的手工制作的合并方法,例如,最大池和平均合并,可能无法保持判别特征。尽管许多研究人员在空间域中精心设计了各种汇集变体,以便在这些局限性方面处理这些局限性,但很少访问直接使用手工制作的方法,或者这些专业的空间变体可能不是最佳的。在本文中,我们从信号处理中的提升方案中得出了时间升降机池(TLP),以智能地逐步划分不同的时间层次结构。提升方案将输入信号分配到具有不同频率的各种子兰,这可以看作是不同的时间运动模式。我们的TLP是一个三阶段的过程,它执行信号分解,组件加权和信息融合以生成精致尺寸的特征图。我们选择具有长序列的典型时间任务,即连续的手语识别(CSLR)作为验证TLP的有效性的测试台。两个大规模数据集的实验表明,TLP的表现优于手工制作的方法和专门的空间变体,其较大的边距(1.5%)具有相似的计算开销。作为功​​能强大的功能提取器,TLP在各种数据集上的多个骨干上表现出很大的概括性,并在两个大规模的CSLR数据集上实现了新的最新结果。可视化进一步证明了TLP在校正光泽边界中的机制。代码已发布。
translated by 谷歌翻译
对于基于骨架的动作识别中的当前方法通常是将长期时间依赖性作为骨骼序列捕获通常长的(> 128帧),这很常见,这对于先前的方法构成了一个具有挑战性的问题。在这种情况下,短期依赖性很少被正式考虑,这对于对类似动作进行分类至关重要。大多数当前的方法包括相互交织的仅空间模块和仅时间的模块,在这些模块中,在相邻框架中的关节之间的直接信息流受到阻碍,因此不如捕获短期运动并区分相似的动作对。为了应对这一限制,我们提出了一个作为stgat创造的一般框架,以建模跨天空信息流。它使仅空间模块与区域感知的时空建模相称。尽管STGAT在理论上对时空建模具有有效性,但我们提出了三个简单的模块,以减少局部时空特征冗余,并进一步释放STGAT的潜力,(1)(1)自我关注机制的范围,(2)动态重量的范围(2)沿时间尺寸的关节和(3)分别与静态特征分开的微妙运动。作为一个可靠的特征提取器,STGAT在对以前的方法进行分类时,在定性和定量结果中都证明了相似的动作。 STGAT在三个大规模数据集上实现了最先进的性能:NTU RGB+D 60,NTU RGB+D 120和动力学骨架400。释放了代码。
translated by 谷歌翻译
Most deep-learning-based continuous sign language recognition (CSLR) models share a similar backbone consisting of a visual module, a sequential module, and an alignment module. However, due to limited training samples, a connectionist temporal classification loss may not train such CSLR backbones sufficiently. In this work, we propose three auxiliary tasks to enhance the CSLR backbones. The first task enhances the visual module, which is sensitive to the insufficient training problem, from the perspective of consistency. Specifically, since the information of sign languages is mainly included in signers' facial expressions and hand movements, a keypoint-guided spatial attention module is developed to enforce the visual module to focus on informative regions, i.e., spatial attention consistency. Second, noticing that both the output features of the visual and sequential modules represent the same sentence, to better exploit the backbone's power, a sentence embedding consistency constraint is imposed between the visual and sequential modules to enhance the representation power of both features. We name the CSLR model trained with the above auxiliary tasks as consistency-enhanced CSLR, which performs well on signer-dependent datasets in which all signers appear during both training and testing. To make it more robust for the signer-independent setting, a signer removal module based on feature disentanglement is further proposed to remove signer information from the backbone. Extensive ablation studies are conducted to validate the effectiveness of these auxiliary tasks. More remarkably, with a transformer-based backbone, our model achieves state-of-the-art or competitive performance on five benchmarks, PHOENIX-2014, PHOENIX-2014-T, PHOENIX-2014-SI, CSL, and CSL-Daily.
translated by 谷歌翻译
人类自然有效地在复杂的场景中找到突出区域。通过这种观察的动机,引入了计算机视觉中的注意力机制,目的是模仿人类视觉系统的这一方面。这种注意机制可以基于输入图像的特征被视为动态权重调整过程。注意机制在许多视觉任务中取得了巨大的成功,包括图像分类,对象检测,语义分割,视频理解,图像生成,3D视觉,多模态任务和自我监督的学习。在本调查中,我们对计算机愿景中的各种关注机制进行了全面的审查,并根据渠道注意,空间关注,暂时关注和分支注意力进行分类。相关的存储库https://github.com/menghaoguo/awesome-vision-tions致力于收集相关的工作。我们还建议了未来的注意机制研究方向。
translated by 谷歌翻译
有效地对视频中的空间信息进行建模对于动作识别至关重要。为了实现这一目标,最先进的方法通常采用卷积操作员和密集的相互作用模块,例如非本地块。但是,这些方法无法准确地符合视频中的各种事件。一方面,采用的卷积是有固定尺度的,因此在各种尺度的事件中挣扎。另一方面,密集的相互作用建模范式仅在动作 - 欧元零件时实现次优性能,给最终预测带来了其他噪音。在本文中,我们提出了一个统一的动作识别框架,以通过引入以下设计来研究视频内容的动态性质。首先,在提取本地提示时,我们会生成动态尺度的时空内核,以适应各种事件。其次,为了将这些线索准确地汇总为全局视频表示形式,我们建议仅通过变压器在一些选定的前景对象之间进行交互,从而产生稀疏的范式。我们将提出的框架称为事件自适应网络(EAN),因为这两个关键设计都适应输入视频内容。为了利用本地细分市场内的短期运动,我们提出了一种新颖有效的潜在运动代码(LMC)模块,进一步改善了框架的性能。在几个大规模视频数据集上进行了广泛的实验,例如,某种东西,动力学和潜水48,验证了我们的模型是否在低拖鞋上实现了最先进或竞争性的表演。代码可在:https://github.com/tianyuan168326/ean-pytorch中找到。
translated by 谷歌翻译
基于视频的人重新识别(RE-ID)是视觉监控系统中的重要技术,旨在匹配由不同摄像机捕获的人们的视频片段。现有方法主要基于卷积神经网络(CNN),其构建块一次处理局部邻居像素,或者当3D卷绕用于建模时间信息时,遭受由人移动引起的未对准问题。在本文中,我们建议克服具有以人为本的图表方法的正常卷曲的局限性。具体地,提取位于人关节键点的特征并将其作为空间时间图连接。然后通过使用图形卷积网络(GCN)从连接节点传递的消息更新这些关键点特征。在培训期间,GCN可以附加到任何基于CNN的人RE-ID模型,以协助在特征映射上进行表示学习,同时可以在培训后丢弃以获得更好的推广速度。我们的方法通过生成的人关键点和新注释的数据集:posetrackreid,对火星数据集的基于CNN的基线模型进行了重大改进。它还在与现有作品相比,在前1个精度和平均平均精度方面定义了新的最先进的方法。
translated by 谷歌翻译
计算机视觉任务可以从估计突出物区域和这些对象区域之间的相互作用中受益。识别对象区域涉及利用预借鉴模型来执行对象检测,对象分割和/或对象姿势估计。但是,由于以下原因,在实践中不可行:1)预用模型的训练数据集的对象类别可能不会涵盖一般计算机视觉任务的所有对象类别,2)佩戴型模型训练数据集之间的域间隙并且目标任务的数据集可能会影响性能,3)预磨模模型中存在的偏差和方差可能泄漏到导致无意中偏置的目标模型的目标任务中。为了克服这些缺点,我们建议利用一系列视频帧捕获一组公共对象和它们之间的相互作用的公共基本原理,因此视频帧特征之间的共分割的概念可以用自动的能力装配模型专注于突出区域,以最终的方式提高潜在的任务的性能。在这方面,我们提出了一种称为“共分割激活模块”(COSAM)的通用模块,其可以被插入任何CNN,以促进基于CNN的任何CNN的概念在一系列视频帧特征中的关注。我们在三个基于视频的任务中展示Cosam的应用即1)基于视频的人Re-ID,2)视频字幕分类,并证明COSAM能够在视频帧中捕获突出区域,从而引导对于显着的性能改进以及可解释的关注图。
translated by 谷歌翻译
The ultimate goal of continuous sign language recognition(CSLR) is to facilitate the communication between special people and normal people, which requires a certain degree of real-time and deploy-ability of the model. However, in the previous research on CSLR, little attention has been paid to the real-time and deploy-ability. In order to improve the real-time and deploy-ability of the model, this paper proposes a zero parameter, zero computation temporal superposition crossover module(TSCM), and combines it with 2D convolution to form a "TSCM+2D convolution" hybrid convolution, which enables 2D convolution to have strong spatial-temporal modelling capability with zero parameter increase and lower deployment cost compared with other spatial-temporal convolutions. The overall CSLR model based on TSCM is built on the improved ResBlockT network in this paper. The hybrid convolution of "TSCM+2D convolution" is applied to the ResBlock of the ResNet network to form the new ResBlockT, and random gradient stop and multi-level CTC loss are introduced to train the model, which reduces the final recognition WER while reducing the training memory usage, and extends the ResNet network from image classification task to video recognition task. In addition, this study is the first in CSLR to use only 2D convolution extraction of sign language video temporal-spatial features for end-to-end learning for recognition. Experiments on two large-scale continuous sign language datasets demonstrate the effectiveness of the proposed method and achieve highly competitive results.
translated by 谷歌翻译
连续的手语识别(CSLR)是一项具有挑战性的研究任务,因为对手语数据的时间顺序缺乏准确的注释。最近流行的用法是基于CSLR的“ CNN + RNN”的混合模型。但是,当在这些作品中提取时间特征时,大多数方法都使用固定的时间接受字段,并且不能很好地提取每个手语单词的时间功能。为了获得更准确的时间特征,本文提出了一个多尺度的时间网络(MSTNET)。网络主要由三个部分组成。重新连接和两个完全连接(FC)层构成框架特征提取部分。时间方面的特征提取部分通过首先使用拟议的多尺度时间块(MST-block)提高不同尺度的时间功能来进行时间特征学习,以提高时间建模能力,然后进一步编码不同的时间特征。通过变压器模块缩放以获得更准确的时间特征。最后,拟议的多级连接派时间分类(CTC)损失零件用于训练以获得识别结果。多级CTC损失可以更好地学习和更新CNN中的浅网络参数,该方法没有参数增加,并且可以灵活地嵌入其他模型中。两个公开可用数据集的实验结果表明,我们的方法可以在没有任何先验知识的情况下以端到端的方式有效地提取手语特征,从而提高CSLR的准确性并实现竞争成果。
translated by 谷歌翻译
本文介绍了一个新型的预训练的空间时间多对一(p-STMO)模型,用于2D到3D人类姿势估计任务。为了减少捕获空间和时间信息的困难,我们将此任务分为两个阶段:预训练(I期)和微调(II阶段)。在第一阶段,提出了一个自我监督的预训练子任务,称为蒙面姿势建模。输入序列中的人关节在空间和时间域中随机掩盖。利用denoising自动编码器的一般形式以恢复原始的2D姿势,并且编码器能够以这种方式捕获空间和时间依赖性。在第二阶段,将预训练的编码器加载到STMO模型并进行微调。编码器之后是一个多对一的框架聚合器,以预测当前帧中的3D姿势。尤其是,MLP块被用作STMO中的空间特征提取器,其性能比其他方法更好。此外,提出了一种时间下采样策略,以减少数据冗余。在两个基准上进行的广泛实验表明,我们的方法优于较少参数和较少计算开销的最先进方法。例如,我们的P-STMO模型在使用CPN作为输入的2D姿势时,在Human3.6M数据集上达到42.1mm MPJPE。同时,它为最新方法带来了1.5-7.1倍的速度。代码可在https://github.com/patrick-swk/p-stmo上找到。
translated by 谷歌翻译
Temporal modeling is key for action recognition in videos. It normally considers both short-range motions and long-range aggregations. In this paper, we propose a Temporal Excitation and Aggregation (TEA) block, including a motion excitation (ME) module and a multiple temporal aggregation (MTA) module, specifically designed to capture both short-and long-range temporal evolution. In particular, for short-range motion modeling, the ME module calculates the feature-level temporal differences from spatiotemporal features. It then utilizes the differences to excite the motion-sensitive channels of the features. The long-range temporal aggregations in previous works are typically achieved by stacking a large number of local temporal convolutions. Each convolution processes a local temporal window at a time. In contrast, the MTA module proposes to deform the local convolution to a group of subconvolutions, forming a hierarchical residual architecture. Without introducing additional parameters, the features will be processed with a series of sub-convolutions, and each frame could complete multiple temporal aggregations with neighborhoods. The final equivalent receptive field of temporal dimension is accordingly enlarged, which is capable of modeling the long-range temporal relationship over distant frames. The two components of the TEA block are complementary in temporal modeling. Finally, our approach achieves impressive results at low FLOPs on several action recognition benchmarks, such as Kinetics, Something-Something, HMDB51, and UCF101, which confirms its effectiveness and efficiency.
translated by 谷歌翻译
从视频中估算人的姿势对于人类计算机相互作用至关重要。通过精确估计人类姿势,机器人可以对人类提供适当的反应。大多数现有方法都使用光流,RNN或CNN从视频中提取时间功能。尽管这些尝试取得了积极的结果,但其中大多数仅直接整合沿时间维度的特征,而忽略了关节之间的时间相关性。与以前的方法相反,我们提出了一个基于域交叉注意机制的插件运动学建模模块(KMM),以对不同帧的关节之间的时间相关性进行建模。具体而言,提出的KMM通过计算其时间相似性来模拟任意两个关节之间的时间相关性。这样,KMM可以学习每个关节的运动提示。使用运动提示(时间域)和关节的历史位置(空间域),KMM可以提前推断关节的初始位置。此外,我们还基于KMM提出了一个运动学建模网络(KIMNET),用于通过结合姿势特征和关节的初始位置来获得关节的最终位置。通过对关节之间的时间相关性进行显式建模,Kimnet可以根据前一刻的所有关节来推断遮挡的关节。此外,KMM是通过注意机制实现的,该机制使其能够保持高度分辨率。因此,它可以将丰富的历史姿势信息转移到当前框架上,该信息为定位遮挡关节提供了有效的姿势信息。我们的方法在两个基于视频的姿势估计基准的基准上实现了最新的结果。此外,提出的Kimnet对闭塞显示了一些鲁棒性,证明了所提出的方法的有效性。
translated by 谷歌翻译
视频3D人类姿势估计旨在将视频中人类关节的3D坐标定位。最近的基于变压器的方法着重于从顺序2D姿势捕获时空信息,由于在2D姿势估计的步骤中丢失了视觉深度特征,因此无法有效地对上下文深度特征进行建模。在本文中,我们将范式简化为端到端框架,实例引导的视频变压器(IVT),该范式可以有效地从视觉特征中学习时空的上下文深度信息,并直接从视频框架中预测3D姿势。特别是,我们首先将视频框架作为一系列实例引导令牌,每个令牌都可以预测人类实例的3D姿势。这些令牌包含身体结构信息,因为它们是由关节偏移从人体中心到相应身体关节的指导提取的。然后,这些令牌被发送到IVT中,以学习时空的上下文深度。此外,我们提出了一种跨尺度实例引导的注意机制,以处理多个人之间的变异量表。最后,每个人的3D姿势都是通过坐标回归从实例引导的代币中解码的。在三个广泛使用的3D姿势估计基准上进行的实验表明,拟议的IVT实现了最先进的性能。
translated by 谷歌翻译
伪装的对象检测(COD),将其优雅地融合到周围环境中的对象是一项有价值但充满挑战的任务。现有的深度学习方法通常陷入具有完整和精细的对象结构准确识别伪装对象的困难。为此,在本文中,我们提出了一个新颖的边界引导网络(BGNET),以用于伪装对象检测。我们的方法探索了有价值的和额外的对象相关的边缘语义,以指导COD的表示形式学习,这迫使模型生成突出对象结构的特征,从而促进了精确边界定位的伪装对象检测。对三个具有挑战性的基准数据集进行的广泛实验表明,我们的BGNET在四个广泛使用的评估指标下的现有18种最新方法明显优于现有的18种最新方法。我们的代码可在以下网址公开获取:https://github.com/thograce/bgnet。
translated by 谷歌翻译
在本文中,我们基于任何卷积神经网络中中间注意图的弱监督生成机制,并更加直接地披露了注意模块的有效性,以充分利用其潜力。鉴于现有的神经网络配备了任意注意模块,我们介绍了一个元评论家网络,以评估主网络中注意力图的质量。由于我们设计的奖励的离散性,提出的学习方法是在强化学习环境中安排的,在此设置中,注意力参与者和经常性的批评家交替优化,以提供临时注意力表示的即时批评和修订,因此,由于深度强化的注意力学习而引起了人们的关注。 (Dreal)。它可以普遍应用于具有不同类型的注意模块的网络体系结构,并通过最大程度地提高每个单独注意模块产生的最终识别性能的相对增益来促进其表现能力,如类别和实例识别基准的广泛实验所证明的那样。
translated by 谷歌翻译
图形卷积网络由于非欧几里得数据的出色建模能力而广泛用于基于骨架的动作识别。由于图形卷积是局部操作,因此它只能利用短距离关节依赖性和短期轨迹,但无法直接建模遥远的关节关系和远程时间信息,这些信息对于区分各种动作至关重要。为了解决此问题,我们提出了多尺度的空间图卷积(MS-GC)模块和一个多尺度的时间图卷积(MT-GC)模块,以在空间和时间尺寸中丰富模型的接受场。具体而言,MS-GC和MT-GC模块将相应的局部图卷积分解为一组子图形卷积,形成了层次的残差体系结构。在不引入其他参数的情况下,该功能将通过一系列子图卷积处理,每个节点都可以与其邻域一起完成多个空间和时间聚集。因此,最终的等效接收场被扩大,能够捕获空间和时间域中的短期和远程依赖性。通过将这两个模块耦合为基本块,我们进一步提出了一个多尺度的空间时间图卷积网络(MST-GCN),该网络(MST-GCN)堆叠了多个块以学习有效的运动表示行动识别的运动表示。拟议的MST-GCN在三个具有挑战性的基准数据集(NTU RGB+D,NTU-1220 RGB+D和动力学 - 骨骼)上实现了出色的性能,用于基于骨架的动作识别。
translated by 谷歌翻译
压缩视频动作识别最近引起了人们的注意,因为它通过用稀疏采样的RGB帧和压缩运动提示(例如运动向量和残差)替换原始视频来大大降低存储和计算成本。但是,这项任务严重遭受了粗糙和嘈杂的动力学以及异质RGB和运动方式的融合不足。为了解决上面的两个问题,本文提出了一个新颖的框架,即具有运动增强的细心跨模式相互作用网络(MEACI-NET)。它遵循两流体系结构,即一个用于RGB模式,另一个用于运动模态。特别是,该运动流采用带有denoising模块的多尺度块来增强表示表示。然后,通过引入选择性运动补充(SMC)和跨模式增强(CMA)模块来加强两条流之间的相互作用,其中SMC与时空上的局部局部运动相互补充,CMA和CMA进一步将两种模态与两种模态相结合。选择性功能增强。对UCF-101,HMDB-51和Kinetics-400基准的广泛实验证明了MEACI-NET的有效性和效率。
translated by 谷歌翻译
高效的时空建模是视频动作识别的重要而挑战性问题。现有的最先进的方法利用相邻的特征差异,以获得短期时间建模的运动线索,简单的卷积。然而,只有一个本地卷积,由于接收领域有限而无法处理各种动作。此外,摄像机运动带来的动作耳鸣还将损害提取的运动功能的质量。在本文中,我们提出了一个时间显着积分(TSI)块,其主要包含突出运动激励(SME)模块和交叉感知时间集成(CTI)模块。具体地,中小企业旨在通过空间级局部 - 全局运动建模突出显示运动敏感区域,其中显着对准和金字塔型运动建模在相邻帧之间连续进行,以捕获由未对准背景引起的噪声较少的运动动态。 CTI旨在分别通过一组单独的1D卷积进行多感知时间建模。同时,不同看法的时间相互作用与注意机制相结合。通过这两个模块,通过引入有限的附加参数,可以有效地编码长短的短期时间关系。在几个流行的基准测试中进行了广泛的实验(即,某种东西 - 某种东西 - 东西 - 400,uCF-101和HMDB-51),这证明了我们所提出的方法的有效性。
translated by 谷歌翻译
In recent years, the Transformer architecture has shown its superiority in the video-based person re-identification task. Inspired by video representation learning, these methods mainly focus on designing modules to extract informative spatial and temporal features. However, they are still limited in extracting local attributes and global identity information, which are critical for the person re-identification task. In this paper, we propose a novel Multi-Stage Spatial-Temporal Aggregation Transformer (MSTAT) with two novel designed proxy embedding modules to address the above issue. Specifically, MSTAT consists of three stages to encode the attribute-associated, the identity-associated, and the attribute-identity-associated information from the video clips, respectively, achieving the holistic perception of the input person. We combine the outputs of all the stages for the final identification. In practice, to save the computational cost, the Spatial-Temporal Aggregation (STA) modules are first adopted in each stage to conduct the self-attention operations along the spatial and temporal dimensions separately. We further introduce the Attribute-Aware and Identity-Aware Proxy embedding modules (AAP and IAP) to extract the informative and discriminative feature representations at different stages. All of them are realized by employing newly designed self-attention operations with specific meanings. Moreover, temporal patch shuffling is also introduced to further improve the robustness of the model. Extensive experimental results demonstrate the effectiveness of the proposed modules in extracting the informative and discriminative information from the videos, and illustrate the MSTAT can achieve state-of-the-art accuracies on various standard benchmarks.
translated by 谷歌翻译