Previous video-based human pose estimation methods have shown promising results by leveraging aggregated features of consecutive frames. However, most approaches compromise accuracy to mitigate jitter or do not sufficiently comprehend the temporal aspects of human motion. Furthermore, occlusion increases uncertainty between consecutive frames, which results in unsmooth results. To address these issues, we design an architecture that exploits the keypoint kinematic features with the following components. First, we effectively capture the temporal features by leveraging individual keypoint's velocity and acceleration. Second, the proposed hierarchical transformer encoder aggregates spatio-temporal dependencies and refines the 2D or 3D input pose estimated from existing estimators. Finally, we provide an online cross-supervision between the refined input pose generated from the encoder and the final pose from our decoder to enable joint optimization. We demonstrate comprehensive results and validate the effectiveness of our model in various tasks: 2D pose estimation, 3D pose estimation, body mesh recovery, and sparsely annotated multi-human pose estimation. Our code is available at https://github.com/KyungMinJin/HANet.
translated by 谷歌翻译
尽管视频中多人姿势估计的许多方法都显示出深刻的结果,但它们需要密集的注释数据,这需要过多的人劳动。此外,存在闭塞和运动模糊,这不可避免地导致估计性差。为了解决这些问题,我们提出了一种利用遮挡关节的注意力面罩的方法,并使用变压器在帧之间编码时间依赖。首先,我们的框架组成了稀疏注释的框架的不同组合,表示整体关节运动的轨道。我们从这些组合中提出了一个遮挡注意力面膜,使编码遮挡感知热图作为半监督任务。其次,拟议的时间编码器采用变压器体系结构来有效地从每个时间步骤中汇总了时间关系和关键点,并准确地完善了目标框架的最终姿势估计。我们实现了PoSetrack2017和PoSetrack2018数据集的最新姿势估计结果,并证明了我们在稀疏注释的视频数据中闭塞和运动模糊的鲁棒性。
translated by 谷歌翻译
时间动作本地化(TAL)是识别视频中一组动作的任务,该任务涉及将开始和终点定位并对每个操作实例进行分类。现有方法通过使用预定义的锚窗或启发式自下而上的边界匹配策略来解决此任务,这些策略是推理时间的主要瓶颈。此外,主要的挑战是由于缺乏全球上下文信息而无法捕获远程动作。在本文中,我们介绍了一个无锚的框架,称为HTNET,该框架预测了一组<开始时间,结束时间,类,类>三胞胎,这些视频基于变压器体系结构。在预测粗边界之后,我们通过背景特征采样(BFS)模块和分层变压器对其进行完善,这使我们的模型能够汇总全局上下文信息,并有效利用视频中固有的语义关系。我们演示了我们的方法如何在两个TAL基准数据集上定位准确的动作实例并实现最先进的性能:Thumos14和ActivityNet 1.3。
translated by 谷歌翻译
传统上,视频异常检测(VAD)以两种主要方法进行了解决:基于重建的方法和基于预测的方法。当基于重建的方法学会概括输入图像时,该模型仅学习身份功能并强烈引起所谓的概括问题。另一方面,由于基于预测的框架学会预测以前几个帧的未来框架,因此它们对概括性问题的敏感性不太敏感。但是,仍然不确定该模型是否可以学习视频的时空上下文。我们的直觉是,对视频的时空环境的理解在VAD中起着至关重要的作用,因为它提供了有关视频剪辑中事件的出现如何变化的精确信息。因此,为了充分利用视频情况下的上下文信息以进行异常检测,我们设计了具有三个不同上下文预测流的变压器模型:掩盖,整体和部分。通过学习预测连续正常帧的缺失帧,我们的模型可以有效地学习视频中的各种正态性模式,这会导致异常情况下不适合学习环境的异常情况。为了验证我们的方法的有效性,我们在公共基准数据集上评估了我们的模型:USCD Pateestrian 2,Cuhk Avenue和Shanghaitech,并以重建错误的异常得分度量评估了性能。结果表明,与现有的视频异常检测方法相比,我们提出的方法实现了竞争性能。
translated by 谷歌翻译
大多数对象检测框架都使用最初设计用于图像分类的主链体系结构,通常在Imagenet上具有预训练的参数。但是,图像分类和对象检测本质上是不同的任务,并且不能保证分类的最佳主链也适用于对象检测。最近的神经体系结构搜索(NAS)研究表明,自动设计专门用于对象检测的骨干有助于提高整体准确性。在本文中,我们引入了一种神经体系结构适应方法,该方法可以优化给定的主链以进行检测目的,同时仍允许使用预训练的参数。我们建议除了每个块的输出通道尺寸外,还通过搜索特定操作和层数来调整微体系结构。重要的是要找到最佳的通道深度,因为它极大地影响了特征表示功能和计算成本。我们使用搜索的主链进行对象检测进行实验,并证明我们的主链在可可数据集上的手动设计和搜索的最新骨干均优于手动设计和搜索的骨干。
translated by 谷歌翻译
最近,先进的技术在解决大量数据的各种问题方面具有无限的潜力。但是,这些技术尚未显示出处理脑信号的脑部计算机界面(BCIS)的竞争性能。基本上,大脑信号很难大量收集,特别是在自发的BCI中,信息量将很少。此外,我们猜想任务之间的高空间和时间相似性增加了预测难度。我们将这个问题定义为稀疏条件。为了解决这个问题,引入了分解方法,以允许模型从潜在空间获得不同的表示。为此,我们提出了两个功能提取器:通过对抗性学习作为生成器的对抗性学习训练一个类别的模块;特定于类的模块利用分类产生的损失函数,以便使用传统方法提取功能。为了最大程度地减少班级和特定于类的特定功能共享的潜在空间,该模型在正交约束下进行了训练。结果,将EEG信号分解为两个独立的潜在空间。评估是在单臂运动图像数据集上进行的。从结果中,我们证明了将脑电图信号分解的,该模型可以在稀疏条件下提取富裕和决定性的特征。
translated by 谷歌翻译
面部表现攻击检测(PAD)的域适应性(DA)或域概括(DG)最近以其对看不见的攻击情景的鲁棒性引起了人们的注意。但是,现有的基于DA/DG的PAD方法尚未完全探索可以提供有关攻击样式知识(例如材料,背景,照明和分辨率)的知识的特定领域样式信息。在本文中,我们引入了一种新型样式引导的域适应性(SGDA)框架,用于推理时间自适应垫。具体而言,提出了样式选择性归一化(SSN),以探索高阶功能统计信息中特定领域的样式信息。提出的SSN通过减少目标域和源域之间的样式差异,使模型适应目标域。此外,我们仔细设计了风格的元学习(SAML)来增强适应能力,该能力模拟了虚拟测试域上的样式选择过程的推理时间适应。与以前的域适应方法相反,我们的方法不需要其他辅助模型(例如,域适配器)或训练过程中未标记的目标域,这使我们的方法更加实用。为了验证我们的实验,我们使用公共数据集:MSU-MFSD,CASIA-FASD,OULU-NPU和IDIAP REPLAYATTACK。在大多数评估中,与常规的基于DA/DG的PAD方法相比,结果表明性能差距显着。
translated by 谷歌翻译
由于其出色的表现,深度学习框架在脑电脑界面(BCI)学习中越来越受欢迎。然而,在单独的分类模型方面,它们被视为黑匣子,因为它们没有提供有关LED它们达到特定决定的任何信息。换句话说,我们不能说服神经生理因素是否引起了高性能或简单的噪音。由于这个缺点,与他们的高性能相比,难以确保足够的可靠性。在这项研究中,我们向BCI提出了可解释的深度学习模式。具体地,我们的目标是对从电动机图像(MI)任务中获得的EEG信号进行分类。此外,我们采用了层次的相关性传播(LRP)到模型,以解释模型导出某些分类输出的原因。我们可视化热图,该热线图表明了地形形式的LRP输出,以证明神经生理因素。此外,我们通过避免主题依赖性来分类脑电图,以学习鲁棒和广义eEG特征。该方法还提供了避免为每个主题建立培训数据的牺牲的优势。通过我们所提出的模型,我们为所有受试者获得了广义的热爱图案。结果,我们可以得出结论,我们的拟议模型提供了神经生理学上可靠的解释。
translated by 谷歌翻译
电脑辅助诊断最近收到了低成本和时间效率优势的关注。虽然深入学习在最近的痤疮检测成功中发挥了重要作用,但仍有几种挑战,例如颜色偏移不一致,尺度的变化和高密度分布。为了解决这些问题,我们提出了一种痤疮检测网络,该网络由三个组成组成,具体而言,特别是:复合特征精制,动态上下文增强和掩模感知多关注。首先,复合特征细化集成了语义信息和精细细节以丰富特征表示,这些特征表示可以减轻不平衡照明的不利影响。然后,动态上下文增强控制用于对上下文增强的多尺度特征的不同接收字段,以处理比例变化。最后,掩模感知多次关注通过抑制无色区域和突出显示可能的痤疮区域来抑制密集地布置和小痤疮。实验在痤疮图像数据集ACNE04和自然图像数据集Pascal VOC上进行了2007年。我们展示了我们的方法如何实现ACNE04和竞争性能,在Pascal VOC上使用先前的方法2007年。
translated by 谷歌翻译
The 3D-aware image synthesis focuses on conserving spatial consistency besides generating high-resolution images with fine details. Recently, Neural Radiance Field (NeRF) has been introduced for synthesizing novel views with low computational cost and superior performance. While several works investigate a generative NeRF and show remarkable achievement, they cannot handle conditional and continuous feature manipulation in the generation procedure. In this work, we introduce a novel model, called Class-Continuous Conditional Generative NeRF ($\text{C}^{3}$G-NeRF), which can synthesize conditionally manipulated photorealistic 3D-consistent images by projecting conditional features to the generator and the discriminator. The proposed $\text{C}^{3}$G-NeRF is evaluated with three image datasets, AFHQ, CelebA, and Cars. As a result, our model shows strong 3D-consistency with fine details and smooth interpolation in conditional feature manipulation. For instance, $\text{C}^{3}$G-NeRF exhibits a Fr\'echet Inception Distance (FID) of 7.64 in 3D-aware face image synthesis with a $\text{128}^{2}$ resolution. Additionally, we provide FIDs of generated 3D-aware images of each class of the datasets as it is possible to synthesize class-conditional images with $\text{C}^{3}$G-NeRF.
translated by 谷歌翻译