帕金森氏病(PD)是一种神经系统疾病,具有各种可观察到的与运动相关的症状,例如运动缓慢,震颤,肌肉僵硬和姿势受损。 PD通常通过评估运动障碍系统(例如运动障碍协会统一帕金森氏病评级量表(MDS-UPDRS))的评分系统来诊断PD。使用个体视频记录的自动严重性预测为无侵入性监测运动障碍提供了有希望的途径。但是,PD步态数据的大小有限阻碍模型能力和临床潜力。由于这种临床数据的稀缺性,并受到自我监督的大规模语言模型(例如GPT-3)的最新进展的启发,我们将人类运动预测用作有效的自我监督预训练的任务来估计运动障碍的严重性。我们介绍步态预测和损伤估计变压器,该变压器首先在公共数据集中进行预测以预测步态运动,然后应用于临床数据以预测MDS-UPDRS步态障碍的严重性。我们的方法的表现优于以前的方法,这些方法仅依赖于临床数据,从而达到了0.76的F1得分,精度为0.79,召回率为0.75。使用GaitForemer,我们展示了公共人类运动数据存储库如何通过学习通用运动表示来帮助临床用例。该代码可从https://github.com/markendo/gaitforemer获得。
translated by 谷歌翻译
尽管完全监督的人类骨架序列建模成功,但使用自我监督的预训练进行骨架序列表示学习一直是一个活跃的领域,因为很难在大规模上获取特定于任务的骨骼注释。最近的研究重点是使用对比学习学习视频级别的时间和歧视性信息,但忽略了人类骨骼的层次空间时间。与视频级别的这种表面监督不同,我们提出了一种自我监督的分层预训练方案,该方案纳入了基于层次变压器的骨骼骨骼序列编码器(HI-TRS),以明确捕获空间,短期和长期和长期框架,剪辑和视频级别的时间依赖性分别。为了通过HI-TR评估提出的自我监督预训练方案,我们进行了广泛的实验,涵盖了三个基于骨架的下游任务,包括动作识别,动作检测和运动预测。根据监督和半监督评估协议,我们的方法实现了最新的性能。此外,我们证明了我们的模型在训练阶段中学到的先验知识具有强大的下游任务的转移能力。
translated by 谷歌翻译
Human skeleton point clouds are commonly used to automatically classify and predict the behaviour of others. In this paper, we use a contrastive self-supervised learning method, SimCLR, to learn representations that capture the semantics of skeleton point clouds. This work focuses on systematically evaluating the effects that different algorithmic decisions (including augmentations, dataset partitioning and backbone architecture) have on the learned skeleton representations. To pre-train the representations, we normalise six existing datasets to obtain more than 40 million skeleton frames. We evaluate the quality of the learned representations with three downstream tasks: skeleton reconstruction, motion prediction, and activity classification. Our results demonstrate the importance of 1) combining spatial and temporal augmentations, 2) including additional datasets for encoder training, and 3) and using a graph neural network as an encoder.
translated by 谷歌翻译
运动同步反映了相互作用二元组之间身体运动的协调。强大的深度学习模型(例如变压器网络)对运动同步的估计已自动化。但是,与其设计用于运动同步估计的专业网络,不如先前基于变压器的作品从其他任务(例如人类活动识别)中广泛采用了体系结构。因此,本文提出了一种基于骨架的图形变压器来进行运动同步估计。提出的模型应用了ST-GCN,这是一种空间图卷积神经网络,用于骨骼特征提取,然后是用于空间特征生成的空间变压器。空间变压器的指导是由相同的个体相同关节之间共享的独特设计的关节位置嵌入。此外,考虑到身体运动的周期性固有性,我们将时间相似性矩阵纳入了时间注意计算中。此外,与每个关节相关的置信度得分反映了姿势的不确定性,而先前关于运动同步估计的作品尚未充分强调这一点。由于变形金刚网络要求大量的数据进行训练,因此我们使用人类36M,一个用于人类活动识别的基准数据集构建了一个用于运动同步估算的数据集,并使用对比度学习鉴定了我们的模型。我们进一步应用知识蒸馏以减轻姿势探测器失败以隐私的方式引入的信息损失。我们将我们的方法与PT13上的代表性方法进行了比较,PT13是从自闭症治疗干预措施中收集的数据集。我们的方法达到了88.98%的总体准确性,并在保持数据隐私的同时超过了同行。
translated by 谷歌翻译
通过深度学习技术的开花,完全有监督的基于骨架的动作识别取得了巨大进步。但是,这些方法需要足够的标记数据,这不容易获得。相比之下,基于自我监督的骨骼的动作识别引起了更多的关注。通过利用未标记的数据,可以学会更多可概括的功能来减轻过度拟合的问题并减少大规模标记的培训数据的需求。受到MAE的启发,我们提出了一个空间式蒙面的自动编码器框架,用于基于3D骨架的自我监管的动作识别(Skeletonmae)。在MAE的掩蔽和重建管道之后,我们利用基于骨架的编码器变压器体系结构来重建蒙版的骨架序列。一种新颖的掩蔽策略,称为时空掩蔽,是根据骨架序列的联合级别和框架级别引入的。这种预训练策略使编码器输出可推广的骨骼特征具有空间和时间依赖性。给定未掩盖的骨架序列,编码器用于动作识别任务。广泛的实验表明,我们的骨架达到了出色的性能,并优于NTU RGB+D和NTU RGB+D 120数据集的最新方法。
translated by 谷歌翻译
帕金森氏病(PD)是一种进行性神经退行性疾病,导致各种运动功能障碍症状,包括震颤,胸肌,僵硬和姿势不稳定。 PD的诊断主要取决于临床经验,而不是确定的医学测试,诊断准确性仅为73-84%,因为它受到不同医学专家的主观意见或经验的挑战。因此,有效且可解释的自动PD诊断系统对于支持更强大的诊断决策的临床医生很有价值。为此,我们建议对帕金森的震颤进行分类,因为它是PD的最主要症状之一,具有强烈的普遍性。与其他计算机辅助时间和资源消耗的帕金森震颤(PT)分类系统不同,我们提出了SPAPNET,该系统仅需要消费者级的非侵入性视频记录人类面向摄像机的动作作为输入,以提供无诊断低成本分类的患者作为PD警告标志。我们首次提议使用带有轻质金字塔通道 - 融合式结构的新型注意模块来提取相关的PT信息并有效地过滤噪声。这种设计有助于提高分类性能和系统的解释性。实验结果表明,我们的系统在将PT与非PT类别分类中的平衡精度达到90.9%和90.6%的F1得分来胜过最先进的。
translated by 谷歌翻译
预训练在机器学习的不同领域表现出成功,例如计算机视觉,自然语言处理(NLP)和医学成像。但是,尚未完全探索用于临床数据分析。记录了大量的临床记录,但是对于在小型医院收集的数据或处理罕见疾病的数据仍可能稀缺数据和标签。在这种情况下,对较大的未标记临床数据进行预训练可以提高性能。在本文中,我们提出了专为异质的多模式临床数据设计的新型无监督的预训练技术,用于通过蒙版语言建模(MLM)启发的患者预测,通过利用对人群图的深度学习来启发。为此,我们进一步提出了一个基于图形转换器的网络,该网络旨在处理异质临床数据。通过将基于掩盖的预训练与基于变压器的网络相结合,我们将基于掩盖的其他域中训练的成功转化为异质临床数据。我们使用三个医学数据集Tadpole,Mimic-III和一个败血症预测数据集,在自我监督和转移学习设置中展示了我们的预训练方法的好处。我们发现,我们提出的培训方法有助于对患者和人群水平的数据进行建模,并提高所有数据集中不同微调任务的性能。
translated by 谷歌翻译
当前的骨架动作表示方法学习的方法通常集中在受约束的场景上,其中在实验室环境中记录了视频和骨骼数据。在处理现实世界视频中估计的骨骼数据时,由于受试者和摄像机观点之间的差异很大,因此此类方法的性能差。为了解决这个问题,我们通过一种新颖的视图自动编码器介绍了自我监视的骨架动作表示学习。通过Leverage在不同的人类表演者之间进行运动重新定位作为借口任务,以便在2D或3D骨架序列的视觉表示之上删除潜在的动作特异性“运动”特征。这种“运动”功能对于骨架几何和相机视图是不变的,并允许通过辅助,跨视图和跨视图动作分类任务。我们进行了一项研究,重点是针对基于骨架的动作识别的转移学习,并在现实世界数据(例如Posetics)上进行自我监督的预训练。我们的结果表明,从VIA中学到的骨架表示足以提高最新动作分类精度,不仅在3D实验室数据集(例如NTU-RGB+D 60和NTU-RGB+D 120)上,而且还在在仅准确估计2D数据的现实数据集中,例如Toyota Smarthome,UAV-Human和Penn Action。
translated by 谷歌翻译
我们使用无卷积的变压器架构提出了一种从未标记数据学习多式式表示的框架。具体而言,我们的视频音频文本变压器(Vatt)将原始信号作为输入提取,提取丰富的多式化表示,以使各种下游任务受益。我们使用多模式对比损失从头划线训练Vatt端到端,并通过视频动作识别,音频事件分类,图像分类和文本到视频检索的下游任务评估其性能。此外,我们通过共享三种方式之间的重量来研究模型 - 无话的单骨架变压器。我们表明,无卷积VATT优于下游任务中的最先进的Convnet架构。特别是,Vatt的视觉变压器在动力学-400上实现82.1%的高精度82.1%,在动力学-600,72.7%的动力学-700上的72.7%,以及时间的时间,新的记录,在避免受监督的预训练时,新的记录。通过从头划伤训练相同的变压器,转移到图像分类导致图像分类导致78.7%的ImageNet精度为64.7%,尽管视频和图像之间的域间差距,我们的模型概括了我们的模型。 Vatt的音雅音频变压器还通过在没有任何监督的预训练的情况下在Audioset上实现39.4%的地图来设置基于波形的音频事件识别的新记录。 Vatt的源代码是公开的。
translated by 谷歌翻译
人类的行动识别是一个非常受过大量研究的领域,在该领域中,最引人注目的动作识别网络通常使用日常人类行动的大规模粗粒度动作数据集作为陈述其网络优势的输入。我们打算使用神经网络识别我们的小规模细粒Tai Chi动作数据集,并使用NTU RGB+D数据集提出一种转移学习方法,以预先培训我们的网络。更具体地说,提出的方法首先使用大规模的NTU RGB+D数据集来预先培训基于变压器的网络以进行动作识别,以在人类运动中提取共同的特征。然后,我们冻结除完全连接(FC)层以外的网络权重,并将我们的Tai Chi动作作为输入,仅用于训练初始化的FC权重。实验结果表明,我们的通用模型管道可以达到高度精细的Tai Chi Action识别的高精度,甚至很少输入,并证明我们的方法与先前的Tai Chi Action识别相比实现了最先进的性能方法。
translated by 谷歌翻译
我们提出了一个新的变压器模型,用于无监督学习骨架运动序列的任务。用于基于无监督骨骼的动作学习的现有变压器模型被了解到每个关节从相邻帧的瞬时速度没有全球运动信息。因此,该模型在学习全身运动和暂时遥远的关节方面的关注方面存在困难。此外,模型中尚未考虑人与人之间的互动。为了解决全身运动,远程时间动态和人与人之间的互动的学习,我们设计了一种全球和本地的注意机制,在其中,全球身体动作和本地关节运动相互关注。此外,我们提出了一种新颖的预处理策略,即多间隔姿势位移预测,以在不同的时间范围内学习全球和本地关注。提出的模型成功地学习了关节的局部动力学,并从运动序列中捕获了全局上下文。我们的模型优于代表性基准中明显边缘的最先进模型。代码可在https://github.com/boeun-kim/gl-transformer上找到。
translated by 谷歌翻译
学习自我监督的视频表示主要集中在简单数据增强方案中产生的判别实例。然而,学习的表示通常无法通过看不见的相机观点来概括。为此,我们提出了ViewClr,它将自我监督的视频表示不变到相机视点变化。我们介绍了一个视图生成器,可以被视为任何自我监督的预先文本任务的学习增强,以生成视频的潜在视点表示。ViewClr最大化潜像观点表示与原始视点表示的相似性,使学习的视频编码器能够概括未见的相机视点。在跨视图基准数据集的实验,包括NTU RGB + D数据集,显示ViewClr代表了一种最先进的ViewPoint不变自我监控方法。
translated by 谷歌翻译
肢体语言是一种引人注目的社交信号,其自动分析可以大大提高人工智能系统,以理解和积极参与社交互动。尽管计算机视觉在诸如头部和身体姿势估计之类的低级任务中取得了令人印象深刻的进步,但探索诸如示意,修饰或摸索之类的更微妙行为的发现尚未得到很好的探索。在本文中,我们介绍了BBSI,这是复杂的身体行为的第一组注释,嵌入了小组环境中的连续社交互动中。根据心理学的先前工作,我们在MpiigroupContraction数据集中手动注释了26个小时的自发人类行为,并具有15种不同的肢体语言类别。我们介绍了所得数据集的全面描述性统计数据以及注释质量评估的结果。为了自动检测这些行为,我们适应了金字塔扩张的注意网络(PDAN),这是一种最新的人类动作检测方法。我们使用四个空间特征的四种变体作为PDAN的输入进行实验:两流膨胀的3D CNN,颞段网络,时间移位模块和SWIN变压器。结果是有希望的,这表明了这项艰巨的任务改进的好空间。 BBSI代表了自动理解社会行为的难题中的关键作品,研究界完全可以使用。
translated by 谷歌翻译
视频的对比表示高度依赖于数百万未老化视频的可用性。这对于网络上可用的视频来说是实用的,但获取真实应用的大规模视频非常昂贵和费力。因此,在本文中,我们专注于为自我监督学习设计视频增强,首先分析最佳策略来混合视频以创建新的增强视频样本。然后,问题仍然存在,我们可以利用数据混合视频中的其他方式吗?为此,我们提出了跨模块歧管Cutmix(CMMC),其将视频TESSERACT插入到两个不同模式中的特征空间中的另一个视频TESERACT中。我们发现我们的视频混合策略STC-MIX,即视频的初步混合,然后在视频中跨越不同方式的CMMC,提高了学习视频表示的质量。我们对两个下游任务进行了彻底的实验:在两个小型视频数据集UCF101和HMDB51上进行动作识别和视频检索。我们还展示了我们STC-Mix在NTU数据集上的有效性,其中域名知识有限。我们表明,我们对下游任务的STC混合的表现与其他自我监督的方法有关,同时需要较少的培训数据。
translated by 谷歌翻译
人类的情感和心理状态以自动化的方式估计,面临许多困难,包括从差或没有时间分辨率的标签中学习,从很少有数据的数据集中学习(通常是由于机密性约束),并且(非常)很长 - 野外视频。由于这些原因,深度学习方法倾向于过度合适,也就是说,在最终回归任务上获得概括性差的潜在表示。为了克服这一点,在这项工作中,我们介绍了两个互补的贡献。首先,我们引入了一种新型的关系损失,以解决多标签回归和序数问题,该问题规则学习并导致更好的概括。拟议的损失使用标签矢量间歇间信息来通过将批次标签距离与潜在特征空间中的距离进行对齐,从而学习更好的潜在表示。其次,我们利用了两个阶段的注意体系结构,该体系结构通过使用相邻夹中的功能作为时间上下文来估计每个剪辑的目标。我们评估了关于连续影响和精神分裂症严重程度估计问题的提议方法,因为两者之间存在方法论和背景相似之处。实验结果表明,所提出的方法的表现优于所有基准。在精神分裂症的领域中,拟议的方法学优于先前的最先进的利润率,其PCC的PCC绩效高达78%的绩效(85%)(85%),并且比以前的工作高得多(Uplift FiftLift最多40%)。在情感识别的情况下,我们在OMG和AMIGOS数据集上都以CCC为基础的先前基于以前的方法。对于Amigos而言,我们的唤醒和价值分别均优于先前的SOTA CCC,分别为9%和13%,在OMG数据集中,我们的效果均优于先前的视力,唤醒和价值均高达5%。
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
我们介绍了用于分析功能磁共振成像(FMRI)数据的TFF变压器框架。TFF采用基于变压器的架构和两阶段培训方法。首先,自我监督培训适用于FMRI扫描的集合,其中模型培训用于重建3D卷数据。其次,预训练模型在特定任务上进行了微调,利用地面真理标签。我们的结果显示了各种FMRI任务的最先进的性能,包括年龄和性别预测,以及精神分裂症认可。
translated by 谷歌翻译
我们解决了人类反应生成的挑战性任务,该任务旨在基于输入动作产生相应的反应。大多数现有作品并不集中于产生和预测反应,并且在仅给出动作作为输入时就无法产生运动。为了解决这一限制,我们提出了一种新型的相互作用变压器(Interformer),该变压器由具有时间和空间浓度的变压器网络组成。具体而言,时间的注意力捕获了字符及其相互作用的运动的时间依赖性,而空间注意力则了解每个字符的不同身体部位与相互作用的一部分之间的依赖关系。此外,我们建议使用图形通过相互作用距离模块提高空间注意力的性能,以帮助关注两个字符的附近关节。关于SBU相互作用,K3HI和Duetdance数据集的广泛实验证明了Interformer的有效性。我们的方法是一般的,可用于产生更复杂和长期的相互作用。
translated by 谷歌翻译
在这项工作中,我们提出了MotionMixer,这是一个有效的3D人体姿势预测模型,仅基于多层感知器(MLP)。MotionMixer通过顺序混合这两种方式来学习时空3D身体姿势依赖性。给定3D身体姿势的堆叠序列,空间MLP提取物是身体关节的细粒空间依赖性。然后,随着时间的推移,身体关节的相互作用由时间MLP建模。最终将时空混合特征汇总并解码以获得未来的运动。为了校准姿势序列中每个时间步的影响,我们利用挤压和兴奋(SE)块。我们使用标准评估协议评估了36M,Amass和3DPW数据集的方法。对于所有评估,我们展示了最先进的性能,同时具有具有较少参数的模型。我们的代码可在以下网址找到:https://github.com/motionmlp/motionmixer
translated by 谷歌翻译
在本文中,我们提出了一种新的方法来增强从单个可佩戴相机捕获的视频计算的人的3D身体姿势估计。关键的想法是利用在联合嵌入空间中链接第一和第三次视图的高级功能。为了了解这样的嵌入空间,我们介绍了First2第三姿势,这是一个近2,000个视频的新配对同步数据集,描绘了从第一和第三视角捕获的人类活动。我们明确地考虑了空间和运动域功能,同时使用以自我监督的方式培训的半暹罗架构。实验结果表明,使用我们的数据集学习的联合多视图嵌入式空间可用于从任意单视图的自拍视频中提取歧视特征,而无需需要域适应,也不知道相机参数。在三种监督最先进的方法中,我们在两个无约束数据集中实现了重大改善了两个无约束的数据集。我们的数据集和代码将可用于研究目的。
translated by 谷歌翻译