我们呈现多视图姿势变压器(MVP),用于从多视图图像估计多人3D姿势。而不是从昂贵的体积表示或从多个检测到的2D重建的每人3D姿势估计从昂贵的体积表示或从多个检测到的2D姿势进行估计3D联合位置,而是MVP以清洁和有效的方式直接回归多人3D姿势,而不依赖于中间任务。具体而言,MVP表示作为学习查询嵌入的骨架关节,并让它们从输入图像中逐渐参加和原因,以直接回归实际的3D联合位置。为了提高这种简单管道的准确性,MVP呈现了一个分层方案,简明地代表了多人骨架关节的查询嵌入,并引入了输入相关的查询适应方法。此外,MVP设计了一种新颖的几何引导注意力机制,称为投影注意力,更精确地熔化每个关节的跨视网膜信息。 MVP还介绍了RAYCONV操作,以将视图依赖的相机几何整合到特征表示中,以增加投射注意。我们通过实验展示我们的MVP模型在几个基准上占据了最先进的方法,同时更有效。值得注意的是,它在挑战的Panoptic DataSet上实现了92.3%的AP25,提高了先前的最佳方法[36],提高了9.8%。 MVP是通用的,并且还可以扩展到恢复SMPL模型表示的人网格,因此可用于建模多人身体形状。代码和模型可在https://github.com/sail-sg/mvp上获得。
translated by 谷歌翻译
来自RGB视频的多人姿势理解包括三个复杂的任务:姿势估计,跟踪和运动预测。在这三个任务中,姿势估计和跟踪是相关的,跟踪对于运动预测至关重要。大多数现有作品要么专注于单个任务,要么采用级联方法来分别解决每个任务。在本文中,我们提出了狙击手,这是一个框架,以同时进行单个推断,同时进行多人3D姿势估计,跟踪和运动预测。具体而言,我们首先提出了一种可变形的注意机制,以从视频片段中汇总时空信息。基于这种可变形的注意力,学会了视觉变压器来编码从多框架图像中的时空特征,并解码信息性姿势功能以更新多人姿势查询。最后,对这些查询进行了回归,以预测一个正向传球中的多人姿势轨迹和未来动作。在实验中,我们显示了狙击手对三个具有挑战性的公共数据集的有效性,在该数据集中,通用模型竞争对手专门的姿势估计,跟踪和预测的最先进基线。代码可在\ href {https://github.com/jimmyzou/snipper} {https://github.com/jimmyzou/snipper}中获得。
translated by 谷歌翻译
尽管基于体素的方法已经获得了来自多摄像头的多人3D姿势估计的有希望的结果,但它们具有沉重的计算负担,尤其是对于大型场景。我们提出了更快的素素,以通过将特征体积重新投影到三个二维坐标平面并分别估算x,y,z坐标来解决挑战。为此,我们首先通过分别基于投影到XY平面和Z轴的体积功能来估算2D框及其高度,首先通过一个3D边界框来定位每个人。然后,对于每个人,我们分别估算三个坐标平面的部分关节坐标,然后将其融合以获得最终的3D姿势。该方法不含昂贵的3D-CNN,并将其素的速度提高了十倍,同时作为最先进的方法的竞争精度,证明了其在实时应用中的潜力。
translated by 谷歌翻译
变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性,变压器已被用作广泛使用的卷积运算符的替代品。事实证明,这种替代者在许多任务中都取得了成功,其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中,3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上,但由于与2D视觉相比,由于数据表示和处理的差异,3D视觉需要特别注意。在这项工作中,我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查,包括分类,细分,检测,完成,姿势估计等。我们在3D Vision中讨论了变形金刚的设计,该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序,我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力,我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外,我们的目标是频繁更新最新的相关论文及其相应的实现:https://github.com/lahoud/3d-vision-transformers。
translated by 谷歌翻译
估计每个视图中的2D人类姿势通常是校准多视图3D姿势估计的第一步。但是,2D姿势探测器的性能遭受挑战性的情况,例如闭塞和斜视角。为了解决这些挑战,以前的作品从eMipolar几何中的不同视图之间导出点对点对应关系,并利用对应关系来合并预测热插拔或特征表示。除了后预测合并/校准之外,我们引入了用于多视图3D姿势估计的变压器框架,其目的地通过将来自不同视图的信息集成信息来直接改善单个2D预测器。灵感来自先前的多模态变压器,我们设计一个统一的变压器体系结构,命名为输送,从当前视图和邻近视图中保险。此外,我们提出了eMipolar字段的概念来将3D位置信息编码到变压器模型中。由Epipolar字段引导的3D位置编码提供了一种有效的方式来编码不同视图的像素之间的对应关系。人类3.6M和滑雪姿势的实验表明,与其他融合方法相比,我们的方法更有效,并且具有一致的改进。具体而言,我们在256 x 256分辨率上只有5米参数达到人类3.6米的25.8毫米MPJPE。
translated by 谷歌翻译
本文提出了一个称为多视图和时间熔断变压器(MTF-Transformer)的统一框架,以适应不同的视图数字和视频长度,而无需在3D人体姿势估计中(HPE)进行摄像机校准。它由特征提取器,多视图融合变压器(MFT)和时间融合变压器(TFT)组成。特征提取器估计每个图像的2D姿势,并根据置信度融合预测。它提供以姿势为中心的功能嵌入,并使随后的模块计算轻量级。 MFT融合了不同数量的视图与新颖的相对注意区块的特征。它适应性地测量了每对视图之间的隐式相对关系,并重建更有信息的特征。 TFT聚集了整个序列的特征,并通过变压器预测3D姿势。它适应地处理任意长度的视频,并将时间信息完全统计。变压器的迁移使我们的模型能够更好地学习空间几何形状,并为不同的应用方案保留鲁棒性。我们报告了360万人类,综合赛和KTH Multiview Football II的定量和定性结果。与带有摄像头参数的最新方法相比,MTF-Transformer获得竞争结果,并以任意数量的看不见的视图良好地概括为动态捕获。
translated by 谷歌翻译
我们提出了可推广的NERF变压器(GNT),这是一种纯粹的,统一的基于变压器的体系结构,可以从源视图中有效地重建神经辐射场(NERF)。与NERF上的先前作品不同,通过颠倒手工渲染方程来优化人均隐式表示,GNT通过封装两个基于变压器的阶段来实现可概括的神经场景表示和渲染。 GNT的第一阶段,称为View Transformer,利用多视图几何形状作为基于注意力的场景表示的电感偏差,并通过在相邻视图上从异性线中汇总信息来预测与坐标对齐的特征。 GNT的第二阶段,名为Ray Transformer,通过Ray Marching呈现新视图,并使用注意机制直接解码采样点特征的序列。我们的实验表明,当在单个场景上进行优化时,GNT可以在不明确渲染公式的情况下成功重建NERF,甚至由于可学习的射线渲染器,在复杂的场景上甚至将PSNR提高了〜1.3db。当在各种场景中接受培训时,GNT转移到前面的LLFF数据集(LPIPS〜20%,SSIM〜25%$)和合成搅拌器数据集(LPIPS〜20%,SSIM 〜25%$)时,GNN会始终达到最先进的性能4%)。此外,我们表明可以从学习的注意图中推断出深度和遮挡,这意味着纯粹的注意机制能够学习一个物理地面渲染过程。所有这些结果使我们更接近将变形金刚作为“通用建模工具”甚至用于图形的诱人希望。请参阅我们的项目页面以获取视频结果:https://vita-group.github.io/gnt/。
translated by 谷歌翻译
估计来自图像的3D人形和姿势的能力在许多环境中都可以是有用的。最近的方法探索了使用图形卷积网络并取得了有希望的结果。 3D形状由网格表示的事实是一个无向图形,使得图形卷积网络自然适合该问题。但是,图形卷积网络具有有限的表示功率。从图中的节点中的信息传递给连接的邻居,并且信息的传播需要连续的图形卷积。为了克服这种限制,我们提出了一种双尺度图形方法。我们使用从密集图中衍生的粗糙图来估计人类的3D姿势,以及密集图来估计3D形状。与密集图相比,粗糙图中的信息可以在更长的距离上传播。此外,有关姿势的信息可以指导恢复本地形状细节,反之亦然。我们认识到,粗糙和密集之间的连接本身是图形,并引入图形融合块以在具有不同尺度之间的图形之间交换信息。我们培训我们的模型端到端,并表明我们可以为几个评估数据集实现最先进的结果。
translated by 谷歌翻译
我们提出了一种直接的,基于回归的方法,以从单个图像中估计2D人姿势。我们将问题提出为序列预测任务,我们使用变压器网络解决了问题。该网络直接学习了从图像到关键点坐标的回归映射,而无需诉诸中间表示(例如热图)。这种方法避免了与基于热图的方法相关的许多复杂性。为了克服以前基于回归的方法的特征错位问题,我们提出了一种注意机制,该机制适应与目标关键最相关的功能,从而大大提高了准确性。重要的是,我们的框架是端到端的可区分,并且自然学会利用关键点之间的依赖关系。两个主要的姿势估计数据集在MS-Coco和MPII上进行的实验表明,我们的方法在基于回归的姿势估计中的最新方法显着改善。更值得注意的是,与最佳的基于热图的姿势估计方法相比,我们的第一种基于回归的方法是有利的。
translated by 谷歌翻译
人类的姿势估计旨在弄清不同场景中所有人的关键。尽管结果有希望,但目前的方法仍然面临一些挑战。现有的自上而下的方法单独处理一个人,而没有不同的人与所在的场景之间的相互作用。因此,当发生严重闭塞时,人类检测的表现会降低。另一方面,现有的自下而上方法同时考虑所有人,并捕获整个图像的全局知识。但是,由于尺度变化,它们的准确性不如自上而下的方法。为了解决这些问题,我们通过整合自上而下和自下而上的管道来探索不同接受场的视觉线索并实现其互补性,提出了一种新颖的双皮线整合变压器(DPIT)。具体而言,DPIT由两个分支组成,自下而上的分支介绍了整个图像以捕获全局视觉信息,而自上而下的分支则从单人类边界框中提取本地视觉的特征表示。然后,从自下而上和自上而下的分支中提取的特征表示形式被馈入变压器编码器,以交互融合全局和本地知识。此外,我们定义了关键点查询,以探索全景和单人类姿势视觉线索,以实现两个管道的相互互补性。据我们所知,这是将自下而上和自上而下管道与变压器与人类姿势估计的变压器相结合的最早作品之一。关于可可和MPII数据集的广泛实验表明,我们的DPIT与最先进的方法相当。
translated by 谷歌翻译
We present a new method, called MEsh TRansfOrmer (METRO), to reconstruct 3D human pose and mesh vertices from a single image. Our method uses a transformer encoder to jointly model vertex-vertex and vertex-joint interactions, and outputs 3D joint coordinates and mesh vertices simultaneously. Compared to existing techniques that regress pose and shape parameters, METRO does not rely on any parametric mesh models like SMPL, thus it can be easily extended to other objects such as hands. We further relax the mesh topology and allow the transformer self-attention mechanism to freely attend between any two vertices, making it possible to learn non-local relationships among mesh vertices and joints. With the proposed masked vertex modeling, our method is more robust and effective in handling challenging situations like partial occlusions. METRO generates new state-of-the-art results for human mesh reconstruction on the public Human3.6M and 3DPW datasets. Moreover, we demonstrate the generalizability of METRO to 3D hand reconstruction in the wild, outperforming existing state-of-the-art methods on FreiHAND dataset. Code and pre-trained models are available at https: //github.com/microsoft/MeshTransformer.
translated by 谷歌翻译
最近,视觉变压器及其变体在人类和多视图人类姿势估计中均起着越来越重要的作用。将图像补丁视为令牌,变形金刚可以对整个图像中的全局依赖项进行建模或其他视图中的图像。但是,全球关注在计算上是昂贵的。结果,很难将这些基于变压器的方法扩展到高分辨率特征和许多视图。在本文中,我们提出了代币螺旋的姿势变压器(PPT)进行2D人姿势估计,该姿势估计可以找到粗糙的人掩模,并且只能在选定的令牌内进行自我注意。此外,我们将PPT扩展到多视图人类姿势估计。我们建立在PPT的基础上,提出了一种新的跨视图融合策略,称为人类区域融合,该策略将所有人类前景像素视为相应的候选者。可可和MPII的实验结果表明,我们的PPT可以在减少计算的同时匹配以前的姿势变压器方法的准确性。此外,对人类360万和滑雪姿势的实验表明,我们的多视图PPT可以有效地从多个视图中融合线索并获得新的最新结果。
translated by 谷歌翻译
我们考虑从野外拥挤的场景中恢复一个人的3D人网格的问题。尽管在3D人网估计中取得了很多进展,但当测试输入的场景拥挤时,现有的方法很难。失败的第一个原因是训练和测试数据之间的域间隙。一个运动捕获数据集为训练提供准确的3D标签,缺乏人群数据,并阻碍了网络无法学习目标人的拥挤场景射击图像特征。第二个原因是功能处理,该功能处理在空间上平均包含多个人的本地化边界框的特征图。平均整个功能映射使目标人的特征与他人无法区分。我们提出了3dcrowdnet,首先要明确针对野生野外的场景,并通过解决上述问题来估算强大的3D人网。首先,我们利用2D人姿势估计不需要带有3D标签的运动捕获数据集进行训练,并且不受域间隙的困扰。其次,我们提出了一个基于联合的回归器,将目标人的特征与他人区分开来。我们的基于联合的回归器通过对目标关节位置的采样特征来保留目标的空间激活并回归人类模型参数。结果,3DCORDNET学习了针对目标的功能,并有效地排除了附近人的无关特征。我们对各种基准进行实验,并证明3dcrowdnet对野外拥挤的场景的鲁棒性在定量和定性上。该代码可在https://github.com/hongsukchoi/3dcrowdnet_release上获得。
translated by 谷歌翻译
由于严重的阻塞,快速身体运动和复杂的相互作用引起的歧义,多人运动捕获可能具有挑战性。现有的框架以2D姿势估算为基础,并通过推理多相机观测值的外观,轨迹和几何一致性来对3D坐标进行三角测量。但是,由于观察角有限,2D联合检测通常不完整,并且由于观察角有限而导致错误的身份分配,这会导致噪音3D三角测量结果。为了克服这个问题,我们建议使用变压器探索骨骼运动的短距离自回归特征。首先,我们提出了一个自适应,身份感知的三角剖分模块,以重建3D关节并确定每个身份的缺失关节。为了产生完整的3D骨骼运动,我们提出了一个双掩模的自动编码器(D-MAE),该自动编码器(D-MAE)用骨骼结构和时间位置编码轨迹完成的骨骼结构和时间位置编码关节状态。 D-MAE的灵活掩蔽和编码机制使任意骨骼定义可以方便地在同一框架下部署。为了证明所提出的模型在处理严重的数据丢失方案方面的能力,我们为多人相互作用与严重遮挡的高临界性和挑战性运动捕获数据集。对基准和我们的新数据集的评估都证明了我们提出的模型的效率,以及其对其他最新方法的优势。
translated by 谷歌翻译
3D object detection with surround-view images is an essential task for autonomous driving. In this work, we propose DETR4D, a Transformer-based framework that explores sparse attention and direct feature query for 3D object detection in multi-view images. We design a novel projective cross-attention mechanism for query-image interaction to address the limitations of existing methods in terms of geometric cue exploitation and information loss for cross-view objects. In addition, we introduce a heatmap generation technique that bridges 3D and 2D spaces efficiently via query initialization. Furthermore, unlike the common practice of fusing intermediate spatial features for temporal aggregation, we provide a new perspective by introducing a novel hybrid approach that performs cross-frame fusion over past object queries and image features, enabling efficient and robust modeling of temporal information. Extensive experiments on the nuScenes dataset demonstrate the effectiveness and efficiency of the proposed DETR4D.
translated by 谷歌翻译
以视觉为中心的BEV感知由于其固有的优点,最近受到行业和学术界的关注,包括展示世界自然代表和融合友好。随着深度学习的快速发展,已经提出了许多方法来解决以视觉为中心的BEV感知。但是,最近没有针对这个小说和不断发展的研究领域的调查。为了刺激其未来的研究,本文对以视觉为中心的BEV感知及其扩展进行了全面调查。它收集并组织了最近的知识,并对常用算法进行了系统的综述和摘要。它还为几项BEV感知任务提供了深入的分析和比较结果,从而促进了未来作品的比较并激发了未来的研究方向。此外,还讨论了经验实现细节并证明有利于相关算法的开发。
translated by 谷歌翻译
变压器是一种基于关注的编码器解码器架构,彻底改变了自然语言处理领域。灵感来自这一重大成就,最近在将变形式架构调整到计算机视觉(CV)领域的一些开创性作品,这已经证明了他们对各种简历任务的有效性。依靠竞争力的建模能力,与现代卷积神经网络相比在本文中,我们已经为三百不同的视觉变压器进行了全面的审查,用于三个基本的CV任务(分类,检测和分割),提出了根据其动机,结构和使用情况组织这些方法的分类。 。由于培训设置和面向任务的差异,我们还在不同的配置上进行了评估了这些方法,以便于易于和直观的比较而不是各种基准。此外,我们已经揭示了一系列必不可少的,但可能使变压器能够从众多架构中脱颖而出,例如松弛的高级语义嵌入,以弥合视觉和顺序变压器之间的差距。最后,提出了三个未来的未来研究方向进行进一步投资。
translated by 谷歌翻译
我们为图形结构数据(名为Kog-Transformer)和一个名为GASE-NET的3D姿势对形状估计网络提出了一个新颖的基于注意力的2到3D姿势估计网络,并提出了一个名为KOG-Transformer的数据。先前的3D姿势估计方法集中在对图卷积内核的各种修改上,例如放弃重量共享或增加接受场。其中一些方法采用基于注意力的非本地模块作为辅助模块。为了更好地模拟图形结构数据中的节点之间的关系并以差异化的方式融合不同邻居节点的信息,我们对注意模块进行了针对性的修改,并提出了设计用于图形结构数据的两个模块,图形相对位置编码多头自我注意事项(GR-MSA)和K级面向图形的多头自我注意力(KOG-MSA)。通过堆叠GR-MSA和KOG-MSA,我们提出了一个新型的网络KOG转换器,以进行2到3D姿势估计。此外,我们提出了一个在手数据上进行形状估计的网络,称为Graistention形状估计网络(GASE-NET),该网络以3D姿势为输入,并逐渐将手的形状从稀疏到密集建模。我们通过广泛的实验从经验上证明了KOG转化器的优势。实验结果表明,KOG转换器在基准数据集Human36M上的先前最新方法显着优于先前的最新方法。我们评估了GASE-NET对两个公共可用手数据集的影响Obman和Interhand 2.6M。 GASE-NET可以预测具有强泛化能力的输入姿势的相应形状。
translated by 谷歌翻译
闭塞对单眼多人3D人体姿势估计构成了极大的威胁,这是由于封闭器的形状,外观和位置方面的差异很大。尽管现有的方法试图用姿势先验/约束,数据增强或隐性推理处理遮挡,但它们仍然无法概括地看不见姿势或遮挡案例,并且在出现多人时可能会犯大错误。受到人类从可见线索推断关节的显着能力的启发,我们开发了一种方法来显式建模该过程,该过程可以显着改善有或没有遮挡的情况下,可以显着改善自下而上的多人姿势估计。首先,我们将任务分为两个子任务:可见的关键点检测和遮挡的关键点推理,并提出了深入监督的编码器蒸馏(DSED)网络以求解第二个网络。为了训练我们的模型,我们提出了一种骨骼引导的人形拟合(SSF)方法,以在现有数据集上生成伪遮挡标签,从而实现明确的遮挡推理。实验表明,从遮挡中明确学习可以改善人类姿势估计。此外,利用可见关节的特征级信息使我们可以更准确地推理遮挡关节。我们的方法的表现优于几个基准的最新自上而下和自下而上的方法。
translated by 谷歌翻译
尽管来自视频的3D人类姿势估算的巨大进展,但是充分利用冗余2D姿势序列来学习用于生成一个3D姿势的代表表示的开放问题。为此,我们提出了一种改进的基于变压器的架构,称为冲压变压器,简单地有效地将长期的2D联合位置升高到单个3D姿势。具体地,采用Vanilla变压器编码器(VTE)来模拟2D姿势序列的远程依赖性。为了减少序列的冗余,vte的前馈网络中的完全连接的层被冲击卷积替换,以逐步缩小序列长度并从本地上下文聚合信息。修改的VTE称为STRIVEIVERCHER ENCODER(STE),其构建在VTE的输出时。 STE不仅有效地将远程信息聚集到分层全球和本地时尚的单载体表示,而且显着降低了计算成本。此外,全序列和单个目标帧尺度都设计了全序,分别适用于VTE和ST的输出。该方案与单个目标帧监督结合施加额外的时间平滑度约束,因此有助于产生更平滑和更准确的3D姿势。所提出的轮廓变压器在两个具有挑战性的基准数据集,Human3.6M和HumanVa-I中进行评估,并通过更少的参数实现最先进的结果。代码和模型可用于\ url {https://github.com/vegetebird/stridedtransformer-pose3d}。
translated by 谷歌翻译