弱监督的动作本地化旨在仅使用视频级别的分类标签在给定的视频中进行本地化和分类。因此,现有的弱监督行动定位方法的关键问题是从弱注释中对精确预测的有限监督。在这项工作中,我们提出了视频级别和摘要级别的举止,即等级的层次策略,即等级监督和等级一致性挖掘,以最大程度地利用给定的注释和预测一致性。为此,提出了一个分层采矿网络(HIM-NET)。具体而言,它在两种谷物中挖掘了分类的层次监督:一个是通过多个实例学习捕获的地面真理类别的视频级别存在;另一个是从互补标签的角度来看,每个负标签类别的摘要级别不存在,这是通过我们提出的互补标签学习优化的。至于层次结构的一致性,HIM-NET探讨了视频级别的共同作用具有相似性和摘要级别的前景背景对立,以进行判别表示学习和一致的前景背景分离。具体而言,预测差异被视为不确定性,可以选择对拟议的前后背景协作学习的高共识。全面的实验结果表明,HIM-NET优于Thumos14和ActivityNet1.3数据集的现有方法,该数据集具有较大的利润率,通过层次挖掘监督和一致性。代码将在GitHub上提供。
translated by 谷歌翻译
Unlike images which are represented in regular dense grids, 3D point clouds are irregular and unordered, hence applying convolution on them can be difficult. In this paper, we extend the dynamic filter to a new convolution operation, named PointConv. PointConv can be applied on point clouds to build deep convolutional networks. We treat convolution kernels as nonlinear functions of the local coordinates of 3D points comprised of weight and density functions. With respect to a given point, the weight functions are learned with multi-layer perceptron networks and density functions through kernel density estimation. The most important contribution of this work is a novel reformulation proposed for efficiently computing the weight functions, which allowed us to dramatically scale up the network and significantly improve its performance. The learned convolution kernel can be used to compute translation-invariant and permutation-invariant convolution on any point set in the 3D space. Besides, PointConv can also be used as deconvolution operators to propagate features from a subsampled point cloud back to its original resolution. Experiments on ModelNet40, ShapeNet, and ScanNet show that deep convolutional neural networks built on PointConv are able to achieve state-of-the-art on challenging semantic segmentation benchmarks on 3D point clouds. Besides, our experiments converting CIFAR-10 into a point cloud showed that networks built on PointConv can match the performance of convolutional networks in 2D images of a similar structure.
translated by 谷歌翻译
3D人类的姿势和形状估计(又称“人网恢复”)取得了实质性进展。研究人员主要关注新算法的发展,而对涉及的其他关键因素的关注较少。这可能会导致最佳基线,从而阻碍对新设计方法的公平和忠实的评估。为了解决这个问题,这项工作从算法以外的三个探索性观点中提出了首次全面的基准测试研究。 1)数据集。对31个数据集的分析揭示了数据样本的不同影响:具有关键属性的数据集(即多样化的姿势,形状,相机特征,骨干特征)更有效。高质量数据集的战略选择和组合可以显着提高模型性能。 2)骨干。从CNN到变压器的10个骨干的实验表明,从接近任务中学到的知识很容易转移到人网状恢复中。 3)培训策略。正确的增强技术和损失设计至关重要。通过上述发现,我们在具有相对简单的模型的3DPW测试集上实现了47.3 mm的PA-MPJPE。更重要的是,我们为算法的公平比较提供了强大的基准,以及将来建立有效培训配置的建议。代码库可在http://github.com/smplbody/hmr-benchmarks上获得
translated by 谷歌翻译
人类运动建模对于许多现代图形应用非常重要,这些应用通常需要专业技能。为了消除外行的技能障碍,最近的运动生成方法可以直接产生以自然语言为条件的人类动作。但是,通过各种文本输入,实现多样化和细粒度的运动产生,仍然具有挑战性。为了解决这个问题,我们提出了MotionDiffuse,这是第一个基于基于文本模型的基于文本驱动的运动生成框架,该框架证明了现有方法的几种期望属性。 1)概率映射。 MotionDiffuse不是确定性的语言映射,而是通过一系列注入变化的步骤生成动作。 2)现实的综合。 MotionDiffuse在建模复杂的数据分布和生成生动的运动序列方面表现出色。 3)多级操作。 Motion-Diffuse响应有关身体部位的细粒度指示,以及随时间变化的文本提示,任意长度运动合成。我们的实验表明,Motion-Diffuse通过说服文本驱动运动产生和动作条件运动的运动来优于现有的SOTA方法。定性分析进一步证明了MotionDiffuse对全面运动产生的可控性。主页:https://mingyuan-zhang.github.io/projects/motiondiffuse.html
translated by 谷歌翻译
从单眼图像中恢复纹理的3D网格是高度挑战的,尤其是对于缺乏3D地面真理的野外物体。在这项工作中,我们提出了网络文化,这是一个新的框架,可通过利用3D GAN预先训练的3D纹理网格合成的3D GAN的生成性先验。重建是通过在3D GAN中搜索最类似于目标网格的潜在空间来实现重建。由于预先训练的GAN以网状几何形状和纹理封装了丰富的3D语义,因此在GAN歧管内进行搜索,因此自然地使重建的真实性和忠诚度正常。重要的是,这种正则化直接应用于3D空间,从而提供了在2D空间中未观察到的网格零件的关键指导。标准基准测试的实验表明,我们的框架获得了忠实的3D重建,并在观察到的部分和未观察到的部分中都具有一致的几何形状和纹理。此外,它可以很好地推广到不太常见的网格中,例如可变形物体的扩展表达。代码在https://github.com/junzhezhang/mesh-inversion上发布
translated by 谷歌翻译
学习重建3D服装对于在不同的姿势中穿着不同形状的3D人体来说是重要的。以前的作品通常依赖于2D图像作为输入,但是遭受尺度和构成歧义。为了规避由2D图像引起的问题,我们提出了一个原则的框架,服装4D,它使用穿着人的3D点云序列来服装重建。 Garment4D有三个专用步骤:顺序服装登记,典型服装估算和摆动衣服重建。主要挑战是两倍:1)有效的3D特征学习精细细节,2)捕获由服装和人体之间的相互作用引起的服装动力学,特别是对于像裙子这样的松散服装。为了解开这些问题,我们介绍了一种新的提议引导的分层特征网络和迭代图卷积网络,其集成了高级语义特征和低级几何特征,以进行精细细节重建。此外,我们提出了一种用于平滑服装运动的时间变压器。与非参数方法不同,我们的方法的重建服装网格可与人体分离,并且具有很强的解释性,这对于下游任务是期望的。作为本任务的第一次尝试,通过广泛的实验定性和定量地说明了高质量的重建结果。代码在https://github.com/hongfz16/garment4d提供。
translated by 谷歌翻译
在点云序列中,3D对象跟踪目的是在给定模板点云的情况下预测当前搜索点云中的对象的位置和方向。通过变压器的成功,我们提出了点跟踪变压器(PTTR),其有效地在变压器操作的帮助下以粗良好的方式预测高质量的3D跟踪结果。 PTTR由三种新颖的设计组成。 1)除了随机抽样中,我们设计关系感知采样,以保护在子采样期间给定模板的相关点。 2)此外,我们提出了一种由自我关注和跨关注模块组成的点关系变压器(PRT)。全局自我关注操作捕获远程依赖性,以便分别增强搜索区域和模板的编码点特征。随后,我们通过横向关注匹配两组点特征来生成粗略跟踪结果。 3)基于粗略跟踪结果,我们采用了一种新颖的预测细化模块来获得最终精制预测。此外,我们根据Waymo Open DataSet创建一个大型点云单个对象跟踪基准。广泛的实验表明,PTTR以准确性和效率达到优越的点云跟踪。
translated by 谷歌翻译
由于稀疏和嘈杂的测量,不完整的观察和大转化,3D对象的点云注册是非常具有挑战性的。在这项工作中,我们提出了匹配共识网络(GMCNet)的图表匹配,该网络估计了ultrange 1偏向部分点云注册(PPR)的姿势不变的对应关系。为了编码强大的点描述符,1)我们首先全面调查各种几何特征的变换 - 鲁棒性和远征性。 2)然后,我们采用新颖的转换 - 强大的点变换器(TPT)模块,以自适应地聚合有关结构关系的本地特征,其利用手工旋转 - 不变($ RI $)功能和噪声弹性空间坐标。 3)基于分层图网络网络和图形建模的协同作用,我们提出了编码由I)从$ RI $特征中汲取的一项机会学习的强大描述符的分层图形建模(HGM)架构;并且ii)通过我们的TPT模块以不同尺度的相邻点关系编码的多个平滑术语。此外,我们用虚拟扫描构建一个具有挑战性的PPR数据集(MVP-RG)。广泛的实验表明,GMCNet优于PPR以前的最先进方法。值得注意的是,GMCNET编码每个点云的点描述符,而不使用CrossContexual信息,或接地真理对应进行培训。我们的代码和数据集将在https://github.com/paul007pl/gmcnet上获得。
translated by 谷歌翻译
基于图像和视频的3D人类恢复(即姿势和形状估计)取得了实质性进展。但是,由于运动捕获的高度成本,现有的数据集通常受到规模和多样性的限制。在这项工作中,我们通过使用自动注释的3D地面真相玩电子游戏来获得大量的人类序列。具体来说,我们贡献了GTA-Human,这是一种由GTA-V游戏引擎生成的大规模3D人类数据集,具有高度多样化的主题,动作和场景。更重要的是,我们研究游戏玩法数据的使用并获得五个主要见解。首先,游戏数据非常有效。基于框架的简单基线对GTA-Human训练,其优于更复杂的方法的幅度很大。对于基于视频的方法,GTA-Human甚至与内域训练集相当。其次,我们发现合成数据为通常在室内收集的真实数据提供了关键补充。我们对域间隙的调查为简单但有用的数据混合策略提供了解释。第三,数据集的比例很重要。性能提升与可用的其他数据密切相关。一项系统的研究揭示了来自多个关键方面的数据密度的模型敏感性。第四,GTA-Human的有效性还归因于丰富的强制监督标签(SMPL参数),在实际数据集中获取否则它们很昂贵。第五,合成数据的好处扩展到较大的模型,例如更深层次的卷积神经网络(CNN)和变压器,也观察到了重大影响。我们希望我们的工作可以为将3D人类恢复到现实世界铺平道路。主页:https://caizhongang.github.io/projects/gta-human/
translated by 谷歌翻译
Graph Neural Networks (GNNs) have shown satisfying performance on various graph learning tasks. To achieve better fitting capability, most GNNs are with a large number of parameters, which makes these GNNs computationally expensive. Therefore, it is difficult to deploy them onto edge devices with scarce computational resources, e.g., mobile phones and wearable smart devices. Knowledge Distillation (KD) is a common solution to compress GNNs, where a light-weighted model (i.e., the student model) is encouraged to mimic the behavior of a computationally expensive GNN (i.e., the teacher GNN model). Nevertheless, most existing GNN-based KD methods lack fairness consideration. As a consequence, the student model usually inherits and even exaggerates the bias from the teacher GNN. To handle such a problem, we take initial steps towards fair knowledge distillation for GNNs. Specifically, we first formulate a novel problem of fair knowledge distillation for GNN-based teacher-student frameworks. Then we propose a principled framework named RELIANT to mitigate the bias exhibited by the student model. Notably, the design of RELIANT is decoupled from any specific teacher and student model structures, and thus can be easily adapted to various GNN-based KD frameworks. We perform extensive experiments on multiple real-world datasets, which corroborates that RELIANT achieves less biased GNN knowledge distillation while maintaining high prediction utility.
translated by 谷歌翻译