密集的注释LiDAR点云是昂贵的,这限制了完全监督学习方法的可伸缩性。在这项工作中,我们研究了激光雷达分割中未充满激光的半监督学习(SSL)。我们的核心思想是利用激光点云的强烈空间提示来更好地利用未标记的数据。我们建议Lasermix混合不同激光扫描的激光束,然后鼓励模型在混合前后进行一致和自信的预测。我们的框架具有三个吸引人的属性:1)通用:Lasermix对LIDAR表示不可知(例如,范围视图和体素),因此可以普遍应用我们的SSL框架。 2)从统计上讲:我们提供详细的分析,以理论上解释所提出的框架的适用性。 3)有效:对流行激光雷达分割数据集(Nuscenes,Semantickitti和Scribblekitti)的全面实验分析证明了我们的有效性和优势。值得注意的是,我们在标签少2倍至5倍的同行中获得了竞争成果,并平均将仅监督的基线提高了10.8%。我们希望这个简洁而高性能的框架可以促进半监督的激光雷达细分的未来研究。代码将公开可用。
translated by 谷歌翻译
域的概括(DG)旨在学习分配变化的可推广模型,以避免重新拟合大规模训练数据。以前具有复杂损失设计和梯度约束的作品尚未在大规模基准上取得经验成功。在这项工作中,我们通过利用跨域跨域的预测特征的多个方面来揭示Experts(MOE)模型对DG的概括性的混合物。为此,我们提出了稀疏的融合混合物(SF-MOE),该混合物将稀疏性和融合机制纳入MOE框架中,以使模型保持稀疏和预测性。 SF-MOE有两个专用模块:1)稀疏块和2)融合块,它们分别分别分离和汇总对象的多样化信号。广泛的实验表明,SF-MOE是大规模基准的域名学习者。在5个大规模的DG数据集(例如域内)中,它的表现优于最佳同行,其计算成本相同甚至较低。我们从分布式表示的角度(例如,视觉属性)进一步揭示了SF-MOE的内部机制。我们希望这个框架可以促进未来的研究,将可普遍的对象识别推向现实世界。代码和模型在https://github.com/luodian/sf-moe-dg上发布。
translated by 谷歌翻译
3D感知,尤其是点云分类,已取得了重大进展。但是,在现实世界的部署中,由于场景的复杂性,传感器不准确和处理不精确性,点云腐败是不可避免的。在这项工作中,我们的目标是严格基准并分析腐败下的点云分类。为了进行系统的调查,我们首先提供了共同3D腐败的分类法,并确定原子腐败。然后,我们对广泛的代表点云模型进行全面评估,以了解其稳健性和概括性。我们的基准结果表明,尽管点云分类性能会随着时间的推移而提高,但最新的方法仍处于较差的范围。基于获得的观测值,我们提出了几种有效的技术来增强点云分类器的鲁棒性。我们希望我们的全面基准,深入分析和提议的技术能够以强大的3D感知激发未来的研究。
translated by 谷歌翻译
图形神经网络(GNN)在学习强大的节点表示中显示了令人信服的性能,这些表现在保留节点属性和图形结构信息的强大节点表示中。然而,许多GNNS在设计有更深的网络结构或手柄大小的图形时遇到有效性和效率的问题。已经提出了几种采样算法来改善和加速GNN的培训,但他们忽略了解GNN性能增益的来源。图表数据中的信息的测量可以帮助采样算法来保持高价值信息,同时消除冗余信息甚至噪声。在本文中,我们提出了一种用于GNN的公制引导(MEGUIDE)子图学习框架。 MEGUIDE采用两种新颖的度量:功能平滑和连接失效距离,以指导子图采样和迷你批次的培训。功能平滑度专为分析节点的特征而才能保留最有价值的信息,而连接失败距离可以测量结构信息以控制子图的大小。我们展示了MEGUIDE在多个数据集上培训各种GNN的有效性和效率。
translated by 谷歌翻译
空间临时局部二进制模式(STLBP)已广泛用于动态纹理识别。 STLBP经常遇到高维问题,因为其维度呈指数增加,因此STLBP只能利用小邻居。为了解决这个问题,我们提出了一种使用PDV散列和多尺度卷本地二进制模式(PHD-MVLBP)的动态纹理识别方法。它首先使用散列函数来将像素差向量(PDV)映射到二进制向量的哈希函数,然后使用导出的二进制向量来形成字典,并使用派生词典对它们进行编码。以这种方式,PDV被映射到字典大小的特征向量,而不是非常高维的LBP直方图。这样的编码方案可以有效地将视频中的视频中的判别信息提取。在两个广泛使用的动态纹理数据集,Dyntex ++和UCLA上的实验结果表明了所提出的方法的优势性能,通过最先进的方法。
translated by 谷歌翻译
无监督的图形表示学习是图形数据的非琐碎主题。在结构化数据的无监督代表学习中对比学习和自我监督学习的成功激发了图表上的类似尝试。使用对比损耗的当前无监督的图形表示学习和预培训主要基于手工增强图数据之间的对比度。但是,由于不可预测的不变性,图数据增强仍然没有很好地探索。在本文中,我们提出了一种新颖的协作图形神经网络对比学习框架(CGCL),它使用多个图形编码器来观察图形。不同视图观察的特征充当了图形编码器之间对比学习的图表增强,避免了任何扰动以保证不变性。 CGCL能够处理图形级和节点级表示学习。广泛的实验表明CGCL在无监督的图表表示学习中的优势以及图形表示学习的手工数据增强组合的非必要性。
translated by 谷歌翻译
基于图像和视频的3D人类恢复(即姿势和形状估计)取得了实质性进展。但是,由于运动捕获的高度成本,现有的数据集通常受到规模和多样性的限制。在这项工作中,我们通过使用自动注释的3D地面真相玩电子游戏来获得大量的人类序列。具体来说,我们贡献了GTA-Human,这是一种由GTA-V游戏引擎生成的大规模3D人类数据集,具有高度多样化的主题,动作和场景。更重要的是,我们研究游戏玩法数据的使用并获得五个主要见解。首先,游戏数据非常有效。基于框架的简单基线对GTA-Human训练,其优于更复杂的方法的幅度很大。对于基于视频的方法,GTA-Human甚至与内域训练集相当。其次,我们发现合成数据为通常在室内收集的真实数据提供了关键补充。我们对域间隙的调查为简单但有用的数据混合策略提供了解释。第三,数据集的比例很重要。性能提升与可用的其他数据密切相关。一项系统的研究揭示了来自多个关键方面的数据密度的模型敏感性。第四,GTA-Human的有效性还归因于丰富的强制监督标签(SMPL参数),在实际数据集中获取否则它们很昂贵。第五,合成数据的好处扩展到较大的模型,例如更深层次的卷积神经网络(CNN)和变压器,也观察到了重大影响。我们希望我们的工作可以为将3D人类恢复到现实世界铺平道路。主页:https://caizhongang.github.io/projects/gta-human/
translated by 谷歌翻译
尽管取得了重大进展,但最先进的抽象摘要方法仍然易于与源文件不一致的幻觉内容。在本文中,我们提出了约束的抽象摘要(CAS),这是一种常规设置,它通过将令牌指定为摘要中必须存在的约束来保留抽象总结的事实一致性。我们采用词汇限制解码,一般适用于自回归的生成模型的技术,履行CAS并在两种情况下进行实验:(1)自动摘要而不进行人类参与,其中短语从源文档中提取并用作约束; (2)人性引导的交互式摘要,其中人工制约形式的人类反馈用于指导摘要一代。两个基准数据集上的自动和人为评估表明CAS改善了词汇重叠(胭脂)和抽象总结的事实一致性。特别是,当在交互式摘要中仅使用一个手动约束时,我们将观察到最多13.8胭脂-2增益。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译
This paper presents a practical global optimization algorithm for the K-center clustering problem, which aims to select K samples as the cluster centers to minimize the maximum within-cluster distance. This algorithm is based on a reduced-space branch and bound scheme and guarantees convergence to the global optimum in a finite number of steps by only branching on the regions of centers. To improve efficiency, we have designed a two-stage decomposable lower bound, the solution of which can be derived in a closed form. In addition, we also propose several acceleration techniques to narrow down the region of centers, including bounds tightening, sample reduction, and parallelization. Extensive studies on synthetic and real-world datasets have demonstrated that our algorithm can solve the K-center problems to global optimal within 4 hours for ten million samples in the serial mode and one billion samples in the parallel mode. Moreover, compared with the state-of-the-art heuristic methods, the global optimum obtained by our algorithm can averagely reduce the objective function by 25.8% on all the synthetic and real-world datasets.
translated by 谷歌翻译