零件代表不同对象的几何和语义相似性的基本单位。我们争辩说,部分知识应与观察到的对象课程中有款组合。对此,我们将3D组成零射击学习作为从看作识的零件泛化的问题,从而看成了语义分割。我们通过将任务与所提出的组成部分数据集进行基准测试,提供结构化研究。该数据集是通过处理原始PartNet来创建的,以最大化不同对象的部分重叠。现有点云部分段方法未能在此设置中概括到未遵守的对象类。作为解决方案,我们提出了分解共识,其将零件分割网络与部分评分网络相结合。我们方法的关键直觉是某些部件的分割掩码应该具有与其部分分数分开的零件分数的共识。在生成最合适的分割掩模之前在每个对象部分中定义的不同部分组合的两个网络原因。我们展示了我们的方法允许组成零射分段和广义零拍分类,并在两个任务中建立最先进的状态。
translated by 谷歌翻译
虽然对2D图像的零射击学习(ZSL)进行了许多研究,但其在3D数据中的应用仍然是最近且稀缺的,只有几种方法限于分类。我们在3D数据上介绍了ZSL和广义ZSL(GZSL)的第一代生成方法,可以处理分类,并且是第一次语义分割。我们表明它达到或胜过了INTEMNET40对归纳ZSL和归纳GZSL的ModelNet40分类的最新状态。对于语义分割,我们创建了三个基准,用于评估此新ZSL任务,使用S3DIS,Scannet和Semantickitti进行评估。我们的实验表明,我们的方法优于强大的基线,我们另外为此任务提出。
translated by 谷歌翻译
Generalizable 3D part segmentation is important but challenging in vision and robotics. Training deep models via conventional supervised methods requires large-scale 3D datasets with fine-grained part annotations, which are costly to collect. This paper explores an alternative way for low-shot part segmentation of 3D point clouds by leveraging a pretrained image-language model, GLIP, which achieves superior performance on open-vocabulary 2D detection. We transfer the rich knowledge from 2D to 3D through GLIP-based part detection on point cloud rendering and a novel 2D-to-3D label lifting algorithm. We also utilize multi-view 3D priors and few-shot prompt tuning to boost performance significantly. Extensive evaluation on PartNet and PartNet-Mobility datasets shows that our method enables excellent zero-shot 3D part segmentation. Our few-shot version not only outperforms existing few-shot approaches by a large margin but also achieves highly competitive results compared to the fully supervised counterpart. Furthermore, we demonstrate that our method can be directly applied to iPhone-scanned point clouds without significant domain gaps.
translated by 谷歌翻译
我们引入了构图软提示(CSP),这是一种参数有效的学习技术,可改善大规模预处理视觉模型(VLMS)的零摄像组成性。 VLM可以在其灵活的文本编码器中代表任意类作为自然语言提示,但在组成零击基准任务上的表现不佳。为了改善VLM,我们提出了一种新颖的软提示形式。我们将构成的属性和对象视为将类定义为词汇的可学习令牌,并在多个及时的构图上调整它们。在推断期间,我们在新组合中重新组装了学习的属性对象词汇。我们表明,CSP在基准数据集上的原始VLM的表现平均为AUC上的10.9个百分点。 CSP还胜过Coop,这是一种调谐前缀上下文的软提示方法,在AUC上平均要点5.8个百分点。我们执行其他实验,以表明CSP对仅属性分类,高阶属性 - 属性对象组成以及预验证属性和微调对象的组合进行了改进。
translated by 谷歌翻译
组成零射击学习(CZSL)是指识别已知视觉原始素的看不见的组成,这是人工智能系统学习和理解世界的重要能力。尽管在现有基准测试方面取得了长足的进展,但我们怀疑流行的CZSL方法是否可以解决几乎没有射击的挑战和很少的参考构成,这在现实世界中看不见的环境中学习时很常见。为此,我们研究了本文中具有挑战性的参考有限的零拍学习(RL-CZSL)问题,即,只有少数样品作为参考,应确定观察到的原始物的参考的有限参考组成。我们提出了一种新型的元组合图学习器(metaCGL),该图可以从不足的参考信息中有效地学习组成性并推广到看不见的组成。此外,我们通过两个新的大型数据集构建了一个基准测试,这些数据集由具有不同组成标签的自然图像组成,为RL-CZSL提供了更现实的环境。基准中的广泛实验表明,当参考文献受到构成学习的限制时,我们的方法在识别看不见的成分方面取得了最新的性能。
translated by 谷歌翻译
我们介绍了PartGolot,神经框架和相关架构,用于学习3D形几何的语义部分分割,仅基于部分参照语言。我们利用形状的语言描述可以提供形状的部分的前瞻性 - 因为自然语言已经发展,以反映对物体的组成结构的人类感知,对其认可和使用至关重要。对于培训,我们使用Shapeglot工作中收集的成对几何/语言数据来为其参考游戏,其中扬声器创建话语以区分从两个牵引器的目标形状,并且听众必须基于这种话语找到目标。我们的网络旨在解决此目标辨别问题,仔细介绍基于变压器的注意模块,以便输出注意力可以精确地突出显示语言中描述的语义部件或零件。此外,网络在3D几何形状本身上没有任何直接监督。令人惊讶的是,我们进一步证明学习部分信息是概括的,可以在训练期间形状看不见。我们的方法打开了单独从语言学习3D形状的可能性,而无需大规模部分几何注释,从而促进注释采集。
translated by 谷歌翻译
零拍语义分割(ZS3)旨在分割培训中没有看到的新型类别。现有的作品将zs3作为像素级零拍分类问题,以及在仅使用文本预先培训的语言模型的帮助下,将语义知识从看见课程转移到未知一体。虽然简单,像素级ZS3配方显示了集成具有图像文本对预训练的视觉语言模型的有限能力,并且目前展示了愿景任务的巨大潜力。灵感来自观察,人类经常执行段级语义标签,我们建议将zs3分成两个子任务:1)将像素分组到段中的类别不可知的分组任务。 2)段的零拍分类任务。前者的子任务不涉及类别信息,可以直接传输到未安装类的组像素。后一子任务在段级执行,提供了一种自然的方式,可以利用预先培训的大规模视觉模型,用于ZS3的图像文本对(例如剪辑)。基于解耦制剂,我们提出了一种简单且有效的零拍语义分割模型,称为ZegFormer,这优于大幅边缘的先前方法,例如,Pascal VOC的35分和3分在Coco-在宫颈课程方面的东西。代码将在https://github.com/dingjiansw101/zegformer发布。
translated by 谷歌翻译
尽管在零射门学习(ZSL)方面取得了巨大进展,但大多数现有方法仍然依赖于人类通知的属性,这些属性很难注释和扩展。一个无监督的替代方法是使用与其语义类名称相关的单词嵌入来表示每个类。但是,从预训练的语言模型中提取的单词嵌入不一定会捕获视觉相似性,从而导致零拍的性能差。在这项工作中,我们认为在线文本文档,例如Wikipedia,包含有关对象类的丰富视觉描述,因此可以用作ZSL的强大无监督的侧面信息。为此,我们提出了I2Dformer,这是一种基于变压器的新型ZSL框架,共同学会通过在共享嵌入空间中对齐两个方式来编码图像和文档。为了从嘈杂的文档中提取歧视性的视觉单词,我们介绍了一个新的跨模式注意模块,该模块可以学习图像补丁和文档单词之间的细粒度相互作用。因此,我们的i2dformer不仅学习了捕获视觉相似性的高度歧视文档的嵌入,而且还获得了将视觉相关单词定位在图像区域中的能力。定量地,我们证明我们的i2形式在三个公共数据集上的零照片和广义零局学习设置下都显着优于先前无监督的语义嵌入。定性地,我们表明我们的方法会导致高度可解释的结果,其中文档单词可以基于图像区域。
translated by 谷歌翻译
We present PartNet: a consistent, large-scale dataset of 3D objects annotated with fine-grained, instance-level, and hierarchical 3D part information. Our dataset consists of 573,585 part instances over 26,671 3D models covering 24 object categories. This dataset enables and serves as a catalyst for many tasks such as shape analysis, dynamic 3D scene modeling and simulation, affordance analysis, and others. Using our dataset, we establish three benchmarking tasks for evaluating 3D part recognition: fine-grained semantic segmentation, hierarchical semantic segmentation, and instance segmentation. We benchmark four state-ofthe-art 3D deep learning algorithms for fine-grained semantic segmentation and three baseline methods for hierarchical semantic segmentation. We also propose a novel method for part instance segmentation and demonstrate its superior performance over existing methods.
translated by 谷歌翻译
Object instance segmentation is a key challenge for indoor robots navigating cluttered environments with many small objects. Limitations in 3D sensing capabilities often make it difficult to detect every possible object. While deep learning approaches may be effective for this problem, manually annotating 3D data for supervised learning is time-consuming. In this work, we explore zero-shot instance segmentation (ZSIS) from RGB-D data to identify unseen objects in a semantic category-agnostic manner. We introduce a zero-shot split for Tabletop Objects Dataset (TOD-Z) to enable this study and present a method that uses annotated objects to learn the ``objectness'' of pixels and generalize to unseen object categories in cluttered indoor environments. Our method, SupeRGB-D, groups pixels into small patches based on geometric cues and learns to merge the patches in a deep agglomerative clustering fashion. SupeRGB-D outperforms existing baselines on unseen objects while achieving similar performance on seen objects. Additionally, it is extremely lightweight (0.4 MB memory requirement) and suitable for mobile and robotic applications. The dataset split and code will be made publicly available upon acceptance.
translated by 谷歌翻译
Traditional 3D scene understanding approaches rely on labeled 3D datasets to train a model for a single task with supervision. We propose OpenScene, an alternative approach where a model predicts dense features for 3D scene points that are co-embedded with text and image pixels in CLIP feature space. This zero-shot approach enables task-agnostic training and open-vocabulary queries. For example, to perform SOTA zero-shot 3D semantic segmentation it first infers CLIP features for every 3D point and later classifies them based on similarities to embeddings of arbitrary class labels. More interestingly, it enables a suite of open-vocabulary scene understanding applications that have never been done before. For example, it allows a user to enter an arbitrary text query and then see a heat map indicating which parts of a scene match. Our approach is effective at identifying objects, materials, affordances, activities, and room types in complex 3D scenes, all using a single model trained without any labeled 3D data.
translated by 谷歌翻译
3D语义分割是几个场景的基本构建块,了解自主驾驶,机器人和AR / VR等应用程序。若干最先进的语义分割模型遭受零件错误分类问题,其中相同对象的部分被错误地标记。以前的方法已经利用了分层,迭代方法来熔断语义和实例信息,但它们在上下文融合中缺乏可读性,并且是计算复杂和启发式驱动的。本文提出了分段融合,一种基于新的语义和实例信息的分层融合方法,以解决零件错误分类。呈现的方法包括图形分段算法,用于将点分组到段落的段,该段汇编到分段 - 方向特征中的点亮特征,基于学习的关注的网络基于它们的语义和实例特征来融合这些段,然后是简单而有效的连接的组件标记算法将段特征转换为实例标签。段融合可以灵活地使用任何网络架构进行语义/实例分段。当在SCANNet和S3DIS数据集上评估时,它通过高达5%提高了多个语义细分骨架的定性和定量性能。
translated by 谷歌翻译
Recent works have shown that unstructured text (documents) from online sources can serve as useful auxiliary information for zero-shot image classification. However, these methods require access to a high-quality source like Wikipedia and are limited to a single source of information. Large Language Models (LLM) trained on web-scale text show impressive abilities to repurpose their learned knowledge for a multitude of tasks. In this work, we provide a novel perspective on using an LLM to provide text supervision for a zero-shot image classification model. The LLM is provided with a few text descriptions from different annotators as examples. The LLM is conditioned on these examples to generate multiple text descriptions for each class(referred to as views). Our proposed model, I2MVFormer, learns multi-view semantic embeddings for zero-shot image classification with these class views. We show that each text view of a class provides complementary information allowing a model to learn a highly discriminative class embedding. Moreover, we show that I2MVFormer is better at consuming the multi-view text supervision from LLM compared to baseline models. I2MVFormer establishes a new state-of-the-art on three public benchmark datasets for zero-shot image classification with unsupervised semantic embeddings.
translated by 谷歌翻译
我们提出切碎,这是一种3D形状区域分解的方法。 Shred将3D点云作为输入,并使用学习的本地操作来产生近似细粒零件实例的分割。我们将切碎的分解操作赋予了三个分解操作:分裂区域,固定区域之间的边界,并将区域合并在一起。模块经过独立和本地培训,使切碎可以为在培训过程中未见的类别生成高质量的细分。我们通过Partnet的细粒细分进行训练和评估切碎;使用其合并 - 阈值超参数,我们表明,在任何所需的分解粒度下,切碎的分割可以更好地尊重与基线方法相比,更好地尊重地面真相的注释。最后,我们证明切碎对于下游应用非常有用,在零弹药细粒的零件实例分割上的所有基准都超过了所有基准,并且当与学习标记形状区域的方法结合使用时,几乎没有发射细粒的语义分割。
translated by 谷歌翻译
Open-vocabulary scene understanding aims to localize and recognize unseen categories beyond the annotated label space. The recent breakthrough of 2D open-vocabulary perception is largely driven by Internet-scale paired image-text data with rich vocabulary concepts. However, this success cannot be directly transferred to 3D scenarios due to the inaccessibility of large-scale 3D-text pairs. To this end, we propose to distill knowledge encoded in pre-trained vision-language (VL) foundation models through captioning multi-view images from 3D, which allows explicitly associating 3D and semantic-rich captions. Further, to facilitate coarse-to-fine visual-semantic representation learning from captions, we design hierarchical 3D-caption pairs, leveraging geometric constraints between 3D scenes and multi-view images. Finally, by employing contrastive learning, the model learns language-aware embeddings that connect 3D and text for open-vocabulary tasks. Our method not only remarkably outperforms baseline methods by 25.8% $\sim$ 44.7% hIoU and 14.5% $\sim$ 50.4% hAP$_{50}$ on open-vocabulary semantic and instance segmentation, but also shows robust transferability on challenging zero-shot domain transfer tasks. Code will be available at https://github.com/CVMI-Lab/PLA.
translated by 谷歌翻译
我们呈现Point-Bert,一种用于学习变压器的新范式,以概括BERT对3D点云的概念。灵感来自BERT,我们将屏蔽点建模(MPM)任务设计为预列火车点云变压器。具体地,我们首先将点云划分为几个本地点修补程序,并且具有离散变化性AutoEncoder(DVAE)的点云标记器被设计为生成包含有意义的本地信息的离散点令牌。然后,我们随机掩盖了一些输入点云的补丁并将它们送入骨干变压器。预训练目标是在销售器获得的点代币的监督下恢复蒙面地点的原始点令牌。广泛的实验表明,拟议的BERT风格的预训练策略显着提高了标准点云变压器的性能。配备了我们的预培训策略,我们表明,纯变压器架构对ModelNet40的准确性为93.8%,在ScanObjectnn的最艰难的设置上的准确性为83.1%,超越精心设计的点云模型,手工制作的设计更少。我们还证明,Point-Bert从新的任务和域中获悉的表示,我们的模型在很大程度上推动了几个射击点云分类任务的最先进。代码和预先训练的型号可在https://github.com/lulutang0608/pint -bert上获得
translated by 谷歌翻译
多视图投影方法在3D理解任务等方面表现出有希望的性能,如3D分类和分割。然而,它仍然不明确如何将这种多视图方法与广泛可用的3D点云组合。以前的方法使用未受忘掉的启发式方法在点级别结合功能。为此,我们介绍了多视图点云(vinoint云)的概念,表示每个3D点作为从多个视图点提取的一组功能。这种新颖的3D Vintor云表示将3D点云表示的紧凑性与多视图表示的自然观。当然,我们可以用卷积和汇集操作配备这一新的表示。我们以理论上建立的功能形式部署了Voint神经网络(vointnet),以学习vinite空间中的表示。我们的小说代表在ScanObjectnn,ModelNet40和ShapEnet​​ Core55上实现了3D分类和检索的最先进的性能。此外,我们在ShapeNet零件上实现了3D语义细分的竞争性能。进一步的分析表明,与其他方法相比,求力提高了旋转和闭塞的鲁棒性。
translated by 谷歌翻译
我们提出了一种基于动态卷积的3D点云的实例分割方法。这使其能够在推断时适应变化的功能和对象尺度。这样做避免了一些自下而上的方法的陷阱,包括对超参数调整和启发式后处理管道的依赖,以弥补物体大小的不可避免的可变性,即使在单个场景中也是如此。通过收集具有相同语义类别并为几何质心进行仔细投票的均匀点,网络的表示能力大大提高了。然后通过几个简单的卷积层解码实例,其中参数是在输入上生成的。所提出的方法是无建议的,而是利用适应每个实例的空间和语义特征的卷积过程。建立在瓶颈层上的轻重量变压器使模型可以捕获远程依赖性,并具有有限的计算开销。结果是一种简单,高效且健壮的方法,可以在各种数据集上产生强大的性能:ScannETV2,S3DIS和Partnet。基于体素和点的体系结构的一致改进意味着提出的方法的有效性。代码可在以下网址找到:https://git.io/dyco3d
translated by 谷歌翻译
与其2D图像对应物相比,3D点云数据上的零射击学习是一个相关的未置换问题。 3D数据由于不可用的预训练特征提取模型而带来了ZSL的新挑战。为了解决这个问题,我们提出了一种及时引导的3D场景生成和监督方法,该方法可以增强3D数据以更好地学习网络,从而探索可见和看不见的对象的复杂相互作用。首先,我们以提示描述的某些方式合并了两个3D模型的点云。提示的行为就像描述每个3D场景的注释一样。后来,我们进行对比学习,以端到端的方式培训我们所提出的建筑。我们认为,与单​​个对象相比,3D场景可以更有效地关联对象,因为当对象出现在上下文中时,流行的语言模型(如Bert)可以实现高性能。我们提出的及时引导场景生成方法封装了数据扩展和基于及时的注释/字幕,以提高3D ZSL性能。我们已经在合成(ModelNet40,ModelNet10)和实扫描(ScanoJbectnn)3D对象数据集上实现了最新的ZSL和广义ZSL性能。
translated by 谷歌翻译
我们提出了神经引导的形状解析器(NGSP),一种方法,该方法学习如何将细粒度语义标签分配给3D形状的区域。 NGSP通过MAP推断解决了这个问题,在输入形状上建模了标签分配的后验概率,其具有学习的似然函数。为了使这次搜索易于进行,NGSP采用神经指南网络,了解近似后部。 NGSP通过使用引导网络的第一次采样提案找到高概率标签分配,然后在完全可能性下评估每个提案。我们评估NGSP从Partnet的制造3D形状的细粒度语义分割任务,其中形状被分解成对应于零件实例过分分割的区域。我们发现NGSP通过比较方法提供显着的性能改进,(i)使用区域对分组每点预测,(ii)使用区域作为自我监督信号或(iii)将标签分配给替代配方下的区域。此外,我们表明,即使具有有限的标记数据或作为形状区域经历人为腐败,NGSP即使具有有限的人为腐败,也会保持强劲的性能。最后,我们证明了NGSP可以直接应用于在线存储库中的CAD形状,并验证其效力与感知研究。
translated by 谷歌翻译