Lifelong learners must recognize concept vocabularies that evolve over time. A common yet underexplored scenario is learning with class labels over time that refine/expand old classes. For example, humans learn to recognize ${\tt dog}$ before dog breeds. In practical settings, dataset $\textit{versioning}$ often introduces refinement to ontologies, such as autonomous vehicle benchmarks that refine a previous ${\tt vehicle}$ class into ${\tt school-bus}$ as autonomous operations expand to new cities. This paper formalizes a protocol for studying the problem of $\textit{Learning with Evolving Class Ontology}$ (LECO). LECO requires learning classifiers in distinct time periods (TPs); each TP introduces a new ontology of "fine" labels that refines old ontologies of "coarse" labels (e.g., dog breeds that refine the previous ${\tt dog}$). LECO explores such questions as whether to annotate new data or relabel the old, how to leverage coarse labels, and whether to finetune the previous TP's model or train from scratch. To answer these questions, we leverage insights from related problems such as class-incremental learning. We validate them under the LECO protocol through the lens of image classification (CIFAR and iNaturalist) and semantic segmentation (Mapillary). Our experiments lead to surprising conclusions; while the current status quo is to relabel existing datasets with new ontologies (such as COCO-to-LVIS or Mapillary1.2-to-2.0), LECO demonstrates that a far better strategy is to annotate $\textit{new}$ data with the new ontology. However, this produces an aggregate dataset with inconsistent old-vs-new labels, complicating learning. To address this challenge, we adopt methods from semi-supervised and partial-label learning. Such strategies can surprisingly be made near-optimal, approaching an "oracle" that learns on the aggregate dataset exhaustively labeled with the newest ontology.
translated by 谷歌翻译
能够直接在原始点云上学习有效的语义表示已成为3D理解中的一个核心主题。尽管进步迅速,但最新的编码器仍限制了典型的点云,并且在遇到几何变形扭曲时的性能弱于必要的性能。为了克服这一挑战,我们提出了Point-Stree,这是一种通用点云编码器,对基于放松的K-D树的转换非常可靠。我们方法的关键是使用主组件分析(PCA)在K-d树中设计了分区规则。我们将放松的K-D树的结构用作我们的计算图,并将特征作为边框描述符建模,并将其与点式最大最大操作合并。除了这种新颖的体系结构设计外,我们还通过引入预先对准进一步提高了鲁棒性 - 一种简单但有效的基于PCA的标准化方案。我们的PointTree编码器与预先对齐的结合始终优于大边距的最先进方法,用于从对象分类到广泛基础的数据集的各种转换版本的语义分割的应用程序。代码和预训练模型可在https://github.com/immortalco/pointtree上找到。
translated by 谷歌翻译
最近,已经观察到,转移学习解决方案可能是我们解决许多少量学习基准的全部 - 因此提出了有关何时以及如何部署元学习算法的重要问题。在本文中,我们试图通过1.提出一个新颖的指标(多样性系数)来阐明这些问题,以测量几次学习基准和2.的任务多样性。 )并在公平条件下进行学习(相同的体系结构,相同的优化器和所有经过培训的模型)。使用多样性系数,我们表明流行的迷你胶原和Cifar-fs几乎没有学习基准的多样性低。这种新颖的洞察力将转移学习解决方案比在公平比较的低多样性方面的元学习解决方案更好。具体而言,我们从经验上发现,低多样性系数与转移学习和MAML学习解决方案之间的高相似性在元测试时间和分类层相似性方面(使用基于特征的距离指标,例如SVCCA,PWCCA,CKA和OPD) )。为了进一步支持我们的主张,我们发现这种元测试的准确性仍然存在,即使模型大小变化也是如此。因此,我们得出的结论是,在低多样性制度中,MAML和转移学习在公平比较时具有等效的元检验性能。我们也希望我们的工作激发了对元学习基准测试基准的更周到的结构和定量评估。
translated by 谷歌翻译
自我监督的对比学习是学习无标签的视觉表示的强大工具。先前的工作主要集中于评估各种训练算法的识别精度,但忽略了其他行为方面。除了准确性外,分布鲁棒性在机器学习模型的可靠性中起着至关重要的作用。我们设计和进行一系列鲁棒性测试,以量化对比度学习与监督学习之间的行为差​​异,以使其下游或训练前数据分布变化。这些测试利用多个级别的数据损坏,范围从像素级伽马失真到补丁级的改组,再到数据集级别的分布变化。我们的测试揭示了对比度和监督学习的有趣鲁棒性行为。一方面,在下游腐败下,我们通常会观察到对比度学习比监督学习更强大。另一方面,在训练前的损坏下,我们发现对比度学习容易被补丁改组和像素强度变化,但对数据集级别的分布变化却不太敏感。我们试图通过数据增强和特征空间属性的作用来解释这些结果。我们的见解具有改善监督学习的下游鲁棒性的意义。
translated by 谷歌翻译
几何和语义上的全面3D场景理解对于机器人感知等现实世界应用都很重要。现有的大多数工作都集中在开发以数据驱动的判别模型来理解现场。从合成模型的角度来看,本文通过利用隐式3D表示和神经渲染的最新进展,提供了一种新的场景理解方法。在神经辐射场(NERFS)的巨大成功之下,我们与NERF(SS-NERF)介绍了场景 - 陶艺合成,不仅能够从新颖的角度呈现照片真实的RGB图像,还可以使各种准确的场景属性(例如,外观,几何和语义)。通过这样做,我们便有助于解决统一框架下的各种场景理解任务,包括语义分割,表面正常估计,重新载体,键盘检测和边缘检测。我们的SS-NERF框架可以成为弥合生成学习和歧视性学习的强大工具,因此有益于研究广泛有趣的问题,例如在综合范式中研究任务关系,将知识转移到新颖的任务中,促进知识,促进下游判别任务是数据增强的方式,并作为数据创建的自动标签者。
translated by 谷歌翻译
最近的工作表明,我们需要解决许多射门学习基准的所有嵌入。此外,其他工作强烈建议,模型不可知的元学习(MAML)也通过这种相同的方法工作 - 通过学习良好的嵌入方式。这些观察结果突出了我们对Meta学习算法正在做的事情和工作时缺乏了解。在这项工作中,我们提供了对META学习的MAML表示函数的函数的一些实证结果。特别是,我们确定三个有趣的属性:1)与之前的工作相比,我们表明可以定义一系列导致低特征重复使用的合成基准组合 - 表明当前几次拍摄的学习基准可能没有元学习算法的成功所需的属性; 2)当课程(或概念)的数量是有限的时,发生了元过度装箱,并且在任务中有一个无限数量的概念(例如,在线学习),这个问题消失了; 3)使用MAML的META测试时间的更多适应性不一定导致显着的表示变化甚至可以提高META-TEST性能 - 即使在我们提出的合成基准测试中培训。最后,我们建议要更好地了解元学习算法,我们必须超越追踪绝对性能,另外,正式量化元学习的程度并将两个指标一起追踪。以后的工作报告结果,这种方式将帮助我们更准确地确定元过度装箱的来源,并帮助我们设计更灵活的元学习算法,这些算法学习超出固定功能重复使用。最后,我们猜测重新思考元学习的核心挑战是在设计少量学习数据集和基准中的设计中 - 而不是在算法中,如以前的工作所示。
translated by 谷歌翻译
最近观察到,转移学习解决方案可能是我们所需要的全部解决许多射门学习基准。这提出了关于何时以及如何部署元学习算法的重要问题。在本文中,我们通过首先将可计算的度量标准制定几次学习基准来阐明这些问题,以便我们假设是预测元学学习解决方案是否会成功的。我们命名为几秒钟学习基准的分集系数。使用多样性系数,我们表明MiniimAgeNet基准与计算多样性的二十四种不同的方式具有零多样性。我们继续表明,在MAML学会在转移学习的解决方案之间进行公平比较时,都具有相同的元测试精度。这表明转移学习未能超越MAML - 违反以前的工作表明。在一起,这两个事实提供了多样性是否与元学习成功相关的第一次测试,因此表明,与转移学习和MAML学习解决方案之间的高度相似性的分集系数 - 特别是在Meta-Test时间。因此,我们猜测元学位解决方案具有与分集系数为零时与转移学习相同的荟萃测试性能。
translated by 谷歌翻译
在基于LIDAR的自主驱动的基于LIDAR的3D对象检测中,与2D检测情况相比,对象尺寸与输入场景尺寸的比率明显较小。俯瞰此差异,许多3D探测器直接遵循2D探测器的常见做法,即使在量化点云之后,也可以将特征映射下来。在本文中,我们首先重新思考这种多级刻板印象如何影响基于激光雷达的3D对象探测器。我们的实验指出,下采样操作带来了一些优势,并导致不可避免的信息损失。要解决此问题,我们提出了单程稀疏变压器(SST),以将原始分辨率从网络的开头维护。我们的方法武装变压器,我们的方法解决了单步体系结构中的接收领域不足的问题。它还与点云的稀疏合作,自然避免昂贵的计算。最终,我们的SST在大型Waymo Open DataSet上实现了最先进的结果。值得一提的是,由于单程的特征,我们的方法可以在小物体(行人)检测上实现令人兴奋的性能(83.8级)对小物体(行人)检测。代码将在https://github.com/tusimple/sst释放
translated by 谷歌翻译
Humans can quickly learn new visual concepts, perhaps because they can easily visualize or imagine what novel objects look like from different views. Incorporating this ability to hallucinate novel instances of new concepts might help machine vision systems perform better low-shot learning, i.e., learning concepts from few examples. We present a novel approach to low-shot learning that uses this idea. Our approach builds on recent progress in meta-learning ("learning to learn") by combining a meta-learner with a "hallucinator" that produces additional training examples, and optimizing both models jointly. Our hallucinator can be incorporated into a variety of meta-learners and provides significant gains: up to a 6 point boost in classification accuracy when only a single training example is available, yielding state-of-the-art performance on the challenging ImageNet low-shot classification benchmark.
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译