在线学习算法已成为机器学习工具箱中的无处不在的工具,并且经常用于小资源约束环境。在最成功的在线学习方法中,是决策树(DT)合奏。 DT集合提供出色的性能,同时适应数据的变化,但它们不是资源高效。增量树学习者将新节点添加到树中,但从不删除旧的节点随着时间的推移增加内存消耗。另一方面,基于梯度的树学习需要计算整个树上的渐变,这对于甚至是适度尺寸的树木而成本。在本文中,我们提出了一种新的记忆有效的在线分类集合,称为资源约束系统。我们的算法在小窗户上培训到中型决策树,并使用随机近端梯度下降来学习这些`灌木的合奏重量。我们对我们的算法提供了一个理论分析,并包括对在线环境中的方法的行为进行了广泛的讨论。在12个不同的数据集中的一系列2〜959实验中,我们将我们的方法与8种最先进的方法进行比较。我们的灌木合奏即使只有很少的内存都有良好的性能也可以保留出色的性能。我们展示SE在12例中提供了更好的准确性记忆权衡,同时具有比大多数其他方法的统计学显着更好的性能。我们的实现是在https://github.com/sbuschjaeger/se-online下获得的。
translated by 谷歌翻译
Research connecting text and images has recently seen several breakthroughs, with models like CLIP, DALL-E 2, and Stable Diffusion. However, the connection between text and other visual modalities, such as lidar data, has received less attention, prohibited by the lack of text-lidar datasets. In this work, we propose LidarCLIP, a mapping from automotive point clouds to a pre-existing CLIP embedding space. Using image-lidar pairs, we supervise a point cloud encoder with the image CLIP embeddings, effectively relating text and lidar data with the image domain as an intermediary. We show the effectiveness of LidarCLIP by demonstrating that lidar-based retrieval is generally on par with image-based retrieval, but with complementary strengths and weaknesses. By combining image and lidar features, we improve upon both single-modality methods and enable a targeted search for challenging detection scenarios under adverse sensor conditions. We also use LidarCLIP as a tool to investigate fundamental lidar capabilities through natural language. Finally, we leverage our compatibility with CLIP to explore a range of applications, such as point cloud captioning and lidar-to-image generation, without any additional training. We hope LidarCLIP can inspire future work to dive deeper into connections between text and point cloud understanding. Code and trained models available at https://github.com/atonderski/lidarclip.
translated by 谷歌翻译
Few-shot learning is a rapidly evolving area of research in machine learning where the goal is to classify unlabeled data with only one or "a few" labeled exemplary samples. Neural networks are typically trained to minimize a distance metric between labeled exemplary samples and a query set. Early few-shot approaches use an episodic training process to sub-sample the training data into few-shot batches. This training process matches the sub-sampling done on evaluation. Recently, conventional supervised training coupled with a cosine distance has achieved superior performance for few-shot. Despite the diversity of few-shot approaches over the past decade, most methods still rely on the cosine or Euclidean distance layer between the latent features of the trained network. In this work, we investigate the distributions of trained few-shot features and demonstrate that they can be roughly approximated as exponential distributions. Under this assumption of an exponential distribution, we propose a new maximum log-likelihood metric for few-shot architectures. We demonstrate that the proposed metric achieves superior performance accuracy w.r.t. conventional similarity metrics (e.g., cosine, Euclidean, etc.), and achieve state-of-the-art inductive few-shot performance. Further, additional gains can be achieved by carefully combining multiple metrics and neither of our methods require post-processing feature transformations, which are common to many algorithms. Finally, we demonstrate a novel iterative algorithm designed around our maximum log-likelihood approach that achieves state-of-the-art transductive few-shot performance when the evaluation data is imbalanced. We have made our code publicly available at https://github.com/samuelhess/MLL_FSL/.
translated by 谷歌翻译
在许多科学学科中,我们有兴趣推断一组观察到的时间序列的非线性动力学系统,这是面对混乱的行为和噪音,这是一项艰巨的任务。以前的深度学习方法实现了这一目标,通常缺乏解释性和障碍。尤其是,即使基本动力学生存在较低维的多种多样的情况下,忠实嵌入通常需要的高维潜在空间也会阻碍理论分析。在树突计算的新兴原则的推动下,我们通过线性样条基础扩展增强了动态解释和数学可牵引的分段线性(PL)复发性神经网络(RNN)。我们表明,这种方法保留了简单PLRNN的所有理论上吸引人的特性,但在相对较低的尺寸中提高了其近似任意非线性动态系统的能力。我们采用两个框架来训练该系统,一个将反向传播的时间(BPTT)与教师强迫结合在一起,另一个将基于快速可扩展的变异推理的基础。我们表明,树枝状扩展的PLRNN可以在各种动力学系统基准上获得更少的参数和尺寸,并与其他方法进行比较,同时保留了可拖动和可解释的结构。
translated by 谷歌翻译
蒙面自动编码已成为用于文本,图像和最近的点云的变压器模型的成功预训练范例。原始汽车数据集是适合自我监督预训练的合适候选者,因为与3D对象检测(OD)等任务的注释相比,它们通常便宜地收集。但是,开发点云的蒙版自动编码器仅关注合成和室内数据。因此,现有方法已将其表示和模型定制为小,密度且具有均匀点密度的点云。在这项工作中,我们在汽车环境中研究了蒙版的自动编码,该自动编码是稀疏的,并且点密度在同一场景中的对象之间可能会大不相同。为此,我们提出了Voxel-MAE,这是一种为体素表示设计的简单掩盖自动编码预训练方案。我们将基于变压器的3D对象检测器的骨干培养为重建掩盖的体素并区分空的和非空的体素。我们的方法将3D OD性能提高了1.75个地图点和1.05 nds的NUSCENES数据集。与现有的汽车数据自我监督方法相比,Voxel-Mae显示出$ 2 \ times $ $的性能提高。此外,我们表明,通过对Voxel-Mae进行预训练,我们仅需要40%的注释数据即可超过随机初始化的等效物。代码将发布。
translated by 谷歌翻译
准确的不确定性估计对于在安全关键系统中部署深层对象探测器至关重要。概率对象探测器的开发和评估受到现有绩效指标的缺点的阻碍,这些绩效指标倾向于涉及任意阈值或限制检测器的分布选择。在这项工作中,我们建议将对象检测视为设置预测任务,其中检测器预测对象集的分布。使用负面的对数可能性进行随机有限集,我们提出了一个适当的评分规则,用于评估和训练概率对象探测器。所提出的方法可以应用于现有的概率检测器,没有阈值,并可以在体系结构之间进行公平的比较。在可可数据集上评估了三种不同类型的检测器。我们的结果表明,现有检测器的培训已针对非稳定指标进行了优化。我们希望鼓励开发新的对象探测器,这些探测器可以准确估计自己的不确定性。代码可在https://github.com/georghess/pmb-nll上找到。
translated by 谷歌翻译
无法解释的黑框模型创建场景,使异常引起有害响应,从而造成不可接受的风险。这些风险促使可解释的人工智能(XAI)领域通过评估黑盒神经网络中的局部解释性来改善信任。不幸的是,基本真理对于模型的决定不可用,因此评估仅限于定性评估。此外,可解释性可能导致有关模型或错误信任感的不准确结论。我们建议通过探索Black-Box模型的潜在特征空间来从用户信任的有利位置提高XAI。我们提出了一种使用典型的几弹网络的Protoshotxai方法,该方法探索了不同类别的非线性特征之间的对比歧管。用户通过扰动查询示例的输入功能并记录任何类的示例子集的响应来探索多种多样。我们的方法是第一个可以将其扩展到很少的网络的本地解释的XAI模型。我们将ProtoShotxai与MNIST,Omniglot和Imagenet的最新XAI方法进行了比较,以进行定量和定性,Protoshotxai为模型探索提供了更大的灵活性。最后,Protoshotxai还展示了对抗样品的新颖解释和检测。
translated by 谷歌翻译
我们提出了一种使用持久性同源性(pH)的新的更有效的方法,一种方法来比较两个数据集的拓扑,用于训练深度网络以在空中图像中描绘道路网络和显微镜扫描中的神经元过程。它的本质是一种新的过滤功能,从两个现有技术的融合导出:基于阈值的过滤,以前用于将深网络培训到分段医学图像,并用高度函数过滤,以便在比较2D和3D形状之前使用。我们通过实验证明,深入的网络培训了我们的持久性同源性的损失,即道路网络和神经元过程的重建,这些过程比现有的拓扑和非拓扑损失功能更好地保持原件的连接性。
translated by 谷歌翻译
已经提出了几个持续学习技术的家庭,以减轻非静止数据深度神经网络训练的灾难性干扰。但是,由于合适数据集的可接触是可接近的,全面的比较和分析仍然很大程度上是开放的。实证检查不仅在个体作品之间变化而变化,它进一步依赖于通过各种普遍的静态视觉数据集的细分和连接来实现基准的成分。在这项工作中,我们的目标是通过引入计算机图形仿真框架来弥合这一差距,这在无尽的实时程序世界生成过程中重复越来越多的城市场景碎片。其核心在于具有适应性生成因子的模块化参数生成模型。后者可用于灵活地构图数据流,这显着促进了详细的分析,并允许轻松调查各种连续学习计划。
translated by 谷歌翻译