Weakly-supervised object localization aims to indicate the category as well as the scope of an object in an image given only the image-level labels. Most of the existing works are based on Class Activation Mapping (CAM) and endeavor to enlarge the discriminative area inside the activation map to perceive the whole object, yet ignore the co-occurrence confounder of the object and context (e.g., fish and water), which makes the model inspection hard to distinguish object boundaries. Besides, the use of CAM also brings a dilemma problem that the classification and localization always suffer from a performance gap and can not reach their highest accuracy simultaneously. In this paper, we propose a casual knowledge distillation method, dubbed KD-CI-CAM, to address these two under-explored issues in one go. More specifically, we tackle the co-occurrence context confounder problem via causal intervention (CI), which explores the causalities among image features, contexts, and categories to eliminate the biased object-context entanglement in the class activation maps. Based on the de-biased object feature, we additionally propose a multi-teacher causal distillation framework to balance the absorption of classification knowledge and localization knowledge during model training. Extensive experiments on several benchmarks demonstrate the effectiveness of KD-CI-CAM in learning clear object boundaries from confounding contexts and addressing the dilemma problem between classification and localization performance.
translated by 谷歌翻译
Although various methods have been proposed for multi-label classification, most approaches still follow the feature learning mechanism of the single-label (multi-class) classification, namely, learning a shared image feature to classify multiple labels. However, we find this One-shared-Feature-for-Multiple-Labels (OFML) mechanism is not conducive to learning discriminative label features and makes the model non-robustness. For the first time, we mathematically prove that the inferiority of the OFML mechanism is that the optimal learned image feature cannot maintain high similarities with multiple classifiers simultaneously in the context of minimizing cross-entropy loss. To address the limitations of the OFML mechanism, we introduce the One-specific-Feature-for-One-Label (OFOL) mechanism and propose a novel disentangled label feature learning (DLFL) framework to learn a disentangled representation for each label. The specificity of the framework lies in a feature disentangle module, which contains learnable semantic queries and a Semantic Spatial Cross-Attention (SSCA) module. Specifically, learnable semantic queries maintain semantic consistency between different images of the same label. The SSCA module localizes the label-related spatial regions and aggregates located region features into the corresponding label feature to achieve feature disentanglement. We achieve state-of-the-art performance on eight datasets of three tasks, \ie, multi-label classification, pedestrian attribute recognition, and continual multi-label learning.
translated by 谷歌翻译
隐式神经表示显示了3D场景重建的有希望的潜力。最近的工作将其应用于自主3D重建,通过学习信息获得图路径计划的信息增益。有效,信息增益的计算很昂贵,并且与使用体积表示相比,使用隐式表示为3D点进行碰撞检查要慢得多。在本文中,我们建议1)利用神经网络作为信息增益场的隐式函数近似器,以及2)将隐式细粒表示与粗量表示形式结合起来,以提高效率。随着效率的提高,我们提出了基于基于图的计划者的新型信息路径计划。我们的方法表明,与具有隐性和明确表示的自主重建相比,重建质量和计划效率的显着提高。我们将该方法部署在真正的无人机上,结果表明我们的方法可以计划信息意见并以高质量重建场景。
translated by 谷歌翻译
我们为平面姿势图优化提供了一个强大的框架,该框架被环闭合离群值污染。我们的框架首先将截短的最小二乘内核包裹的强大的PGO问题拒绝了异常值,从而拒绝了异常值。然后,该框架引入了线性角度表示,以重写最初用旋转矩阵配制的第一个子问题。该框架配置为渐变的非凸度(GNC)算法,以连续解决两个非凸子问题,而无需初始猜测。得益于两个子问题的线性属性,我们的框架只需要线性求解器才能最佳地解决GNC中遇到的优化问题。我们在平面PGO基准中广泛验证了所提出的框架,称为Degnc-Laf(脱钩的非跨性别量均具有线性角度公式)。事实证明,它比标准和通用GNC的速度显着(有时达到30倍以上),同时导致高质量的估计值。
translated by 谷歌翻译
循环闭合是同时定位和映射(SLAM)系统的重要组成部分。大型视野(FOV)摄像机在SLAM领域受到了广泛的关注,因为它们可以利用全景图像上更多的周围功能。在大型VIO中,用于结合位于全景镜头负面平面上的信息提示,图像特征由具有单位长度的三维矢量表示。虽然全景FOV似乎对于循环封闭是有利的,但在大角度的差异下,这些好处不能轻易实现,在大型角度差异下,循环封闭帧几乎无法通过现有方法匹配。在这项工作中,为了完全释放超宽FOV的潜力,我们建议利用VIO系统的态度信息来指导环路闭合的特征点检测。随着宽圈全景数据上的循环封闭进一步带有许多离群值,因此传统的异常拒绝方法并非直接适用。为了解决此问题,我们提出了一个基于单位长度表示的新离群拒绝方法的循环封闭框架,以提高LF-VIO的准确性。在公共Palvio数据集上,进行了一组全面的实验,并提出的LF-Vio-loop优于最先进的视觉惯性化学方法。我们的代码将在https://github.com/flysoaryun/lf-vio-loop上开放。
translated by 谷歌翻译
作为自动驾驶系统的核心部分,运动计划已受到学术界和行业的广泛关注。但是,由于非体力学动力学,尤其是在存在非结构化的环境和动态障碍的情况下,没有能够有效的轨迹计划解决方案能够为空间周期关节优化。为了弥合差距,我们提出了一种多功能和实时轨迹优化方法,该方法可以在任意约束下使用完整的车辆模型生成高质量的可行轨迹。通过利用类似汽车的机器人的差异平坦性能,我们使用平坦的输出来分析所有可行性约束,以简化轨迹计划问题。此外,通过全尺寸多边形实现避免障碍物,以产生较少的保守轨迹,并具有安全保证,尤其是在紧密约束的空间中。我们通过最先进的方法介绍了全面的基准测试,这证明了所提出的方法在效率和轨迹质量方面的重要性。现实世界实验验证了我们算法的实用性。我们将发布我们的代码作为开源软件包,目的是参考研究社区。
translated by 谷歌翻译
在多种方案中,多幕科建议专门为用户检索相关项目,这在工业推荐系统中无处不在。这些方案享有用户和项目中的一部分重叠,而不同方案的分布则不同。多阶段建模的关键点是有效地最大程度地利用全幕纳罗来信息,并在多种情况下为用户和项目生成适应性表示。我们总结了三个实用挑战,这些挑战无法很好地解决多幕科建模:(1)在多种情况下缺乏细粒度和脱钩的信息传输控制。 (2)整个空间样品的开发不足。 (3)项目的多幕科代表性分解问题。在本文中,我们提出了一种情景自适应和自我监督(SASS)模型,以解决上述三个挑战。具体而言,我们使用场景自适应门单元设计了多层场景自适应转移(ML-SAT)模块,以相当细粒度且脱钩的方式选择并融合从整个场景到单个场景的有效传输信息。为了充分利用整个空间样品的功能,引入了包括预训练和微调在内的两阶段训练过程。预训练阶段是基于场景监督的对比学习任务,并从标记和未标记的数据空间中绘制的培训样本。该模型是在用户端和项目方面对称创建的,因此我们可以在不同情况下获得项目的区分表示。公共和工业数据集的广泛实验结果证明了SASS模型比最先进的方法的优越性。该模型还可以在在线A/B测试中平均每位用户的观看时间提高8.0%以上。
translated by 谷歌翻译
碰撞评估在各种应用中至关重要。但是,现有方法要么很麻烦地计算出实际值的差距。在本文中,我们提出了一个零范围的全身碰撞评估,该评估可以作为低维线性程序的配方。该评估可以在O(M)计算时间分析上解决,其中M是该线性程序中线性不平等的总数。此外,提出的方法有效地获得了其梯度,因此可以轻松地应用于基于优化的应用程序。
translated by 谷歌翻译
视频对象检测一直是计算机视觉中一个重要但充满挑战的话题。传统方法主要集中于设计图像级或框级特征传播策略以利用时间信息。本文认为,通过更有效,更有效的功能传播框架,视频对象探测器可以在准确性和速度方面提高。为此,本文研究了对象级特征传播,并提出了一个针对高性能视频对象检测的对象查询传播(QueryProp)框架。所提出的查询Prop包含两个传播策略:1)查询传播是从稀疏的钥匙帧到密集的非钥匙框架执行的,以减少非钥匙帧的冗余计算; 2)查询传播是从以前的关键帧到当前关键框架进行的,以通过时间上下文建模来改善特征表示。为了进一步促进查询传播,自适应传播门旨在实现灵活的钥匙框架选择。我们在Imagenet VID数据集上进行了广泛的实验。 QueryProp通过最先进的方法实现了可比的精度,并实现了不错的精度/速度权衡。代码可在https://github.com/hf1995/queryprop上获得。
translated by 谷歌翻译
人际关系的阻塞和深度歧义使估计单眼多人的3D姿势是以摄像头为中心的坐标,这是一个具有挑战性的问题。典型的自上而下框架具有高计算冗余,并具有额外的检测阶段。相比之下,自下而上的方法的计算成本较低,因为它们受人数的影响较小。但是,大多数现有的自下而上方法将以摄像头3D为中心的人姿势估计视为两个无关的子任务:2.5D姿势估计和以相机为中心的深度估计。在本文中,我们提出了一个统一模型,该模型利用这两个子任务的相互益处。在框架内,稳健结构的2.5D姿势估计旨在基于深度关系识别人际遮挡。此外,我们开发了一种端到端几何感知的深度推理方法,该方法利用了2.5D姿势和以摄像头为中心的根深度的相互益处。该方法首先使用2.5D姿势和几何信息来推断向前通行证中以相机为中心的根深度,然后利用根深蒂固,以进一步改善向后通过的2.5D姿势估计的表示。此外,我们设计了一种自适应融合方案,该方案利用视觉感知和身体几何形状来减轻固有的深度歧义问题。广泛的实验证明了我们提出的模型比广泛的自下而上方法的优越性。我们的准确性甚至与自上而下的同行竞争。值得注意的是,我们的模型比现有的自下而上和自上而下的方法快得多。
translated by 谷歌翻译