In contrast to fully supervised methods using pixel-wise mask labels, box-supervised instance segmentation takes advantage of simple box annotations, which has recently attracted increasing research attention. This paper presents a novel single-shot instance segmentation approach, namely Box2Mask, which integrates the classical level-set evolution model into deep neural network learning to achieve accurate mask prediction with only bounding box supervision. Specifically, both the input image and its deep features are employed to evolve the level-set curves implicitly, and a local consistency module based on a pixel affinity kernel is used to mine the local context and spatial relations. Two types of single-stage frameworks, i.e., CNN-based and transformer-based frameworks, are developed to empower the level-set evolution for box-supervised instance segmentation, and each framework consists of three essential components: instance-aware decoder, box-level matching assignment and level-set evolution. By minimizing the level-set energy function, the mask map of each instance can be iteratively optimized within its bounding box annotation. The experimental results on five challenging testbeds, covering general scenes, remote sensing, medical and scene text images, demonstrate the outstanding performance of our proposed Box2Mask approach for box-supervised instance segmentation. In particular, with the Swin-Transformer large backbone, our Box2Mask obtains 42.4% mask AP on COCO, which is on par with the recently developed fully mask-supervised methods. The code is available at: https://github.com/LiWentomng/boxlevelset.
translated by 谷歌翻译
与使用像素面罩标签的完全监督的方法相反,盒子监督实例细分利用了简单的盒子注释,该盒子注释最近吸引了许多研究注意力。在本文中,我们提出了一种新颖的单弹盒监督实例分割方法,该方法将经典级别设置模型与深度神经网络精致整合在一起。具体而言,我们提出的方法迭代地通过端到端的方式通过基于Chan-Vese的连续能量功能来学习一系列级别集。一个简单的掩码监督的SOLOV2模型可供选择,以预测实例感知的掩码映射为每个实例的级别设置。输入图像及其深度特征都被用作输入数据来发展级别集曲线,其中使用框投影函数来获得初始边界。通过最大程度地减少完全可分化的能量函数,在其相应的边界框注释中迭代优化了每个实例的级别设置。在四个具有挑战性的基准上的实验结果表明,在各种情况下,我们提出的强大实例分割方法的领先表现。该代码可在以下网址获得:https://github.com/liwentomng/boxlevelset。
translated by 谷歌翻译
关于驾驶场景图像的语义细分对于自动驾驶至关重要。尽管在白天图像上已经实现了令人鼓舞的性能,但由于暴露不足和缺乏标记的数据,夜间图像的性能不那么令人满意。为了解决这些问题,我们提出了一个称为双图像自动学习过滤器(拨号过滤器)的附加模块,以改善夜间驾驶条件下的语义分割,旨在利用不同照明下驾驶场景图像的内在特征。拨盘滤波器由两个部分组成,包括图像自适应处理模块(IAPM)和可学习的引导过滤器(LGF)。使用拨号过滤器,我们设计了无监督和有监督的框架,用于夜间驾驶场景细分,可以以端到端的方式进行培训。具体而言,IAPM模块由一个带有一组可区分图像过滤器的小型卷积神经网络组成,可以自适应地增强每个图像,以更好地相对于不同的照明。 LGF用于增强分割网络的输出以获得最终的分割结果。拨号过滤器轻巧有效,可以在白天和夜间图像中轻松应用它们。我们的实验表明,Dail过滤器可以显着改善ACDC_Night和Nightcity数据集的监督细分性能,而它展示了有关无监督的夜间夜间语义细分的最新性能,在黑暗的苏黎世和夜间驾驶测试床上。
translated by 谷歌翻译
与特殊线性组和嵌入谎言代数结构具有基本关系。尽管谎言代数表示优雅,但很少有研究人员在同构估计与代数表达之间建立了联系。在本文中,我们提出了扭曲的卷积网络(WCN),以有效地估计SL(3)组和SL(3)代数的分组转换。为此,SL(3)组中的六个换向子组组成以形成一个跨摄影转换。对于每个子组,提出了一个翘曲函数,以将Lie代数结构桥接到其在断层扫描中的相应参数上。通过利用扭曲的卷积,同构估计得出了几个简单的伪翻译回归。通过沿着谎言拓扑行走,我们提出的WCN能够学习对构造转换不变的功能。它可以很容易地插入其他基于CNN的方法中。对POT基准和MNIST-PROJ数据集进行了广泛的实验表明,我们提出的方法对同型估计和分类都有效。
translated by 谷歌翻译
固态激光雷达比传统的机械多线旋转倍增痛更紧凑,更便宜,这些旋转痛苦在最近在自主驾驶中变得越来越流行。但是,对于这些新的激光雷达传感器,包括严重的运动扭曲,较小的视野和稀疏点云存在一些挑战,这阻碍了它们被广泛用于激光雷达的探测仪。为了解决这些问题,我们为基于Risley Prism基于非重复扫描模式的基于Risley Prism的LIDAR提供了有效的连续时间激光射(ECTLO)方法。为了说明嘈杂的数据,将基于滤波器的平面高斯混合物模型用于强大的注册。此外,采用了仅开激光的连续运动模型来缓解不可避免的扭曲。为了促进隐式数据关联并行,我们将所有MAP点保持在单个范围图像中。使用具有不同扫描模式的固态激光雷达对各种测试床进行了广泛的实验,其有前途的结果证明了我们提出的方法的功效。
translated by 谷歌翻译
尽管通过自学意识到,基于多层感知的方法在形状和颜色恢复方面取得了令人鼓舞的结果,但在学习深层隐式表面表示方面通常会遭受沉重的计算成本。由于渲染每个像素需要一个向前的网络推断,因此合成整个图像是非常密集的。为了应对这些挑战,我们提出了一种有效的粗到精细方法,以从本文中从多视图中恢复纹理网格。具体而言,采用可区分的泊松求解器来表示对象的形状,该求解器能够产生拓扑 - 敏捷和水密表面。为了说明深度信息,我们通过最小化渲染网格与多视图立体声预测深度之间的差异来优化形状几何形状。与形状和颜色的隐式神经表示相反,我们引入了一种基于物理的逆渲染方案,以共同估计环境照明和对象的反射率,该方案能够实时呈现高分辨率图像。重建的网格的质地是从可学习的密集纹理网格中插值的。我们已经对几个多视图立体数据集进行了广泛的实验,其有希望的结果证明了我们提出的方法的功效。该代码可在https://github.com/l1346792580123/diff上找到。
translated by 谷歌翻译
在本文中,我们考虑了同时找到和从单个2D图像中恢复多手的具有挑战性的任务。先前的研究要么关注单手重建,要么以多阶段的方式解决此问题。此外,常规的两阶段管道首先检测到手部区域,然后估计每个裁剪贴片的3D手姿势。为了减少预处理和特征提取中的计算冗余,我们提出了一条简洁但有效的单阶段管道。具体而言,我们为多手重建设计了多头自动编码器结构,每个HEAD网络分别共享相同的功能图并分别输出手动中心,姿势和纹理。此外,我们采用了一个弱监督的计划来减轻昂贵的3D现实世界数据注释的负担。为此,我们提出了一系列通过舞台训练方案优化的损失,其中根据公开可用的单手数据集生成具有2D注释的多手数据集。为了进一步提高弱监督模型的准确性,我们在单手和多个手设置中采用了几个功能一致性约束。具体而言,从本地功能估算的每只手的关键点应与全局功能预测的重新投影点一致。在包括Freihand,HO3D,Interhand 2.6M和RHD在内的公共基准测试的广泛实验表明,我们的方法在弱监督和完全监督的举止中优于基于最先进的模型方法。代码和模型可在{\ url {https://github.com/zijinxuxu/smhr}}上获得。
translated by 谷歌翻译
LIDAR传感器对于自动驾驶汽车和智能机器人的感知系统至关重要。为了满足现实世界应用程序中的实时要求,有必要有效地分割激光扫描。以前的大多数方法将3D点云直接投影到2D球形范围图像上,以便它们可以利用有效的2D卷积操作进行图像分割。尽管取得了令人鼓舞的结果,但在球形投影中,邻里信息尚未保存得很好。此外,在单个扫描分割任务中未考虑时间信息。为了解决这些问题,我们提出了一种新型的语义分割方法,用于元素rangeseg的激光雷达序列,其中引入了新的范围残差图像表示以捕获空间时间信息。具体而言,使用元内核来提取元特征,从而减少了2D范围图像坐标输入和3D笛卡尔坐标输出之间的不一致。有效的U-NET主链用于获得多尺度功能。此外,特征聚合模块(FAM)增强了范围通道的作用,并在不同级别上汇总特征。我们已经进行了广泛的实验,以评估semantickitti和semanticposs。有希望的结果表明,我们提出的元rangeseg方法比现有方法更有效。我们的完整实施可在https://github.com/songw-zju/meta-rangeseg上公开获得。
translated by 谷歌翻译
从多模式数据学习是机器学习中的一个重要研究主题,这有可能获得更好的表示。在这项工作中,我们提出了一种基于生成对冲网络的多模式数据建模的新方法。为了学习相干的多模式生成模型,我们表明有必要同时将不同的编码器分布与联合解码器分布对齐。为此,我们构建一种特定形式的鉴别器,以使我们的模型能够有效地利用数据,这可以受到影响。通过利用对比学习通过分解鉴别者,我们培训我们的模型在单向数据上。我们对基准数据集进行了实验,其有希望的结果表明,我们提出的方法越优于各种指标的最先进的方法。源代码将公开可用。
translated by 谷歌翻译
虽然基于深度学习的对象检测方法在传统的数据集上取得了有希望的结果,但它仍然具有挑战性,以从恶劣天气条件下捕获的低质量图像定位对象仍然具有挑战性。现有方法在平衡图像增强和对象检测的任务方面具有困难,或者通常忽略有利于检测的潜在信息。为了减轻这个问题,我们提出了一种新颖的图像自适应yolo(IA-YOLO)框架,其中可以适自动化的图像以获得更好的检测性能。具体地,提出了可视的图像处理(DIP)模块以考虑YOLO检测器的恶劣天气条件,其参数由小型卷积神经网络(CNN-PP)预测。我们以端到端的方式共同学习CNN-PP和YOLOV3,确保CNN-PP可以学习适当的DIP以以弱监督方式增强图像以进行检测。我们所提出的IA-Yolo方法可以在正常和恶劣天气条件下自适应地处理图像。实验结果非常令人鼓舞,展示了我们提出的IA-Yolo方法在雾和低光场景中的有效性。
translated by 谷歌翻译